Що таке унікальність тексту і як її перевірити?
Ви напевно вже не раз чули, що пошукові системи особливо цінують унікальні тексти, і тому, створюючи свій сайт або який-небудь інтернет-проект, щиро намір наповнювати його тільки оригінальними творами майстрів пера.
Інтуїтивно ви вже розумієте, що унікальний текст - це текст, написаний з нуля і несхожий на інші, тобто він такий один. Без копій, без повторень. Коли ви пишете текст самі, ви впевнені, що ваш текст унікальний. Однак яке ж буває здивування, коли раптом виявляється, що текст, який ви самі вигадали, аж ніяк не унікальний з точки зору пошукових систем.
Простий приклад. Ви придумали назву статті, забиваєте його в пошуковик і раптом бачите, що його до вас вже придумали ...
На практиці унікальність текстів перевіряється за допомогою спеціальних онлайн-сервісів або встановлюються на комп'ютері програм, які працюють за принципом пошукових систем. Ними користуються і редактори сайтів, і студії інтернет-сайтів, і самі автори.
Однак виявляється, що нічого непогрішимого немає, і ідеальних додатків за оцінкою унікальності текстів теж. Так, взявши одну давно опублікована на проекті статтю (а отже, вже має чимало дублікатів), я вирішила перевірити, наскільки подібними виявляться результати. Так, сервіс copyscape.ru показав 9 копій, miratools.ru виявив 39 дублікатів, istio.com - 23, програма DСF - більше 50. Я зацікавилася, чому ж результати настільки різні.
Якщо пояснювати простими словами, то, з точки зору роботів, унікальним буде той текст, в якому порядок слів не збігається ні з одним з наявних в арсеналі варіантів. Саме тому одним з найпростіших і швидких способів зробити текст оригінальним є перестановка пропозицій або заміна деяких слів синонімами. І там, де людина помітить явний плагіат, робот, можливо, схвально пройде мимо.
Унікальність тексту перевіряється пошуковими системами на основі складних алгоритмів, сенс роботи яких полягає в тому, щоб проаналізувати розбиті на шматочки ланцюжка слів перевіряються текстів і порівняти отримані результати. Чим коротше відрізки тексту, тим точніше виходить результат.
Текст розбивається на відрізки з п'яти-шести слів, які перетворюються в двійковий код. Під час перевірки кожній ділянці тексту присвоюється якесь унікальне число, і результат обчислюється за заданим алгоритмом у вигляді контрольної суми. У різних текстів контрольні числа не можуть збігатися. Причому в процесі подібного «сканування» тексту кінцеве слово одного відрізка є першим для нового відрізка, і, отже, жодне слово не втрачається. Цей метод називають методом шинглів. Чим коротше будуть перевіряються відрізки тексту, тим точніше результат. Виявляться не тільки точні копії вашого тексту, але і його «легкі» переробки.
Метод пасажів припускає розбивку тексту на більш великі ділянки: перевірка йде вже не на рівні словосполучень, а на рівні пропозицій. Наприклад, якщо з десяти слів одного речення п'ять слів співпадуть зі складом іншої пропозиції, його унікальність буде оцінена в 50 відсотків.
В основі більшості додатків, створених для перевірки унікальності тексту, лежить метод шинглів. Однак, поряд з високою ефективністю пошуку дублікатів, у методу є свій мінус.
Треба бути дуже обережним з подібними додатками, якщо ви, наприклад, використовуєте цитати: Тексти в лапках можуть значно зменшити показник унікальності тексту. Те ж стосується і різних поширених висловів: приказки, прислів'я, фразеологічні звороти, надаючи тексту оригінальність, можуть істотно зменшити його унікальність.
Тому не варто дивуватися, якщо ваш власноруч написаний оригінальний текст раптом забракує програма: їй не до вишукувань стилю, вся справа - в математиці.