Зворотний словник
Нові можливості здавна слів в пошукових системах, і бажані перспективні алгоритми.
Звучить дивно, але я поясню. Можливо, таке вже десь то й існує але я про це не знаю. До речі, це одна з причин сподвігшая мене на написання даного тексту. Думаю у кожного було таке, що забували яке або слово. Наприклад: вам треба знайти в гуглі що те що ви не пам'ятаєте, чи просто забули слово, але зате пам'ятаєте його визначення. Наприклад: ви пам'ятаєте, що в рослинах є якийсь пігмент зеленого кольору, але як він називається, не знаєте, чи забули. Тобто як би пам'ятайте визначення зі словника, але не пам'ятаєте саме значення. До недавнього часу ця задача була не вирішимо. Але думаю вона або вже вирішена, або це можна зробити. В принципі, від частини, той же гугл з нею може впорається, навіть є спеціальні сайти - ось наприклад https://loopy.ru/ - йде пошук по масці. Найсмішніше те, що поки я писав дані рядка і шукав в гуглі приклад, знайшов відповідь на це питання (вищенаведений сайт). В принципі, на цьому можна було б зупиниться. Але цікаво чи є ще подібні сервіси з більш розширеними можливостями - які можуть заміняти слова синонімами? Припустимо, я забув слово канцерогенні - але пам'ятаю що це речовини викликають рак. І ось я вводжу фразу в пошуку по масці - «речовини викликають рак» - але воно мені допустимо не чого не знайде, тому можливо в словнику значенням «канцерогени» характерно визначення «хімічні сполуки викликають пухлину» - тому було б добре якби був в пошуку брав участь алгоритм синонімів, тобто перевірялося чи можливо поєднання подібних слів з подібними синонімами (пухлини і рак та з'єднання). Від частини дані синонімічні заміни вже використовуються, типовим прикладом таких замін є можливість заміни синонімами слів у момент онлайн перекладу в гуглі. Але саме зв'язку зустрічаються синонімів між собою я не зустрічав.
Тепер головне питання. Навіщо все це треба?
Але по перше: як я вже писав для пошуку якихось унікальних слів. А ці слова зараз уже потрібні не для того що б перед ким то блиснути ерудицією, і замість «речовин викликають рак» написати «канцерогени». Ці слова дуже потрібні при тому ж пошуку в гуглі. Тому наприклад: за запитом «речовини викликають рак» ви отримаєте результат який задовольнить середньостатистичну домогосподарку. А ось за запитом канцерогени можете отримати зовсім інші результати. Хоча звичайно в подальшому даний алгоритм можна включити в пошук гугла. І на запит «речовини викликають рак» ви отримаєте результати в яких зустрічається словосполучення як і «речовини викликають рак» так і «канцерогени». Плавно ми підходимо до другого використанню даних технологій.
По друге: створивши подібні алгоритми, а можливо і розширивши їх (статистичний аналіз зустрічальності слів один з одним, їх значень і близькості смислів) ми доберемося до святая святих - розумінню машинами людини. А то, на жаль, перепрошую за грубу і обескураживающую аналогію - «людина як собака - очі розумні, все знає, все розуміє, а пояснити пошуковій системі чого він від неї хоче - не може». Але це не по тому що ми дурні, а тому що пошукові системи поки ще занадто детерміновані. Але створення даних алгоритмів дасть їм можливість нас розуміти, навіть в тому випадку, якщо ми чогось то конкретно пояснити не можемо. До речі, це вже частково реалізовано в пошуковику гугла коли вводиш слова не правильно він пропонує його виправити. А ще (де то я чув) в гуглі реалізований індивідуальний підхід. Тобто якщо ви зареєструвалися він аналізує ваші запити, припустимо ви 10 разів ввілі слово «машина», а потім ввели слово «калина», він вже не буде вам шукати «калину - ягоду», а буде шукати саме «калину - машину». Але на скільки це правильно працює і як точно - не знаю ... Дані алгоритми можна включити не тільки в онлайн пошуковики. Є практично єдина унікальна програма Лінгва (задумана як перекладач) - звичайно крім неї є й інші словники, але я зараз не буду перераховувати всі її переваги, зупинюся лише на індексуванні додаються словників, що теж іноді буває досить корисно. Ось в неї на ряду з іншим можна було б додати і вищеописані алгоритми. Хоча я впевнений, що вже давно ведуться розробки в цьому напрямку. Але в чому проблема, складність і чому вони широко не запроваджено в маси - для мене поки залишається загадкою ...