Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке. <...> Поиск информации начинается с формулирования запроса, отражающего цель поиска. <...> Как известно, в ответ на запрос любая интернет-поисковая система выводит список ссылок с краткими выдержками из найденных документов. <...> Очевидно, что качество поисковой
системы с точки зрения пользователя зависит от того, насколько точно полученные выдержки отражают содержание запроса. <...> Оценка
степени соответствия полученных документов запросу или содержательной релевантности (адекватности) является, по своей сути, субъективной оценкой. <...> Для автоматизации процесса поиска информации
вводится понятие формальной релевантности. <...> Процесс информационного поиска может быть представлен последовательностью шагов,
приведенной на рис. <...> Индексируемые
документы
Индексирование
документов
Поиск
релевантных
документов
Запрос
Ранжирование
результатов
Составление
ранжированного
списка документов
Разбор
поискового
запроса
Результат
поиска
Рис. <...> 1
К переменным параметрам относятся тематика поиска и запрос. <...> Вопросы полнотекстового поиска естественным образом связаны с анализом текста. <...> Эмпирические
законы, которые отражают характерные особенности любых текстов,
ISSN 2305-5626. <...> 2013
1
созданных человеком, были сформулированы в 1949 г. лингвистом и
филологом Дж. <...> Зипфом (George Kingsley Zipf) в результате статистического анализа текстов. <...> Законы Зипфа коротко можно сформулировать следующим образом:
– в каждом языке есть слова, которые встречаются чаще, чем
остальные, но не имеют значения;
– есть слова, которые встречаются реже, но имеют намного
большее смысловое значение. <...> Очевидно, что слова входят в анализируемые
тексты разное число раз. <...> Если сгруппировать слова по частоте вхождения, то получается
подмножество слов, встречающихся в тексте примерно одинаковое
число раз. <...> Слова, которые встречаются в тексте максимальное число
раз, составляют <...>