(Национальный РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ Эффективность систем информационного поиска во многом определяется эффективностью структурирования документов, основанной на их тематическом содержании. <...> Авторами предлагается методика, которая основана на расчете коэффициентов тематического подобия двух документов. <...> На этапа предварительной обработки производятся следующие процедуры: • лексический анализ, включающий удаление пунктуации, цифр и т.п.; • исключение стоп-слов , которые не несут смысловой нагрузки; • выделение основ слов; • разбиение документа на параграфы, где документы s представляются в виде последовательности M(s) тематически подобных фрагментов документа Mфр. <...> Для решения задачи разбиения документа на параграфы используем эвристический подход, который основан на необходимом размере получаемого фрагмента М. <...> Применение данного подхода обусловлено тем, что при использовании значительно различающихся по размеру параграфов количество ключевых слов в них сильно различается, таким образом термы в профайлах коротких параграфов имеют значительно больший вес. <...> Для каждого параграфа Mфр создается TF-профайл, который для каждого терма T сопоставляет частоту его встречаемости в параграфе TFq(T). <...> Тематическое окружение документа используется для выявления тех особенностей, которые характеризуют тематическую ориентацию рассматриваемого документа sT относительно рассматриваемого набора документов M. <...> Таким образом важно, чтобы доля документов, являющихся тематически близкими данному документу, была в построенном тематическом окружении выше, чем по множеству М . <...> В тематическое окружение W(sT) документа sT включаются все документы sp, которые признаются тематически подобными данному документу, в соответствии со следующей методикой: sv 1. <...> Для каждого из виртуальных документов оценивается мера близости для каждой пары соседних параграфов <...>