Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635050)
Контекстум
Руконтекст антиплагиат система
Актуальные проблемы современной науки  / №4 (89) 2016

РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ (100,00 руб.)

0   0
Первый авторЛяшко
АвторыПортнов Е.М., Фалкова А.В.
Страниц2
ID454646
АннотацияЭффективность систем информационного поиска во многом определяется эффективностью структурирования документов, основанной на их тематическом содержании. Авторами предлагается методика, которая основана на расчете коэффициентов тематического подобия двух документов
Ляшко, К.Ю. РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ / К.Ю. Ляшко, Е.М. Портнов, А.В. Фалкова // Актуальные проблемы современной науки .— 2016 .— №4 (89) .— С. 214-215 .— URL: https://rucont.ru/efd/454646 (дата обращения: 06.05.2024)

Предпросмотр (выдержки из произведения)

(Национальный РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ Эффективность систем информационного поиска во многом определяется эффективностью структурирования документов, основанной на их тематическом содержании. <...> Авторами предлагается методика, которая основана на расчете коэффициентов тематического подобия двух документов. <...> На этапа предварительной обработки производятся следующие процедуры: • лексический анализ, включающий удаление пунктуации, цифр и т.п.; • исключение стоп-слов , которые не несут смысловой нагрузки; • выделение основ слов; • разбиение документа на параграфы, где документы s представляются в виде последовательности M(s) тематически подобных фрагментов документа Mфр. <...> Для решения задачи разбиения документа на параграфы используем эвристический подход, который основан на необходимом размере получаемого фрагмента М. <...> Применение данного подхода обусловлено тем, что при использовании значительно различающихся по размеру параграфов количество ключевых слов в них сильно различается, таким образом термы в профайлах коротких параграфов имеют значительно больший вес. <...> Для каждого параграфа Mфр создается TF-профайл, который для каждого терма T сопоставляет частоту его встречаемости в параграфе TFq(T). <...> Тематическое окружение документа используется для выявления тех особенностей, которые характеризуют тематическую ориентацию рассматриваемого документа sT относительно рассматриваемого набора документов M. <...> Таким образом важно, чтобы доля документов, являющихся тематически близкими данному документу, была в построенном тематическом окружении выше, чем по множеству М . <...> В тематическое окружение W(sT) документа sT включаются все документы sp, которые признаются тематически подобными данному документу, в соответствии со следующей методикой: sv 1. <...> Для каждого из виртуальных документов оценивается мера близости для каждой пары соседних параграфов <...>