Актуальные проблемы современной науки / №4 (89) 2016

РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ (100,00 руб.)

Первый автор	Ляшко
Авторы	Портнов Е.М., Фалкова А.В.
Страниц	2

100,00р

ID	454646
Аннотация	Эффективность систем информационного поиска во многом определяется эффективностью структурирования документов, основанной на их тематическом содержании. Авторами предлагается методика, которая основана на расчете коэффициентов тематического подобия двух документов

Ляшко, К.Ю. РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ / К.Ю. Ляшко, Е.М. Портнов, А.В. Фалкова // Актуальные проблемы современной науки .— 2016 .— №4 (89) .— С. 214-215 .— URL: https://rucont.ru/efd/454646 (дата обращения: 31.12.2025)

Вы уже смотрели

Вестник МГСУ №8 2013

Военно-исторический журнал №6 2022 200,00 руб

Уголовно-исполнительное право в вопросах, ответах и схемах

Уголовно-исполнительное право в вопросах... 6000,00 руб

Основы устройства и моделирования целевого функционирования космических аппаратов наблюдения

Основы устройства и моделирования целево... 290,00 руб

Инженер и промышленник сегодня №3(3) 201...

Вестник Ассоциации вузов туризма и серви...

Предпросмотр (выдержки из произведения)

(Национальный РАЗРАБОТКА МЕТОДИК ОЦЕНКИ ТЕМАТИЧЕСКОГО ПОДОБИЯ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ Эффективность систем информационного поиска во многом определяется эффективностью структурирования документов, основанной на их тематическом содержании. <...> Авторами предлагается методика, которая основана на расчете коэффициентов тематического подобия двух документов. <...> На этапа предварительной обработки производятся следующие процедуры: • лексический анализ, включающий удаление пунктуации, цифр и т.п.; • исключение стоп-слов , которые не несут смысловой нагрузки; • выделение основ слов; • разбиение документа на параграфы, где документы s представляются в виде последовательности M(s) тематически подобных фрагментов документа Mфр. <...> Для решения задачи разбиения документа на параграфы используем эвристический подход, который основан на необходимом размере получаемого фрагмента М. <...> Применение данного подхода обусловлено тем, что при использовании значительно различающихся по размеру параграфов количество ключевых слов в них сильно различается, таким образом термы в профайлах коротких параграфов имеют значительно больший вес. <...> Для каждого параграфа Mфр создается TF-профайл, который для каждого терма T сопоставляет частоту его встречаемости в параграфе TFq(T). <...> Тематическое окружение документа используется для выявления тех особенностей, которые характеризуют тематическую ориентацию рассматриваемого документа sT относительно рассматриваемого набора документов M. <...> Таким образом важно, чтобы доля документов, являющихся тематически близкими данному документу, была в построенном тематическом окружении выше, чем по множеству М . <...> В тематическое окружение W(sT) документа sT включаются все документы sp, которые признаются тематически подобными данному документу, в соответствии со следующей методикой: sv 1. <...> Для каждого из виртуальных документов оценивается мера близости для каждой пары соседних параграфов <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или