Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635151)
Контекстум
Руконтекст антиплагиат система
Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация  / №3 2015

АЛГОРИТМ ОТБОРА ТЕМАТИЧЕСКИ СХОЖИХ ДОКУМЕНТОВ С ПОСТРОЕНИЕМ КОНТЕКСТНО-СЕМАНТИЧЕСКОГО ГРАФА НА ОСНОВЕ ВЕРОЯТНОСТНО-ЭНТРОПИЙНОГО ПОДХОДА (90,00 руб.)

0   0
Первый авторМолошников
АвторыСбоев А.Г., Гудовских Д.В.
Страниц7
ID508409
Аннотацияв работе предложен алгоритм поиска тематически схожих документов на основе эталон ной коллекции текстов с возможностью наглядной визуализации результатов поиска в виде контекстно семантического графа вложенных тем. Алгоритм основан на интеграции множества вероятностно энтропийных индикаторов для выделения набора ключевых слов и словосочетаний, описывающего тему для поиска. Результаты тестирования продемонстрировали среднюю точность отбора документов 99 % при полноте 84 % на основе выборки, предоставленной экспертами. Также предложен подход к постро ению графа на базе алгоритма извлечения ключевых словосочетаний с весами, что позволяет отобразить структуру вложенных тем в больших коллекциях документов в компактном виде
УДК004.912
Молошников, И.А. АЛГОРИТМ ОТБОРА ТЕМАТИЧЕСКИ СХОЖИХ ДОКУМЕНТОВ С ПОСТРОЕНИЕМ КОНТЕКСТНО-СЕМАНТИЧЕСКОГО ГРАФА НА ОСНОВЕ ВЕРОЯТНОСТНО-ЭНТРОПИЙНОГО ПОДХОДА / И.А. Молошников, А.Г. Сбоев, Д.В. Гудовских // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация .— 2015 .— №3 .— С. 65-71 .— URL: https://rucont.ru/efd/508409 (дата обращения: 07.05.2024)

Предпросмотр (выдержки из произведения)

УДК 004.912 АЛГОРИТМ ОТБОРА ТЕМАТИЧЕСКИ СХОЖИХ ДОКУМЕНТОВ С ПОСТРОЕНИЕМ КОНТЕКСТНО-СЕМАНТИЧЕСКОГО ГРАФА НА ОСНОВЕ ВЕРОЯТНОСТНО-ЭНТРОПИЙНОГО ПОДХОДА И. А. <...> Молошников, А. Г. Сбоев, Д. В. Гудовских Национальный исследовательский центр «Курчатовский институт» Поступила в редакцию 14 апреля 2015 г. Аннотация: в работе предложен алгоритм поиска тематически схожих документов на основе эталонной коллекции текстов с возможностью наглядной визуализации результатов поиска в виде контекстносемантического графа вложенных тем. <...> Алгоритм основан на интеграции множества вероятностноэнтропийных индикаторов для выделения набора ключевых слов и словосочетаний, описывающего тему для поиска. <...> Результаты тестирования продемонстрировали среднюю точность отбора документов 99 % при полноте 84 % на основе выборки, предоставленной экспертами. <...> Также предложен подход к построению графа на базе алгоритма извлечения ключевых словосочетаний с весами, что позволяет отобразить структуру вложенных тем в больших коллекциях документов в компактном виде. <...> Ключевые слова: семантический алгоритм Гинзбурга, поиск схожих документов, контекстно-семантический граф. <...> В частности, в поисковых системах, основанных на Apache Lucene, поиск подобных текстов производится с использованием заранее определенного документа и реализуется по методу «мешка слов». <...> В рамках этого подхода используется набор © Молошников И. А., Сбоев А. Г., Гудовских Д. В., 2015 64 как статистических методов: LDA, PLSA [1], так и основанных на нейронных сетях – Doc2vec [2]. <...> Недостатками подхода являются требование к наличию большого корпуса для обучения модели, невысокая точность и сложность определения необходимого уровня близости. <...> Представленный нами алгоритм поиска тематически схожих документов похож на описанный в статье V. <...> Он основан на выделении набора ключевых слов и словосочетаний из представленной пользователем подборки текстов по теме и дальнейшем поиске на основе выделенных <...>