УДК 004.912 АЛГОРИТМ ОТБОРА ТЕМАТИЧЕСКИ СХОЖИХ ДОКУМЕНТОВ С ПОСТРОЕНИЕМ КОНТЕКСТНО-СЕМАНТИЧЕСКОГО ГРАФА НА ОСНОВЕ ВЕРОЯТНОСТНО-ЭНТРОПИЙНОГО ПОДХОДА И. А. <...> Молошников, А. Г. Сбоев, Д. В. Гудовских Национальный исследовательский центр «Курчатовский институт» Поступила в редакцию 14 апреля 2015 г. Аннотация: в работе предложен алгоритм поиска тематически схожих документов на основе эталонной коллекции текстов с возможностью наглядной визуализации результатов поиска в виде контекстносемантического графа вложенных тем. <...> Алгоритм основан на интеграции множества вероятностноэнтропийных индикаторов для выделения набора ключевых слов и словосочетаний, описывающего тему для поиска. <...> Результаты тестирования продемонстрировали среднюю точность отбора документов 99 % при полноте 84 % на основе выборки, предоставленной экспертами. <...> Также предложен подход к построению графа на базе алгоритма извлечения ключевых словосочетаний с весами, что позволяет отобразить структуру вложенных тем в больших коллекциях документов в компактном виде. <...> Ключевые слова: семантический алгоритм Гинзбурга, поиск схожих документов, контекстно-семантический граф. <...> В частности, в поисковых системах, основанных на Apache Lucene, поиск подобных текстов производится с использованием заранее определенного документа и реализуется по методу «мешка слов». <...> В рамках этого подхода используется набор © Молошников И. А., Сбоев А. Г., Гудовских Д. В., 2015 64 как статистических методов: LDA, PLSA [1], так и основанных на нейронных сетях – Doc2vec [2]. <...> Недостатками подхода являются требование к наличию большого корпуса для обучения модели, невысокая точность и сложность определения необходимого уровня близости. <...> Представленный нами алгоритм поиска тематически схожих документов похож на описанный в статье V. <...> Он основан на выделении набора ключевых слов и словосочетаний из представленной пользователем подборки текстов по теме и дальнейшем поиске на основе выделенных <...>