Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634794)
Контекстум
.
0   0
Первый авторАртемов
АвторыСорокина В.А., Селезнев К.Е.
Страниц5
ID520893
АннотацияВ статье исследуется задача анализа совстречаемости рядом расположенных слов, описываются алгоритмы сбора, хранения и поиска данных, позволяющие выполнить данный анализ, а также производится оценка необходимого размера памяти для хранения собранной статистики
УДК001.103:002
Артемов, М.А. АНАЛИЗ СОВСТРЕЧАЕМОСТИ СЛОВ / М.А. Артемов, В.А. Сорокина, К.Е. Селезнев // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2012 .— №2 .— С. 158-162 .— URL: https://rucont.ru/efd/520893 (дата обращения: 25.04.2024)

Предпросмотр (выдержки из произведения)

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА удк 001.103:002 АНАЛИЗ СОВСТРЕЧАЕМОСТИ СЛОВ М. А. <...> Артемов, В. А. Сорокина, К. Е. Селезнев Воронежский государственный университет Поступила в редакцию 18.10.2012 г. Аннотация. <...> В статье исследуется задача анализа совстречаемости рядом расположенных слов, описываются алгоритмы сбора, хранения и поиска данных, позволяющие выполнить данный анализ, а также производится оценка необходимого размера памяти для хранения собранной статистики. <...> Ключевые слова: алгоритмы анализа электронных текстовых документов, совстречаемость слов. <...> ВВЕДЕНИЕ Во многих задачах анализа электронных текстовых документов необходимо находить слова, расположенные либо рядом, либо в пределах одного предложения или фразы. <...> Примерами таких задач могут послужить построение байесовских классификаторов, поиск релевантных документов, поиск ключевых слов в тексте – учёт совстречаемости слов позволит значительно улучшить работу используемого алгоритма в целом. <...> Для нахождения часто совстречающихся слов необходимо определить, во-первых, какие именно слова встречаются рядом, и во-вторых, получить приемлемую оценку частоты их близкого расположения в тексте. <...> Это приводит к необходимости хранения и обработки большого количества данных, что может быть затруднительно без использования специализированных методов и алгоритмов. <...> В данной работе рассматривается задача сбора данных для анализа совстречаемости слов, приведена оценка необходимых объемов памяти, а также рассмотрены сами методы хранения и обработки информации. <...> © Артемов М. А., Сорокина В. А., Селезнев К. Е., 2012 ОБЩАЯ ИДЕЯ МЕТОДА В наиболее общем смысле рассматриваемую задачу можно формализовать следующим образом. <...> На вход метода подаётся набор текстовых документов и набор искомых слов. <...> Требуется определить и численно оценить, как часто заданные слова встречаются вместе. <...> Анализ совстречаемости слов на уровне всего документа <...>