Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634794)
Контекстум
.
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии  / №1 2008

КЛАССИФИКАЦИЯ ТЕКСТОВ НА ОСНОВЕ ПРИБЛИЖЕННЫХ ОЦЕНОК ВЕРОЯТНОСТЕЙ КЛАССОВ (90,00 руб.)

0   0
Первый авторСолодухин
Страниц6
ID519631
АннотацияВ данной работе предлагается метод классификации текстов на основе приближенных оценок условных распределений вероятностей классов. Суть метода заключается в представлении наборов признаков и класса текста как совокупность одновременных событий и приближенной оценки вероятностных зависимостей между признаками и классами текстов
УДК004.93’11
Солодухин, А.С. КЛАССИФИКАЦИЯ ТЕКСТОВ НА ОСНОВЕ ПРИБЛИЖЕННЫХ ОЦЕНОК ВЕРОЯТНОСТЕЙ КЛАССОВ / А.С. Солодухин // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2008 .— №1 .— С. 84-89 .— URL: https://rucont.ru/efd/519631 (дата обращения: 25.04.2024)

Предпросмотр (выдержки из произведения)

УДК 004.93’11 КЛАССИФИКАЦИЯ ТЕКСТОВ НА ОСНОВЕ ПРИБЛИЖЕННЫХ ОЦЕНОК ВЕРОЯТНОСТЕЙ КЛАССОВ А. С. <...> Солодухин Омский государственный технический университет В данной работе предлагается метод классификации текстов на основе приближенных оценок условных распределений вероятностей классов. <...> Суть метода заключается в представлении наборов признаков и класса текста как совокупность одновременных событий и приближенной оценки вероятностных зависимостей между признаками и классами текстов. <...> ВВЕДЕНИЕ Автоматическая классификация (категоризация) текстов в предопределенные категории получила большое внимание в последние 10—15 лет, из-за увеличения имеющихся документов в цифровом виде и возникшей потребности хранить их в организованном виде [1]. <...> Доминирующий подход к решению этой задачи у исследователей базируется на технологиях машинного обучения: автоматическое построение классификатора путем обучения на основе обучающего множества предварительно классифицированных документов, характеризующих классы (категории). <...> Очевидно, что невозможно создать метод, который позволит классифицировать документы с абсолютной точностью, поскольку классификация чаще всего бывает субъективной. <...> Известные классификаторы, имея достаточное количество необходимых примеров в обучающей выборке, зачастую не обеспечивают требуемую точность классификации [1, 2]. <...> Известно, что практическими приложениями методов категоризации текстов являются: — фильтрация документов, распознавание спама; — автоматическое аннотирование; © Солодухин А. С., 2008 86 — снятие неоднозначности (автоматические переводчики); — составление интернет-каталогов; — классификация новостей; — распределение рекламы; — персональные новости. <...> Среди них вероятностные методы [3, 4], деревья решений [5], правила решений [6], регрессионные методы [1], поиск k ближайших соседей [1, 2], искусственные нейронные сети [7, 8], метод опорных векторов [9, 10], энтропийный метод <...>