Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635043)
Контекстум
Руконтекст антиплагиат система
Прикладная информатика / Journal of Applied Informatics  / №1 2013

Построение иерархических тематических моделей коллекции документов (150,00 руб.)

0   0
Первый авторЦыганова
АвторыСтрижов В.В.
Страниц7
ID437247
АннотацияРабота посвящена построению иерархических тематических моделей коллекции документов — неупорядоченного набора текстов, тематику которых можно определить. Такая модель регламентирует, к каким темам относятся документы и какие слова образуют каждую тему. Тематическое моделирование используется для автоматического определения темы или тем документа при создании электронных библиотек, а также для автоматического поиска документов, посвященных заданной тематике.
Цыганова, C.B. Построение иерархических тематических моделей коллекции документов / C.B. Цыганова, В.В. Стрижов // Прикладная информатика / Journal of Applied Informatics .— 2013 .— №1 .— С. 109-115 .— URL: https://rucont.ru/efd/437247 (дата обращения: 04.05.2024)

Предпросмотр (выдержки из произведения)

Лаборатория Модели и алгоритмы ПРИКЛАДНАЯ ИНФОРМАТИКА № 1 (43) 2013 C. <...> Цыганова, студентка Московского физико-технического института В. В. Стрижов, канд. физ.-мат. наук, доцент, научный сотрудник Вычислительного центра РАН, г. Москва Построение иерархических тематических моделей коллекции документов 1 Работа посвящена построению иерархических тематических моделей коллекции документов — неупорядоченного набора текстов, тематику которых можно определить. <...> Такая модель регламентирует, к каким темам относятся документы и какие слова образуют каждую тему. <...> Тематическое моделирование используется для автоматического определения темы или тем документа при создании электронных библиотек, а также для автоматического поиска документов, посвященных заданной тематике. <...> Введение ния иерархической тематической модели, которая требуется при создании электронных библиотек с иерархической тематикой, определенной библиографическими стандартами. <...> 1 Как альтернатива классическим алгоритН мам кластеризации [1, 2, 3, 4], основанным на вычислении функции расстояния между документами, в 1999 г. Томасом Хоффманом [5] был представлен вероятностный латентный семантический анализ (алгоритм PLSA), основанный на принципе максимизации правдоподобия. <...> Позже, в 2003 г., Дэвидом Блеем [6, 7] предложен усовершенствованный метод латентного размещения Дирихле (алгоритм LDA). <...> Данные алгоритмы, в отличие от алгоритмов кластеризации, предполагают, что каждый документ относится к нескольким темам одновременно с некоторыми вероятностями (так называемая мягкая кластеризация), и находят эти неизвестные вероятности. <...> Лаборатория Модели и алгоритмы аучная задача, решаемая в рамках данной статьи, состоит в разработке и верификации алгоритма построете приведены краткие описания алгортимов PLSA и LDA в авторской интерпретации. <...> Принято несколько базовых предположений относительно коллекции документов: 1) документ — так называемый «мешок слов <...>