Лаборатория Модели и алгоритмы ПРИКЛАДНАЯ ИНФОРМАТИКА № 1 (43) 2013 C. <...> Цыганова, студентка Московского физико-технического института В. В. Стрижов, канд. физ.-мат. наук, доцент, научный сотрудник Вычислительного центра РАН, г. Москва Построение иерархических тематических моделей коллекции документов 1 Работа посвящена построению иерархических тематических моделей коллекции документов — неупорядоченного набора текстов, тематику которых можно определить. <...> Такая модель регламентирует, к каким темам относятся документы и какие слова образуют каждую тему. <...> Тематическое моделирование используется для автоматического определения темы или тем документа при создании электронных библиотек, а также для автоматического поиска документов, посвященных заданной тематике. <...> Введение ния иерархической тематической модели, которая требуется при создании электронных библиотек с иерархической тематикой, определенной библиографическими стандартами. <...> 1 Как альтернатива классическим алгоритН мам кластеризации [1, 2, 3, 4], основанным на вычислении функции расстояния между документами, в 1999 г. Томасом Хоффманом [5] был представлен вероятностный латентный семантический анализ (алгоритм PLSA), основанный на принципе максимизации правдоподобия. <...> Позже, в 2003 г., Дэвидом Блеем [6, 7] предложен усовершенствованный метод латентного размещения Дирихле (алгоритм LDA). <...> Данные алгоритмы, в отличие от алгоритмов кластеризации, предполагают, что каждый документ относится к нескольким темам одновременно с некоторыми вероятностями (так называемая мягкая кластеризация), и находят эти неизвестные вероятности. <...> Лаборатория Модели и алгоритмы аучная задача, решаемая в рамках данной статьи, состоит в разработке и верификации алгоритма построете приведены краткие описания алгортимов PLSA и LDA в авторской интерпретации. <...> Принято несколько базовых предположений относительно коллекции документов: 1) документ — так называемый «мешок слов <...>