Карповича, 1, руководитель направления поисковой оптимизации аRambler&Co интернет холдинг, Москва, РФ в электронной почте, постов в блогах растет потребность в алгоритмах для автоматического анализа текстовых данных. <...> Одним из перспективных направлений машинного обучения и анализа текстов на естественном языке являются алгоритмы тематического моделирования. <...> Большинство методов тематического моделирования рассматривают данные в статичном виде, с конечным словарем, но на практике необходимы методы, позволяющие работать с пополняемым словарем. <...> Каждый год появляются новые слова, какие-то слова выходят из обихода, поэтому вопрос пополнения словаря особенно актуален для онлайн тематических моделей. <...> Цель: разработка подхода определения тематического вектора нового слова с использованием произведения Адамара тематических векторов документов, где это слово встретилось, который будет альтернативным подходу с использованием распределения Дирихле или процесса Дирихле. <...> Результаты: исследования показали, что сумма векторов тем документов, где встретилось новое слово, дает неверное представление о тематической принадлежности нового слова. <...> При этом для определения тематики нового слова по тематикам документов, где это слово встретилось, эффективнее использовать произведение Адамара. <...> В результате перемножения векторов тем документов получаем тематический вектор нового слова с наибольшими значениями вероятностей у нескольких тематик, значение слабо выраженных тематик либо стремится к нулю, либо обнуляется. <...> Практическая значимость: использование предложенного алгоритма позволяет бесконечно увеличивать словарь онлайн тематической модели, а следовательно, учитывать новые и старые слова. <...> Ключевые слова — тематическое моделирование, обработка текста на естественном языке, машинное обучение. <...> Введение Тематическое моделирование — одно из современных направлений машинного обучения при анализе <...>