КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА УДК 004.942 МЕТОД СЕМАНТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ ГИПЕРТЕКСТОВОЙ СТРУКТУРЫ С ПРИМЕНЕНИЕМ СТАТИСТИКИ ПЕРЕХОДОВ ПОЛЬЗОВАТЕЛЕЙ ПО ВНУТРЕННИМ ССЫЛКАМ В. С. <...> Кластеризация веб-документов по различным признакам, включая их семантическую близость, лежит в основе различных современных подходов к поиску и извлечению информации в Интернете. <...> В данной статье предложен метод построения семантических кластеров в гипертекстовой структуре веб-сайта на основе статистики переходов пользователей между узлами. <...> Кластеризация документов по отслеживаемым маршрутам пользователей применяется к графовой модели гипертекстовой структуры веб-сайта. <...> ВВЕДЕНИЕ Объемы неструктурированной информации, представленной в Интернете, постоянно возрастают, равно как и общее количество веб-сайтов и объемы их содержимого. <...> Задачи поиска релевантной информации и анализа данных, размещенных на веб-страницах, являются неотъемлемой частью при работе со значительными объемами информации. <...> Важным этапом в таких задачах является кластеризация обрабатываемых документов, которая позволяет выявлять группы семантически похожих документов. <...> © Салин В. С., Папшев С. В., Сытник А. А., 2015 Кластеризация веб-страниц по тематике актуальна в различных приложениях поиска и интеллектуального анализа данных, таких как распознавание шаблонов, извлечение ключевых слов [1]. <...> Группировка семантически связанных страниц лежит в основе рекомендательных алгоритмов и адаптивных интерфейсов, которые могут «подсказывать» пользователю наиболее релевантные для него страницы. <...> Также, определение кластеров близких по теме страниц используется в веб-аналитике и поисковой оптимизации, веб-разработке и реинжиниринге. <...> 138 ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2015, № 2 Метод семантической кластеризации гипертекстовой структуры с применением статистики . <...> Обычно кластеризация документов <...>