КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА УДК 681.513.7 ПРОГРАММНАЯ СИСТЕМА ОБНАРУЖЕНИЯ ТЕКСТОВОГО СПАМА А. С. <...> В данной работе предлагается новый метод определения текстового спама, основанный на анализе разнообразия тематической структуры текстов и применении методов машинного обучения. <...> На основе разработанного метода строится эффективная система обнаружения поискового спама. <...> This article is dedicated to a new method for content spam detection. <...> An efficient web spam detection system is built based on the developed algorithms. <...> 1 ВВЕДЕНИЕ В настоящее время поисковые машины стали одним из основных источников информации в сети Интернет. <...> Задача поисковой машины – по каждому пользовательскому запросу отранжировать страницы, находящиеся в ее индексе по релевантности. <...> Манипуляции, направленные на незаслуженное повышение оценки релевантности страницы в поисковой системе, называются поисковым спамом. <...> Текстовый спам – это разновидность поискового спама, связанная с манипуляциями с текстами страниц и массовым порождением текстов. <...> Поисковый спам был признан одной из основных угроз для современных поисковых систем [1]. <...> По некоторым оценкам до 20% всего содержимого сети Интернет является поисковым спамом [2]. <...> Существует два основных подхода к массовому порождению текстов: • Копирование существующих естественных текстов; • Синтез текстов на основе естественных документов-образцов. <...> В настоящее время существует целый ряд эффективных методов обнаружения дубликатов, которые позволяют обнаруживать скопированные тексты в масштабах сети Интернет [3]. <...> © Павлов А. С., 2011 В связи с этим большое распространение получили алгоритмы автоматического порождения текстов. <...> Данная работа посвящена алгоритмам обнаружения неестественных текстов и построению эффективной системы обнаружения текстового спама. <...> 2 ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ В основе многих методов обнаружения неестественных текстов лежит подход, предложенный в работе [4]. <...> Признаки, полученные на основе <...>