Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635212)
Контекстум
Руконтекст антиплагиат система
0   0
Первый авторПавлов
Страниц6
ID520015
АннотацияВ данной работе предлагается новый метод определения текстового спама, основанный на анализе разнообразия тематической структуры текстов и применении методов машинного обучения. На основе разработанного метода строится эффективная система обнаружения поискового спама. Качество предложенного решения подтверждается экспериментально
УДК681.513.7
Павлов, А.С. ПРОГРАММНАЯ СИСТЕМА ОБНАРУЖЕНИЯ ТЕКСТОВОГО СПАМА / А.С. Павлов // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2011 .— №2 .— С. 174-179 .— URL: https://rucont.ru/efd/520015 (дата обращения: 11.05.2024)

Предпросмотр (выдержки из произведения)

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА УДК 681.513.7 ПРОГРАММНАЯ СИСТЕМА ОБНАРУЖЕНИЯ ТЕКСТОВОГО СПАМА А. С. <...> В данной работе предлагается новый метод определения текстового спама, основанный на анализе разнообразия тематической структуры текстов и применении методов машинного обучения. <...> На основе разработанного метода строится эффективная система обнаружения поискового спама. <...> This article is dedicated to a new method for content spam detection. <...> An efficient web spam detection system is built based on the developed algorithms. <...> 1 ВВЕДЕНИЕ В настоящее время поисковые машины стали одним из основных источников информации в сети Интернет. <...> Задача поисковой машины – по каждому пользовательскому запросу отранжировать страницы, находящиеся в ее индексе по релевантности. <...> Манипуляции, направленные на незаслуженное повышение оценки релевантности страницы в поисковой системе, называются поисковым спамом. <...> Текстовый спам – это разновидность поискового спама, связанная с манипуляциями с текстами страниц и массовым порождением текстов. <...> Поисковый спам был признан одной из основных угроз для современных поисковых систем [1]. <...> По некоторым оценкам до 20% всего содержимого сети Интернет является поисковым спамом [2]. <...> Существует два основных подхода к массовому порождению текстов: • Копирование существующих естественных текстов; • Синтез текстов на основе естественных документов-образцов. <...> В настоящее время существует целый ряд эффективных методов обнаружения дубликатов, которые позволяют обнаруживать скопированные тексты в масштабах сети Интернет [3]. <...> © Павлов А. С., 2011 В связи с этим большое распространение получили алгоритмы автоматического порождения текстов. <...> Данная работа посвящена алгоритмам обнаружения неестественных текстов и построению эффективной системы обнаружения текстового спама. <...> 2 ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ В основе многих методов обнаружения неестественных текстов лежит подход, предложенный в работе [4]. <...> Признаки, полученные на основе <...>