Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634840)
Контекстум
Руконтекст антиплагиат система
Информационно-управляющие системы  / №6 2016

УЛУЧШЕНИЕ КАТЕГОРИРОВАНИЯ ВЕБ-САЙТОВ ДЛЯ БЛОКИРОВКИ НЕПРИЕМЛЕМОГО СОДЕРЖИМОГО НА ОСНОВЕ АНАЛИЗА СТАТИСТИКИ HTML-ТЭГОВ (160,00 руб.)

0   0
Первый авторНовожилов Д. А.
АвторыЧечулин А. А., Котенко И. В.
Страниц9
ID559818
АннотацияПостановка проблемы: постоянный рост объема доступной информации в сети Интернет приводит к повышению сложности обнаружения нежелательной и вредоносной информации. Существующие системы используют автоматическую классификацию по текстовому содержимому веб-сайтов, однако данный метод не подходит для веб-сайтов с изменчивым содержимым, таких как новости, форумы и т. п. Цель исследования: повысить защищенность пользователей от нежелательной информации за счет улучшения качества категорирования веб-сайтов методами Data Mining для автоматизированных систем родительского контроля. Результаты: разработаны улучшенные алгоритмы классификации веб-сайтов и прототип системы родительского контроля, который осуществляет классификацию веб-сайтов, используя их структурные особенности. Основная идея заключается в анализе не текстовых признаков, а статистики HTML-тэгов, которая представляет собой совокупность их частот встречаемости (отношение числа экземпляров данного тэга к общему количеству тэгов на странице, выраженного в процентах). Всего алгоритм выбирает 25 основных тэгов по всей выборке, после чего для каждого из сайтов считается его статистика. Приведена архитектура системы категорирования, состоящей из нескольких программных модулей, написанных на языке Perl, и специального программного обеспечения RapidMiner. Для разработанного прототипа проведены эксперименты на нескольких наборах данных, после чего выполнено сравнение качества категорирования при использовании текстовых, структурных признаков, а также их комбинации. Полученные результаты показали, что анализ статистики тэгов не может использоваться в качестве самостоятельного метода, но является полезным дополнением к системам, опирающимся на текстовую классификацию (позволяет повысить ее качество в метрике «аккуратность» от 6,9 до 10,6 % в зависимости от количества категорий). Практическая значимость: данный подход может применяться для повышения эффективности поиска информации, запрещенной законами Российской Федерации: пропаганды экстремизма; разжигания ненависти и вражды; пропаганды порнографии, наркотиков, антиобщественного поведения и т. д. Также данный подход может использоваться в системах родительского контроля для ограничения доступа к определенным видам информации по возрастным категориям.
Новожилов, Д.А. УЛУЧШЕНИЕ КАТЕГОРИРОВАНИЯ ВЕБ-САЙТОВ ДЛЯ БЛОКИРОВКИ НЕПРИЕМЛЕМОГО СОДЕРЖИМОГО НА ОСНОВЕ АНАЛИЗА СТАТИСТИКИ HTML-ТЭГОВ / Д.А. Новожилов, А.А. Чечулин, И.В. Котенко // Информационно-управляющие системы .— 2016 .— №6 .— URL: https://rucont.ru/efd/559818 (дата обращения: 26.04.2024)

Предпросмотр (выдержки из произведения)

ПРОГРАММНЫЕ И АППАРАТНЫЕ СРЕДСТВА УДК 004.89 doi:10.15217/issn1684-8853.2016.6.65 УЛУЧШЕНИЕ КАТЕГОРИРОВАНИЯ ВЕБ-САЙТОВ ДЛЯ БЛОКИРОВКИ НЕПРИЕМЛЕМОГО СОДЕРЖИМОГО НА ОСНОВЕ АНАЛИЗА СТАТИСТИКИ HTML-ТЭГОВ Д. А. <...> Новожилова, б, студент А. А. Чечулина, канд. техн. наук, старший научный сотрудник И. В. Котенкоа, доктор техн. наук, профессор аСанкт-Петербургский институт информатики и автоматизации РАН, Санкт-Петербург, РФ бСанкт-Петербургский государственный электротехнический университет «ЛЭТИ», Санкт-Петербург, РФ сложности обнаружения нежелательной и вредоносной информации. <...> Существующие системы используют автоматическую классификацию по текстовому содержимому веб-сайтов, однако данный метод не подходит для веб-сайтов с изменчивым содержимым, таких как новости, форумы и т. п. <...> Цель исследования: повысить защищенность пользователей от нежелательной информации за счет улучшения качества категорирования веб-сайтов методами Data Mining для автоматизированных систем родительского контроля. <...> Результаты: разработаны улучшенные алгоритмы классификации веб-сайтов и прототип системы родительского контроля, который осуществляет классификацию веб-сайтов, используя их структурные особенности. <...> Основная идея заключается в анализе не текстовых признаков, а статистики HTML-тэгов, которая представляет собой совокупность их частот встречаемости (отношение числа экземпляров данного тэга к общему количеству тэгов на странице, выраженного в процентах). <...> Всего алгоритм выбирает 25 основных тэгов по всей выборке, после чего для каждого из сайтов считается его статистика. <...> Приведена архитектура системы категорирования, состоящей из нескольких программных модулей, написанных на языке Perl, и специального программного обеспечения RapidMiner. <...> Для разработанного прототипа проведены эксперименты на нескольких наборах данных, после чего выполнено сравнение качества категорирования при использовании текстовых, структурных признаков, а также <...>