ПРОГРАММНЫЕ И АППАРАТНЫЕ СРЕДСТВА УДК 004.89 doi:10.15217/issn1684-8853.2016.6.65 УЛУЧШЕНИЕ КАТЕГОРИРОВАНИЯ ВЕБ-САЙТОВ ДЛЯ БЛОКИРОВКИ НЕПРИЕМЛЕМОГО СОДЕРЖИМОГО НА ОСНОВЕ АНАЛИЗА СТАТИСТИКИ HTML-ТЭГОВ Д. А. <...> Новожилова, б, студент А. А. Чечулина, канд. техн. наук, старший научный сотрудник И. В. Котенкоа, доктор техн. наук, профессор аСанкт-Петербургский институт информатики и автоматизации РАН, Санкт-Петербург, РФ бСанкт-Петербургский государственный электротехнический университет «ЛЭТИ», Санкт-Петербург, РФ сложности обнаружения нежелательной и вредоносной информации. <...> Существующие системы используют автоматическую классификацию по текстовому содержимому веб-сайтов, однако данный метод не подходит для веб-сайтов с изменчивым содержимым, таких как новости, форумы и т. п. <...> Цель исследования: повысить защищенность пользователей от нежелательной информации за счет улучшения качества категорирования веб-сайтов методами Data Mining для автоматизированных систем родительского контроля. <...> Результаты: разработаны улучшенные алгоритмы классификации веб-сайтов и прототип системы родительского контроля, который осуществляет классификацию веб-сайтов, используя их структурные особенности. <...> Основная идея заключается в анализе не текстовых признаков, а статистики HTML-тэгов, которая представляет собой совокупность их частот встречаемости (отношение числа экземпляров данного тэга к общему количеству тэгов на странице, выраженного в процентах). <...> Всего алгоритм выбирает 25 основных тэгов по всей выборке, после чего для каждого из сайтов считается его статистика. <...> Приведена архитектура системы категорирования, состоящей из нескольких программных модулей, написанных на языке Perl, и специального программного обеспечения RapidMiner. <...> Для разработанного прототипа проведены эксперименты на нескольких наборах данных, после чего выполнено сравнение качества категорирования при использовании текстовых, структурных признаков, а также <...>