Научно-технический журнал УДК 004.942 В.В. КОМАШИНСКИЙ, Т.А. НГУЕН АЛГОРИТМ ОБУЧЕНИЯ СИСТЕМЫ ФИЛЬТРАЦИИ ВХОДНОГО WEB-ПОТОКА ПО СТАТИСТИЧЕСКИМ ХАРАКТЕРИСТИКАМ ЕГО ГРАФИЧЕСКОЙ СОСТАВЛЯЮЩЕЙ В статье предложен алгоритм обучения системы фильтрации входного web-потока, блокирующей по статистическим характеристикам графической составляющей поступление данных от неделовых сайтов публичных web-серверов. <...> Ключевые слова: фильтрация; классификация; обнаружение; контроль статистических характеристик входного потока web-данных. <...> Доступ деловых сотрудников организаций в Internet осуществляется через webинтерфейс браузера и может быть сопряжен с непреднамеренным посещением нежелательных сайтов публичных web-серверов и приема от них опасных данных. <...> Результаты предварительных экспериментов позволили сделать вывод о том, что нежелательные сайты могут содержать вредоносные, противоправные и отвлекающие от служебных задач данные. <...> При этом, наиболее вероятным является факт отнесения сайтов изобилующих мультимедийными данными к категории нежелательных. <...> По большому объему мультимедийного контента сайта можно достоверно классифицировать отношение сайта к классу нежелательных. <...> Для проведения классификации допускаем, что всю совокупность web-сайтов можно разделить на две категории: сайты с малым объемом и сайты с большим объемом графического контента (рис. <...> Рисунок 1 – Классификация web-сайтов для задачи обнаружения противоправного контента Как видно из рисунка 1, первая категория web-сайтов в Internet описывается множеством M1, а вторая множеством M2. <...> Явно нежелательные сайты характеризуются избыточным объемом мультимедийного контента, что позволит быстро и достоверно обнаружить негативные сайты. <...> Следовательно, задача первичной фильтрации заключается в обнаружении потоков входных web-данных, поступающих от публичного сервера, содержащих объем мультимедийной информации свыше установленного порога. <...> 1 , 2 , принимается <...>