УДК 004.8 ОПРЕДЕЛЕНИЕ ЯЗЫКА ЭЛЕКТРОННОГО СООБЩЕНИЯ В РАМКАХ ЗАДАЧИ КОНТЕКСТНОГО АНАЛИЗА И КЛАССИФИКАЦИИ СПАМА М. А. <...> Артемов, В. А. Сорокина Воронежский государственный университет Поступила в редакцию 18.11.2011 г. Аннотация. <...> Рассматривается проблема распознавания естественного языка, на котором написано электронное письмо, в рамках проблемы борьбы со спамом и классификации электронных сообщений. <...> Предложен новый способ определения языков на основе областей стандарта Юникод и статистических словарей. <...> The new method of language detection is suggested which is based on Unicode code pages and statistical dictionaries. <...> ВВЕДЕНИЕ В рамках проблемы борьбы со спамом возникает задача классификации электронных писем, разбиение их по группам. <...> Один из ключевых моментов в этой работе является определение естественного языка, на котором написано сообщение. <...> Зная язык, возможно более точно определить группу к которой относится данное письмо. <...> Кроме того, некоторые языки могут быть нежелательными и, следовательно, информация о языке будет достаточным признаком, чтобы отметить данное сообщение как спам и избежать проведения дополнительных контекстных проверок содержимого письма. <...> Предлагаемый метод определения языка сообщения основывается на использование областей стандарта кодирования символов Юникод и на применении статистических словарей двух типов, построенных особым образом. <...> Прежде всего, необходимо отметить, что информация о кодировке должна присутствовать внутри любого электронного письма. <...> Это необходимо для правильного отображения текста электронного сообщения почтовым клиентом. <...> Существует большое число различных кодировок для различных письменностей. <...> Все они могут быть конвертированы в формат Юникод, представляющий все множество письменных символов используе© Артемов М. А., Сорокина В. А., 2012 мых в разных языках. <...> Если кодировка для некоторого письма не указана будем считать, оно использует кодировку UTF-8, которая является реализацией стандарта <...>