Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634620)
Контекстум
.
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии  / №1 2012

ОПРЕДЕЛЕНИЕ ЯЗЫКА ЭЛЕКТРОННОГО СООБЩЕНИЯ В РАМКАХ ЗАДАЧИ КОНТЕКСТНОГО АНАЛИЗА И КЛАССИФИКАЦИИ СПАМА (90,00 руб.)

0   0
Первый авторАртемов
АвторыСорокина В.А.
Страниц4
ID520069
АннотацияРассматривается проблема распознавания естественного языка, на котором написано электронное письмо, в рамках проблемы борьбы со спамом и классификации электронных сообщений. Предложен новый способ определения языков на основе областей стандарта Юникод и статистических словарей
УДК004.8
Артемов, М.А. ОПРЕДЕЛЕНИЕ ЯЗЫКА ЭЛЕКТРОННОГО СООБЩЕНИЯ В РАМКАХ ЗАДАЧИ КОНТЕКСТНОГО АНАЛИЗА И КЛАССИФИКАЦИИ СПАМА / М.А. Артемов, В.А. Сорокина // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2012 .— №1 .— С. 178-181 .— URL: https://rucont.ru/efd/520069 (дата обращения: 19.04.2024)

Предпросмотр (выдержки из произведения)

УДК 004.8 ОПРЕДЕЛЕНИЕ ЯЗЫКА ЭЛЕКТРОННОГО СООБЩЕНИЯ В РАМКАХ ЗАДАЧИ КОНТЕКСТНОГО АНАЛИЗА И КЛАССИФИКАЦИИ СПАМА М. А. <...> Артемов, В. А. Сорокина Воронежский государственный университет Поступила в редакцию 18.11.2011 г. Аннотация. <...> Рассматривается проблема распознавания естественного языка, на котором написано электронное письмо, в рамках проблемы борьбы со спамом и классификации электронных сообщений. <...> Предложен новый способ определения языков на основе областей стандарта Юникод и статистических словарей. <...> The new method of language detection is suggested which is based on Unicode code pages and statistical dictionaries. <...> ВВЕДЕНИЕ В рамках проблемы борьбы со спамом возникает задача классификации электронных писем, разбиение их по группам. <...> Один из ключевых моментов в этой работе является определение естественного языка, на котором написано сообщение. <...> Зная язык, возможно более точно определить группу к которой относится данное письмо. <...> Кроме того, некоторые языки могут быть нежелательными и, следовательно, информация о языке будет достаточным признаком, чтобы отметить данное сообщение как спам и избежать проведения дополнительных контекстных проверок содержимого письма. <...> Предлагаемый метод определения языка сообщения основывается на использование областей стандарта кодирования символов Юникод и на применении статистических словарей двух типов, построенных особым образом. <...> Прежде всего, необходимо отметить, что информация о кодировке должна присутствовать внутри любого электронного письма. <...> Это необходимо для правильного отображения текста электронного сообщения почтовым клиентом. <...> Существует большое число различных кодировок для различных письменностей. <...> Все они могут быть конвертированы в формат Юникод, представляющий все множество письменных символов используе© Артемов М. А., Сорокина В. А., 2012 мых в разных языках. <...> Если кодировка для некоторого письма не указана будем считать, оно использует кодировку UTF-8, которая является реализацией стандарта <...>