Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 636228)
Контекстум
Руконтекст антиплагиат система
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии  / №1 2008

ЛОКАЛЬНЫЕ ПАРАМЕТРЫ ТЕКСТОВ И ПРОБЛЕМА ОПРЕДЕЛЕНИЯ ПОЧТИ-ДУБЛИКАТОВ (90,00 руб.)

0   0
Первый авторКосинов
Страниц3
ID519630
АннотацияРассматривается метод построения сигнатуры документа на основании исключительно локальных количественных параметров его содержимого. Набор параметров подбирается исходя из соображений устойчивости к различным видам модификаций документа. Проведен ряд экспериментов, использующих некоторые из этих параметров. Показана возможность использования данного подхода в условиях больших объемов документов
УДК004.78:025.4.036
Косинов, Д.И. ЛОКАЛЬНЫЕ ПАРАМЕТРЫ ТЕКСТОВ И ПРОБЛЕМА ОПРЕДЕЛЕНИЯ ПОЧТИ-ДУБЛИКАТОВ / Д.И. Косинов // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2008 .— №1 .— С. 81-83 .— URL: https://rucont.ru/efd/519630 (дата обращения: 22.05.2024)

Предпросмотр (выдержки из произведения)

УДК 004.78:025.4.036 ЛОКАЛЬНЫЕ ПАРАМЕТРЫ ТЕКСТОВ И ПРОБЛЕМА ОПРЕДЕЛЕНИЯ ПОЧТИ-ДУБЛИКАТОВ* Д. И. Косинов Воронежский государственный университет Рассматривается метод построения сигнатуры документа на основании исключительно локальных количественных параметров его содержимого. <...> Набор параметров подбирается исходя из соображений устойчивости к различным видам модификаций документа. <...> Проведен ряд экспериментов, использующих некоторые из этих параметров. <...> Показана возможность использования данного подхода в условиях больших объемов документов. <...> ВВЕДЕНИЕ Одной из задач, с которой сталкивается любая информационно-поисковая машина, является задача определения схожести различных документов между собой. <...> Выявление дубликатов позволяет устранять повторяющиеся документы в списках-результатах запросов, уменьшать размеры индекса путем устранения избыточности, обнаруживать плагиат и распознавать массовые почтовые рассылки (спам). <...> Причины модификаций документов в сети могут быть самыми различными, например: создание зеркал сайтов, преобразования документов в другой формат или его редактирование. <...> Отдельным пунктом идут намеренные искажения текстов, применяемые спамерами в массовых рассылках. <...> Прямое решение путем попарного сравнения текстов документов, в условиях гигантских объемов данных в Интернете, не представляется возможным. <...> Применяются различные методы снижения вычислительной сложности за счет выбора различных эвристик: хеширования фиксированного набора значимых слов, сэмплирование цепочек элементов текста, использование дактилограмм и т.д. <...> Затем полученные хеши (отпечатки документов) сравниваются, и документы считаются схожими (также употребляется термин «почти-дубликаты»), если доля совпавших отпечатков превышает некий порог. <...> Перед созданием отпечатка документ обычно проходит через ряд упрощающих преобразований: удаляются HTML-разметка, лишние Данная работа поддержана исследовательским <...>