УДК 004.78:025.4.036 ЛОКАЛЬНЫЕ ПАРАМЕТРЫ ТЕКСТОВ И ПРОБЛЕМА ОПРЕДЕЛЕНИЯ ПОЧТИ-ДУБЛИКАТОВ* Д. И. Косинов Воронежский государственный университет Рассматривается метод построения сигнатуры документа на основании исключительно локальных количественных параметров его содержимого. <...> Набор параметров подбирается исходя из соображений устойчивости к различным видам модификаций документа. <...> Проведен ряд экспериментов, использующих некоторые из этих параметров. <...> Показана возможность использования данного подхода в условиях больших объемов документов. <...> ВВЕДЕНИЕ Одной из задач, с которой сталкивается любая информационно-поисковая машина, является задача определения схожести различных документов между собой. <...> Выявление дубликатов позволяет устранять повторяющиеся документы в списках-результатах запросов, уменьшать размеры индекса путем устранения избыточности, обнаруживать плагиат и распознавать массовые почтовые рассылки (спам). <...> Причины модификаций документов в сети могут быть самыми различными, например: создание зеркал сайтов, преобразования документов в другой формат или его редактирование. <...> Отдельным пунктом идут намеренные искажения текстов, применяемые спамерами в массовых рассылках. <...> Прямое решение путем попарного сравнения текстов документов, в условиях гигантских объемов данных в Интернете, не представляется возможным. <...> Применяются различные методы снижения вычислительной сложности за счет выбора различных эвристик: хеширования фиксированного набора значимых слов, сэмплирование цепочек элементов текста, использование дактилограмм и т.д. <...> Затем полученные хеши (отпечатки документов) сравниваются, и документы считаются схожими (также употребляется термин «почти-дубликаты»), если доля совпавших отпечатков превышает некий порог. <...> Перед созданием отпечатка документ обычно проходит через ряд упрощающих преобразований: удаляются HTML-разметка, лишние Данная работа поддержана исследовательским <...>