УДК 004.78:025.4.036 МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ Д. И. <...> Косинов Воронежский государственный университет Поступила в редакцию 20.05.2008 г. Аннотация. <...> Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. <...> Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. <...> Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования. <...> An algorithm that selects semantic blocks from web-pages by analysing their DOM structure is proposed. <...> A method that helps to determine the similarity of web-pages block-by-block and to estimate the degree of similarity of multiblock documents is proposed. <...> ВВЕДЕНИЕ В связи с колоссальным объемом информации в Интернете и ее избыточностью из-за многочисленных страниц со почти одинаковым содержанием возникает одна из сложнейших задач анализа web-данных — проблема уверенного обнаружения схожих между собой web-документов. <...> Существующие методы детектирования в большинстве своем основаны на генерации одного или нескольких отпечатков web-страницы, построенных с целью обеспечить максимальную устойчивость к небольшим изменениям содержимого. <...> Дальнейший поиск совпадающих отпечатков в общей коллекции позволяет выделить документы, с большой долей вероятности являющиеся нечеткими дубликатами. <...> Традиционная процедура подготовки документа к созданию отпечатка заключается в конкатенации всего текстового содержимого и последующей обработке, невзирая на принадлежность текста к какому-либо логическому сегменту документа. <...> Было высказано предположение, что предварительное разбиение текста на семантические блоки в соответствии со структурой документа позволит улучшить результативность © Косинов Д. И., 2008 стандартных методов создания отпечатков. <...> В качестве аналогии можно привести работу [1], авторы которой добились некоторого улучшения результатов смежной задачи информационного поиска путем отделения <...>