Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии / №2 2008

МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ (90,00 руб.)

Первый автор	Косинов
Страниц	4

90,00р

ID	519686
Аннотация	Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования
УДК	004.78:025.4.036

Косинов, Д.И. МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ / Д.И. Косинов // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2008 .— №2 .— С. 121-124 .— URL: https://rucont.ru/efd/519686 (дата обращения: 29.12.2025)

Вы уже смотрели

Основы технологий и средств таможенного контроля

Основы технологий и средств таможенного ... 6000,00 руб

Аналитический обзор НИР, выполненных в учреждениях здравоохранения Российской Федерации по проблеме лазерной медицины в рамках Научного совета по лазерной медицине в 2010 году

Аналитический обзор НИР, выполненных в у... 125,00 руб

Эволюция библиотечного краеведения в контексте современной социокультурной среды Центрального Черноземья России: Сб. материалов межрегион. краевед. научн.-практ. конф. 11-12 ноября 2002 г.

Эволюция библиотечного краеведения в кон... 220,00 руб

Владимир Акимов: "Завершающийся год прош... 80,00 руб

Социальные договоры в праве 6000,00 руб

Горный журнал Казахстана №8 2011 100,00 руб

Предпросмотр (выдержки из произведения)

УДК 004.78:025.4.036 МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ Д. И. <...> Косинов Воронежский государственный университет Поступила в редакцию 20.05.2008 г. Аннотация. <...> Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. <...> Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. <...> Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования. <...> An algorithm that selects semantic blocks from web-pages by analysing their DOM structure is proposed. <...> A method that helps to determine the similarity of web-pages block-by-block and to estimate the degree of similarity of multiblock documents is proposed. <...> ВВЕДЕНИЕ В связи с колоссальным объемом информации в Интернете и ее избыточностью из-за многочисленных страниц со почти одинаковым содержанием возникает одна из сложнейших задач анализа web-данных — проблема уверенного обнаружения схожих между собой web-документов. <...> Существующие методы детектирования в большинстве своем основаны на генерации одного или нескольких отпечатков web-страницы, построенных с целью обеспечить максимальную устойчивость к небольшим изменениям содержимого. <...> Дальнейший поиск совпадающих отпечатков в общей коллекции позволяет выделить документы, с большой долей вероятности являющиеся нечеткими дубликатами. <...> Традиционная процедура подготовки документа к созданию отпечатка заключается в конкатенации всего текстового содержимого и последующей обработке, невзирая на принадлежность текста к какому-либо логическому сегменту документа. <...> Было высказано предположение, что предварительное разбиение текста на семантические блоки в соответствии со структурой документа позволит улучшить результативность © Косинов Д. И., 2008 стандартных методов создания отпечатков. <...> В качестве аналогии можно привести работу [1], авторы которой добились некоторого улучшения результатов смежной задачи информационного поиска путем отделения <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или