Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 610378)
Контекстум
Инженерный журнал: наука и инновации  / №2 2013

Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов (50,00 руб.)

0   0
Первый авторСычев
ИздательствоМ.: Изд-во МГТУ им. Н.Э. Баумана
Страниц7
ID276073
АннотацияПредставлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации.
УДК025.4.03
Сычев, М.П. Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов / М.П. Сычев // Инженерный журнал: наука и инновации .— 2013 .— №2 .— URL: https://rucont.ru/efd/276073 (дата обращения: 07.04.2025)

Предпросмотр (выдержки из произведения)

УДК: 025.4.03 Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов <...> Н.Э. Баумана, Москва, 105005, Россия Представлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. <...> В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. <...> Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации. <...> E-mail: zi@bmstu.ru Ключевые слова: информационный поиск, извлечение знаний, кластеризация, сингулярное разложение, суффиксное дерево. <...> Ввиду стремительного развития информационных ресурсов сети Интернет, их активного использования в различных областях деятельности человека объемы информации, которую необходимо обрабатывать, возросли многократно, что привело к бурному развитию технологии распределенного хранения сверхбольших объемов данных. <...> Одним из направлений подобной обработки является кластеризация, которая призвана решить следующие задачи: – разбиение исходного множества на группы схожих объектов и предоставление возможности работы с каждой группой в отдельности; – сокращение объема хранимых данных путем оставления по одному представителю от каждого кластера; – выделение нетипичных объектов, не подходящих ни к одному из кластеров (так называемые аномалии). <...> Особенности информационно-поисковых систем (ИПС) для обработки неиндексированных сайтов. <...> Несмотря на то что для поиска информации в сети Интернет существуют поисковые системы Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем данных содержится в так называемом сером, темном или глубинном Интернете — сайтах, не проиндексированных каким-либо общедоступным поисковиком. <...> Одним из направлений решения задачи обработки информации неидексированных сайтов является создание собственной ИПС с последующим ее совершенствованием <...>

Облако ключевых слов *


* - вычисляется автоматически