УДК: 025.4.03
Применение методов кластеризации для анализа
неиндексируемых интернет-ресурсов <...> Н.Э. Баумана, Москва, 105005, Россия
Представлены результаты сравнительного анализа двух алгоритмов
кластерного анализа Lingo и STC. <...> В качестве корпуса документов для
оценки возможности кластеризации использован набор документов,
полученных в ходе мониторинга сайтов определенной тематической
направленности. <...> Показано, что для корпуса документов указанной
тематики алгоритм Lingo обеспечивает более высокое качество кластеризации. <...> E-mail: zi@bmstu.ru
Ключевые слова: информационный поиск, извлечение знаний, кластеризация, сингулярное разложение, суффиксное дерево. <...> Ввиду стремительного развития информационных ресурсов сети Интернет, их активного использования в различных областях деятельности человека объемы информации, которую необходимо обрабатывать, возросли многократно, что привело к бурному
развитию технологии распределенного хранения сверхбольших объемов данных. <...> Одним из направлений подобной обработки является кластеризация, которая призвана решить
следующие задачи:
– разбиение исходного множества на группы схожих объектов
и предоставление возможности работы с каждой группой в отдельности;
– сокращение объема хранимых данных путем оставления по одному представителю от каждого кластера;
– выделение нетипичных объектов, не подходящих ни к одному
из кластеров (так называемые аномалии). <...> Особенности информационно-поисковых систем (ИПС) для
обработки неиндексированных сайтов. <...> Несмотря на то что для поиска информации в сети Интернет существуют поисковые системы
Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем данных содержится в так называемом сером, темном или глубинном Интернете — сайтах, не проиндексированных каким-либо общедоступным поисковиком. <...> Одним из направлений решения задачи обработки
информации неидексированных сайтов является создание собственной ИПС с последующим ее совершенствованием <...>