Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 636225)
Контекстум
Руконтекст антиплагиат система
0   0
Первый авторХаритонов
АвторыСлесарев А.В., Мучник И.Б., Романенко Ф.C., Беляев Д.В., Котляров Д.И.
Страниц6
ID519885
АннотацияДля защиты пользователей сервиса поиска изображений от нежелательного содержания нужно уметь выделять нежелательные изображения. В данной статье описывается построение такого классификатора на основе анализа связей сайтов и изображений в сети. Эти связи представляются в виде двудольного ненаправленного графа. С каждой вершиной графа ассоциируется два вещественных числа, отражающие уровень нежелательности и уровень допустимости. Для каждой вершины-изображения эти числа инициализируются нулями, а веса вершин-сайтов инициализируются согласно результатам текстовой классификации сайтов. Далее, с помощью итеративного алгоритма эти значения распространяются вдоль ребер графа. Полученные в итоге веса используются для классификации изображений с нежелательным содержанием. Эксперименты на данных русского сегмента сети Интернет показывают, что рассматриваемый алгоритм превосходит «наивный» алгоритм на 17% полноты при том же уровне точности. «Наивным» алгоритмом мы считаем алгоритм определяющий изображение как нежелательное, если на него есть ссылка хотя бы с одного нежелательного сайта
УДК004.93’12
LINK GRAPH ANALYSIS FOR ADULT IMAGES CLASSIFICATION / Е.В. Харитонов [и др.] // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2010 .— №2 .— С. 168-173 .— URL: https://rucont.ru/efd/519885 (дата обращения: 21.05.2024)

Предпросмотр (выдержки из произведения)

УДК 004.93’12 LINK GRAPH ANALYSIS FOR ADULT IMAGES CLASSIFICATION Е. <...> Эксперименты на данных русского сегмента сети Интернет показывают, что рассматриваемый алгоритм превосходит «наивный» алгоритм на 17% полноты при том же уровне точности. «Наивным» алгоритмом мы считаем алгоритм определяющий изображение как нежелательное, если на него есть ссылка хотя бы с одного нежелательного сайта. <...> Annotation: In order to protect an image search engine’s users from undesirable results adult imagesclassifier should be built. <...> The information about links from websites to images is employed to create such a classifier. <...> These links are represented as a bipartite website-image graph. <...> Each vertex is equipped with scores of adultness and decentness. <...> The scores for image vertexes are initialized with zero, those for website vertexes are initialized according to a text-based website classifier. <...> An iterative algorithm that propagates scores within a website-image graph is described. <...> The scores obtained are used to classify images by choosing an appropriate threshold. <...> The experiments on Internet-scale data have shown that the algorithm under consideration increases classification recall by 17% in comparison with a simple algorithm which classifies an image as adult if it is connected with at least one adult site (at the same precision level). <...> INTRODUCTION There are two kinds of approaches which can be used to detect adult images, i.e. text-based and image-based. <...> The text-based approach detects adult webpages using their text content and propagates this information to the linked images and pages. <...> On the other hand, imagebased approach uses the features contained in the image itself such as face presence, skin-color features, connected components, etc. <...> The problem of adult webpages detection problem is a special case of the automatic text classification problem. © Харитонов Е. <...> Sebastiani made a survey [1] of the main approaches to text classification and categorization. <...> Text-based approaches are full of significant limitations. <...> Texts on many webpages do not correspond to their image contents. <...> Because of limitations on size of a training set and variety of words used on adult webpages it can be difficult to make such a dictionary <...>

Облако ключевых слов *


* - вычисляется автоматически
Антиплагиат система на базе ИИ