Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 636225)
Контекстум
Руконтекст антиплагиат система
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии  / №2 2010

МЕТОД АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ МЕЖДУ КОНЦЕПТАМИ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА (90,00 руб.)

0   0
Первый авторПанченко
Страниц9
ID519884
АннотацияКачественно составленный информационно-поисковый тезаурус – ценный источник семантической информации, применяемый в различных технических приложениях, в особенности, в области информационного поиска. Основное препятствие для широкого применения подобных семантических ресурсов заключаются в высокой трудоемкости и стоимости их ручного составления. В данной работе представлен метод автоматического построения семантических отношений между концептами информационно-поискового тезауруса. Предлагаемый метод основан на дистрибутивно-статистическом анализе синтаксических контекстов и позволяет получить векторное представление как отдельных слов так и словосочетаний. Предлагается способ оценки качества автоматически извлеченных семантических отношений, основанный на использовании тезауруса составленного вручную профессиональными лексикографами. Результаты экспериментов показывают что метод способен обнаружить пары концептов связанные коротким путем в тезаурусе составленном вручную. С другой стороны, восстановление точной структуры оригинального тезауруса только с помощью предложенного метода представляется затруднительным.
УДК004.822
Панченко, А.И. МЕТОД АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ МЕЖДУ КОНЦЕПТАМИ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА / А.И. Панченко // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2010 .— №2 .— С. 159-167 .— URL: https://rucont.ru/efd/519884 (дата обращения: 22.05.2024)

Предпросмотр (выдержки из произведения)

Панченко Center for Natural Language Processing, Universitй catholique de Louvain Поступила в редакцию 26.11.2010 г. <...> Аннотация: Качественно составленный информационно-поисковый тезаурус – ценный источник семантической информации, применяемый в различных технических приложениях, в особенности, в области информационного поиска. <...> Предлагается способ оценки качества автоматически извлеченных семантических отношений, основанный на использовании тезауруса составленного вручную профессиональными лексикографами. <...> Annotation: A well-constructed thesaurus is recognized as a valuable source of semantic information for various applications, especially for Information Retrieval. <...> This paper addresses the problem of automatic thesaurus construction, namely we study the quality of automatically extracted semantic relations as compared with the semantic relations of a manually crafted thesaurus. <...> The vector-space model based on syntactic contexts was used to reproduce relations between the terms of a manually constructed thesaurus. <...> We propose a simple algorithm for representing both single word and multiword terms in the distributional space of syntactic contexts. <...> Our experiments show significant difference between the automatically and manually constructed relations: while many of the automatically generated relations are relevant, just a small part of them could be found in the original thesaurus. <...> INTRODUCTION An information retrieval thesaurus describes a certain knowledge domain by listing all its main concepts and semantic relations between them. <...> The predecessor of this standard is ISO 5964: «Documentation– Guidelines for the establishment and development of monolingual thesauri» (1986) ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2010, № 2 Метод автоматического построения семантических отношений между концептами. narrowing of the current request according to the needs of the user. <...> EuroVOC [2] is one example of a big contemporary information retrieval thesaurus: it is used for indexing documents of the European Parliament, the Office for Official Publications of the European Communities, and many other European institutions. <...> Apart from the applications in Information Retrieval [4], the semantic information contained in thesauri and ontologies was used in solving technical problems such as Text Categorization [5], Term Extraction [6], developing Question Answering systems [7] and some others. domain and establishing semantic relations such as synonymy, hyponymy, and association between them. <...> In our experiments we <...>