Информационно-управляющие системы / №2 2015

КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ (140,00 руб.)

Авторы	С. В. Тарасов , В. В. Бураков
Страниц	6

140,00р

ID	314588
Аннотация	Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое) дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой одного и того же объекта как нескольких разных. Реляционная модель данных, а также промышленные СУБД на осно- ве реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для распознавания и предотвращения появления нечетких дубликатов. Целью работы является разработка такого способа обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной реляционной СУБД. Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования, предложены пути внесения смысловой дублирующей информации в реляционную базу данных. Определено, что для решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их семантики. Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных механизмов обработки данных. Практическая значимость: разработанный способ позволяет автоматически обнару- живать дубликаты, исключив вмешательство человека-оператора, и тем самым повысить качество данных информаци- онной системы. Пример практической реализации для промышленной СУБД позволяет непосредственно использовать предложенный способ в инженерной практике разработки информационных систем. Данный способ также был исполь- зован авторами при разработке коммерческой автоматизированной информационной системы.
УДК	004.6

КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ / С. В. Тарасов, В. В. Бураков // Информационно-управляющие системы .— 2015 .— №2 .— URL: https://rucont.ru/efd/314588 (дата обращения: 11.03.2026)

Предпросмотр (выдержки из произведения)

ПРОГРАММНЫЕ И АППАРАТНЫЕ СРЕДСТВА УДК 004.6 doi:10.15217/issn1684-8853.2015.2.76 КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ В. В. <...> Тарасова, ведущий инженер исследований и разработки Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое) дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой одного и того же объекта как нескольких разных. <...> Реляционная модель данных, а также промышленные СУБД на основе реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для распознавания и предотвращения появления нечетких дубликатов. <...> Целью работы является разработка такого способа обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной реляционной СУБД. <...> Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования, предложены пути внесения смысловой дублирующей информации в реляционную базу данных. <...> Определено, что для решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их семантики. <...> Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных механизмов обработки данных. <...> Практическая значимость: разработанный способ позволяет автоматически обнаруживать дубликаты, исключив вмешательство человека-оператора, и тем самым повысить качество данных информационной системы. <...> Ключевые слова — нечеткие дубликаты, смысловые дубликаты, метод n-грамм, реляционная база данных, очистка данных, качество данных . <...> Возникает необходимость вводить в процесс обеспечения качества данных объективные показатели, позволяющие производить независимые оценки и сравнения. <...> Одним из показателей низкого качества данных является их дублирование, ведущее в итоге к ошибочной интерпретации <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или

КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ (140,00 руб.)

Популярные

Предпросмотр (выдержки из произведения)

Облако ключевых слов *