Х а н и н
ГИБРИДНЫЙ МЕТОД ОПТИЧЕСКОГО
РАСПОЗНАВАНИЯ ТЕКСТА С КОРРЕКЦИЕЙ
РЕЗУЛЬТАТОВ РАСПОЗНАВАНИЯ
Рассмотрена задача перевода информации с бумажных носителей
в электронный вид. <...> Предложен гибридный метод оптического распознавания символов на основе комплексирования результатов анализа полутоновых и бинарных изображений. <...> Предложена метрика
нечеткого поиска для орфографической и синтаксической коррекций распознанного текста с использованием словаря. <...> Разработан
программный комплекс для распознавания текстовых изображений
и коррекции текста. <...> Проведено сравнение результатов распознавания полутоновых изображений, полученных различными методами,
показавшее высокую точность разработанного метода. <...> E-mail: a.khanin@vniins.ru; alexandr.khanin@gmail.com
Ключевые слова: обработка изображений, сегментация, распознавание
символов и текста, синтаксический анализ, парсинг, OCR. <...> Оптическое распознавание символов (optical character recognition),
далее — OCR, является технологией механического или электронного
перевода отсканированных изображений рукописного, машинописного или печатного текстов в электронный вид. <...> Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и
компьютерного зрения. <...> В отличие от ранних версий, существующие OCR подходы не требуют калибровки для работы с конкретным
шрифтом и позволяют обеспечить достаточно высокую вероятность
достоверного распознавания большинства шрифтов. <...> Некоторые системы оптического распознавания текста способны восстанавливать
исходное форматирование текста, включая изображения, колонки и
другие нетекстовые компоненты. <...> 2012
153
применений возможно использование OCR в корпоративных системах фильтрации спама для случаев, когда спам рассылается в виде
изображений, а также для предотвращения утечек секретной информации из организаций — подобные данные очень часто представлены
в виде отсканированных копий документов <...>