Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ ЭЛЕКТРОННАЯ БИБЛИОТЕЧНАЯ СИСТЕМА Самара На правах рукописи СТЕФАНОВ Михаил Александрович ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СЖАТИЯ ЦИФРОВОЙ АУДИОИНФОРМАЦИИ С УЧЕТОМ СВОЙСТВ СЛУХОВОГО АНАЛИЗАТОРА ЧЕЛОВЕКА Специальность 05.12.13 – Системы, сети и устройства телекоммуникаций Автореферат диссертации на соискание ученой степени кандидата технических наук Самара – 2009 2 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» (ГОУВПО ПГУТИ) Научный руководитель: Официальные оппоненты: доктор технических наук, профессор Акчурин Э.А. доктор технических наук, доцент Горячкин О.В. кандидат технических наук, доцент Засов В.А. <...> Современный этап развития систем цифровой обработки и передачи аудиоинформации характеризуется как увеличением потока передаваемой информации, так и повышением требований к ее качеству. <...> В связи с этим одной из важнейших задач является повышение эффективности компрессии цифровых аудиоданных при условии высокого качества субъективного восприятия сжатого звука. <...> К настоящему времени в стандартах MPEG (Moving Pictures Expert Group) и ATSC (Advanced Television System Committee) Dolby AC-3 (А/52) рекомендуются алгоритмы высококачественного сжатия звуковых сигналов (ЗС), обеспечивающие цифровые скорости от 64 кбит/с для мультимедиа приложений до 384 кбит/с для цифрового стереофонического вещания. <...> Нестандартные алгоритмы в форматах PAC, VQF, WMA, Ogg Vorbis и другие по утверждениям их авторов позволяют без существенного снижения качества субъективного восприятия сжатого звука довести цифровую скорость до 96 кбит/с. <...> Таких успехов удалось добиться за счет обработки цифровых аудиоданных в частотной области, для чего <...>
Повышение_эффективности_сжатия_цифровой_аудиоинформации_с_учетом_свойств_слухового_Анализатора_человека_Автореферат_диссертации_на_соискание_ученой_степени_кандидата_технических_наук_.pdf
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Современный этап развития систем цифровой обработки
и передачи аудиоинформации характеризуется как увеличением потока
передаваемой информации, так и повышением требований к ее качеству. В связи
с этим одной из важнейших задач является повышение эффективности компрессии
цифровых аудиоданных при условии высокого качества субъективного
восприятия сжатого звука.
К настоящему времени в стандартах MPEG (Moving Pictures Expert Group) и
ATSC (Advanced Television System Committee) Dolby AC-3 (А/52) рекомендуются
алгоритмы высококачественного сжатия звуковых сигналов (ЗС), обеспечивающие
цифровые скорости от 64 кбит/с для мультимедиа приложений до 384
кбит/с для цифрового стереофонического вещания. Нестандартные алгоритмы в
форматах PAC, VQF, WMA, Ogg Vorbis и другие по утверждениям их авторов
позволяют без существенного снижения качества субъективного восприятия
сжатого звука довести цифровую скорость до 96 кбит/с. Таких успехов удалось
добиться за счет обработки цифровых аудиоданных в частотной области, для чего
используются дискретные ортогональные преобразования (ДОП). В свою очередь,
такое радикальное изменение принципов обработки ЗС стало возможным
благодаря результатам экспериментальных исследований психоакустических
свойств слуха. Наиболее полно эти исследования провели E. Zwicker, R. Feldtkeller.
Вместе с тем прикладной характер эти результаты получили благодаря
усилиям зарубежных ученых K. Brandenburg, G. Stoll, G. Theile и др. В России
следует выделить работы Ю.А. Ковалгина и А.М. Синильникова.
Однако дальнейшее развитие высококачественных систем компрессии цифровых
аудиоданных сдерживается отсутствием условий эффективного использования
психоакустических свойств слуха. Так. В стандартах MPEG и DOLBY
AC-3 (A/52) эффект маскировки учитывается только для оценки допустимой
степени округления. А в известных предложениях по повышению эффективности
сжатия не учитываются частотные характеристики ДОП и особенности
восприятия слухом сжатого спектра. В результате не представляется возможным
предметно говорить о более эффективных алгоритмах кодирования спектра
ЗС.
В связи с этим актуальной является задача выработки обоснованных рекомендаций
относительно ДОП, перспективных для целей сжатия ЗС и условий
повышения производительности высококачественных систем компрессии цифровых
аудиоданных.
Цель и задачи работы. Целью диссертации является повышение эффективности
сжатия цифровой аудиоинформации. Для достижения указанной цели в
диссертационной работе поставлены следующие задачи:
сформулировать обоснованные требования и выработать рекомендации
относительно ДОП, перспективных для эффективной и высококачественной
компрессии цифровых аудиоданных;
исследовать ДСО коэффициентов перспективных ДОП с учетом их частотных
свойств и основных психоакустических свойств слуха;
4
Стр.4
исследовать эффективность прореживания коэффициентов перспективных
ДОП;
разработать методики и провести экспериментальное исследование эффективности
сжатия цифровых аудиоданных с прореживанием спектра.
Методы исследования. При решении поставленных задач использовались
методы спектрального анализа, теории вероятностей и математической статистики,
теории цифровой обработки сигналов, результаты экспериментальных исследований
психоакустических свойств слуха и статистических свойств ЗС, компьютерное
моделирование.
Научная новизна работы заключается в следующем:
разработан метод оценки распределения допустимой степени округления
коэффициентов гармонических дискретных ортогональных преобразований,
учитывающий их частотные характеристики и свойства слухового анализатора
человека;
получены аналитические выражения для оценки вероятности маскировки
коэффициентов гармонических дискретных ортогональных преобразований
любым участком кривой маскировки;
разработан алгоритм прореживания коэффициентов гармонических дискретных
ортогональных преобразований, учитывающий особенности восприятия
слухом компонент сжатого спектра;
разработан метод оценки частотной области целесообразной для прореживания
в заданном рабочем диапазоне частот.
Личный вклад. Основные научные положения, теоретические выводы и
рекомендации, а также методики экспериментальной обработки цифровых аудиоданных,
содержащиеся в диссертационной работе, получены автором самостоятельно.
Практическая
ценность и реализация результатов работы. Полученные
аналитические выражения и зависимости способствуют повышению производительности
систем сжатия цифровых аудиоданных при сохранении высоких
качественных показателей.
Результаты работы могут быть использованы при разработке новых и усовершенствовании
существующих цифровых технологий передачи и обработки
цифровой аудиоинформации. Разработанные методики экспериментальной обработки
цифровых аудиоданных могут быть использованы для оценки эффективности
новых алгоритмов сжатия.
Основные теоретические и практические результаты, полученные в работе,
использованы ФГУП СОНИИР и внедрены в учебный процесс ГОУВПО
ПГУТИ, что подтверждено соответствующими актами.
Апробация работы. Основные результаты и положения работы обсуждались
на VIV – XVI Российских научных конференциях (Самара, 2007 – 2009), 6 Международной
научно-технической конференции «Проблемы техники и технологий
телекоммуникаций» (Уфа, 2005), VII Международной научно-технической
конференции «Проблемы техники и технологий телекоммуникаций» (Самара,
2006), IX Международной научно-технической конференции «Проблемы техни5
Стр.5