Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634620)
Контекстум
.
Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика  / №2 2014

Моделирование речевых признаков с помощью алгоритма симуляции отжига (80,00 руб.)

0   0
Первый авторЕрмилов
Страниц5
ID404448
АннотацияМел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. Величина смещения может достигать 25%. Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model).
УДК519.68:007.5
Ермилов, А.В. Моделирование речевых признаков с помощью алгоритма симуляции отжига / А.В. Ермилов // Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика .— 2014 .— №2 .— С. 356-360 .— URL: https://rucont.ru/efd/404448 (дата обращения: 19.04.2024)

Предпросмотр (выдержки из произведения)

УДК 519.68:007.5 Моделирование речевых признаков с помощью алгоритма симуляции отжига А. В. Ермилов Национальный исследовательский университет «Высшая школа экономики» Кафедра управления разработкой программного обеспечения ул. <...> 20, Москва, Россия, 101000 Мел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. <...> Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. <...> Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. <...> Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model). <...> В данной статье описываются признаки, основанные на аудиовизуальных моделях, которые могут быть вычислены при помощи алгоритма симуляции отжига. <...> На основе Монте-Карло-симуляций исследованы статистические свойства оценок параметров расширения Грам-Шарлье нормального распределения, полученных применением метода симуляции отжига к решению задачи максимизации правдоподобия, а также проведено сравнение точности решения данной задачи максимизации правдоподобия при помощи различных методов. <...> Ключевые слова: речевые признаки, алгоритм симуляции отжига, распознавание речи, моделирование распределений, численные методы. <...> Введение Наиболее часто в системах распознавания речи используются мел-частотные кепстральные коэффициенты [1]. <...> Однако из-за различий в длинах речевого тракта может происходит сдвиг частот центральных формант. <...> Разница в этих частотах может доходить до 25%. <...> Из-за этого различия первоначально обученная модель может <...>