Разделы сайта

Основные характеристики наиболее известных типов устройств речепреобразования (вокодеров)

Одним из основных узлов ПО пакетирования речи является устройство речепреобразования (вокодер).

Преобразование аналогового речевого сигнала в цифровой вид обычно осуществляется методом импульсно-кодовой модуляции (ИКМ). После такой обработки речевой сигнал уже пригоден для передачи по цифровым каналам. Однако для передачи такого цифрового потока необходимо выделение полосы пропускания 64 кбит/с (рекомендация ITU G.711 [11]), что является явно избыточным.

Существует еще одно преобразование речевого сигнала - адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ). Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 16-32 кбит/с (стандарт ITU G.726 [14]). Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. Блок-диаграмма кодека АДИКМ представлена на рис. 3.6

Рис. 3.6 Блок-диаграмма кодека АДИКМ

АДИКМ является основой стандарта ITU G.727 [15], который определяет преобразование речи методом EADPCM - Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). В данном стандарте речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок - следующие по убыванию старшинства биты и т. д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

Например, в случае преобразования EADPCM в речевом кадре будет содержаться четыре блока, и наименее значимые блоки - два последних (блоки расширения), могут отвергаться в случае перегрузки. Эта особенность используется в рекомендации FRF.11 [19], регламентирующей передачу речи по сети Frame Relay. Согласно Приложению G этой рекомендации, сформированный методом EADPCM речевой кадр передается в двух кадрах Frame Relay: основная информация - в кадрах с битом DE = 0 (Discard Eligibility - Разрешение Сброса), и информация расширения - в кадрах с установленным битом (DE =1). Это означает что в случае перегрузки кадры с установленным битом DE могут быть уничтожены.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, эффективны лишь при скорости передачи цифрового речевого сигнала большей 32 кбит/с. Дальнейшее снижение скорости возможно путем устранения избыточности, содержащейся в речевом сигнале, на основе анализа речи при передаче и воссоздания при приеме. В результате по каналу связи передают не собственно речь в цифровом виде, а ее характеристики, позволяющие восстановить речевой сигнал при приеме. Для выполнения процессов анализа-синтеза речи используют специальные кодеры-декодеры речевого сигнала, называемые вокодерами (сокращение от английских слов voice coder).

Наиболее эффективными являются вокодеры на основе метода линейного предсказания речи. Процесс кодирования в этом случае разбивается на ряд типовых процедур, каждую из которых выполняют методами цифровой фильтрации. При кодировании выявляют периодические процессы в речевом сигнале, определяют их параметры, а затем устраняют из речевого сигнала избыточность, исключая найденные периодичности. В результате получают остаточный речевой сигнал, который аппроксимируют и передают вместе с параметрами периодических процессов в речи по каналу связи. Перечисленные процедуры составляют процесс анализа речи.

В приемнике, в декодирующем устройстве, по принятому остаточному сигналу и параметрам периодических процессов речи восстанавливают речевой сигнал, выполняя процесс синтеза речи.

Отметим, что при таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере (см. рис. 3.7).

Рис. 3.7 Схема функционирования вокодера, реализованного на основе метода линейного предсказания речи

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

Перейти на страницу: 1 2

Интересное из раздела

Расчет характеристик сигналов и каналов связи
В последнее десятилетие ХХ века произошла научно-техническая революция в области транспортной связи, в основе которой лежат два крупных достижения ...

Шлюз ZigBee и GPRS
Беспроводные сенсорные сети получили большое развитие в последнее время. Такие сети, состоящие из множества миниатюрных узлов, оснащенных маломощным приемо- ...

Исследование и расчет цепей синусоидального тока
Синусоидальный ток представляет собой ток, изменяющийся во времени по синусоидальному закону: , где - максимальное значение или амплитуда ...