Разделы сайта

Методы оценки качества воспроизведения речи при цифровой передаче

где NR- число верных ответов; Nw - число неверных ответов; N - общее число использованных слов.

Обычно оценка этого теста колеблется от 75 до 95 %. Для определения смысла полученных результатов с оценками разборчивости обычно связывают категории характеристик. Например, 95 . 100 соответствует «превосходно», 87 .95 - «хорошо», 79 .87 - «посредственно», 70 .79 -«недостаточно», меньше 70 рассматривается как недопустимый результат или «плохо».

Для большинства стандартных кодеров речи, работающих на скоростях выше 4 кбит/с, оценка DRT выше 90%.

К недостаткам перечисленных методов оценки качества речи в первую очередь следует отнести низкую оперативность и сложность получения результатов. Поэтому чаще всего предпочитают использовать объективные (формализованные показатели) качества.

Объективные измерения эффективны с точки зрения цены и повторяемости результатов, однако много внимания должно быть уделено выбору правильного метода измерения для данных типов кодеров. Примеры объективных измерений речи включают:

· отношение сигнал/шум и воспринимаемое взвешенное отношение сигнал/шум;

· индекс артикуляции (AI);

· искажения логарифмического спектра (LSD) и логарифмическое кепстральное расстояние (LCD).

Наиболее общим измерением искажений является среднеквадратическая ошибка (Mean Square Error, MSE), определяемая как:

где х - вектор входных значений, у - вектор оценок, N - общее число отсчетов.

Популярность среднеквадратической ошибки связана с её простотой. В методе среднеквадратической ошибки допускается, что искажения, вносимые каждым элементом вектора х, имеют равный вес. В общем случае можно ввести неравные веса, чтобы отразить вклады отдельных элементов в искажение как более важные, чем другие. Таким образом, взвешенная среднеквадратическая ошибка определяется как:

где W- положительно определённая взвешивающая матрица.

Для количественной оценки качества речевого сигнала обычно используют нормированный показатель погрешности, характеризующий средний квадрат ошибки воспроизведения , усреднённой по времени и приведённой к дисперсии сообщения :

(1)

Величина, обратная нормированному показателю погрешности, является отношением мощности сигнала к мощности шумов:

При объективных методах оценки для анализа качества систем передачи речи необходимо оценивать отношение мощности сигнала к суммарной мощности шума - ОСШE и знать взаимосвязь между ОСШE и S.

Известно, что значения ОСШ имеют устойчивую связь с субъективными оценками качества восприятия речи. При субъективных оценках наиболее часто используются численные характеристики разборчивости фрагментов речи, в частности слогов. Для слоговой разборчивости S* найдены функции взаимосвязи с другими видами разборчивости: слов, фраз, фонем.

Поскольку в выражении (1) используется дисперсия сигнала и шума , вычисленные (или измеренные) за время речевого теста, данный показатель будем именовать долгосрочным ОСШ.

Следует отметить, что исследование цифровых методов передачи речи и особенно различных адаптивных методов кодирования, выявили серьёзные расхождения субъективных оценок при одинаковых значениях ОСШ. Это объясняется различным характером искажений, создаваемых адаптивными и неадаптивными системами передачи. В неадаптивных системах имеет место стационарный шум с уровнем, независящим от уровня сигнала. Качество тракта передачи при этом определяется, главным образом, по восприятию шума в паузах речи. В адаптивных системах шумы незанятого канала могут быть неощущаемыми на слух. Восприятие искажений будет определяться нестационарным сопровождающим шумом, дисперсия которого определяется и уровнем сигнала и его спектральными характеристиками. В связи с этим при объективной оценке различных алгоритмов кодирования и восстановления речи используются специальные устройства, генерирующие шум, коррелированный с речевым сигналом. Такие устройства называются MNRU (Modulated Noise Reference Unit).

Использование MNRU позволяет учесть нестационарность возникновения шумов при изменении текущей мощности речевого сигнала. Отметим, однако, что не учитывается изменение модели спектра сигнала при произношении вокализованных и невокализованных звуков.

Кроме того, при использовании адаптивных кодеров, например АДИКМ, выявились значительные расхождения субъективных и объективных оценок. В результате для оценки качества предложена более корректная оценка, получившая название сегментного ОСШ:

Перейти на страницу: 1 2 3

Интересное из раздела

Проблемы обнаружения и подавления работы радиоуправляемых взрывных устройств
Цель контрольной работы - описать проблемы обнаружения и подавления работы радиоуправляемых взрывных устройств и сотовых телефонов, выявить основные методы ...

Анализ алгоритмов цифровой обработки сигналов. Исследование корректирующих способностей циклических кодов
цифровой сигнал циклический код Цифровой фильтр - в электронике любой фильтр, обрабатывающий цифровой сигнал с целью выделения и/или подавления определённых частот этого ...

Проектирование и программная реализация комплексной системы стрелочных переводов
Цифровая обработка сигналов (ЦОС) [1] представляет собой одну из наиболее мощных технологий, которая в XXI веке будет определять развитие наук ...