Разделы сайта

Методы оценки качества воспроизведения речи при цифровой передаче

Критерии и методы оценки качества воспроизведения речи подразделяются на объективные и субъективные. Объективные используют некоторые формализованные параметры, позволяющие судить о степени различия переданного по каналу связи и восстановленного на приёмной стороне сигналов. Однако, поскольку человек, как получатель информации, является основным потребителем услуг любой телекоммуникационной системы, качество сигнала может оцениваться по его субъективному восприятию речи.

Такие тесты обязательны при выборе стандартных кодеров, когда качество передачи речи в сетях общего пользования должно быть гарантировано.

Средняя экспертная оценка - MOS (Mean Opinion Scores) - это субъективное измерение, определённое в рекомендациях ITU-T для оценки качества передачи речи в телефонных сетях. Шкала оценок MOS приведена в табл. 3.2 при применении к речевой полосе (200 . 3400 Гц).

Таблица 3.2 Шкала средней экспертной отценки MOS

Оценка	Качество	Искажения
5 4 3 2 1	Превосходно Хорошо Посредственно Плохо Неудовлетворительно	Незначительные Заметны, но не раздражающие Немного раздражают Раздражают, но не неудобны Очень раздражают

В табл. 3.3 приведены оценки MOS для наиболее распространённых кодеров.

Таблица 3.3 Показатели MOS основных алгоритмов кодирования речи

Название алгоритма	MOS
G.711 (PCM; 64 кбит/c)	4,1
G.726 (ADPCM; 32 кбит/c)	3,85
G.728 (LD-CELP; 16 кбит/c)	3,61
G.729 (CS-ACELP; 8 кбит/c)	3,92
G.723.1 (MP-MLQ; 6,3 кбит/c)	3,9
G.723.1 (ACELP; 5,3 кбит/c)	3,65

Оценка 3,5 .4 относится к качеству сетей связи. Такое качество считается допустимым в приложениях, таких как голосовая почта и подвижная радиосвязь. Оценка 2,5 .3 относится к качеству синтезированной речи.

Другие измерения направлены на оценку искажения качества (QDU, Quantization Distortion Units), которые определены в рекомендациях ITU-T G.113 как искажения, вносимые одной парой кодеров по стандарту G.711 ИКМ со скоростью 64 кбит/с. Для количественной характеристики ухудшения качества речи применяют единицы QDU. Величина 1 QDU соответствует ухудшению качества речи при цифровом преобразовании речи с использованием стандартной процедуры ИКМ. Дополнительная обработка речи ведёт к дальнейшему ухудшению её качества. Согласно рекомендациям ITU - Т, для международных вызовов величина QDU не должна превышать 14, причём передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU. Следовательно, при передаче разговора по национальным сетям должно теряться не более 5 QDU: (2x5 + 4=14). Алгоритмы ADPCM, обеспечивающие скорость 32 кбит/с (G.726 [14]), LD-CELP (G.728) и CS-CELP (G.729 [17]) могут «испортить» качество речи на 3.5 QDU, а алгоритм ADPCM при 24 кбит/с - на 7 QDU. Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению ко всем сетям, подключаемых к сетям общего пользования.

Еще одним распространенным методом оценки качества воспроизведения речи является артикуляционный метод - критерий разборчивости. В его основе лежит измерение разборчивости S, %, которая определяется процентом правильно принятых элементов речи - звуков, слогов, слов или фраз. При некоторых типах искажений разборчивость функционально связана с другими показателями качества, например отношением сигнал-шум (ОСШ), и достаточно полно характеризует качество речи в целом.

В ряде случаев возникает необходимость перехода от одного вида разборчивости к другой, которая осуществляется на основе существующих объективных зависимостей между формантной А, звуковой D, слоговой S, словесной W и фразовой I разборчивостью. Наиболее широко распространённые зависимости приведены на рис. 3.8

Рис. 3.8 Функциональные зависимости различных видов разборчивости речи

Самым популярным и широко применяемым тестом на разборчивость является диагностический тест на рифмы (DRT, Diagnostic Rhyme Test). В этом тесте представлено одно слово из каждой группы рифмованных слов, и слушателя просят определить, какое слово было произнесено. Слова каждой группы, например «дом - том», различаются только первым согласным. Затем представляется оценка этого теста в процентном соотношении правильно определённых слов Q:

Перейти на страницу: 1 2 3

Интересное из раздела

Проектирование и программная реализация комплексной системы стрелочных переводов
Цифровая обработка сигналов (ЦОС) [1] представляет собой одну из наиболее мощных технологий, которая в XXI веке будет определять развитие наук ...

Расчет системы электропитания и ее элементов
Цель работы: составить по заданным условиям задания один из вариантов системы электропитания с расчетом и выбором ее элементов. Электропитание любой сис ...

Исследование и расчет цепей синусоидального тока
Синусоидальный ток представляет собой ток, изменяющийся во времени по синусоидальному закону: , где - максимальное значение или амплитуда ...