Как отмечалось ранее, при кодировании формы сигнала практически не учитываются свойства артикуляционного аппарата человека и особенности его слухового восприятия. В то же время именно здесь заключен значительный ресурс избыточности речевого сигнала (РС). На использовании этого ресурса избыточности основывается широко распространенное параметрическое представление речевого сигнала. Параметрическое представление РС основывается в первую очередь на данных о механизмах речеобразования, т.е. используется своего рода модель голосового тракта, что привело к разработке систем типа анализ-синтез, получившим название вокодерных систем или вокодеров (сокращение от voice coder). Описание первого вокодера было опубликовано Г. Дадли более 60 лет назад. Восстановленная речь была достаточно разборчивой, но звучала ненатурально. Значительного улучшения качества передаваемой речи удалось достичь только с появлением методов, основанных на линейном предсказании (LPC). Именно вокодерные методы на основе линейного предсказания и применяются в сотовой связи.
Линейное предсказание (ЛП) является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценке основных параметров РС, таких, как период основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений.
Основной принцип линейного предсказания состоит в том, что текущий отсчет РС можно аппроксимировать линейной комбинацией предшествующих отсчетов, а именно, очередная k-я выборка РС S(k) может быть приблизительно предсказана путем суммирования с определенным весом некоторого числа предшествующих выборок сигнала:
P
Ś(k) = å api S(k-i), (10.1)
i =1
где - Ś(k) - предсказанное значение РС; k – номер временного отсчета; api - коэффициенты линейного предсказания; Р - порядок предсказания (число коэффициентов линейного предсказания).
При анализе и синтезе речи используется модель речеобразования, представленная на рис. 10.1. Параметры модели обычно разделяются на параметры возбуждения (относящиеся к источнику звуков речи и отвечающие за основной тон, т.е. за возбуждение фильтра) и параметры голосового тракта (относящиеся непосредственно к отдельным звукам речи и определяющие формантную структуру сигнала). А отрезки глухой речи при моделировании заменяют шумом.
Рис. 10.1. Модель речеобразования, используемая в методе линейного предсказания
В соответствии с таким подходом, компрессия РС осущест-вляется на передающем конце канала в анализаторе, выделяющем из сигнала сравнительно медленно меняющиеся параметры выбранной модели. Затем эти параметры передаются по каналу связи. На приемном конце с помощью местных источников сигналов, управляемых принятыми параметрами (в соответствие с моделью), синтезируется речевой сигнал. При этом синтез речи осуществляется согласно разностному уравнению
P
Ŝ(k) = å api Ŝ(k-i) + Gu(n), (10.2)
i =1
где - Ŝ(k) - синтезированное значение речевого сигнала; и(п) - либо периодическая последовательность импульсов, следующих с периодом основного тона в случае синтеза вокализованных сегментов, либо случайная последовательность импульсов для синтеза невокализованных сегментов; Р - порядок синтезирующего фильтра; api - коэффициенты линейного предсказания, используемые в качестве параметров синтезирующего фильтра; G - коэффициент усиления, регулирующий интенсивность сигнала возбуждения для получения речевого сигнала заданной громкости. Коэффициенты линейного предсказания определяются однозначно минимизацией среднего квадрата разности между отсчетами РС и их предсказанными значениями на некотором конечном интервале. Коэффициенты линейного предсказания - это весовые коэффициенты, используемые в линейной комбинации.
Вокодеры на основе линейного предсказания обеспечивают высокую разборчивость передаваемой речи и иногда вполне удовлетворительную натуральность ее звучания. Одним из основных факторов, определяющих качество речи в этих вокодерах, является выделение основного тона речи и других параметров возбуждения в классической модели голосового аппарата. Для адекватного “отражения” этими параметрами модели постоянно изменяющегося РС, последний разбивается на сегменты по 20 ÷ 30 мс (длительность выбрана исходя из периода локальной стационарности РС), на каждом из которых и происходит описанная выше процедура. Характерной чертой вокодерных систем (по сравнению с кодеками формы сигнала) является то, что они производят все операции анализа, кодирования, декодирования сразу для целого сегмента отсчетов, а не для каждого отсчета в отдельности, как в ДИКМ и АДИКМ.
Таким образом, в процессе параметрического представления РС в кодере источника определяются коэффициенты предсказания, а в декодере на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта. Посредством возбуждения этого “эквивалента тракта” формируется синтезированная речь.
Разность между истинным (известным точно) S(k) и предсказанным Ś(k) значениями выборки определяет ошибку предсказания, которую также называют остатком предсказания или первым остаточным сигналом r1(k):
z(k) = r1(k) = S(k) - Ś(k). (10.3)
На базе линейного предсказателя в системе кодер/декодер строятся два цифровых фильтра: инверсный (обратный) фильтр-анализатор A(z) и формирующий фильтр-синтезатор H(z).
В результате z-преобразования разностного уравнения (10.3) имеем
R(z) = X(z) ´ A(z), (10.4)
где X(z) – z-преобразование выборки РС S(k) на входе фильтра-анализатора, а R(z) может интерпретироваться как выходной сигнал этого фильтра, имеющего передаточную функцию
p
A(z) = 1 - å api z-i = 1 - P(z). (10.5)
i=1
Здесь z-1 соответствует задержке РС на одну выборку; P(z) – коэффициент передачи предсказывающего устройства – предиктора.
Цифровой фильтр-анализатор A(z) – рис. 10.2 - называют инверсным, поскольку АЧХ такого фильтра должна быть обратной частотной характеристике голосового тракта (следовательно, обратной и огибающей спектра входного сигнала). Значения коэффициентов предсказания apiявляются параметрами этого фильтра. Они остаются постоянными на интервале анализируемого сегмента речи (как правило, 20 мс), поскольку линейный предсказатель перенастраивается (т.е. адаптируется) не под каждый речевой отсчет, а под их последовательность, вследствие чего ошибка минимизируется на протяжении всего сегмента.
Рис. 10.2. Инверсный фильтр-анализатор A(z)
Инверсный фильтр применяется в кодере для устранения избыточности РС. Пропуская через него исходный РС, на выходе фильтра получаем сигнал остатка предсказания z(k) (иначе - первый остаточный сигнал -r1(k)). В этом “остатке” устранены внутренние корреляционные связи, он имеет спектр с плоской огибающей.
Коэффициенты предсказания api можно подобрать таким образом, чтобы ошибка z(k) была минимальной. Чаще всего в качестве критерия используется минимум среднеквадратической ошибки. В этом случае требуется определить такие значения api , чтобы величина
p
å z 2 (k)
k=1
была минимальной.
При подаче речевого сигнала на вход фильтра-анализатора с оптимально подобранными параметрами его выходной сигнал будет представлять собой сигнал возбуждения R(z), подобный (с точностью до ошибок, определяемых конечностью порядка предсказания Р и погрешностью оценки коэффициентов предсказания) сигналу возбуждения u(k) на входе фильтра голосового тракта на рис. 10.1. На выходе этого фильтра остается только периодическая составляющая РС, соответствующая основному тону. Это модель фильтра - анализатора РС, описываемая уравнением (10.5).
Синтезирующий фильтр выполняет противоположные функции. Он находится в декодере и осуществляет формирование речевого сигнала с заданной огибающей спектра. “Нужная“ настройка этого фильтра в декодере обеспечивается передачей на приемную сторону коэффициентов предсказателя, используемых в этот момент в кодере. Подаваемый на вход синтезирующего фильтра сигнал называется “сигналом возбуждения” R(z). Является очевидным, что он должен быть максимально “похож” на сигнал остатка предсказания, полученный в кодере. Из выражения (10.4) можно получить модель фильтра-синтезатора, который находится в декодере (рис. 10.3)
Рис. 10.3. Модель фильтра-синтезатора X(z)
X(z) = R(z) / A(z) = R(z) ´ H(z), (10.6)
где H(z) = G / A(z) - передаточная функция синтезирующего фильтра, обратная передаточной характеристике фильтра-анализатора с точностью до скалярного коэффициента усиления G. Фильтр H(z) - это линейная система с переменными параметрами (фактически - модель фильтра голосового тракта), которая возбуждается импульсной последовательностью для вокализованных звуков и шумом для невокализованных (см. рис.10.1). Фильтр-анализатор и фильтр-синтезатор являются рекурсивными, поскольку значение сигнала на их выходах определяется лишь предшествующими выходными выборками речевого сигнала.
Такая модель имеет следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты api цифрового фильтра. Все эти параметры, разумеется, медленно изменяются во времени.