Кодирование речи на основе метода линейного предсказания заключается в том, что по линии связи передаются не параметры речевого сигнала (РС), как такового, а параметры некоторого фильтра, в известном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания (ФЛП), названный ранее фильтром-анализатором с передаточной функцией A(z). При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Различные варианты алгоритмов кодирования отличаются набором передаваемых параметров фильтра, методом формирования сигнала возбуждения и рядом других деталей, а процедура кодирования речи сводится к следующему (рис. 11.1):

  • оцифрованный сигнал речи "нарезается" на сегменты длительностью 20 мс;
  • для каждого сегмента оцениваются параметры ФЛП и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем (по идее) случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр A(z) с параметрами, полученными из оценки для данного сегмента;
  • параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Рис. 11.1. Кодирование речи на основе метода линейного предсказания

Рис. 11.1. Кодирование речи на основе метода линейного предсказания

Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Сигнал на вход анализирующего фильтра поступает непосредственно с выхода АЦП, а выходной сигнал синтезирующего фильтра попадает на вход ЦАП. Приведенное описание процессов кодирования и декодирования речи не является исчерпывающим, оно объясняет лишь принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами.

Во-первых, речевой сигнал обладает двумя видами внутренних корреляционных связей, кратковременной и долговременной избыточностью, поэтому в подавляющем большинстве современных речевых кодеков используется два предсказателя: кратковременный (SHORT-TERM) и долговременный (LONG-TERM). Первый предсказатель (STP), учитывающий кратковременную избыточность РС, связан с корреляциями между близко расположенными отсчетами сигнала и определяет огибающую спектра. Его порядок обычно бывает 6÷10. Второй, долговременный, предсказатель (LTP) определяет тонкую структуру РС и связан с корреляцией двух отрезков сигнала между собой, реально - двух соседних периодов основного тона (ОТ). Период основного тона речи изменяется в широких пределах. На практике обеспечивается формирование частоты ОТ в пределах 57 ё 500 Гц , что соответствует изменению периода от 2 до 17,5 мс.

Сочетание двух предсказателей с разными характеристиками позволяет в значительной мере устранить остаточную избыточность и приблизить остаток предсказания по своим статистическим характеристикам к белому шуму. При этом на приемную сторону передаются остаток предсказания и коэффициенты обоих (STP и LTP) предсказаний.

Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа бит. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но отнюдь не по вычислительным затратам) методы формирования сигнала возбуждения.

Рассмотрим структурную схему вокодера с линейным предсказанием более подробно (рис. 11.2). На подготовительном этапе выполняют аналого-цифровое преобразование РС и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при Fд = 8 кГц обеспечивает число обрабатываемых отсчетов равное 160. После сегментации отсчетов РС в кодере последовательно выполняются следующие три процедуры:

  1. кратковременный (формантный) анализ с использованием процедуры линейного предсказания, в результате чего получают первый остаточный сигнал r1(k);
  2. долговременный анализ с использованием линейного предсказания для определения параметров ОТ, в результате чего получают второй остаточный сигнал r2(k), близкий по своим характеристикам к шумовому, поскольку между отсчетами этого сигнала корреляция мала;
  3. аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения.

В первой процедуре оценку текущего отсчета Ś(k) определяют в соответствии с (10.1) как сумму P предшествующих отсчетов. При формантном анализе порядок предсказания P выбирают равным 8 – 12. Определение коэффициентов предсказания apiфильтра-анализатора (10.5) производят в блоке формантного анализа из условия минимизации среднеквадратичного значения ошибки предсказания (т.е. первого остаточного сигнала) на интервале сегмента.

Вычисленные значения коэффициентов предсказания используют в фильтре удаления формант кодера, на выходе которого получают сигнал, свободный от квазипериодических составляющих – формант; его называют первым остаточным сигналом. Информацию о формантах несут переданные на приемный конец параметры фильтра api, либо связанные с ними коэффициенты частичной корреляции (коэффициенты отражения). Иногда используют функции от коэффициентов отражения - так называемые логарифмические отношения площадей.

Во второй процедуре с учетом того, что основной тон характеризуется всего двумя параметрами, - амплитудой и периодом, передаточная функция фильтра удаления ОТ A2(z) описывается более простым, по сравнению с (10.4), выражением

, (11.1)

где G - единственный коэффициент предсказания, характеризующий амплитуду основного тона. Задержка a определяет период основного тона, ее значение обычно заключается в пределах от 20 до 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50 - 400 Гц. Известно, что значение основного тона для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много и, вместе с тем, метод, не требующий чрезмерной задержки, пока не появился.

Несмотря на относительную простоту выражения (11.1), анализ и удаление ОТ является более сложной процедурой по сравнению с формантным анализом. Это обусловлено существенно большим периодом ОТ и сложностью выявления корреляции между отсчетами на большом временном интервале. Кроме того, период и амплитуда ОТ очень важны для точного восстановления речи. Именно поэтому на этапе долговременного анализа сегмент речи разделяют на 4 подсегмента. Каждый подсегмент имеет длительность 5 мс и содержит 40 отсчетов. Значения G и a определяют для каждого подсегмента по отдельности. Найденные параметры G и a используют в фильтре удаления основного тона. Их также передают на приемный конец в декодер, где используют при синтезе речевого сигнала.

Рис. 11.2. Структурная схема липредора

Рис. 11.2. Структурная схема липредора

Решаемая задача третьей процедуры - при минимальном объеме информации о сигнале возбуждения обеспечить приемлемое качество восстановленного сигнала. Для достижения этого обработку второго остаточного сигнала производят отдельно для каждого подсегмента из 40 отсчетов. Суть аппроксимации состоит в том, что второй остаточный сигнал моделируют в виде определенного числа импульсов на интервале подсегмента.

Переданные по каналу связи параметры аппроксимации второго остаточного сигнала, параметры основного тона G и a, коэффициенты формантного фильтра apiпоступают на соответствующие блоки декодера (рис. 11.2). В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры кратковременного и долговременного предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и восстанавливают речь.

Синтез сигнала начинают с восстановления второго остаточного сигнала, выполняемого генератором возбуждения. Восстановленный сигнал r2вос(k) несколько отличается от второго остаточного сигнала в кодере из-за погрешности аппроксимации.

Восстановленный второй остаточный сигнал пропускают через фильтр восстановления основного тона, передаточную характеристику которого H2(z) устанавливают обратной характеристике фильтра удаления основного тона кодера:

.

На выходе этого фильтра получают восстановленный первый остаточный сигнал r1вос(k), который включает основной тон. Наконец, фильтр восстановления формант с передаточной функцией H(z) восстанавливает формантные составляющие сигнала.

Восстановленный сигнал Sвос(n) достаточно близок к исходному сигналу на входе кодера S(n). Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал.

Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Кодер и декодер реализуют на высокопроизводительном сигнальном процессоре. Показанные на рис. 11.2 модули липредора фактически являются блоками программного обеспечения.