Один из распространенных способов описания речи заключается в представлении ее в виде сигнала, т.е. акустического колебания, или некоторой параметрической модели.
Под речевым сигналом (РС) понимают электрическое колебание, наблюдаемое на выходе формирующего устройства (акустоэлектрического преобразователя) при воздействии на его вход акустического речевого колебания. Сообщение, передаваемое с помощью РС, является дискретным, т.е. может быть представлено в виде последовательности символов из конечного их числа. Символы, из которых состоит РС, называются фонемами. Фонемой также называют наименьшую звуковую единицу данного языка, существующую в целом ряде конкретных звуков речи. Между буквами и фонемами одного и того же языка нет однозначной связи (буквы - это то, что мы читаем, фонемы - то, что произносим), поэтому число фонем и число букв неодинаково во всех языках. В каждом языке имеется присущее ему множество фонем, обычно от 30 до 50 (в русском языке насчитывается 42 звука речи - 6 гласных и 36 согласных).
Рис. 3.1. Артикуляционный аппарат человека
Механизм речеобразования. Речь предназначена для общения. Речевое общение начинается с того, что в мозгу человека возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание. Информация, содержащаяся в сообщении, представлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательности нервных импульсов, управляющих артикуляционным аппаратом человека (рис. 3.1.). Под воздействием нервных импульсов артикуляционный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее информацию об исходном сообщении. Знание механизма речеобразования играет важную роль для понимания методов обработки речи.
При произнесении звуков речи поток воздуха нагнетается из легких, проталкивается через трахею, гортань, полости рта и носа и затем излучается через губы и ноздри. Одну из главных ролей в образовании звуков речи играют голосовые связки, расположенные в гортани. Гортань и ротовую полость называют голосовым трактом. Голосовой тракт начинается с прохода между голосовыми связками (голосовая щель) и заканчивается у губ. Он состоит из гортани и ротовой полости. Общая длина голосового тракта у взрослого человека примерно 17 см. Площадь поперечного сечения голосового тракта определяется положением языка, губ, челюстей, небной занавески и может изменяться от 0 до 20 см2.
Изменения конфигурации голосового тракта в процессе произнесения звуков речи воздействуют на проходящую через тракт акустическую волну. При образовании носовых звуков к голосовому тракту, благодаря опущенной небной занавеске, подключается носовая полость. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, в результате вся речеобразующая система функционирует как единый сложный объект.
Голосовой тракт и носовую полость обычно представляют в виде секций цилиндрических труб (системы резонаторов) с переменной по продольной оси площадью поперечного сечения. Изменение конфигурации тракта вдоль его продольной оси и во времени описывают функцией площади поперечного сечения. В простейшем случае необходимо иметь три основные секции (отрезка трубы) и дополнительную секцию для имитации округлости губ. Такая модель (рис. 3.2) достаточно хорошо имитирует голосовой аппарат человека от голосового источника до выхода из ротовой полости. Первый резонатор (с площадью поперечного сечения A1 и длиной l1) имитирует гортань и ротовую полость до сужения, создаваемого языком (задняя полость), второй (A2 и l2) —участок сужения между языком и твердым небом, третий (A3 и l3) — переднюю ротовую полость и, наконец, четвертый (A4 и l4) — проход между губами. У каждого человека эти размеры индивидуальны и в процессе речеобразования состояние голосового тракта (т.е. сечение входящих в него труб) постоянно меняется. Каждому элементарному звуку речи (т.е. фонеме) соответствует определенная форма акустических резонаторов, обусловленная положением языка, губ, нижней челюсти и т. д. При переходе от одного звука к другому форма резонаторов плавно изменяется, подчиняясь индивидуальным особенностям голосового аппарата.
При описании речеобразования резонансные частоты трубы голосового тракта называются формантными частотами или просто формантами. Формантные частоты зависят от размеров и формы голосового тракта, который формирует формантную структуру. Произвольная форма голосового тракта может быть описана набором формантных частот, спектр которой при произнесении речи непрерывно изменяется, образуя формантные переходы.
Все звуки речи могут быть разделены на три четко выраженные группы по виду сигнала возбуждения голосового тракта: вокализованные, невокализованные, взрывные.
При произношении звонких звуков, называемых вокализованными (гласные, звонкие согласные: а, о, у, з,...), голосовые связки вибрируют (колеблются), в результате чего непрерывный воздушный поток, идущий из легких, преобразуется в импульсный. Возникающая таким образом квазипериодическая последовательность импульсного потока воздуха, возбуждает голосовой тракт. В результате акустическое колебание, излучаемое через ноздри, губы и зубы, представляет собой квазипериодический сигнал. В модели речеобразования (рис. 3.2) периодическое сокращение голосовых связок моделируется двумя резонансными контурами. Их совместное колебание управляет площадью отверстия, формирующего сигнал возбуждения.
Невокализованные звуки (глухие согласные ф, х, ш,...) образуются при сужении голосового тракта в каком-либо месте (обычно это рот) и проталкивании воздуха через суженное место с высокой скоростью, достаточной для образования вихревого воздушного потока, создающего широкополосный шум со сплошным спектром. После этого происходит перераспределение энергии шумового сигнала возбуждения по частотному диапазону в соответствии с частотной избирательностью голосового тракта. Такой шум, возбуждая голосовой тракт, создает фрикативные и взрывные звуки. При произнесении последних (п, б, ...) голосовой тракт полностью закрывается, обычно в начале. За этим местом возникает повышенное сжатие воздуха. Затем воздух резко высвобождается и формируется акустическое колебание, излучаемое голосовым трактом.
Характеристики речи. Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Основными параметрами, используемыми при описании речевого сигнала, являются:
- статистическое распределение звуков, слогов и слов при произношении речи;
- временные характеристики звуков;
- основной тон речи;
- спектр речи;
- распределение формантных частот.
Эти параметры играют важную роль при построении систем кодирования речи.
Звуки речи разделяют на гласные и согласные. В русском языке принято выделять шесть гласных звуков: а, и, о, у, ы, э. Их классифицируют по произношению (ударные, безударные) и местоположению в словах. Согласные звуки также разделяют на несколько подгрупп — твердые, мягкие и др. Гласные звуки составляют примерно 43,5 %, а согласные — 56,5 % общего числа звуков, при этом невокализованные звуки составляют 32 %. Наиболее распространенный гласный звук — это а, самый распространенный согласный звук — г. Среди гласных звуков наиболее редким является звук э, среди согласных — фь.
Согласные фонемы (звуки) по типу делят на звонкие и глухие, а по способу образования - на щелевые (звонкие - в, з, ж и глухие – ф, с, ш, х,), взрывные, т.е. смычные (звонкие - б, г, д и глухие - п, т, к,), сонаты (носовые - м, н, щелевые -л, й, дрожащие - р) и аффрикаты (ц, ч).
Каждый звук является реализацией случайного процесса с определенными характеристиками. Длительность отдельных звуков речи составляет 20...350 мс. При этом гласные звуки имеют большую длительность (в среднем около 200 мс), чем согласные (около 80 мс, а звук "п" - около 30 мс). Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - низкий - в среднем на 20 дБ ниже уровня гласных. Динамический диапазон уровней речи находится в пределах 35...45 дБ.
Речь с физической точки зрения состоит из последовательности звуков речи с паузами между их группами. Паузой считается отсутствие речи в течение времени, большего 350 мс. В целом средняя длительность пауз составляет приблизительно 16 % длительности речи, а средняя скорость речи 10... 15 звуков/с. Темп речи может изменяться в широких пределах, длительность фонем, слогов и пауз также изменяется, причем длительность гласных звуков изменяется в большей степени.
Важной характеристикой вокализованных звуков является частота основного тона (ОТ) FО.Т. - частота колебаний голосовых связок или частота первой гармоники спектра вокализованных звуков; Т0 = 1 / FО.Т.- период основного тона голоса. У вокализованных звуков спектр является дискретным с большим числом (до 40) гармоник, которые имеют частоту, кратную частоте основного тона. Частота ОТ изменяется в пределах от 60...70 Гц для низких мужских голосов до 450...500 Гц для высоких женских голосов. Средняя частота ОТ для мужских голосов 130... 150 Гц, для женских — 250 Гц. Медленное изменение частоты основного тона при произнесении речи создает эмоциональную окраску и называется интонацией. У каждого человека свой диапазон изменения основного тона (немного более октавы) и своя интонация, играющая большую роль в процессе узнавания говорящего. Пример плотности распределения вероятности частоты ОТ, представлен на рис. 3.3.
Рис. 3.3. Плотность распределения вероятности частоты основного тона (получено в течение 15 мин для речи 15 мужчин – дикторов в возрасте около 20 лет)
Спектр речи — зависимость среднего в течение длительного времени наблюдения спектрального уровня речи от частоты Вр(f) - весьма широк (примерно от 50 до 10000 Гц). Спектр русской речи, усредненный для мужских и женских голосов, представлен на рис. 3.4. Как отсюда следует, основная энергия в спектре речи сосредоточена в области низких частот. Максимальный уровень спектральной плотности речи лежит вблизи частоты 300 Гц, а наиболее «мощные» спектральные составляющие человеческого голоса сосредоточены в узкой полосе 200...600 Гц. Каждому звуку речи соответствует свое распределение энергии по частотному диапазону, называемое формантным рисунком. Формантные частоты, на которых происходит максимальное увеличение амплитуды спектральных составляющих, образуют формантные области частотного диапазона.
Рис. 3.4. Спектр русской речи
Спектральный состав звуков речи различен. Например, для гласных и звонких согласных (вокализованных звуков речи) энергетический спектр (формантный рисунок) имеет вид, представленный на рис. 3.5. Звонкие звуки имеют ярко выраженный дискретный спектр. Это объясняется природой образования гласных звуков, а дискретность определяется частотой основного тона: чем меньше частота ОТ, тем чаще будет заполнение спектра звука.
Рис. 3.5. Формантный рисунок вокализованных звуков: А1-А3 - амплитуды формант; F1-F3 - частоты формант; DF1 - ширина первой форманты
Форманта характеризуется амплитудой Аi, частотой Fi, и шириной полосы DFi. Различные звуки имеют разное число формант: гласные - до четырех формант, глухие согласные до 5-6 формант. Наиболее информативны первые три форманты: F1, F2 и F3. Наиболее вероятные частоты расположения: первой форманты F1 –150 – 900 Гц; второй форманты F2 – 550 – 2800 Гц; третьей форманты F3 – 1500 – 3400 Гц. Изменение положения формант происходит с частотой 10 – 20 Гц, а их интенсивности - с частотой 20 – 40 Гц. Первые две (основные) форманты определяют произносимый звук речи, а остальные (вспомогательные) характеризуют индивидуальную для каждого человека окраску, тембр речи. Если фильтром нижних частот отрезать вспомогательные форманты спектра речевого сигнала, то исчезнет индивидуальная для каждого человека окраска произносимых звуков, но само речевое сообщение будет понятно. Некоторые звуки отчетливо распознаются по одной первой форманте F1 ("а", "о", "у"). Это происходит потому, что низкие частоты обладают большой энергией.
Формантный рисунок глухих звуков выражен слабо. У них спектр не дискретный, а сплошной и характеризуется только огибающей спектра. Так, для звука "С" максимум спектральной плотности лежит вблизи частот 5000 – 8000 Гц. В полосе частот 1500 – 8000 Гц находится спектр согласных звуков и, в частности, фрикативных согласных ("в", "ф", "з", "с", "ж", "ш", "х", "щ"). Восприятие их особенно важно для разборчивости речи.