При восприятии переданной речевой информации в качестве приемника выступает слуховой аппарат человека - речевое колебание воздействует на органы слуха человека, вызывая определенные слуховые ощущения. Первичный акустический преобразователь, используемый человеком при слуховом восприятии, - ухо разделяют на три области: наружное, среднее и внутреннее. Эти периферические отделы слуховой системы доводят звуковые колебания воздушной среды до чувствительных окончаний слуховых волокон нервной системы. Здесь акустический сигнал преобразуется в электрический и в результате сложного взаимодействия в сфере высшей нервной деятельности происходит восприятие речи, заключающееся в распознавании смысловых элементов речи. При этом слуховой аппарат человека позволяет решать следующие задачи слухового восприятия: распознавать речь (фонемы, слоги, слова); определять направление источника звука; адаптироваться к шумам и тишине (регулировка чувствительности); идентифицировать говорящего по речевым сигналам и т.д.
Восприятие по частоте. Ухо человека обладает свойствами частотного анализатора, дискретным восприятием по частотному и динамическому диапазонам. Границы воспринимаемого слухом частотного диапазона довольно широки - от приблизительно 20 до 20000 Гц. Избирательность (разрешающая способность) слухового анализатора невелика: полосы пропускания резонаторов слухового анализатора, определенные на уровне - 3 дБ от своего максимального значения, составляют на частотах 250, 1000 и 4000 Гц около 35, 50 и 200 Гц соответственно. Эти полосы пропускания - ряд выделяемых слуховым анализатором человека специфических поддиапазонов частотного спектра - носят название критических полосок слуха или частотных групп. Слуховым анализатором человека образуется 24 критических полоски слуха.
Субъективную оценку восприятия звука по частотному диапазону называют высотой звука. Так как ширина критической полоски слуха на средних и высоких частотах примерно пропорциональна частоте, то субъективный масштаб восприятия по частоте близок к логарифмическому закону.
Порог слышимости и уровень громкости. Человек ощущает звук в чрезвычайно широком диапазоне звуковых давлений (или интенсивностей). Чувствительность к чистым тонам (гармоническим колебаниям) является одной из основных характеристик слуха. Воспринимаемое ухом значение спектрального уровня чистого тона принято называть порогом слышимости, а наибольшее значение спектрального уровня чистого тона данной частоты, которое человек воспринимает без болевого ощущения, — болевым порогом (порогом осязания). Область, ограниченная кривыми порога слышимости β0 и болевого порога γ, называется областью слухового восприятия, или областью слышимых звуков (рис. 4.1). Порогом слышимости также называют наименьшее значение раздражающей силы чистого тона, которое вызывает ощущение звука. Это скачкообразный переход из слышимого состояния в неслышимое и обратно. Под раздражающей силой подразумевают интенсивность звука или звуковое давление. Порог слышимости зависит от частоты: при 1000 Гц ему соответствует интенсивность звука 10-12 Вт/м 2 или звуковое давление 2´10-5 Па.
Принцип квантования ощущений является одним из важнейших свойств слуха. Этот принцип в полной мере характеризует и восприятие по амплитуде. Так, изменение ощущения (например, уровня громкости) возникает лишь тогда, когда изменение соответствующего ему раздражителя (уровня звукового давления или интенсивности звука) превысит определенное пороговое значение. При этом порог различения интенсивности зависит от уровня громкости, а слуховые ощущения громкости почти пропорциональны логарифму интенсивности воздействия. Вблизи абсолютного порога слышимости порог различения интенсивности составляет 2...3 дБ, в области средних уровней громкости он существенно меньше: 0,4 дБ, а среднее его значение около 0,8...1 дБ. Другими словами: едва заметное на слух изменение уровня в процессе передачи не превышает ±1 дБ. Динамический диапазон по уровню звука от порога слышимости до болевого порога на частотах 1...3 кГц составляет приблизительно 130 дБ (для частоты 100 Гц это около 90 дБ).
Рис. 4.1. Область слухового восприятия
Громкость звуков определяется как субъективное ощущение уровня речи (В). Для численной оценки громкости принято сравнивать уровень речи В с чистым тоном частотой 1000 Гц. Значение звукового давления эталонного сигнала, равногромкого данному звуку, называется уровнем громкости этого звука. За единицу уровня громкости принят фон. Таким образом, величина уровня громкости какого-либо звука численно равна уровню эталонного тона 1000 Гц, если на слух его громкость одинакова с громкостью определяемого звука.
Маскировка звуков. Порог слышимости существенно зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это говорит о том, что помеха маскирует полезный сигнал. Количественно повышение порога выражают уровнем маскировки, который определяют как разность: М = β – β0 , где β - порог слышимости при воздействии помех; β0 - порог слышимости в тишине. При существенной величине М полезный звук может оказаться неслышным, т.е. замаскированным помехой.
Явление маскировки проявляется во всех частотных группах слуха по-разному в зависимости от соотношения уровней и спектральных особенностей полезного сигнала и помехи. Эффект маскировки играет важную роль при слуховом восприятии смеси речевого и шумового колебаний. Современные модели механизма слуха основаны на свойстве слухового аппарата проводить кратковременный спектральный анализ, осуществляемый посегментно на отрезках времени около 20 мс. В каждой из частотных полосок присутствуют компоненты сигнала и шума, причем порог слышимости зависит от мощности сигнала. Поэтому в пределах каждой из критических полосок слуха, образованных слуховым анализатором, наибольшая по абсолютной величине спектральная составляющая маскирует рядом стоящие компоненты спектра, если ее уровень превышает некоторое пороговое значение.
Временные характеристики слуха. При исчезновении раздражающей силы слуховое ощущение исчезает не сразу, а постепенно уменьшается до нуля. Этот эффект называется слуховым впечатлением. Время, в течение которого ощущение по уровню громкости падает на 8,7 фон, считается постоянной времени слуха. Ее величина составляет в среднем при нарастании звука 20...30 мс, при спаде - 100...200 мс.
Разборчивость речи. При реализации цифровых преобразований речевых сигналов (РС) возникают специфические искажения, влияющие на качество речи. Одним из критериев качества речи является ее разборчивость. Разборчивость — есть объективная количественная мера, характеризующая способность тракта электросвязи передавать содержащуюся в речи смысловую информацию в данных конкретных акустических условиях окружающей среды. Эта мера является объективной в том смысле, что величина разборчивости зависит от физических параметров тракта, а также от среды, в которой ведется разговор, и не зависит от субъективных свойств конкретных, измеряющих разборчивость операторов.
Под мерой разборчивости понимается выраженное в процентах отношение числа правильно принятых элементов речи (звуков, слогов, слов, фраз) к достаточно большому общему числу переданных. На практике используют преимущественно слоговую (S), звуковую (D) и словесную (W) разборчивость. Они поддаются непосредственному измерению с помощью артикуляционных таблиц.
Существуют однозначные зависимости для указанных видов разборчивости. Это объясняется тем, что для нахождения их значений используются определенные выборки из одной и той же совокупности, представляющей собой речь, в которой звуки, слоги, слова и фразы встречаются в определенных фонетических и статистических соотношениях и взаимосвязях. Пример одной из этих зависимостей приведен на рис. 4.2.
Рис. 4.2. Взаимосвязь между различными видами разборчивости
Принято считать, что разборчивость речевого сигнала и передача смысловой информации определяются огибающей амплитудного спектра сигнала. В процессе речеобразования широкополосный гармонический сигнал (при произнесении звонких звуков) или шумовой (при произнесении глухих согласных), проходя через набор акустических резонаторов, образуемых в ротовой и носовой полости, приобретает ряд максимумов огибающей спектра - формант, положение которых на оси частот определено для отдельных звуков - фонем.
Установлено, что у звонких (вокализованных) звуков положение первой форманты, расположенной ниже 1000 Гц, на 60% определяет характер фонемы; положение второй, лежащей в диапазоне от 1000 до 2800 Гц, - на 20%; и третьей (диапазон 1500-3400 Гц) - на 10%. Положение четвертой форманты, расположенной выше 3000 Гц, как считается, определяется размером головы. Последующие форманты при анализе сигнала не используются и в системах телефонной связи не передаются. Разборчивость же согласных, чей энергетический максимум в спектре сигнала расположен в диапазоне 1500-8000 Гц, сильно зависит от верхней граничной частоты полосы пропускания звукового (речевого) тракта.
Известна необычайно высокая устойчивость РС к помехам и искажениям канала передачи, как акустического, так и электрического. Очевидно, что в процессе эволюции природой был создан чрезвычайно устойчивый канал связи. Из опыта работы с речевым сигналом известно также, что он остается разборчивым при существенном ограничении полосы частот, нелинейных искажениях, искажениях АЧХ и даже инверсии спектра. В системах связи почти полное разрушение формантной структуры не приводит к потере связи. Тем не менее, даже для стационарных звуков — гласных, на основании формантной теории удается распознать 60-80% фонем. Распознаваемость согласных гораздо ниже. Современные системы распознавания успешно работают, в основном, за счет большой избыточности речевого сигнала (лингвистической, грамматической, смысловой), ограничения словаря, количества пользователей.
Рассмотренные выше характеристики речи и слуха играют важную роль при создании различных устройств и систем обработки и передачи речи, таких, как системы идентификации диктора по голосу, распознавания речи, низкоскоростного кодирования и передачи речи, систем компьютерной телефонии и др. Современные технологии реализации этих систем основаны на цифровых алгоритмах обработки сигналов.