Ранее при определении энтропии предполагалось, что каждое сообщение (буква или слово) выбирается независимым образом. Рассмотрим более сложный случай, когда в источнике сообщений имеются корреляционные связи. В так называемом эргодическом источнике выбор очередной буквы сообщения зависит от конечного числа предшествующих букв n. Математической моделью такого источника является марковская цепь n-го порядка, у которой вероятность выбора очередной буквы зависит от n предшествующих букв и не зависит от более ранних, что можно записать в виде следующего равенства:
p(xi /xi-1,xi-2, ... xi-n)= p(xi /xi-1,xi-2, ... xi-n, ... xi-n-c), (7)
где с - произвольное положительное число.
Если объем алфавита источника равен k, а число связанных букв, которые необходимо учитывать при определении вероятности очередной буквы, равно порядку источника n, то каждой букве может предшествовать M=kn различных сочетаний букв (состояний источника), влияющих на вероятность появления очередной буквы xi на выходе источника. А вероятность появления в сообщении любой из k возможных букв определяется условной вероятностью (7) с учётом предшествующих букв, т.е. с учётом M возможных состояний. Эти состояния обозначим как q1, q2 ... qM.
Сказанное поясним двумя простыми примерами.
Пример 1. Пусть имеется двоичный источник (объём алфавита k=2) -например, источник, выдающий только буквы а и б ; порядок источника n=1. Тогда число состояний источника M=kn=21=2 (назовём их состояния q1 и q2). В этом случае вероятности появления букв а и б будут определяться следующими условными вероятностями:
p(а/q1=а), p(а/q2=б), p(б/q1=а), p(б/q2=б),
где q1=а - 1-е состояние q1,
q2=б - 2-е состояние q2.
Вероятности состояний источника равны p(q1)=p(a), p(q2)=p(б).
Пример 2. Пусть по-прежнему k=2 (буквы а и б), однако число связанных букв n=2. Тогда M=22=4 (4 возможных состояния: (а, а)=q1, (а, б)=q2, (б,а)=q3, (б, б)=q4 .
В этом случае имеем дело со следующими условными вероятностями:
p(а/а,а); p(а/а,б); p(а/б,а); p(а/б,б); p(б/а,а) . . . и т.д.
Вероятности состояний определяются равенствами p(q1)=p(a,a), p(q2)=p(a,б), p(q3)=p(б,a), p(q4)=p(б,б).
Энтропия эргодического дискретного источника определяется в два этапа.
1. Вычисляется энтропия источника в каждом из M состояний, считая эти состояния известными:
для состояния q1 ;
для состояния q2 ;
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
для состояния qM .
2. Далее находим H(x) путём усреднения по всем состояниям q:
.
Окончательно получаем
. (8)
При наличии корреляционных связей между буквами в эргодическом источнике энтропия уменьшается, так как при этом уменьшается неопределённость выбора букв и в ряде случаев часть букв можно угадать по предыдущим или ближайшим буквам.
Вопросы
- Что такое эргодический дискретный источник?
- Что такое состояние эргодического дискретного источника, как вычислить количество состояний?
- Как вычисляется энтропия эргодического источника?
- Когда энтропия эргодического источника максимальна? Чему равен этот максимум?