Курсовая работа: Компрессия информации и упорядочение дерева по алгоритму Виттера
m-размер алфавита источника сообщений;
zj - j-й символ алфавита;
M(k) =z(1), z(2), …, z(k) - первые к символов в сообщении;
k - число символов в сообщении, обработанных до текущего момента времени
K-количество различных символов, обработанных на текущий момент времени;
Wj-вес символов zj, поступивших на момент обработки сообщения.
lj - расстояние от корня дерева до zj – го листа.
3. Обзор и характеристика существующих методов сжатия информации, основанные на процедуре кодирования хаффмена
Алгоритм динамического кодирования Виттера представляет собой усовершенствование динамического кодирования Хаффмена.
Класический метод кодирования Хаффмена предпологает до начала преобразования знание вероятностей появления символов на выходе источника информации. Символы упорядочиваются по убыванию вероятностей их возникновения. На передающей и приемной сторонах должны быть известны кодовые деревья для каждого сообщения. Таким образом для его реализации требуется два прохода кодируемого массива. При 1-м просмотре вычисляются вероятности появления каждого знака в сообщении и составляется таблица кода Хаффмена. На следуещем этапе осуществляется кодирование на основании статистической структуры дерева Хаффмена и передача символов в сжатом виде. Выйгрыш полученный за счет сжатия данных может заметно снижаться, особенно при передачи коротких сообщений, в связи с необходимостью передавать декодеру дополнительную информацию о кодовом дереве. Еще один недостаток это наличие задержки от момента поступления данных от источника до выдачи соответствующих кодовых комбинаций, что ограничивает использование неравномерного кодирования в системах реального времени.
3.1. Динамическое кодирование хаффмена
В начале 70-х годов были разработаны однопроходные методы сжатия информации. Суть состоит в том, что передатчик строит дерево Хаффмена в темпе поступления данных от источника. В процессе кодирования происходит “обучение” кодера на основе статистических характеристик источника сообщений в ходе которого вычисляются оценки исходных вероятностей сообщения и производится модификация кодового дерева Хаффмена. Т. к. происходит непрерывное изменение дерева, этот процесс получил название динамического кодирования Хаффмена. Декодер должен непрерывно “учиться” наряду с кодером осуществляя синхронное изменение дерева. Для обеспечения синхронности процессов кодирования и декодирования кодер выдает символ в несжатом виде, если он впервые появился на выходе источника, и отмечает его на кодовом дереве. При повторном появлении символа на входе декодера он передается неравномерной кодовой комбинацией, определяемой позицией символа на текущем кодовом дереве.
На одном уровне не может быть меньше 2-х узлов, пара узлов является дочерней, т.к. имеет общий родительский узел, вес которого равен сумме весов дочерних узлов.
Хаффменское дерево должно обладать следующими свойствами:
Листья имеют неотрицательный вес W>0, каждый родительский узел имеет дочерние узлы, а его вес равен сумме дочерних весов.
На каждом уровне дерева, кроме корневого должно быть не менее одной пары узлов, имеющих общий родительский узел.
Все узлы нумеруются в возрастающем порядке, узлы с номерами (2j-1) и 2j являются узлами одного уровня для 1<=j<=m-1, их общий родительский узел имеет более высокий уровень.
3.2. Алгоритм динамического кодирования методом fgk
Суть алгоритма состоит в процедуре вычисления листьев и построения бинарного дерева с минимальным весом пути åWjlj.
На 1-м этапе дерево Хаффмена преобразуется в эквивалентное исходному, которое может быть преобразовано в хаффменовское дерево для M(k+1).
1-й этап начинается после получения от источника символа z(k+1), который получает статус текущего узла. Затем происходит обмен текущего узла (включаю поддерево) с узлом имеющим наибольший порядковый номер с таким же весом. В качестве нового текущего узла иницилизируется родительский узел последнего текущего узла. Обмен в случае необходимости многократно повторяется пока не будет достигнут корень дерева. Максимальное количество перестановок, которые могут понадобиться равна высоте дерева. На 2-м этапе инкрементируется лист дерева соответствующий обрабатываемому символу и последующие промежуточные узлы, расположенные на пути движения от листа к корню дерева.
3.3. Алгоритм динамического кодирования виттера
Данный алгоритм позволяет построить динамическое хаффменское дерево таким образом, что бы минимизировать сумарную длину внешнего пути и расстояние от корня дерева до листа. Число обменов узлов в процессе модификации сводится к минимуму. Минимизация высоты дерева h= max{ lj} позволит предотвратить образование длинных кодовых комбинаций при кодировании очередного символа в сообщении.
Алгоритм Виттера обладает следующими преимуществами по сравнению с алгоритмом FGK:
Количество обменов узлами, при котором текущий узел перемещается в верх по кодовому дереву в процессе его модификации ограничивается еденицей.
Алгоритм Виттера минимизирует длину внешнего пути дерева lj и гарантирует дерево минимальной высоты h= max{ lj} при условии минимизации суммарной длины внешнего пути дерева.
По алгоритму Виттера осуществляется так называемая неявная нумерация (implicitnumbering) узлов кодового дерева. При неявной нумерации узлы хаффменского дерева нумеруются в порядке увелечения по уровням слева направо и снизу вверх. Важнейшим условием неявной нумерации является соблюдение необходимого условия построения дерева:
Для каждого веса W все листья дерева с весом W должны предшествовать всем внутренним узлам веса W.
Структурная схема алгоритма динамического кодирования Виттера приведена на рисунке 1.