Реферат: Основные способы обработки большого количества текстовой информации
Суть разностного кодирования заключается в хранении вместо абсолютных значений разностей двух смежных чисел или отклонения чисел от их среднего значения. Например, для последовательности чисел 2 , 14, 18, 2 7, 34 первый способ даст последовательность 2, 12, 4, 9, 7. Второй способ порождает последовательность: -17, -5, -1, 8, 15 (среднее значение для исходной последовательности - 19).
Первый вариант эффективен для медленно меняющихся последовательностей, второй - когда максимальное отклонение от среднего з начительно меньше абсолютного значения среднего.
Кодирование повторений заключается в замене цепочки одинаковых символов кодом этого числа и числом повторений. Например, для последовательности 5555 6666 888888 применение этого способа даст последовательность 5(4) 6(4) 8(6).
Подавление незначащих нулей оз начает отбрасывание незначащих нулей в старших раз рядах целой части числа и в младших разрядах дробной части. Например, применение этого способа сжатия к последовательности 0010 01,100 011 011 даст последовательность: 10 1,1 11 11.
1.2 . Сжатие словарей
Под словарями понимают списки неповторяющихся цепочек символов в алфавитном или ином строгом порядке. Такой словарь можно рассматривать как монотонную последовательность чисел и для его сжатия применять метод разностного кодирования (см. п.1.1). З десь он заключается в отбрасывании у каждого слова начальных букв, совпадающих с начальными символами предыдущего слова и замене их на число отброшенных букв. Например, словарь:
вычислитель
вычислительный
вычислять
в ре зультате рассматриваемого способа кодирования будет заменен словарем:
вычислитель
11ный
6ять.
Такой метод, однако, неудобен тем, что при декодировании любого конкретного слова требуется последовательно декодировать все предшеств ующие слова. Поэтому порой используются отдельные перечни н аиболее часто встречающихся частей слов (суффиксы, префиксы), где каждой из них ставится в соответствие более короткий код, заменяющий её в словаре. Например, словарь:
встречающийся
заменяющий
с помощью этого способа сжатия заменится на совокупность словарей:
основной вспомогательный
встреча1ся 1- ющий
заменя1
Важнейшим здесь является алгоритм выбора достаточно длинных и часто встречающихся подцепочек. При его разработке используются эвристические алгоритмы, поскольку эффективного алгоритма поиска оптимального решения не существует.
Когда составляющие словаря образ уют сильно обособленные группы слов, можно разделить весь словарь на подсловари, присвоив каждому из них свой индекс, и кодировать слова независимо в каждом из них кодами минимальной длины, а слова из различных подсловарей различать этими индексами. Такой метод является модификацией описанного в п. 1.1 метода сжатия числовых данных через их среднее з начение.
1.3. Сжатие специальных текстов
К специальным относятся тексты на формальных языках, отличающихся ограниченным словарем, замкнутой грамматикой. Сюда прежде всего относятся тексты на языках программирования, машинные коды, различные формулы и обозначения, а также ограниченны е подмножество фраз естественного языка в таких четко формализованных з адачах как организация реплик в интерактивных системах, выдача сообщений при