Реферат: Подходы к измерению количества информации. Мера Хартли
1. Подходы к измерению количества информации. Мера Хартли.
Современная наука о свойствах информации и закономерностях информационных процессов называется теорией информации. Содержание понятия "информация" можно раскрыть на примере двух исторически первых подходов к измерению количества информации: подходов Хартли и Шеннона: первый из них основан на теории множеств и комбинаторике, а второй - на теории вероятностей.
Информация может пониматься и интерпретироваться в различных проблемах, предметных областях по-разному. Вследствие этого, имеются различные подходы к определению измерения информации и различные способы введения меры количества информации.
Количество информации - числовая величина, адекватно характеризующая актуализируемую информацию по разнообразию, сложности, структурированности (упорядоченности), определенности, выбору состояний отображаемой системы.
Если рассматривается некоторая система, которая может принимать одно из n возможных состояний, то актуальной задачей является задача оценки этого выбора, исхода. Такой оценкой может стать мера информации (события).
Мера - непрерывная действительная неотрицательная функция, определенная на множестве событий и являющаяся аддитивной (мера суммы равна сумме мер).
Меры могут быть статические и динамические, в зависимости от того, какую информацию они позволяют оценивать: статическую (не актуализированную; на самом деле оцениваются сообщения без учета ресурсов и формы актуализации) или динамическую (актуализированную т.е. оцениваются также и затраты ресурсов для актуализации информации).
Существуют различные подходы к определению количества информации. Наиболее часто используются следующие два способа измерения информации: объёмный и вероятностный.
Объёмный подход
Используется двоичная система счисления, потому что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: намагничено / не намагничено, вкл./выкл., заряжено / не заряжено и др.
Объём информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом невозмож¬но нецелое число битов.
Для удобства использования введены и более крупные, чем бит, единицы коли¬чества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта – мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).
Энтропийный (вероятностный) подход
Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией. Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.
Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости. Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.
Другими, менее известными способами измерения информации являются:
Алгоритмический подход. Так как имеется много различных вычислительных машин и языков программирования, т.е. разных способов задания алгоритма, то для определённости задаётся некоторая конкретная машина, например машина Тьюринга. Тогда в качестве количественной характеристики сообщения можно взять минимальное число внутренних состояний машины, требующихся для воспроизведения данного сообщения.
Семантический подход. Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее признание получила тезаурусная мера (тезаурус - совокупность сведений, которыми располагает пользо¬ватель или система), которая связывает семанти¬ческие свойства информации со способностью пользователя принимать поступившее сообщение.
Прагматический подход. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели.
В основе всей теории информации лежит открытие, сделанное Р. Хартли в 1928 году, и состоящее в том, что информация допускает количественную оценку.
Подход Р. Хартли основан на фундаментальных теоретико–множественных, по существу комбинаторных основаниях, а также нескольких интуитивно ясных и вполне очевидных предположениях.
Если существует множество элементов и осуществляется выбор одного из них, то этим самым сообщается или генерируется определенное количество информации. Эта информация состоит в том, что если до выбора не было известно, какой элемент будет выбран, то после выбора это становится известным. Необходимо найти вид функции, связывающей количество информации, получаемой при выборе некоторого элемента из множества, с количеством элементов в этом множестве, т.е. с его мощностью.
Если множество элементов, из которых осуществляется выбор, состоит из одного–единственного элемента, то ясно, что его выбор предопределен, т.е. никакой неопределенности выбора нет - нулевое количество информации.
Если множество состоит из двух элементов, то неопределенность выбора минимальна. В этом случае минимально и количество информации.
Чем больше элементов в множестве, тем больше неопределенность выбора, тем больше информации.
Количество этих чисел (элементов) в множестве равно:
N = 2i
Из этих очевидных соображений следует первое требование: информация есть монотонная функция от мощности исходного множества.
Выбор одного числа дает нам следующее количество информации:
--> ЧИТАТЬ ПОЛНОСТЬЮ <--