ЧАСТЬ 1

ИНФОРМАТИКА

Электронное учебно-методическое пособие

 

 
 

 

1.2.3. Различные подходы к измерению информации

Количество информации – это мера снятия неопределённости одной случайной величины в результате наблюдения за другой.

Количественно выраженная неопределённость состояния получила название энтропии. При получении информации уменьшается неопределённость, т. е. энтропия системы.

В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом.

Различают следующие подходы к измерению информации [1]:

1. Структурный подход

Измеряет количество информации простым подсчётом информационных элементов, составляющих сообщение. Применяется для оценки возможностей запоминающих устройств, объёмов передаваемых сообщений, инструментов кодирования без учёта статистических характеристик их эксплуатации.

В рамках структурного подхода выделяют три меры информации:

1) геометрическая – определяет максимально возможное количество информации в заданных объемах. Единицей измерения является информационный элемент. Мера может быть использована для определения информационной ёмкости памяти компьютера. В этом случае в качестве информационного элемента выступает минимальная единица хранения – бит;


2) комбинаторная – оценивает возможность представления информации при помощи различных комбинаций информационных элементов в заданном объёме.

Использует типы комбинаций элементов и соответствующие математические соотношения, которые приводятся в одном из разделов дискретной математики – комбинаторике.

Комбинаторная мера может использоваться для оценки информационных возможностей некоторого автомата, который способен генерировать дискретные сигналы (сообщения) в соответствии с определённым правилом комбинаторики.

Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}). В соответствии с положениями комбинаторики, данный автомат генерирует размещения (различаются числа, например, 34 и 43) из 10 элементов (используются 10 цифр) по 2 (по условию задачи, формируются двузначные числа) с повторениями (очевидно, возможны числа, состоящие из одинаковых цифр, например, 33). Тогда можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат, иначе говоря, можно оценить информационную ёмкость данного устройства:

Р(102) = 102 = 100;


3) аддитивная – эта мера предложена в 1928 г. американским учёным Хартли, поэтому имеет второе название – мера Хартли.

Хартли впервые ввёл специальное обозначение для количества информации – I – и предложил следующую логарифмическую зависимость между количеством информации и мощностью исходного алфавита:


I = l log h,


где I – количество информации, содержащейся в сообщении;
l – длина сообщения;
h – мощность исходного алфавита.

При исходном алфавите {0, 1}; l = 1; h = 2 и основании логарифма, равном 2, имеем


I = 1 · log2 2 = 1.


Данная формула даёт аналитическое определение бита (BIT – BInary digiT) по Хартли: это количество информации, которое содержится в двоичной цифре.
Единицей измерения информации в аддитивной мере является бит.


Приведём пример.

Необходимо рассчитать количество информации, которое содержится в шестнадцатеричном и двоичном представлении ASCII–кода для числа l.

В соответствии с таблицей ASCII–кодов имеем: шестнадцатеричное представление числа l – 31, двоичное представление числа l – 00110001.

Тогда по формуле Хартли получаем:

для шестнадцатеричного представления

I = 2 · log2 16 = 8 бит;


для двоичного представления

I = 8 · log2 2 = 8 бит.


Таким образом, разные представления ASCII–кода для одного символа содержат одинаковое количество информации, измеренной аддитивной мерой.

2. Статистический подход

Учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т. е. менее всего ожидалось. Применяется при оценке значимости получаемой информации.

В 30-х г. ХХ в. американский ученый Клод Шеннон предложил связать количество информации, которое несет в себе некоторое сообщение, с вероятностью получения этого сообщения.

Вероятность p – количественная априорная (т. е. известная до проведения опыта) характеристика одного из исходов (событий) некоторого опыта. Измеряется в пределах от 0 до 1. Если заранее известны все исходы опыта, сумма их вероятностей равна 1, а сами исходы составляют полную группу событий. Если все исходы могут свершиться с одинаковой долей вероятности, они называются равновероятными.


3. Семантический подход

Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и её соответствия реальности.


4. Вероятностный подход

Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Согласно формуле Р. Хартли:


I = log2N


– количество информации, которое вмещает один символ N-элементного алфавита, равно log2N.


Рассмотрим пример.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется:

I = log2 100 = 6,644.


Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Клод Шеннон в 1948 г. предложил формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Каждому сигналу присваивалась определённая вероятность его появления.

Чем меньше вероятность появления того или иного сигнала, тем больше он несёт информации.

Формула К. Шеннона:



где pi – вероятность появления i-го сигнала; N – количество возможных сигналов.

Количество информации здесь представляется как результат выбора из набора возможных вариантов.

В качестве единицы информации Клод Шеннон предложил принять один бит.


5. Алфавитный подход

Согласно Колмогорову, количество информации, содержащейся в последовательности символов, определяется минимально возможным количеством двоичных знаков, необходимых для кодирования этой последовательности безотносительно к содержанию представленного ею сообщения. При этом для кодирования наиболее часто используется двоичный алфавит, состоящий из нуля и единицы, это так называемое двоичное кодирование информации.

 

 

 


© Сибирская государственная геодезическая академия (СГГА), 2011