Теория информации: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
→‎История: Кодируются данные, а не информация!
→‎Свойства информации: Удалённые разделы уместны в статье "Информация" и "Информационная энтропия", ссылки на которые имеются. Нет причин дублировать, причём с купюрами, их содержание.
Строка 23: Строка 23:


В основном Шеннон развивал направление работ Хартли, используя понятие «информации», но сам термин не разъясняет, лишь оговаривает, что сообщения могут иметь какое-то «значение», то есть относиться к системе, имеющей свою физическую или умозрительную сущность ([[Кибернетика|кибернетическая]] система). Теория Шеннона изначально рассматривалась как точно сформулированная математическая задача и дала возможность определить пропускную способность коммуникационного канала с шумом.
В основном Шеннон развивал направление работ Хартли, используя понятие «информации», но сам термин не разъясняет, лишь оговаривает, что сообщения могут иметь какое-то «значение», то есть относиться к системе, имеющей свою физическую или умозрительную сущность ([[Кибернетика|кибернетическая]] система). Теория Шеннона изначально рассматривалась как точно сформулированная математическая задача и дала возможность определить пропускную способность коммуникационного канала с шумом.

== Свойства информации ==
{{Нет ссылок в разделе|дата=2 февраля 2016}}
* [[Релевантность]] — способность информации соответствовать нуждам (запросам) потребителя (неспособность информации быть полезной называют нерелевантностью).
* Полнота — свойство информации исчерпывающе (для данного потребителя) характеризовать отображаемый объект и/или процесс.
* Своевременность — способность информации соответствовать нуждам потребителя в нужный момент времени.
* Достоверность — свойство информации не иметь скрытых ошибок.
* Доступность — свойство информации, характеризующее возможность её получения данным потребителем.
* Защищенность — свойство, характеризующее невозможность несанкционированного использования или изменения.
* Эргономичность — свойство, характеризующее удобство формы или объема информации с точки зрения данного потребителя.
* Адекватность — свойство информации однозначно соответствовать отображаемому объекту или явлению. Адекватность оказывается для потребителя внутренним свойством информации, проявляющем себя через релевантность и достоверность.
Также свойства информации можно определить по её потреблению: [[Политика|политическую]], [[Химия|химическую]], [[Биология|биологическую]], [[Техника|техническую]], [[Экономика|экономическую]] и т. д.
Информация ещё имеет внутренние свойства — внутренняя организация (структура) информации и её объём ([[Количество информации|количество]]).
Структура информации выделяет отдельные её элементы, которые могут быть и простыми и сложными. Простые элементы не поддаются дальнейшему расчленению; сложные образуются как сочетание различных элементов и представляются информационными совокупностями. Структура информации достаточно сложна и может включать различные комбинации информационных совокупностей, обладающих определённым содержанием.
Количество же информации является мерой уменьшения неопределенности знания при получении информационных сообщений. За единицу количества информации принимается [[бит]]. Это количество информации, при котором неопределенность — количество вариантов выбора, уменьшается вдвое (это ответ на вопрос, требующий односложный ответ — да или нет). Количество информации равновероятных событий определяется [[Формула Хартли|формулой Хартли]], в ней процесс получения информации рассматривается как выбор одного сообщения из наперёд заданного множества равновероятных сообщений:
: <math>I=log_2N,</math>
где <math>I</math> — количество информации, а <math>N</math> — возможное множество сообщений. Логарифм по основанию 2 ввиду того, что подсчёт информации требуется в основном в компьютерной технике, где информация хранится в [[Двоичная система счисления|двоичной системе счисления]]. Формула определения количества информации, учитывая возможную неодинаковую вероятность событий, названа в честь её открывателя — Шеннона:
: <math>I = -\sum_{n} p_n log_2 p_n,</math>
где <math>p_n</math> — вероятность того, что именно <math>n</math>-е сообщение верно.
Условно методы обнаружения количества информации можно разделить на пять видов:
* энтропийный;
* алгоритмический;
* комбинаторный;
* семантический;
* прагматический.
Энтропийный, алгоритмический, комбинаторный виды обозначают количественное определение сложности рассматриваемого объекта или явления и опирается на такие свойства информации: полнота, доступность, эргономичность. Семантический вид — описывает содержательность и новизну передаваемого сообщения для получателя (свойства релевантности и адекватности). Прагматический вид обращает внимание на полезность полученного сообщения для пользователя (свойства полноты, своевременности, эргономичности и адекватности).


== Кодирование данных ==
== Кодирование данных ==
Строка 70: Строка 44:
3. Кодирование данных для систем со многими пользователями описывает оптимальное взаимодействие абонентов, использующих общий ресурс, например, канал связи.
3. Кодирование данных для систем со многими пользователями описывает оптимальное взаимодействие абонентов, использующих общий ресурс, например, канал связи.


:
== Информационная энтропия ==
{{Нет ссылок в разделе|дата=2 февраля 2016}}
Информационная энтропия (<math> H </math>) — мера хаотичности информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения. Энтропия является количеством, определённым в контексте вероятностной модели для источника данных. Степень энтропии источника данных означает среднее число битов на элемент данных, требуемых для её зашифровки без потери информации, при оптимальном кодировании. Энтропия ограничивает максимально возможное сжатие без потерь, которое может быть реализовано при использовании теоретически — типичного набора или, на практике кодирование Хаффмана, кодирования Лемпеля-Зива-Велча или арифметического кодирования. Свойства энтропии:
* энтропия не может быть отрицательной <math> H(X)\geqslant 0 </math>;
* энтропия ограничена <math> H(X)\leqslant \log_2 |X| </math> (если все элементы <math>X</math> равновероятны;
* если <math> X,Y </math> независимы, то <math> H(XY)=H(X)+H(Y) </math>;
* если <math> X,Y </math> имеют одинаковое распределение вероятностей элементов, то <math> H(X)=H(Y) </math>;
* некоторые биты данных могут не нести информации;
* количество энтропии не всегда выражается целым числом бит.

=== Определение с помощью собственной информации ===
Собственная информация — статистическая функция дискретной случайной величины. Можно определить энтропию случайной величины, введя предварительно понятия распределения случайной величины <math> X </math>, имеющей конечное число назначений и собственной информации, тогда энтропия будет определяться как:
: <math> {H(X)}={E(I(X))}=-\sum_{i=1}^{n} {p(i)} {\log {p(i)}} </math>

=== Средняя энтропия сообщения ===
Информационная энтропия для независимых случайных событий <math> X </math> с <math> n </math> возможными состояниями (от <math> 1 </math> до <math> n </math>) рассчитывается по формуле:
: <math> {H(X)}=-\sum_{i=1}^{n} {p(i)} \log_2 {p(i)} </math>
Таким образом, энтропия события <math> X </math> является суммой с противоположным знаком всех произведений относительных частот появления события <math> i </math>, умноженых на их же двоичные логарифмы.

=== Частичная энтропия ===
Величина <math> \log_2 {\frac{1}{p(i)}} </math> называется частичной энтропией, характеризующей только i-е значение.

=== Формула Шеннона ===
Мера энтропии Шеннона выражает неуверенность реализации случайной переменной. Таким образом, энтропия является разницей между информацией, содержащейся в сообщении, и той части информации, которая точно известна в сообщении. Шеннон предположил, что прирост информации равен утраченной неопределённости, и, задав новые требования к её измерению, получил формулу:
: <math>-K\sum_{i=1}^{n} {p(i)} \log_2 {p(i)},</math>
где <math>K</math> — константа, которая нужна для выбора единиц измерения.

=== Альтернативное определение ===
Другим способом определения энтропии <math> H </math> является доказательство, что <math>H</math> однозначно определена, если <math>H</math> удовлетворяет условиям:

1. <math> H(p_1,...,p_n) </math> определена и непрерывна для всех <math>p_1,...,p_n,</math> где <math>{p_i}\in {[{0},{1}]}</math> для всех <math>i=1,...,n</math> и <math> p_1+...+p_n=1 </math>.

2. Для целых положительных <math> n </math>, должно выполняться неравенство:
: <math> H=\left(\frac{1}{n},...,\frac{1}{n}\right)<\left(\frac{1}{n+1},...,\frac{1}{n+1}\right) </math>

3. Для целых положительных <math> b_i </math> где <math> b_1+...+b_k=n </math>, должно выполняться неравенство:
: <math> H=\left(\frac{1}{n},...,\frac{1}{n}\right)=H\left(\frac{b_1}{n},...,\frac{b_k}{n}\right)+\sum_{i=1}^{k} {\frac{b_i}{n}}H\left({\frac{1}{b_i}},...,{\frac{1}{b_i}}\right) </math>


== См. также ==
== См. также ==

Версия от 10:31, 9 сентября 2018

Теория информации — раздел прикладной математики, радиотехники (теория обработки сигналов) и информатики, относящийся к измерению количества информации, её свойств и устанавливающий предельные соотношения для систем передачи данных. Как и любая математическая теория, теория оперирует математическими моделями, а не реальными физическими объектами (источниками и каналами связи). Использует, главным образом, математический аппарат теории вероятностей и математической статистики.

Основные разделы теории информации — кодирование источника (сжимающее кодирование) и канальное (помехоустойчивое) кодирование. Теория информации тесно связана с информационной энтропией, коммуникационными системами, криптографией и другими смежными дисциплинами.

Введение

Появление теории информации связано с опубликованием Клодом Шенноном работы «Математическая теория связи» в 1948 году. С точки зрения Шеннона, теория информации — раздел математической теории связи. Теория информации устанавливает основные границы возможностей систем передачи информации, задает исходные принципы их разработки и практического воплощения. Круг задач теории информации представляется с помощью структурной схемы, типичной системы передачи или хранения информации.

Схема системы связи

В схеме источником является любой объект вселенной, порождающий сообщения, которые должны быть перемещены в пространстве и времени. Независимо от изначальной физической природы, все подлежащие передаче сообщения обычно преобразуются в форму электрических сигналов, такие сигналы и рассматриваются как выход источника. Кодер источника представляет информацию в наиболее компактной форме. Кодер канала обрабатывает информацию для защиты сообщений от помех при передаче по каналу связи или возможных искажений при хранении информации. Модулятор преобразовывает сообщения, формируемые кодером канала, в сигналы, согласованные с физической природой канала связи или средой накопителя информации. Среда распространения информации (канал связи) вносит в процесс передачи информации случайный шум, который искажает сообщение и тем самым затрудняет его прочтение. Блоки, расположенные на приёмной стороне, выполняют обратные операции и предоставляют получателю информацию в удобном для восприятия виде. Трудность передачи сообщения не зависит от его содержания, так передавать бессмысленные сообщения не менее трудно, чем осмысленные.

Информацию можно выразить и как свойство объектов, и как результат их взаимодействия. Факт объективного существования информации независимо от нашего сознания для некоторых исследователей послужил поводом построения весьма неординарной точки зрения, что информация является третьей (наряду с материей и энергией) субстанцией материального мира. Но для информации пока не сформулировано фундаментальных законов сохранения и перехода в эквивалентное количество материи и/или энергии. На данный момент принято считать, что информация существует независимо от того, воспринимается она или нет, но проявляется только при взаимодействии.

История

Рождение теории информации зачастую связывают с размещением в июле-октябре 1948 года Клодом Шенноном работы в журнале американской телефонной компании «Bell System» под названием «Математическая теория связи». Но стоит упомянуть, что вклад в формулировку и построение теории информации также был внесён и многими другими выдающимися учёными. Сам Шеннон в начале своей статьи написал «Некоторые основные положения этой теории имеются в важных работах Найквиста и Хартли. В настоящее время теория расширена тем, что включено некоторое число новых факторов, в частности, влияние шума в канале».

В основном Шеннон развивал направление работ Хартли, используя понятие «информации», но сам термин не разъясняет, лишь оговаривает, что сообщения могут иметь какое-то «значение», то есть относиться к системе, имеющей свою физическую или умозрительную сущность (кибернетическая система). Теория Шеннона изначально рассматривалась как точно сформулированная математическая задача и дала возможность определить пропускную способность коммуникационного канала с шумом.

Кодирование данных

Кодирование являет собой процесс перехода сообщения на входе канала связи до кода сообщения на выходе, при этом информационная ценность сообщения должна оставаться неизменной. В теории информации можно выделить следующие разделы:

1. Кодирование дискретных источников (модель кодирования данных «без потерь»).

2. Кодирование данных, обеспечивающих их передачу по каналу с шумом.

Код является однозначно декодируемым, если любая последовательность символов из алфавита кода (а, в основном, это 0 и 1) кода разбивается на отдельные слова. Если ни одно кодовое слово не является началом другого, код называется префиксным и он является однозначно декодируемым. Следовательно, префиксность — достаточное, но не необходимое условие однозначной декодируемости. Требование префиксности ограничивает множество длин кодовых слов и не даёт возможности выбирать кодовые слова слишком короткими. Необходимым и достаточным условием существования префиксного кода объёма с длинами кодовых слов является выполнение неравенства Крафта:

Также требуется рассмотреть код Шеннона-Фано — алгоритм префиксного неоднородного кодирования. Этот метод кодирования использует избыточность сообщения, заключённую в неоднородном распределении частот символов его алфавита, то есть заменяет коды более частых символов короткими двоичными последовательностями, а коды более редких символов — более длинными двоичными последовательностями. Рассмотрим источник, выбирающий буквы из множества с вероятностями . Считаем, что буквы упорядочены по убыванию вероятностей (). Кодовым словом кода Шеннона для сообщения с номером является двоичная последовательность, представляющая собой первые разрядов после запятой в двоичной записи числа :

3. Кодирование данных для систем со многими пользователями описывает оптимальное взаимодействие абонентов, использующих общий ресурс, например, канал связи.

См. также

Примечания

Литература

  • Б. Д. Кудряшов Теория информации, СПбГУ НИУ ИТМО
  • Фурсов В. А. Лекции по теории информации ISBN 5-7883-0458-X
  • Claude E. Shannon, Warren Weaver. The Mathematical Theory of Communication. Univ of Illinois Press, 1963. ISBN 0-252-72548-4
  • Thomas M. Cover, Joy A. Thomas. Elements of information theory New York: Wiley, 1991. ISBN 0-471-06259-6
  • R. Landauer, Information is Physical Proc. Workshop on Physics and Computation PhysComp’92 (IEEE Comp. Sci.Press, Los Alamitos, 1993) pp. 1–4.
  • Maxwell’s Demon: Entropy, Information, Computing, H. S. Leff and A. F. Rex, Editors, Princeton University Press, Princeton, NJ (1990). ISBN 0-691-08727-X
  • Шеннон К. Работы по теории информации и кибернетике. — М.: Изд. иностр. лит., 1963. — 830 с.
  • Колмогоров А. Н. Три подхода к определению понятия «количество информации», Пробл. передачи информ., 1:1 (1965), 3-11
  • MacKay, David. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — ISBN 9780521642989.

Ссылки