Tema 2: Aspectos Básicos de La Teoría de La Información y Codificación de Fuentes

Tema 2
Aspectos Básicos de la Teoría de la

Información y Codificación de
Fuentes
Comunicaciones digitales
Índice Tema 2
2.1. Teoría de la Información: Medida de la
Información. Entropía. Capacidad de Canal.
2.2. Codificación de Fuentes Discretas.
2.3. Codificación de Fuentes Analógicas.
2.3.1. Codificación lineal y logarítmica.
2.3.2. Codificación Diferencial.
2.3.3. Modulación (codificación) Delta.
Bibliografía Secciones 1.6 y 1.7 y Capítulo 2 de A. Valdovinos, A. Ortega

Secciones 2.1 a 2.8, 9.1 a 9.4 y Capítulo 13 de B. Sklar
Tema 2
2
2.1. TEORÍA DE LA INFORMACIÓN
Visto en Teoría de la Comunicación

Esencial NO visto en Teoría de la Comunicación
Tema 2
3
Objetivo:
Cuantificar la Información y Encontrar Límites Fundamentales para la
Representación y Transmisión Fiable de la Información.
Aplicaciones:
Sistemas de Compresión:
Sin Pérdidas (ZIP files).
Con Pérdidas (MP3s)
Sistemas de Transmisión Digitales (Lineas DSL, WiFi, UMTS, LTE, 5G, etc)

Logros Prácticos:
Misiones Espaciales, Compact Disc, DVD, Teléfonos Móviles, Internet,
Lingüística, Astronomía,
Tema 2
4
Experimento Probabilístico:
Fuente S (v.a.)
Discreta
Cada T segundos, la fuente genera un símbolo de entre K posibles

(alfabeto de mensajes).
Los posibles valores de S (mensajes) pertenecen a un alfabeto finito:
S = s0 , s1 ,..., s K 1
P S sj Pj j 0, 1 ,... , K 1
K 1
Pj 1
j 0
Tema 2
5
Suposición:
Los símbolos consecutivos son estadísticamente
independientes: FUENTE SIN MEMORIA.
Objetivo:
Medir cuánta información produce la fuente.
INFORMACIÓN: Concepto relacionado con la
Incertidumbre o Sorpresa que tiene o produce el
mensaje recibido.
Tema 2
6
Definición:
Cantidad de Información ganada cuando se recibe el mensaje o suceso S = sj .
1
I sj log b P j log b j 0 ,1,..., K 1
Pj
I(sj) es la información propia del mensaje sj
Propiedades:
1. I(sj) = 0 si Pj = 1 (Si no hay incertidumbre, no hay información)
2. I(sj) 0 pues 0 Pj 1 (La llegada de un símbolo aporta algo o
nada de información, pero no pérdida)
3. I(sj) > I(si) para Pj < Pi (Cuanta mayor sorpresa ante la llegada de un símbolo, más
información aporta)
4. I(sj ,si) = I(sj) + I(si) si sj y si son independientes
Tema 2
7
Base del Logaritmo:

Base 2 (b=2): Información medida en bits.
Base e (b=e): Información medida en nats.
Al elegir b=2 (lo más habitual) normalizamos la información respecto a

la fuente discreta sin memoria más simple:
Aquella que genera dos símbolos equiprobables s1 y s2.
– P1 = P2 = 1/2,
– Entonces:
I(s1) = I(s2) = log2 2 = 1 bit
En este contexto, 1 bit es la información proporcionada por la emisión
de un mensaje entre dos equiprobables.
Diferencia con bit como dígito binario (cada uno de los elemento que
componen un mensaje con codificación binaria)
Tema 2
8
Entropía (de una fuente):

Definición:
Cantidad de información media por símbolo que emite una fuente.
K 1 K 1 K 1
1
H (S ) = E I s j Pj I s j Pj log 2 Pj log 2 Pj bits/símbolo
j 0 j 0 Pj j 0
Propiedades:
1. 0 H(S) log2 K
2. H(S) = 0 si y sólo si Pj = 1 para algún j y, por consiguiente, Pi = 0 para todo
i j
3. H(S) = log2 K si y sólo si Pj = 1/K para todo j . Caso Fuente equiprobable.
Tema 2
9
Primer Teorema de Shannon: TEOREMA DE

CODIFICACIÓN DE FUENTE:
Objetivo primordial en comunicaciones: 1916 2001
Representación eficiente de los datos: utilizar el mínimo número

medio de bits para transmitirlos.
Tarea:
Codificación o Compresión de Fuente
Estrategia:
Símbolos que aparecen más a menudo (los más probables)
deben emplear menos bits para su comunicación.
Ello hace necesario conocer o estimar las estadísticas de la
fuente (la probabilidad de cada uno de los mensajes).
Tema 2
10
TEOREMA DE CODIFICACIÓN DE FUENTE:

Condiciones a cumplir por los codificadores de fuente:
1. Palabras código binarias (compuestas por 1 y 0)
2. Biunívocamente decodificables:
La secuencia original (sin codificar) debe poder obtenerse a partir de la
secuencia codificada (sin ambigüedad)
Fuente sj Codificador bj Secuencia

discreta de binaria
sin memoria fuente
Codificador de fuente:
Encargado de transformar los símbolos generados por la fuente en una
secuencia binaria.
Asigna una secuencia bj de longitud lj al símbolo sj.
Tema 2
11
TEOREMA DE CODIFICACIÓN DE FUENTE (cont.):

Definición:
Longitud media de las palabras código de la fuente:
K 1
L Pj l j bits
j 0
Podemos ver la longitud de cada palabra código como una v.a. de

valor lj con probabilidad pj.
Así, la media L será la esperanza de dicha v.a.
L : NÚMERO MEDIO DE BITS POR SÍMBOLO DE FUENTE
Tema 2
12
TEOREMA DE CODIFICACIÓN DE FUENTE (cont.):
Definiciones:
Lmín : Menor valor posible de L
EFICIENCIA DE CODIFICACIÓN: Lmin
L
Como Lmín L 1
ENUNCIADO DEL TEOREMA DE CODIFICACIÓN DE FUENTE:

Una fuente con entropía H(S) puede ser codificada con cualquier número medio L de
bits/símbolo tal que L H(S) , de forma que la probabilidad de error de decodificación
sea tan pequeña como queramos.
H(S )
Es decir, Lmín = H(S) y
L
Tema 2
13
SEGUNDO TEOREMA DE SHANNON HARTLEY
Límite fundamental para la transmisión de información a través de

un canal de comunicaciones.
Objetivo fundamental de las comunicaciones:

Fiabilidad (Pe baja).
Debido al ruido (siempre presente) es lógico pensar que Pe 0.
Sin embargo en 1948 Shannon postuló que lo que está limitado en
una transmisión es la velocidad de transmisión y no la fiabilidad.
Es decir, por un canal determinado, es teóricamente posible transmitir
sin ningún error pero no a cualquier velocidad de transmisión
Tema 2
14
Enunciado del Teorema de Shannon Hartley:

Es posible la transmisión fiable (con probabilidad
de error tan pequeña como queramos) a través
de canales con ruido, siempre que la velocidad
de transmisión Rb sea menor o igual que una
cierta cota C denominada Capacidad de Canal.
Para un canal con ruido blanco aditivo y gaussiano
(AWGN) dicha cota viene dada por la expresión:
S
C BT log 2 1 bps
N
Tema 2
15
Para un receptor con respuesta frecuencial constante

y unitaria entre BT y BT (con ruido AWGN de
densidad espectral de potencia N0 / 2 ).
BT
N0
N df BT N 0
BT
2
Así
S
C BT log 2 1 bps
BT N 0
Tema 2
16
Este Teorema nos proporciona el límite teórico para la velocidad

de transmisión, pero no nos dice cómo llegar a él.
Si Rb > C no es posible la transmisión fiable y Pb cae a 0,5 (peor
valor posible).
La relación Rb/BT se define como EFICIENCIA ESPECTRAL.
Mide la cantidad de información por ancho de banda en
bps/Hz.
Su límite superior (debido al teorema de Shannon) es C / BT ,
que depende de la relación señal a ruido disponible en el
receptor.
Tema 2
17
En comunicaciones digitales es habitual el uso de la

RELACIÓN SEÑAL A RUIDO POR BIT:
b= Eb / N 0
Se relaciona con la relación señal a ruido S/N a través de la
velocidad de transmisión y el ancho de banda.
Eb S Eb Rb Rb
S Eb Rb b
Tb N N 0 BT BT
En el límite (Rb=C):
C C
log 2 1 b
BT BT
C C
BT C BT BT
2 1 b b 2 1
BT C
Tema 2
18
Cotas de Transmisión:
Según el Teorema de Shannon:
S
C BT log 2 1 bps
BT N 0
la capacidad depende de la potencia transmitida y del ancho de
banda.
Así:
Aumentar S:
Aumenta la velocidad de transmisión: Podemos transmitir más
bits/seg con la misma fiabilidad. OJO, aumento logarítmico (lento).
Aumentar BT :
Aumenta la velocidad de transmisión, existiendo un doble efecto:
1. Beneficioso: se aumenta linealmente la velocidad.
2. Perjudicial: entra más ruido al receptor, reduciendo la velocidad de
transmisión sin error, pero con dependencia logarítmica con BT .
Tema 2
19
Cotas de Transmisión:
Representación gráfica:
Plano de EFICIENCIA ESPECTRAL/RELACIÓN SEÑAL A RUIDO POR BIT.
C C
log 2 1 b
BT BT
1
10
Irrealizable C/BT tiende a infinito cuando la

relación señal a ruido por bit b
tiende a infinito.
Realizable
0
C/BT tiende a cero cuando 1,6dB
T
/B
10
b
b
R
Es posible encontrar sistemas de

comunicación realizables siempre y
cuando se cumpla la condición:
b =Eb / N0 > 1,6 dB

-5 -1,592 0 5 10 15 20
E /N (dB)
b o
10 log [ln2]
Tema 2
20
Ejemplo: BPSK, Rb/BT =1bit/Hz ( =0), b=9,6 dB, Pb=10 5
1
10
5,74
Teóricamente, existe un sistema de
comunicación digital que permitiría
una Pb=0 con una Rb/BT =1 y b=0 dB.
Sistema BPSK Esto supone que el sistema BPSK está
0
9,6 dB por debajo del optimo.
T
/B
10
b
R
O de forma alternativa, sería posible

obtener una Pb=0 con una Rb/BT
=5,74bit/Hz y b=9,6 dB.
9,6
-5 -1,592 0 5 10 15 20
E /N (dB)
b o
Tema 2
21

Ejemplo: BPSK, Rb/BT =1bit/Hz, b=9,6 dB, Pb=10 5
Tema 2
22
RESUMEN sobre los Teoremas de Shanon:
Primer Teorema de Shanon:

Es posible codificar sin error (sin pérdidas) una fuente digital con
Entropía H(S) siempre que se use un codificador con una
longitud media de código H(S)
Segundo Teorema de Shanon Hartley:

Es posible transmitir con Pe=0 a través de un canal con ruido,
siempre que la velocidad de transmisión Rb sea menor o igual a
la Capacidad C del canal:
S S C
Rb C BT log 2 1 BT log 2 1 BT log 2 1 b
N N 0 BT BT
Tema 2
23
2.2. CODIFICACIÓN DE FUENTES DISCRETAS

2.2.1. Codificación de Shannon Fano:
Codificación Eficiente
Las longitudes aumentan a medida que las probabilidades decrecen.
Necesidad de conocer o estimar las probabilidades.
Estructura en árbol para garantizar la decodificación única (biunicidad).
ALGORITMO:
1. Ordenar de mayor a menor probabilidad los mensajes a codificar.
2. Dividir en 2 grupos de manera que las sumas de las probabilidades
de cada uno de los grupos sean lo más parecidas posible entre sí.
3. Asignar 0 a cada símbolo del grupo superior, y
1 a cada símbolo del grupo inferior.
– (Puede hacerse al revés pero siempre debe mantenerse el criterio elegido)
4. Subdividir cada grupo según las reglas anteriores.
5. Cuando un grupo tiene un único símbolo, la palabra código está
terminada.
6. Cuando todos los grupos tienen un sólo símbolo, el proceso se ha
finalizado. Las palabras se leen de izqda a dcha.
Tema 2
24
Codificación de Shannon Fano. Ejemplo:
Comprobar que la entropía de la fuente es H(S) = 2,15 bit/sím y la longitud media

resulta L = 2,18 bit/sím. Por lo tanto, la eficiencia de codificación es 0,99.
Si la fuente emite símbolos a una velocidad de, p.e., 1.000 símbolos/seg., la velocidad
de transmisión media sería Rb = 2.180 bps, ligeramente superior a los 2.150 bps que
constituyen la mínima velocidad posible (dada por la entropía).
Como comparación, un código de longitud fija requeriría 3 bits para codificar los 8
símbolos posibles, con una eficiencia de 0,72 , y requeriría una velocidad de
transmisión de Rb = 3.000 bps.
Tema 2
25

2.2.2. Codificación de Huffman:
Similar al de Shannon Fano pero con mayor eficiencia.
Óptimo en el sentido de que no existe otro código biunívocamente
decodificable de menor longitud media para una determinada fuente
discreta sin memoria.
ALGORITMO:
1. Ordenar los mensajes de mayor a menor probabilidad.
2. Asignar 0 y 1 a los dos últimos mensajes de menor
probabilidad respectivamente.
– (No importa el orden siempre que el criterio se mantenga)
3. Agrupar ambos como si fuesen 1 solo símbolo con probabilidad
igual a la suma de las probabilidades y reordenar de nuevo.
– En caso de empate, colocar los grupos primero.
4. Si quedan más de dos mensajes volver al paso 2.
Si solo quedan 2 FIN
5. Las palabras código se forma mediante backtracking
(búsqueda hacia detrás) de la secuencia de bits asignados.
Tema 2
26
Símbolo Palabra código
s1 011
s2 001
s3 1
s4 00010
s5 0101
s6 0000
s7 0100
s8 00011
Comprobar que la entropía de la fuente es H(S) = 2,55 bit/sím ; y la longitud

media resulta L = 2,61 bit/sím . Por lo tanto, la eficiencia de codificación es
0,977.
Con una codificación de Shannon Fano se obtiene L = 2,64 bit/sím , con una
eficiencia de 0,966, ligeramente inferior a la obtenida mediante la
codificación de Huffman.
Tema 2
27
2.2.3. Códigos de Lempel Ziv:

Códigos basados en diccionario o códigos de fuentes universales.
Pese a que los de Huffman son óptimos, en la práctica presentan el
inconveniente de que hace falta conocer las probabilidades de emisión
lo que los hace poco adecuados para fuentes con memoria (mensajes
no independientes entre sí)
El algoritmo de los códigos de L Z no requiere el conocimiento previo
de las probabilidades de emisión. Adecuado para fuentes con memoria
Esquema de codificación:
De longitud variable a longitud fija L
La salida de la fuente se divide en grupos de longitud variable que
posteriormente se codifican con palabras de longitud fija.
Tema 2
28
Códigos de Lempel Ziv (Cont.):
Esperar
la salida de
un símbolo
¿Ha aparecido
el grupo con
anterioridad?
Sí
No
Formar nuevo grupo
Tema 2
29
Códigos de Lempel Ziv (Cont.):
A medida que salen los grupos nuevos se colocan en una

tabla por orden de aparición DICCIONARIO.
ALGORITMO DE CODIFICACION:
1. Formación de Grupos:
Nuevo Grupo = Antiguo Grupo + Nuevo Símbolo.
2. Codificación:
Posición en la tabla del antiguo grupo + Nuevo Símbolo.
L 1 bits 1 bits
Tema 2
30
Códigos de Lempel Ziv. Ejemplo:
Secuencia original: 0100001100001010000010100000110000010100001001001
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos 5 bits = 4 bits posición + 1 bit nuevo
0000
Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011

01100 / 00011 / 10010 / 10001 / 01010 / 01101 / 10100 / 01000 / 11101.
Tema 2
31

Códigos de Lempel Ziv. Ejemplo:
Secuencia original: 0100001100001010000010100000110000010100001001001
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos
0000 5 bits = 4 bits posición + 1 bit nuevo
Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011

01100 / 00011 / 10010 / 10001 / 01010 / 01101 / 10100 / 01000 / 11101.
Tema 2
32
Códigos de Lempel Ziv. Ejemplo (cont)
Diseño de los códigos:
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos 4 bits posición + 1 bit nuevo
Posición de la Contenido de Palabra código
0000
tabla la tabla
1 0001 0 0000 0
2 0010 1 0000 1
3 0011 00 0001 0
4 0100 001 0011 1
5 0101 10 0010 0
6 0110 000 0011 0
7 0111 101 0101 1
8 1000 0000 0110 0
9 1001 01 0001 1
10 1010 010 1001 0
11 1011 00001 1000 1
12 1100 100 0101 0
13 1101 0001 0110 1
14 1110 0100 1010 0
15 1111 0010 0100 0
16 01001 1110 1
Tema 2
33
Códigos de Lempel Ziv. Ejemplo (cont.):

En este caso 49 bits originales requieren 80 bits!!!; pero es debido a
que la secuencia original es muy corta (caso didáctico).
En la práctica se suele partir de secuencias de unos 10.000 a 30.000
bits, y se usan diccionarios de 4096 códigos de 12 bits cada uno.
En este caso se consiguen compresiones medias de alrededor del
55%
En el caso de Huffman, se consiguen compresiones de unos 43% en
media.
Recordad que la codificación L Z no requiere estimar probabilidades
de los mensajes y resulta adecuada para fuentes con memoria, a
diferencia de la de Huffman y de Shannon Fano.
L Z se utiliza en la práctica para comprimir ficheros de ordenador
(existen muchas variantes. La compresión zip y rar son evoluciones
del L Z original)
Tema 2
34
2.2.4. Códigos de Run Length:

Adecuado para fuentes que emiten largas ráfagas de
símbolos iguales.
En lugar de codificar cada símbolo por separado, se
codifica el tipo de símbolo y la longitud de la ráfaga.
Se obtienen factores de compresión muy altos
Aplicación: FAX, imágenes o gráficos simples,
Tema 2
35

Tema 2: Aspectos Básicos de La Teoría de La Información y Codificación de Fuentes

Cargado por

Copyright:

Formatos disponibles

Tema 2: Aspectos Básicos de La Teoría de La Información y Codificación de Fuentes

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 2: Aspectos Básicos de La Teoría de La Información y Codificación de Fuentes

Cargado por

Copyright:

Formatos disponibles

Tema 2

Aspectos Básicos de la Teoría de la

Bibliografía Secciones 1.6 y 1.7 y Capítulo 2 de A. Valdovinos, A. Ortega

Visto en Teoría de la Comunicación

2.1. TEORÍA DE LA INFORMACIÓN

Cada T segundos, la fuente genera un símbolo de entre K posibles

2.1. TEORÍA DE LA INFORMACIÓN

2.1. TEORÍA DE LA INFORMACIÓN

Base del Logaritmo:

Al elegir b=2 (lo más habitual) normalizamos la información respecto a

Entropía (de una fuente):

2.1. TEORÍA DE LA INFORMACIÓN

Primer Teorema de Shannon: TEOREMA DE

Representación eficiente de los datos: utilizar el mínimo número

TEOREMA DE CODIFICACIÓN DE FUENTE:

Fuente sj Codificador bj Secuencia

2.1. TEORÍA DE LA INFORMACIÓN

TEOREMA DE CODIFICACIÓN DE FUENTE (cont.):

Podemos ver la longitud de cada palabra código como una v.a. de

L : NÚMERO MEDIO DE BITS POR SÍMBOLO DE FUENTE

ENUNCIADO DEL TEOREMA DE CODIFICACIÓN DE FUENTE:

2.1. TEORÍA DE LA INFORMACIÓN

SEGUNDO TEOREMA DE SHANNON HARTLEY

Límite fundamental para la transmisión de información a través de

Objetivo fundamental de las comunicaciones:

Enunciado del Teorema de Shannon Hartley:

2.1. TEORÍA DE LA INFORMACIÓN

Para un receptor con respuesta frecuencial constante

Este Teorema nos proporciona el límite teórico para la velocidad

2.1. TEORÍA DE LA INFORMACIÓN

En comunicaciones digitales es habitual el uso de la

2.1. TEORÍA DE LA INFORMACIÓN

Irrealizable  C/BT tiende a infinito cuando la

 Es posible encontrar sistemas de

b =Eb / N0 > 1,6 dB

Ejemplo: BPSK, Rb/BT =1bit/Hz ( =0), b=9,6 dB, Pb=10 5

O de forma alternativa, sería posible

2.1. TEORÍA DE LA INFORMACIÓN

Primer Teorema de Shanon:

Segundo Teorema de Shanon Hartley:

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Comprobar que la entropía de la fuente es H(S) = 2,15 bit/sím y la longitud media

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Símbolo Palabra código

Comprobar que la entropía de la fuente es H(S) = 2,55 bit/sím ; y la longitud

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

2.2.3. Códigos de Lempel Ziv:

Códigos de Lempel Ziv (Cont.):

Formar nuevo grupo

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Códigos de Lempel Ziv (Cont.):

A medida que salen los grupos nuevos se colocan en una

Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Códigos de Lempel Ziv. Ejemplo (cont.):

2.2.4. Códigos de Run Length:

Irrealizable C/BT tiende a infinito cuando la

Es posible encontrar sistemas de