Tema 2: Aspectos Básicos de La Teoría de La Información y Codificación de Fuentes

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

Tema 2

Aspectos Básicos de la Teoría de la


Información y Codificación de
Fuentes

Comunicaciones digitales

Índice Tema 2
2.1. Teoría de la Información: Medida de la
Información. Entropía. Capacidad de Canal.
2.2. Codificación de Fuentes Discretas.
2.3. Codificación de Fuentes Analógicas.
2.3.1. Codificación lineal y logarítmica.
2.3.2. Codificación Diferencial.
2.3.3. Modulación (codificación) Delta.

Bibliografía Secciones 1.6 y 1.7 y Capítulo 2 de A. Valdovinos, A. Ortega


Secciones 2.1 a 2.8, 9.1 a 9.4 y Capítulo 13 de B. Sklar

Tema 2
2
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Visto en Teoría de la Comunicación


Esencial NO visto en Teoría de la Comunicación

Tema 2
3
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Objetivo:
Cuantificar la Información y Encontrar Límites Fundamentales para la
Representación y Transmisión Fiable de la Información.

Aplicaciones:
Sistemas de Compresión:
Sin Pérdidas (ZIP files).
Con Pérdidas (MP3s)
Sistemas de Transmisión Digitales (Lineas DSL, WiFi, UMTS, LTE, 5G, etc)
…

Logros Prácticos:
Misiones Espaciales, Compact Disc, DVD, Teléfonos Móviles, Internet,
Lingüística, Astronomía, …

Tema 2
4
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Experimento Probabilístico:

Fuente S (v.a.)
Discreta

Cada T segundos, la fuente genera un símbolo de entre K posibles


(alfabeto de mensajes).
Los posibles valores de S (mensajes) pertenecen a un alfabeto finito:

S = s0 , s1 ,..., s K 1

P S sj Pj j 0, 1 ,... , K 1
K 1
Pj 1
j 0

Tema 2
5
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Suposición:
Los símbolos consecutivos son estadísticamente
independientes: FUENTE SIN MEMORIA.

Objetivo:
Medir cuánta información produce la fuente.
INFORMACIÓN: Concepto relacionado con la
“Incertidumbre” o “Sorpresa” que tiene o produce el
mensaje recibido.

Tema 2
6
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Definición:
Cantidad de Información “ganada” cuando se recibe el mensaje o suceso S = sj .

1
I sj log b P j log b j 0 ,1,..., K 1
Pj
I(sj) es la información propia del mensaje sj

Propiedades:
1. I(sj) = 0 si Pj = 1 (Si no hay incertidumbre, no hay información)
2. I(sj) 0 pues 0 Pj 1 (La llegada de un símbolo aporta algo o
nada de información, pero no pérdida)
3. I(sj) > I(si) para Pj < Pi (Cuanta mayor “sorpresa” ante la llegada de un símbolo, más
información aporta)
4. I(sj ,si) = I(sj) + I(si) si sj y si son independientes

Tema 2
7
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Base del Logaritmo:


Base 2 (b=2): Información medida en bits.
Base e (b=e): Información medida en nats.

Al elegir b=2 (lo más habitual) normalizamos la información respecto a


la fuente discreta sin memoria más simple:
Aquella que genera dos símbolos equiprobables s1 y s2.
– P1 = P2 = 1/2,
– Entonces:
I(s1) = I(s2) = log2 2 = 1 bit
En este contexto, 1 bit es la información proporcionada por la emisión
de un mensaje entre dos equiprobables.
Diferencia con bit como dígito binario (cada uno de los elemento que
componen un mensaje con codificación binaria)

Tema 2
8
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Entropía (de una fuente):


Definición:
Cantidad de información media por símbolo que emite una fuente.

K 1 K 1 K 1
1
H (S ) = E I s j Pj I s j Pj log 2 Pj log 2 Pj bits/símbolo
j 0 j 0 Pj j 0

Propiedades:
1. 0 H(S) log2 K
2. H(S) = 0 si y sólo si Pj = 1 para algún j y, por consiguiente, Pi = 0 para todo
i j
3. H(S) = log2 K si y sólo si Pj = 1/K para todo j . Caso Fuente equiprobable.

Tema 2
9
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Primer Teorema de Shannon: TEOREMA DE


CODIFICACIÓN DE FUENTE:
Objetivo primordial en comunicaciones: 1916 2001

Representación eficiente de los datos: utilizar el mínimo número


medio de bits para transmitirlos.
Tarea:
Codificación o Compresión de Fuente
Estrategia:
Símbolos que aparecen más a menudo (los más probables)
deben emplear menos bits para su comunicación.
Ello hace necesario conocer o estimar las estadísticas de la
fuente (la probabilidad de cada uno de los mensajes).

Tema 2
10
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

TEOREMA DE CODIFICACIÓN DE FUENTE:


Condiciones a cumplir por los codificadores de fuente:
1. Palabras código binarias (compuestas por ‘1’ y ‘0’)
2. Biunívocamente decodificables:
La secuencia original (sin codificar) debe poder obtenerse a partir de la
secuencia codificada (sin ambigüedad)

Fuente sj Codificador bj Secuencia


discreta de binaria
sin memoria fuente

Codificador de fuente:
Encargado de transformar los símbolos generados por la fuente en una
secuencia binaria.
Asigna una secuencia bj de longitud lj al símbolo sj.

Tema 2
11
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

TEOREMA DE CODIFICACIÓN DE FUENTE (cont.):


Definición:
Longitud media de las palabras código de la fuente:

K 1
L Pj l j bits
j 0

Podemos ver la longitud de cada palabra código como una v.a. de


valor lj con probabilidad pj.
Así, la media L será la esperanza de dicha v.a.

L : NÚMERO MEDIO DE BITS POR SÍMBOLO DE FUENTE

Tema 2
12
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN
TEOREMA DE CODIFICACIÓN DE FUENTE (cont.):
Definiciones:
Lmín : Menor valor posible de L
EFICIENCIA DE CODIFICACIÓN: Lmin
L
Como Lmín L 1

ENUNCIADO DEL TEOREMA DE CODIFICACIÓN DE FUENTE:


Una fuente con entropía H(S) puede ser codificada con cualquier número medio L de
bits/símbolo tal que L H(S) , de forma que la probabilidad de error de decodificación
sea tan pequeña como queramos.

H(S )
Es decir, Lmín = H(S) y
L

Tema 2
13
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

SEGUNDO TEOREMA DE SHANNON HARTLEY

Límite fundamental para la transmisión de información a través de


un canal de comunicaciones.

Objetivo fundamental de las comunicaciones:


Fiabilidad (Pe baja).
Debido al ruido (siempre presente) es lógico pensar que Pe 0.
Sin embargo en 1948 Shannon postuló que lo que está limitado en
una transmisión es la velocidad de transmisión y no la fiabilidad.
Es decir, por un canal determinado, es teóricamente posible transmitir
sin ningún error pero no a cualquier velocidad de transmisión

Tema 2
14
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Enunciado del Teorema de Shannon Hartley:


Es posible la transmisión fiable (con probabilidad
de error tan pequeña como queramos) a través
de canales con ruido, siempre que la velocidad
de transmisión Rb sea menor o igual que una
cierta cota C denominada Capacidad de Canal.
Para un canal con ruido blanco aditivo y gaussiano
(AWGN) dicha cota viene dada por la expresión:

S
C BT log 2 1 bps
N

Tema 2
15
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Para un receptor con respuesta frecuencial constante


y unitaria entre BT y BT (con ruido AWGN de
densidad espectral de potencia N0 / 2 ).
BT
N0
N df BT N 0
BT
2
Así

S
C BT log 2 1 bps
BT N 0

Tema 2
16
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Este Teorema nos proporciona el límite teórico para la velocidad


de transmisión, pero no nos dice cómo llegar a él.
Si Rb > C no es posible la transmisión fiable y Pb cae a 0,5 (peor
valor posible).
La relación Rb/BT se define como EFICIENCIA ESPECTRAL.
Mide la cantidad de información por ancho de banda en
bps/Hz.
Su límite superior (debido al teorema de Shannon) es C / BT ,
que depende de la relación señal a ruido disponible en el
receptor.

Tema 2
17
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

En comunicaciones digitales es habitual el uso de la


RELACIÓN SEÑAL A RUIDO POR BIT:
b= Eb / N 0
Se relaciona con la relación señal a ruido S/N a través de la
velocidad de transmisión y el ancho de banda.
Eb S Eb Rb Rb
S Eb Rb b
Tb N N 0 BT BT

En el límite (Rb=C):

C C
log 2 1 b
BT BT
C C
BT C BT BT
2 1 b b 2 1
BT C

Tema 2
18
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN
Cotas de Transmisión:
Según el Teorema de Shannon:
S
C BT log 2 1 bps
BT N 0
la capacidad depende de la potencia transmitida y del ancho de
banda.
Así:
Aumentar S:
Aumenta la velocidad de transmisión: Podemos transmitir más
bits/seg con la misma fiabilidad. OJO, aumento logarítmico (lento).
Aumentar BT :
Aumenta la velocidad de transmisión, existiendo un doble efecto:
1. Beneficioso: se aumenta linealmente la velocidad.
2. Perjudicial: entra más ruido al receptor, reduciendo la velocidad de
transmisión sin error, pero con dependencia logarítmica con BT .

Tema 2
19
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN

Cotas de Transmisión:
Representación gráfica:
Plano de EFICIENCIA ESPECTRAL/RELACIÓN SEÑAL A RUIDO POR BIT.
C C
log 2 1 b
BT BT
1
10

Irrealizable • C/BT tiende a infinito cuando la


relación señal a ruido por bit b
tiende a infinito.
Realizable
0
• C/BT tiende a cero cuando 1,6dB
T
/B

10
b
b
R

• Es posible encontrar sistemas de


comunicación realizables siempre y
cuando se cumpla la condición:

b =Eb / N0 > 1,6 dB


-5 -1,592 0 5 10 15 20
E /N (dB)
b o

10 log [ln2]
Tema 2
20
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN

Ejemplo: BPSK, Rb/BT =1bit/Hz ( =0), b=9,6 dB, Pb=10 5

1
10

5,74
Teóricamente, existe un sistema de
comunicación digital que permitiría
una Pb=0 con una Rb/BT =1 y b=0 dB.
Sistema BPSK Esto supone que el sistema BPSK está
0
9,6 dB por “debajo” del “optimo”.
T
/B

10
b
R

O de forma alternativa, sería posible


obtener una Pb=0 con una Rb/BT
=5,74bit/Hz y b=9,6 dB.

9,6
-5 -1,592 0 5 10 15 20
E /N (dB)
b o

Tema 2
21
Comunicaciones digitales

2.1. TEORÍA DE LA INFORMACIÓN


Ejemplo: BPSK, Rb/BT =1bit/Hz, b=9,6 dB, Pb=10 5

Tema 2
22
Comunicaciones digitales
2.1. TEORÍA DE LA INFORMACIÓN
RESUMEN sobre los Teoremas de Shanon:

Primer Teorema de Shanon:


Es posible codificar sin error (sin pérdidas) una fuente digital con
Entropía H(S) siempre que se use un codificador con una
longitud media de código H(S)

Segundo Teorema de Shanon Hartley:


Es posible transmitir con Pe=0 a través de un canal con ruido,
siempre que la velocidad de transmisión Rb sea menor o igual a
la Capacidad C del canal:

S S C
Rb C BT log 2 1 BT log 2 1 BT log 2 1 b
N N 0 BT BT

Tema 2
23
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS


2.2.1. Codificación de Shannon Fano:
Codificación Eficiente
Las longitudes aumentan a medida que las probabilidades decrecen.
Necesidad de conocer o estimar las probabilidades.
Estructura en árbol para garantizar la decodificación única (biunicidad).

ALGORITMO:
1. Ordenar de mayor a menor probabilidad los mensajes a codificar.
2. Dividir en 2 grupos de manera que las sumas de las probabilidades
de cada uno de los grupos sean lo más parecidas posible entre sí.
3. Asignar ‘0’ a cada símbolo del grupo superior, y
‘1’ a cada símbolo del grupo inferior.
– (Puede hacerse al revés pero siempre debe mantenerse el criterio elegido)
4. Subdividir cada grupo según las reglas anteriores.
5. Cuando un grupo tiene un único símbolo, la palabra código está
terminada.
6. Cuando todos los grupos tienen un sólo símbolo, el proceso se ha
finalizado. Las palabras se leen de izqda a dcha.

Tema 2
24
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS
Codificación de Shannon Fano. Ejemplo:

Comprobar que la entropía de la fuente es H(S) = 2,15 bit/sím y la longitud media


resulta L = 2,18 bit/sím. Por lo tanto, la eficiencia de codificación es 0,99.
Si la fuente emite símbolos a una velocidad de, p.e., 1.000 símbolos/seg., la velocidad
de transmisión media sería Rb = 2.180 bps, ligeramente superior a los 2.150 bps que
constituyen la mínima velocidad posible (dada por la entropía).
Como comparación, un código de longitud fija requeriría 3 bits para codificar los 8
símbolos posibles, con una eficiencia de 0,72 , y requeriría una velocidad de
transmisión de Rb = 3.000 bps.
Tema 2
25
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS


2.2.2. Codificación de Huffman:
Similar al de Shannon Fano pero con mayor eficiencia.
Óptimo en el sentido de que no existe otro código biunívocamente
decodificable de menor longitud media para una determinada fuente
discreta sin memoria.
ALGORITMO:
1. Ordenar los mensajes de mayor a menor probabilidad.
2. Asignar ‘0’ y ‘1’ a los dos últimos mensajes de menor
probabilidad respectivamente.
– (No importa el orden siempre que el criterio se mantenga)
3. Agrupar ambos como si fuesen 1 solo símbolo con probabilidad
igual a la suma de las probabilidades y reordenar de nuevo.
– En caso de empate, colocar los grupos primero.
4. Si quedan más de dos mensajes volver al paso 2.
Si solo quedan 2 … FIN
5. Las palabras código se forma mediante “backtracking”
(búsqueda hacia detrás) de la secuencia de bits asignados.

Tema 2
26
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Símbolo Palabra código

s1 011
s2 001

s3 1

s4 00010

s5 0101

s6 0000

s7 0100

s8 00011

Comprobar que la entropía de la fuente es H(S) = 2,55 bit/sím ; y la longitud


media resulta L = 2,61 bit/sím . Por lo tanto, la eficiencia de codificación es
0,977.
Con una codificación de Shannon Fano se obtiene L = 2,64 bit/sím , con una
eficiencia de 0,966, ligeramente inferior a la obtenida mediante la
codificación de Huffman.

Tema 2
27
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

2.2.3. Códigos de Lempel Ziv:


Códigos basados en diccionario o códigos de fuentes universales.
Pese a que los de Huffman son óptimos, en la práctica presentan el
inconveniente de que hace falta conocer las probabilidades de emisión
lo que los hace poco adecuados para fuentes con memoria (mensajes
no independientes entre sí)
El algoritmo de los códigos de L Z no requiere el conocimiento previo
de las probabilidades de emisión. Adecuado para fuentes con memoria
Esquema de codificación:
De longitud variable a longitud fija L …
La salida de la fuente se divide en grupos de longitud variable que
posteriormente se codifican con palabras de longitud fija.

Tema 2
28
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Códigos de Lempel Ziv (Cont.):

Esperar
la salida de
un símbolo

¿Ha aparecido
el grupo con
anterioridad?

No

Formar nuevo grupo

Tema 2
29
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Códigos de Lempel Ziv (Cont.):

A medida que salen los grupos nuevos se colocan en una


tabla por orden de aparición … DICCIONARIO.

ALGORITMO DE CODIFICACION:
1. Formación de Grupos:
Nuevo Grupo = Antiguo Grupo + Nuevo Símbolo.
2. Codificación:
Posición en la tabla del antiguo grupo + Nuevo Símbolo.

L 1 bits 1 bits

Tema 2
30
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS
Códigos de Lempel Ziv. Ejemplo:
Secuencia original: 0100001100001010000010100000110000010100001001001
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos 5 bits = 4 bits posición + 1 bit nuevo
0000

Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011


01100 / 00011 / 10010 / 10001 / 01010 / 01101 / 10100 / 01000 / 11101.
Tema 2
31
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS


Códigos de Lempel Ziv. Ejemplo:
Secuencia original: 0100001100001010000010100000110000010100001001001
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos
0000 5 bits = 4 bits posición + 1 bit nuevo

Secuencia codificada: 00000 / 00001 / 00010 / 00111 / 00100 / 00110 / 01011


01100 / 00011 / 10010 / 10001 / 01010 / 01101 / 10100 / 01000 / 11101.
Tema 2
32
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS
Códigos de Lempel Ziv. Ejemplo (cont)
Diseño de los códigos:
Agrupamiento: 0 / 1 / 00 / 001 / 10 / 000 / 101 / 0000 / 01 / 010 / 00001 / 100 /
0001 / 0100 / 0010 / 01001/ 16 grupos 4 bits posición + 1 bit nuevo
Posición de la Contenido de Palabra código
0000
tabla la tabla
1 0001 0 0000 0
2 0010 1 0000 1
3 0011 00 0001 0
4 0100 001 0011 1
5 0101 10 0010 0
6 0110 000 0011 0
7 0111 101 0101 1
8 1000 0000 0110 0
9 1001 01 0001 1
10 1010 010 1001 0
11 1011 00001 1000 1
12 1100 100 0101 0
13 1101 0001 0110 1
14 1110 0100 1010 0
15 1111 0010 0100 0
16 01001 1110 1

Tema 2
33
Comunicaciones digitales

2.2. CODIFICACIÓN DE FUENTES DISCRETAS

Códigos de Lempel Ziv. Ejemplo (cont.):


En este caso 49 bits originales requieren 80 bits!!!; pero es debido a
que la secuencia original es muy corta (caso didáctico).
En la práctica se suele partir de secuencias de unos 10.000 a 30.000
bits, y se usan diccionarios de 4096 códigos de 12 bits cada uno.
En este caso se consiguen compresiones medias de alrededor del
55%
En el caso de Huffman, se consiguen compresiones de unos 43% en
media.
Recordad que la codificación L Z no requiere estimar probabilidades
de los mensajes y resulta adecuada para fuentes con memoria, a
diferencia de la de Huffman y de Shannon Fano.
L Z se utiliza en la práctica para comprimir ficheros de ordenador
(existen muchas variantes. La compresión zip y rar son evoluciones
del L Z original)

Tema 2
34
Comunicaciones digitales
2.2. CODIFICACIÓN DE FUENTES DISCRETAS

2.2.4. Códigos de Run Length:


Adecuado para fuentes que emiten largas ráfagas de
símbolos iguales.
En lugar de codificar cada símbolo por separado, se
codifica el tipo de símbolo y la longitud de la ráfaga.
Se obtienen factores de compresión muy altos
Aplicación: FAX, imágenes o gráficos simples, …

Tema 2
35
Comunicaciones digitales

También podría gustarte