Tema 2 Codificación de Fuente
Tema 2 Codificación de Fuente
Tema 2 Codificación de Fuente
FUENTE
CONTENIDO:
1. Conceptos básicos.
2. Medida de la información.
3. Entropía (de fuente y de fuente extendida).
4. Longitud promedio de símbolo.
5. Tasa de información.
6. Teorema de codificación de fuente.
7. Algoritmos de codificación de fuente: Huffman, Shannon–Fano.
1
PROBLEMA
Una fuente de información digital genera uno de seis posibles símbolos, a esta fuente la
denotamos por: X={x0, x1, x2, x3, x4, x5}. La tasa de símbolos es igual a 8000 símbolos/s.
Después de observar la fuente por un tiempo prolongado se estima la probabilidad de
ocurrencia de cada uno de los símbolos, obteniéndose lo siguiente: p(x0)=0.3, p(x1)=0.25,
p(x2)=0.2, p(x3)=0.12, p(x4)=0.08, p(x5)=0.05. Observe que suman la unidad.
2
SOLUCIÓN: Una fuente de información digital genera uno de seis posibles símbolos, a
esta fuente la denotamos por: X={x0, x1, x2, x3, x4, x5}. La tasa de símbolos es igual a 8000
símbolos/s. Después de observar la fuente por un tiempo prolongado se estima la
probabilidad de ocurrencia de cada uno de los símbolos, obteniéndose lo siguiente: p(x0)=0.3,
p(x1)=0.25, p(x2)=0.2, p(x3)=0.12, p(x4)=0.08, p(x5)=0.05. Observe que suman la unidad.
px 1
j 0
j
Tasa real (bps) Rideal 18.88 Rreal 24 Rreal 20.64 Rreal 20.24 Rreal 11.6 Rreal 19.04 Rreal 19.04
Eficiencia (%) 78.67 % 91.47 % 93.28 % 162.7 % 99.16 % 99.16 %
Desv. Std (b/simb) X 0.0 X 1.471 X 1.367 X 0.497 X 0.704 X 0.704
J 1 l x j
Desigualdad Kraft j 0
2 1 0.75 0.984 1 2 1 1
3
Conceptos (1)
• Fuente de información digital: los símbolos generados
se encuentran dentro de un conjunto finito de símbolos
posibles.
6
Medida de la Información (1)
• Sea X una v.a. discreta que modela la salida de una
fuente de información X, la cual toma los símbolos de un
alfabeto finito fijo:
X x0 , x1 ,..., xJ 1
• Con probabilidades
P ( X x j ) p x j , j 0, 1,..., J 1
px 1
j 0
j
7
Medida de la Información (2)
• Considere que los símbolos emitidos por la fuente X
durante intervalos de transmisión de señales sucesivas
son estadísticamente independientes (fuente discreta sin
memoria).
• ¿Cuánta información produce una fuente de este tipo?
• Definimos la cantidad de información ganada después
de observar el evento {X=xj}, el cual ocurre con
probabilidad p(xj), como la función logarítmica:
I ( x j ) log b 1 p x j
• En palabras: cuanto más probable es un símbolo,
menor es la información que proporciona.
• Tarea: ¿Por qué se eligió la función logarítmica para8
medir la información?
Propiedades de la Información
• Propiedades que intuitivamente satisface la definición anterior:
11
Ejercicio 1
• Considere una fuente binaria (dos símbolos) X={x0, x1}, para
la cual el símbolo x0 ocurre con probabilidad p0 y el símbolo
x1 ocurre con probabilidad 1-po. Suponga que la fuente es sin
memoria. Determine el valor de la entropía cuando p0= 0.0,
0.25, 0.5, 0.75, 1.0. Grafique la entropía en función de p0.
¿Para qué valor de p0 la entropía alcanza su valor máximo?
¿Para qué valor de p0 la entropía tiene sus valores mínimos?
J 1
H X p xj I xj p x0 I x0 p x1 I x1
j 0
1 1
H X p0 log2 1 p0 log2 bits/símbolo
p0 1 p0
12
Ejercicio 2
• Considere una fuente de información digital de tres símbolos
Z={z0, z1, z2}, para la cual el símbolo z0 ocurre con
probabilidad p0, el símbolo z1 ocurre con probabilidad p1, y el
símbolo z2 ocurre con probabilidad 1-p0-p1. Suponga que la
fuente es sin memoria. Grafique la entropía en función de p0 y
p1. ¿Para qué conjunto de valores de (p0, p1, p2) la entropía
alcanza su valor máximo? ¿Para qué conjuntos de valores de
(p0, p1, p2) la entropía toma sus valores mínimos?
J 1
H Z p z j I z j p0I z0 p1I z1 p2I z2 bits/símbolo
j 0
1 1 1
H Z p0 log2 p1 log2 1 p0 p1 log2
p0 p1 1 p0 p1
13
Entropía de fuente extendida
• Considere una fuente discreta sin memoria (FDSM) X
cuyo alfabeto consiste de J símbolos.
H X n
nH X 14
Fuente extendida
Considere una fuente de información digital de dos símbolos W={w0, w1}, para la cual
el símbolo w0 ocurre con probabilidad 0.9 y el símbolo w1 ocurre con probabilidad 0.1.
Determine la entropía de la fuente, la longitud promedio y eficiencia de los siguientes
códigos: código de longitud fija, código de bandera y código de Huffman.
15
Fuente extendida de segundo orden
Considere la fuente extendida de segundo orden W2={w0w0, w0w1, w1w0, w1w1} =
{b0, b1, b2, b3}, para la cual el bloque bj ocurre con probabilidad p(wk) p(wm).
Huffman: Código
b0 0.81 0.3 0.81 0 0 0
FIN
b1 0.09 0.1 0 0.19 1 11 11
17
Código de Huffman para la fuente
extendida de tercer orden
Bloque Código
b0 0.729 0.729 0.729 0.729 0.729 0.729 0.729 0 0
FIN
b 0.001 1 11111
18
Ejercicio 3
• Considere una fuente discreta sin memoria con alfabeto
X={x0, x1, x2} con probabilidades respectivas ¼, ¼, ½. a)
Encuentre la entropía de la fuente. Considere a
continuación la extensión de segundo orden de la
fuente. b) Encuentre la entropía de la fuente extendida.
Solución
a) H(X)=1.5 bits/símbolo.
b) X2 ={b0, b1, b2, b3, b4, b5, b6, b7, b8}, cada bloque se
compone, respectivamente, de la siguiente
secuencia de símbolos:
{x0x0, x0x1, x0x2, x1x0, x1x1, x1x2, x2x0, x2x1, x2x2},
con probabilidades respectivas:
1/16, 1/16, 1/8, 1/16, 1/16, 1/8, 1/8, 1/8, 1/4.
H(X2)=3 bits/bloque.
19
Tasa ideal de información
• La descripción de una fuente no es solamente por su
entropía, sino también por su tasa ideal de
información medida en bits por segundo. Considere
una fuente discreta que emite símbolos cada Ts
segundos. La tasa ideal de información de la fuente se
define como
H X
Rideal =rs H X bits/segundo
Ts
donde rs es la velocidad de señalización (tasa de
símbolos) y está dada por rs=1/Ts. La velocidad de
señalización representa el número promedio de
símbolos por unidad de tiempo (símbolos por segundo).
20
Ejercicio 4
• Calcule la tasa de información de una fuente telegráfica
teniendo por probabilidades y duración promedio:
ppunto=2/3, praya=1/3, Tpunto=0.2 s, Traya=0.4 s.
Solución:
X={punto, raya}, p(punto)=2/3, p(raya)=1/3.
Ts=(2/3)(0.2)+(1/3)(0.4)=0.267 s,
J 1
V ( X ) p x j l x j L X
2
j 0
(X ) V (X ) bits/símbolo
25
Teorema de codificación de fuente
(Primer Teorema de Shannon)
• Dada una fuente discreta sin memoria de entropía
H(X), la longitud promedio de palabra de código L(X)
para cualquier esquema de codificación de fuente
sin distorsión está acotada como:
L X H X
• La entropía H(X) representa un límite fundamental
sobre el número promedio de bits por símbolo de
fuente necesario para representar una fuente
discreta sin memoria en el sentido de que puede
hacerse tan pequeño, aunque no menor que, la
entropía H(X). Así:
H X
F 100%
L X 26
Compresión de datos sin pérdida
• En la transmisión de señales, es necesario eliminar la
información redundante de la señal para mejorar la
eficiencia. Cuando este proceso se realiza sin pérdida de
información sobre una señal de forma digital se le conoce
como compactación o compresión de datos sin pérdida.
• La compresión de datos proporciona una representación de
la salida de la fuente que no es sólo eficiente en términos del
número promedio de bits por símbolo, sino también es exacta
porque los datos originales pueden reconstruirse sin pérdida
de información.
• La compactación o compresión de datos se consigue
asignando códigos cortos a los símbolos más frecuentes de
la salida de la fuente y códigos largos a los símbolos menos
frecuentes.
• A continuación estudiaremos algunos esquemas de
codificación de fuente para compactación de datos.
27
Clasificación de códigos
• Códigos de longitud fija (1), códigos de longitud variable (2-6), códigos
unívocamente decodificables (1, 3, 4, 5, 6), códigos cuasi-óptimos (5, 6),
códigos no decodificables (2).
• Desigualdad de Kraft (condición para la existencia de un código binario
instantáneo): J 1
2
l x j
1
j 0
s1 0.25 01 1 10 01 10 10
28
Algoritmo de Codificación
Shannon-Fano
1.-Los símbolos de la fuente se listan en orden de
probabilidad decreciente.
2.-Divida los símbolos en dos conjuntos que sean
lo más cercano a ser equiprobables, asigne 0 al
conjunto de arriba y 1 al conjunto de abajo.
3.-Continúe este proceso, cada vez particione los
conjuntos de tal forma que sean lo más
equiprobables posible. El proceso termina
cuando ya no es posible otra partición.
29
Codificación Shannon-Fano
Ejemplo: Considere una fuente discreta sin memoria con alfabeto X={x0, x1,
x2, x3, x4 , x5} con probabilidades respectivas 0.3, 0.25, 0.2, 0.12, 0.08, y
0.05. Encuentre la palabra de código para cada símbolo al utilizar la
codificación Shannon-Fano. Calcule (={H(X)/L(X)}·100%). Demuestre que
se cumple la desigualdad de Kraft.
Símbolo Código
34
No unicidad del código de Huffman
Ejemplo: Considere una fuente discreta sin memoria con alfabeto S={s0, s1, s2,
s3, s4} con probabilidades respectivas 0.4, 0.2, 0.2, 0.1, y 0.1. a) Encuentre la
entropía de la fuente. A continuación encuentre la palabra de código para cada
símbolo al utilizar la codificación Huffman. Determine lo siguiente: b) La
longitud promedio de la palabra de código. c) La desviación estándar de la
longitud promedio de palabra de código. d) La eficiencia del codificador.
Estudie la ambigüedad con la que se ubican símbolos combinados de igual
probabilidad al construir el código Huffman (considere que éstos se pueden
ubicar lo más alto o lo más bajo posible). Compare la longitud promedio,
eficiencia y la desviación estándar de estas dos variaciones del código
Huffman. ¿Cuál de los dos códigos resulta más razonable elegir y por qué?
OPCIÓN 2: La probabilidad del símbolo combinado se ubica tan alta como sea posible. Código
s1 0.4 0.4 0.4 0.6 0 00 00
FIN
s2 0.2 0.2 0.4 0 0.4 1 01 10
C B log(1 S / N )
• Donde C es la capacidad de información del canal. La capacidad de
información se define como la velocidad máxima a la cual puede
transmitirse sin error la información a lo largo del canal, aún cuando
este sea ruidoso; se mide en bits por segundo (b/s, bps).
38
Límite superior de la capacidad del sistema
Este teorema no nos dice como diseñar el sistema, sin embargo, es muy
valioso desde el punto de vista técnico debido a lo siguiente: