Matemática y Estadística Básica para Periodistas
Matemática y Estadística Básica para Periodistas
Matemática y Estadística Básica para Periodistas
PERIODISMO DE DATOS
MATEMTICA Y ESTADSTICA PARA PERIODISTAS II
Por Sandra Crucianelli
Knight International Journalism Fellowship
www.icfj.org
[email protected]
@spcrucianelli
MEDIDAS DE TENDENCIA CENTRAL
En una distribucin de datos, stos tienen a acumularse hacia el centro
Las medidas de tendencia central ms comunes son:
a) Media Arimtica (Valor Medio o Promedio)
b) Mediana (Valor Central)
c) Moda (Valor Ms frecuente)
Promedio o Media Arimtica
Es la sumatoria () de todos los casos, dividida por el nmero de casos.
P= n/ N
n: cada dato
N: cantidad datos totales
Se distorsiona si tiene valores extremos o no representativos del
resto.
Veremos un ejemplo en el que el Promedio no debe ser utilizado por
falta de representatividad.
Supongamos que nos informan que en una oficina de la administracin
pblica hay 7 categoras principales de salarios cuyos sueldos en
dlares son: 8.000 - 5.000- 1.200 700 500 400 - 300.
Si se suman esos valores y se divide entre 7 (nmero de datos totales)
se obtiene el promedio mensual de salarios para los empleados de esa
oficina
P=2.300 $
2
El promedio, en este caso no representa a ninguna de las
categoras.
Cuando esto ocurre hay que calcular lo que se conoce como Media
Ponderada, es decir, dividir por intervalos las distintas clases y
considerar la cantidad de empleados en cada categora.
Veamos un ejemplo sobre otra escala salarial ms detallada: (Los
nmeros entre parntesis corresponden a la cantidad de empleados)
(1) 8000 $
(9) 3200 $
(18) 2599$
(36) 2200$
(32) 1800$
(21) 1500$
(15) 1200$
(12) 1080$
(57) 850$
(86) 750$
(92) 560$
(105) 420$
(210) 360$
Clase 1: 8000 (1 funcionario) = No se promedia, ya que distorsionara
cualquier otro valor.
Clase 2: (incluye a quienes ganan valores entre 2.200 y 3.200)
P= 2.457 $ (63 funcionarios) = Lo que se hizo aqu fue (9 x 3.200) + (18
x 2.599) + (36 x 2.200) y a este resultado global se lo dividi entre 63
que es la suma de 9 + 18 + 36. El mtodo consiste en ajustar cada
categora salarial al nmero de empleados cuya diferencia salarial no
sea demasiado significativa considerando los extremos de la tabla.
Clase 3: (incluye a quienes ganan valores entre 1.800 y1.080)
P= 1.501 $ (80 funcionarios)
Clase 4: (incluye a quienes ganan valores entre 850 y 360)
P= 517 $ (550 funcionarios)
Mediana ( Valor Central)
Es el valor que representa el punto central de una serie de datos. La
mitad de los datos recogidos est por encima y la otra mitad por debajo.
Tambin se dice que el 50 % de los valores quedan por debajo de ese
dato (la mediana o valor central) y el otro 50 % por encima.
Al igual que la Moda, que veremos a continuacin, no tiene demasiada
3
aplicacin en las crnicas periodsticas ya que su uso no es popular,
pero es importante que el reportero comprenda su significado porque en
muchos reportes estadsticos pueden aparecer como variables y resulta
importante que no confundan este valor con el promedio.
Para calcular la mediana, dada una serie de datos numricos, lo que se
hace es ordenar los datos de menor a mayor.
Ejemplo 1
7-10-10-12-13-15-17
Mediana: 12
Ejemplo 2
7-10-10-12-13-15
Se toma el P de los centrales internos. En este caso= 11
La mediana es 11.
A veces resulta difcil entender para qu sirve la mediana, y adems, es
de difcil aplicacin en una crnica periodstica. No obstante, es una
medida de tendencia central y todo periodista debe conocer su
significado y el procedimiento para calcularla, en especial cuando se
tiene un conjunto de datos pares.
No recomiendo usar a la mediana (o valor central) en especial porque
los lectores pueden confundirlo con el promedio. Y a veces el nmero
coincide, pero generalmente no.
Se utiliza mucho en estadstica bsica, cuando tenemos muchos datos,
que podemos ordenar de manera creciente (lo que nos dar una lnea
ascendente en el plano), y queremos decir que la mitad de los casos
relevados cayeron por debajo de ese valor y la otra mitad est por
encima de ese valor.
Por ejemplo en estudios clnicos, cuando un laboratorio quiere probar
la eficacia de un nuevo medicamento y entrega un dossier de prensa.
Tambin cuando se analizan tablas de frecuencia. Por ejemplo,
frecuencias de temperatura climtica registradas a lo largo del ao.
Hace unos aos supe de un gobierno centroamericano que utilizaba este
dato para crear confusin en los reportes de prensa que entregaba su
ministerio de Economa. Esto ocurra cuando el promedio de cierta
variable no daba un buen resultado a sus intereses y entonces incluan
el valor de la mediana (que en apariencia los favoreca ms) por lo que
todos los periodistas crean que se trataba de un promedio.
Aunque ese no era el caso, debo aclarar que en muchos reportes
estadsticos (como los mdicos o econmicos), se aconseja usar a la
4
mediana y no a la media arimtica o promedio, porque el conjunto de
datos tiene valores muy extremos, que no son promediables, por lo que
la media arimtica se vera fuertemente distorsionada
La idea es que no confundan el concepto y as eviten una posible
manipulacin.
Moda
Es el valor ms frecuente
No confundir con mayora. A veces coincide pero otras no.
Ejemplo:
16-20-16-17-16-23-12
Moda: 16
El programa Excel calcula automticamente estos valores, por eso es
importante que el reportero maneje este programa informtico, al cual
nos referiremos durante las sesiones en los foros.
Medidas de Proporcin
Un nmero solo no dice nada.
Para que adquiera significado es necesario efectuar una comparacin.
Por eso las medidas de proporcin establecen bsicamente
comparaciones de X cantidad con respecto a Y cantidad
a) Razn
Es el cociente de una cantidad dividida por otra. Se la define como la
principal operacin de transformacin o normalizacin estadstica, esto
es, definir una norma para expresar datos primarios. Para calcular una
razn se divide la cantidad que se quiere normalizar (estudiar), por la
cantidad normalizadora (referente).
Veamos un ejemplo sobre un dato censal: Qu sera razn de
feminidad?
Si en un estudio, el total de la poblacin son 300 personas, de las cuales
200 son mujeres y 100 son hombres, dicha razn es 200/100= 2
Significa: 2 mujeres por cada hombre
Hoy da Se est usando el trmino razn como ardid para enmascarar
estadsticas en lugar de otras medidas de proporcin, como el
porcentaje, de mayores niveles de comprensin.
b) ndice
Es un tipo de medida que usa ms de dos indicadores u observaciones
para resumirlos en un resultado, relacionados con un mismo fenmeno.
Expresa la variacin de un conjunto de valores. El ms conocido es el
ndice de Precios al Consumidor. Otro ejemplo, usado en muchos pases
es el IME (ndice Multivariado de Educacin), resume seis factores del
proceso educativo en un solo nmero.
Los ndices se calculan por mtodos estadsticos del anlisis factorial
5
EL IPC (ndice de Precios al Consumidor), rene a 20 categoras de
datos o ms, conforme el pas en el que se lo calcule.
c) Proporcin
Es la frecuencia de casos en una categora, dividida por el nmero de
casos de todas las categoras. Se trata de la razn entre una parte y la
totalidad.
Las proporciones varan siempre entre 0 y 1.
La suma de las proporciones siempre da 1
Ejemplo: Poblacin total: 1560 personas (850 Mujeres y 710 Hombres).
Proporcin Mujeres (850/1560=0,54) y Proporcin H: (710/1560=0,46).
Si multiplicamos por 100 el valor de una proporcin lo que se
obtiene es el porcentaje.
d) Tasa
De vital importancia para el reportero, expresa la frecuencia de casos
con relacin a un nmero fijo que se toma como referencia. Se
refiere a nmeros referentes (per cpita, cada 10.000, cada 100.000).
Se usa en crnicas periodsticas para comparar situaciones en distintas
ciudades o pases, porque permite usar el mismo nmero tomado como
base, que es fijo e independiente de la poblacin total.
Ejemplo:
Tasa de escolarizacin: nmero de escolares por cada
100.000 nios en edad escolar.
Tasa de ocupacin hospitalaria: Nmero de camas ocupadas
en hospitales por cada 10.000 camas hospitalarias.
Tasa de delito: Nmero de delitos denunciados por cada
10.000 habitantes (pude calcularse sobre otra base, como 1.000,
100.000, etc.) La base depende del tamao del escenario en
estudio y/o de la convencin que se haya decidido en el lugar de
uso.
Las tasas se construyen de diferente manera conforme el pas o ciudad
en que se estudien. Hay definiciones universales para algunos casos,
pero en otros, como se explic antes, la base es diferente; por eso es
importante que el reportero (en este caso de Honduras), conozca el
significado real de las tasas que se calculan en su pas, como las que
aparecen en el censo.
6
Ejemplo:
Ttulo periodstico: Alarmante Ola de Robos en la Ciudad (Baha
Blanca)
Pero result que eso no era cierto, ya que cada ciudad tiene una
cantidad de habitantes diferentes.
Calculando la tasa de delitos por cada 1.000 habitantes resulta que
Dorrego tiene un valor mayor al resto: 3 delitos por cada 1.000
Entonces: Es el ttulo el adecuado?
e) Porcentaje
Expresa una cantidad como un nmero de partes por cada 100
unidades.
Recuerde que, como ya dijimos, toda proporcin puede ser transformada
en %, pero no todo % puede ser transformado en proporcin.
A diferencia de las proporciones, un porcentaje puede ser mayor de 100.
(No confunda porcentaje puro con puntos porcentuales. Veremos esa
diferencia en el foro de la semana)
MEDIDAS DE CAMBIO
Lo que no cambia no es noticia. Lo que cambia s.
Toda variacin implica un cambio y los cambios suelen contener noticias
de relevancia.
Se calculan a partir del estudio de variables
Variable: Aquello que se modifica (o vara) conforme pasa el tiempo
Ejemplo: Partidas presupuestarias, accidentes, robos, clima, nios
desnutridos, etc.
La medida de cambio ms utilizada en periodismo es la VARIACION
PORCENTUAL
Ciudad Delitos Habitantes Tasa x c/1.000 Hab.
Baha Blanca 536 284.313
C. de Patagones 22 27.759
Dorrego 42 16.469
Pringles 12 23.765
Rosales 39 60.879
G. Chavez 29 11.967
Monte Hermoso 14 5.603
Puan 12 16.952
Saavedra 16 19.751
Tornquist 15 11.686
Tres Arroyos 121 57.110
Villarino 23 26.438
7
VARIACIN PORCENTUAL:
El clculo de variaciones porcentuales es la operacin de mxima
importancia en el anlisis de tablas numricas. Resulta vital que el
reportero entienda cmo se calculan e interpretan
Por ejemplo: Supongamos que el cuadro muestra la evolucin de la
Deuda Externa, conforme aparece a continuacin.
AO DEUDA (en millones
de dlares)
VARIACION NETA (en
millones de dlares)
1991 58 -
1992 74 16
1993 192 118
1994 320 128
1995 415 95
1996 512 97
1997 640 128
1998 720 80
1999 960 240 (mayor valor neto)
2000 1080 120
2001 1280 200
La VARIACION NETA es la cantidad en millones de dlares, que se agrega
cada ao, a la deuda del ao anterior. Es un nmero absoluto que se calcula
mediante una simple resta. Para el caso del ejemplo, es la resta que se hace
con el valor de cada ao en estudio, respecto del valor del ao anterior. Para
el ao 1991 no hay variacin neta calculada, porque se desconoce el monto de
la deuda del ao anterior.
El uso de la variacin neta, o nmeros abstractos para expresar cambios
es ALTAMENTE INADECUADO en periodismo, ya que no permiten las
comparaciones.
Un valor puede decir mucho o poco, depende de qu valor tiene para esa
misma variable en otra circunstancia.
Por ejemplo, si un candidato a presidente obtiene en una encuesta el 42 % de
intencin de votos, ese nmero puede ser mucho o poco; depende del
resultado obtenido en la medicin anterior.
Si una encuesta previa arroj el resultado de 61 % de intencin de votos el
valor menor tiene un significado: la aprobacin popular baj y es un dato malo
para el candidato y su partido. Ahora, si una encuesta previa haba medido 17
% de intencin de voto para ese mismo candidato y en la encuesta posterior
midi 42 % entonces el significado es otro.
8
Otro ejemplo es el de la cantidad de delitos administrativos (por citar una
variable). Si se cometen 200 delitos de este tipo en un ao, en un pas con 120
millones de habitantes, eso tiene un significado diferente a si se cometen 200
delitos en el mismo ao, pero en un pas con 5 millones de habitantes. Es claro
que la tasa de delitos contra la administracin pblica por cada 10.000
habitantes ser mayor en el segundo pas que en el primero.
Retomando el ejemplo de la tabla, el observador podra pensar que el ao en
que mayor aumento de la deuda externa hubo fue 1999, ya que ese ao el
incremento en millones de dlares fue de 240, pero no es la forma correcta de
analizar la evolucin de una variable, ya que para cada clculo, no se toma un
nmero fijo como referente. Todas las bases de referencia en cada resta que
se hace para cada ao, son distintas.
Por eso, reitero, es importantsimo usar medidas de cambio para expresar
variables que estn o pueden cambiar a lo largo del tiempo. La ms usada es
la variacin porcentual.
CMO SE CALCULA LA VARIACION PORCENTUAL?
Volvamos al caso del ejemplo anterior; si en vez de calcular la variacin neta,
hubiramos calculado la variacin porcentual para cada ao respecto del ao
inmediato anterior, se habra cado en la cuenta que el ao de mayor
endeudamiento fue 1993. Ah haba una noticia escondida en la tabla.
Slo haba que hacer algunos clculos para descubrirla, ya que no
saltaba a simple vista viendo los nmeros puros.
Veamos cmo calcular la variacin porcentual de la deuda de 1992 respecto de
1991.
74 millones 58 millones = 16 millones (deuda agregada en 1992 respecto
de 1991)
Si 58 millones ............ 100%
16 millones (la diferencia) ............ X= ??
X= (16 x 100) / 58 = 28%
Hagamos todos los clculos y volvamos a la tabla anterior, esta vez
calculando todas las variaciones porcentuales
9
AO DEUDA (en
millones de
dlares)
VARIACION NETA (en
millones de dlares)
VARIACION
PORCENTUAL
1991 58 -
1992 74 16 28 %
1993 192 118 159% (mayor
endeudamiento)
1994 320 128 66%
1995 415 95 30%
1996 512 97 23%
1997 640 128 25%
1998 720 80 12,5%
1999 960 240 (mayor valor neto) 33%
2000 1080 120 12,5%
2001 1280 200 18,5%
Si el resultado da negativo (porque el Valor Final es menor que el Valor
Inicial, la variacin porcentual es negativa (signo -).
En un caso as no hay incremento, sino decrecimiento (caso cada de la
bolsa = baj cuatro puntos, significa que la variacin porcentual fue
negativa).
Puntos Porcentuales
"El candidato A meda la semana pasada 10 % de intencin de voto. Hoy
mide 12 %.
El reportero escribi que la intencin de voto del candidato aument 2 %
(dos por ciento)
Es correcto?
NO = La variacin neta fue de 2 puntos porcentuales.
Pero la variacin porcentual fue mayor (de cunto?)
10
TANTAS VECES MS
1991: se adeudaban 58 millones
2001: se adeudan 1280 millones
El reportero escribe: Ahora se debe 22 veces ms dinero que hace diez
aos. Falso.
Divisin: 1280/58: 22 (Pero el 22 contiene la base, o lo que se adeudaba
en el primer ao tomado en estudio)
Correcto: 21 veces ms que hace 10 aos
Otro ejemplo:
El asesino tiene 20 aos
La vctima tiene 60 aos
El reportero escribi: La vctima es tres veces ms vieja que el asesino.
Falso. Si fuera tres veces ms vieja tendra 80.
En este caso es dos veces.
INTERPOLACIN DE DATOS EXTERNOS
Mientras una variable va creciendo o decreciendo, hay otras variables
que tambin sufren modificaciones permanentes e impactan directamente en la
que estamos estudiando.
Por ejemplo, si en una ciudad X la cantidad de accidentes de trnsito es de 120
por da y en otra ciudad Y es de 190 por da, estos nmeros no se pueden
considerar aislados ya que la cantidad de habitantes de una ciudad difiere de la
otra
Veamos un ejemplo aplicado a sueldos de empleados pblicos
En 1980: ganaban en promedio 11.133 $ anuales
En 2008: ganan en promedio 19.000 $ anuales
Ahora ganan ms: Falso
Hay que considerar el ndice de Precios al Consumidor: IPC
Datos IPC
1980 = 38.8
2008 = 90,9
Haciendo cuentas:
38,8 (IPC 1980) ---------- 11.133$ (el sueldo en 1980, con 38,8 de IPC)
90,9 (IPC 2008) -------- x = 26.082,21$ (SUELDO IDEAL)
11
SUELDO IDEAL = EL QUE DEBERAN GANAR PARA MANTENER EL
MISMO PODER ADQUISITIVO
La conclusin es que si ahora ganan 19.000, entonces tienen menor
poder adquisitivo)
Cmo calcular la Cada del Salario?
Cada del Salario: Sueldo Ideal Sueldo Real
Cada del Salario: 26.082,21 $ - 19.000 $ = 7.082,21 $
Cmo se calcula la Cada del Salario Porcentual?
26,082,21 $ (salario ideal) ------------- 100%
7.082,21 $ (cada del salario) --------- x = 27 %
El salario cay un 27 %
Recuperacin Porcentual
Con este concepto se comete uno de los errores ms comunes = Caso
Bolsa Dow Jones (DJ)
Da 1: El ndice DJ cerr con 1759,89 puntos
Da 2: El ndice DJ cerr con 1569,26 puntos
La diferencia entre el da 2 y el da 1 es de = 190,63 puntos
Conclusin: Perdi el 10,83 %.
Qu porcentaje tena que tener el Da 3 para recuperarse? 10,83?
NO. La base es otra. En puntos es 190.63, pero el % es diferente.
Haciendo cuentas:
1569,26........100%
190,63..........x= 12,14%
MEDIDAS DE DISPERSIN
Las medidas de dispersin nos informan cunto una variable se alej de
lo esperado. Lo esperado est directamente relacionado con el
promedio.
Por qu un avin que cae es noticia? Porque lo esperado es que
eso no ocurra ya que el promedio de aviones que se caen es muy bajo
respecto de la cantidad de aviones que vuelan.
12
Las medidas de dispersin ms frecuentemente usadas con la
Varianza, la Covarianza y la Desviacin Estndar.
VARIANZA:
Es un indicador de cambio. Mide la dispersin calculada, respecto de la
media arimtica (promedio)de una serie de datos.
Nos indica cunto una medicin se aleja de lo esperado
De este modo, la varianza se convierte en noticia.
La varianza siempre ser mayor que cero. Mientras ms se aproxima a
cero, ms concentrados estn los valores de una serie de datos,
alrededor de la media. Por el contrario, mientras mayor sea la varianza,
ms dispersos estn.
No es intencin de esta clase introducirlos en el clculo de la varianza,
pero s que comprendan su significado ya que frecuentemente, en
censos o reportes estadsticos pueden encontrar este tipo de
terminologa.
En estadstica, el anlisis de varianza (ANOVA) sirve para comparar si
los valores de un conjunto de datos numricos son significativamente
distintos a los valores de otro o ms conjuntos de datos.
En conclusin, cuando observen una varianza alta con relacin al
promedio de una serie de valores, detnganse en ese dato y busquen
ms informacin consultando fuentes acadmicas, ya que
probablemente detrs de la varianza puede estar escondida una noticia.
Ejemplo de variable con varianza baja: Enfermeras trabajando en
hospitales pblicos menores de 40 aos. (El promedio de la edad de las
enfermeras es de 35; luego, las de 40 tienen una varianza baja; las de
60, tendrn una varianza ms alta)
COVARIANZA
Cuando dos fenmenos varan al mismo tiempo, se dice que covaran
Por ejemplo, todos los aos vara el nmero de nacimiento de nios
prematuros, pero al mismo tiempo tambin vara la condicin de
fumadoras de las madres que los dan a luz.
Hay dos posibilidades:
1) Un fenmeno depende del otro
2) Uno explica al otro
Podemos realizar investigaciones para tratar de encontrar respuestas a
los diferentes interrogantes que nos plantean las estadsticas.
13
DESVIACIN ESTANDAR (DS)
Muchas veces la Varianza no aparece en un reporte estadstico, pero s
la DS. Es una forma ms comn de mencionar a la Varianza ya que la
DS est definida como la raz cuadrada de la varianza.
Cmo saber si varan mucho o si la desviacin es grande?
Siempre compararlos con la media
Ejemplo: nmero de crmenes cometidos en distintas ciudades.
(Variacin entre una y otra).
Recomendaciones
Mire los nmeros con detenimiento
Vea qu variables est analizando
Analice qu posibles cruces puede hacer en las tablas
Revise sus procedimientos y clculos
Para visualizar mejor los datos de una tabla e interpretar mejor su
contenido, grafique sus conclusiones
No pierda perspectiva: Mire hacia atrs y hacia delante.