1parte 1 - Lluvia - Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

¡UNA LLUVIA DE DATOS!

¿Qué hacemos con ellos?


LILIANA TAUBER
[email protected]

Material para las cátedras de Estadística


Facultad de Humanidades y Ciencias
Universidad Nacional del Litoral
¡Una lluvia de datos! ¿Qué hacemos con ellos?

PARTE I: Resúmenes gráficos y tabulares


Variables cualitativas o categóricas
NOTA ACLARATORIA
Antes de iniciar la lectura de este material, es necesario aclarar algunas cuestiones:
1. Este apunte está íntimamente relacionado con el desarrollo conceptual que realiza el libro:
Introducción a la Probabilidad y Estadística, cuyos autores son: Mendenhall, Beaver y Beaver,
éste es el libro que les hemos compartido la primera semana de clases.
2. Lo anterior implica que, para poder realizar una lectura comprensiva del presente material,
primero habrán tenido que leer desde la página 1 a la 14 del libro mencionado. Esto es así
porque en el presente material iremos ampliando ejemplos del libro y agregaremos algunos
contenidos que no aparecen en el mismo.
3. En la transparencia Resúmenes (Parte I), encontrarán otros ejemplos que pueden
complementarse con la última parte de este apunte y lo leído en el libro.
4. Por último, es muy importante la lectura de estos materiales porque les ayudará a resolver las
tareas propuestas y, por sobre todo, a tener fundamentos conceptuales que les permitan decidir
cuál es el resumen que más se adecua a cada situación y también a justificar por qué utilizar un
resumen y no otro.

Contenido
¡Una maraña de información! ....................................................................................................................... 2
1. ¿Cómo se lee un valor en una base de datos? ..................................................................................... 2
2. La importancia de encontrar regularidades ........................................................................................ 3
2.1. ¿Qué es una Distribución de frecuencias? .................................................................................... 4
2.1.1. Tipos de frecuencias para variables cualitativas con escala nominal ....................................... 6
2.1.2. Tipos de frecuencias para variables cualitativas con escala ordinal ............................................ 7
2.2. ¿Qué es una Serie de tiempo?........................................................................................................... 8
3. Resúmenes gráficos y Tabulares para variables cualitativas..................................................................... 8
3.1. Gráficos para variables cualitativas (o categóricas) ......................................................................... 8
3.1.1. Gráfico de Barras Simples .............................................................................................................. 8
3.1.2. Gráficos de barras adosadas .......................................................................................................... 9
3.1.3. Tablas de Contingencia: Resúmenes tabulares asociados a los Gráficos 2 y 3 .......................... 11
3.1.5. Gráficos de barras apiladas o segmentadas ................................................................................ 13
3.1.6. Otros usos del gráfico de barras apiladas .................................................................................... 14
3.1.7. Gráficos de barras bidireccionales ............................................................................................... 16
4. ¿Es posible encontrar en los medios o en las investigaciones gráficos erróneos? ................................. 17
Reflexiones finales ....................................................................................................................................... 18
Referencias Bibliográficas ........................................................................................................................... 19
Webgrafía .................................................................................................................................................... 19

Dra. Liliana Tauber FHUC-UNL 1


¡Una lluvia de datos! ¿Qué hacemos con ellos?

¡Una maraña de información!


Cuando se realizan estudios en los que se recolectan grandes volúmenes de información, generalmente,
la misma queda registrada en bases de datos. Por ejemplo, si observamos los datos provenientes de la
Encuesta Permanente de Hogares (EPH), para el conglomerado del Gran Santa Fe (Figura 1), vemos que
está repleta de códigos y valores, con lo cual si quisiéramos expresar alguna caracterización de esos
hogares, sería imposible hacerlo desde una lectura directa de esos datos.

Es así que primero, deberíamos saber de qué se trata cada código o dato que aparece en las celdas y a
continuación, deberíamos elegir las técnicas adecuadas para interpretar y analizar esos datos.

Figura 1. Base de datos de Hogares del Gran Santa Fe – Tercer Trimestre 2018 – EPH
Fuente: https://sitioanterior.indec.gob.ar/bases-de-datos.asp

Para tener en cuenta


En la EPH, cada fila de la base de datos representa la información de un hogar.
Cada hogar constituye la unidad elemental de análisis.
Para el INDEC, un hogar corresponde a: persona o grupo de personas que viven bajo el mismo
techo y comparten los gastos de alimentación (Fuente:
https://www.indec.gob.ar/ftp/cuadros/poblacion/glosario_censo2010.pdf).

1. ¿Cómo se lee un valor en una base de datos?


La introducción anterior nos lleva entonces a buscar información que nos permita interpretar qué nos
dicen los datos que aparecen en la base de la EPH. De manera de ejemplificar la lectura de algunos de
ellos, tomaremos la columna que lleva por título AGLOMERADO en la columna H (en Figura 1 aparece
como AGLOME) y la columna titulada IV_1 en la columna J.

Como verán en AGLOME, todas las celdas visibles toman el mismo valor que corresponde a 5 y en IV_1, se
observan valores correspondientes a 1 y 2.

Dra. Liliana Tauber FHUC-UNL 2


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Los invito a analizar qué significan esos valores, para ello deberemos ingresar al anexo metodológico que
nos brinda el INDEC, en el cual se describe el significado de cada una de las variables que aparecen en la
base de datos. En la página 5 de ese anexo, vemos que el valor 5 que se observa en la variable
AGLOMERADO, nos remite a la identificación del aglomerado en el que está situado el hogar bajo análisis
(los datos en cada fila representan la información de un hogar) que, para nuestro ejemplo, es el
aglomerado Gran Santa Fe (ver Figura 2). En la página siguiente, aparece la definición de la variable IV_1:
Tipo de vivienda, la cual se encuentra en el bloque de variables asociados a las características de la vivienda
de cada hogar. Así, podemos identificar que los valores 1 y 2 que se observan en la Figura 1, corresponden
a: Casa y Departamento respectivamente (Figura 2).

Figura 2. Código de variables. Fuente: Anexo metodológico INDEC

De la misma manera podríamos identificar el significado de los datos correspondientes a cada una de las
columnas de la base de datos reproducida en la Figura 1.

Para tener en cuenta


En resumen, siempre que trabajemos con bases de datos, es necesario recurrir a la
definición metodológica de las variables, de tal manera que la lectura, análisis e
interpretación de los datos sea coherente y esté asociada con la información que se ha
recolectado y no con creencias o ideas personales.

Si los datos han sido recolectados por nosotros, también deberemos informar la forma en
que se han definido las variables y las referencias que se han considerado para esa
definición.

2. La importancia de encontrar regularidades


Una vez que se ha identificado la manera en la que se deben leer los datos, una segunda etapa se centra
en la búsqueda de regularidades. Si observamos la Figura 1, o la base de datos propiamente dicha, que
obtenemos de: https://sitioanterior.indec.gob.ar/bases-de-datos.asp y quisiéramos expresar de manera
breve las principales características de los hogares santafesinos para el tercer trimestre del año 2018, esto
sería una tarea casi imposible.

Es así que se torna indispensable poder conocer las regularidades que pueden observarse en el conjunto
de individuos que se estudia (en el caso de la EPH, cada hogar representa a un individuo, o como le
llamamos en nuestra materia: unidad elemental).

Para poder conocer esas regularidades, es necesario disponer de técnicas que permitan resumir y
visualizar las características más sobresalientes de cada conjunto de datos.

Dra. Liliana Tauber FHUC-UNL 3


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Ya hemos visto que las variables pueden ser de distintos tipos (páginas 8 a 11, Mendenhall, Beaver y
Beaver, 2008), esa clasificación se vuelve de gran relevancia a la hora de tomar decisiones sobre los tipos
de resúmenes que podemos utilizar.

Haciendo una clasificación inicial muy rápida, podemos decir que en Estadística encontraremos tres
grandes tipos de resúmenes:

 Los resúmenes gráficos, los cuales usamos desde niños (al menos algunas versiones rudimentarias de
gráficos estadísticos)
 Los resúmenes tabulares, que seguramente habremos usado alguna vez en la escuela.
 Los resúmenes numéricos, como por ejemplo, cuando usamos un promedio.
Pero estos tipos de resúmenes, a su vez, pueden sub-clasificarse según si representan a una sola variable
(resúmenes univariados), a dos variables (resúmenes bivariados) o a más de dos variables (resúmenes
multivariados).

Para poder identificar el tipo de resumen más adecuado para la situación bajo estudio, deberemos
identificar claramente los siguientes elementos:

 Tipo de variable que se desea representar


 Escala de medición en la que se mide la variable
 Objetivos que se persiguen, es decir, si se pretende comparar, analizar la evolución a través del tiempo,
describir, modelizar, buscar relaciones, entre otras.
 Tipo de frecuencias que se quiere representar.
Todos estos tipos de resúmenes nos van a servir para mostrar tendencias y regularidades en los datos, lo
cual permite conocer la realidad en un momento dado o también, al utilizar modelos aleatorios, permite
realizar estimaciones o predicciones que permitan dar respuestas a una determinada situación. A modo
de ejemplo, actualmente, a partir de los datos registrados desde el inicio de la pandemia del COVID-19, se
pueden utilizar modelos que permiten estimar el número de contagios al pasar una determinada cantidad
de días y esa estimación permite a los gobiernos, tomar decisiones basadas en los datos, de tal forma de
contener al virus, organizar los centros hospitalarios, entre otras. En nuestro curso no aprenderemos a
realizar estimaciones, porque ello implicaría una mayor extensión en los contenidos del programa pero sí
vamos a aprender sobre los fundamentos de la elaboración de resúmenes descriptivos que nos permitan
explicar tendencias y regularidades en los datos observados.

Para poder cumplir con ese objetivo, debemos clarificar primero que, los distintos tipos de resúmenes que
presentamos antes estarán asociados a dos conceptos básicos que son: la distribución de frecuencias o la
serie de tiempo. Por ello, otro criterio a considerar para elegir el resumen adecuado, será el de analizar si
lo que se pretende representar es una u otra. Con ese fin, a continuación, nos preguntamos ¿qué es una
distribución de frecuencias? ¿qué es una serie de tiempo? y tratamos de dar respuestas, analizando las
características de cada una de ellas.

2.1. ¿Qué es una Distribución de frecuencias?


La distribución de frecuencias de una variable estadística, nos permite indicar cuáles son los valores que
toma una variable y con qué frecuencia aparece cada valor de la variable en una muestra de un
determinado tamaño (en términos generales, al tamaño de la muestra lo designaremos siempre con la

Dra. Liliana Tauber FHUC-UNL 4


¡Una lluvia de datos! ¿Qué hacemos con ellos?

letra n minúscula). Al indicar “la frecuencia con la que aparece cada cada valor”, nos estamos refiriendo a
cuántas veces se repite ese valor en una muestra de tamaño n.

Cabe aclarar además que, cuando hablamos de valores de una variable estadística, no sólo nos referimos
a valores numéricos, también podríamos observar valores categóricos o cualitativos.

Cuando se analiza la información presentada a través de una tabla o de un gráfico, para verificar que los
datos presentados corresponden a una distribución de frecuencias, se debe verificar que:

 Los valores de la variable, también llamados categorías o clases, deben ser mutuamente excluyentes.
Esto implica que no se solapen o no tengan elementos en común. Por ejemplo, si pensamos en los
datos que recolectamos a partir de la pregunta 1.9 de la encuesta inicial que les hicimos, la cual
indicaba: Tu conexión a la red es a través de... Computadora – Celular (datos) – Celular (wi-fi) – en la
facultad – otro. Al resumir esos datos, no obtendremos una distribución de frecuencias dado que cada
uno de ustedes podía responder más de una opción, con lo cual, si sumamos las frecuencias absolutas,
el resultado será mayor a la cantidad de alumnos. Esto es así porque no se cumple la condición de NO
solapamiento entre categorías de la variable.

 La suma de las frecuencias absolutas deben representar el tamaño de la muestra (n). Puede verse en
la Tabla 2.1. que esa suma da como total 20 que es la cantidad de estudiantes que respondieron a la
encuesta.

 La suma de las frecuencias relativas deben sumar 1 y las frecuencias porcentuales deben sumar 100%.

A modo de ejemplo, vamos a analizar cómo construir la distribución de frecuencias de las respuestas que
ustedes dieron, en la encuesta, a la pregunta: ¿Estás pasando la cuarentena lejos de tu familia? Cabe
aclarar que, al momento de copiar los datos que se detallan a continuación, sólo había 20 respuestas, por
lo tanto, el tamaño de esta muestra es: n=20, en consecuencia los datos obtenidos hasta ese momento
fueron los siguientes:

NO NO NO NO NO NO NO NO SI NO
NO NO NO SI NO NO Vivo NO NO NO
con mi
hermana
En esta situación, podemos observar que los valores de la variable que se han podido observar son: NO –
SÍ – vivo con mi hermana. Es decir, se observaron tres valores diferentes pero ninguno de ellos es
cuantitativo. Además, podemos identificar:

 Unidad elemental: cada estudiante de MECS, primer cuatrimestre de 2020.


 Tipo de variable: es cualitativa
 Escala de medición en la que se mide la variable: escala nominal (no hay un orden o gradación que
prevalezca en las opciones de respuestas)
 Objetivo que se persigue: describir la cantidad, la proporción y/o el porcentaje de estudiantes que
están pasando la cuarentena lejos de su familia.
Volviendo al concepto de distribución de frecuencias, cabe aclarar que la misma se puede representar a
través de una tabla de distribución de frecuencias (o tabla de frecuencias), a través de un resumen gráfico
o también a través de un resumen numérico (por medio de distintas medidas estadísticas). El tipo de

Dra. Liliana Tauber FHUC-UNL 5


¡Una lluvia de datos! ¿Qué hacemos con ellos?

resumen a utilizar dependerá del tipo de variable que se pretende describir a través de la distribución de
frecuencias. En el ejemplo de la encuesta, la tabla de distribución de frecuencias completa para esta
variable tendría el aspecto que se presenta en la Tabla 2.1.

VARIABLE FRECUENCIA FRECUENCIA FRECUENCIA RELATIVA


ABSOLUTA RELATIVA PORCENTUAL
Condición de cada estudiante según si Número de Proporción de % de estudiantes
está o no lejos de su familia estudiantes estudiantes
NO 17 17/20 85%
SI 2 2/20 10%
Con mi hermana 1 1/20 5%
TOTAL 20 1 100%
Tabla 2.1. Condición de cada estudiante respecto su cercanía con la familia en tiempos de cuarentena (Fuente:
Encuesta realizada a estudiantes de MECS, en abril de 2020)

2.1.1. Tipos de frecuencias para variables cualitativas con escala nominal


Así, en términos generales podemos indicar que, en un conjunto de n datos correspondientes a n
individuos o unidades elementales (20 estudiantes en nuestro ejemplo), generalmente aparecen repetidos
algunos valores de la variable, por lo que es posible resumir estos datos por medio de algunas de las
siguientes frecuencias:

 Frecuencia absoluta: Se obtiene contando la cantidad de veces que aparece un determinado valor de
la variable en la muestra obtenida. ACLARACIÓN: Es posible que encuentren informes o bibliografía
donde esta frecuencia se simbolice así: fa. Nosotros utilizaremos esa notación sólo para mostrar las
expresiones de cálculo de las demás frecuencias, pero cuando representamos cualquiera de las
frecuencias en una tabla o gráfico, pretendemos que siempre se contextualice cada frecuencia de tal
manera que cualquier persona pueda leer la información.

 Frecuencia relativa: Es la proporción que se obtiene dividiendo la frecuencia absoluta y el tamaño de


la muestra. Este resultado nos indica la cantidad de veces que aparece el valor considerado de la
variable en el total observado, también se lo puede interpretar como el tanto por uno en el caso que
se escriba el resultado del cociente. Pero lo que brinda mejor información es la expresión de la fracción
porque al leerla tenemos la información de la frecuencia absoluta y del tamaño de la muestra en un
mismo valor. Así, en una muestra de n datos la frecuencia relativa (que simbólicamente se puede
representar por fr) se obtiene de la siguiente forma: fr = fa / n. En nuestro ejemplo, la frecuencia
relativa de quienes respondieron que sí es 2/20, y cuando la leemos podemos decir que la proporción
de estudiantes de MECS que están pasando la cuarentena lejos de sus familias es de 2 estudiantes en
un total de 20. Si por el contrario, se hubiera obtenido el resultado del cociente, la frecuencia relativa
sería de 0,1 y nos estaría indicando que 1 de cada 10 alumnos cumplen esa condición.

 Frecuencia relativa porcentual: Nos indica el tanto por ciento que representa un determinado valor
de la variable. Se obtiene multiplicando la frecuencia relativa por 100, o expresdo de otro modo: fr%
= (fa/n).100. En nuestro ejemplo, podemos indicar que la mayoría de los estudiantes que respondieron
a la pregunta, están pasando la cuarentena con sus familias. Podemos hablar de mayoría porque este
grupo de estudiantes representa al 85% (es decir, más de la mitad).

Dra. Liliana Tauber FHUC-UNL 6


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Para tener en cuenta


Cuando se construye una distribución de frecuencias para una variable cualitativa con
escala nominal (a partir de cualquier tipo de resumen), se puede utilizar cualquiera de las
tres frecuencias expresadas anteriormente. Es decir, no es necesario comunicar todas las
frecuencias como hicimos en la Tabla 2.1. La elección de la frecuencia dependerá del
objetivo que se pretenda perseguir con el resumen y/o de la información en la que uno
está interesado en mostrar.

Igualmente, cuando se presentan frecuencias relativas porcentuales, se debería informar


en base a qué tamaño de muestra se ha realizado el cálculo, pues no es lo mismo un 10%
de 20 estudiantes que el mismo porcentaje obtenido de 130.

2.1.2. Tipos de frecuencias para variables cualitativas con escala ordinal


Cuando la variable es cualitativa con escala ordinal, y también cuando es cuantitativa (en cualquiera de
sus tipos), además de las frecuencias anteriores es posible agregar otras que se desprenden del hecho de
que los datos siguen un orden preestablecido. Es así que en esas situaciones se pueden incluir las
siguientes:

 Frecuencias Acumuladas: permiten obtener el número de individuos que cumplen una determinada
condición o alguna de las anteriores. Por ejemplo, en la Tabla 2.2, si queremos obtener la frecuencia
acumulada que nos indique cuántas personas ganan hasta 5 veces el salario mínimo, lo que haríamos
sería sumar 61 (cantidad de personas que ganan hasta el doble del salario mínimo) más 55, que es el
n° de personas que ganan entre 2 y 5 veces dicho salario. Así la frecuencia acumulada correspondiente
sería de 116, o dicho de otro modo, en
esta muestra hay 116 personas que N° de N° acumulado
ganan como máximo 5 salarios Nivel de ingresos personas de personas
mínimos. Hasta el doble del salario mínimo 61 61
Más de 2 a 5 veces el salario mínimo 55 116
Más de 5 a 10 veces el salario mínimo 51 167
Tabla 2.2. Distribución de frecuencias del más de 10 veces el salario mínimo 49 216
Nivel de ingresos de una muestra (Datos
TOTAL 216
ficticios)

 Con un procedimiento similar se pueden obtener las frecuencias relativas acumuladas, sólo que en
este caso, se suman fila a fila, las frecuencias relativas y del mismo modo se pueden obtener las
frecuencias acumuladas porcentuales, sumando las frecuencias relativas porcentuales.

 Una cuestión a destacar es que la frecuencia acumulada correspondiente a la última categoría o valor
de la variable debe coincidir con el tamaño de la muestra (en nuestro ejemplo, ese valor corresponde
a 216). En el mismo sentido, la frecuencia acumulada relativa de la última categoría deberá dar 1 y 100
para la frecuencia acumulada porcentual.

Cualquiera de estas frecuencias acumuladas pueden incluirse en la tabla de distribución, de tal manera
que en cada fila se va sumando la frecuencia absoluta inmediatamente anterior. Como lo indicamos antes,
no es obligación utilizar todas las frecuencias sino sólo aquellas que son necesarias para comunicar la
información que se desee. En entregas posteriores retomaremos este tipo de distribuciones de
frecuencias.

Dra. Liliana Tauber FHUC-UNL 7


¡Una lluvia de datos! ¿Qué hacemos con ellos?

2.2. ¿Qué es una Serie de tiempo?


Una serie de tiempo nos muestra las variaciones de una variable cuantitativa que ha sido medida a través
del tiempo, en intervalos igualmente espaciados. Por ejemplo, en días, en meses, en años, etc. Una serie
de tiempo permite encontrar patrones o tendencias que podrían extenderse al futuro a través de
estimaciones en las que intervienen modelos probabilísticos (Mendenhall, Beaver y Beaver, 2009, pág. 19).
Más adelante retomaremos el concepto de series de tiempo para analizar distintos resúmenes gráficos.

En esta primera etapa nos dedicaremos a los resúmenes gráficos y tabulares, y más adelante, nos
centraremos en el estudio y análisis de las características y propiedades de los resúmenes numéricos. En
la sección 4, describiremos las características de estos resúmenes según la sub-clasificación que hicimos
en el párrafo anterior, pero antes (en la sección 3) detallaremos brevemente las propiedades.

3. Resúmenes gráficos y Tabulares para variables cualitativas


Antes de describir los distintos tipos de resúmenes gráficos y tabulares, cabe aclarar que este material
complementa a los resúmenes presentados en Mendenhall, Beaver y Beaver (2008), ya que en el mismo
se presentan sólo los más sencillos o comunes. Entonces, en este apunte ampliamos esa presentación,
aclarando además que iremos desarrollando de manera relacionada los distintos resúmenes gráficos y
tabulares. Asimismo, en algunas ocasiones les mostraremos cómo pueden realizarse los informes
estadísticos que se derivan de la lectura de los resúmenes.

3.1. Gráficos para variables cualitativas (o categóricas)


Los gráficos más utilizados para las variables cualitativas son: el gráfico de barras simples y el de sectores,
que en términos más coloquiales se lo denomima gráfico de torta o de pastel. Ambos se utilizan en
situaciones univariadas, específicamente para variables cualitativas, aunque existen algunas excepciones.

Para tener en cuenta


Para la representación univariada con un gráfico de barras simples, se debe considerar que lo más
común es utilizarlo cuando la variable es cualitativa, pero existe una excepción que se da cuando
se desea realizar comparaciones respecto de una variable cuantitativa.

3.1.1. Gráfico de Barras Simples


Un ejemplo de la excepción mencionada se observa en el Gráfico 1 (Obtenido de:
https://es.statista.com/estadisticas/1073653/indice-big-mac-america-latina/). Cuando se quiere evaluar
si el gráfico es adecuado o no, lo más importante es identificar cuál es la unidad elemental y el dato que
se obtiene y a partir de ello, distinguir la variable bajo estudio, identificando además su tipo y escala de
medición y, el objetivo de la presentación de ese resumen. De esta manera podremos analizar si el gráfico
permite cubrir el objetivo deseado. Esto nos brindará un criterio de análisis, no sólo para poder criticar
con fundamentos lo publicado por otros sino que también nos permitirá evaluar qué resumen deberíamos
utilizar si necesitamos presentar información.

Así, en este ejemplo, la unidad elemental es cada país de América Latina, el dato que se obtiene es el
precio de la hamburguesa Big Mac y, en consecuencia, la variable bajo estudio es: el precio de la
hamburguesa en cada país de América Latina, expresado en dólares, en enero de 2020. Como vemos, el
tipo de la variable bajo estudio es cuantitativa, medida en una escala de razón. Por otro lado, justificamos
el uso del gráfico de barras simples porque el objetivo es la comparación del precio de la hamburguesa

Dra. Liliana Tauber FHUC-UNL 8


¡Una lluvia de datos! ¿Qué hacemos con ellos?

entre países (Más adelante, cuando trabajemos con índices, explicaremos por qué es imporante comparar
el precio de esa hamburguesa).
Gráfico 1. Precio de la hamburguesa Big Mac en países de Latinoamérica. Enero de 2020

(Fuente: The Big Mac Index. github.com/theeconomist/big-mac-data/)

Seguramente, ustedes se preguntarán, qué diferencias hay entre este gráfico y el que se presenta en las
páginas 13 y 14, Figuras 1.4 y 1.5 de Mendenhall, Beaver y Beaver (2008). En esos casos, también se utiliza
un gráfico de barras simples, sólo que con barras verticales, pero esta no es la diferencia importante sino
que la misma reside principalmente en el tipo de la variable bajo estudio y en el hecho de que, si los valores
numéricos que se presentan corresponden a una variable cuantitativa o a algún tipo de frecuencias.

Así, en la Figura 1.4, la unidad elemental es cada estudiante que realizó la evaluación, el dato que se
obtiene de cada estudiante es la calificación (expresada como A, B, C o D) y la variable bajo estudio es:
“calificación obtenida por cada estudiante”. Si clasificamos la variable diremos que es cualitativa con escala
ordinal (porque estamos suponiendo que la calificación A es inferior a la D)

Sin embargo, el gráfico de barras presenta otras variantes (que no se presentan en el libro de Mendenhall,
Beaver y Beaver) que es necesario presentarlas porque las mismas permiten describir situaciones
bivariables o multivariables.

3.1.2. Gráficos de barras adosadas


Este tipo de resumen gráfico se utiliza cuando se quiere realizar comparaciones entre grupos y se pretende
representar los datos provenientes de dos variables, de las cuales al menos una debe ser cualitativa. Por
ejemplo: comparación de género, entre instituciones privadas y públicas o entre dos o más periodos de
tiempo, entre otras.

En los Gráficos 2 y 3, presentamos dos tipos de gráficos de barras adosadas, con barras horizontales en el
primer caso y con barras verticales, en el segundo caso. Es posible observar que las situaciones que
representan cada uno de ellos implica distintos tipos de comparaciones. Para analizar con mayor
profundidad, en la Tabla 3.1, “desmenuzamos” la información presentada en cada situación, tal como lo
hicimos con el Gráfico 1.

Dra. Liliana Tauber FHUC-UNL 9


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Gráfico 2. Uso de datos móviles en gigabytes por mes según regiones


Fuente: https://es.statista.com/grafico/18601/volumen-de-trafico-de-datos-moviles-por-region/

% de personas que piensan que sus ganancias


disminuirán después del brote de COVID-19 en Brasil,
según nivel de ingresos
80
% de respuestas

60
40
20 SÍ

0 NO
Hasta el doble 2 a 5 veces el 5 a 10 veces el más de 10 NO LO SÉ
del salario salario mínimo salario mínimo veces el salario
mínimo mínimo
Nivel de ingresos

Gráfico 3. Opinión de ciudadanos brasileños sobre la posibilidad de que sus ganancias disminuyan después del
COVID-19 (Fuente: https://www.statista.com/statistics/1106466/public-opinion-coronavirus-earnings-brazil/)

Análisis de elementos Gráfico 2 Análisis de elementos Gráfico 3


En este gráfico podemos detectar la siguiente En este gráfico podemos detectar la siguiente
información: información:
 La unidad elemental es: cada país (es decir, la  La unidad elemental es: cada persona encuestada.
unidad sobre la que se toma el dato)  El dato que se obtiene de cada unidad elemental es:
 El dato que se obtiene de cada unidad “SÍ” “NO” o “NO LO SÉ”
elemental es: “Volumen de tráfico de datos (en  Las variables bajo estudio son:
gigabytes/mes)”  Variable 1: Nivel de ingresos de cada ciudadano
 Las variables bajo estudio son: brasileño (expresado en términos del salario
 Variable 1: Volumen de tráfico de datos (en mínimo).
gigabytes/mes) por país, en 2018  Variable 2: Opinión de cada ciudadano respecto a la
 Variable 2: Volumen de tráfico de datos (en disminución en sus ganancias después del COVID-19
gigabytes/mes) por país, en 2024 (valores
estimados)
Objetivos de usar este tipo de gráfico: Objetivo de usar este tipo de gráfico:
 Comparar según países en un mismo periodo

Dra. Liliana Tauber FHUC-UNL 10


¡Una lluvia de datos! ¿Qué hacemos con ellos?

 Comparar cada país según año  Comparar la opinión de las personas según el nivel
de ingresos que tienen

Frecuencia utilizada: frecuencia absoluta Frecuencia utilizada: frecuencia relativa porcentual


Descripción de la información Descripción de la información
En 2018, se ha medido el uso de datos móviles, en Se ha realizado una encuesta a ciudadanos brasileños, a
gigabytes por mes, en distintas regiones del mundo quienes se les ha preguntado sobre su opinión respecto
y de esa medición se encuentra que las regiones con de la posibilidad de que sus ganancias disminuyan
mayor consumo de datos móviles son: India, Nepal después del COVID-19. También se ha registrado su nivel
y Bután (9,8); China y Norte de Asia (7,1 cada una); de ingresos, considerado éste según la cantidad de veces
Norteamérica, con un consumo de 7 Gb/mes, que supera el salario mínimo. De los datos obtenidos de
Europa occidental, tuvo un consumo de 6,7, este estudio, se puede determinar que la mayoría de los
mientras que en Europa Oriental y Central fue de encuestados piensa que tendrá una disminución en sus
4,5. Las demás regiones tuvieron un consumo ganacias luego de que pase la crisis del COVID-19, esto se
menor a 4,5, entre las cuales se encuentra concluye porque el 61% las personas que cobran hasta
Latinoamérica con un consumo de 3,1. 2 veces el salario mínimo, el 55% de los que cobran entre
A partir de las estimaciones realizadas en 2019 para 2 a 5 veces dicho salario y el 51% de los que cobran entre
2024, se podría indicar que Norteamérica será la 5 y 10 veces, han contestado que piensan que tendrán
región con mayor crecimiento en el uso de datos una disminución. Sólo entre aquellas personas que
móviles, previéndose un aumento de 32 Gb/mes, cobran más de 10 veces el salario mínimo, el porcentaje
seguido de Europa Occidental, con un crecimiento que respondió que SI, es inferior al 50%, aunque muy
esperado de 26,3 Gb/mes. En el caso de cercano a él (49%).
Latinoamérica, se espera un crecimiento Asimismo, la mayor diferencia entre los que responden
aproximado de 15 Gb/mes. que sí y los que responden que no se da en las personas
que cobran como máximo dos salarios mínimos (61
versus 39% respectivamente).
Tabla 3.1. Análisis de la información presentada en los Gráficos 2 y 3

3.1.3. Tablas de Contingencia: Resúmenes tabulares asociados a los Gráficos 2 y 3


Aunque en los informes en los que se ha utilizado la información anterior sólo se han publicado los gráficos,
en muchas ocasiones interesa conocer los resúmenes tabulares que son complementarios a la información
gráfica. Hay ocasiones en las que el resumen gráfico deriva de un resumen tabular y en otras, como en
nuestro caso, construiremos las tablas obteniendo la información que se ha presentado en los gráficos.
Así, del Gráfico 2 se desprende la Tabla 3.2 y del Gráfico 3, se desprende la Tabla 3.3.

En estos dos ejemplos, las tablas que resultan, representan dos tipos de resúmenes distintos, los cuales
no refieren a una distribución de frecuencias ni tampoco a una serie de tiempo. En el caso de la Tabla 3.2,
corresponde a una tabla de doble entrada que no verifica las condiciones de una distribución de
frecuencias y tampoco verifica las condiciones de una serie de tiempo. Mientras que, en el caso de la Tabla
3.3, la información presentada corresponde a una tabla de contingencia construida en base a una
condición que es el nivel de ingresos. Vamos a explayarnos un poco más sobre esto.

Una tabla de contingencia, es una tabla de doble entrada que cumple las condiciones de las distribuciones
de frecuencias, pero como en este tipo de resúmenes se analizan dos variables, las condiciones
mencionadas se pueden verificar según la variable cuyos valores aparecen en las filas (llamada “variable
fila), según la variable cuyos valores aparecen en las columnas (llamada “variable columna”) o según el
total general. Dicho de otro modo, es posible verificar que la suma de los porcentajes de todas las celdas
sea igual al 100 %, en este caso, los porcentajes celda a celda se calcularían en función del tamaño total
de la muestra. Cuando sólo interesa obtener la distribución porcentual para la variable fila, se calculan los
porcentajes en cada celda, considerando el total de cada fila por separado y esto mismo ocurriría si sólo
se considera la variable columna. En el caso de la Tabla 3.3, la tabla de contingencia nos muestra las

Dra. Liliana Tauber FHUC-UNL 11


¡Una lluvia de datos! ¿Qué hacemos con ellos?

distribuciones porcentuales según la variable fila, es decir, quien realizó el estudio obtuvo los porcentajes
de las personas que respondieron SI, NO o NO LO SÉ, de acuerdo al nivel de ingresos.

Así, la principal diferencia entre las Tablas 3.2 y 3.3 reside en que la primera sirve para realizar una
comparación entre los valores de dos variables y la segunda, sirve para mostrar las distribuciones
porcentuales condicionales, según el nivel de ingresos de los individuos estudiados.

Volumen de datos (Gb/mes)


Región 2018 2024*
Norteamérica 7 39
Europa Occidental 6,7 32
Noreste de Asia 7,1 21
China 7,1 20
Europa Central y Oriental 4,5 19
India, Nepal y Bután 9,8 18
Latinoamérica 3,1 18
Sudeste de Asia y Oceanía 3,6 17
Medio Oriente y Africa 3 16
Africa Subsahariana 1,7 7
*Los valores para 2024 son estimaciones obtenidas en 2019
Tabla 3.2. Uso de datos móviles en gigabytes por mes según regiones (asociada al Gráfico 2)

% de personas
Nivel de ingresos SÍ NO NO SÉ
Hasta el doble del salario mínimo 61 39 0
2 a 5 veces el salario mínimo 55 45 0
5 a 10 veces el salario mínimo 51 48 1
más de 10 veces el salario mínimo 49 51 0
Tabla 3.3. Opinión de ciudadanos brasileños sobre la posibilidad de que sus ganancias disminuyan después del
COVID-19 (asociada al Gráfico 3)

3.1.4. ¿En qué ocasiones usamos una tabla de contingencia?


Cuando se pretende resumir dos variables, donde al menos una de ellas es cualitativa, se utilizan las tablas
de contingencia. En estos casos se resumen los datos contando los valores observados para cada una de
las celdas que representan la ocurrencia conjunta de dos categorías. Un ejemplo de esta situación se
presenta en la Tabla 3.4.

Tabla 3.4. Condición de fumador según género

En este caso, en cada celda se presenta el recuento de los individuos que cumplen con dos características.
Por ejemplo, la celda (1,1) nos indica una frecuencia conjunta ya que permite indicar un valor observado
que cumple con dos condiciones: ser hombre y fumador, así podemos indicar que hay 120 hombres que

Dra. Liliana Tauber FHUC-UNL 12


¡Una lluvia de datos! ¿Qué hacemos con ellos?

son fumadores. Por otro lado, podríamos indicar que el total de personas analizadas es de 300, esto es el
total general que coincide con el tamaño de muestra. O si leemos la tabla según una condición, podríamos
indicar que de 180 hombres observados, hay 120 que son fumadores y 60 que no lo son. En este último
caso, estamos brindando información de una frecuencia condicional o atada a una condición que, en este
caso, es la condición “hombre” porque estamos considerando las frecuencias según el género,
considerando el total marginal asociado al género.

Pero también podemos podríamos tomar el total marginal según la condición de si fuma o no. En ese caso
podríamos leer que, de un total de 170 personas fumadoras, 120 de ellas son hombres. Aquí estamos
considerando una de las frecuencias asociadas a la distribución marginal según la condición de fumar.

En consecuencia, esta tabla de contingencia se puede dividir en 4 tablas de frecuencias, por ejemplo, una
de ellas podría ser la tabla que resulta de considerar sólo una de las dos categorías del género. Así, hombre
fumador y hombre no fumador podría constituir una de esas tablas de frecuencias y su total sería 180.
Algo similar ocurriría si tomáramos sólo las mujeres, o si consideramos sólo los fumadores o no fumadores
(en estos casos, las categorías en la tabla de frecuencias sería hombre y mujer). Si la tabla tuviera más filas
o columnas, diríamos que se podría dividir en r x c tablas (donde r es el n° de filas y c el de columnas).

Así, si calculamos frecuencias relativas porcentuales desde una tabla de contingencia, esas frecuencias se
podrían obtener desde el total general o desde los totales marginales. Siguiendo con el ejemplo de la Tabla
3.4, podrían resultar las siguientes distribuciones porcentuales.
Fumador No fumador Total Fumador No fumador Total
Hombre 40 20 60 Hombre 66,67 33,33 100
Mujer 16,67 23,33 40 Mujer 41,67 58,33 100
Total 56,67 43,33 100 Total

Tabla 3.5. Distribución porcentual conjunta Tabla 3.6. Distribución condicional según el género

Fumador No fumador Total


Hombre 70,59 46,15
Mujer 29,41 53,85
Total 100 100
Tabla 3.7. Distribución condicional según la condición de fumar

ACLARACIÓN: Cuando lleguemos a desarrollar los contenidos del último eje temático de esta asignatura
retomaremos el análisis de estas tablas.

3.1.5. Gráficos de barras apiladas o segmentadas


En aquellas ocasiones en las que se estudien dos variables, siendo al menos una de ellas cualitativa, y el
objetivo se centre en mostrar qué parte del total representa cada categoría, entonces el resumen gráfico
más adecuado sería el gráfico de baras apiladas (o barras segmentadas).

Un ejemplo de este tipo de situación lo podemos ver en el Gráfico 4, el cual describiremos a continuación.
Como se puede observar, dicho gráfico presenta información referida al porcentaje de población
inmigrante proveniente de América Latina o de otras regiones del mundo, residentes en Argentina.
Además, esa información está asociada a distintos años de observación. Así, cada barra representa el total
de inmigrantes a Argentina por año de observación, según provengan de otros países de América Latina o

Dra. Liliana Tauber FHUC-UNL 13


¡Una lluvia de datos! ¿Qué hacemos con ellos?

de otras regiones del mundo. Dado que, para cada año, existen sólo dos categorías en la variable cualitativa
bajo análisis, cada barra deberá sumar el 100%, que se corresponde con el total de inmigrantes por año.

Gráfico 4. Porcentaje de inmigrantes según región, por año, en el periodo 1970-2019. (Gráfico obtenido de:
www.cepal.org.es/publications)

Para responder…
¿Cuál es el dato primario que se considera en esta situación?
¿Cuáles son las variables bajo análisis? ¿Cuál es la unidad elemental en cada variable?
¿Qué tipo de resumen tabular resulta si traducimos la información del gráfico a una tabla?
Construye la tabla que resulta de la información del gráfico

3.1.6. Otros usos del gráfico de barras apiladas


Este tipo de gráficos también se utilizan en aquellas situaciones en las que se desea realizar comparaciones
entre grupos y se pretende representar los datos provenientes de dos variables, de las cuales al menos
una debe ser cualitativa. En otras palabras, se puede utilizar en las mismas situaciones que un gráfico de
barras adosadas y, la diferencia principal entre el uso descrito antes y este último es que, cuando se
pretende indicar qué parte del total ocupa cada categoría, necesitamos que todas las barras consideradas
sumen el 100%, mientras que en este segundo tipo de aplicación (Gráficos 4), cada barra puede tener
diferente altura respecto de las demás.

En los Gráficos 5 y 6 presentamos ejemplos de este tipo de uso. Como se puede observar en los mismos,
para cada barra, las alturas difieren, esto se debe a que no se está considerando el porcentaje de cada
categoría respecto del total sino que la altura total de cada barra se corresponde con la suma de los valores
observados para cada categoría de la variable cualitativa. Así, cada parte de una barra (pintada de distinto
color, el cual corresponde a cada categoría) se podía transformar en una barra y de esa manera obtener
un gráfico de barras adosadas. Por ejemplo, en el Gráfico 5, para cada año, se podrían tener 6 barras
adosadas que se corresponden a cada categoría: instituciones de la UE, banco de desarrollo del Caribe, etc

Dra. Liliana Tauber FHUC-UNL 14


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Gráfico 5. Millones de dólares aportados por organizaciones multilaterales para el desarrollo de la educación en
América Latina y el Caribe, en el periodo 2008-2017

Si analizamos el Gráfico 5, podemos identificar dos tipos de datos provenientes de cada unidad elemental,
siendo ésta, el año de observación. Así, para cada año observamos dos tipos de datos: el tipo de
organización y la cantidad de dinero que aporta. De aquí se derivan dos variables: Tipo de organización
multilateral que aporta dinero para la asistencia a la educación por año y cantidad de millones de dólares
que aporta cada organización por año. La primera variable es de carácter cualitativo medida en una escala
nominal (porque no existe orden sino distintos tipos de instituciones) y, la segunda, es de carácter
cuantitativo con escala de medición de razón o proporción (NOTA: revisar clasificación de variables y
escalas en Transparencia 2).

Gráfico 6. Gasto en educación como porcentaje del PBI (Producto Bruto Interno) en 8 países de América Latina y
el Caribe. Año 2008 o año disponible más reciente (Fuente: OCDE/CEPAL, 2011)

Para responder..
¿Cuál es la unidad elemental que se considera en esta situación?
¿Cuáles son las variables bajo análisis? ¿De qué tipo son esas variables y en qué escala se miden?
¿Qué tipo de resumen tabular resulta si traducimos la información del gráfico a una tabla?
Construye la tabla que resulta de la información del gráfico.

Dra. Liliana Tauber FHUC-UNL 15


¡Una lluvia de datos! ¿Qué hacemos con ellos?

3.1.7. Gráficos de barras bidireccionales


Para terminar con los distintos tipo de gráficos de barras, presentamos el gráfico de barras bidireccionales,
el mismo se utiliza en aquellas ocasiones en las que es necesario representar cantidades o variaciones
positivas y negativas, como pérdidas y ganancias, cambios en porcentajes, etc. o cuando es necesario
mostrar desviaciones respecto a una norma o de un valor que se toma como referencia. En este último
caso, se indicaría si está por encima o por debajo de ese valor de referencia. En los Gráficos 7 y 8
presentamos dos situaciones posibles en las que puede utilizarse este tipo de gráficos.

Gráfico 7. Variación del porcentaje de población que vive por debajo de la línea de pobreza según región de
Argentina, en el primer semestre de 2017 respecto al segundo semestre de 2016. (Fuente: Sistema de
Información, Evaluación y Monitoreo de Programas sociales –SIEMPRO- en base a INDEC, 2016-2017)

En el Gráfico 7, podemos ver que el valor de referencia o valor que se toma como norma es el 0, es decir,
el 0 correspondería a una situación en la que se observaría variación respecto del porcentaje de población
que vive debajo de la línea de pobreza en el periodo considerado (es decir, no habría variación entre el 2°
semestre de 2016 y el 1° semestre de 2017). En consecuencia, cuando leemos cada barra, por ejemplo, si
tomamos la primera barra que corresponde a la región del Gran La Plata, podemos ver que el porcentaje
de población que vive por debajo de la línea de pobreza aumentó algo más del 6% en el primer semestre
de 2017 respecto del segundo semestre de 2016, mientras que el Gran San Juan (última barra) ha sido la
región con mayor descenso, habiendo un 17% menos de población por debajo de la línea de pobreza,
aproximadamente, entre los periodos comparados.

Para responder..
Analiza el Gráfico 8 y responde los siguientes interrogantes:
 ¿Cuáles son las variables bajo análisis? ¿De qué tipo son esas variables y en qué escala se
miden?
 ¿Cuáles son los periodos que se consideran para el análisis? (Es decir, para obtener las
variaciones porcentuales).
 Construye el resumen tabular que resulta de la información del gráfico. La información
presentada, ¿cumple con las condiciones de una tabla de distribución de frecuencias?
Fundamenta tu respuesta.

Dra. Liliana Tauber FHUC-UNL 16


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Gráfico 8. Variación interanual del patentamiento de vehículos en Argentina


(Fuente: Universidad Nacional de Avellaneda. www.undav.edu.ar)

4. ¿Es posible encontrar en los medios o en las investigaciones gráficos


erróneos?

Para responder..
Te pedimos que en los resúmenes gráficos que presentamos a continuación (Gráficos 9, 10, 11 y
12), realices las siguientes tareas:
1. Identifica la o las variables que están bajo estudio en cada situación, clasifícalas y expresa su
escala de medición.
2. Analiza si el gráfico presentado es adecuado para el tipo de variables analizadas.
3. Analiza la representación propiamente dicha y distingue si se presenta algún error. En el caso
que la representación tenga errores, describe todos los que encuentres y fundamenta por qué
los consideras un error.

Traducción:

Título: Mayores preocupaciones respecto


al COVID-19
 Contraerlo uno mismo (categoría roja)
 Que alguien de la familia se contagie
(categoría naranja)
 La economía (categoría amarilla)
Gráfico 9. Principal preocupación frente al COVID-19
(Fuente: WCVB channel. https://www.wcvb.com/)

Dra. Liliana Tauber FHUC-UNL 17


¡Una lluvia de datos! ¿Qué hacemos con ellos?

Gráfico 10. Casos infectados por día en


Argentina, desde el 3 de marzo de 2020
(Fuente: C5N)

Gráfico 11. Especies en


riesgo de extinción en el
mundo (Fuente: OCDE,
2013)

Gráfico 12. Superficie afectada


por incendios (en ha) según
cobertura vegetal, periodo 2005-
2017. (Fuente: Ministerio de
Ambiente y Desarrollo
Sustentable, Argentina, 2018)

Reflexiones finales

Como han podido vivenciar, la exploración y descripción de datos no es una cosa sencilla pero sí es una
cuestión relevante a la hora de presentar información confiable y que pueda ser interpretada por todos.

Dra. Liliana Tauber FHUC-UNL 18


¡Una lluvia de datos! ¿Qué hacemos con ellos?

La Estadística viene a proporcionarnos una serie de herramientas y de fundamentos que, si los tenemos
en cuenta, podremos brindar información respetable y confiable.

Es importante recordar que cualquiera de nosotros somos consumidores de información pero también
podemos ser productores de la misma y, es en este sentido, que desde nuestras cátedras pretendemos
presentar y discutir los alcances y las limitaciones de las distintas técnicas de la estadística descriptiva.

Recuerden que para una misma situación puede haber distintas maneras adecuadas de representar la
información, pero que también en ciertas ocasiones hay representaciones que no son las adecuadas y, en
este sentido, es necesario estar atentos a las consideraciones teóricas que se brindan desde la Estadística.

Como profesionales o futuros profesionales es necesario tener responsabilidad social en relación con la
calidad de la información estadística que brindemos.

Por ahora nos despedimos, pero luego seguiremos debatiendo sobre otros tipos de resúmenes. Así que,
¡nos vemos en la Parte II!

Referencias Bibliográficas
Comisión Económica para América Latina y el Caribe (CEPAL) (2019). Panorama Social de América Latina,
(LC/PUB.2019/22-P/Re v.1). Santiago, 2019.
Comisión Económica para América Latina y el Caribe (CEPAL) (2019). Estadísticas ambientales. Recuperado
de: https://www.cepal.org/sites/default/files/presentations/cea-comite-ejecutivo-18-estadisticas-
ambientales.pdf
Instituto Nacional de Estadísticas y Censos-INDEC- (2009). Diseño de registro y estructura para las bases
de microdatos.
Organización para la Cooperación y el Desarrollo Económico (OCDE). (2013). Evaluaciones de la OCDE sobre
el desempeño ambiental: México. Recuperado de: http://www.oecd-
ilibrary.org/environment/evaluaciones-de-la-ocde-sobre-el-desempeno-ambiental-mexico-
2013_9789264189188-es
Secretaría de Ambiente y Desarrollo Sustentable. (2018). Informe del estado del ambiente. Recuperado
de: https://www.argentina.gob.ar/sites/default/files/completo-compressed.pdf
Webgrafía
C5N. Disponible en: https://www.youtube.com/channel/UCFgk2Q2mVO1BklRQhSv6p0w
The Big Mac Index. Disponible en: github.com/theeconomist/big-mac-data/
Observatorio de Políticas Públicas. Universidad Nacional de Avellaneda. Disponible en:
http://undav.edu.ar/index.php?idcateg=198
Wcvb Channel. Disponible en: https://www.wcvb.com/

Cómo citar este trabajo


Tauber, L. (2020) ¡Una lluvia de datos! ¿Qué hacemos con ellos?. Parte I: Resúmenes gráficos y tabulares.
Material para las cátedras de Estadística I y Métodos Estadísticos para las Ciencias Sociales. Facultad de
Humanidades y Ciencias. Universidad Nacional del Litoral.

Dra. Liliana Tauber FHUC-UNL 19

También podría gustarte