Estadistica
Estadistica
Estadistica
ACTIVIDADES DE APRENDIZAJE
Objetivo:
Indicaciones:
Ilustración 1:Volumen de acciones de Frito- Lay en las principales categorías de mecato en los supermercados de los
estados unidos Gráfico tomado de (Lind, Marchal, & Wathen, 2015)
Tipos de estadística
Estadística descriptiva
Es la ciencia que “recoge, organiza, presenta, analiza… datos”. Esta parte de la estadística
recibe el nombre de estadística descriptiva
Por ejemplo, el gobierno de Estados Unidos informa que en 1960, la población de este país fue
de 179 323 000 personas; en 1970, de 203 302 000; en 1980, de 226 542 000; en 1990, de 248
709 000 y en 2000, de 265 000 000. Esta información representa una estadística descriptiva.
Se trata de estadística descriptiva si calcula el crecimiento porcentual de una década a otra. Sin
embargo, no sería de naturaleza descriptiva si utilizara estos datos para calcular la población
de Estados Unidos en el año 2020 o el crecimiento porcentual de 2010 a 2020. ¿Por qué?
Dichas estadísticas no se están utilizando para hacer un resumen de poblaciones del pasado,
sino para calcular poblaciones en el futuro. Los siguientes son ejemplos de estadística
descriptiva.
Una persona promedio gastó 103.00 dólares en mercancía alusiva a San Valentín el 14 de
febrero de 2010. Esto representa un aumento de 0.50 dólares con respecto a 2009. Como en
años anteriores, los hombres gastaron el doble que las mujeres en esa fecha. El hombre
promedio gastó 135.35 dólares para impresionar a sus seres queridos, mientras que las mujeres
sólo gastaron 72.28. Las mascotas también sienten amor: una persona promedio gastó 3.27
dólares en su amigo peludo, en comparación con los 2.17 del año anterior. Una masa de datos
desorganizados —como el censo de población, los salarios semanales de miles de
programadores de computadoras y las respuestas de 2 000 votantes registrados para elegir
presidente de Estados Unidos— resulta de poca utilidad. No obstante, las técnicas de la
estadística descriptiva permiten organizar esta clase de datos y darles significado.
Los datos se ordenan en una distribución de frecuencia. Se emplean diversas clases de gráficas
para describir datos; las medidas específicas de localización central, como la media, describen
el valor central de un grupo de datos numéricos. Para describir la proximidad de un conjunto de
datos en torno al promedio se emplean diversas medidas estadísticas.
Estadística inferencial
Cuando los datos son de naturaleza cualitativa, importa la cantidad o proporción que caen
dentro de cada categoría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules?
¿Cuántos católicos o cuántos protestantes hay en Estados Unidos? ¿Qué porcentaje del total
de automóviles vendidos el mes pasado eran camionetas? Los datos cualitativos se resumen
en tablas o gráficas de barras
Tipos de
Variables
Cualitativas Cuantitativas
Marca de un
Estado Civil Sexo Discreta Contínua
objeto
Observe que en una casa hay 3 o 4 camas, pero no 3.56. Por consiguiente, existe un vacío
entre los valores posibles. Las variables discretas son el resultado de una relación numérica.
Las observaciones de una variable continua toman cualquier valor dentro de un intervalo
específico. Ejemplos de variables continuas son la presión del aire en una llanta y el peso de en
cargamento de tomates. Otros ejemplos son la cantidad de cereal con pasas que contiene una
caja y la duración de los vuelos. El promedio al graduarse constituye una variable continua.
Podría expresar el promedio de determinado estudiante como 3.2576952. Se acostumbra
redondear a 1 decimales (3.3). Por lo general las variables continuas son el resultado de
mediciones.
Al grupo de técnicas que se utilizan para describir un conjunto de datos se les denominó
estadística descriptiva. En otras palabras, la estadística descriptiva se encarga de organizar
datos con el fin de mostrar la distribución general de éstos y el lugar en donde tienden a
concentrarse, además de señalar valores de datos poco usuales o extremos. El primer
procedimiento que se emplea para organizar y resumir un conjunto de datos es una tabla de
frecuencias.
TABLA DE FRECUENCIAS Agrupación de datos cualitativos en clases mutuamente excluyentes que muestra
el número de observaciones en cada clase.
Es posible convertir las frecuencias de clase en frecuencias relativas de clase para mostrar la
fracción del número total de observaciones en cada una de ellas. Así, una frecuencia relativa
capta la relación entre la totalidad de elementos de una clase y el número total de
observaciones.
Para transformar un cúmulo de datos en bruto en algo con significado, organizamos los datos
cuantitativos en una distribución de frecuencias y después representamos los resultados en
una gráfica de barras. De manera similar organizamos los datos cuantitativos en una
distribución de frecuencias y los presentamos gráficamente en un histograma. Aprendimos
otras técnicas para graficar, como las gráficas de pastel para representar datos cualitativos, y
polígonos de frecuencias para representar datos cuantitativos.
Si sólo toma en cuenta las medidas de ubicación de un conjunto de datos o si compara varios
conjuntos de datos utilizando valores centrales, llegará a una conclusión incorrecta.
En principio se explican las medidas de ubicación. No existe una única medida de dispersión;
de hecho, existen varias. Consideraremos cinco: la media aritmética, la media ponderada, la
mediana, la moda y la media geométrica. La media aritmética es la medida de ubicación que
más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como
parámetro para una población y como estadístico para las muestras.
Media
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
̅=
𝒙
𝒏
∑ni=1 xi
x̅=
n
2, 5, 6, 2, 4, 4, 6, 5, 7, 8, 2, 8, 5, 9, 8
Método 1: Si los datos son pocos podemos sumarlos y dividir entre el total:
2+ 5+ 6+ 2+ 4+ 4+ 6+ 5+ 7+ 8+ 2+ 8+ 5+ 9+ 8 81
̅=
𝑥 = = 5,4
15 15
Método 2: Tabulamos los datos e incluimos una columna donde multiplicamos xi * ni:
xi ni xi * ni
2 3 6
4 2 8
5 3 15
6 2 12
7 1 7
8 3 24
9 1 9
Total 15 81
o
Calculamos ahora la media:
La fórmula se indica:
Significado de la media: La media es un parámetro que indica el valor central sobre el cual
se distribuyen los valores del carácter estudiado.
En el caso de datos agrupados utilizaremos las marcas de clase para el cálculo de la media.
Moda
En el ejemplo de las notas de Matemáticas observamos tres valores con frecuencia 3 son las
notas 2, 5 y 8. En este caso las tres son la moda.
Mediana
La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados. Es
decir, el 50% de los datos son menores que la mediana y el 50% mayores.
En el ejemplo de las notas de Matemáticas debemos ordenar los datos para saber cual es el
central:
2, 2, 2, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 8, 9
La mediana es 5.
Representaremos mediana por Me.
Si tabulamos los datos y calculamos la frecuencia acumulada, la mediana es el primer dato que
supera el 50%:
2 3 20% 20%
4 2 13,33% 33,33%
5 3 20% 53,33%
6 2 13,33% 66,66%
7 1 6,67% 73,33%
8 3 20% 93,33%
9 1 6,67% 100%
15
La mediana es 5, Me = 5.
Ejemplo 1: En un grupo musical hay dos componentes de 17 años, tres de 18 años y dos de
19 años. ¿Cuál será la edad media y la edad mediana de este grupo musical?
Media:
Me = 18 años
Media:
Mediana: 17, 17, 18, 18, 18, 19, 40
Me = 18 años
Observa: Al cambiar un solo dato por un valor más extremo la media se ve muy afectada
mientras que la mediana permanece invariable.
Percentiles y Cuantiles
No solo es posible dividir la muestra en dos partes como lo hace la mediana, cuando se divide
un conjunto de datos ordenados en cuatro partes iguales, los puntos de división se conocen
como cuartiles. El cuartil 1 es el valor para el cual el 25% de los datos son menores que él y el
75% restante es mayor que él, es cuartil se denota como 𝑞1 , el segundo cuartil denominado 𝑞2 ,
tiene aproximadamente la mitad (50%) de las observaciones por debajo de él, este cuartil es
exactamente igual a la mediana. El tercer cuartil denominado 𝑞3 , tiene aproximadamente e 75%
de los datos por debajo de él.
Claramente estas divisiones no son las únicas que pueden calcularse, por ejemplo, cuando un
conjunto ordenado de datos se divide en 100 partes, los puntos de división reciben el nombre
de percentiles. En términos generales, el 100𝑘 − é𝑠𝑖𝑚𝑜 dato proveniente de una muestra
ordenada, puede denominarse cuantil y se define de la siguiente manera:
Definición: el 100𝑘 − é𝑠𝑖𝑚𝑜 cuantil 𝑐𝑘 es un valor tal, que al menos el 100𝑘% de las
observaciones están en el valor o por debajo de él, y al menos el 100(1 − 𝑘)% están en el valor
o por encima de él.
Una medida de ubicación, como la media o la mediana, sólo describe el centro de los datos.
Desde este punto de vista resulta valiosa, pero no dice nada sobre la dispersión de los datos.
Por ejemplo, si la guía de turismo ecológico dice que el río que se encuentra a pocos pasos
tiene en promedio 3 pies de profundidad, ¿querría usted cruzarlo a pie sin más información?
Quizá no. Usted desearía saber algo sobre la variación de la profundidad. ¿Mide 3.25 pies la
máxima profundidad y 2.75 pies la mínima? En dicho caso, usted estaría de acuerdo en cruzar.
¿Qué hay si usted se enteró de que la profundidad del río variaba de 0? 50 a 5.5 pies? Su
decisión probablemente sería no cruzar. Antes de tomar una decisión, usted desea información
tanto de la profundidad típica como de la dispersión de la profundidad del río.
Una medida de dispersión pequeña indica que los datos se acumulan con proximidad alrededor
de la media aritmética. Por consiguiente, la media se considera representativa de los datos. Por
el contrario, una medida grande de dispersión indica que la media no es confiable (vea la gráfica
3-5). Los 100 empleados de Hammond Iron Works, Inc., una compañía que fabrica acero, se
organizan en un histograma basado en el número de años que los empleados han laborado en
la compañía. La media es de 4.9 años, pero la dispersión de los datos es de 6 meses a 16.8
años. La media de 4.9 años no es muy representativa de todos los empleados.
Una segunda razón para estudiar la dispersión en un conjunto de datos consiste en comparar
la propagación en dos o más distribuciones. Por ejemplo, suponga que el nuevo monitor de
computadora Vision Quest LCD se arma en Baton Rouge y también en Tucson. La producción
media aritmética por hora, tanto en la planta de Baton Rouge como en la de Tucson, es de 50.
Sobre la base de las dos medias, podría concluir que las distribuciones de las producciones por
hora son idénticas. Sin embargo, los registros de producción de 9 horas en las dos plantas
revelan que esta conclusión no es correcta La producción de Baton Rouge varía de 48 a 52
montajes por hora. La producción en la planta de Tucson es más errática, ya que varía de 40 a
60 la hora. Por lo tanto, la producción por hora en Baton Rouge se acumula cerca de la media
de 50; la producción por hora de Tucson es más dispersa.
La variabilidad especifica cuan alejados están los puntos entre sí y particularmente de la media,
mientras las medidas de tendencia central son una cuantificación de la centralidad de la
distribución d ellos datos, las medidas de variabilidad cuantifican amplitud o dispersión. Las
medidas mas comunes de variabilidad son el Rango, La varianza, la Desviación estándar y el
Rango Intercuartílico, pero hay otras como la asimetría y la curtosis.
El rango:
Se define como la diferencia entre los puntajes mas alto y mas bajo en la distribución.
𝑅𝑎𝑛𝑔𝑜 = 𝑀á𝑥𝑖𝑚𝑜 − 𝑀í𝑛𝑖𝑚𝑜
La facilidad para ser medido nos da una indicación de lo limitado de la información que brinda,
puesto que este solo mide la dispersión de los puntajes extremos, pero no tiene en cuenta el
comportamiento de los demás datos.
La varianza y la desviación estándar muestral
̅ )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥
𝑠2 =
𝑛−1
Las unidades de medición de la varianza muestral son iguales al cuadrado de las unidades con
que se mide la variable aleatoria. De tal forma que si x se mide en 𝑓𝑡, entonces la varianza se
mide en 𝑓𝑡 2, por esta razón, la varianza no tiene interpretación directa asociada a los datos,
mientras que la desviación estándar muestral mide la distancia cuadrática promedio que hay de
cada dato a la media muestral.
Rango Intercuartílico
𝑅𝐼𝑄 = 𝑞3 − 𝑞1
Nótese que el 50% de todos los datos de la muestra ordenada caben en medio de los dos
cuartiles que construyen el RIQ, con frecuencia, esta medida es similar a la desviación
estándar.
Coeficiente de Variación
Con frecuencia, es deseable expresar la variación como una fracción de la media. Para hacer
esto se usa una medida adimensional de variación relativa, denominada coeficiente de
variación muestral.
Tema 5: Ejercicios
54 48 58 50 25 47 75 46 60 70 67 68 39 35 56 66 33 62 65 67
10. El director de relaciones humanas de Ford inició un estudio de las horas de trabajo extra
en el Departamento de Inspección. Una muestra de 15 trabajadores reveló que éstos
laboraron la siguiente cantidad de horas extras el mes pasado.
13 13 12 15 7 15 5 12 6 7 12 10 9 13 12
11. AAA Heating and Air Conditioning concluyó 30 trabajos el mes pasado con un ingreso
medio de $5 430 por trabajo. El presidente desea conocer el ingreso total del mes. Con
base en la información limitada que se proporciona, ¿puede calcular el ingreso total? ¿A
cuánto asciende?
12. Una gran compañía farmacéutica contrata graduados de administración de empresas
para vender sus productos. La compañía se expande con rapidez y dedica un día a
capacitar a los nuevos vendedores. El objetivo que la compañía fija a cada nuevo
vendedor es de $10 000 mensuales, cifra que refleja las ventas promedio actuales por
mes de la empresa. Después de revisar las retenciones de impuestos de los nuevos
empleados, la compañía encuentra que sólo 1 de cada 10 permanece más de tres
meses en la empresa. Comente la utilización de las ventas promedio actuales
mensuales como objetivo de ventas para los nuevos empleados. ¿Por qué abandonan
los empleados la compañía?
13. ¿Qué informaría usted como valor modal de un conjunto de observaciones si hubiera un
total de:
a. 10 observaciones y no hubiera dos valores iguales;
b. 6 observaciones, todas iguales;
c. 6 observaciones con valores de 1, 2, 3, 4 y 4?
14. Hubo cinco representantes de servicio al cliente que trabajaron en Electronic Super
Store durante la pasada venta de fin de semana. Las cantidades de HDTV que
vendieron estos representantes son: 5, 8, 4, 10 y 3.
15. El Departamento de Estadística de la Western State University ofrece ocho secciones
de estadística básica. En seguida aparecen los números de estudiantes matriculados
en estas secciones: 34, 46, 52, 29, 41, 38, 36 y 28.
16. Dave’s Automatic Door instala puertas automáticas para cocheras. La siguiente lista
indica el número de minutos que se requieren para instalar una muestra de 10 puertas
automáticas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42.
17. Una muestra de ocho compañías de la industria aeronáutica participó en una encuesta
sobre la recuperación de la inversión que tuvieron el año pasado. Los resultados (en
porcentaje) son los siguientes: 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
18. Diez adultos jóvenes que viven en California, elegidos al azar, calificaron el sabor de
una nueva pizza de sushi con atún, arroz y kelp en una escala de 1 a 50, en la que el 1
indica que no les gusta el sabor y 50 que sí les gusta. Las calificaciones fueron las
siguientes: 34 39 40 46 33 31 34 14 15 45. En un estudio paralelo, 10 adultos jóvenes
de Iowa, elegidos al azar, calificaron el sabor de la misma pizza. Las calificaciones
fueron las siguientes: 28 25 35 16 25 29 24 26 17 20. Como investigador de mercado,
compare los mercados potenciales para la pizza de sushi.