Estadistica Descriptiva e Inferencial
Estadistica Descriptiva e Inferencial
Estadistica Descriptiva e Inferencial
DESCRIPTIVA
E INFERENCIAL
UNIVERSIDAD DEL AZUAY
ESTADÍSTICA DESCRIPTIVA
Oswaldo Encalda
CORRECCIÓN DE ESTILO
e- ISBN: 978-9942-822-69-7
Cuenca-Ecuador
2020
CONTENIDO
A
1. Definición de estadística................................................................................................... 15
A. La estadística descriptiva.................................................................................................. 13
B. La estadística inferencial.................................................................................................107
8. Medidas de dispersión...................................................................................................... 55
a) Rango o amplitud de variación
b) Varianza
c) Desviación estándar
d) Coeficiente de variación (CV)
9. Medidas de simetría........................................................................................................... 64
9.1 Coeficiente de sesgo de Pearson (P)........................................................................... 64
9.2 Coeficiente de Fisher (g1)............................................................................................... 65
B
Introducción............................................................................................................................107
El muestreo probabilístico..................................................................................................109
b) Distribuciones muestrales..............................................................................................110
i. Varianza y desviación estándar de una distribución muestral
ii. Media de una distribución muestral
iii. Error estándar ( σ):
1. Distribuciones muestrales..............................................................................................114
7
2. Distribución de proporciones muestrales..................................................................119
4. La distribución t student.................................................................................................124
4.1 Características de la distribución t
6. Prueba de hipótesis.........................................................................................................128
i. Procedimiento para prueba de hipótesis
ii. Tipos de pruebas de hipótesis
7. Análisis de varianza..........................................................................................................137
8. La regresión múltiple.......................................................................................................143
8
Índice de Tablas
Tabla 3-1 Clasificación de datos en escala nominal....................................................... 22
Tabla 3-2 Clasificación de datos en escala ordinal.......................................................... 22
Tabla 4-1 Distribución unidimensional de frecuencias.................................................. 24
Tabla 4-2 Ejemplo distribución de frecuencias................................................................ 27
Tabla 4-3 Clasificación de clases.......................................................................................... 29
Tabla 5-1 Cálculo de distribución de frecuencias........................................................... 33
Tabla 5-2 Categorización de datos Viajes Moore............................................................ 35
Tabla 6-1 Cálculo de media ponderada............................................................................. 38
Tabla 6-2 Datos de crecimiento de ocupación en hoteles........................................... 39
Tabla 6-3 Tiempo de hospedaje en hotel.......................................................................... 41
Tabla 6-4 Sueldos del personal de cocina de un hotel.................................................. 42
Tabla 6-5 Sueldos del personal en un hotel 2................................................................. 43
Tabla 6-6 Pasajeros de aerolíneas clasificados por clases............................................ 44
Tabla 6-7 Tabla aplicación Excel.......................................................................................... 46
Tabla 6-8 Resultados de aplicación análisis de datos Excel......................................... 47
Tabla 7-1 Horas trabajadas................................................................................................... 50
Tabla 7-2 Visitantes a las Islas Galápagos......................................................................... 52
Tabla 8-1 Ejercicio 1............................................................................................................... 59
Tabla 8-2 Ejercicio 2................................................................................................................ 60
Tabla 9-2 Cálculo de coeficientes de Pearson y Fisher................................................. 66
Tabla 11-1 Ingreso de gira David Bowie............................................................................ 70
Tabla 12-1 Tabla de Correlación.......................................................................................... 72
Tabla 12-2 Datos de ventas por mes.................................................................................. 76
9
Tabla 13-1 Ventas agencia “El mundo”............................................................................... 80
Tabla 14-1 Profesores y sus años de servicio.................................................................. 84
Tabla 16-1 Ejercicio................................................................................................................. 88
Tabla 17-1 Ejercicio................................................................................................................. 93
Tabla 17-2Cálculos de media y varianza Ejemplo 17.1.................................................. 93
Tabla 1-1 Ejercicio 1.1 Distribución Muestral.................................................................115
Tabla 8-1 Datos obtenidos de hoteles............................................................................144
Tabla 8-2 Ejemplo Regresión simple................................................................................145
Tabla 9-1 Ocupación de infraestructura hotelera.........................................................148
Tabla 9-2 Cálculo de promedios móviles PM3...............................................................154
Tabla 9-3 Aplicación del suavizamiento exponencial 1................................................156
Tabla 10-1 Datos cálculo de índice 10.1..........................................................................162
Tabla 11-1Datos ventas- habitación.................................................................................166
Tabla 11-2 Datos procedencia de huéspedes...............................................................169
Tabla 11-3 Información de arribos de turistas...............................................................170
Tabla 11-4 Ventas por sucursal.........................................................................................174
Tabla 11-5 Registro de ingreso de huéspedes..............................................................176
Tabla 11-6 Clasifiación de la información por rangos..................................................177
Tabla 11-7Resultados pruebas de desempeño.............................................................180
Tabla 11-8 Frecuencia de compra tickets.......................................................................182
10
Índice de gráficos
Ilustración 1-1 Muestras y población................................................................................. 16
Ilustración 5-1 Diagrama de barras.................................................................................... 30
Ilustración 5-2 Histograma de frecuencias....................................................................... 31
Ilustración 5-3 Gráfico de diagrama por sectores.......................................................... 31
Ilustración 5-4 gráfico de un polígono de frecuencias................................................... 32
Ilustración 5-5 Gráfico de ojivas.......................................................................................... 33
Ilustración 7-1 Cuartiles......................................................................................................... 48
Ilustración 7-2 Deciles............................................................................................................ 49
Ilustración 7-3 Percentiles..................................................................................................... 49
Ilustración 7-4 Diagrama de Caja........................................................................................ 54
Ilustración 10-1 Tipos de curtosis en distribuciones...................................................... 67
Ilustración 11-1 Curva de Lorenz........................................................................................ 69
Ilustración 11-2 Curva de Lorenz Ingresos de Gira David Bowie................................ 70
Ilustración 12-1 Diagrama de dispersión.......................................................................... 73
Ilustración 12-2 Ecuación y gráfico de recta de regresión............................................ 72
Ilustración 14-13-1 Diagrama de Árbol.............................................................................. 85
Ilustración 17.4-1 Distribución exponencial variable continua.................................... 99
Ilustración 17.5-1 Distribución Uniforme........................................................................101
Ilustración 17.6-1 Distribución Normal............................................................................103
Ilustración 17.6-2 Ejercicio 17.6.1 Área Z........................................................................105
Ilustración c-1 Ejemplo 3.1 Telcom...................................................................................113
Ilustración 4-1 Distribución t de Student y distribución normal..............................124
Ilustración 6-1 Distribución muestral prueba de una cola a la derecha.................129
11
Ilustración 6-2 Distribución muestral prueba de una cola a la izquierda...............130
Ilustración 6-3 Distribución muestral prueba de dos colas........................................130
Ilustración 8-1 Regresión ejemplo 8.1..............................................................................144
Ilustración 8-2 Regresión ejemplo 8.2..............................................................................146
Ilustración 9-1Tendencia de una serie de tiempo........................................................149
Ilustración 9-2 Componente Cíclico de una serie de tiempo.....................................150
Ilustración 9-3 Componente estacional de una serie de tiempo..............................150
Ilustración 9-4 Componente aleatorio de una serie de tiempo................................151
Ilustración 9-5 Promedio móvil..........................................................................................155
Ilustración 11-1 Gráfico Chi Cuadrada.............................................................................165
12
ESTADÍSTICA
DESCRIPTIVA
Introducción
La estadística está alrededor de nosotros todo el tiempo, como
sustento de un estudio de factibilidad, como herramienta para ta-
bular datos de una encuesta, como insumo imprescindible para in-
terpretar información que nos facilite tomar una decisión y como
una gran instrumento para la toma de decisiones, por ejemplo: el
INEC informa mensualmente que los precios han subido 0.15%; el
BCE nos dice que en el 2006 el ecuatoriano en promedio ganó $300
mensuales; etc. Estos números (estadísticas) toman protagonismo
tanto para un estudiante de economía, como para un sociólogo, un
investigador, o cualquier otro profesional que pretenda interpretar
los datos que se le presentan y a partir de ellos concluir un fenóme-
no para una población mayor, con lo cuales ya no hace falta cono- 13
cer toda la información para entender qué es lo que está pasando.
L
a importancia de estudiar esta ciencia radica en que generalmente exis-
ten datos que suelen estar “sueltos” en el mundo real, la estadística pro-
vee de herramientas para su recolección y análisis, en la actualidad esta
tarea puede optimizarse gracias a los diversos softwares estadísticos, los
cuales ofrecen una mejora en el procesamiento y generación de los informes esta-
dísticos permitiendo una mayor claridad en la toma de decisiones.
Un gobierno debe manejar estadísticas cuando decide sobre tal o cual política, por
ejemplo, si considera –en base a la información recolectada- que el salario prome-
dio mensual de un ecuatoriano no permite satisfacer sus necesidades, podría deci-
dir incrementar los sueldos, y gracias al análisis estadístico, conocer si eso afectará
o tendrá incidencia tanto en el trabajador como en la marcha de la economía en su
conjunto. Con esto queremos indicar que la estadística, a la vez que ayuda a descri-
bir datos, también puede hacer inferencias o estimaciones de lo que podrá ser el
15
comportamiento de ese conjunto de datos.
16
Elaboración propia.
Después de definir que N es la muestra es importante recalcar que, generalmente
no es posible acceder a la información de toda la población principalmente por
factores como: el costo, tiempo, naturaleza destructiva y la imposibilidad. Ejemplo:
acceder al ingreso percibido por cada uno de los 12 millones de trabajadores resul-
taría complicado, se justifica entonces trabajar con datos más reducidos, es decir,
con muestras.
Existen diferentes tipos de muestreo; pero se los puede clasificar en dos grandes
grupos: el muestreo probabilístico y el muestreo no probabilístico.
Una empresa que desee realizar un estudio de mercados, deberá tener en conside-
ración que para que el estudio de mercados tenga validez, la muestra obtenida en
dicho estudio, será obtenida mediante un muestreo probabilístico.
Dentro del muestreo probabilístico es posible identificar
los siguientes tipos:
1
Más adelante explicaremos cómo calcular el tamaño de la muestra. Pero podríamos an-
ticiparnos en decir que para calcular el tamaño de la muestra se deben tomar en cuenta
algunas de sus propiedades y el error máximo que se permitirá en los resultados. Para el
cálculo de n (tamaño de la muestra) se puede emplear la siguiente fórmula:
n = δZE
donde δ es la desviación estándar, Z es el nivel de confianza y E es el máximo error permi-
tido.
El muestreo aleatorio estratificado (MAE) es aquel en el que la po-
blación se divide en subgrupos denominados estratos y se seleccio-
na una muestra de cada uno de ellos siguiendo el MAS. En nuestro
ejemplo dividimos la población en hombres y mujeres; por lo tan-
to, usando el muestro aleatorio simple se conforman subgrupos de
5.000 hombres y 5.000 mujeres.
19
2. Variables y datos estadísticos
Datos son cada uno de los individuos, cosas, entes abstractos, que integran una
población o universo determinado. Es cada valor de la variable observada.
Variable de una población que estamos conociendo es alguna característica que sea
de nuestro interés. En otras palabras, entendemos por variable esta característica
que estamos midiendo.
21
3. Niveles de medición de los datos
Cuando los datos no son numerosos (datos sueltos) podremos organizarlos en una
distribución denominada distribución unidimensional de frecuencias, tabla 4-1.
24
Tabla 4-1
Distribución unidimensional de frecuencias
x1
x2
:
:
x3
Ejemplo 4.1:
Las horas trabajadas por usted, cada semana, durante los últimos dos meses son:
52, 48, 37, 54, 48, 15, 42,12. Organice los datos en una distribución de frecuencias.
Las clases comprenden un intervalo de datos que van desde un límite inferior (Li-
1
) a un límite superior (Li). Por facilidad establecemos el siguiente procedimiento
para agrupar datos:
Solución:
k=1+3,22log (n)
k=1+3,22log (57)
k=1+3,22 (1.7558)
k=6.83=7 clases
25=32
26=64
27=128
26
Ancho de clase = Ci o ai = Re
k
• Re, es el recorrido o rango de datos o amplitud de variación de los datos, es
igual al valor más grande o alto, menos el valor más bajo o más pequeño
Re= vmax- vmin
Ejemplo 4.2
Tabla 4-2
Ejemplo distribución de frecuencias
Edad
Número
(según la muestra Edad ordenada
de observaciones
original)
1 77 18
2 18 26
3 63 34 27
4 84 36
5 38 38
6 54 41
7 50 43
8 59 44
9 54 45
10 56 50
11 36 50
12 26 51
13 50 52
14 34 52
15 44 53
16 41 53
17 58 54
18 58 54
19 53 56
20 51 58
21 62 58
22 43 58
23 52 59
24 53 60
25 63 60
26 62 61
27 62 61
28 65 62
29 61 62
30 52 62
31 60 63
32 60 63
33 45 63
34 66 65
35 83 66
36 71 71
37 63 71
38 58 77
39 61 83
28 40 71 84
Tabla 4-3
Clasificación de clases
Marca de
Clases f f% FA FA%
clase
15-26 2 5.0% 20.5 2 5.0%
26-37 2 5.0% 31.5 4 10.0%
37-48 5 12.5% 42.5 9 22.5%
48-59 14 35.0% 53.5 23 57.5%
59-70 12 30.0% 64.5 35 87.5%
70-81 3 7.5% 75.5 38 95.0%
81-92 2 5.0% 86.5 40 100.0%
40 100.0%
Esta es otra forma de organizar los datos o variables continúas creada por el esta-
dístico John Tukey. Se refiere a una estructura en la que se trata de dividir los datos
en el tallo y las hojas. El tallo representa el valor entero o múltiplo y la hoja los nú-
meros adjuntos, unidades o decimales. El tallo y la hoja están colocados en series 29
ordenadas. Por ejemplo, supongamos que tenemos los tiempos de vuelo medidos
en horas de una aerolínea. Los tiempos son: 34.5; 34.6; 45.7; 45.8 y 56.2
Tallo Hoja
34 5, 6
45 7, 8
56 2
5. Representación gráfica de los datos
30
• Histograma: Es el gráfico más importante de la estadística, con grandes apli-
caciones. Muestra, de manera similar al diagrama de barras, las categorías de
la variable (las clases) en el eje de las abscisas y en el eje de las ordenadas la
frecuencia absoluta. Puede también graficarse considerando la frecuencia re-
lativa. Se usa generalmente con variables continuas.
• Diagrama por sectores: En ocasiones los datos (sobre todo en variables dis-
cretas) pueden ser representados mediante una estructura en forma de pastel
en la que cada sector o pedazo constituye el porcentaje de representación den-
tro de la estructura. Cada sector será igual a 360 dividido para la frecuencia.
31
• Pictograma para expresar un atributo de la variable: Suelen utilizarse ico-
nos que se identifican con la variable, existen dos formas de representar un
pictograma:
32
Tabla 5-1
Cálculo de distribución de frecuencias
Marca
Clases f f% FA FA%
de clase
15-26 2 5.0% 20.5 2 5.0%
26-37 2 5.0% 31.5 4 10.0%
37-48 5 12.5% 42.5 9 22.5%
33
48-59 14 35.0% 53.5 23 57.5%
59-70 12 30.0% 64.5 35 87.5%
70-81 3 7.5% 75.5 38 95.0%
81-92 2 5.0% 86.5 40 100.0%
40 100.0%
34
Clases FA
Menos de 26 2
Menos de 37 4
Menos de 48 9
Menos de 59 23
Menos de 70 35
Menos de 81 38
Menos de 92 40
35
6. Medidas de tendencia central
Media aritmética (X): Es un promedio que resulta del cociente entre la suma de
los valores de la variable y el número de observaciones. Si los datos son de la mues-
tra o la población, las ecuaciones son las siguientes:
36 • Si los datos son agrupados la suma de los valores de la variable será los puntos
medios o marcas de clase (xi) y el número de observaciones o datos será la
suma de las frecuencias. La ecuación basándonos en datos obtenidos en una
muestra es la siguiente:
• Si utilizamos datos poblaciones la fórmula es:
• La media puede verse afectada por valores extremos, que no son representa-
tivos de los datos.
La media no puede estimarse cuando se tienen datos agrupados con clases abier-
tas.
37
Media ponderada (Xw): Es una medida de tendencia central, muy parecida a la
media aritmética; pero a diferencia de aquella esta considera que los valores de la
variable tienen diferentes pesos o ponderaciones en el total de los datos. Su forma
de cálculo es mediante la siguiente ecuación:
Tabla 6-1
Cálculo de media ponderada
Normal 400 95
Vacaciones 200 126
Fin de año 100 79
300
38
Ejemplo en Microsoft Excel
Esta es una medida muy representativa de datos que se relacionan o están expre-
sados en porcentajes.
39
Tabla 6-2
Datos de crecimiento de ocupación en hoteles
Tasas de variación de
5% 6% 8% 2%
ocupación total de un hotel
Media armónica (H): Es una medida que permite conocer el promedio de un con-
junto de datos relacionados con velocidades, el tiempo, etc. Su cálculo es el si-
guiente:
40
La tabla 6-3 nos provee información para ejemplificar el cálculo de la media armó-
nica, con respecto al número de huéspedes:
Tabla 6-3
Tiempo de hospedaje en hotel
41
Mediana (Me): Es otra medida de tendencia central, que divide al conjunto de da-
tos ordenados en dos partes iguales; por lo tanto, el 50% está por encima de esta y
el otro 50% estará por debajo. Para su cálculo es importante ordenar los datos de
menor a mayor o de mayor a menor.
En donde:
Utilizando los datos de la tabla 6-4, sobre los sueldos por semana del personal de
un hotel:
42
Tabla 6-4
Sueldos del personal de cocina de un hotel
Sueldos /
45 52 56 67 67
semana
Tabla 6-5
Sueldos del personal en un hotel 2
Sueldos /
45 52 56 67 67 35
semana
La mediana en este caso (para datos no agrupados y número par) será el valor
(n+1)/2, es decir, (6+1)/2 = 3.5 por lo tanto, la mediana estará entre el valor 3 y el
valor 4 y su cálculo será (52+56)/2 = 54 dólares por semana.
43
Moda (Mo): Es otra de las medidas de tendencia central aplicable sobre todo a va-
riables discretas, y comprende el valor de la variable que más se repite. Cuando los
datos están agrupados la Mo estará en la clase con la mayor frecuencia. Su cálculo
es como sigue:
En donde:
Veamos con un ejemplo, usando los datos de la tala 6-6 calcular la mediana y la
moda.
Tabla 6-6
Pasajeros de aerolíneas clasificados por clases
Número de pasajeros
Días frecuencia (ƒi) FA
(Clases)
50-59 3 3
60-69 7 10
44 70-79 18 28
80-89 12 40
90-99 8 48
100-109 2 50
50
Cálculo de la Me:
Cálculo de la moda:
45
Ahora pasemos a ver otro conjunto de medidas para describir datos; y nos referi-
mos a las medidas de posición o ubicación:
Ejemplo:
Tabla 6-7
Tabla aplicación Excel
CALIFICACIONES /50
40 25 29
38 30 34
42 42 37
45 38 36
30 30 42
49 45 38
39 60 50
Calificaciones
Media 39
Error típico 1,78752289
Mediana 38
Moda 38
Desviación estándar 8,19145897
Varianza de la muestra 67,1
Curtosis 0,85345599
Coeficiente de asimetría 0,60446462
Rango 35
Mínimo 25
Máximo 60
Suma 819
Cuenta 21
47
7. Medidas de posición
Es posible identificar tres medidas de posición: los percentiles, los deciles y los
cuartiles.
Cuartiles (Q): Es una medida de posición que divide al conjunto de datos en cuatro
partes iguales, por lo tanto, ubicamos tres cuartiles:
Q1 = primer cuartil
Q2 = segundo cuartil
Q3 = tercer cuartil. Gráficamente:
48
Por debajo del primer cuartil (Q1) se encuentra el 25% de los datos, en el Q3 están
el 25% superior, y entre Q3y Q1 se encuentra concentrado el 50% de los datos. La
diferencia entre Q3y Q1 se denomina: Rango intercuartílico.
Deciles (D): Es una medida de posición que divide al conjunto de datos en diez par-
tes iguales, por lo tanto, ubicamos 9 deciles.
Percentiles (P): Es una medida de posición que divide al conjunto de datos en cien
partes iguales, por lo tanto, ubicamos 99 percentiles.
Gráficamente:
49
Para mejor comprensión, se utilizarán los datos de la tabla 7-1, en la que se mues-
tran las horas trabajadas por un mesero en un restaurante cada semana durante
los últimos dos meses:
Tabla 7-1
Horas trabajadas
Horas
52 48 37 54 48 15 42 12
trabajadas
Pasamos a ordenar en primer lugar los datos: 12, 15, 37, 42, 48, 52, 54
50
Esto quiere decir que el P40 está entre la posición 3 y la posición 4, por tanto existe
un 60% de distancia entre las dos posiciones:
En donde:
P: Es el percentil buscado.
Lpi-1: Es el límite inferior de la clase que contiene el percentil buscado.
%N: Es la localización del percentil buscado.
FA: Frecuencia acumulada de la clase que antecede a la clase del percentil bus-
cado.
ƒpi: Frecuencia absoluta de la clase que contiene al percentil buscado.
ci: Ancho de clase. 51
0-100 90 90
100-200 140 230
200-300 150 380
300-400 120 500
N = 500
53
Calcular Q1, Q2,Q3, P95
P95=PERCENTIL(A1:A10;0,95) = 740,65
Además de estudiar la ubicación de los datos (sin conocer la forma de la distribu-
ción de estos) podemos ayudarnos a ilustrar la simetría de ese conjunto con el
diagrama de caja, que es una representación gráfica en forma de caja basada en
cuartiles. Se construye con la siguiente información:
1. el valor mínimo
2. el Q1
3. la Me
4. Q3
5. el valor máximo
Veamos un ejemplo:
54
Como se aprecia, la Me no divide la caja en dos partes iguales. Existe un sesgo hacia
la derecha; por lo tanto, esta es una distribución en forma asimétrica.
8. Medidas de dispersión
Tenemos algunas medidas de dispersión, siendo las más relevantes las siguientes:
b) Varianza:
Es el promedio de las desviaciones de las observaciones respecto de su media arit-
mética, elevadas al cuadrado:
56
c) Desviación estándar:
La desviación típica o desviación estándar es la raíz cuadrada de la varianza, y de
igual manera podemos estimarla para datos de la población como para datos
muestrales.
La desviación estándar para datos no agrupados y agrupados es igual a:
S
CV = * 100
X
Ejercicio 1:
Las horas trabajadas por usted cada semana, durante los últimos dos meses son:
52, 48, 37, 54, 48, 15, 42, 12. Calcule el rango, la varianza, la desviación estándar y
el coeficiente de variación:
Solución:
Tabla 8-1
Ejercicio 1
Xi
Observaciones (Xi - x̄ )2
(horas trabajadas)
1 12 702.25
2 15 552.25
3 37 2.25
4 42 14.0625
5 48 95.0625
6 48 95.0625
7 52 182.25
8 54 240.25
n=8 Σxi = 308 Σ=1.883.7375
59
Ejercicio 2:
Los pasajeros de la aerolínea A&A, que viajaron el último mes fueron agrupados en
las siguientes categorías. Calcule la media, varianza y la desviación estándar.
Tabla 8-2
Ejercicio 2
Número de Xi (Punto
ƒi (días) ƒ*Xi Xi2 ƒ*Xi2
pasajeros medio)
50-59 3 54.5 163.5 2970.25 8910.75
60-69 7 64.5 451.5 4160.25 29121.75
70-79 18 74.5 1341.0 5550.25 99904.5
80-89 12 84.5 1014.0 7140.25 85683.0
90-99 8 94.5 756.0 8930.25 71442.0
100-109 2 104.5 209.0 10920.25 21840.5
N = 50 Σ=393.5 Σ=316902.5
60
Para todo conjunto de datos por lo menos 1-1/k2 por ciento de las observaciones
está dentro de k desviaciones estándar de la media, en donde k es un número ma-
yor que uno (k>1).
Por ejemplo:
Un conjunto de datos tiene una media de 5.000 y una desviación estándar de 400 61
¿Qué porcentaje de las observaciones están entre 4500 y 5500?
Por lo tanto siguiendo el teorema de Chebyshev:
Esta regla se ajusta cuando los datos se distribuyen de una manera simétrica, y son
datos continuos, no discretos, y afirma que:
62
Ilustración 8.2-1- Regla empírica
Por ejemplo:
Por definición el área dentro de la curva normal vale el 100% de las observaciones,
si nos alejamos ± 1 entonces el área dentro de ese rango es de 68.3%, por lo tan-
to, de acuerdo con el gráfico, el resto será del 100% menos el 68.3%, es decir, el
31.70% de los datos estará por debajo de 4550.
Ahora no todas las distribuciones de los datos siguen una distribución normal; al-
gunas están sesgadas ya sea a la derecha o a la izquierda, es decir, no hay simetría
en los datos, por lo tanto para medir la simetría usamos otro grupo de medidas.
63
9. Medidas de simetría
Si trazamos una línea vertical por el valor de la media de una variable en el diagra-
ma de barras o en el histograma, esta línea vertical se convierte en el eje de simetría
cuando a ambos lados de la media haya el mismo número de valores de la variable
o sean equidistantes. Si tienen la misma frecuencia absoluta diremos que su dis-
tribución es simétrica; de lo contrario será asimétrica o sesgada, dependiendo del
signo resultante podremos concluir si el sesgo es hacia la derecha o a la izquierda.
64
65
Si g1>0 la distribución es asimétrica positiva.
Si g1<0 la distribución es asimétrica negativa.
Si g1=0 la distribución es simétrica.
Tabla 9-2
Cálculo de coeficientes de Pearson y Fisher
66
Posición de la mediana: , es decir, está en la quinta observación: por lo tanto, la
Me = 85
S = 78/8 = 3.12
En consecuencia, la distribución de es-
tos datos es simétrica.
10. Medidas de apuntamiento
67
Del ejemplo 9.2, se puede decir que la distribución no es normal sino leptocúrtica
o apuntada ya que g2>0.
11. Medidas de concentración
Las medidas de desigualdad o concentración
sintetizan el grado de equidad en el reparto de
las observaciones de la variable. Generalmente
el estudio de la concentración se realiza sobre
variables como la renta o el ingreso.
68
Si graficamos estos pares de datos pi y qi representados en un cuadrado de lado
100, se obtendrá una línea poligonal llamada curva de Lorenz.
La curva de Lorenz refleja cómo se reparte el total de los datos. Si la curva coincide
con la recta de 45 grados o la diagonal del cuadrado, diríamos que no existe con-
centración o hay la máxima equidad en el reparto de los datos; y si cae o coincide
dentro o con los lados del cuadrado, diríamos que existe concentración máxima o
mínimo grado de equidad en el reparto de los datos.
Figura 11-.1 Curva de Lorenz
De donde se obtiene que IG = 0,42, al ser IG mayor que cero, diríamos que los in-
gresos están muy concentrados
70
Esta observación conjunta conduce a la obtención de pares de datos, tal que si X1,
X2,.....Xh son los valores de X; Y1,Y2,....Yk son los valores de Y. Estos valores podemos
obtenerlos de una variable bidimensional que tiene una distribución de frecuen-
cias, que estará representada en la tabla de contingencia o denominada también
tabla de correlación.
71
Tabla 12-1.
Tabla de Correlación
Y Y1 Y2 .......... ............ Yj Yk
X
X1 N1,1 N1,2 ……. ………….. N1,j
: : : :
: : : :
Xi Ni,1 :
: : : ……… ……………. :
Xh Nh,1 Nh,k
Los factores estadísticos que nos ayudan a determinar el grado de relación o de-
pendencia de las variables son la covarianza y la correlación, medidas a través del
coeficiente de correlación o el coeficiente de determinación.
73
Pero como
Así como el r mide el grado de relación o correlación que existe entre X e Y; el coe-
ficiente de determinación (r2), es el más utilizado, e indica qué tan correcto es el va-
lor estimado de la ecuación de regresión. Mientras más alto sea r2 más confianza
se podrá tener en el valor estimado de la línea de regresión. Concretamente mide
la proporción de la variación total, que se explica por la ecuación de regresión, asu-
miendo un valor entre 0 y 1. Se calcula por:
74 Yi = a +bxi
Utilizando el criterio de los mínimos cuadrados, esto es, haciendo mínimas las dis-
tancias al cuadrado entre los valores de la nube de puntos –valores observados- y
los valores correspondientes a la ecuación de regresión, los coeficientes a y b se
obtienen de la siguiente manera:
2
El modelo de regresión se basa en tres supuestos básicos, los cuales si no se cumplen invalidan cual-
quier proyección: 1) los errores de la regresión tienen una distribución normal, con media = 0 y varianza
constante.2) los errores no están correlacionados entre ellos (existe auto-correlación) y 3) todas las
variables analizadas se comportan en forma de línea o son susceptibles de linealizarse.
También b puede calcularse de la siguiente manera:
75
Tabla 12-2.
Datos de ventas por mes
X Y
Mes Ventas
1 0
9 4
5 2
7 3
76
Ejemplo en Microsoft Excel
77
13. Introducción al cálculo de
probabilidades
Debemos anticiparnos en aclarar que los conceptos que
aquí discutamos, no constituyen un estudio del cálculo de
probabilidades pormenorizado. En realidad, estudiaremos
los principales conceptos y aplicaciones de estas. Hoy en día
en el mundo de los negocios, de la medicina, etc., la teoría
de la probabilidad reviste un lugar importante; por ejem-
plo: en el mundo de los seguros, la estimación de productos
defectuosos y la llegada de pasajeros, entre otros.
• Experimento: es toda acción bien definida que lleva a un resultado único bien
definido; por ejemplo: lanzar un dado. El experimento será aleatorio cuando al
repetirse en las mismas condiciones, no da lugar al mismo resultado
78
• Espacio muestral (Ω): es el conjunto de resultados posibles de un experimen-
to aleatorio. Cada resultado ω es un punto muestral. Por ejemplo: el espacio
muestral de lanzar un dado está dado por:
Ω = {1, 2, 3, 4, 5, 6}
Por ejemplo: durante los últimos 10 meses, 2 vuelos de la aerolínea TAME salie-
ron con destino a EEUU, retrasados, asumiendo que TAME tiene un viaje por mes,
podríamos afirmar que la probabilidad de que el vuelo del próximo mes sea retra-
sado, es del 20% o de 2/10.
Por ejemplo: la probabilidad de que una mujer sea electa presidenta del Ecuador
es un evento que nunca ha ocurrido.
79
c. El modelo clásico en cambio es el que se relaciona con mayor frecuencia en el
mundo de la incertidumbre, y por ello la Pi se determina por:
Las ventas detalladas en la tabla 13-1 hacen referencia a las ventas semanales en
la agencia de viajes “El Mundo” ¿Cuál es la probabilidad de que las ventas de esta
semana sean: bajas, altas o por lo menos considerables?
Graficamos la distribución de probabilidad:
Tabla 13-1
Ventas agencia “El mundo”
Ventas Frecuencia FA
Bajas 16 16
Considerables 27 43
Altas 9 52
Total: 52
80
Dado que los sucesos son en realidad subconjuntos del espacio muestral, que es-
tán formados por los resultados de experimentos aleatorios, las operaciones (com-
plementariedad, unión, intersección, diferencia y diferencia simétrica) y las relacio-
nes (inclusión, igualdad e incompatibilidad) entre conjuntos son igualmente válidas
para sucesos.
Así, las diferentes operaciones entre sucesos conducen a las siguientes
definiciones:
Ā = {ω Є Ω / ω Є A}
A B
Implica que si se da A también se da B
A U B = {ω Є Ω / ω Є A o bien ω Є B}
A B
Si de da A no se da B
A ∩ B = {ω Є Ω / ω Є A y ω Є B}
81
A B
A – B = {ω Є Ω / ω Є A y ω Є B}
A B
Formado por los elementos de A pero no de B
A ∆ B = {ω Є Ω / (ω Є A o bien ω Є B) y ω Є A ∩ B}
A B
Formado por los elementos que son exclusivos del suceso A y del suceso B
82 A C B si ω Є A→ ω Є B
A = B si ω Є A→ ω Є B
A∩B=Φ
La probabilidad condicional es la probabilidad de que el evento A ocurra dado
que, o a condición de que, el evento B haya ocurrido. Se calcula de la siguiente ma-
nera:
3
Cuando se saca de un conjunto finito de elementos, dos eventos son independientes si y sólo si se
realiza el reemplazo. Sin embargo, si el primer elemento no se reemplaza antes de sacar el segundo
elemento, los dos eventos son dependientes.
14. Diagramas de árbol
(arborigramas)
Un diagrama de árbol es una representación gráfica
útil para organizar cálculos que abarcan varias etapas.
Cada segmento en el árbol es una etapa del problema.
Las probabilidades escritas cerca de las ramas son las
probabilidades condicionales del experimento.
Tabla 14-1
Profesores y sus años de servicio
Tiempo de servicio
Lealtad Más de 1 Más de 10
1 a 5 años 6 a 10 años Total
año años
Se quedaría 10 30 5 75 120
No se quedaría 25 15 10 30 80
84
Total 200
Pasos a seguir:
• Para este problema salen dos ramas principales del tronco: la superior “Se que-
daría” y la inferior “No se quedaría” sus probabilidades se explican en las ramas
en este caso 120/200 y 80/200. Se simboliza P(A) y P(~A).
• Cuatro ramas secundarias se desprenden de cada rama principal y correspon-
den a los tiempos de servicio. Las probabilidades condicionales para la rama
superior del árbol están en las ramas adecuadas. Se trata de las probabilida-
des: P(B1∩A) ; P(B2∩A); P(B3∩A) y P(B4∩A) donde B se refiere a los tiempos de
servicio. Igualmente, en la rama inferior se colocan las probabilidades condicio-
nales P(A1∩B) P(A2∩B) P(A3∩B) y P(A4∩B).
Veamos el gráfico:
85
86
4
Reverendo Thomas Bayes (1702-1761)
16. Técnicas de conteo
n!
nPr =
(n-r)!
87
n!
nPr =
r! (n-r)!
5
por definición 0! es igual a 1
Las combinaciones y las permutaciones no permiten que se seleccione un elemen-
to más de una vez, si se admite la duplicación se utilizará el método de la escogencia
múltiple de conteo, el número de arreglos de escogencia múltiple de n elementos
tomados r a la vez es:
nMr =nr
Ejercicios de aplicación
88
16.1 Dell Publishing tiene 75 títulos de libros clasificados por tipo y costo, de la
siguiente manera:
Tabla 16-1.
Ejercicio
Costo
Tipo
$10 $15 $20 Total
Ficción 10 8 3 21
Biografía 12 10 9 31
Histórico 4 17 2 23
Total 26 35 14 75
Halle la probabilidad de que un libro seleccionado aleatoriamente sea:
16.2 Un guía turístico sabe, por experiencias anteriores, que la probabilidad que
un turista compre paquetes turísticos es del 65%. La probabilidad de que el turista
compre un ticket aéreo si ya tiene reservado el paquete turístico es del 35%.
b. A y B no son independientes.
16.3 De 1000 estudiantes de 18 años, 600 tienen empleo y 800 son bachilleres. De
los 800 bachilleres, 500 tienen trabajo. ¿Cuál es la probabilidad de que un joven de
18 años tomado aleatoriamente sea:
a. Un bachiller empleado.
b. Empleado, pero no bachiller.
c. desempleado o un bachiller.
d. desempleado o no bachiller.
16.4 En una agencia de viajes se planea contratar tres nuevos empleados. Había
ocho candidatos para los cargos, seis de los cuales eran hombres. Los tres que con-
siguieron el puesto eran de sexo masculino. Un cargo por discriminación de sexo
se impuso contra la agencia. ¿Cómo decidiría usted?
El número total de formas en las que 3 de todos los 8 candidatos pueden ser con-
90
tratados es: 8C3 =56
Entonces:
P(todos 3 hombres)= 20
56
17. Distribuciones de probabilidades
Principales conceptos:
b. Una distribución de probabilidad es una tabla que muestra todos los posibles
resultados de un experimento junto con sus respectivas probabilidades. Vale
recordar que la suma de las probabilidades es igual a 1 o al 100%.
Media y varianza de las distribuciones discretas
17.1 El número de quejas de los huéspedes del Hotel Sheraton oscila entre 0 y 6
cada día, como se muestra en la siguiente tabla. Calcule e interprete el valor espe-
rado, la varianza y la desviación estándar.
Tabla 17-1.
Ejercicio
0 3
1 4
2 3
3 6
4 2
5 1
6 4
Tabla 17-2.
Cálculos de media y varianza Ejemplo 17.1
93
E(X) =65/23 = 2.82
σ2 = 3.76
σ = 1.95
• Solo debe haber dos resultados posibles. Uno identificado como probabilidad
de éxito, π , y el otro como probabilidad de fracaso,1-π
• La probabilidad de éxito sigue siendo constante de un experimento al otro, al
igual que lo hace con la probabilidad de fracaso.
• La probabilidad de éxito en un experimento es totalmente independiente de
cualquier otro experimento.
• El experimento puede repetirse muchas veces
n!
94 P(x)=
x!(n-x)! π(1- π)n-x
Los resultados de P(x) para diferentes valores de π,n y x están dados en las tablas
estadísticas que se acompañan normalmente en los apéndices de dichos libros.
6
Jacobo Bernoulli (1654-1705) fue un matemático suizo que lo descubrió
Ejemplo:
P(x) = 3.19%
E(X) = μ = n π
σ2 = n π(1-π)
rCx N-rCn-x
P(x)=
NCn
En donde:
N = tamaño de la población
r = número de éxitos en la población
n = es el tamaño de la muestra
x = número de éxitos en la muestra
Ejemplo
17.2.1. Se puede ilustrar de mejor manera con los datos de los quince profesores
del Programa de Turismo y Gastronomía, se seleccionan doce para ser enviados al
Japón a estudiar un nuevo concepto de turismo; ocho de los profesores ya tienen
algo de entrenamiento en el concepto. ¿Cuál es la probabilidad de que cinco de los
enviados tengan algo de conocimiento sobre el concepto antes de partir a ese país?
N = 15
n = 12
r=8
x=5
96
Ejemplo en Microsoft Excel
Esta distribución se usa mucho en los servicios, como, por ejemplo: el número de
clientes en espera del servicio en un restaurante, o los que aguardan a entrar en
un centro de recreación, etc. 97
μx e-µ
P(x)=
X!
7
Existe elaborada una tabla de valores para las probabilidades con diferentes ʎ(π)
Donde:
μ=nπ
Ejemplo:
17.3.1 Una aerolínea tiene problemas en sus viajes con el equipaje. Una muestra
aleatoria de 5.000 equipajes reveló estos datos: muchas de ellas no contenían ar-
mas cortopunzantes, otras tenían solo una; algunas cuantas tenían dos y así suce-
98 sivamente. La distribución del número de armas corto punzantes se aproxima a la
distribución de Poisson. El agente contó 3.500 armas en los 5.000 equipajes. ¿Cuál
es la probabilidad de que un equipaje seleccionado al azar no contenga armas?
17.4 La distribución exponencial
En donde:
t = es el lapso
e = es la base del logaritmo natural 2.71828
μ = es la tasa promedio de ocurrencia.
99
a+b
E(x) = μ =
2
100
(b-a)2
σ2=
12
101
• La probabilidad de que una observación caiga entre dos valores está dada por:
X2-X2
P(X1>X>X2)=
Rango
Ejemplo
17.5.1 Suponga que los contenidos de los equipajes de los 16Kg permitidos por
Continental oscila entre 14.5 y 17.5 Kg y se ajusta a una distribución uniforme.
Continental desea saber la probabilidad de que un solo equipaje pese entre 16 y
17.2 Kg.
102
17.6 Distribución probabilística normal
La forma y posición de una distribución normal está determinada por dos factores
estadísticos: la media (μ) y la desviación estándar (σ). Se mencionó antes que el
área bajo la curva contiene el 100% de las observaciones, es decir que todas caen
o están dentro de la curva. Hoy podemos extender este concepto y afirmar que la
probabilidad dentro del área de la curva es del 100% o que existe una probabilidad
del 100% de que las observaciones ocurran dentro de la curva.
Puede existir un número infinito de distribuciones normales posibles, cada una con
su propia media y su desviación estándar; y al no poder analizar un número tan
grande de posibilidades, es necesario convertir todas estas distribuciones norma-
les a una forma estándar. Este proceso se conoce como estandarizar una distribu-
ción normal y se efectúa con la siguiente fórmula (denominada fórmula Z):
X–μ
Z=
σ
En donde Z, es el número de desviaciones estándar de una observación que está
por encima o por debajo de la media, y X es algún valor específico de la variable
aleatoria; después de este proceso de conversión la media de la distribución es 0 y
la desviación estándar es 1. Por lo tanto, el gráfico de la distribución normal tiene
la siguiente interpretación:
Ejemplo
104
17.6.1 El Ministerio de Turismo en un estudio reciente sobre lugares turísticos ha
detectado que el tiempo promedio de estadía de un turista en ciertos lugares del
Azuay está distribuido en forma normal, con una media de 2.2 días durante el pe-
riodo de vacaciones. Se determinó que la desviación estándar era de 0.8 días. ¿Cuál
es la probabilidad de que un turista se hospede más de 3.3 días en una época de
vacaciones?
X = 3.3 días
μ= 2.2
σ= 0.8
3.3 - 2.8
Z= =1.38
0.8
Esta nota técnica comprende el estudio de los siguientes temas: las distribucio-
nes muestrales, la estimación mediante intervalos, la prueba de hipótesis para
una y más de dos poblaciones, estadística inferencial, la regresión múltiple, las
series de tiempo, los números índices, y finalmente las pruebas no paramétricas.
El muestreo probabilístico:
Z2 σ2
n=
(X – μ)
109
El tamaño muestral para la proporción poblacional está dado por la siguiente ex-
presión:
b) Distribuciones muestrales
Esta gran media se calcula, sumando las observaciones individuales (que son las
medias muestrales) y el resultado se divide por el número de observaciones (nú-
mero de muestras). Su cálculo se presenta en la siguiente expresión:
Este error estándar es la misma desviación estándar, por lo tanto, mide la tenden-
cia a sufrir del error de muestreo en el esfuerzo por estimar la media de la pobla-
ción (μ).
111
X–μ
Z=
σx
Ejemplo i.1:
Telcom planea instalar nuevos equipos que mejorarían la eficiencia de sus opera-
112 ciones, sin embargo, antes que los ejecutivos puedan decidir si dicha inversión será
eficaz en función de los costos, deben determinar la probabilidad de que la media
de una muestra de n = 35 esté entre 145 y 150, cuando saben que la desviación
estándar es de 15 segundos.
Figura c-1 Ejemplo 3.1 Telcom
Conclusiones
Finalmente, lo que se intenta con esta nota técnica es facilitar el estudio de la esta-
dística sin que constituya un sustituto del texto base.
1. Distribuciones muestrales
En la parte introductoria de esta nota se dijo que las poblaciones generalmente son
grandes para estudiarlas y por ello la necesidad de seleccionar una muestra para
sacar conclusiones (inferir) acerca de la población; por ello obtener una muestra
puede ser útil para utilizarla como un estimador de la población, a través de ob-
tener un valor estadístico que permita inferir el parámetro poblacional. Una dis-
tribución muestral es una tabla de valores que corresponde a la lista de los valores
posibles para un estadístico y la probabilidad relacionada con cada valor.
Ejemplo1.1:
Para ejercicio se suponen los siguientes como elementos de la población: 100, 200,
300 y 400. La media de esta población es de 250.
100+200+300+400
μ = = 250
4
La tabla siguiente contiene los elementos de cada muestra1:
Tabla 1-1
Ejercicio 1.1 Distribución Muestral
1 100,200 150
2 100,300 200
3 100,400 250
4 200,300 250
5 200,400 300
6 300,400 350
Medias Probabilidad
muestrales (Xi) (Pi)
150 1/6
200 1/6
250 2/6
300 1/6
350 1/6 115
2
P (μ = x)=
6
1
La media muestral sigue la forma de cálculo normal (X=Xk ), por ejemplo: para la primera
muestra la media es 150.
Cuando se tiene una distribución negativa (-) como la distribución de frecuencias -
es posible calcular tanto la media como su varianza.
σ x = σ x2
σ2
σ x2 =
n
σ
σx =
n
• Cuando la varianza de la población es conocida, el muestreo se hace sin re-
emplazo y es tomado de una población con de la población, entonces el error
estándar se calcula de la siguiente manera:
117
Como hemos insistido las decisiones se toman en base a los resultados muestra-
les y dado que la distribución muestral estará distribuida normalmente, ya que
la muestra se toma de una población normal y la muestra es mayor o igual a 30
elementos, el teorema del límite central garantiza la normalidad en el proceso de
muestreo. La desviación normal puede utilizarse para ganar información esencial
para el proceso de toma de decisiones, por lo tanto el valor de estará dado por:
X–μ
Z=
σx
En resumen:
b) Las muestras tienen un impacto muy directo sobre las decisiones que se
toman.
Cuando se toman decisiones no solo interesa un valor único, sino se parte de una
media de varias observaciones; por lo tanto, en lugar de determinar la probabilidad
de un valor único, se puede calcular la probabilidad (Pi) de que la media de obser-
vaciones se de.
Los tickets aéreos vendidos en Metropolitan Touring tienen una venta promedio de
16.1 ticket, con una desviación estándar de 1.2 tickets. Si se toma una muestra de
n = 200, ¿cuál es la probabilidad de que la media sea menor que 16.27?
Datos
118
Con este valor nos vamos a la tabla Z y obtenemos el área bajo la curva que es de
0.4772; entonces la probabilidad es de P(x<16.27) = 0.5 + 0.4772 = 0.9772
2. Distribución de
proporciones muestrales
De esta manera, los cálculos del valor esperado y el error estándar de las distribu-
ciones muestrales es similar al de las medias muestrales, en definitiva:
119
π (1 − π )
σp = n ; o también
π (1 − π ) N −n
σp = n N −1
Ejemplo 2.1:
El 30% de todos los empleados del Ministerio de Turismo tienen capacitación avan-
zada. Si en una muestra de 500 empleados menos del 27% estaba preparado de
forma adecuada, todos los nuevos contratados necesitarán registrarse en un pro-
grama de capacitación. ¿Cuál es la probabilidad de que se inicie el programa?
Datos:
Con este valor nos vamos a la tabla y obtenemos un área de 0.4332; por lo tanto:
120
3. Estimación con intervalos
de confianza
En la sección anterior el propósito de la estadística
inferencial fue estimar o inferir alguna conclu-
sión de la población a partir de la muestra, por esa
razón, en este apartado explicaremos por lo menos
dos tipos de estimadores para este propósito.
b. Un estimador por intervalo se utiliza para estimar un rango dentro del cual
está el parámetro poblacional desconocido, un intervalo de confianza denotará
este rango en el cual puede encontrarse el parámetro, y el nivel de confianza
es un coeficiente que mide el nivel de aceptación de que el intervalo contiene
el parámetro y normalmente comprende los coeficientes de 90%, 95% y 99%.
μ=X±zσx 121
μ=X±zsx
s
Sx =
n
Los niveles de confianza nos limitan el intervalo o rango de aceptación de la estima-
ción, lo que significa que lo que esta fuera del intervalo es el error o la probabilidad
de error y se denomina con el valor alfa ().
Ejemplo 3.1:
Un promotor turístico que intenta construir un gran centro hotelero puede estimar,
en la zona donde va a llevar a cabo su proyecto, que el ingreso promedio por fami-
lia como indicador de las ventas esperadas. Una muestra de 100 familias da una
media de $35.500. Se asume que la desviación estándar poblacional es de $7.200
y acepta un nivel de confianza del 95%, entonces ¿cuál será la media poblacional?
Datos:
122
Rootours planea comprar una flota de nuevos taxis para sus operaciones en Gua-
yaquil. La decisión depende de si el rendimiento del vehiculo en consideración es
por lo menos 27.5 Km/gln. Los 36 vehículos que prueba la compañía reportan una
media de 25.6 Kilómetros por galón, con una desviación estándar de 3.5 Km/gln. ¿A
un nivel de confianza del 99% qué decisión debería tomarse?
Datos:
Hasta este momento se ha trabajado con muestras de tamaño y por ello se utiliza
la distribución como factor estadístico de estimación; sin embargo, para muestras
se utilizará la distribución de probabilidad continua t para realizar la estimación.
4. La distribución t student:
Más conocida como distribución t, descubierta por William Gosset, es una familia
de distribuciones cada una con su propia varianza. Es una distribución más plana
que la distribución normal, con una desviación mayor que uno (σ > 1), también
simétrica y con una varianza igual a .
La varianza de esta distribución depende de los grados de libertad (g.l.). Los grados
de libertad son determinados por el número de observaciones.
124
d.1 Características de la distribución t:
- Es continua
- Es simétrica
Y para estimar (la proporción poblacional) es posible partir de una desviación es-
tándar muestral y un valor estadístico p (la proporción muestral); se estima de la
siguiente manera:
125
Es decir si:
Entonces:
Para que un estimador sea considerado apropiado y sea utilizado para estimar la
población debe cumplir las siguientes características:
Gráficamente:
129
130
Ejemplos:
Ejemplo 6.2.1:
131
¿Sería razonable llegar a la conclusión de que los adelantos o atrasos medios para
los vuelos son cero (0)? Utilice el nivel de significancia 0.05. Calcule el valor p.
H1=
2. Determinar Z o con los datos muestrales. Dependiendo si la muestra es de
tamaño n ≥ 30 o si n ≤ 30 respectivamente. En este caso distribución t:
Datos:
t = -3.157
Si α = 0.01
El estadístico cae en la zona de rechazo, eso significa que no se acepta Ho. Se recha-
zan los vuelos de AEROGAL porque no son puntuales.
Ejemplo 6.2.2:
14 14 16 12 12 14 13 16 15 14
12 15 15 14 13 13 12 13 10 13
Con un nivel de significancia 0.05 ¿la agencia de investigación puede llegar a la con-
clusión de que el número medio de quejas por aeropuerto es menor de 15 al mes?
133
Ho :μ .
H1 :μ
2. Determinar o con los datos muestrales. Dependiendo si la muestra es de tama-
ño n ≥ 30 o si n ≤ 30 respectivamente. En este caso distribución :
gl= 19 = 20 -1
α = 0.05 → t
134
Karina Dennos es contralora del Hotel Hilton Colon y cree que el problema actual
con el flujo de efectivo en el hotel, se debe a la tardanza para cobrar las cuentas
por cobrar. Karina cree que más del 60% de las cuentas se tardan en cubrir más
de tres meses .Una muestra aleatoria de 200 cuentas reveló que 140 tenían más
de tres meses de antigüedad. En el nivel de significancia de 0.01 ¿puede llegar a la
conclusión de que más del 60% de las cuentas permanecen sin cobrarse durante
tres meses?
H0: π ≤60
H1:π > 0.60
Datos:
135
3. Definir una regla de decisión. Se definirán los valores críticos y el valor de la
prueba para localizar la zona de aceptación o rechazo.
α = 0.01 → z = 2.58
El valor estadístico cae en la zona de rechazo, por lo tanto no se acepta H0. Enton-
ces, se confirma que el 60% de las cuentas tienen más de 3 meses de antigüedad.
136
7. Análisis de varianza
El análisis de varianza, o simplemente la prueba ANO-
VA, es una prueba estadística para comparar más de
dos poblaciones. Está diseñada para probar si dos o más
poblaciones tienen las mismas medias.
Esta prueba tiene ciertos supuestos para el cálculo del valor estadístico de prueba
-el estadístico F o “prueba F” 2 y la ciencia estadística presenta una tabla para en-
contrar los valores críticos dado el nivel de significancia y los grados de libertad – y
determinar comparando las medias muestrales si estas provienen de poblaciones
iguales. Estos supuestos son:
H0: µ1 = µ 2 = ...... = µ c
2
En esta prueba usamos la denominada distribución F en honor a su descubridor el estadístico
Sir Ronald Fisher.
Prueba ANOVA
En la prueba de una vía se compara varias medias de muestras para ver si provie-
nen de la misma población o de poblaciones iguales. En esta prueba existe sola-
mente una variable que influencia en los elementos de la muestra. En cambio, la
prueba de dos vías se caracteriza porque los elementos de la muestra son influen-
ciados por más de una variable.
Vale precisar –siguiendo el texto de Webster- que en una prueba ANOVA existen
los siguientes conceptos:
138
3. Se encuentra los grados de libertad de los SCTR (g.l. del numerador, c-1) y
de los SCE (g.l. del denominador, n-c), por lo tanto los g.l. totales son igual
a la suma de los g.l. de SCTR y de SCE en símbolos: n-1 = c-1 + n-c.
Antes de proceder a aplicar este tipo de prueba es importante anotar que entre las
principales características de la distribución F, tenemos las siguientes: 139
5. Es asintótica al eje X.
Ejemplo 7.1:
Solución:
H0: µ1 = µ 2 = µ 3 = µ 4
Hipótesis Nula: todas las medias son iguales
H1: µ1 ≠ µ 2 ≠ µ3 ≠ µ 4
Hipótesis alternativa: no todas las medias son iguales
En este ejemplo:
141
α = 0.05
gl numerador = 3
gl denominador = 24 → F = 3.01
142
8. La regresión múltiple
Bajo este acápite se amplía la explicación para analizar cómo calcular una ecuación
que recoja la relación entre una variable dependiente y más de una variable inde-
pendiente.
Ejemplo 8.1
143
144
y ̂=25,2952+2,6187x1+5,0233x2
La que representa matemáticamente la relación entre las ventas del hotel y los
factores publicidad y fuerza de ventas, de acuerdo al análisis de los datos provistos.
Ejemplo 8.2:
Con este ejemplo recordemos también la regresión simple. Por el momento su-
pongamos que las habitaciones vendidas en estos hoteles dependen únicamente
de los gastos de publicidad, es decir qué es las habitaciones y son los gastos de
publicidad.
Tabla 8-2
Ejemplo Regresión simple
Habitaciones
Publicidad
vendidas
(X)
(Y)
145
127 18
138 15
159 22
144 23
139 17
128 16
161 25
180 26
102 15
163 24
106 18
149 25
Ejemplo en Microsoft Excel
Y = 51.21 + 4.43X
146
Diríamos entonces que existe una relación de 81% de las dos variables y la publi-
cidad explica el 65% del comportamiento de las ventas de las habitaciones de un
hotel. Esto nos lleva a pensar que aún existe un 35% que está explicado por otras
variables y que para este ejemplo podría ser la fuerza de ventas y la ubicación.
147
9. Análisis de series de tiempo
Definición:
Una serie de tiempo es un conjunto de observaciones medidas en puntos sucesi-
vos, a lo largo del tiempo o en periodos sucesivos de tiempo.
Tabla 9-1
Ocupación de infraestructura hotelera
Trimestre/Año Utilización
I/94 82.5
II/94 81.3
III/94 81.3
148
IV/94 79.0
I/95 76.6
II/95 78.0
III/95 78.4
I/96 78.8
II/96 78.7
III/96 78.4
IV/96 80.0
I/97 80.7
II/97 80.7
III/97 80.8
Los modelos de series de tiempo se refieren a la medición de valores de una varia-
ble en el tiempo a intervalos espaciados uniformemente.
149
150
151
Un modelo puede expresarse como una ecuación que combina los cuatro compo-
nentes.
Y t =T t +S t +C t +I t
Supongamos que se desea estimar el número de turistas que llegan al Hotel Ga-
lápagos en San Cristóbal. En el registro histórico del hotel se refleja que el hotel
normalmente recibe a 100 huéspedes por año en la temporada baja (Tt = 100). Por
la estacionalidad o la temporada alta que muestra Galápagos registra 150 hués-
pedes adicionales (St =150). Además, la economía este año muestra una mayor
actividad y por ello hay un dinamismo del turismo interior y se espera que lleguen a
Galápagos 100 turistas (Ct =100) y finalmente, por la declaratoria de parque nacio-
nal en peligro se espera una caída de la demanda de 50 turistas (It = 50); por lo tan-
to la demanda de huéspedes del hotel podría ser estimada de la siguiente manera:
YT
YT
152
Ejemplo 2.2:
En una agencia de viajes los tickets fallidos suman $10 mil. El componente esta-
cional equivale a 1.7 veces el comportamiento normal, el factor cíclico incide en la
venta del ticket en un 91% y el componente irregular incide en un 87%. Entonces la
venta de ticket en esta agencia de viajes puede estimarse en:
YT
El PM promedia toda variación estacional que puede ocurrir dentro del año, elimi-
nándolas de manera efectiva y dejando solo la tendencia y las variaciones cíclicas.
∑T
i =1
i
=
PM i n
153
Utilizando los datos del ejemplo 9.1, sobre los porcentajes de ocupación hotelera
podemos construir una serie de promedios móviles de 3 periodos (en este caso de
trimestres), de la siguiente manera:
Tabla 9-2
Cálculo de promedios móviles PM3
Para el PM1 o promedio móvil del primer periodo, utilizamos los tres primeros
datos:
154
PM1 = 82.5+81.3+81.3/3 = 245.1/3 = 81.7. y así sucesivamente.
Esto podemos graficarlo de la siguiente manera:
Esta técnica tiene el efecto de suavizar una serie y por lo tanto proporciona un
medio efectivo de predicción. Se basa en un promedio ponderado de los valores
actuales y anteriores de la variable en estudio. Se calcula a través del siguiente
modelo:
CMF=
Tabla 9-3
Aplicación del suavizamiento exponencial 1
Trimestre/Año Utilización
I/94 82.5
II/94 81.3 82.50 82.50
III/94 81.3 82.14 81.90
IV/94 79.0 81.20 80.45
I/95 76.6 79.82 78.53
156
II/95 78.0 79.27 78.26
III/95 78.4 79.01 78.33
IV/95 78.0 78.71 78.17
I/96 78.8 78.74 78.48
II/96 78.7 78.72 78.59
III/96 78.4 78.63 78.50
IV/96 80.0 79.04 79.25
I/97 80.7 79.54 79.97
II/97 80.7 79.89 80.34
III/97 80.8 80.16 80.57
En este caso la proyección de febrero de 1994 (segundo periodo) es la observación
del periodo anterior (proyección intuitiva), para el siguiente periodo, marzo del 94,
se la hará aplicando la fórmula:
Ft +1 = αAt + (1 − α )Ft
CME
1 82.50
2 81.30 82.50 1.44
3 81.30 81.70 82.14 0.71
4 79.00 80.53 81.20 4.83
5 76.60 78.97 79.82 10.36
6 78.00 77.87 79.27 1.62
7 78.40 77.67 79.01 0.37
8 78.00 78.13 78.71 0.50
9 78.80 78.40 78.74 0.00
10 78.70 78.50 78.72 0.00
11 78.40 78.63 78.63 0.05
12 80.00 79.03 79.04 0.92
13 80.70 79.70 79.54 1.35
14 80.70 80.47 79.89 0.66
15 80.80 80.73 80.16 0.41
23.23
CME 1.66
158
1. Utilice una constante de afinamiento de 0.3 para calcular los valores de suavi-
zación exponencial de la serie de tiempo.
2. Utilice una constante de suavización de 0.5 para calcular los valores de suaviza-
ción exponencial ¿Dará un mejor pronóstico la constante de 0.3 o de 0.5?
159
10. Números índices
PR
IIP R = × 100
160 PB
IP A =
∑P R
× 100
∑P B
L=
∑ (P R × QB )
× 100
161
∑ (P B × QB )
P=
∑ (P R × QR )
× 100
∑ (P B × QR )
Ejemplo 10.1 Cálculo de números índices:
Tabla 10-1
Datos cálculo de índice 10.1
116.0
F=√LxP
IPCt − IPCt −1
IPC = × 100
IPCt −1
El IPC es un índice de precios agregativo tanto del periodo o referencial con el pe-
riodo o periodo base.
Cuando se desea medir el poder real de compra de un individuo hay que tomar en
cuenta dos datos el IPC y el ingreso monetario que recibe ese individuo, la relación
entre los dos proporciona el ingreso real, es decir:
Ejemplo 10.2:
(150/120*100 = 125).
3
Además del IPC el Instituto Nacional de Estadísticas y Censos (INEC) calcula el IPP el índice de
precios al productor, que mide el cambio de un periodo a otro de los insumos de la producción.
11. Pruebas no paramétricas
Cuando el objeto de nuestro estudio forma una población cuyos
datos no se comportan como un distribución normal, nos pro-
porciona datos con picos muy pronunciados, sesgados ya sea a la
derecha o a la izquierda, o información de tipo cualitativa, no será
posible aplicar la prueba t o F que suponen normalidad en los
datos para poder inferir sobre la población de estudio, existe la
posibilidad de analizarlos estadísticamente con pruebas no pa-
ramétricas, conocidas también como libres de distribución, pues
no dependen de supuestos relativos a la distribución.
k
(Oi − Ei ) 2
χ
2
=
∑
i =1 Ei
En donde:
Con el valor calculado de chi cuadrada, vamos a la tabla de chi cuadrada (como las
que hemos visto prueba Z, t y F ), elaboramos el gráfico de la prueba, ubicamos
los valores críticos y el valor observado, que nos sirve para decidir si se acepta o
rechaza la Ho.
165
Ejemplo 11.1
Tabla 11-1
Datos ventas- habitación
k
(Oi − Ei ) 2
χ
2
=
∑
i =1 Ei
Para el cálculo del valor crítico necesitamos ir a la tabla de chi cuadrado y necesi-
tamos los grados de libertad. Para este ejemplo tenemos K = 4 categorías; m = 0
parámetros a estimar; por lo tanto los g.l. es 3 (g.l. = k-m-1= 4 - 0 - 1)
2
χ 0.10; con 3 grados de libertad en la tabla el valor de chi cuadrado es 6,25
2
El valor χ calculado de 1.17 cae en la zona de rechazo, por lo tanto
Dentro de esta prueba es importante considerar que las frecuencias esperadas (Ei)
son iguales al tamaño de la muestra, n, por la probabilidad de cada categoría, es
decir:
Ei = n pi
En donde:
n: tamaño de la muestra
Ejemplo 11.2
168
2. Cálculo del factor estadístico:
k
(Oi − Ei ) 2
2
∑ Ei
χ = i =1
Con los datos calculados tenemos:
Tabla 11-2
Datos procedencia de huéspedes
Frecuencias
Frecuencias
esperadas
Tipo de huésped observadas (Oi-Ei)
trimestre
(Oi)
(Ei = npi)
2
Ejecutivos 62 85* 0.60 = 51.0 (62-51)
2
Nacionales 10 85*0.10 = 8.50 (10-8.5)
2
Extranjeros 13 85*0.30 = 25.50 (13-25.5)
Muestra n = 85 85
121 2.2
5 156.2
5
2
χ = 5
+ +
1 8.5 5 .5 = 8.76
2
Para el cálculo del valor crítico necesitamos ir a la tabla de chi cuadrado y necesi-
tamos los grados de libertad. Para este ejemplo tenemos K = 3 categorías; m = 0
parámetros a estimar; por lo tanto los g.l. es 2 (g.l.= k-m-1= 3-0-1)
2
χ = 0.10; 2 en la tabla el valor de chi cuadrado es 4,61
2
El valor χ calculado de 8,76 cae en la zona de rechazo, por lo tanto
4. Decidimos rechazar Ho.
Ejemplo 11.3:
Supongamos que las frecuencias de los turistas que han llegado al país en el último
año se encuentran agrupadas en las siguientes clases, además el promedio de la
población indica que existen μ = 600 turistas que han llegado, con una desviación
estándar de σ = 10 . Probemos esta hipótesis con el 5% de significancia.
Tabla 11-3
Información de arribos de turistas
Frecuencias
Frecuencias
Número de Probabilidades esperadas
observadas (Oi-Ei)
turistas (Pi) trimestre
(Oi)
(Ei = npi)
2
0-580 20 0.0228 22.8 (20-22.8)
170
2
580-590 142 0.1359 135.9 (142-135.9)
2
590-600 310 0.3413 341.3 (310-341.3)
2
600-610 370 0.3413 341.3 (370-341.3)
2
610-620 128 0.1359 135.9 (128-135.9)
2
620-mas 30 0.0228 22.8 (30-22.8)
Muestra 1.000
X–μ
Z=
σ
X = 580 ; σ = 10 y μ = 600
580-600
Z= = -2 en la tabla obtenemos 0.4772
10
Gráficamente:
X = 590; σ = 10 y μ = 600
590-600
Z= = 1 en la tabla obtenemos 0.3413
10
Gráficamente:
Con este criterio y forma de cálculo completamos la tercera columna del cuadro
171
anterior.
k
(Oi − Ei ) 2
χ
2
=
∑
i =1 Ei
121 2.2
5 156.2
5
= 51 + 8.5 + 25 .5 = 8.76
2
χ
Para el cálculo del valor crítico necesitamos ir a la tabla de chi cuadrado y necesi-
tamos los grados de libertad. Para este ejemplo tenemos K = 6 categorías; m = 0
parámetros a estimar; por lo tanto los g.l. es 5 (g.l.= k-m-1= 6-0-1)
2
χ 0.05; 5 en la tabla el valor de chi cuadrado es 10,64
2
El valor χ calculado de 8,76 cae en la zona de rechazo, por lo tanto
4. Decidimos rechazar .
172
d) Prueba del signo
La hipótesis nula y alternativa para una prueba de dos colas queda expresada de
la siguiente manera:
Ho: m = p
H1: m ≠ p
La hipótesis nula y alternativa para una prueba de una cola derecha e izquierda
respectivamente queda expresada de la siguiente manera:
Ho: m ≤ p
H1: m > p
173
Ho: m ≥ p
H1: m < p
Tabla 11-4
Ventas por sucursal
Antes de la Después
Sucursal Signo
promoción de la promoción
1 42 40 +
2 57 60 -
3 38 38 0
4 49 47 +
5 63 65 -
6 36 39 -
7 48 49 -
8 58 50 +
9 47 47 0
10 51 52 -
11 83 72 +
174 12 27 33 -
Ho: m ≤ p
H1: m > p
p ( x ≤ 5) = 0.3770
4. Decidimos no rechazar Ho
175
El propósito de esta prueba es contrastar la igualdad de dos distribuciones pobla-
cionales. Se basa en la suposición de que dos muestras aleatorias que se sacan
independientemente de variables continuas tienen parámetros idénticos.
Se puede realizar esta prueba para analizar la igualdad de las dos medias o media-
nas poblacionales. Se usan las medias si las poblaciones son simétricas y si tienen
la misma varianza. Si se elimina este supuesto de simetría se pueden usar las me-
dianas. Para probar la hipótesis es necesario calcular la prueba U de cada muestra,
de la siguiente manera:
Luego procedemos a calcular la media de las muestras, como sigue:
n1 n 2
µu =
2
ui − µ u
z=
σu
Ejemplo 11.4
Tabla 11-5
Registro de ingreso de huéspedes
Hotel 1 27 31 28 29 39 40 35 33 32 36 37 43
Hotel 2 34 24 38 28 30 34 37 42 41 44
Procedemos a ordenar del más bajo al más alto siguiendo un orden para el ranking
del hotel:
Tabla 11-6
Clasifiación de la información por rangos
H0 : µ1 = µ2
H1: µ1 ≠ µ2
2. Cálculo del factor estadístico:
n1 n 2
µu = = 12*10/2 = 60
2
ui − µ u
z= = 52-60/15.17 = -0.53
σu
6∑ d i2
1−
rs = (
n n2 −1 )
En donde:
n= es el tamaño de la muestra.
Ejemplo 11.5
179
Supongamos que registramos el puntaje de un examen y el desempeño de 7 fun-
cionarios de una empresa hotelera, tal como se muestra en la siguiente tabla. Se
trata de probar la hipótesis de que no existe correlación entre el examen y el des-
empeño a un 10% de significancia.
4
Este factor estadístico de correlación de Spearman tiene su propia tabla.
Tabla 11-7
Resultados pruebas de desempeño
Clasificación Evaluación
Evaluación según de
Puntaje
Ejecutivo de prueba desempeño d i=X-Y d i2
examen
desempeño
(X) (Y)
JS 82 4 3 4 -1 1
AJ 73 7 5 7 -2 4
DB 60 6 7 6 1 1
ML 80 3 4 3 1 1
GC 67 5 6 5 1 1
AL 94 1 1 1 0 0
GW 89 2 2 2 0 0
H0 : ρs = 0
H1: ρs ≠ 0
6∑ d i2
1−
rs = (
n n2 −1 )
6 *8
rs = 1−
(
7 72 −1 ) = 0.857
3. Graficamos y calculamos los valores críticos:
4. Decidimos rechazar
Esta es una prueba que compara tres o más poblaciones para determinar si existe
una diferencia entre la distribución de las mismas. Es análoga a la prueba ANOVA
o prueba F.
Su cálculo es el siguiente:
181
En donde:
Suponemos que la aerolínea TAME tiene tres clientes importantes, que con fre-
cuencia compran sus ticket en los últimos 7 meses, tal como se muestra en la si-
guiente tabla:
Tabla 11-8
Frecuencia de compra tickets
Cliente
Compra 1 2 3
1 28 26 37
2 19 20 28
3 13 11 26
4 28 14 35
5 29 22 31
6 22 21
7 21
182
H0 : todas las k poblaciones tienen la misma distribución.
63 34.5 75
183
3. Graficamos y calculamos los valores críticos:
Para el cálculo del valor crítico necesitamos α = 0.05; g.l.= 2 = n-1 ; entonces:
2
χ 0.05; 2 en la tabla el valor de chi cuadrado es 5.99
4. Decidimos rechazar
Conclusiones
• El cálculo del parámetro poblacional, a partir del dato muestral con los
niveles de confianza, permite tomar decisiones bastante sólidas.