Contenido de La Clase #10

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 64

Varianza

Se presenta a continuación una EJEMPLO 2


tabla de frecuencias de las
edades de una población, que Rango de
Clase Personas
Edades
se encuentra distribuido entre
intervalos de clase. 1 0–5 7
2 6 – 10 13
Se desea calcular la varianza.
3 11 – 15 18
4 16 - 20 12
Varianza
SOLUCIÓN EJEMPLO 2
Los datos corresponden a una población, por lo cual,
la fórmula a utilizar es de la varianza poblacional para
un conjunto de datos agrupados en intervalos de
clase:
σ 𝑘 2
2 𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇)
𝜎 =
𝑁
Varianza
Primeramente, debemos calcular SOLUCIÓN EJEMPLO 2
la media aritmética de la tabla de
frecuencias. Al tener que calcular Rango de
Marca de
Personas
las marcas de clase, nos Clase
Edades
clase
(𝑓𝑖 ) 𝑓𝑖 ∗ 𝑥𝑖
(𝑥𝑖 )
apoyaremos con una tabla:
σ𝑁 1 0–5 2,5 7 17,5
𝑘=1 𝑓𝑖 (𝑥𝑖 )
𝜇= 2 6 – 10 8 13 104
𝑁
571,5 3 11 – 15 13 18 234
𝜇= = 𝟏𝟏, 𝟒𝟑 𝒂ñ𝒐𝒔
50 4 16 - 20 18 12 216
Total 50 571,5
Varianza
SOLUCIÓN EJEMPLO 2
Una vez que tenemos calculado la media,
procedemos a𝑘 realizar los cálculos del
2
numerador σ𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇) , para ello,
necesitaremos apoyarnos con una tabla:
Varianza
SOLUCIÓN EJEMPLO 2
Marca de clase Personas
(𝑥𝑖 ) (𝑓𝑖 ) (𝑥𝑖 − 𝝁) (𝑥𝑖 − 𝝁)2 (𝑥𝑖 − 𝝁)2 ∗ 𝑓𝑖
2,5 7 (2,5 - 11,43) = -8,93 (−8,93)2 = 79,7449 79,7449 x 7 = 558,2143

8 13 (8 - 11,43) = -3,43 (−3,43)2 = 11,7649 11,7649 x 13 = 152,9437

13 18 (13 – 11,43) = 1,57 (1,57)2 = 2,4649 2,4649 x 18 = 44,3682

18 12 (18 – 11,43) = 6,57 (6,57)2 = 43,1649 43,1649 x 12 = 517,9788


𝑘

Total 50 ෍(𝑓𝑖 )(𝑥𝑖 − 𝜇)2 1.273,505


𝑖=1
Varianza
SOLUCIÓN EJEMPLO 2
Por último, realizamos el reemplazo de los valores en la fórmula de la varianza
muestral:
𝑘 2
2
σ (𝑓
𝑖=1 𝑖 )(𝑥𝑖 − 𝜇)
𝜎 =
𝑁
2
1.273,505
𝜎 = = 𝟐𝟓, 𝟒𝟕 𝒂ñ𝒐𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐
50
El resultado nos demuestra que la dispersión de los datos con respecto a su
media (11,43 años) es de 25,47 años al cuadrado.
Para tomar en consideración
Varianza
CONSIDERACIONES
• Cuando el valor de la varianza de un conjunto de datos es grande, se
dice que tiene mayor variabilidad.
• Si la varianza de un conjunto de datos es pequeña, entonces, la
variabilidad es pequeña. Este conocimiento es útil cuando se
comparan dos o más conjunto de datos.
• También es claro que a mayor variabilidad (mayor extensión de los
datos) mayor será; el recorrido o rango, el recorrido intercuartílico, la
varianza, y como consecuencia, la desviación estándar.
Varianza
CONSIDERACIONES (CONTINUACIÓN)
• Si se quiere describir la variabilidad de un solo conjunto de datos, la varianza no es
de gran ayuda, dado, que ésta no expresa las unidades originales, sino en
unidades al cuadrado. En tal caso, la desviación estándar es la más indicada para
realizar una descripción de la variabilidad de un conjunto de datos.
• Cuando la varianza se usa como medida descriptiva, se puede considerar, como un
cálculo intermedio para obtener la desviación estándar (muestral o poblacional).
Este paso intermedio es necesario para regresar a la unidad original, el cual, se
logra al obtener la raíz cuadrada del valor de la varianza (desviación estándar).
DESVIACIÓN ESTÁNDAR O
TÍPICA
DESVIACIÓN ESTÁNDAR
GENERALIDADES
• Es la medida de variación más importante y útil. Es la raíz cuadrada del
promedio de los cuadrados de las desviaciones que hay en las
observaciones con respecto a su media.
• En otras palabras, es la raíz cuadrada de la varianza muestral o
poblacional.
• La fórmula para determinar la desviación estándar es diferente para
una población como para una muestra, al igual que la varianza.
Fórmulas para calcular la
desviación estándar poblacional
Desviación estándar poblacional
• Para un simple conjunto de Dónde:
datos la fórmula es la siguiente:
σ𝑁 2 • 𝝈= Desviación Estándar Poblacional
𝑖=1(𝑥𝑖 − 𝜇)
𝜎= 𝜎2 =
𝑁 • 𝒙𝒊 = marca de clase
• Para una tabla de frecuencias
distribuido por intervalos de • 𝑵 = número total de datos de la población.
clase:
• 𝒇𝒊 = frecuencia absoluta del intervalo i.
σ𝑘𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇)2
𝜎= 𝜎2 =
𝑁 • 𝒌 = número total de clases o intervalos.
Fórmulas para calcular la
desviación estándar muestral
Desviación estándar muestral
Dónde:
• Para un simple conjunto de
datos la fórmula es la siguiente: • 𝑺 = Desviación Estándar Muestral
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2
𝑆= 𝑆2 = • 𝒙𝒊 = marca de clase
𝑛−1
• Para una tabla de frecuencias • 𝒏 = número total de datos de la
distribuido por intervalos de
clase: muestra.
σ𝑘𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝑥)ҧ 2 • 𝒇𝒊 = frecuencia absoluta del intervalo i.
𝑆= 𝑆2 =
𝑛−1
• 𝒌 = número total de clases o intervalos.
Características de la
desviación estándar
Desviación estándar
CARACTERÍSTICAS
• La desviación estándar es una medida de variación de todos los valores con respecto a la media.
• El valor de la desviación estándar suele ser positivo. Sólo es igual a cero cuando todos los valores
de los datos son el mismo número. Además, valores grandes (desviación estándar) indican
mayores cantidades de variación.
• El valor de la desviación estándar se puede incrementar de manera drástica con la inclusión de
uno o más datos distantes (valores de datos que se encuentran muy lejos de los demás).
• Las unidades de la desviación estándar (como minutos, pies, libras, kilogramos, etcétera) son las
mismas de los datos originales.
Tomaremos los ejemplos de la
varianza para determinar sus
desviaciones estándar
Desviación estándar
EJEMPLO 1

El siguiente conjunto de datos


pertenecen a una muestra.
3, 4, 5, 6, 6, 7, 8, 9, 9, 10
•Calcular la desviación estándar
Realizamos todas las operaciones
para determinar la varianza
Desviación estándar
SOLUCIÓN EJEMPLO 1
La varianza es:
σ𝑁 ҧ 2
𝑖=1(𝑥𝑖 − 𝑥) 48,10 48,10
𝑆2 = = = = 𝟓, 𝟑𝟒 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐
𝑛−1 10 − 1 9
Una vez que tenemos calculado la varianza, procedemos a determinar la desviación estándar calculando la
raíz cuadrada de la varianza:
48,10
𝑆= 𝑆2 = = 𝟐, 𝟑𝟏𝟏𝟖 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔
9
El resultado nos demuestra que el conjunto de datos se agrupan dentro de 2,3118 unidades alrededor de su
media (6,7 unidades). En otras palabras, hay una desviación de 2,3118 unidades con respecto a su media.
Desviación estándar
Tiempo de
estacionamiento N° de Vehículos EJEMPLO 2
(minutos)
0 – 59 12
La siguiente tabla de frecuencias
es obtenida de una muestra
60 – 119 35
referente a la ocupación total de
120 – 179 74 un estacionamiento privado en un
180 – 239 32 día.
240 – 359 21 Se desea calcular la desviación
360 – 1.440 44 estándar.
Desviación estándar
Marca de
Rango de Vehículos
Clase
tiempo
clase
(𝑥𝑖 )
(𝑓𝑖 ) 𝑓𝑖 ∗ 𝑥𝑖 SOLUCIÓN EJEMPLO 2
1 0 – 59 29,5 12 354 Primeramente, debemos calcular la
2 60 – 119 89,5 35 3.132,5
media aritmética de la tabla de
frecuencias. Al tener que calcular las
3 120 – 179 149,5 74 11.063 marcas de clase, nos apoyaremos
4 180 – 239 209,5 32 6.704 con una tabla:
σ𝑛𝑘=1 𝑓𝑖 (𝑥𝑖 )
5 240 – 359 299,5 21 6.289,5 𝑥ҧ =
𝑛
6 360 – 1.440 900 44 39.600 67.143
𝑥ҧ = ≅ 𝟑𝟎𝟖 𝒎𝒊𝒏𝒖𝒕𝒐𝒔
Total 218 67.143 218
Desviación estándar
SOLUCIÓN EJEMPLO 2
Marca de clase Vehículos
(𝑥𝑖 ) (𝑓𝑖 )
ഥ)
(𝑥𝑖 − 𝒙 ഥ)2
(𝑥𝑖 − 𝒙 ഥ)2 ∗ 𝑓𝑖
(𝑥𝑖 − 𝒙
29,5 12 -278,5 77.562,25 930.747
89,5 35 -218,5 47.742,25 1.670.978,75
149,5 74 -158,5 25.122,25 1.859.046,50
209,5 32 -98,5 9.702,25 310.472
299,5 21 -8,5 72,25 1.517,25
900 44 592 350.464 15.420.416
Total 218 20.193.177,50
Desviación estándar
SOLUCIÓN EJEMPLO 2
Por último, realizamos el reemplazo de los valores en la fórmula de la varianza muestral:
𝑁 2
σ (𝑓
𝑖=1 𝑖 )(𝑥𝑖 − 𝑥)
ҧ
𝑆2 =
𝑛−1
20.193.177,50
𝑆2 =
218 − 1
20.193.177,50
𝑆2 = = 𝟗𝟑. 𝟎𝟓𝟔, 𝟏𝟐 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐
217
Desviación estándar
SOLUCIÓN EJEMPLO 2
Una vez que tenemos calculado la varianza, procedemos a determinar la
desviación estándar calculando la raíz cuadrada de la varianza:
20.193.177,50
𝑆= 𝑆2 = = 𝟑𝟎𝟓, 𝟎𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔
217
El resultado nos demuestra que el conjunto de datos se agrupan dentro
de 305,05 minutos alrededor de la media (308 minutos). En otras
palabras, hay una desviación de 305,05 minutos con respecto a la media.
¿De que manera podemos
determinar porcentualmente la
dispersión de los datos?
Determinando el
COEFICIENTE DE VARIACIÓN
Coeficiente de variación de
Pearson
GENERALIDADES
•Es una medida de variación relativa que expresa
la magnitud de la desviación estándar en
relación con la magnitud de la media aritmética.
•Muestra la relación entre la posición y
dispersión de un conjunto de datos.
Las fórmulas para determinar
el CV son las siguientes:
Coeficiente de variación de
Pearson
FÓRMULAS
•Para una población, la fórmula es la siguiente:
𝜎
𝐶𝑉 = ∗ 100%
𝜇
•Para una muestra:
𝑆
𝐶𝑉 = ∗ 100%
𝑥ҧ
Interpretación del CV de
Pearson
Coeficiente de variación de
Pearson
INTERPRETACIÓN
• Si el coeficiente de variación (CV) es igual a cero, la
representatividad de la media es máxima.
• Si el CV es mayor a 0,5 o 50%, se puede considerar que la media
tiene una baja representatividad, dado, que la dispersión de los
datos es inferior a la media aritmética.
• Si el CV es mayor a 1 o 100% se debe rechazar la media aritmética
como parámetro representativo de los datos de distribución.
Tomaremos los dos ejemplos de la
desviación estándar para determinar
sus coeficientes de variación
Coeficiente de variación de
Pearson
EJEMPLO 1
El siguiente conjunto de datos pertenecen a una muestra.
3, 4, 5, 6, 6, 7, 8, 9, 9, 10
El cálculo de la media:
3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 9 + 10 67
𝑥ҧ = = = 𝟔, 𝟕 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔
10 10
El cálculo de la desviación estándar:
48,10
𝑆= 𝑆2 = = 𝟐, 𝟑𝟏𝟏𝟖 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔
9
Una vez que tenemos calculado la
media aritmética y la desviación
estándar del conjunto de datos,
procedemos a aplicar la fórmula del CV
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 1
El conjunto de datos pertenece a una muestra, por lo cual, tomaremos la siguiente
fórmula:
𝑆
𝐶𝑉 = ∗ 100%
𝑥ҧ
Procedemos a realizar el reemplazo de los valores en la fórmula:
2,3118
𝐶𝑉 = ∗ 100% = 𝟑𝟒, 𝟓𝟎%
6,7
Según lo que demuestra el resultado del CV, podemos decir que la media tiene una
alta representatividad con respecto al conjunto de datos, en otras palabras, la
variación de los datos con respecto a su media es baja.
Coeficiente de variación de
Pearson
Tiempo de
estacionamiento N° de Vehículos EJEMPLO 2
(minutos)
0 – 59 12
La siguiente tabla de frecuencias
es obtenida de una muestra
60 – 119 35
referente a la ocupación total de
120 – 179 74 un estacionamiento privado en un
180 – 239 32 día.
240 – 359 21
Se desea calcular la desviación
360 – 1.440 44 estándar.
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 2
La media aritmética de la tabla de frecuencias es:
67.143
𝑥ҧ = ≅ 𝟑𝟎𝟖 𝒎𝒊𝒏𝒖𝒕𝒐𝒔
218
El cálculo de la desviación estándar:
20.193.177,50
𝑆= 𝑆2 = = 𝟑𝟎𝟓, 𝟎𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔
217
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 2
El conjunto de datos agrupados en intervalos de clase pertenece a una muestra, por lo cual, tomaremos la
siguiente fórmula:
𝑆
𝐶𝑉 = ∗ 100%
𝑥ҧ
Procedemos a realizar el reemplazo de los valores en la fórmula:
305,5
𝐶𝑉 = ∗ 100% = 𝟗𝟗, 𝟏𝟗%
308
En este caso, podemos observar que el CV está demasiado cerca al 100%, por lo cual, la media tiene una baja
representatividad con respecto al conjunto de datos. En otras palabras, existe una alta variabilidad en el
conjunto de datos, por consiguiente, la media no sería la medida más adecuada para realizar análisis
descriptivos, dado que no demuestra la realidad del conjunto de datos.
El Coeficiente de Variación es más
eficiente cuando se usa para
comparar la dispersión de dos
conjuntos de datos
Veamos el siguiente ejemplo
Coeficiente de variación de
Pearson
EJEMPLO 3
•A continuación se muestra los beneficios de
dos grupos de empresas, A y B.
• ¿Qué grupo tiene un beneficio medio más
representativo?
Coeficiente de variación de
Pearson
Grupo de empresas A
Grupo de empresas B
(expresado en millones de euros) (expresado en millones de dólares)
Marca de clase N° de empresas Marca de clase N° de empresas
1 4 1 2
1,1 2
1,1 6
1,2 4
1,2 6 1,3 4
1,3 2 1,4 4
1,5 2
1,4 2
1,6 2
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 3
Primeramente, determinamos la media muestral para cada grupo:
Grupo A
σ𝑚
𝑘=1 𝑓𝑖 (𝑥𝑖 ) 23,2
𝑥𝐴ҧ = = = 𝟏, 𝟏𝟔 𝒎𝒊𝒍𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒆𝒖𝒓𝒐𝒔
𝑛 20
Grupo B
σ𝑚𝑘=1 𝑓𝑖 (𝑥𝑖 ) 26
𝑥ҧ𝐵 = = = 𝟏, 𝟑 𝒎𝒊𝒍𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒅ó𝒍𝒂𝒓𝒆𝒔
𝑛 20
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 3
Ahora determinamos las desviaciones estándar de cada grupo:
Grupo A
𝑆𝐴 = 𝑆 2 = 0,01515 = 𝟎, 𝟏𝟐 𝒎𝒊𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒆𝒖𝒓𝒐𝒔
Grupo B
𝑆𝐵 = 𝑆 2 = 0,03157 = 𝟎, 𝟏𝟕 𝒎𝒊𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒅ó𝒍𝒂𝒓𝒆𝒔
Coeficiente de variación de
Pearson
SOLUCIÓN EJEMPLO 3
Por último, calculamos el CV de • Respecto a la media, el beneficio medio del
cada grupo: grupo B es mucho más variable que del grupo A,
Grupo A dado que su porcentaje es mayor.
0,12
𝐶𝑉𝐴 = ∗ 100% = 𝟏𝟎, 𝟑𝟒% • El beneficio medio del grupo A es más
representativo, a comparación del grupo B,
1,16
Grupo B debido que su porcentaje es menor.
0,17 • Por lo tanto, el beneficio medio más
𝐶𝑉𝐵 = ∗ 100% = 𝟏𝟑, 𝟎𝟖% representativo de ambos grupos es de 1,16 M de
1,3
euros, perteneciente al grupo de empresas A.
SIMETRÍA Y SESGO
SIMETRÍA Y SESGO
GENERALIDADES
Parte de las características que presenta un conjunto de
datos es la forma de la distribución.
Un conjunto de datos puede adoptar tres tipos de forma:
• Simétrico
• Sesgado a la derecha o positivamente sesgado
• Sesgado a la izquierda o negativamente sesgado
Veamos cada uno
SIMETRÍA Y SESGO
SIMÉTRICO
En un conjunto simétrico
de observaciones la media,
mediana y moda son
iguales, y los datos se
dispersan uniformemente
en torno a estas.
SIMETRÍA Y SESGO
SESGO POSITIVO
Un conjunto de valores se
encuentra sesgado a la derecha
o es positivamente sesgado si
existe un solo pico y los valores
se extienden mucho más allá a
la derecha del pico que a la
izquierda. En este caso, la media
es más que grande que la
mediana y la moda.
SIMETRÍA Y SESGO
SESGO NEGATIVO
Un conjunto de valores se
encuentra sesgado a la
izquierda o es negativamente
sesgado si existe un solo pico y
los valores se extienden mucho
más allá a la izquierda del pico
que a la derecha. En este caso, la
media es menor que la mediana
y la moda.
¿Cómo se calcula el sesgo de
un conjunto de datos?
Mediante el
COEFICIENTE DE SESGO DE
PEARSON
COEFICIENTE DE SESGO DE PEARSON
GENERALIDADES
El profesor Karl Pearson propone una fórmula sencilla
para calcular el sesgo de un conjunto de datos. Tal
fórmula se muestra a continuación:
3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑠𝑘 =
𝑆
Esta fórmula se basa en la diferencia entre la media y la
mediana.
¿Cómo se interpreta el resultado del
coeficiente de sesgo de Pearson?
COEFICIENTE DE SESGO DE PEARSON
INTERPRETACIÓN
De acuerdo con esta expresión, el sesgo puede
variar de -3 hasta +3. Un valor próximo a -3, como
-2,57, indica un sesgo negativo considerable; otro
como 1,63 indica un sesgo positivo moderado; y
un valor de 0, que ocurre cuando la media y la
mediana son iguales, indica que la distribución es
simétrica y que no hay ningún sesgo.
Veamos el siguiente ejemplo
COEFICIENTE DE SESGO DE PEARSON
EJEMPLO 1
En seguida aparecen las utilidades por acción que obtuvo una
muestra de 15 compañías de software durante el año 2013. Las
utilidades por acción se encuentra ordenadas de manera ascendente

Calcule la media, la mediana y la desviación estándar. Determine el


coeficiente de sesgo. ¿Qué concluye respecto a la forma de la
distribución?
COEFICIENTE DE SESGO DE PEARSON
SOLUCIÓN EJEMPLO 1
Se procede a calcular la media, mediana y desviación estándar:
74,26
• 𝑥ҧ = = $4,95
15
(𝑛+1) 15+1
• 𝑀𝑒 = = = 8 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
2 2
• La mediana es 3,18 dólares
• 𝑆 = 𝑆 2 = $𝟓, 𝟐𝟐
COEFICIENTE DE SESGO DE PEARSON
SOLUCIÓN EJEMPLO 1
Por último, reemplazamos los valores en la fórmula de
coeficiente de sesgo de Pearson:
3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 3(4,95 − 3,18)
𝑠𝑘 = = = 1,017
𝑆 5,22
El resultado demuestra que existe un sesgo positivo
moderado en los datos de las utilidades por acción.

También podría gustarte