Este documento presenta los conceptos de varianza y desviación estándar. Explica que la varianza mide la dispersión de los datos respecto a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza y mide la variabilidad de los datos en las unidades originales. También incluye fórmulas y ejemplos resueltos para calcular la varianza y desviación estándar poblacional y muestral.
0 calificaciones0% encontró este documento útil (0 votos)
8 vistas64 páginas
Este documento presenta los conceptos de varianza y desviación estándar. Explica que la varianza mide la dispersión de los datos respecto a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza y mide la variabilidad de los datos en las unidades originales. También incluye fórmulas y ejemplos resueltos para calcular la varianza y desviación estándar poblacional y muestral.
Este documento presenta los conceptos de varianza y desviación estándar. Explica que la varianza mide la dispersión de los datos respecto a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza y mide la variabilidad de los datos en las unidades originales. También incluye fórmulas y ejemplos resueltos para calcular la varianza y desviación estándar poblacional y muestral.
Este documento presenta los conceptos de varianza y desviación estándar. Explica que la varianza mide la dispersión de los datos respecto a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza y mide la variabilidad de los datos en las unidades originales. También incluye fórmulas y ejemplos resueltos para calcular la varianza y desviación estándar poblacional y muestral.
Descargue como PDF, TXT o lea en línea desde Scribd
Descargar como pdf o txt
Está en la página 1de 64
Varianza
Se presenta a continuación una EJEMPLO 2
tabla de frecuencias de las edades de una población, que Rango de Clase Personas Edades se encuentra distribuido entre intervalos de clase. 1 0–5 7 2 6 – 10 13 Se desea calcular la varianza. 3 11 – 15 18 4 16 - 20 12 Varianza SOLUCIÓN EJEMPLO 2 Los datos corresponden a una población, por lo cual, la fórmula a utilizar es de la varianza poblacional para un conjunto de datos agrupados en intervalos de clase: σ 𝑘 2 2 𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇) 𝜎 = 𝑁 Varianza Primeramente, debemos calcular SOLUCIÓN EJEMPLO 2 la media aritmética de la tabla de frecuencias. Al tener que calcular Rango de Marca de Personas las marcas de clase, nos Clase Edades clase (𝑓𝑖 ) 𝑓𝑖 ∗ 𝑥𝑖 (𝑥𝑖 ) apoyaremos con una tabla: σ𝑁 1 0–5 2,5 7 17,5 𝑘=1 𝑓𝑖 (𝑥𝑖 ) 𝜇= 2 6 – 10 8 13 104 𝑁 571,5 3 11 – 15 13 18 234 𝜇= = 𝟏𝟏, 𝟒𝟑 𝒂ñ𝒐𝒔 50 4 16 - 20 18 12 216 Total 50 571,5 Varianza SOLUCIÓN EJEMPLO 2 Una vez que tenemos calculado la media, procedemos a𝑘 realizar los cálculos del 2 numerador σ𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇) , para ello, necesitaremos apoyarnos con una tabla: Varianza SOLUCIÓN EJEMPLO 2 Marca de clase Personas (𝑥𝑖 ) (𝑓𝑖 ) (𝑥𝑖 − 𝝁) (𝑥𝑖 − 𝝁)2 (𝑥𝑖 − 𝝁)2 ∗ 𝑓𝑖 2,5 7 (2,5 - 11,43) = -8,93 (−8,93)2 = 79,7449 79,7449 x 7 = 558,2143
𝑖=1 Varianza SOLUCIÓN EJEMPLO 2 Por último, realizamos el reemplazo de los valores en la fórmula de la varianza muestral: 𝑘 2 2 σ (𝑓 𝑖=1 𝑖 )(𝑥𝑖 − 𝜇) 𝜎 = 𝑁 2 1.273,505 𝜎 = = 𝟐𝟓, 𝟒𝟕 𝒂ñ𝒐𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐 50 El resultado nos demuestra que la dispersión de los datos con respecto a su media (11,43 años) es de 25,47 años al cuadrado. Para tomar en consideración Varianza CONSIDERACIONES • Cuando el valor de la varianza de un conjunto de datos es grande, se dice que tiene mayor variabilidad. • Si la varianza de un conjunto de datos es pequeña, entonces, la variabilidad es pequeña. Este conocimiento es útil cuando se comparan dos o más conjunto de datos. • También es claro que a mayor variabilidad (mayor extensión de los datos) mayor será; el recorrido o rango, el recorrido intercuartílico, la varianza, y como consecuencia, la desviación estándar. Varianza CONSIDERACIONES (CONTINUACIÓN) • Si se quiere describir la variabilidad de un solo conjunto de datos, la varianza no es de gran ayuda, dado, que ésta no expresa las unidades originales, sino en unidades al cuadrado. En tal caso, la desviación estándar es la más indicada para realizar una descripción de la variabilidad de un conjunto de datos. • Cuando la varianza se usa como medida descriptiva, se puede considerar, como un cálculo intermedio para obtener la desviación estándar (muestral o poblacional). Este paso intermedio es necesario para regresar a la unidad original, el cual, se logra al obtener la raíz cuadrada del valor de la varianza (desviación estándar). DESVIACIÓN ESTÁNDAR O TÍPICA DESVIACIÓN ESTÁNDAR GENERALIDADES • Es la medida de variación más importante y útil. Es la raíz cuadrada del promedio de los cuadrados de las desviaciones que hay en las observaciones con respecto a su media. • En otras palabras, es la raíz cuadrada de la varianza muestral o poblacional. • La fórmula para determinar la desviación estándar es diferente para una población como para una muestra, al igual que la varianza. Fórmulas para calcular la desviación estándar poblacional Desviación estándar poblacional • Para un simple conjunto de Dónde: datos la fórmula es la siguiente: σ𝑁 2 • 𝝈= Desviación Estándar Poblacional 𝑖=1(𝑥𝑖 − 𝜇) 𝜎= 𝜎2 = 𝑁 • 𝒙𝒊 = marca de clase • Para una tabla de frecuencias distribuido por intervalos de • 𝑵 = número total de datos de la población. clase: • 𝒇𝒊 = frecuencia absoluta del intervalo i. σ𝑘𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝜇)2 𝜎= 𝜎2 = 𝑁 • 𝒌 = número total de clases o intervalos. Fórmulas para calcular la desviación estándar muestral Desviación estándar muestral Dónde: • Para un simple conjunto de datos la fórmula es la siguiente: • 𝑺 = Desviación Estándar Muestral σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 𝑆= 𝑆2 = • 𝒙𝒊 = marca de clase 𝑛−1 • Para una tabla de frecuencias • 𝒏 = número total de datos de la distribuido por intervalos de clase: muestra. σ𝑘𝑖=1(𝑓𝑖 )(𝑥𝑖 − 𝑥)ҧ 2 • 𝒇𝒊 = frecuencia absoluta del intervalo i. 𝑆= 𝑆2 = 𝑛−1 • 𝒌 = número total de clases o intervalos. Características de la desviación estándar Desviación estándar CARACTERÍSTICAS • La desviación estándar es una medida de variación de todos los valores con respecto a la media. • El valor de la desviación estándar suele ser positivo. Sólo es igual a cero cuando todos los valores de los datos son el mismo número. Además, valores grandes (desviación estándar) indican mayores cantidades de variación. • El valor de la desviación estándar se puede incrementar de manera drástica con la inclusión de uno o más datos distantes (valores de datos que se encuentran muy lejos de los demás). • Las unidades de la desviación estándar (como minutos, pies, libras, kilogramos, etcétera) son las mismas de los datos originales. Tomaremos los ejemplos de la varianza para determinar sus desviaciones estándar Desviación estándar EJEMPLO 1
El siguiente conjunto de datos
pertenecen a una muestra. 3, 4, 5, 6, 6, 7, 8, 9, 9, 10 •Calcular la desviación estándar Realizamos todas las operaciones para determinar la varianza Desviación estándar SOLUCIÓN EJEMPLO 1 La varianza es: σ𝑁 ҧ 2 𝑖=1(𝑥𝑖 − 𝑥) 48,10 48,10 𝑆2 = = = = 𝟓, 𝟑𝟒 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐 𝑛−1 10 − 1 9 Una vez que tenemos calculado la varianza, procedemos a determinar la desviación estándar calculando la raíz cuadrada de la varianza: 48,10 𝑆= 𝑆2 = = 𝟐, 𝟑𝟏𝟏𝟖 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔 9 El resultado nos demuestra que el conjunto de datos se agrupan dentro de 2,3118 unidades alrededor de su media (6,7 unidades). En otras palabras, hay una desviación de 2,3118 unidades con respecto a su media. Desviación estándar Tiempo de estacionamiento N° de Vehículos EJEMPLO 2 (minutos) 0 – 59 12 La siguiente tabla de frecuencias es obtenida de una muestra 60 – 119 35 referente a la ocupación total de 120 – 179 74 un estacionamiento privado en un 180 – 239 32 día. 240 – 359 21 Se desea calcular la desviación 360 – 1.440 44 estándar. Desviación estándar Marca de Rango de Vehículos Clase tiempo clase (𝑥𝑖 ) (𝑓𝑖 ) 𝑓𝑖 ∗ 𝑥𝑖 SOLUCIÓN EJEMPLO 2 1 0 – 59 29,5 12 354 Primeramente, debemos calcular la 2 60 – 119 89,5 35 3.132,5 media aritmética de la tabla de frecuencias. Al tener que calcular las 3 120 – 179 149,5 74 11.063 marcas de clase, nos apoyaremos 4 180 – 239 209,5 32 6.704 con una tabla: σ𝑛𝑘=1 𝑓𝑖 (𝑥𝑖 ) 5 240 – 359 299,5 21 6.289,5 𝑥ҧ = 𝑛 6 360 – 1.440 900 44 39.600 67.143 𝑥ҧ = ≅ 𝟑𝟎𝟖 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 Total 218 67.143 218 Desviación estándar SOLUCIÓN EJEMPLO 2 Marca de clase Vehículos (𝑥𝑖 ) (𝑓𝑖 ) ഥ) (𝑥𝑖 − 𝒙 ഥ)2 (𝑥𝑖 − 𝒙 ഥ)2 ∗ 𝑓𝑖 (𝑥𝑖 − 𝒙 29,5 12 -278,5 77.562,25 930.747 89,5 35 -218,5 47.742,25 1.670.978,75 149,5 74 -158,5 25.122,25 1.859.046,50 209,5 32 -98,5 9.702,25 310.472 299,5 21 -8,5 72,25 1.517,25 900 44 592 350.464 15.420.416 Total 218 20.193.177,50 Desviación estándar SOLUCIÓN EJEMPLO 2 Por último, realizamos el reemplazo de los valores en la fórmula de la varianza muestral: 𝑁 2 σ (𝑓 𝑖=1 𝑖 )(𝑥𝑖 − 𝑥) ҧ 𝑆2 = 𝑛−1 20.193.177,50 𝑆2 = 218 − 1 20.193.177,50 𝑆2 = = 𝟗𝟑. 𝟎𝟓𝟔, 𝟏𝟐 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐 217 Desviación estándar SOLUCIÓN EJEMPLO 2 Una vez que tenemos calculado la varianza, procedemos a determinar la desviación estándar calculando la raíz cuadrada de la varianza: 20.193.177,50 𝑆= 𝑆2 = = 𝟑𝟎𝟓, 𝟎𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 217 El resultado nos demuestra que el conjunto de datos se agrupan dentro de 305,05 minutos alrededor de la media (308 minutos). En otras palabras, hay una desviación de 305,05 minutos con respecto a la media. ¿De que manera podemos determinar porcentualmente la dispersión de los datos? Determinando el COEFICIENTE DE VARIACIÓN Coeficiente de variación de Pearson GENERALIDADES •Es una medida de variación relativa que expresa la magnitud de la desviación estándar en relación con la magnitud de la media aritmética. •Muestra la relación entre la posición y dispersión de un conjunto de datos. Las fórmulas para determinar el CV son las siguientes: Coeficiente de variación de Pearson FÓRMULAS •Para una población, la fórmula es la siguiente: 𝜎 𝐶𝑉 = ∗ 100% 𝜇 •Para una muestra: 𝑆 𝐶𝑉 = ∗ 100% 𝑥ҧ Interpretación del CV de Pearson Coeficiente de variación de Pearson INTERPRETACIÓN • Si el coeficiente de variación (CV) es igual a cero, la representatividad de la media es máxima. • Si el CV es mayor a 0,5 o 50%, se puede considerar que la media tiene una baja representatividad, dado, que la dispersión de los datos es inferior a la media aritmética. • Si el CV es mayor a 1 o 100% se debe rechazar la media aritmética como parámetro representativo de los datos de distribución. Tomaremos los dos ejemplos de la desviación estándar para determinar sus coeficientes de variación Coeficiente de variación de Pearson EJEMPLO 1 El siguiente conjunto de datos pertenecen a una muestra. 3, 4, 5, 6, 6, 7, 8, 9, 9, 10 El cálculo de la media: 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 9 + 10 67 𝑥ҧ = = = 𝟔, 𝟕 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔 10 10 El cálculo de la desviación estándar: 48,10 𝑆= 𝑆2 = = 𝟐, 𝟑𝟏𝟏𝟖 𝒖𝒏𝒊𝒅𝒂𝒅𝒆𝒔 9 Una vez que tenemos calculado la media aritmética y la desviación estándar del conjunto de datos, procedemos a aplicar la fórmula del CV Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 1 El conjunto de datos pertenece a una muestra, por lo cual, tomaremos la siguiente fórmula: 𝑆 𝐶𝑉 = ∗ 100% 𝑥ҧ Procedemos a realizar el reemplazo de los valores en la fórmula: 2,3118 𝐶𝑉 = ∗ 100% = 𝟑𝟒, 𝟓𝟎% 6,7 Según lo que demuestra el resultado del CV, podemos decir que la media tiene una alta representatividad con respecto al conjunto de datos, en otras palabras, la variación de los datos con respecto a su media es baja. Coeficiente de variación de Pearson Tiempo de estacionamiento N° de Vehículos EJEMPLO 2 (minutos) 0 – 59 12 La siguiente tabla de frecuencias es obtenida de una muestra 60 – 119 35 referente a la ocupación total de 120 – 179 74 un estacionamiento privado en un 180 – 239 32 día. 240 – 359 21 Se desea calcular la desviación 360 – 1.440 44 estándar. Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 2 La media aritmética de la tabla de frecuencias es: 67.143 𝑥ҧ = ≅ 𝟑𝟎𝟖 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 218 El cálculo de la desviación estándar: 20.193.177,50 𝑆= 𝑆2 = = 𝟑𝟎𝟓, 𝟎𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 217 Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 2 El conjunto de datos agrupados en intervalos de clase pertenece a una muestra, por lo cual, tomaremos la siguiente fórmula: 𝑆 𝐶𝑉 = ∗ 100% 𝑥ҧ Procedemos a realizar el reemplazo de los valores en la fórmula: 305,5 𝐶𝑉 = ∗ 100% = 𝟗𝟗, 𝟏𝟗% 308 En este caso, podemos observar que el CV está demasiado cerca al 100%, por lo cual, la media tiene una baja representatividad con respecto al conjunto de datos. En otras palabras, existe una alta variabilidad en el conjunto de datos, por consiguiente, la media no sería la medida más adecuada para realizar análisis descriptivos, dado que no demuestra la realidad del conjunto de datos. El Coeficiente de Variación es más eficiente cuando se usa para comparar la dispersión de dos conjuntos de datos Veamos el siguiente ejemplo Coeficiente de variación de Pearson EJEMPLO 3 •A continuación se muestra los beneficios de dos grupos de empresas, A y B. • ¿Qué grupo tiene un beneficio medio más representativo? Coeficiente de variación de Pearson Grupo de empresas A Grupo de empresas B (expresado en millones de euros) (expresado en millones de dólares) Marca de clase N° de empresas Marca de clase N° de empresas 1 4 1 2 1,1 2 1,1 6 1,2 4 1,2 6 1,3 4 1,3 2 1,4 4 1,5 2 1,4 2 1,6 2 Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 3 Primeramente, determinamos la media muestral para cada grupo: Grupo A σ𝑚 𝑘=1 𝑓𝑖 (𝑥𝑖 ) 23,2 𝑥𝐴ҧ = = = 𝟏, 𝟏𝟔 𝒎𝒊𝒍𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒆𝒖𝒓𝒐𝒔 𝑛 20 Grupo B σ𝑚𝑘=1 𝑓𝑖 (𝑥𝑖 ) 26 𝑥ҧ𝐵 = = = 𝟏, 𝟑 𝒎𝒊𝒍𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒅ó𝒍𝒂𝒓𝒆𝒔 𝑛 20 Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 3 Ahora determinamos las desviaciones estándar de cada grupo: Grupo A 𝑆𝐴 = 𝑆 2 = 0,01515 = 𝟎, 𝟏𝟐 𝒎𝒊𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒆𝒖𝒓𝒐𝒔 Grupo B 𝑆𝐵 = 𝑆 2 = 0,03157 = 𝟎, 𝟏𝟕 𝒎𝒊𝒍𝒐𝒏𝒆𝒔 𝒅𝒆 𝒅ó𝒍𝒂𝒓𝒆𝒔 Coeficiente de variación de Pearson SOLUCIÓN EJEMPLO 3 Por último, calculamos el CV de • Respecto a la media, el beneficio medio del cada grupo: grupo B es mucho más variable que del grupo A, Grupo A dado que su porcentaje es mayor. 0,12 𝐶𝑉𝐴 = ∗ 100% = 𝟏𝟎, 𝟑𝟒% • El beneficio medio del grupo A es más representativo, a comparación del grupo B, 1,16 Grupo B debido que su porcentaje es menor. 0,17 • Por lo tanto, el beneficio medio más 𝐶𝑉𝐵 = ∗ 100% = 𝟏𝟑, 𝟎𝟖% representativo de ambos grupos es de 1,16 M de 1,3 euros, perteneciente al grupo de empresas A. SIMETRÍA Y SESGO SIMETRÍA Y SESGO GENERALIDADES Parte de las características que presenta un conjunto de datos es la forma de la distribución. Un conjunto de datos puede adoptar tres tipos de forma: • Simétrico • Sesgado a la derecha o positivamente sesgado • Sesgado a la izquierda o negativamente sesgado Veamos cada uno SIMETRÍA Y SESGO SIMÉTRICO En un conjunto simétrico de observaciones la media, mediana y moda son iguales, y los datos se dispersan uniformemente en torno a estas. SIMETRÍA Y SESGO SESGO POSITIVO Un conjunto de valores se encuentra sesgado a la derecha o es positivamente sesgado si existe un solo pico y los valores se extienden mucho más allá a la derecha del pico que a la izquierda. En este caso, la media es más que grande que la mediana y la moda. SIMETRÍA Y SESGO SESGO NEGATIVO Un conjunto de valores se encuentra sesgado a la izquierda o es negativamente sesgado si existe un solo pico y los valores se extienden mucho más allá a la izquierda del pico que a la derecha. En este caso, la media es menor que la mediana y la moda. ¿Cómo se calcula el sesgo de un conjunto de datos? Mediante el COEFICIENTE DE SESGO DE PEARSON COEFICIENTE DE SESGO DE PEARSON GENERALIDADES El profesor Karl Pearson propone una fórmula sencilla para calcular el sesgo de un conjunto de datos. Tal fórmula se muestra a continuación: 3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 𝑠𝑘 = 𝑆 Esta fórmula se basa en la diferencia entre la media y la mediana. ¿Cómo se interpreta el resultado del coeficiente de sesgo de Pearson? COEFICIENTE DE SESGO DE PEARSON INTERPRETACIÓN De acuerdo con esta expresión, el sesgo puede variar de -3 hasta +3. Un valor próximo a -3, como -2,57, indica un sesgo negativo considerable; otro como 1,63 indica un sesgo positivo moderado; y un valor de 0, que ocurre cuando la media y la mediana son iguales, indica que la distribución es simétrica y que no hay ningún sesgo. Veamos el siguiente ejemplo COEFICIENTE DE SESGO DE PEARSON EJEMPLO 1 En seguida aparecen las utilidades por acción que obtuvo una muestra de 15 compañías de software durante el año 2013. Las utilidades por acción se encuentra ordenadas de manera ascendente
Calcule la media, la mediana y la desviación estándar. Determine el
coeficiente de sesgo. ¿Qué concluye respecto a la forma de la distribución? COEFICIENTE DE SESGO DE PEARSON SOLUCIÓN EJEMPLO 1 Se procede a calcular la media, mediana y desviación estándar: 74,26 • 𝑥ҧ = = $4,95 15 (𝑛+1) 15+1 • 𝑀𝑒 = = = 8 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 2 2 • La mediana es 3,18 dólares • 𝑆 = 𝑆 2 = $𝟓, 𝟐𝟐 COEFICIENTE DE SESGO DE PEARSON SOLUCIÓN EJEMPLO 1 Por último, reemplazamos los valores en la fórmula de coeficiente de sesgo de Pearson: 3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 3(4,95 − 3,18) 𝑠𝑘 = = = 1,017 𝑆 5,22 El resultado demuestra que existe un sesgo positivo moderado en los datos de las utilidades por acción.