Estadística y Control de Calidad

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 46

Estadística y control de calidad

JUAN ALBERTO LOPEZ VEJAR

Unidad 1. Estadística Descriptiva

Jesús Ernesto Guerrero Gallegos

09/02/2022
Unidad. 1: Estadística Descriptiva

DEFINICIÓN Y CLASIFICACIÓN DE VARIABLES La estadística descriptiva es la


rama de las Matemáticas que recolecta, presenta y caracteriza un conjunto de
datos (por ejemplo, edad de una población, altura de los estudiantes de una
escuela, temperatura en los meses de verano, etc.) con el fin de describir
apropiadamente las diversas características de ese conjunto. Al conjunto de los
distintos valores numéricos que adopta un carácter cuantitativo se llama variable
estadística. Las variables pueden ser de dos tipos:

• Variables cualitativas o categóricas: no se pueden medir numéricamente (por


ejemplo: nacionalidad, color de la piel, sexo).

• Variables cuantitativas: tienen valor numérico (edad, precio de un producto,


ingresos anuales). Las variables también se pueden clasificar en:

• Variables unidimensionales: sólo recogen información sobre una característica


(por ejemplo: edad de los alumnos de una clase).

• Variables bidimensionales: recogen información sobre dos características de la


población (por ejemplo: edad y altura de los alumnos de una clase).

• Variables pluridimensionales: recogen información sobre tres o más


características (por ejemplo: edad, altura y peso de los alumnos de una clase). Por
su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

• Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo:
número de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá
ser 3.45).

• Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo,
la velocidad de un vehículo puede ser 90.4 km/h, 94.57 km/h...etc. Cuando se
estudia el comportamiento de una variable hay que distinguir los siguientes
conceptos:

• Individuo: cualquier elemento que porte información sobre el fenómeno que se


estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un
individuo; si se estudia el precio de la vivienda, cada vivienda es un individuo.

• Población: conjunto de todos los individuos (personas, objetos, animales, etc.)


que porten información sobre el fenómeno que se estudia. Por ejemplo, si se
estudia el precio de la vivienda en una ciudad, la población será el total de las
viviendas de dicha ciudad.
• Muestra: subconjunto que seleccionado de una población. Por ejemplo, si se
estudia el precio de la vivienda de una ciudad, lo normal será no recoger
información sobre todas las viviendas de la ciudad Facultad de Contaduría y
Administración. UNAM Estadística descriptiva Autor: Dr. José Manuel Becerra
Espinosa 2 (sería una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo. Las
variables aleatorias son variables que son seleccionadas al azar o por procesos
aleatorios. DATOS. CLASIFICACIÓN, ORGANIZACIÓN Y CONSTRUCCIÓN DE
BLOQUES ESTADÍSTICOS Los datos son medidas y/o números recopilados a
partir de la observación. Los datos pueden concebirse como información numérica
necesaria para ayudar a tomar una decisión con más bases en una situación
particular. Existen muchos métodos mediante los cuales se pueden obtener datos
necesarios. Primero, se puede buscar datos ya publicados por otras fuentes.
Segundo, se puede diseñar un experimento. En tercer lugar, se puede conducir un
estudio. Cuarto, se pueden hacer observaciones del comportamiento, actitudes u
opiniones de los individuos en los que se está interesado. Los datos se pueden
clasificar en:

• Datos discretos. Son respuestas numéricas que surgen de un proceso de conteo.

• Datos continuos. Son respuestas numéricas que surgen de un proceso de


medición. ESCALAS DE MEDICIÓN Medir en el campo de las ciencias exactas es
comparar una magnitud con otra, tomada de manera arbitraria como referencia,
denominada patrón y expresar cuántas veces la contiene. En el campo de las
ciencias sociales medir es “el proceso de vincular conceptos abstractos con
indicadores empíricos”. Al resultado de medir lo se le llama medida. La medición
de las variables puede realizarse por medio de cuatro escalas de medición: la
nominal, ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación
de las variables, el diseño de las preguntas para medir variables, e incluso indican
el tipo de análisis estadístico apropiado para el tratamiento de los datos. Una
característica esencial de la medición es la dependencia que tiene de la
posibilidad de variación. La validez y la confiabilidad de la medición de una
variable depende de las decisiones que se tomen para operarla y lograr una
adecuada comprensión del concepto evitando imprecisiones y ambigüedades, en
caso contrario, la variable corre el riesgo inherente de ser invalidada debido a que
no produce información confiable. a) Medición Nominal. En este nivel de medición
se establecen categorías distintivas que no implican un orden específico. Por
ejemplo, si la unidad de análisis es un grupo de personas, para clasificarlas se
puede establecer la categoría sexo con dos niveles, masculino (M) y femenino (F),
los encuestados sólo tienen que señalar su género, no se requiere de un orden
real. Así, se pueden asignar números a estas categorías para su identificación:
1=M, 2=F o bien, se pueden invertir los números sin que afecte la medición: 1=F y
2=M. En resumen en la escala nominal se asignan números a eventos con el
propósito de identificarlos. Facultad de Contaduría y Administración. UNAM
Estadística descriptiva Autor: Dr. José Manuel Becerra Espinosa 3 b) Medición
Ordinal. Se establecen categorías con dos o más niveles que implican un orden
inherente entre si. La escala de medición ordinal es cuantitativa porque permite
ordenar a los eventos en función de la mayor o menor posesión de un atributo o
característica. Por ejemplo, en las instituciones escolares de nivel básico suelen
formar por estatura a los estudiantes, se desarrolla un orden cuantitativo pero no
suministra medidas de los sujetos. Estas escalas admiten la asignación de
números en función de un orden prescrito. Las formas más comunes de variables
ordinales son ítems (reactivos) actitudinales estableciendo una serie de niveles
que expresan una actitud de acuerdo o desacuerdo con respecto a algún
referente. Por ejemplo, ante el reactivo: Pemex debe privatizarse, el respondiente
puede marcar su respuesta de acuerdo a las siguientes alternativas: __
Totalmente de acuerdo __ De acuerdo __ Indiferente __ En desacuerdo __
Totalmente en desacuerdo Las anteriores alternativas de respuesta pueden
codificarse con números que van del uno al cinco que sugieren un orden
preestablecido pero no implican una distancia entre un número y otro. c) Medición
de Intervalo. La medición de intervalo posee las características de la medición
nominal y ordinal. Establece la distancia entre una medida y otra. La escala de
intervalo se aplica a variables continuas pero carece de un punto cero absoluto. El
ejemplo más representativo de este tipo de medición es un termómetro, cuando
registra cero grados centígrados de temperatura indica el nivel de congelación del
agua y cuando registra 100 grados centígrados indica el nivel de ebullición, el
punto cero es arbitrario no real, lo que significa que en este punto no hay ausencia
de temperatura. d) Medición de Razón. Una escala de medición de razón incluye
las características de los tres anteriores niveles de medición (nominal, ordinal e
intervalo). Determina la distancia exacta entre los intervalos de una categoría.
Adicionalmente tiene un punto cero absoluto, es decir, en el punto cero no existe
la característica o atributo que se mide. Las variables de ingreso, edad, número de
hijos, etc. son ejemplos de este tipo de escala. El nivel de medición de razón se
aplica tanto a variables continuas como discretas. ORGANIZACIÓN DE DATOS
Muchas veces uno se pregunta, ¿para qué sirven las encuestas que a veces se
hacen en la calle?, ¿Cómo saber si una estación de radio se escucha más que
otra? , ¿Cuál candidato puede ganar? La respuesta se comienza con la
recaudación de datos. Los datos son información que se recoge, esto puede ser
opinión de las personas sobre un tema, edad o sexo de encuestados, dónde viven,
cuántas personas viven en una casa, qué tipo de sangre tiene un grupo de
personas, etc. Hay datos que pueden ser de mucha utilidad a diferentes
profesionales en la toma de decisiones, para resolver problemas o para mostrar
resultados de investigaciones. Una vez que se haya recogido toda la información,
se procede a crear una base de datos, donde se registran todos los datos
obtenidos. Algunas veces, si los datos son muy complicados, se codifican, esto
quiere decir que se le coloca una palabra clave que identifica un título muy largo.
Cuando ya está elaborada la base de datos se parece a una tabla.

1.1 conceptos básicos de estadística

La estadística estudia la variabilidad sobre cuestiones de la realidad en los que


interviene el azar. Gracias a la estadística se consiguen una serie de datos
objetivables mediante los cuales se pueden extraer una serie de conclusiones.
La estadística son los métodos y procedimientos para recoger, clasificar, analizar y
representar los datos, así como obtener conclusiones a través de ellos, con la
intención de formular predicciones y ayudar en la toma de decisiones.
Existen dos tipos principales de estadística:

 Estadística descriptiva o estadística deductiva; es la parte de la estadística


que se ocupa de ordenar, sintetizar y representar gráficamente los
resultados recogidos durante la investigación. La estadística descriptiva no
solo describe, sino también analiza y representa los datos utilizando
elementos numéricos y gráficos.

 Estadística inferencial o estadística inductiva; es la estadística que tiene


como objetivo obtener conclusiones sobre el total de la población a partir de
los datos obtenidos en un subconjunto de la misma o grupo de elementos
representativos (muestra).

 
Los principales conceptos en estadística a partir de los cuales podemos
profundizar en ella son:

 Población; también conocido como universo o conjunto completo de


individuos que cumplen una serie de características y al que harán
referencia las conclusiones del estudio. A partir de la población de estudio
se elegirá una muestra representativa.

 Muestra; es un grupo acotado o reducido de todos los individuos de forman


la población. Se considera que una muestra es representativa cuando los
individuos de la misma son seleccionados al azar.

 Individuo; son las personas o elementos que contienen la información del


fenómeno que se pretende estudiar.

 Muestreo; es el procedimiento mediante el cual se obtiene una muestra. El


muestreo puede ser probabilístico o aleatorio y no probabilístico o no
aleatorio.

 Aleatoriedad de una muestra; es la característica mediante la cual todos los


miembros de una muestra tienen las mismas posibilidades de formar parte
de la misma.

 Homogeneidad de una muestra; es la característica mediante la cual las


variables de la muestra se presentan en la misma proporción que las de la
población.

 Independencia en la selección de una muestra; es la característica de la


muestra que determina que la selección de un individuo no influye en la
selección de otro individuo.

 Muestreo simple; es el muestreo de tipo probabilístico, mediante el cual


cualquier elemento de la población tiene la misma probabilidad de
pertenecer a la muestra.

 Muestreo sistemático; es el muestro de tipo probabilístico, en el que el


proceso de selección de la muestra se realiza mediante una regla
sistemática simple como es elegir un número determinado de individuos.

 Muestreo estratificado; es el muestreo de tipo probabilístico que divide la


población en subgrupos según algunas características para luego extraer
una muestra al azar de cada uno de los subgrupos.

 Muestreo por conglomerados; es el muestreo de tipo probabilístico en el


que se extrae una muestra al azar a partir de grupos naturales de individuos
dentro del universo o población.

 Muestreo de conveniencia; es el muestreo de tipo no probabilístico en el


que la muestra se selecciona por su facilidad o directamente se
autoselecciona.

 Muestreo por cuota; es el muestreo de tipo no probabilístico, en el que la


muestra se sustenta sobre el buen conocimiento de los grupos o estratos
de la población y en los individuos más representativos para sus fines.
También se denomina muestreo accidental.

 Muestreo por criterio; es el muestreo de tipo no probabilístico en el que el


investigador utiliza sus conocimientos sobre la población para elegir los
individuos de la muestra.

 Variables; son las características de la población que se representan en los


individuos que forman la muestra y que son susceptibles de ser medidas.
Las variables pueden ser cuantitativa o cualitativas.

 Parámetro; es un índice que resume una determinada característica de la


población, representándose por las letras griegas “μ” o mu y “σ” o ro. Un
parámetro es la función definida sobre los valores numéricos de
características medibles de una población.

 Estadístico; es un índice que resume una determinada característica de la


muestra, representándose por las letras del alfabeto latino “x” y “s”. Un
estadístico es la función definida sobre los valores numéricos de una
muestra.

La Estadística es la parte de las Matemáticas que se encarga del estudio de una


determinada característica en una población, recogiendo los datos, organizándolos
en tablas, representándolos gráficamente y analizándolos para sacar conclusiones
de dicha población.

Según se haga el estudio sobre todos los elementos de la población o sobre un


grupo de ella, vamos a diferenciar dos tipos de Estadística:

Estadística descriptiva. Realiza el estudio sobre la población completa,


observando una característica de la misma y calculando unos parámetros que den
información global de toda la población.

Estadística inferencial. Realiza el estudio descriptivo sobre un subconjunto de la


población llamado muestra y, posteriormente, extiende los resultados obtenidos a
toda la población.

Veamos dos ejemplos que nos aclaren estos dos tipos de Estadística:

Ejemplo 1. Cuando van a llegar cualquier tipo de elecciones, por ejemplo, las
elecciones generales, es muy frecuente que los medios de comunicación, nos
adelanten los resultados de encuestas o sondeos en los que se nos indica el
resultado final de dichas elecciones con una precisión y con un error
determinados. Estos sondeos son realizados por distintas técnicas sobre un grupo
(muestra) más o menos numeroso de personas. Naturalmente, cuánto mayor sea
el número de españoles con derecho a voto encuestados, mayor será la fiabilidad
de la encuesta, pero también mayor será el coste del sondeo. El estudio de esta

muestra se haría mediante estadística descriptiva, pero lo que nos interesa no es


el resultado de este estudio reducido sino el resultado final de las elecciones. El
paso de generalizar los resultados de la muestra a toda la población, se hace
mediante técnicas de Estadística inferencial. La elección de la muestra debe
hacerse mediante métodos de muestreo para que el estudio resulte lo más fiable
posible.
Ejemplo 2. Supongamos que estamos en un instituto con un número muy elevado
de alumnos y alumnas, por ejemplo 500, y queremos hacer un estudio estadístico
sobre su altura.

Un método sería pasar clase por clase y medirlos a todos, esto nos podría llevar
un tiempo considerable pero sería la forma más exacta de hacer dicho estudio,
aunque es fácil encontrarnos con ausencias y tendríamos que volver varios días y
pasar lista para conseguir la estatura de todo el alumnado. Una vez que tengamos
todos los datos en nuestro poder los resultados los obtendríamos mediante
Estadística descriptiva.

Otra posibilidad podría ser pasar clase por clase, decirle a los alumnos y alumnas
que anoten su estatura en un papel y recogerlos todos. También así tendríamos
un estudio de Estadística descriptiva, aunque seguramente menos fiable que con
el método anterior, pues casi con toda seguridad, y lo digo por experiencia,
algunos alumnos escriban su estatura a cálculo y otros, con ganas de bromas,
muy por encima o muy por debajo de la realidad.

Y otra posibilidad sería escoger una muestra, es decir un grupo de por ejemplo 50
personas, hacer el estudio descriptivo sobre ellas y después generalizarlo a todo
el instituto con Estadística inferencial. En este caso, comprobaríamos por una
parte que cuánto mayor sea la muestra más trabajo tendremos, pero más fiable
será el resultado final y por otra, que la elección de la muestra debe hacerse de
manera que permita también fiarnos del resultado obtenido. Si estamos en
segundo de bachillerato, ¿podríamos coger como muestra los 50 alumnos de este
curso? ¿Por qué? ¿Qué forma de elegir la muestra se te ocurre?

En cualquiera de los dos ejemplos, ¿cuáles serían los resultados más fiables?

Conceptos básicos. Ya hemos hablado de ellos en los ejemplos anteriores, en


cualquier estudio estadístico aparecerán los conceptos: individuo, cada uno de los
elementos, personas u objetos que se van a estudiar; población, que es el
conjunto formado por todos los elementos a los que les vamos a hacer el estudio;
muestra, el subconjunto de la población que elegimos para hacer un estudio más
reducido.

1.2 medidas de tendencia central y dispersión

En la sección Series, Medwave publica artículos relacionados con el desarrollo y


discusión de herramientas metodológicas para la investigación clínica, la gestión
en salud, la gesión de la calidad y otros temas de interés. En esta edición se
presentan dos artículos que forman parte del programa de formación en Medicina
Basada en Evidencias que se dicta por e-Campus de Medwave. El artículo
siguiente pertenece a la Serie "Estadística Aplicada a la Investigación en
Salud". 

Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda. Las medidas de dispersión en
cambio miden el grado de dispersión de los valores de la variable. Dicho en otros
términos las medidas de dispersión pretenden evaluar en qué medida los datos
difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto
permiten describir un conjunto de datos entregando información acerca de su
posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente


dependiendo de la forma en que se encuentren los datos. Si los datos se
encuentran ordenados en una tabla estadística diremos que se encuentran
“agrupados” y si los datos no están en una tabla hablaremos de datos “no
agrupados”.

Según este criterio, haremos primero el estudio de las medidas estadísticas para
datos no agrupados y luego para datos agrupados.

Medidas estadísticas en datos no agrupado

Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o
promedio aritmético. Se representa por la letra griega µ cuando se trata del
promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del
promedio de la muestra. Es importante destacar que µ es una cantidad fija
mientras que el promedio de la muestra es variable puesto que diferentes
muestras extraídas de la misma población tienden a tener diferentes medias. La
media se expresa en la misma unidad que los datos originales: centímetros, horas,
gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo


será:

Estos cálculos se pueden simbolizar:

Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la


segunda observación y así sucesivamente. En general, con “n” observaciones, Yi
representa el valor de la i-ésima observación. En este caso el promedio está dado
por

De aquí se desprende la fórmula definitiva del promedio:

Desviaciones: Se define como la desviación de un dato a la diferencia entre el


valor del dato y la media:

Ejemplo de desviaciones:

Una propiedad interesante de la media aritmética es que la suma de las


desviaciones es cero.

Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la
variable que ocupa la posición central, cuando los datos se disponen en orden de
magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores
a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los


dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es
(9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que más se
repite. En un polígono de frecuencia la moda corresponde al valor de la variable
que está bajo el punto más alto del gráfico. Una muestra puede tener más de una
moda.

Medidas de dispersión

Las medidas de dispersión entregan información sobre la variación de la variable.


Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos.
Las medidas de dispersión más utilizadas son: Rango de variación, Varianza,
Desviación estándar, Coeficiente de variación.

Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de
la variable.

La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz


cuadrada, la desviación estándar. La varianza se representa con el símbolo σ²
(sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado),
cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada de
la varianza, se representa por σ (sigma) cuando pertenece al universo o población
y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros, constantes para
una población particular; s2 y s son estadígrafos, valores que cambian de muestra
en muestra dentro de una misma población. La varianza se expresa en unidades
de variable al cuadrado y la desviación estándar simplemente en unidades de
variable.

Fórmulas
Donde µ es el promedio de la población.

Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las


medidas de dispersión:

s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.

Interpretación de la varianza (válida también para la desviación estándar): un alto


valor de la varianza indica que los datos están alejados del promedio. Es difícil
hacer una interpretación de la varianza teniendo un solo valor de ella. La situación
es más clara si se comparan las varianzas de dos muestras, por ejemplo varianza
de la muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos
que los datos de la muestra b tienen mayor dispersión que los datos de la muestra
a. esto significa que en la muestra a los datos están más cerca del promedio y en
cambio en la muestra b los datos están más alejados del promedio.

Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación
estándar de la muestra expresada como porcentaje de la media muestral.

Es de particular utilidad para comparar la dispersión entre variables con distintas


unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de
estudio.

Medidas de tendencia central y de dispersión en datos agrupados

Se identifica como datos agrupados a los datos dispuestos en una distribución de


frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo,
varianza y desviación estándar deben incluir una leve modificación. A continuación
se entregan los detalles para cada una de las medidas.

Promedio en datos agrupados


La fórmula es la siguiente:
Donde ni representa cada una de las frecuencias correspondientes a los diferentes
valores de Yi.

Consideremos como ejemplo una distribución de frecuencia de madres que


asisten a un programa de lactancia materna, clasificadas según el número de
partos. Por tratarse de una variable en escala discreta, las clases o categorías
asumen sólo ciertos valores: 1, 2, 3, 4, 5.

Entonces las 42 madres han tenido, en promedio, 2,78 partos.

Si la variable de interés es de tipo continuo será necesario determinar, para cada


intervalo, un valor medio que lo represente. Este valor se llama marca de clase
(Yc) y se calcula dividiendo por 2 la suma de los límites reales del intervalo de
clase. De ahí en adelante se procede del mismo modo que en el ejercicio anterior,
reemplazando, en la formula de promedio, Yi por Yc.

Mediana en datos agrupados


Si la variable es de tipo discreto la mediana será el valor de la variable que
corresponda a la frecuencia acumulada que supere inmediatamente a n/2. En los
datos de la tabla 1 Me=3, ya que 42/2 es igual a 21 y la frecuencia acumulada que
supera inmediatamente a 21 es 33, que corresponde a un valor de variable (Yi)
igual a 3.

Si la variable es de tipo continuo es necesario, primero, identificar la frecuencia


acumulada que supere en forma inmediata a n/2, y luego aplicar la siguiente
fórmula:

Donde:

Moda en datos agrupados


Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi)
que tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la
moda es 3 ya que este valor de variable corresponde a la mayor frecuencia
absoluta =16.

Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza


y desviación estándar en datos agrupados con intervalos.

Varianza en datos agrupados


Para el cálculo de varianza en datos agrupados se utiliza la fórmula

Con los datos del ejemplo y recordando que el promedio (Y) resultó ser 2,78
partos por madre,

Cuando los datos están agrupados en intervalos de clase, se trabaja con la marca
de clase (Yc), de tal modo que la fórmula queda:
Donde Yc es el punto medio del intervalo y se llama marca de clase del intervalo

Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.

Percentiles

Los percentiles son valores de la variable que dividen la distribución en 100 partes
iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa
que el 80% de los casos tiene edad igual o inferior a 35 años.

Su procedimiento de cálculo es relativamente simple en datos agrupados sin


intervalos.

Retomemos el ejemplo de la variable número de partos:

El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia


acumulada supera inmediatamente al “j” % de los casos (jxn/100).

El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea
inmediatamente superior a 33,6 ((80x42) /100).

El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le corresponde el


valor 4. Se dice entonces que el percentil 80 es 4 partos (P80=4). Este resultado
significa que un 80% de las madres estudiadas han tenido 4 partos o menos.

Si los datos están agrupados en una tabla con intervalos, el procedimiento es


levemente más complejo ya que se hace necesaria la aplicación de una fórmula.

Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea


inmediatamente superior al “j” % de los casos (jxn/100).

En la siguiente tabla se muestra la distribución de 40 familias según su ingreso


mensual en miles de pesos. Nótese que para calcular el centro de clase se usaron
los límites reales de cada intervalo.

1. El ingreso mensual promedio será:

2. La mediana será:

Esto significa que un 50% de las familias tiene ingreso mensual igual o inferior a
$127.270.

3. El percentil 78 será:

Por lo tanto se puede decir que 78% de las familias tienen ingreso igual o inferior a
$174.660.
4. Los percentiles 10 y 90 serán:

A base de los valores de los percentiles 10 y 90 se pueden hacer tres


afirmaciones:

 El 10% de las familias tiene ingreso igual o inferior a $90.000.


 El 90% de las familias tiene ingreso igual o inferior a $210.000.
 El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000

5. - La varianza será:

6. La desviación estándar es la raíz cuadrada de esta cifra, es decir: 43,76.

1.3 Distribuciones de frecuencias.

La frecuencia es el ladrillo básico de la inferencia estadística. Una vez que los


estudiantes hayan realizado sus registros, se dispondrán a describir el conjunto de
40 plantas observadas en cada parcela en relación con cada variable de interés.
El primer paso para ello será identificar qué registros diferentes realizaron (p.ej.
diferentes valores de altura, diferentes sentidos de inclinación, etc.) y determinar
cuántas veces se repitió cada uno, su frecuencia. La lista de los valores o
categorías de una variable acompañados por sus correspondientes frecuencias es
la distribución de frecuencias de dicha variable. La distribución de frecuencias
organiza la información disponible para describir cómo era el conjunto de las
plantas observadas respecto de una variable de interés. Por ejemplo, la
distribución de frecuencias de la variable altura permite establecer: (a) si a
grandes rasgos las plantas eran altas o bajas y (b) si formaban un conjunto de
altura homogénea o heterogénea. La primera caracterización (plantas altas o
bajas) se relaciona con el promedio de las alturas y la segunda (altura homogénea
o heterogénea) con su variabilidad1 . Frecuencia absoluta y frecuencia relativa La
frecuencia absoluta es el número de veces que se repite algo y la frecuencia
relativa es la proporción que representa la frecuencia absoluta en relación con el
total. Por ejemplo, en la parcela de girasol con densidad baja los estudiantes
observaron y registraron los sentidos de inclinación de los tallos de 40 plantas. Los
números de plantas con tallos inclinados en cada sentido encontrado (números de
veces en que se repitió cada sentido) son las frecuencias absolutas observadas y
los cocientes entre esos números y el total de plantas observadas (40) son las
correspondientes frecuencias relativas . La suma de todas las frecuencias relativas
es igual a 1.
La distribución de frecuencias de una variable es la especificación de las
frecuencias correspondientes a cada uno de sus valores o categorías. presenta las
distribuciones de frecuencias absolutas y de frecuencias relativas de la variable
inclinación de los tallos registrada en las 40 plantas de girasol de la parcela
experimental con densidad baja. En este caso sencillo, la tabla nos alcanza para
notar que: (a) las plantas estaban en su mayoría en posición vertical, (b) las pocas
plantas inclinadas se repartían en números similares entre aquellas inclinadas
hacia cada costado de la hilera (sentidos este y oeste) y (c) ninguna planta estaba
inclinada en la dirección de la hilera (sentidos norte o sur). La comparación de la
descripción precedente con la distribución de frecuencias de los sentidos de
inclinación de los tallos entre las plantas de la parcela con densidad alta permite
notar diferencias y similitudes . En esta segunda parcela: (a) la mayoría de las
plantas no estaban en posición vertical sino que estaban inclinadas, (b) como en la
primera parcela, también en ésta las plantas inclinadas se repartían en números
similares entre aquellas inclinadas hacia cada costado de la hilera (sentidos este y
oeste) y (c) en esta parcela tampoco se encontró ninguna planta inclinada en la
dirección de la hilera (sentidos norte o sur).

Al describir y comparar estas distribuciones de frecuencias, encontramos un


indicio de plasticidad fenotípica en la inclinación de los tallos de las plantas de
girasol. En este caso sencillo logramos hacerlo con un mínimo resumen de los
datos. En otros casos, para describir los rasgos principales de una distribución de
frecuencias, se hace necesario resumir los datos más intensamente. A tal fin, se
pueden construir tablas y gráficos y calcular medidas numéricas que resumen las
magnitudes de la variable (medidas de posición) o que resumen su variabilidad
(medidas de dispersión). Las alternativas disponibles difieren según la variable de
interés sea cuantitativa (se registre en una escala numérica) o cualitativa (se
registre en un conjunto de clases o categorías). En el resto de este capítulo
presentaremos estas alternativas.

Posición y dispersión de una distribución de frecuencias La posición de la


distribución de frecuencias de una variable cuantitativa refleja las magnitudes de
sus valores mientras la dispersión refleja su variabilidad. Los polígonos de la
Figura 1.2 muestran que las distribuciones de frecuencias de alturas de plantas de
las dos parcelas tienen diferente posición, una está desplazada hacia la derecha
de la otra. Tal diferencia de posición refleja que, tomadas en conjunto, las plantas
fueron más altas en una parcela que en la otra. Además, los polígonos muestran
que las distribuciones tienen similar dispersión. Esto indica que en una parcela la
altura no fue mucho más variable o heterogénea entre plantas que en la otra
parcela. La posición y la dispersión de una distribución de frecuencias a lo largo
del eje de una variable cuantitativa se evalúan numéricamente mediante medidas
de posición y medidas de dispersión. Estas medidas son resúmenes muy
condensados cuya importancia radica en su utilidad para realizar comparaciones
cuantitativas entre dos o más distribuciones de frecuencias. Medidas de posición
para variables cuantitativas Moda La moda es el valor más frecuente. La moda de
una variable se define como el valor que tiene la máxima frecuencia. Por ejemplo,
en la tabla del Cuadro 1.3 encontramos que entre las alturas de las 40 plantas de
girasol que los estudiantes midieron en la parcela con densidad baja el valor más
frecuente fue 215 cm. Es decir que la moda de las alturas de dichas plantas es
215 cm. Como no necesariamente un valor es más frecuente que todos los
demás, algunas distribuciones de frecuencias son bimodales o polimodales o,
cuando todos los valores tienen igual frecuencia, carecen de moda. Cuando la
escala de una variable se divide en clases, podemos definir la clase modal como
aquella que reúne la máxima frecuencia. Por ejemplo, en el histograma de la
Figura 1.1 se lee que la clase modal de las alturas de las plantas de girasol
medidas en la parcela con densidad baja fue el intervalo (210, 215 cm]. Cuantiles,
percentiles, cuartiles y mediana Un cuantil es un valor de una variable al cual
corresponde una determinada frecuencia relativa acumulada. El cuantil α de una
distribución de frecuencias es un valor de la variable al cual corresponde la
frecuencia relativa acumulada fra = α. Por ejemplo, el cuantil 0,15 es un valor de la
variable al cual corresponde la frecuencia relativa acumulada fra = 0,15. Es común
referirse a percentiles que no son otra cosa que los cuantiles identificados por el
valor de α expresado en porcentaje. Por ejemplo, en lugar de cuantil 0,15
podemos decir percentil 15. Los cuantiles 0,25, 0,50 y 0,75 se denominan
respectivamente primer cuartil, segundo cuartil o mediana y tercer cuartil. En la
Figura 1.6, los tres cuartiles de la distribución de frecuencias de las alturas de las
40 plantas de la parcela con densidad baja están señalados sobre el gráfico de
frecuencias acumuladas. Podemos leer que un cuarto de las mediciones fueron ≤
207,5 cm, la mitad de fueron ≤ 213 cm y tres cuartos fueron ≤ 218 cm. Notemos
que los cuartiles (como cualquier cuantil) se representan en esta figura sobre el
eje horizontal y se miden en la unidad de la variable de interés. La mediana es el
valor que corresponde a la mitad de la distribución de frecuencias. Por eso
decimos que la mediana es una medida de posición central.
Notemos que definimos un cuantil como un valor (no el valor) de la variable en
cuestión al cual corresponde una cierta fra. La razón para ello es que puede haber
más de un valor que cumpla con tal condición. Por ejemplo, la Figura 1.6 muestra
que, la frecuencia relativa acumulada hasta cualquier valor del intervalo [217 cm, 
219 cm) fue fra = 0,75. Por convención, el valor que asignamos al tercer cuartil es
el punto medio de dicho intervalo. Análogamente, asignamos al primer cuartil el
punto medio del intervalo donde fra = 0,25. En este caso, no fue necesario aplicar
una convención para evaluar la mediana porque la fra = 0,5 correspondió
únicamente a la altura 213 cm. Los así llamados gráficos de caja y bigotes (box
plots) resumen toda la distribución de frecuencias a partir de unos pocos cuantiles
(Figura 1.7). En estos gráficos, los bordes de la caja indican el primer y tercer
cuartil, la línea horizontal que corta la caja indica la mediana mientras los extremos
de los bigotes indican el mínimo y el máximo de la variable (o dos percentiles
como p.ej. el 5 y el 95). Los valores de todas estas medidas de posición se leen
sobre el eje vertical del gráfico.

1.3.1 Distribuciones numéricas.

Las distribuciones numéricas son arreglos de números en forma de filas y


columnas aunque también se presentan en forma gráfica. Los arreglos en filas y
columnas sirven para deducir una relación matemática única. Analogías Objeto de
la analogía Una analogía numérica, propuesta como problema tiene por objeto;
averiguar la capacidad de las personas para descubrir Relaciones operacionales
entre determinados números que se les proporcionan como datos, y que una vez
encontrada y razonando en forma análoga debe ser aplicada la búsqueda del
término medio que siempre se desconoce. Estructura de una Analogía En una
analogía siempre se busca un medio y las operaciones entre los extremos deben
de dar como resultado a su respectivo medio, por eso es que los medios siempre
van entre paréntesis, característica que a su vez diferencia a las analogías, de las
distribuciones numéricas. Clases de analogías Al igual que para las series
numéricas, no existe un criterio para clasificar las analogías; sin embargo, si no
atenemos a su estructura, puede Ud. ver que hay 2 tipos de analogías: Simples y
Complejas. I. Analogías Simples Se caracterizan por poseer únicamente 2 filas, la
primera de las cuales actúa como dato, mientras que en la segunda está el
término medio buscado. En este caso las relaciones operacionales a las que nos
referimos, y válidas en este caso, son las operaciones de: adición, sustracción,
multiplicación, radicación y división, ya sean ellas solas o combinadas entre sí,
entre los extremos y que nos deben dar como resultado a sus respectivos medios.
· Método de Solución de una Analogía En realidad no existe un Método Absoluto
para resolver una analogía (lo mismo sucede con las distribuciones), puesto que
las relaciones existentes entre sus extremos y de diferentes tipos. Escogemos
como respuesta a aquel medio que sea resuelto de la Operación más simple entre
los extremos, mejor dicho, a aquella relación que: 1. Contenga el menor número
posible de operaciones ya mencionadas como admisibles y/o que: 2. Contenga el
menor número posible de repetición de una misma operación.

1.3.2 Distribuciones categóricas.

Una distribución categórica es una distribución de probabilidad discreta que


describe la probabilidad de que una variable aleatoria adopte un valor que
pertenezca a una de las K categorías, donde cada categoría tiene una
probabilidad asociada.
Para que una distribución se clasifique como distribución categórica, debe cumplir
con los siguientes criterios:

 Las categorías son discretas.


 Hay dos o más categorías potenciales.
 La probabilidad de que la variable aleatoria tome un valor en cada
categoría debe estar entre 0 y 1.
 La suma de las probabilidades para todas las categorías debe sumar
1.
El ejemplo más obvio de una distribución categórica es la distribución de
resultados asociados con tirar un dado. Hay K = 6 resultados potenciales y la
probabilidad de cada resultado es 1/6:
Esta distribución satisface todos los criterios para ser clasificada como distribución
categórica:

 Las categorías son discretas (por ejemplo, la variable aleatoria solo


puede tomar valores discretos: 1, 2, 3, 4, 5, 6)
 Hay dos o más categorías potenciales.
 La probabilidad de cada categoría está entre 0 y 1.
 La suma de las probabilidades suma 1: 1/6 + 1/6 + 1/6 + 1/6 + 1/6 +
1/6 = 1.
Regla de oro:
Si puede contar el número de resultados, entonces está trabajando con una
variable aleatoria discreta, por ejemplo, contando el número de veces que una
moneda cae en cara.

Pero si puede medir el resultado, está trabajando con una variable aleatoria


continua, por ejemplo, midiendo la altura, el peso, el tiempo, etc.

Otros ejemplos de distribuciones categóricas


Hay muchas distribuciones categóricas en el mundo real, que incluyen:

Ejemplo 1: Lanzar una moneda.


Cuando lanzamos una moneda, hay 2 posibles resultados discretos, la
probabilidad de cada resultado está entre 0 y 1, y la suma de las probabilidades es
igual a 1:
Ejemplo 2: Seleccionar canicas de una urna.
Suponga que una urna contiene 5 canicas rojas, 3 canicas verdes y 2 canicas
moradas. Si seleccionamos al azar una canica de la urna, hay 3 posibles
resultados discretos, la probabilidad de cada resultado está entre 0 y 1, y la suma
de las probabilidades es igual a 1:

Ejemplo 3: Seleccionar una carta de una baraja.


Si seleccionamos aleatoriamente una carta de una baraja estándar de 52 cartas,
hay 13 posibles resultados discretos, la probabilidad de cada resultado está entre
0 y 1, y la suma de las probabilidades es igual a 1:
Relación con otras distribuciones
Para que una distribución se clasifique como distribución categórica , debe
tener K ≥ 2 resultados potenciales y n = 1 ensayo.
Usando esta terminología, una distribución categórica es similar a las siguientes
distribuciones:

Distribución de Bernoulli: K = 2 resultados, n = 1 ensayo


Distribución binomial: K = 2 resultados, n ≥ 1 ensayo
Distribución multinomial: K ≥ 2 resultados, n ≥ ensayo

1.3.3 Distribuciones acumuladas.


Es importante entender por qué en estadística se usa tanto la palabra distribución.
Se emplea la palabra distribución dado que realmente se están distribuyendo los
datos. Es decir, a partir de una tabla con datos se hace un gráfico para ver su
apariencia. El objetivo del gráfico es ver cómo se distribuyen esos datos a lo largo
de toda la muestra. La función que aparece si representamos los datos y su
frecuencia sería la función de densidad de una distribución en concreto.
En cambio, si queremos representar la probabilidad acumulada de los datos,
tendríamos que emplear la función de distribución o la distribución de probabilidad
acumulada.

Tal y como muestra la imagen, se puede ver como se distribuye la probabilidad


(eje vertical) a través de los datos (eje horizontal). A medida que se va avanzando
en la muestra, también se avanza en la probabilidad.

Función De Distribución
Función de distribución
Este ejemplo es una muestra de 1000 elementos que empiezan en 7 y terminan
en 17.
Es importante recordar que la probabilidad siempre será un valor comprendido
entre 0 y 1. Entonces, es lógico que la función de distribución de probabilidad
empiece en 0 al inicio de la muestra y termine en 1 al final de la muestra.
La función de distribución anterior hace referencia a la distribución Normal. Otras
distribuciones como la Poisson, la log-normal y la exponencial también tienen una
función de distribución parecida.

1.3.4 Distribuciones porcentuales.


Distribución porcentual de la superficie según tamaño de las explotaciones.
Descripción: Es la distribución relativa (porcentaje) de la superficie en
explotaciones agropecuarias según la clase de tamaño de las explotaciones en
cada provincia y el territorio nacional.
¿Cuál es la distribución porcentual?
Una distribución de frecuencias porcentual es un resumen tabular de un conjunto
de datos donde se muestran la frecuencia porcentual de cada clase.
¿Qué es la distribución porcentual acumulada?
Una distribución de frecuencias acumulada está diseñada para mostrar el número
o porcentaje de elementos que son menores que cierto valor especifico o iguales a
éste.
¿Cómo se saca la acumulada porcentual?
Se puede calcular rápidamente multiplicando la frecuencia relativa por 100%.
Frecuencia porcentual acumulada: es el porcentaje de datos respecto al total que
se han reportado hasta ese momento. Se puede calcular rápidamente
multiplicando la frecuencia relativa acumulada por 100%.
¿Qué es la frecuencia relativa porcentual acumulada?
La frecuencia relativa acumulada es el resultado de ir sumando las frecuencias
relativas de las observaciones o valores de una población o muestra. ... Para
calcular la frecuencia relativa acumulada, hay que calcular primero la frecuencia
absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o muestra.
¿Cuáles son los porcentuales?
Porcentual, por su parte, es el adjetivo que se refiere a aquello que se expresa o
se calcula en una cantidad por ciento. ... Se trata de la expresión de una cantidad
a la manera de una fracción con 100 como denominador. Dicho de otra forma, el
porcentaje indica una cierta cantidad existente en cada cien unidades.
¿Qué es una distribución de frecuencias acumuladas?
La frecuencia acumulada es el resultado de sumar sucesivamente las frecuencias
absolutas o relativas, desde el menor al mayor de sus valores. Para calcular la
frecuencia acumulada hay que ordenar los
datos de menor a mayor. Para un cálculo más sencillo y una imagen más visual,
estos se colocan en una tabla.
¿Qué es la distribución de frecuencia y ejemplos?
Las distribuciones de frecuencias son tablas en que se dispone las modalidades
de la variable por filas. En las columnas se dispone el número de ocurrencias por
cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es
facilitar la obtención de la información que contienen los datos.
¿Cómo obtener la distribución de frecuencia?
Se obtiene dividiendo la frecuencia absoluta entre el número total de datos y se
puede expresar como una fracción, como un decimal o como un porcentaje. Se
simboliza con f i / n donde n es el número de datos.
¿Qué es y para qué sirve una tabla de distribución de frecuencias?
La tabla de frecuencias es una herramienta que permite ordenar los datos de
manera que se presentan numéricamente las características de la distribución de
un conjunto de datos o muestra.
¿Qué son las clases en una tabla de frecuencia?
Tabla de frecuencias
Un intervalo de clase, es cada uno de los rangos de valores en que se ha decidido
agrupar parcialmente los datos con el propósito de hacer un resumen de ellos.
¿Cuál es el símbolo de frecuencia acumulada?
Qué significa frecuencia acumulada en Matemáticas
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los
valores inferiores o iguales al valor considerado. La frecuencia acumulada se
representa por Fi.
¿Que nos indica la frecuencia acumulada?
La frecuencia absoluta acumulada (en ocasiones llamada simplemente frecuencia
acumulada) señala la cantidad de frecuencias absolutas para la totalidad de los
eventos que, en un listado ordenado, son menores o idénticos que un determinado
valor. ...
¿Cuáles son los tipos de distribución de frecuencia?
Tipos de distribuciones de frecuencia
Frecuencia absoluta(fi): Es la cantidad de observaciones que pertenecen a cada
grupo. ... Frecuencia relativa acumulada(Hi): Es el resultado de sumar las
frecuencias relativas, tal y como explicamos para la frecuencia absoluta
acumulada.
¿Qué significa tres puntos porcentuales?
Un punto porcentual es la unidad para la diferencia aritmética de dos porcentajes.
Por ejemplo, pasar del 40 % al 44 % es un aumento de 4 puntos porcentuales,
pero es un aumento real del 10 % en lo que se está midiendo. ... Las diferencias
en puntos porcentuales son una forma de expresar un riesgo o una probabilidad.
¿Cómo poner puntos porcentuales en Excel?
Cómo introducir porcentajes correctamente en Excel
Introducir el porcentaje en formato decimal “0,10”. Cambiar primero el formato de
la celda a porcentaje y después escribir el valor “10” (automáticamente aparecerá
el símbolo % junto a la cantidad introducida)
¿Qué significa 5 por ciento?
Signo de porcentaje
Para escribir una cantidad de porcentaje de forma correcta, el símbolo se debe
colocar inmediatamente después del número, sin dejar espacio, y suele leerse
como un número seguido de la palabra "por ciento". Por ejemplo, "5%" se lee
"cinco por ciento".
¿Cómo se determina la frecuencia relativa acumulada?
Frecuencia acumulada (Fi) viene siendo la suma de las frecuencias hasta ese
dato. Es decir, es el cúmulo de sumas de frecuencias anteriores a la misma.
Frecuencia relativa (hi) = fi/N siendo N el número total de datos del conjunto.
Corresponde con la proporción de veces que aparece ese dato con respecto al
total.
¿Cuál es la frecuencia absoluta acumulada?
Frecuencia absoluta acumulada es la suma de todas las frecuencias absolutas del
estudio con valores de repetición iguales o inferiores al estudiado.
¿Por qué es importante calcular la frecuencia absoluta acumulada?
La frecuencia absoluta es muy utilizada en estadística descriptiva y es útil para
saber acerca de las características de una población y/o muestra. Ésta se puede
utilizar con variables cualitativas o cuantitativas siempre que estas se puedan
ordenar.
¿Qué es el fi en una tabla de frecuencias?
La frecuencia absoluta acumulada es el resultado de ir sumando las frecuencias
absolutas de las observaciones o valores de una población o muestra. Esta se
representa por las siglas Fi. Para calcular la frecuencia absoluta acumulada, hay
que calcular primero la frecuencia absoluta (fi) de la población o muestra.
¿Cuál es el símbolo de la frecuencia relativa?
fi = Frecuencia relativa (número de veces que se repite el suceso, en este caso la
nota del examen).
¿Cuál es el símbolo de la frecuencia absoluta?
La frecuencia absoluta es el número de veces que aparece un determinado valor
en un estudio estadístico. Se representa por fi.
¿Qué es una tabla de frecuencia para niños de primaria?
Las tablas de frecuencia permiten registrar de manera organizada cada uno de los
datos de un estudio estadístico con la frecuencia correspondiente. La frecuencia
corresponde al número de veces que se repite cada dato o respuesta. Por
ejemplo, en la tabla se registra el insecto preferido por un grupo de niños.
¿Cuál es la muestra de una tabla de frecuencia?
La tabla de frecuencias (o distribución de frecuencias) es una tabla que muestra la
distribución de los datos mediante sus frecuencias. ... En la primera columna se
ordenan de menor a mayor los diferentes valores que tiene la variable en el
conjunto de datos.
1.3.5 Distribuciones porcentuales acumuladas.
Una tabla de distribución de frecuencias relativas o distribución porcentual se
obtiene al sustituir las frecuencias relativas por las frecuencias de las clases. ... En
la parte vertical de los ejes de coordenadas únicamente pondríamos las
frecuencias relativas.

De esta forma, ¿cómo se calcula la frecuencia absoluta?

fi = Frecuencia absoluta = Número de veces que se repite el suceso (en este


caso, la nota del examen). Como se puede observar, la suma de todas
las frecuencias absolutas es igual al total de datos utilizados del experimento (en
este caso, es el número total de alumnos que asciende a 20).

Sin embargo, ¿cómo hacer una tabla de frecuencias relativas en Excel?

Para crear la tabla dinámica que nos llevará al resultado esperado,


comenzaremos por activar cualquier celda de la tabla y pulsar el botón Insertar
> Tablas > Tabla dinámica. Especifica el rango de datos de
la tabla y Excel creará una tabla dinámica vacía con sus campos disponibles.

Aunque, ¿cómo calcular la frecuencia absoluta acumulada en Excel?

1. Seleccionar el rango: E2:E12. Rango donde situar la frecuencia de las


notas.
2. Escribir: =FRECUENCIA(B2:B12;D2:D12) ...
3. Pulsar la tecla F2, para editar la fórmula / Pulsar la tecla Control y
mantenerla pulsada / Pulsar la tecla Mayús.

Preguntas y respuestas relacionadas encontradas

¿Cómo se saca la frecuencia porcentual en Excel?

Define una cuarta columna en tu hoja de cálculo y divide los valores en la tercera
columna por el número total de registros de tu conjunto de datos. Por ejemplo, si
tenías 10 valores totales, deberías escribir “=C1/10” para hallar el porcentaje
de frecuencia.
¿Cuál es la frecuencia absoluta acumulada?

La frecuencia absoluta acumulada es el resultado de ir sumando


las frecuencias absolutas de las observaciones o valores de una población o
muestra. Esta se representa por las siglas Fi. Para calcular la frecuencia
absoluta acumulada, hay que calcular primero la frecuencia absoluta (fi) de la
población o muestra.
¿Qué es una tabla de frecuencia porcentual?

Frecuencia porcentual: es el porcentaje de elementos que pertenecen a una


clase o categoría. Se puede calcular rápidamente multiplicando
la frecuencia relativa por 100%.
PUBLICIDAD
¿Qué es frecuencia porcentual ejemplos?

8 Jul FRECUENCIA RELATIVA PORCENTUAL (hi%) Es el Producto de
la Frecuencia Absoluta “fi” por % entre el total de datos “n”: asi; Ejemplo: Sea las
notas de 10 alumnos en una Prueba Pre Test: Xi = 12; 11; 10; 12; 13; 12; 10; 13;
12;.
¿Cómo se calcula la frecuencia absoluta en Excel?

1. Seleccionar el rango: E2:E12. Rango donde situar la frecuencia de las


notas.
2. Escribir: =FRECUENCIA(B2:B12;D2:D12) …
3. Pulsar la tecla F2, para editar la fórmula / Pulsar la tecla Control y
mantenerla pulsada / Pulsar la tecla Mayús.

¿Cómo se calcula la frecuencia porcentual?

Se calcula dividiendo la frecuencia absoluta entre el tamaño de la muestra. La


suma total debe ser 1. Frecuencia porcentual: Porcentaje que representa
cada frecuencia absoluta respecto del tamaño de la muestra. La suma total debe
ser 100.

1.4 Histogramas.

Un histograma es una representación gráfica de una variable en forma de barras,


teniendo en cuenta que la superficie de cada barra es proporcional a la frecuencia
de los valores representados. Un histograma nos permite ver cómo se distribuyen
los valores de la variable en estudio.

Usamos los histogramas cuando analizamos variables continuas, o cuando


trabajamos con variables discretas que toman un gran número de valores y son
agrupadas en intervalos. Cuando tenemos variables cualitativas, se emplean
los diagramas de barras.
¿Cómo construir un histograma?

Partimos de una tabla de frecuencias con datos agrupados, y seguimos los


siguientes pasos:
1. En el eje horizontal (X), colocamos los límites de clase. Opcionalmente,
puedes colocar las marcas de clase.
2. En el eje vertical (Y), colocamos las frecuencias. Se suele tomar la
frecuencia absoluta, pero también se puede trabajar con la frecuencia
relativa o con la frecuencia porcentual.
3. Dibujamos las barras de cada clase, teniendo en cuenta que la altura de
cada barra es igual a la frecuencia.
Ejemplo 1

Se registran los tiempos de las llamadas recibidas en un call center, y se obtiene


la siguiente tabla de frecuencias con datos agrupados. Construir un histograma de
frecuencias.

Solución:
Recuerda que si vas a trabajar con una variable cualitativa o variable discreta que
asume pocos valores, deberás usar un diagrama de barras y no un histograma.
Polígono de frecuencias

Es un gráfico que se forma uniendo los puntos medios de la parte superior de


las barras mediante segmentos de recta. El polígono de frecuencias es de
mucha utilidad cuando se representa más de una serie en una misma gráfica.

Los polígonos de frecuencias se trazan tomando en cuenta las marcas de


clase de cada barra.
Ejemplo 2

A partir del histograma del ejemplo anterior, construir el polígono de frecuencias.

Solución:
Ojiva

La ojiva es una gráfica asociada a la distribución de frecuencias acumuladas. Nos


permite ver cuántos datos u observaciones se encuentran por encima o por debajo
de determinado valor.

Las ojivas se trazan tomando en cuenta los límites superiores de cada clase o


intervalo, es decir, tomando el extremo derecho de la parte superior de cada barra.
Dibujar una ojiva es muy similar a dibujar un polígono de frecuencias
acumuladas.

Una ojiva también se puede construir con las frecuencias relativas acumuladas o
frecuencias porcentuales acumuladas.

Ejemplo 3

A partir del histograma del ejemplo anterior, construir la ojiva.

Solución:
Diferencia entre el polígono de frecuencias y ojiva

El polígono de frecuencias parte desde el histograma de frecuencias absolutas,


mientras que la ojiva parte del histograma de frecuencias acumuladas. Además, el
polígono de frecuencias se forma uniendo los puntos medios de la parte superior
de cada barra, mientras que la ojiva se forma uniendo el extremo derecho de la
parte superior de cada barra.

En el siguiente gráfico, se apreciará mejor:


Video

A continuación, viene el video que hemos preparado con ejercicios de


histogramas:

Reto

Se registran las longitudes de los pernos producidos en una fábrica, y partir de allí
se construye el histograma mostrado. Calcular la frecuencia relativa y la frecuencia
porcentual de los pernos que tienen una longitud comprendida entre los 20,01 y
los 20,02 milímetros.
Solución:

Recordemos que la frecuencia relativa, se calcula dividiendo la frecuencia


absoluta de la clase entre el total de datos del estudio. La frecuencia porcentual,
tiene el mismo valor de la frecuencia relativa, pero expresada en porcentaje.
Primero encontramos la frecuencia o cantidad de datos que pertenecen a cada
categoría, usando la altura de la barra.
Podemos ver que la frecuencia absoluta del intervalo comprendido entre
los 20,01 y los 20,02 es de 12.
Por otro lado, la cantidad total de datos del estudio es:
n = 2 + 4 + 8 + 12 + 8 + 6 = 40
Para calcular la frecuencia relativa, dividimos la frecuencia absoluta entre
el total de datos:

Para calcular la frecuencia porcentual, multiplicamos la frecuencia relativa


por 100%:
1.5 Polígono de Frecuencias.

Un polígono de frecuencias es una herramienta gráfica que se emplea a partir de


un histograma de frecuencia (es decir, otro tipo de gráfico que expresa las
frecuencias mediante columnas verticales). Para ello, se unen con una línea los
distintos puntos medios de las columnas del histograma, sin dejar espacio entre
una y otra, logrando así una forma geométrica o polígono.

Con esta herramienta gráfica pueden representarse variables cuantitativas o


distribuciones diferentes, cosa que tradicionalmente no hace un histograma, de un
modo rápido y sencillo. Además cuenta con la virtud de ser apreciable a simple
vista.

Por esta razón es sumamente empleado dentro de las ciencias sociales y ciencias
económicas, permitiendo así establecer comparaciones útiles entre los distintos
resultados de un mismo proceso.

Puede servirte: Método cuantitativo

Características del polígono de frecuencias

Los polígonos de frecuencia se conforman uniendo los puntos medios de cada


fase o columna mediante segmentos de recta, de modo que consisten en un tipo
de representación visual de la información cuantitativa. Los datos de la tabla se
hallan siempre por debajo de la curvatura del polígono, y su punto más alto es
siempre el de mayor frecuencia del conjunto.

¿Para qué sirve un polígono de frecuencias?

Se emplean los polígonos de frecuencias cuando es necesario graficar o resaltar


distintas distribuciones conjuntas o bien una clasificación cruzada de una variable
cuantitativa continua, junto con otra variable cualitativa o cuantitativa discreta, todo
dentro de un mismo gráfico.
¿Cómo hacer un polígono de frecuencias?

como hacer un poligono de frecuencias

El polígono de frecuencias surge de un histograma.

Como hemos dicho ya, se obtiene un polígono de frecuencias siempre a partir de


un histograma de frecuencia, cuando se unen consecuentemente todos los puntos
medios de cada elemento con su respectiva frecuencia. Para ello se deben seguir
los siguientes pasos:

Recolectar la información cuantitativa de lo que se estudiará. Después se


establecerán los límites inferiores y superiores de todos los elementos estudiados.

Determinar la frecuencia de cada tipo de elemento dentro de los límites


establecidos, y se hará el cálculo promedio de los límites.

Trazar el gráfico lineal cerrado, juntando los puntos medios de los datos obtenidos.

Ejemplos de polígonos de frecuencias

poligono de frecuencias ejemplo comparar

Un polígono de frecuencias puede utilizarse para comparar dos variables.

poligono de frecuencias ejemplos

Un polígono de frecuencias puede hacerse digital o manualmente.


Polígono de frecuencias en Excel

excel-poligono de frecuencias

Excel permite representar gráficamente los datos cargados.

Para realizar un polígono de frecuencias empleando la herramienta informática de


Microsoft Excel, debemos seguir los siguientes pasos:

Obtener primero el cuadro de datos a partir del cual se desea graficar un polígono
de frecuencias.

Buscar el menú “insertar”, y elegir las opciones “gráfico”, luego “línea” y finalmente
“línea con marcadores”.

Aparecerá un recuadro en blanco.

En el recuadro, en el rango del gráfico, colocar los datos de la columna de


frecuencia.

En el mismo recuadro, en el eje horizontal, elegir la opción de “editar” para colocar


la media.

Presionar “aceptar” para obtener así la gráfica. Recordemos que debe ser un
gráfico cerrado, así que a menudo deberemos añadir datos para los intervalos
nuevos (en ese caso añadiremos el número 0 a cada uno).

1.6 Diagrama Pareto

¿Qué es el diagrama de Pareto?


El diagrama de Pareto es una gráfica que organiza valores, los cuales están
separados por barras y organizados de mayor a menor, de izquierda a derecha
respectivamente.

Esta gráfica permite asignar un orden de prioridades para la toma de decisiones


de una organización y determinar cuáles son los problemas más graves que se
deben resolver primero.

Su finalidad, es hacer visibles los problemas reales que están afectando el


alcanzar los objetivos de la empresa y reducir las pérdidas que esta posee.

Además, permite evaluar previamente, cuáles son las necesidades del público
objetivo y cómo satisfacerlas con nuestro producto o servicio, logando también, el
objetivo del mercadotecnia.

¿Cómo surgió el diagrama de Pareto?

Fue enunciado por primera vez por el ingeniero, sociólogo, economista y filósofo
italiano Vilfredo Pareto (1848-1923).

Mediante su estudio sobre la división de la riqueza en Italia en aquella época, llegó


a la conclusión de que el 80% de la riqueza estaba en manos del 20% de la
población y el otro 20% de riqueza estaba en el 80% restante.

Al determinar esto, lo publicó por primera vez en 1896 en su "Cours d’économie


politique".

¿Cómo funciona el principio de Pareto?


Representa la regla 80/20, es decir, que, en la mayoría de las situaciones, el 80%
de las consecuencias son debido al 20% de las acciones o el 80% de los defectos
de un producto se debe al 20% de las causas.

En otras palabras, podemos decir que, aunque muchos factores contribuyan a una
causa, son pocos los responsables de dicho resultado.

A pesar de que la relación no siempre es exacta, normalmente sí se cumple el


principio de Pareto y es la base de este diagrama.

¿Cuáles son los elementos del diagrama de Pareto?

El diagrama de Pareto está conformado por una estructura dividida en tres partes:

El eje "Y" izquierdo es la frecuencia de la ocurrencia del problema.

El eje "Y" de la parte derecha es el porcentaje acumulado del número total de


ocurrencias.

La parte inferior del eje "X" muestra los problemas, quejas, defectos o
desperdicios que se presentaron.

¿Cuáles son las ventajas de utilizar el diagrama de Pareto?

Al permitirnos enfocar en lo que en realidad afecta a la empresa, el diagrama de


Pareto logra:

que la empresa mejore continuamente;

el análisis y priorización de problemas;

optimizar el esfuerzo y tiempo al centrarse en aspectos cuya mejora tendrá un


impacto directo;
proporcionar una visión sencilla y completa de los problemas;

hacer que la gráfica sea fácil de comprender;

estimular al equipo de trabajo en la búsqueda de la mejora continua;

de forma anticipada, verificar cuál es la mejor herramienta de automatización se


puede usar o comprar para nuestra estrategia de marketing.

Además, el diagrama de Pareto permite comparar los diagramas de un mismo


problema en tiempos diferentes, logrando así determinar si hubo mejoras, cambios
y efectos positivos en dichos problemas.

¿En qué áreas es posible aplicarlo en una empresa?

El diagrama de Pareto se puede aplicar en todas las áreas de la empresa de


forma similar. A continuación, te mostraremos algunas de ellas:

Área de producción

El 20% de los procesos de una empresa genera el 80% de sus productos o


servicios.

Área de ventas

El 80% de las tratativas cerradas por la fuerza de ventas son generadas por el
20% de los productos y 20% de los clientes generan el 80% de los ingresos.

Área de gerencia

El 80% del éxito de una empresa proviene del 20% de sus empleados.

Área de reclamos y sugerencias


El 20% de los rechazos del producto representa al 80% de las quejas de los
clientes.

Gestión de almacenes

El 80% del costo del inventario representa el 20% de los productos.

Control de calidad

El 20% de los defectos afectan al 80% de los procesos.

¿Cómo hacer un diagrama de Pareto en una organización?

A continuación, te diremos los pasos y un ejemplo para que realices


adecuadamente un diagrama de Pareto, ¡continúa tu lectura!

1. Selecciona qué aspecto vas a analizar

Es primordial que determines cuál es el problema que te está causando pérdidas,


ya sea de tiempo, ventas, personal, entre otros.

2. Agrupa los datos

Debes dividir por celdas según la categoría y el número de frecuencia (u


ocurrencia).

La categoría (o problemas) son los más comunes que observas en tu sitio web.

La frecuencia es, de un determinado número de clientes, cuáles se quejaron por


cuál problema.
1.7 Diagrama de Dispersión.

Continuamos con las herramientas de análisis y priorización de problemas, y hoy


vamos a conocer una de las herramientas más utilizadas: El diagrama de
dispersión o gráfico de dispersión. No por nada se considera una de las 7
herramientas básicas de calidad. Es quizá uno de los gráficos que se aprenden
de primero en formación estadística, así que ya tienes una idea de su importancia.

Vamos a comprender qué es un diagrama de dispersión, cómo se hace y por


supuesto, un ejemplo de aplicación para garantizar el aprendizaje.

Qué es un diagrama de dispersión

Antes de responder este interrogante, es necesario dar respuesta a qué es


dispersión. La definición de dispersión tiene múltiples respuestas, como bien nos
muestra wikipedia: Dispersión. Nos quedamos con la definición matemática:

Dispersión se define como el grado de distanciamiento de un conjunto de valores


respecto a su valor medio.

A partir de esta definición, se derivan las medidas de dispersión que aprendimos


en la clase de estadística del colegio: Rango, varianza, desviación, covarianza,
coeficiente de correlación, etc.

Ahora bien, el diagrama de dispersión, también conocido como gráfico de


dispersión o gráfico de correlación consiste en la representación gráfica de dos
variables para un conjunto de datos. En otras palabras, analizamos la relación
entre dos variables, conociendo qué tanto se afectan entre sí o qué tan
independientes son una de la otra.

En este sentido, ambas variables se representan como un punto en el plano


cartesiano y de acuerdo a la relación que exista entre ellas, definimos su tipo de
correlación.

Tipos de correlación en un gráfico de dispersión

Con base en el comportamiento que toman las variables de estudio, podemos


encontrar 3 tipos de correlación: Positiva, negativa y nula.

 Correlación positiva

Se presenta cuando una variable aumenta o disminuye y la otra también,


respectivamente. Hay una relación proporcional. Por ejemplo para un vendedor de
carros, si él vende más carros (variable 1), va a ganar más dinero (variable 2).
 Correlación negativa

Se presenta cuando una variable se comporta de forma contraria o a la otra, es


decir que si una variable aumenta, la otra disminuye. Hay una relación inversa
proporcional. Por ejemplo para la construcción de un edificio, entre más
trabajadores estén construyendo un edificio (variable 1), menos tiempo se
necesitará para tenerlo listo (variable 2)

 Correlación nula

Si no encuentras un comportamiento entre las variables, existe una correlación


nula.

Estos son pues, los tipos de correlación más visibles. Aunque si lo miramos desde
una perspectiva que evalua qué tan fuerte o débil es la correlación, encontramos
otra clasificación.

El coeficiente de correlación en un diagrama de dispersión

El coeficiente de correlación nos describe cómo es la relación existente entre dos


variables, en otras palabras, al conocer este número sabemos si la correlación es
positiva o negativa y qué tan fuerte o débil es. Se usa la letra r para expresarla,
veamos cómo:

 r=1
La correlación es positiva perfecta. Si una variable crece, la otra también lo hace
en una proporción constante. Es una relación directa, por eso si trazamos
una linea de ajuste esta va pasar por todos y cada uno de los puntos.

 0<r<1
Es cuando r esta entre 0 y 1 sin llegar a ser 0 y 1. Es una correlación positiva. El
grado de cercanía de 1 define qué tan directa y proporcional es la relación entre
ambas variables, por ende entre más cerca esté de 0, más débil será su
correlación negativa.

 r=0
La correlación es nula, es decir que no existe una relación lineal entre ambas
variables. Qué tal si pruebas buscando otro tipo de relación.

 -1<r<0
Es cuando r esta entre -1 y 0 sin llegar a ser –1 y 0. Es una correlación negativa.
El grado de cercanía a -1 define que tan inversa y proporcional es la relación entre
ambas variables, por ende entre más cerca esté de 0, más debíl será su
correlación negativa.
 r=-1
La correlación es negativa perfecta. Si una variable crece, la otra va a disminuir en
proporción constante. Es una relación directa e inversa, por lo tanto una línea de
ajuste va a tocar todos los puntos graficados.

Un ejemplo más claro de todo lo mencionado lo muestra wikipedia en una


imagen: Tipos de coeficiente de correlación

Cómo hacer un diagrama de dispersión paso a paso

 Paso 1: Determina cuál es la situación. Si no entendemos qué es lo


que esta ocurriendo, no podremos establecer las variables a
estudiar.
 Paso 2: Determina las variables a estudiar. Si ya determinaste las
variables a estudiar, es porque crees que puede existir una relación
entre ellas que te permita caracterizar la situación.
 Paso 3: Recolecta los datos de las variables: Si ya los tienes,
perfecto. Si no, definimos un período de tiempo para conseguir los
datos de las variables antes definidas. Recuerda que los datos de las
dos variables deben estar dados en el mismo período de tiempo.
 Paso 4: Ubica los valores en el eje respectivo. Por lo general, la
variable independiente es aquella que no está influenciada por la otra
y se ubica en el eje x. La variable dependiente que es la que se ve
afectada por la otra variable se ubica en el eje y. Así pues,
procedemos a ubicar los valores en el plano cartesiano de acuerdo a
su variable (x, y)
 Paso 5: Determina el coeficiente de correlación: El coeficiente de
correlación debe verse reflejado en la forma que toma el gráfico de
dispersión. Es el cociente de la covarianza y la multiplicación de la
desviación típica de las dos variables. Con excel logramos calcularlo
de manera muy simple.
 Paso 6: Analizamos: Con base en el coeficiente y en el gráfico,
definimos cuál es la relación de las dos variables y tomamos las
decisiones pertinentes.
Ejemplo de diagrama de dispersión

Vamos a ver desde una problemática empresarial, un ejemplo resuelto de


diagrama de dispersión para el área de calidad.

Imagina que una litográfica está abriendo una nueva área de producción para
la impresión de posters, y en este momento se encuentra haciendo todos los
ensayos y pruebas para determinar la cantidad de tinta de cada color que
deberían tener las maquinas.
Como prueba inicial, han decidido establecer la relación de errores de impresión
según el grado de llenado de los recipientes de tinta de la máquina.

Bien, definida la situación, iniciamos desde el paso 2:

Las variables a estudiar para este ejemplo de grafico de dispersión en calidad son:

 Cantidad de tinta en litros


 Número de errores de impresión
Para el paso 3, comenzamos a recolectar las variables. En nuestro caso, el
departamento de control de calidad hace 50 corridas o pruebas durante 5 días
continuos.
Para el paso 4 ubicamos los ejes según las variables que tenemos. Al estar el
número de errores influenciado por la cantidad de tinta, lo ubicamos como el eje y.
Por consiguiente, el eje x es la cantidad de tinta. Ahora sí, hacemos el gráfico de
dispersión.

Paso 5: Determinamos el coeficiente de correlación. En excel lo calculamos con la


formula COEF.DE.CORREL. Para nuestro ejemplo resuelto, obtenemos 0,94, ¿se
ve esto reflejado en el gráfico? Por supuesto que si, fíjate que los puntos están
muy cerca unos de los otros, lo que indica que los valores se correlacionan
fuertemente, es decir que la relación entre un aumento en los litros de tinta,
impacta directamente en el número de errores en la impresión de posters. De
hecho se hace evidente si miramos la tabla, no hay grandes saltos entre datos si
miramos el número de errores.

Paso 6: Analizamos. Evidentemente hay una relación positiva fuerte entre la


cantidad de tinta con la que se carga el tubo de la máquina y el número de errores
generados en la impresión de los posters. Un paso siguiente para un problema de
este tipo, sería buscar la forma de aprovechar la capacidad restante de la
máquina, por ejemplo usar más tubos y más pequeños.

También podría gustarte