Biosapecho2018 1

1
BIOESTADISTICA
Ph.D. José Yákov Arteaga García
La Paz – Bolivia
2018
2
PROLOGO
En una estructura formal, se presenta en cada uno de los capítulos, el avance necesario y
suficiente en base al programa respectivo. Haciendo referencia a que la Bioestadística puede ser
estudiada mejor, si es que se consideran dos componentes importantes, el primero de ellos
referido a toda la hermeneútica matemática estadística, donde desde el proceso de recolección
de de la información, el ordenamiento adecuado, la representación gráfica, complementados con
el cálculo de indicadores estadísticos centralizadores y estadísticos que presentan la variabilidad
de la información, se constituyen en una herramienta que se aplica en las primeras etapas de
análisis de la información, lo que resumen la bioestadística descriptiva.
El segundo componente presenta la inferencia estadística, el análisis de varianza, así como el

análisis de correlación y regresión que mediante mínimos cuadrados permiten en conjunto aplicar
estas técnicas que se constituyen en poderosas herramientas para realizar investigaciones.
Es mi deseo que este documento, sea el apoyo necesario que coadyuve con la formación de los
futuros Profesionales Agrónomos, por tal motivo a continuación tengo el agrado de presentar
este libro elaborado especialmente para los estudiantes de Sapecho, que fue estructurado con
el fin de complementar el avance de la Asignatura de Bioestadistica, y que resumen el
conocimiento adquirido y mejorado desde la Licenciatura, pasando por la Maestria y Culminando
con el Doctorado. El formato es en PDF, de tal manera que se facilite su lectura y facilte el
conocimiento, asimilación, comprensión y aplicación de la materia.
Sapecho, 04 de Julio de 2018
3
Gracias a Dios por enseñarme a ser mejor cada dia….
Indudablemente, que la vida es más placentera cuando te dedicas a

hacer lo que mas te gusta……
4
CONTENIDO
Pág.
Capítulo 1. Definiciones Generales................................................................................................7
1.1 Introducción.- 1.2 Problema estadístico.- 1.3 Estadística y Bioestadística 1.4

Bioestadística inductiva y deductiva. – 1.5 Población ó Universo. – 1.6 Muestra al azar
ó aleatoria. Tamaño de muestra. Uso de las tablas de números aleatorios - 1.7
Estimación del tamaño de muestra. – 1.8 Variable. Cuantitativas. continuas.
discontinuas ó discretas. Cualitativas.
Capítulo 2. Distribución de frecuencias........................................................................................13
2.1 Introducción. Frecuencia absoluta. Frecuencia relativa. Frecuencia acumulativa. –

2.2 Reglas para elaborar límites de clase. – 2.3 Elaboración de la tabla de distribución
de frecuencias. - 2.4 Representación gráfica. Histograma de frecuencias. Polígono de
frecuencias. Ojivas ascendentes y Ojivas descendentes.
Capítulo 3. Medidas de tendencia central......................................................................................23
3.1 Introducción. – 3.2 Media Aritmética. datos agrupados. datos no-agrupados. 3.3
Mediana. – datos agrupados. datos no-agrupados. Cuartiles, deciles y percentiles. – 3.4
Moda. Datos agrupados. datos no-agrupados.- 3.5 Otros tipos de medias. La media
armónica y la media geométrica.
Capítulo 4. Medidas de dispersión................................................................................................34
4.1 Introducción. – Rango. 4.2 Varianza. Datos agrupados. datos no-agrupados.

fórmulas de desviaciones para muestras y poblaciones. fórmulas de computación para
muestras y poblaciones. – 4.3 Desviación estándar. Datos agrupados. datos no-
agrupados. fórmulas de desviaciones para muestras y poblaciones. fórmulas de
computación para muestras y poblaciones. 4.4 Teorema de Tchebysheff. Desviación
estándar de la media.
Capítulo 5. Probabilidades……………………................................................................................43
5.1 Introducción. – 5.2 Probabilidad condicional. – sucesos mutuamente excluyentes y

mutuamente no-excluyentes.
Capítulo 6. Distribuciones discretas..............................................................................................53
6.1 Introducción. – 6.2 Distribución binomial. – supuestos. La distribución de

probabilidad binomial. La media y la varianza. Triangulo de Pascal. 6.3 Distribucion de
Poisson. 6.4 Distribución Hipergeométrica.
Capítulo 7. Distribución normal.....................................................................................................63
7.1 Introducción. – 7.2 Características. – 7.3 Función de densidad de probabilidad

normal. – 7.4 Teorema del límite central. - 7.5 Distribución normal estándar. – 7.6
Aproximación normal de la distribución binomial.
5
Capítulo 8. Inferencia estadística.................................................................................................76
8.1 Introducción. Tipos de estimación. – 8.2 Estimación puntual. Bondad de un

estimador puntual. 8.3 Estimación por intervalo.8.4 Estimación del tamaño de muestra.
Capítulo 9. Intervalos de confianza y pruebas de hipótesis......................................................83
9.1 Introducción. – 9.2 Intervalos de confianza. – 9.3 Pruebas de hipótesis. - 9.4

Observaciones pareadas ó correlacionadas. – 9.5 Pasos para desarrollar pruebas de
hipótesis. Hipótesis nula. Hipótesis alterna. 9.6 Casos de estudio. 9.7 Observaciones
pareadas o correlacionadas.
Capítulo 10. Distribución de “ t ” student.....................................................................................101
10.1 Introducción. – 10.2 Características. – 10.3 Propiedades. Utilidad práctica. Pruebas

de hipótesis.
Capítulo 11. Distribución chi cuadrado......................................................................................108
11.1 Introducción. – 11.2 Propiedades de la distribución Ji cuadrado. Teoremas. 11.3

Aplicaciones de la distribución Ji cuadrado. – 11.4 Pruebas de hipótesis. – 11.5 Prueba
de frecuencias observadas y esperadas.
Capítulo 12. Distribución de “ F ”.................................................................................................119
12.1 Introducción. – 12.2 Propiedades de F. – 12.3 Manejo de la tabla. Cola izquierda.

Cola derecha. Pruebas de hipótesis.
Capítulo 13. Análisis de Varianza. ...............................................................................................125

.
1.1 Introducción. – 13.2 Tabla de Analisis de Varianza. 13.3 Supuestos básicos.
13.4 Modelo lineal aditivo. 13.5 Como interpretar una tabla de Análisis de vari anza.
13.6 Consideraciones finales.
Capítulo 14. Análisis de correlación simple...............................................................................133

.
14.1 Introducción. – 14.2 propiedades del coeficiente de correlación. 14.3 El coeficiente
de determinación. – 14.4 Pruebas de significancia
Capítulo 15. Análisis de regresión simple.................................................................................139
15.1 Introducción. – 15.2 Coeficiente de regresión. – 15.3 Suposiciones necesarias. –

15.4 La ecuación de regresión lineal. - 15.5 Ecuación de una recta. - 15.6 Ecuación
de regresión. – 15.7 Pruebas de significancia. – 15.8 Consideraciones finales.
Literatura Consultada
Anexos.
6
BIOESTADISTICA Ph.D. JOSÉ YÁKOV ARTEAGA GARCIA
CAPITULO 1.
DEFINICIONES GENERALES
1.1 INTRODUCCION.
Cuando se realiza el análisis de la información, se necesita recurrir al apoyo de numerosas ciencias que
coadyuven a un adecuado ordenamiento, representación gráfica, calculo de los principales indicadores,
y una correcta interpretación, en ese contexto la bioestadística considerada como la estadística aplicada
a los fenómenos biológicos se constituye en la herramienta base para lograr cumplir con ese propósito.
Para realizare el análisis de la información estadística de los datos, se acostumbra dividir el trabajo en
dos categorías: descriptivo e inferencial. La estadística descriptiva comprende medidas (estadígrafos)
que resumen datos empíricos, o son esenciales para obtener “un perfil a partir de una confusión de
detalles”. Incluyen medidas tales como promedios, desviaciones estándares, coeficientes de correlación,
etc., y su interpretación no puede trascender el ámbito del contexto particular en que se obtienen.
Por otra parte, la inferencia estadística se preocupa de la precisión de los estadígrafos descriptivos y, en
particular, muchas veces expresa la probabilidad de que estos valores muestrales observados se
obtengan aleatoriamente. Estas proposiciones probabilísticas vinculan inductivamente el valor observado
en una muestra al valor poblacional (parámetro).
Asi mismo, la inferencia estadística considera a la inducción, que en este caso no es equivalente al
proceso de inducción completa utilizado en la matemática, sino tal como se la utiliza en las ciencias de la
naturaleza. El problema crucial de la estadística inferencial es llegar a proposiciones acerca de poblaciones
a partir de la observación efectuada en muestras bajo condiciones de incertidumbre, bajo probabilidades.
Si bien la estadística inferencial permite llegar a generalizaciones cuantitativas, ello no implica
necesariamente que también posibilite la generalización substantiva. Esta última es posible sólo en el marco
conceptual en que se desarrolle la investigación.
7
1.2 PROBLEMA ESTADÍSTICO.

Un problema estadístico consta de 5 partes:
1. Una definición clara de la población de interés. La primera y más importante de las partes de un
problema estadístico es definir claramente la pregunta a contestar y también una definición clara de
la población sobre la cuál dicha pregunta se hace.
2. El diseño del experimento o procedimiento de muestreo. Esta parte concierne al problema

estadístico referente a la obtención de la muestra. Esta parte se conoce también como diseño del
experimento o procedimiento del muestreo y es importante porque la información lleva tiempo y cuesta
dinero. El incluir demasiadas observaciones en la muestra es costoso y en muchos casos inútil, y por
otro el incluir muy pocas observaciones puede ser insatisfactorio.
3. Recopilación y análisis de los datos. Esta tercera parte consiste en el análisis de la información
muestral. Independiente de la cantidad de información contenida en la muestra, se tiene que usar el
método estadístico apropiado para extraer la información de los datos.
4. Identificación del procedimiento para hacer inferencias sobre la población con base en la
información muestral. Esta parte corresponde a inferir acerca de la población haciendo uso de la
información muestral, utilizando para esto el mejor procedimiento de inferencia para estimar, decidir
o predecir con base en la información muestral.
5. Obtención de una medida de la bondad (confiabilidad) de la inferencia. Esta parte se identifica
con lo que posiblemente es la mayor contribución de la estadística al análisis se toma de decisiones.
Aquí se contesta a la pregunta. ¿ Qué tan buena es la inferencia ?.
No satisfechos con la información cabe preguntarse. ¿ Qué tan precisa es la información? ¿ De que
valor puede ser una estimación sin una medida de confiabilidad ? ¿Será la estimación precisa dentro
de un 1%, 5% o 20 % ? ¿Será lo suficientemente confiable como para basar en ella futuros planes ?.
En consecuencia en una situación práctica, toda inferencia debe ir acompañada por una medida que
diga que tanta “fe” se le puede tener.
8
1.3 ESTADISTICA Y BIOESTADISTICA
La estadística es la ciencia, pura y aplicada que crea, desarrolla y aplica técnicas de tal forma que la
incertidumbre de las inferencias inductivas puedan evaluarse.
La bioestadística, así también es una ciencia que es parte del método científico que está encargada
de recolectar, organizar, analizar, interpretar y presentar datos, constituyéndose esta serie de pasos
el proceso general de la bioestadística.
La bioestadística es un arte y una ciencia; Arte por la habilidad y el conjunto de artificios que son
necesarios para la recolección de datos ajustados a la realidad, eliminando o reduciendo todas las
posibles fuentes de error, y Ciencia porque usa el método científico (observación, experimentación,
hipótesis, pruebas, error y deducción), las matemáticas, las leyes y principios de las probabilidades,
etc. Por otra parte la bioestadística está relacionada con:
1. La recolección de datos mediante muestreos.
2. La tabulación de datos mediante análisis de frecuencias.
3. La estimación de parámetros de la población y pruebas de hipótesis.
4. El estudio de relaciones entre variables.
5. Es base para el diseño de experimentos.
6. La interpretación a través de estadísticos adecuados.
1.4 BIOESTADISTICA INFERENCIAL Y DESCRIPTIVA.
Cuando se analizan datos de muestras representativas de una población o conjunto universal, se pueden
derivar importantes conclusiones acerca de tales poblaciones. La bioestadística inferencial ó inductiva
estudia las condiciones bajo las cuales un ensayo va de lo particular a lo general, constituyéndose en el
cerebro de un diseño experimental. En cambio la bioestadística descriptiva ó deductiva es la fase de la
estadística que describe y analiza un grupo ó conjunto de datos sin sacar ninguna conclusión ó inferencia
acerca de una población grande.
1.5 POBLACIÓN ó UNIVERSO.
Una población esta definida como el conjunto de mediciones o cómputos que pueden realizarse sobre
una determinada variable. Otros autores, definen, como un conjunto de individuos, objetos o materiales
que tienen una o más características en común. Esta característica en común se denomina parámetro.
Los parámetros son valores que representan a una población, pueden ser promedios, desviaciones
estándares, etc. En cambio aquellos estimadores de una población que caracterizan a una muestra se
denominan estadísticos, estos estimadores deben ser:
9
 Insesgados(el promedio de estimadores igual al parámetro).

 Consistentes(a mayor tamaño de muestra, menor varianza), y;
 Eficientes(entre varios estimadores, el de menor varianza).
1.6 MUESTRA AL AZAR Ó ALEATORIA.
Una muestra es una parte de la población (en algunos casos, una muestra puede incluir la población
entera). Por lo general, se trata de usar la información de la muestra para hacer inferencias válidas acerca
de una población, cuando la población es relativamente pequeña, es posible estudiar a todos los
individuos que la integran, y entonces a ese estudio se llama censo.
Por eso es importante definir la población en estudio para obtener una muestra representativa de la
población definida. Para obtener una muestra representativa se utiliza las técnicas aleatorias de muestreo.
Una muestra aleatoria es aquella en la que cualquier medición individual tiene la misma probabilidad de
ser incluida como cualquier otra medición en el estudio. En su forma más simple, muestreo aleatorio
significa que cada observación de la población tiene la misma probabilidad de aparecer en la muestra,
independientemente de las otras observaciones que por suerte cayeron en ella; de lo contrario, la muestra
se llama sesgada.Con los valores de la muestra se verifican las hipótesis necesarias, se realizan pruebas
relativas y se obtienen conclusiones para inferir el conocimiento de la población(ver fig. 1).
Figura 1. Función de la estadística en el método científico.
Población  Muestra  Observaciones  Formulación de

N n cuantificables hipótesis acerca
de la población.

Conclusiones  Prueba de hipótesis
(inferencia) (métodos estadísticos)
N = Número de individuos que integran la población (tamaño)

n = Tamaño de la muestra.
Ej. Si una muestra tiene n=10, esto indica que se tomaron los valores de 10 individuos: i =1,....
.., 10.
10
1.7 TAMAÑO DE MUESTRA.
El tamaño de la muestra depende de la magnitud de la población cuando ésta es finita, así como de la
variabilidad y de la naturaleza de dicha población, y del riesgo y precisión que fije el investigador. En
general cuanto mas grande sea la muestra más confiable será el resultado y menor será la probabilidad
de error al hacer inferencias relativas a la población muestreada.
Se han desarrollado diversas teorías de muestreo para muestras grandes y pequeñas, que estudian la
relación entre una población y las muestras sacadas de ellas. Cuando se tiene un marco real, es decir,
cuando se dispone de un registro numerado para cada miembro de la población, el muestreo al azar(o
aleatorio) se realiza usando tarjetas o datos numerados, y por medio de sorteos se eligen los miembros
de la muestra. El método más común es el uso de tablas de números aleatorios con 1, 2, 3 o más dígitos.
Cuando se tiene un marco virtual, es decir cuando no se cuenta con el registro numerado de cada
miembro de la población, el método práctico que puede ser usado es el sistemático. Por ejemplo en un
estanque en donde hay una población de peces, el muestreo sistemático consistiría en decidir si después
de cada tres redadas, por ejemplo, la cuarta redada fuera de la que se obtuvieran los valores para la
primera observación, luego de la octava, etc. El procedimiento más simple para sacar muestras al azar ó
aleatorias sin reemplazamiento consiste en el uso de cajas con tarjetas o dados numerados.
Por ejemplo si tenemos una población de 500 individuos y deseamos obtener una muestra de tamaño n =
20, se numeran correlativamente 500 tarjetas iguales en cuanto a tamaño, forma, etc., cada una
correspondiente a un individuo; se hace una mezcla de tal forma que todas tengan la oportunidad de ser
obtenidas al sacarlas de la caja. El número de la tarjeta extraída corresponderá al número del individuo de
la población para ser miembro de la muestra. El proceso se continúa hasta obtener los 20 individuos que
constituirán dicha muestra. Como es de suponer, cuanto más grande sea la muestra, los valores que se
obtengan se aproximarán más a los valores de la población.
- Uso de las tablas de números aleatorios:
En diversos libros de estadística hay tablas de números aleatorios; estos números son obtenidos mediante
una maquina calculadora y son extraídos de tal forma que no hay razón para que algunos números
aparezcan con más frecuencia que otros, excepto por casualidad o por azar.
11
1.8 VARIABLE.
Una variable es toda característica sujeta a medida ó cuenta, generalmente se representan usando las
últimas letras del alfabeto (x, y, z), donde cada valor particular que adopta una variable se denomina
observación.
Cuando la variable puede tomar un solo valor recibe el nombre de constante que se representa con las
primeras letras del alfabeto(a, b, c, etc.).
Las variables en forma general se dividen en:
 Variables cuantitativas.- Son aquellas que pueden ser expresadas numéricamente, y que se dividen
en:
a. Continuas.- Pueden asumir cualquier valor dado entre ciertos límites, son variables que
adoptan números decimales, ej: Peso de los estudiantes, Altura de los estudiantes, Ingresos
económicos, etc.
b. Discontinuas ó discretas.- Son variables que solo pueden tomar números enteros, ej: Número
de estudiantes, Número de bancos, etc.
 Variables cualitativas.- Son aquellas que no pueden expresarse numéricamente, y expresan la

calidad de las variables que se estudian, ej: forma, color, sabor, etc. Convencionalmente pueden ser
expresadas numéricamente, y se codifican estas variables, denotándose por ejemplo; un color por un
número, ej: rojo=1, verde=2, azul =3, etc, ó cuando se realiza una encuesta, y se codifica la respuesta
de una pregunta, por ejemplo: A usted le gusta fumar; mucho=1, poco =2, muy poco=3, nada =4, etc.
12
CAPITULO 2.
DISTRIBUCIÓN DE FRECUENCIAS
2.1 INTRODUCCION.
Una vez obtenidos los datos referidos a valores cualitativos como cuantitativos, se hace necesario ordenar
las observaciones en distribuciones de frecuencia para obtener de ellas la mayor cantidad de información.
Una distribución de frecuencias es un arreglo tabular de datos que muestra la frecuencia de cada dato en
límites de clase construidos adecuadamente, el procedimiento para elaborar una distribución de
frecuencias es el siguiente:
a. El primer paso es ordenar los valores en forma ascendente o descendente.
b. El segundo paso es la formación de clases, que consiste en agrupar o clasificar aquellos valores
individuales que sean iguales o muy semejantes, cada grupo de individuos se llama clase.
2.2 REGLAS PARA ELABORAR LIMITES DE CLASES.
Para la formación de clases se determina el tamaño de intervalo de clase (TIC), en base a las siguientes
reglas:
1. El TIC será de amplitud uniforme, y de tal magnitud que se manifiesten los rasgos característicos de
la distribución de frecuencias de los valores en estudio.
2. El número de clases cubrirá la amplitud de todos los datos, y las clases deberán ser continuas.
3. Como regla general, el número de clases que con frecuencia se usa está entre 4 y 15, para poder
distinguir las características de la distribución, principalmente cuando se hace la representación gráfica.
4. Es conveniente que el punto medio (la mediana) de cada clase sea un número entero.
5. El número aproximado de clases se puede estimar por el uso de la siguiente fórmula:
R
TIC 
k
13
Donde;
TIC = Tamaño de intervalo de clase
R = Rango = valor máximo - valor mínimo.
k = Número de clases aproximado.
El valor de k, se puede obtener con ayuda de la siguiente fórmula:
k=n
Cuando se ha obtenido el valor del TIC, se procede a elaborar la correspondiente tabla de distribución de
frecuencias.
Al número de observaciones o de individuos iguales o semejantes de cada clase se le llama frecuencia

absoluta de clase, frecuencia relativa es la relación que existe entre la frecuencia absoluta y el número
de individuos de la población, frecuencia acumulativa es la frecuencia absoluta más la suma de las
frecuencias absolutas de las clases anteriores.
EJEMPLO.
a. En la Estación Experimental Patacamaya, se ha registrado la producción de leche de 30 vacas criollas

durante la gestión 95/96, siendo los resultados los siguientes:
Producción de leche(litros/dia)
3,6 3,8 6,3 5,7 5,9 7,3

2,6 5,4 6,3 5,6 2,4 3,6
8,3 5,7 6,2 4,0 6,4 3,2
6,8 4,3 7,2 8,6 5,6 6,6
5,4 3,6 5,6 5,8 9,1 3,2
a. Elabore una tabla de distribución de frecuencias.

b. Represente en forma gráfica en un histograma de frecuencias, en un polígono de frecuencias.
c. Represente las ojivas ascendentes y descendentes.
El primer paso, es ordenar ya sea en forma ascendente o descendente, ordenando se obtiene:

2.4 2.6 3.2 3.2 3.6 3.6
3.6 3.8 4.0 4.3 5.4 5.4
5.6 5.6 5.6 5.7 5.7 5.8
5.9 6.2 6.3 6.3 6.4 6.6
6.8 7.2 7.3 8.3 8.6 9.1
14
Luego se determina el TIC(Tamaño de intervalo de clase).

R = 9.1 - 2.4
R = 6.7
De acuerdo a la tabla el valor de k para n=30, redondeando es 6

De donde,
TIC = 6,7/6
TIC = 1,1
Una vez determinado el TIC, se elabora la tabla de distribución de frecuencias.
2.3 ELABORACIÓN DE LA TABLA DE DISTRIBUCION DE FRECUENCIAS:
Para elaborar la tabla de frecuencias, se empieza con el valor mas bajo de la distribución en estudio, en
este caso 2,4 y se le suma el valor del TIC que es 1,1, lo que nos dá un valor de 3,5, llegando a formarse el
primer límite de clase que vá desde 2,4 hasta 3,5 litros de leche, el segundo límite empezará en 3,6 y así
sucesivamente hasta completar la totalidad de límites de clase, que en este caso es 6(ver tabla 1.)
Cada término de cada clase recibe una denominación, por ejemplo el primer límite 2,4 se denomina límite
inferior de la primera clase, y 3,5 es el límite superior de la primera clase, por consiguiente el 6,0 será el
límite inferior de la cuarta clase, etc.
Para encontrar las frecuencias es necesario verificar el número de datos que existe en cada limite elaborado,
por ejemplo para el primer límite de clase que vá desde 2,4 hasta 3,5 en los datos en estudio solo existen
4, por lo que la frecuencia de la primera clase es 4, de esa manera se completa los valores faltantes
obteniéndose los valores de la tabla 1.
El límite real inferior de la segunda clase se obtiene sumando el limite inferior de la segunda clase con el
limite superior de la primera clase, para posteriormente dividir entre dos, (3,6+3,5)/2 dando un resultado de
3.55, los demás limites reales se encuentran de igual manera.
La marca de clase ó punto medio de clase se obtiene sumando el límite inferior con límite superior de cada
clase, y dividiendo entre dos, por ejemplo (2,4+3,5)/2 da 2.95 que es la marca de clase del primer límite.
Realizados todos los cálculos se obtiene la tabla 1.
15
Tabla 1. Producción de leche (lt/dia), de 30 vacas criollas de la Estación Experimental

Patacamaya.
N Lim. clase Frec. Lim. real clase Pto. Medio

(LC) (f) (LRC) (X)
1 2,4 – 3,5 4 2,35 – 3,55 2,95
2 3,6 – 4,7 6 3,55 – 4,75 4,15
3 4,8 – 5,9 9 4,75 – 5,95 5,35
4 6,0 – 7,1 6 5,95 – 7,15 6,55
5 7,2 – 8,3 3 7,15 – 8,35 7,75
6 8,4 – 9,5 2 8,35 – 9,55 8,95
2.4 HISTOGRAMA Y POLIGONO DE FRECUENCIAS.
Una tabla de distribución de frecuencias, si bién ayuda a ordenar la información, requiere de la

transformación gráfica respectiva en ejes de coordenadas, lo que facilita el análisis con más detalle, se
conocen las siguientes representaciones graficas:
Cuando en el eje X se representan los límites reales inferiores de clase, y en el eje Y las frecuencias
absolutas, tales gráficos se denominan histogramas de frecuencias y pueden ser realizados mediante
barras (Figura 1).
Figura 1. Histograma de frecuencias
Número de animales(frec.)
10
0
1,75 2,95 4,15 5,35 6,55 7,75 8,95 10,15
Litros de leche(Punto medio)
16
La representación de los puntos medios de las clases sobre los histogramas ya formados en el eje X,
tomando en el eje Y el valor de la frecuencia absoluta, unidos por líneas segmentadas, recibe el nombre de
polígono de frecuencias(Figura 2.), se ilustra un ejemplo en la siguiente figura.
Figura 2. Polígono de frecuencias
10
0
1,75 2,95 4,15 5,35 6,55 7,75 8,95 10,15
Litros de leche (Punto medio)
El trabajo realizado con la tabla de frecuencias, plasmado en el histograma y el polígono de frecuencias,

indica que la variación para la variable Producción de leche no es desordenada; hay una manifiesta
tendencia de los valores a presentarse con menor o mayor intensidad con poca frecuencia.
Los valores mas frecuentes son los centrales, esta es una característica típica de los caracteres cuantitativos
continuos, y se dice que la distribución es normal pues tiene forma simétrica que es lo que siempre se
espera que suceda cuando se trabaja con este tipo de variables.
 TIPOS DE CURVAS DE FRECUENCIAS.
Las variables continuas tienen diferentes distribuciones de acuerdo a su naturaleza, dando lugar a diferentes
tipos de curvas como las que se describen a continuación.
Curvas simétricas. Son aquellas que teniendo una observación central de frecuencia máxima, presentan
observaciones equidistantes de la observación central con frecuencias iguales. Un ejemplo clásico es la
curva normal de probabilidades.
17
Curvas asimétricas.
Son aquellas que presentan dominancia de observaciones a un lado del eje teórico de simetría. Si este
mayor número de observaciones se presenta al extremo de valores más bajos del rango, y la cola más larga
se extiende a la derecha, donde los valores de los puntos son más grandes, se dice que la asimetría es
positiva. En cambio si el mayor número de observaciones, se presenta en la cola de valores altos del rango,
y la cola mas larga se extiende a la izquierda, donde los valores de los puntos son más pequeños, se dice
que la asimetría es negativa.
Curvas de forma de U.
Son aquellas que tienen valores máximos en los extremos de la distribución.
Curvas bimodales.
Son aquellas que tienen dos observaciones distanciadas, con frecuencias máximas.
Curvas multimodales.
Son aquellas que tienen más de tres observaciones generalmente distanciadas, con frecuencias máximas.
 OJIVAS.
Si se toma en el eje X, los limites reales inferiores, y la frecuencia acumulada en el eje Y, empezando en
cero(ver tabla 2), se logra obtener polígonos ascendentes denominados también ojivas ascendentes
(Figura 3).
Tabla 2. Límites Reales vs. Frecuencia acumulada (f.acum.), y frecuencia

desacumulada(f.desacum.)
Límite Real Frecuencia Frecuencia

Inferior de clase Acumulada Desacumulada
(L.R.I.) (f.acum.) (f.desacum.)
2,35 0 30
3,55 4 26
4,75 10 20
5,95 19 11
7,15 25 5
8,35 28 2
9,45 30 0
18
Finalmente si se toma en el eje X, los limites reales inferiores, y la frecuencia desacumulada en el eje Y,
empezando en la frecuencia total y terminando en cero, se logra obtener poligonos descendentes
denominados también ojivas descendentes(Figura 3).
Figura 3. Ojiva ascendente y ojiva descendente
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
2,35 3,55 4,75 5,95 7,15 8,35 9,55
Litros de leche(Punto medio)
Algunas veces también puede ser de mucha utilidad realizar representaciones gráficas tomando frecuencias
relativas porcentuales acumuladas y desacumuladas, llegándose a formar las denominadas ojivas
ascendentes relativas porcentuales y ojivas descendentes relativas porcentuales.
La utilidad práctica de todas estas representaciones es que permiten obtener de manera rápida,
información específica sobre el conjunto de datos en estudio, tomando como referencia el ejercicio
referido a la producción de leche por 30 vacas, un Investigador puede estar interesado en saber por
ejemplo:
- Que número y porcentaje de animales producen mas de 5 litros,
- Que número y porcentaje de animales que producen menos de 8 litros, ó,
- Que número y porcentaje de animales que producen entre 4 y 7 litros.
- Existe también otro tipo de representaciónes gráficas circulares, denominadas “ tortas “(ver figura 3), las
cuales pueden ser obtenidas ya sea en forma manual, o con el Software Excel .
19
Figura 3. Porcentajes de límites de clase. 0%

0%
7% 13%
10%
20%
20%
30%
-
EJEMPLO.
Considerándo que los datos de la tabla 1. Se distribuyen normalmente, determine:
 El número y porcentaje de animales que produce mas de 6.5 horas/mes..
R. En primer lugar se ubica el límite de clase de interés, en este caso la cuarta clase(marcada con
negrilla).

(LC) (f) (LRC) (X)
1 2,4 – 3,5 4 2,35 – 3,55 2,95
2 3,6 – 4,7 6 3,55 – 4,75 4,15
3 4,8 – 5,9 9 4,75 – 5,95 5,35
4 6,0 – 7,1 6 5,95 – 7,15 6,55
5 7,2 – 8,3 3 7,15 – 8,35 7,75
6 8,4 – 9,5 2 8,35 – 9,55 8,95
El TIC de esta clase es 1,2, lo que corresponde a una frecuencia de 6, y de acuerdo al intervalo delimitado
por 6.5 hacia la derecha, se tiene que:
El número de animales que produce mas de 7 horas en el cuarto límite de clase = 0.65 * (6/1,2) = 3,25. (El
valor de 0,65 se obtiene por la diferencia entre 7,15 – 6,5).
El número de animales que produce mas de 7 horas en el cuarto límite de clase = 3,25, lo que redondeando
es equivalente a 3, este es el número de animales que produce mas de 6,5 horas en la cuarta clase, como
interesa saber el comportamiento en toda la distribución, se suma el número de animales de la 5ta y 6ta
20
clase respectivamente, obteniéndose 8 vacas, y por regla de tres, el porcentaje es equivalente a 26,67%,
lo que indica que aproximadamente el 27 %. de los 30 animales produce mas de 6,5 horas, o si se quiere 8
vacas de las 30 produce esa cantidad de leche.
El enfoque utilizado para resolver la interrogante planteada, se conoce como analítico, (solo es válido para
distribuciones que se supone normalmente distribuidas), también puede llegarse a la misma solución
utilizando la gráfica de ojiva descendente absoluta para determinar el número de animales que produce
más de 6,5 litros de leche, ubicando en el eje X (litros de leche) el valor de 6,5 elevando una línea hasta
intersectar con la ojiva descendente absoluta, y luego se encuentra el valor buscado, trazando una línea
recta hacia la izquierda hasta intersectar con el eje Y ( Número de animales), este procedimiento se conoce
como solución gráfica.
Para el caso del porcentaje el proceso es idéntico, excepto que se debe usar la ojiva descendente
porcentual.
EJERCICIOS PROPUESTOS.
1. Con los datos de la tabla 1.

a. Determine el número y porcentaje de animales que produce mas de 3,5 litros.
R. Son 26 animales, lo que corresponde a un 86,67% del total.(Este resultado puede ser obtenido ya sea
en forma análítica, o en forma gráfica mediante las ojivas).
b. Determine el número y porcentaje de animales que produce más de 5 litros.

R. Son 18 animales, lo que representa el 60%.
c. Determine el número y porcentaje de animales que produce más de 5 litros, pero menos de 8.4litros.
R. Son 16 animales, lo que equivale a un 53.33%.
21
2. Los datos que se muestran a continuación corresponden a 30 niños de un Colegio de la ciudad del Alto,
y la característica o variable medida es el peso en Kg.
46 43 46 42 43
40 42 44 48 46
42 45 50 40 36
37 40 42 46 42
41 38 30 22 41
38 33 34 39 35
a. Elabore una tabla de distribución de frecuencias.

b. Represente esta información en un histograma y un polígono de frecuencias.
c. Comente la distribución gráfica.
R. a.
(LC) (f) (LRC) (X)
1 21 - 25 1 20,5 – 25,5 23
2 26 - 30 1 25,5 – 30,5 28
3 31 – 35 3 30,5 – 35,5 33
4 36 - 40 8 35,5 – 40,5 38
5 41 – 45 11 40,5 – 45,5 43
6 46 - 50 6 45,5 – 50,5 48
3. En referencia al ejercicio 2:
a. Calcular el porcentaje de niños que pesa más de 37 kg.
b. Calcular el procentaje de niños que pesa menos de 27 kg.
R. a. 75,33%
b. 4,33%
22
CAPITULO 3.
MEDIDAS DE TENDENCIA CENTRAL
3.1 INTRODUCCION.
Las medidas de tendencia central tienen como función principal, lograr que las observaciones(datos en
estudio), tengan un valor central que los represente de la mejor manera posible, considerando el tipo y la
forma de la distribución.
Un promedio es un valor típico o representativo de un conjunto de datos. Se conoce también como medida
de tendencia central porque dicho valor tiende a permanecer en una posición central en el conjunto d e
datos dispuestos según su magnitud. Cada uno de estos promedios mencionados anteriormente presenta
ventajas y desventajas, dependiendo del estudio que se realice.
3.2 MEDIA ARITMÉTICA.
Es la medida de tendencia central más fácil de calcular y entender, y la amplia utilidad en inferencia
estadística hace que sea considerada por muchos autores como la más importante.
Para el estudio es necesario considerar que pueden existir datos u observaciones no agrupados en tablas
de frecuencias y, datos que están agrupados en tablas de frecuencias, analizándose por separado cada
uno de los casos.
a. Media Aritmética para datos no agrupados.- Se define como la suma de todos los valores
observados dividido entre el número de observaciones.
Se representa como:
x = Cuando la media describe una muestra.

 = Cuando la media describe una población.
La fórmula para el cálculo de la media muestral, es:
n
 xi
x1  x2  x3  ...........  xn i 1
x 
n n
23
Ej: Sea x la variable peso (kg) de 10 estudiantes de la UMSA.
x1=54; x6=55
x2=65; x7=64
x3=72; x8=69
x4=60; x9=61
x5=68; x10=59
54  65  72  60  68  55  64  69  61  59
x  62.7kg
10
Interpretacion.- Se interpreta concluyendo que la mayoría de los pesos de los 10 estudiantes estarán
alrededor de 62,7 kg, esta información, puede ser usada para realizar otros estudios.
b. Media Aritmética para datos agrupados.- Si los datos se presentan en una tabla de frecuencias no
es posible conocer los valores de cada una de las observaciones, pero sí las categorias en las cuales se
hallan las observaciones.
En este caso los datos se distribuyen uniformemente alrededor del punto medio de clase, y la fórmula que
debe ser utilizada para los cálculos es la siguiente:
x1 f1  x2 f 2  x3 f 3  ...........  xn f n  xi f i
x  i 1n
f1  f 2  f 3  ...... f n  fi
i 1
Donde;
f = Frecuencia de Clase.
x = Punto medio de Clase.
 PROPIEDADES.
La media aritmética está caracterizada por las siguientes propiedades:
1. La suma algebraica de las observaciones de un conjunto de números con respecto a su media

aritmética es cero.
2. La suma de los cuadrados de las desviaciones de un grupo de números con respecto a su media es
un mínimo.
24
3. Si n1 números tienen media m1, n2 números tienen media m2, y nk números tiene media mk; luego la
media de todos los números será:
n
 ni mi
n1m1  n2 m2  n3m3  ...........  nk mk
x  i 1
n1  n2  n3  ......  nk n
 ni
i 1
4. Si a es un valor supuesto para la media aritmética y si dj = xj- a son las respectivas desviaciones.
Entonces:
n
dj
i 1
x  a
N
 Media Ponderada.- Cuando se necesita ponderar algunos datos en estudio es muy frecuente utilizar
la media ponderada, que no es más que la suma de variables cada una multiplicada por las
ponderaciones, este resultado se divide entre la suma de las ponderaciones. La media p onderada se
denota como: Xw
x1 w1  x 2 w2  x 3 w3 ........... x n wn x w i i
xw   i 1
w1  w2  w3 ...... wn n
w
i 1
i
Ej: Determinar el rendimiento promedio de maíz, con información obtenida en 3 haciendas con diferente
superficie, en la Localidad de Sorata:
Superficie Rendimiento.
200 Ha  3 Ton/Ha de Maíz
Según la fórmula:
3200  4160  580

Xw   3.68Tn / Ha
200  160  80
Interpretación.- Esto significa que el promedio de producción del maíz de las tres
haciendas en Sorata es 3,68 Ton/ha.
25
3.3 MEDIANA.
Es aquel valor que divide a las poblaciones en dos partes iguales cuando se tiene los datos ordenados en
forma descendente ó ascendente, considerándose que el 50% de los datos están por debajo del valor de
la mediana, y el otro 50% por encima.
También se divide en dos grupos, el primero referido a datos no agrupados, y el segundo referido a datos
agrupados en tablas de frecuencias.
a. Mediana para datos no agrupados.- Debe considerarse, si los datos son pares ó impares:
 Para datos impares.
Med  X n 1
2
 Para datos pares.

Xn  Xn
1
Med  2 2
b. Mediana para datos agrupados.- La fórmula para calcular datos agrupados es un tanto diferente:
 n n


2
  fi 
Med  LVI m  c i 1 
 fm 
 
 
Donde;
Med = Mediana
LVIm = Límite real inferior que contiene la clase mediana.
c = Tamaño de intervalo de clase.
n = Numero de observaciones.
fm = Frecuencia de la clase que contiene a la mediana.
fi = Suma de frecuencias desde la primera clase hasta la clase anterior a la que contiene la
mediana.
26
 Cuartiles, Deciles y Percentiles.
Los cuartiles son intérvalos que dividen a la distribución en cuatro partes iguales, es decir que existirán
tres cuartiles, siendo que el primer cuartil dividirá la distribución en estudio, en dos partes, hacia la
izquierda se situará el 25 %, y a la derecha se situará el 75 %; en el caso del segundo cuartil, este dividirá
a la distribución en un 50% por debajo, y un 50% por encima, lo que significa que el segundo cuartil es
equivalente a la mediana, y el tercer cuartil divide por debajo el 75% de la distribución, y por encima el 25
%.
Las respectivas fórmulas de cálculo serán las siguientes:
Primer Cuartil:
 n n 
   fi 
1Cuartil  LVI m  c 4 i 1



fm 

 
Donde;
1 Cuartil = Primer Cuartil
LVIm = Límite real inferior que contiene el primer cuartil.
fm = Frecuencia de la clase que contiene el primer cuartil.
fi = Suma de frecuencias desde la primera clase hasta la clase anterior a la que contiene el
primer cuartil.
El cálculo del segundo cuartil es idéntico a la mediana, razón por la cual no se muestra la fórmula de
cálculo.
Tercer Cuartil:
 3n n 
   fi 
3Cuartil  LVI m  c 4 i 1



f m 

 
Donde; Cuartil = Tercer Cuartil
LVIm = Límite real inferior que contiene el tercer cuartil.
fm = Frecuencia de la clase que contiene el tercer cuartil.
fi = Suma de frecuencias desde la primera clase hasta la clase anterior a la que contiene el
tercer cuartil.
27
Por analogía, se realiza el cálculo correspondiente cuando se trata de los deciles y percentiles, los deciles
dividen a la distribución en estudio en 10 partes iguales, por tal motivo existirán nueve deciles, y en el caso
de los percentiles, estos dividen a la distribución en cien partes iguales, por lo que existirán 99 percentiles.
La utilidad práctica de estos procedimientos, es la aplicación que puede darse en una di stribución de
referencia, a valores porcentuales, lo que permitirá sacar conclusiones validas acerca del estudio
realizado.
3.4 MODA.
Es el valor que se repite con mayor frecuencia en un grupo de observaciones en estudio. Estos valores
siempre están cerca a la media, y los que no se repiten, generalmente están alejados de la parte central.
a. Moda para datos no agrupados.- El cálculo se realiza por determinación visual.
Ej: 2,3,3,3,4,4,5,6,7  Mo = 3
b. Moda para datos agrupados.-
La fórmula de la Moda para datos agrupados es:
 f mo  1 
Mo  LVI mo  c 
  f mo  1   f mo  1 
Donde;
Mo = Moda
LVImo = Limite real inferior que contiene la moda.
fmo+ = Diferencia que existe entre la frecuencia modal y la frecuencia anterior.
fmo-1= Diferencia que existe entre la frecuencia modal y la frecuencia posterior.
Ejercicio: Tomando los datos de la siguiente tabla de frecuencias, calcular:
a. La media
b. La mediana ó segundo cuartil.
c. La moda.
d. Interpretar los resultados obtenidos.
28
Tabla 2. Datos de peso de 86 estudiantes de la U.M.S.A., escogidos al azar.
Clase Frecuencia P.Medio(X)

31 - 40 1 35,5
41 - 50 2 45,5
51 - 60 5 55,5
61 - 70 15 65,5
71 - 80 25 75,5
81 - 90 20 85,5
91- 100 18 95,5
a. El cálculo de la media aritmética:
. )  (2)(455
(1)(355 . ) ...........(18)(955
. ) 6703
x 
1  2  5......18 86
x  77.94
Interpretación.- Esto significa que la mayoría de los estudiantes tienen pesos que oscilan alrededor de
77.94 Kg.
b. El primer paso es encontrar la clase que contiene a la mediana, para lo cuál se divide el total entre
dos:
Entonces: 86
 43
2
El valor de 43 se encuentra en la quinta clase, es decir entre 71-80, con lo que se concluye que es ésta la
clase que contiene a la mediana, luego se reemplaza en la fórmula los valores que corresponden,
obteniéndose lo siguiente:
 86 
  23
Med  70.5  10 2   78.5
 25 
 
Med = 78,5
Interpretación.- La mediana divide al histograma en dos partes exactamente iguales, es decir, la mitad de las
86 personas tienen pesa menos de 78,5Kg, y la otra mitad pesan más de 78,5 Kg.
29
c. Para encontrar la moda, en primer lugar se encuentra la clase modal, revisando la tabla se vé que la mayor
frecuencia es 25, que también se encuentra en la quinta clase (71-80), luego se reemplaza los valores en la
fórmula:
 10 
Mo  70.5  10   77,17
 10  5 
Interpretación.- Esto significa que el peso que se repite con más frecuencia es de 77,17 kg aproximadamente.
3.5 OTROS TIPOS DE MEDIAS.
Algunas veces la media aritmética no es representativa del valor central de un conjunto de datos, y es
necesario acudir a otro tipo de indicadores de tendencia central. El tipo de valor medio a usarse,
dependerá exclusivamente del problema que se encara y por ello es que las fórmulas no deben usarse
en forma indiscriminada, sino, cuando se esté interiorizado con la naturaleza de la situación planteada.
Por ejemplo, si en cada kilómetro que recorre un automóvil se toma el tiempo empleado, y después de
20 kilómetros recorridos, se trata de hallar el tiempo promedio, la media aritmética no debe usarse, sino
mas bien, la media armónica.
Si se tiene un conjunto de observaciones tales como X1, X2, X3... ...,Xn, la media armónica ( Ma), se
define:
N N
Ma   n
1 1 1 1 1
   ......  
X1 X 2 X 3 Xn i 1 Xi
El uso más frecuente de la media armónica se produce en problemas que plantean la necesidad de
promediar velocidades obtenidas al recorrer distancias iguales.
Ahora supóngase, que en una ciudad, la razón de nacimiento y la razón de muertes son estables, y que
dentro de 10 años, por ejemplo, la migración no será significativa. Si se conoce la Población inicial y la
que habrá 10 años después, para hallar la Población en el quinto año, no debe usarse la media aritmética,
sino mas bién, la media geométrica, ya que la población crecerá en razón proporcional al número de
personas en la ciudad. Si se tiene un conjunto de números positivos, tales como X1, X2,... ...,Xn, la
media geométrica denotada por Mg, se define como:
30
Mg  N ( X 1)( X 2)( X 3·)........( Xn).
La media geométrica se utiliza para ciertos tipos de problemas, en los cuales la relación entre dos
números consecutivos es constante o aproximadamente constante; tal como ocurre, con el tamaño de
una población en intervalos consecutivos de tiempo, o con el valor de una suma de dinero que se
incrementa en interés compuesto.
1. En la tabla 2.
a. Encuentre el TIC.
R. Es 10.
b. Cuál es el valor del límite real inferior de la quinta clase ?
R. Es 70,5
c. Si la frecuencia de la segunda clase fuese 25, que tipo de curva de frecuencia se tendría; Normal,
Asimétrica, Bimodal, Multimodal, justifique su respuesta.
R. Es bimodal, ya que se tiene dos valores con máxima frecuencia.
d. Encuentre el primer y tercer cuartil.
2. Demuestre con un ejemplo, que se cumplen las propiedades 1 y 2 de la media aritmética.
3. Con los datos de la siguiente tabla de frecuencias.

(LC) (f) (LRC) (X)
1 2,4 – 3,5 4 2,35 – 3,55 2,95
2 3,6 – 4,7 6 3,55 – 4,75 4,15
3 4,8 – 5,9 9 4,75 – 5,95 5,35
4 6,0 – 7,1 6 5,95 – 7,15 6,55
5 7,2 – 8,3 3 7,15 – 8,35 7,75
6 8,4 – 9,5 2 8,35 – 9,55 8,95
Cálcule la media aritmética.
R. x  5,51
31
4. Con los datos de la página 31, correspondientes a producción de leche de 30 vacas criollas, Calcular la
media aritmética.
R. x  5,37
5. A qué atribuye el hecho de que el valor calculado para la media aritmética sea diferente en 3 y 4, si se
ha trabajado con los mismos datos.
R. Lo que sucede es que al elaborar tablas de frecuencia, muchas veces se comete lo que se conoce como
error de agrupamiento(error matemático).
6. Calcule la mediana y la moda con los datos de la tabla de frecuencias de la pregunta 3.
7. Calcule la mediana y la moda con los datos de la página 31, considerando 5 clases.
8. Un automóvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje entre A y B a
razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora. Calcular la velocidad promedio del
viaje de ida y vuelta.
R. 96 Km por hora.
9. Un automóvil que hizo un recorrido entre dos ciudades tiene los siguientes registros. 60 Km en la primera
hora, 80 Km en la segunda hora, 75 Km en la tercera hora y 65 Km en la última y cuarta hora. Determine el
número promedio de kilómetros recorridos.
R. 70 Km por hora.
10. Las ventas realizadas por una fábrica en los últimos cuatro años se dan a continuación, así como el
porcentaje de venta en relación al año previo.
32
1964 1965 1966 1967

Miles 7500 6295 5950 7200
Ventas Porcentajes
con respecto 83,93 94,52 121,01
al año anterior
Calcule la media geométrica de los porcentajes.
R. Mg = 98,64
33
CAPITULO 4.
MEDIDAS DE DISPERSION
4.1 INTRODUCCION.
Conocer la forma y la distribución de un conjunto de datos en estudio, no da una idea clara de la

homogeneidad de los valores con respecto a la medida de tendencia central aplicada.
En el caso de variables con valores que pueden definirse en términos de alguna escala de medida de igual
intervalo, puede usarse un tipo de indicador que permita apreciar el grado de dispersión o variabilidad
existente en el grupo de variantes en estudio.
Las medidas de dispersión establecen la magnitud de las desviaciones o residuales, de las observaciones
en torno a las medidas de tendencia central.
 Rango.
Es la unidad más sencilla de la dispersión o variables de los datos, pero cuando se trabaja con valores
extremos, pierde precisión. Sin embargo cuando el rango es pequeño es bastante suficiente.
El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos u observaciones
en estudio.
4.2 VARIANZA.
Es un estadístico muy conocido y ampliamente utilizado, pero debido a que su expresión matemática es
presentada en términos cuadráticos, es difícil de interpretar, y su importancia radica en el hecho de que
permite determinar la desviación estándar. La varianza es la suma de las desviaciones de las
observaciones con respecto a la media aritmética elevadas al cuadrado, dividido entre el número de
observaciones, razón por la cual se denomina también como suma de cuadrados medios.
34
a. Datos no agrupados.
Para los cálculos matemáticos, existen dos grupos de fórmulas, las llamadas:
- Fórmulas de desviaciones.
- Fórmulas de computación.
 Fórmulas de desviaciones: Son las que trabajan con datos que tienen una cierta desviación respecto
al promedio(media aritmética), debe diferenciarse entre muestras pequeñas(cuando el número de
observaciones es menor a 30), y muestras grandes(cuando las observaciones sean mayores o
iguales a 30), estas últimas ya se consideran como poblaciones.
Para muestras: Para poblaciones:
2
s 
 2
  2

X1  X  X 2  X  ..... X n  X
2
  X X
2  1
2  X 2  X 2  ..... X n  X 2
n 1 n
2 2
x   x 
n n
i x i x
s 
2 i 1
 2 i 1
n 1 n
 Fórmulas de Computación: Estas son fórmulas fácilmente accesibles en las calculadoras(trabaje en

el modo sd), son las de mayor uso, de todos modos el resultado debe salir exactamente igual
utilizando cualquiera de los dos grupos de fórmulas, es decir, las de desviaciones o las de
computación.
2 2
 n   n 
n   x
 i 1 
i  n



 xi 


 xi 
2
n  xi2 
i 1
n
s 
2 i 1
 2
 i 1
n 1 n
35
EJERCICIO:
Ej: Para los datos no agrupados: 3,8,7,5,9,4 hallar la varianza, con las fórmulas de desviaciones.
2
x 
n
i x
s  2 i 1
n 1
X=6
( 3 - 6 )2 = 9
( 8 - 6 )2 = 4 9  4 11 9  4
( 7 - 6 )2 = 1 s2   5,6
( 5 - 6 )2 = 1 5
( 9 - 6 )2 = 9
( 4 - 6 )2 = 4
Utilizando la fórmula de computación el resultado debe salir el mismo valor, pruebe usted.
b. Datos agrupados.
Los datos agrupados son aquellos que se encuentran agrupados en tablas de frecuencias, para los
cálculos matemáticos, También existen dos grandes grupos de fórmulas, las llamadas:
 Fórmulas de desviaciones: Diferenciándose entre muestras pequeñas(cuando el número de
observaciones es menor a 30), y muestras grandes(cuando las observaciones sean mayores o
iguales a 30).
2 2 2 2 2 2
f  X1  X   f  X 2  X   ..... f  X n  xX  f  X1  X   f  X 2  X   ..... f  X n  X 
           
s2  2 
n 1 n

2
 f x 
2 n
 f x 
n
i  x i x
i 1
s 2
 i 1   2
n 1 n
36
Fórmulas de Computación: Son las de mayor uso, de todos modos el resultado debe salir exactamente
igual utilizando cualquiera de los dos grupos de fórmulas, es decir, las de desviaciones o las de
computación.
Para muestras: Para poblaciones
2
 n 

2
 fxi   n 
n 
 i 1 

  fxi 

  
n
i 1
fxi2 
n  fxi2 
i 1
n
s2  2  i 1
n 1 n
EJERCICIO. Para los siguientes datos agrupados hallar la varianza:
Clase xi fi fixi fixi2

5 - 15 10 3 30 300
15 - 25 20 5 100 2000
25 - 35 30 8 240 7200
35 - 45 40 2 80 3200
18 450 12700
Según la fórmula: n
n ( f i xi ) 2
f i xi  i 1
n
s2  i 1
n 1
(450) 2
12700
2
s  18  85.29
18  1
4.3 DESVIACIÓN ESTÁNDAR.
Esta es la medida de dispersión o variación más ampliamente utilizada, y junto a la media aritmética
juegan un papel importante en inferencia estadística, especialmente cuando se están planteando pruebas
de hipótesis, matemáticamente es la raíz cuadrada de la varianza y sus fórmulas de cálculo son:
37
a. Datos no agrupados.
Para los cálculos matemáticos, existen también dos grupos de fórmulas, las llamadas:
 Fórmulas de desviaciones:
s 
X1  X 2  X 2  X 2  ..... X n  X 2 
X1  X 2  X 2  X 2  ..... X n  X 2
n 1 n
 
2
 
n n 2
 xi  x  xi  x
s  i 1 i 1
 
n 1 n
 Fórmulas de Computación:

Para muestras: Para poblaciones
2 2
 n   n 
 x   x 
i i
n 2  i 1  n 2  i 1 
 xi   xi 
i 1 n i 1 n
s   
n 1 n
b. Datos agrupados.
Existen también: - Fórmulas de desviaciones.

38
 Fórmulas de desviaciones:
2 2 2
s 
f  X 1  X   f  X 2  X   ..... f  X n  X 
     


f X1  X 2  f X 2  X 2  ..... f X n  X 2
n 1 n
 
2
 
n 2 n
 f xi  x  f xi  x
s  1
i   1
i
n 1 n
 Fórmulas de Computación:
2 2
 n   n 
  fx    fx 
 i   i 
n 2  i 1 
n 2  i 1   fxi 
 fxi 
i 1 n i 1 n
s   
n 1 n
4.4 TEOREMA DE TCHEBYSHEFF.
Por el teorema de Tchebysheff, se establecen las siguientes reglas(ver gráfico);
1. x  s = 68,26% de las observaciones.

2. x  2s= 95,45% de las observaciones.
Que se convierte en una relación constante entre la media aritmética o promedio y la desviación estándar,
la cuál es útil para establecer y verificar relaciones de normalidad.
39
x -3s x -2s x -s x x +s x +2s x +3s

Donde;
x = promedio y;
s= desviación estándar
 PROPIEDADES DE LA DESVIACION ESTANDAR.
1. Si la desviación estándar se define en forma general como:
n 2
 xi   
  i 1
n
donde,  representa un promedio cualquiera, entonces de todas las desviaciones estándares posibles, la
mínima es esa para la cuál  es igual a la media aritmética.
2. Para distribuciones normales, se cumple que;
1. x  s = 68.26% de las observaciones.

2. x  2s= 95.45% de las observaciones.
3. x  3s= 99.73% de las observaciones.
3. Si se tiene dos conjuntos de observaciones o dos distribuciones de frecuencias, el primer conjunto se

conforma de N1 y varianza 21; y el segundo conjunto contiene N2 y varianza 22 ; y si además, ambos
conjuntos o distribuciones, tienen la misma media aritmética, la varianza combinada esta dada por:
N1 * 21 + N2 * 22;
2 c= -------------------------------
N1 + N2
Donde, en realidad 2c es una media ponderada de las varianzas.
40
EJERCICIO. Con los datos de la tabla siguiente: Calcular la desviación estándar (s).
Clase xi fi fixi fixi2

5 - 15 10 3 30 300
15 - 25 20 5 100 2000
25 - 35 30 8 240 7200
35 - 45 40 2 80 3200
18 450 12700
12700
4502
s  18
18  1
s  9.24
x = 25
La desviación estándar permite saber cuán variables son las observaciones con respecto al valor
promedio.
Para la interpretación reemplazando en la primera regla del teorema de Chebysheff, se tiene que:
x  s = 25  9,24 = 34,24 y 15,76
15,76 25 34,24
Si se considera que los datos registrados siguen una distribución normal, y se seleccionan al azar 12(*),
de los 18 datos estudiados, se espera que se encuentren en un rango 15,76 y 34,24 unidades
respectivamente. (*) Esto porque el 68,26% de 18 es aproximadamente12.
Para el caso de la segunda y tercera regla del teorema de Chebysheff, el rango y la variabilidad se
amplían, con lo que se llega a conocer cuán variables son los datos que se estudian. Mediante esta
relación, se llega a comprender la magnitud y la importancia de presentar en todo reporte de investigación
(ya sea de una tesis de grado, proyecto de grado, etc), el dato de la media aritmética acompañada de la
desviación estándar.
41
4.4 COEFICIENTE DE VARIABILIDAD.
Se conoce también como medida de dispersión relativa, se simboliza con una C.V., es el cuociente entre
la desviación estándar y la media aritmética, la cual es frecuentemente expresada en porcentaje, siendo
las fórmulas de cálculo las siguientes:
De la muestra: De la población:
cv 
s
* 100 
cv  *1 0 0
x 
Es útil cuando se busca comparar la variabilidad existente entre dos ó más muestras provenientes de dos
poblaciones en estudio, aún cuando estas se presenten en unidades diferentes.
 EJERCICIOS PROPUESTOS.
1. Pruebe que:
2
 
 
  Xi 
 
2  
2  
 Xi  X   Xi 
n
2. Para un conjunto de datos de una variable X, la varianza es igual a 12. Halle la varianza para:
X+3
2X + 3
2x + 6
3. Halle la varianza combinada de los siguientes conjuntos que poseen media idéntica:
N1 = 40 21 = 144
N2 = 60 22 = 36
N3 = 80 23 = 100
42
CAPITULO 5.
PROBABILIDADES
5.1 INTRODUCCION.
La probabilidad permite tan solo la utilización de información parcial, es decir aquella que posee la muestra
con el único objetivo de poder inferir sobre la naturaleza de una población que se desconoce.
A continuación se muestra un ejemplo que permite ilustrar como se utiliza la probabilidad para inferir. Un
productor desea comparar dos tipos de envases (A y B) considerando que se supone que A es el preferido.
El fabricante desea verificar que lo que se informa es verdadero, para lo cuál decide seleccionar a 20
consumidores y mostrarles los dos tipos de envases de manera que identifiquen su preferencia, para poder
de esta manera hacer extensiva a la población de consumidores la información obtenida con la muestra.
Si se denota 1 a la respuesta de un consumidor que prefiera el envase A y por 0 a la respuesta a uno que
prefiera B. En un primer caso suponiendo que es verdadero que el envase A es el preferido, imagínese que
los 20 consumidores muestreados indican que prefieren el envase B. ¿ Qué podría concluir el productor
sobre la suposición original de que el envase A es el preferido ?. Para ver de que manera se está utilizando
la probabilidad para llegar a estas conclusiones se debe examinar el siguiente razonamiento, si, de hecho,
el supuesto de que los consumidores prefieren A es verdadero, entonces la proporción de consumidores que
reportarían 1 es mayor que ½ , y se esperaría que en la muestra se observe una proporción cercana a la
poblacional.
Entonces como ninguno de los consumidores de la muestra prefirió A y considerando que el supuesto inicial,
esto es, que al menos la mitad prefiera A es verdadero, el resultado obtenido de la muestra fue un resultado
altamente improbable, entonces surge la interrogante, que decidir ? se presentan dos alternativas: una, que
la muestra correspondió a una muestra muy especial pero que de todas formas el supuesto original es
verdadero y la otra que decididamente el supuesto original es falso y que la realidad es que menos de la
mitad de los consumidores prefieren el envase A.
43
La noción que queda implícita y sobre la cuál descansa el razonamiento anterior es la de la probabilidad;
en particular la de probabilidad de haber observado determinados resultados muestrales.
Pero también es posible obtener otros resultados, para responder las preguntas planteadas por esos otros
resultados se debe saber que tan improbable es cada uno de los resultados muestrales, en otras palabras,
se necesita encontrar la probabilidad de ocurrencia de una muestra tanto o mas contradictoria que la
observada bajo el concepto que el supuesto original es verdadero, luego de haber encontrado esa
probabilidad se podrá juzgar si la suposición es razonable o debe ser rechazada por falsa.
En resumen se llega a la conclusión que la probabilidad proporciona el mecanismo necesario para hacer
inferencias acerca de una población, sobre la base de evidencia muestral.
Considerando que pueden existir dos tipos de eventos, aquellos que pueden ser manejados y controlados
en un laboratorio y aquellos que no, en este curso definiremos a un experimento como el proceso por medio
del cual una observación es registrada, entonces una población de observaciones puede conceptualmente
está formada por repeticiones, las cuales constituyen una muestra. Cada experimento puede producir varios
posibles resultados llamados eventos, existiendo dos tipos;
Los eventos compuestos son eventos que pueden ser descompuestos en eventos mas simples(A y B), y los
eventos simples son aquellos imposibles de descomponer(E1.........E6),
Ej: Al lanzar un dado se registra el número que aparece en la cara superior, algunos eventos son:
Evento A: se observa un número par
Evento B: se observa un número impar eventos compuestos
Evento E1: se observa el 1

Evento E6: se observa el 6 eventos simples
Un experimento resulta de la ocurrencia de uno y sólo uno de los eventos simples. a cada evento simple se
le asocia un punto llamado, suceso o punto muestral. El conjunto de todos los puntos muestrales de un
experimento es llamado espacio muestral.
44
Gráficamente se representa la relación conceptual entre inferencia y probabilidad:
Inferencia estadística Probabilidad estadística
Población o Universo Espacio Muestral

 
Muestra Evento
 
Observaciones Punto muestral o suceso
La fórmula de cálculo general es la siguiente:
Número de casos favorables

Probabilidad = ------------------------------------------
Número total de casos
EJEMPLOS:
1. Determinar la probabilidad de que al tirar 2 veces una moneda por lo menos aparezca un sello.
Considerando:
CC, SS, CS, SC
p( por lo menos 1 sello)  p= 3/4
2. Si la probabilidad de que una persona viva 10 años es de 0.6, y la probabilidad de que otra persona viva
10 años es de 0.5 ¿ Cuál es la probabilidad de que ambas personas vivan 10 años ?
Datos.
p(a) = 0.6
p(b) = 0.5
p( a * b)  p( a )*p( b)
p( a * b)  0.6 *0.5
p( a * b)  0.3
La probabilidad de que ambas personas vivan 10 años es de 0.3.
45
3. Una caja contiene 3 bolas blancas y 5 bolas negras, y otra caja contiene 4 bolas blancas y 2 negras, si se
extrae una bola de cada caja ¿ Cuál es la probabilidad de que:
a.- Ambas sean blancas

b.- Ambas sean negras
c.- Una sea blanca y la otra sea negra
Para entender mejor y facilitar el cálculo se procede de la siguiente forma:
Caja 1 Caja 2
3 blancas 4 blancas
5 negras 2 negras
a. p(Ambas sean blancas) = ?
p(La primera sea blanca y la segunda sea blanca) = p(b)*p(b)

p(La primera sea blanca y la segunda sea blanca) = 3/8 * 4/6
p(La primera sea blanca y la segunda sea blanca) = 1/4
b. p(Ambas sean negras) = ?
p(La primera sea negra y la segunda sea negra) = p(n)*p(n)

p(La primera sea negra y la segunda sea negra) = 5/8 * 2/6
p(La primera sea negra y la segunda sea negra) = 5/24
c. p(Una sea blanca y la otra negra) = ?
p(blanca y negra) + p(negra y blanca) = {p(b)*p(n)}+{p(n)*p(n)}

p(blanca y negra) + p(negra y blanca) = {3/8*2/6}+{5/8*4/6}
p(blanca y negra) + p(negra y blanca) = 13/24
4. Se extrae una bola al azar de una caja que contiene 10 rojas, 30 blancas, 20 azules y 15 negras. Hallar la
probabilidad de que sea:
a. Negra o roja
b. No sea roja o azul
c. No sea azul
d. Sea blanca
e. Sea Roja, blanca o azul
Datos.
10 rojas
30 blancas
20 azules
46
15 negras
a. p(sea negra o roja) = p(n) + p(r)

= 15/75 + 10/75
= 25/75
b. p(no sea roja o azul) = por definición: p+q = 1
entonces;
p(sea roja o azul)+p(no sea roja o azul) = 1

p(no sea roja o azul) = 1 - p(sea roja o azul)
p(no sea roja o azul) = 1 - {p(roja)+p(azul)}
p(no sea roja o azul) = 1 - {10/75 + 20/75 }
p(no sea roja o azul) = 45/75
c. p(no sea azul) = ?

p(no sea azul) = 1 - 20/75
p(no sea azul) = 30/75
d. p(sea blanca) = 30/75
e. p(sea roja, blanca o azul) = ?

p(sea roja, blanca o azul) = p(r)+p(b)+p(a)
p(sea roja, blanca o azul) = 10/75 + 30/75 +20/75
p(sea roja, blanca o azul) = 60/75
5. Se extraen 2 bolas sucesivamente de la caja del problema anterior reemplazando la bola extraida después
de cada extracción hallar la probabilidad de que:
c. ambas sean blancas

d. El primero sea rojo y el segundo sea blanco
d. Uno sea blanco y el otro negro
a. p(Ambas sean blancas) = ?

p(Ambas sean blancas) = p(b)*p(b)
p(Ambas sean blancas) = 30/75 * 30/75
p(Ambas sean blancas) = 900/1125
b. p(El primero sea rojo y el segundo sea blanco) = ?

p(El primero sea rojo y el segundo sea blanco) = p(1r)*p(2b)
p(El primero sea rojo y el segundo sea blanco) = 10/75 * 30/75
p(El primero sea rojo y el segundo sea blanco) = 300/1125
c. p(Uno sea blanco y otro verde) = ?

p(Uno sea blanco y otro verde) = p(1b2n o 1n2b)
p(Uno sea blanco y otro verde) = p(1b2n) + P(1n2b)
47
p(Uno sea blanco y otro verde) = (30/75*15/75)+(15/75*30/75)

p(Uno sea blanco y otro verde) = 900/5625
5.2 PROBABILIDAD CONDICIONAL.
La probabilidad condicional de un evento B dado otro evento A, y denotado por P(B/A) es igual a:
P(B/A)
P(B/A)= --------------
P(A)
Esta ecuación representa una definición no un hecho. Además si P(A)=0, entonces la probabilidad
condicional no está definida. El concepto de probabilidad condicional está relacionado con dos eventos; esto
es, dado que ya ocurrió un evento, que posibilidad se tienen que ocurra el otro evento.
Suponga que se tira un par de dados y considere que el evento A está asociado al hecho que el resultado
obtenido no exceda 5 ( al sumar las caras de ambos dados). Hay un total de 36 casos, de los cuáles solo 10
cumplen con la condición definida por el evento A, o sea, la probabilidad de que se cumpla el evento A es
10/36.
Se define ahora un segundo evento B. Este evento se define como el resultado obtenido al sumar las dos
caras sea par. De los 36 resultados 18 cumplen esta última condición, así P(B)=1/2. Pero si ya se sabe que
ocurrió A, puede ser formulada la pregunta de cuál será la probabilidad de que ocurra B ?, entonces;
P(BA) 4/36
P(B/A)= ------------- = ----------------- = 4/10
P(A) 10/36
a. Sucesos independientes y dependientes.
Los eventos A y B son independientes si;
P(A y B) = P(A) * P(B)
Lo que significa que A y B son independientes si la probabilidad condicional de B dado A es igual a la

probabilidad no condicional de B.
Los eventos A y B son dependientes, cuando;
P(A y B) = P(A) * P(B/A)
48
6. Una caja tiene 3 bolas blancas y 2 negras, hallar la probabilidad de que:
a. La primera bola extraida sea negra

b. La segunda bola extraida sea negra,
en extracciones sin reemplazamiento.
a. p(La primera sea negra) = ?

p(La primera sea negra) = 2/(3+2) Son independientes
p(La primera sea negra) = 2/5
b. p(La segunda sea negra) =?

p(La segunda sea negra) = (2/5)*(1/4) Son dependientes
p(La segunda sea negra) = 2/20
7. Un dado se lanza 2 veces. Hallar la probabilidad de obtener 4,5 o 6 en el primer lanzamiento y 1,2,3 o 4
en el segundo.
Sea: E1 = 4, 5 o 6 en el primer lanzamiento

E2 = 1,2,3 o 4 en el segundo lanzamiento
Solución: p(E1E2) = ?
p(E1E2) = p(E1) p(E2)

Son independientes
p(E1E2) = 3/6*4/6
p(E1E2) = 12/36
8. Se han realizado dos extracciones de una baraja de 52 cartas. Hallar la probabilidad de que las 2 cartas
extraidas sean ases, siendo las extracciones:
a. Con reemplazamiento
b. Sin reemplazamiento
Sea: E1 = As en la primera extracción

E2 = As en la segunda extracción
a. p(E1E2) = ?
p(E1E2) = p(E1)*p(E2) Son independientes
p(E1E2) = 4/52*4/52
p(E1E2) = 1/169
b p(E1E2) = ?
p(E1E2) = p(E1)*p(E2/E1) Son dependientes
p(E1E2) = 4/52*3/51
p(E1E2) = 1/221
49
 Sucesos mutuamente excluyentes y mutuamente no excluyentes.
El concepto de independencia y mutuamente excluyente a menudo son causa de confusión. De hecho son
diametralmente opuestos. Eventos mutuamente excluyentes no pueden, en general, ser independientes.
Si A y B son independientes. Si se sabe que A ha ocurrido entonces automaticamentese sabe que B no
ocurrirá así P(B/A) debe ser 0. Luego entonces la P(B/A) y P(B) deben ser diferentes si A y B no son
independientes.
Si A es igual a E1 y B esigual a E2, entonces, la relación;
p(E1 + E2) = p(E1) + p(E2)
Describe eventos mutuamente excluyentes, y la relación;
p(E1 + E2) = p(E1) + p( E2) - p(E1/E2)
Describe eventos que son mutuamente no excluyentes.
9. Determinar la probabilidad de obtener un as o un rey en una sola extracción de una baraja de cartas.
Solución: Sean: E1 = as
E2 = rey
p(as o rey) = ?
p(as o rey) = p(E1 + E2)
p(E1 + E2) = p(E1) + p(E2)

Son mutuamente excluyentes
p(E1 o E2) = 1/13 + 1/13

p(E1 o E2) = 2/13
10. Determinar la probabilidad de obtener un as o una espada o ambas cosas en la extracción de una baraja
de cartas.
Sean: E1 = as
E2 = espada
p(E1 + E2) = ?
p(E1 + E2) = p(E1) + p( E2) - p(E1/E2)
50
Son mutuamente no excluyentes

p(E1 + E2) = 4/52 + 13/52 - 1/52
p(E1 + E2) = 16/52
2. En un juego de naipes cuál es la probabilidad que hubiese más de cinco cartas del mismo palo en una
mano del juego.
R.- 0,9982.
3. Suponga que se tira un par de dados, dos veces en sucesión. Sea A el evento que la primera tirada las
caras sumen 7 y sea B el evento que la segunda tirada la suma sea 4. Determinar la probabilidad de A y
B, y determine si son dependientes o independientes.
R.- 1/72; son independientes.
4. Determinar la probabilidad de obtener un tres o un rey en una sola extracción de una baraja de cartas.
R.- 2/13.
5. Determinar la probabilidad de obtener un seis o una espada o ambas cosas en la extracción de una
baraja de cartas.
R.- 16/52.
6. Se han realizado dos extracciones de una baraja de 52 cartas. Hallar la probabilidad de que las 2 cartas
extraidas sean sietes, siendo las extracciones:
a. Con reemplazamiento
b. Sin reemplazamiento
R.- a. 1/169
b. 1/221
7. Se lanzan 4 monedas al aire. Halle la probabilidad de obtener por lo menos un escudo.
R.- 15/16.
8. En un hospital se registran diariamente todos los bebes que nacen anotando M si es un niño y F si es
una niña. En un día cualquiera el registro es como sigue:
MMMFMMFFMF
Determinar la probabilidad del nacimiento de una niña.
R.- 0,4
51
9. Un dado fue tirado 40 veces y la frecuencia relativa del número 4 fue 3/5. Determine el número de veces
que el evento 4 ocurrió. R.- 24.
10. Una moneda se lanza cinco veces y la frecuencia relativa del evento número (N) es 1. Diga cuántas
veces ocurrió (N).
R.- 5
11. Dos dados, uno rojo y uno verde se tiran. Sea A el evento, la suma en los dados es un número par; y
sea B el evento, el dado rojo arroja 1. Determine la probabilidad del evento A, una vez que ha ocurrido el
evento B.
R.- ½.
12. En un conjunto de 4 parejas de casados ¿ Qué probabilidad existe que un comité de 4 personas esté
formado exactamente por una pareja de casados ?.
R.- 24/35.
13. En una caja que contiene 45 focos buenos de luz se colocan, por error, 5 defectuosos. ¿ Cuál es la
probabilidad que al sacar 2 focos, uno por uno y sin reemplazo, uno de ellos sea defectuoso ?.
R.- 9/49
14. En una urna hay 4 bolas rojas y 1 verde. Se toma una bola y su color se anota. Sin reemplazar la primera
bola, se saca una segunda bola y se anota su color. ¿ Cuál es la probabilidad que las dos bolas sean del
mismo color ?.
R.- 3/5.
52
CAPITULO 6.
DISTRIBUCIONES DISCRETAS
6.1 INTRODUCCION.
En el estudio de las ciencias, pueden encontrarse innumerables situaciones de variables discretas, sin
embargo son tres las de mayor utilidad. La Binomial, la de Poisson y la Hipergeométrica, y la elección de
cualquiera de ellas va a depender del tipo de experimento y de los valores que pueda tomar el dominio de la
variable en estudio, en el presente texto se dará mas importancia a la distribución binomial.
6.2 DISTRIBUCIÓN BINOMIAL.
En muchos experimentos, los resultados se asocian con el lanzamiento de una moneda, es decir, que el
resultado tendrá solo dos posibilidades de ocurrencia, este tipo de ensayos se considera que tienen la
característica de ser binomiales, por ejemplo; Si es o no efectiva una droga administrada a personas en un
ensayo específico, etc.
Un experimento binomial para ser considerado como tál debe cumplir con los siguientes supuestos:
1. El experimento consiste en n ensayos idénticos.
2. Cada ensayo produce uno de dos resultados posibles.
3. La probabilidad de acertar en un ensayo es “p” y es constante para todos los ensayos. Por lo tanto la
probabilidad de falla es (1-p) = q.
4. Los ensayos son independientes, es decir el resultado de uno, no influye en el resultado del otro.
5. La variable aleatoria X será el número de aciertos observados en los n ensayos.
Aunque sean pocas situaciones en la vida real que satisfacen completamente la totalidad de estos supuestos,
la diferencia entre la situación real y el modelo teórico será poca y en definitiva este resultado no afectará el
resultado final.
53
 La distribución de probabilidad binomial.
La derivación de la distribución binomial de la variable aleatoria X(binomial), que representa el número de

aciertos en “n” ensayos, se efectuará considerando el ejemplo de lanzar 2 monedas al aire y registrar el
número de caras. donde la probabilidad de obtener cara es ½.
Los cuatro puntos muestrales asociados con el experimento y sus respectivas probabilidades se presentan
a continuación;
Moneda 1 Moneda 2 P(X=C) X

C C pxp p2 2
C S px(1-p) pq 1
S C (1-p)xp qp 1
S S (1-p)x(1-p) q2 0
La correspondiente distribución de probabilidades de X es:
X p(X)
0 q2
1 2pq
2 p2
Entonces;
 p(X)= p2 + 2pq + q2 = (p + q)2 = 1
De esto se deduce que: la distribución de probabilidad para un experimento binomial que consiste en n
ensayos, se obtiene a través de la expansión de (p + q) n., donde n puede tomar los valores de 3,4,5,6,7......
etc.
Dado que la probabilidad asociada a un valor particular de X es el término que contiene “p” a la potencia X
en la expansión de (p + q) n, la distribución de probabilidad para un experimento binomial corresponde a la
siguiente expresión:
n!
p(x) = Cnx (p)x (q)n-x = -------------- (p)x (q)n-x
x! (n-x)!
54
donde;
n= número de ensayos
p= probabilidad de éxito en un ensayo
q=probabilidad de falla en un ensayo
x= número de éxitos en los n ensayos y puede tomar los valores desde 0 hasta n.
Cnx = representa;
n!
--------------
x! (n-x)!
Un análisis combinatorio de n elementos en x formas posibles.
 La Media y Varianza.
Puede resultar que el cálculo de P(x) para una variable aleatoria discreta resulte demasiado largo cuando los
valores de “n” son grandes, existen también tablas elaboradas en las cuales puede encontrarse mas
fácilmente esos valores.
Sin embargo, otro procedimiento que permite describir la distribución de probabilidad binomial es conocer su
media y su desviación estándar. este conocimiento sumado al teorema de Tchebysheff y la regla empírica,
permite identificar valores de x que son altamente improbables, de esto se desprende que es importante
conocer el valor esperado y la varianza de la variable aleatoria binomial x.
Las fórmulas para la media, la varianza, la desviación estándar de una variable aleatoria binomial pueden
ser deducidas matemáticamente haciendo uso de lo que se conoce como función generatriz de momentos.
Sin embargo, no es de interés en este curso utilizar este procedimiento para deducir dichas fórmulas, por lo
que se darán por conocidas. Así la media y la varianza y la desviación estándar de una variable aleatoria
binomial son;
 = E(x) = np
2=E(x - )2 = npq
=npq
A continuación se presentan algunos ejemplos prácticos.
55
EJEMPLOS:
1. De cuantas formas posibles de dos en dos puede combinarse las 6 letras del nombre CAMILA.
En este caso n=6 y x=2;
n!
Cnx = --------------
x! (n-x)!
6!
C62 = -------------- = 15 formas posibles
2! (6-2)!
Comprobando, tenemos que;
CA CM CI CL CA
AM AI AL AA
MI ML MA
IL IA
LA
Son las únicas 15 formas posibles de combinar de dos en dos las seis letras de este nombre, de esa manera
también es posible combinar estas letras de tres en tres, de cuatro en cuatro, etc
2. Si la probabilidad de graduarse para un estudiante que ingresa a la Universidad San Francisco de Asís es
0.4 Determinar la probabilidad de que, de cada 5 estudiantes.
a. Ninguno se gradúe
b. Uno se gradúe
c. Cuando menos uno se gradúe
Solución:
Datos
n=5
p = 0.4
Sea x = Un estudiante que se gradúa
entonces;
56
5!
a. p(x = 0) = -------------- (0.4)0 (0.6)5-0
0! (5-0)!
p(x = 0) = 0.07776 o 7.76 %;
Es decir que es poco probable que ninguno se gradúe.
5!
b. p(x = 1) = -------------- (0.4)1 (0.6)5-1
1! (5-1)!
p(x = 1) = 0.2592 o 25.92 %;
La probabilidad de que un estudiante se gradúe es baja.
c. p(x  1) = p(x =1)+ p(x = 2) +p(x = 3) + p(x =4) + p(x=5)
Solución:
Se sabe que la sumatoria de todos los sucesos independientes es igual a 1,
entonces,
p(x=0) +p(x =1)+ p(x = 2) +p(x = 3) + p(x =4) + p(x=5) = 1
De donde,
p(x =1)+ p(x = 2) +p(x = 3) + p(x =4) + p(x=5) = 1 - p(x=0)
Lo cuál facilita mucho el cálculo, además se conoce que;
p(x =0) = 0.07776

entonces,
p(x =1)+ p(x = 2) +p(x = 3) + p(x = 4) + p(x = 5) = 1 - 0.07776

p(x =1)+ p(x = 2) +p(x = 3) + p(x = 4) + p(x = 5) = 0.9224
finalmente,
p(x  1) = p(x =1)+ p(x = 2) +p(x = 3) + p(x = 4) + p(x = 5)

p(x  1) = 0.9224 o 92.24%;
Significando esto que existe una probabilidad muy alta de que cuando menos un estudiante que
ingresa a ésta Universidad se gradúe( eso es bueno).
57
 Utilizando el triángulo de Pascal.
Cuando se está trabajando con problemas referidos a probabilidades, donde además se considera la
combinación de los sucesos en estudio, puede resolverse también utilizando el conocido triángulo de Pascal.
Se sabe que:
(p+q)2=p2+2pq+ q2
Aquí: n=2
p = probabilidad de ocurrencia del evento

q = probabilidad de no ocurrencia del evento
Resolviendo el anterior ejemplo:

3. La probabilidad de graduarse para un estudiante que ingresa a la Universidad San Francisco de Asís
es 0.4 Determinar la probabilidad de que, de cada 5 estudiantes.
a. Ninguno se gradúe
b. Uno se gradúe
c. Cuando menos uno se gradúe
Solución:
Datos
n=5
p = 0.4
Sea x = Un estudiante que se gradúa
Como n= 5, entonces
1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
En este caso solo interesan estos subíndices:
(p+q)5=p5+5p4q+10p3q2 +10p2q3+ 5pq4 + q5
Donde n=5
p = probabilidad de ocurrencia del evento
q = probabilidad de no ocurrencia del evento
58
a. p(x = 0) = q5
p(x = 0) = (0.6)5
p(x = 0) = 0.0776 o 7.76%
b. p(x = 1) = 5pq4
p(x = 1) = 5(0.4)(0.6)4
p(x = 1) = 0.2592 o 25.92%
c. p(x  1) = p(x =1)+ p(x = 2) +p(x = 3) + p(x =4) + p(x=5)

p(x  1) = 5pq4 +10p2q3 + 10p3q2 +5p4q + p5
p(x  1) = 5(0.4)(0.6)4 +10(0.4)2(0.6)3 +10(0.4)3(0.6)2 + 5(0.4)4 (0.6) + (0.4)5
p(x  1) = 0.9224 o 92.24%
o bién,
p(x  1) = 1 - p(x = 0)
p(x  1) = 1 - q5
p(x  1) = 1 - (0.6)5
p(x  1) = 0.9224 o 92.24%
La modalidad de cálculo depende mucho de la capacidad y facilidad para manejar cualquiera de las
dos técnicas, así que se deja al alumno la elección.
6.3 DISTRIBUCIÓN DE POISSON.
Esta es una distribución discreta que se relaciona con la distribución binomial cuando “p” es pequeño y el
tamaño de “n” es grande. Esta distribución tiene características propias y se utiliza generalmente para
describir fenómenos en que X representa el número de eventos raros o poco comunes que ocurren durante
un periodo de tiempo en el cuál se espera que un promedio  de ellos ocurre.
Algunos ejemplos de siguen la distribución de Poisson son;
- Número de bacterias en una caja petri.

- Número de plantas o insectos en un área dada.
- Número de llegadas a una estación de servicio en un minuto dado.
- Número de instantes provenientes de un cruzamiento, etc.
La fórmula de cálculo es;

x e -
p (x) = ---------------- x = 0, 1, 2, 3,..........n.
x!
59
donde;  es la media de la distribución de probabilidad y e =2.7182...... es la base de los logaritmos naturales.
Ej. Suponga que una Compañía de seguros asegura las vidas de 5000 hombres de 42 años de edad. Si los
estudios actuariales indican que la probabilidad de que un hombre de 42 años muera en un determinado año
es de 0.001, entonces la probabilidad exacta de que la compañía pague T=4 indemnizaciones en un año
determinado esta dada por la distribución binomial.
5000 !
p(T = 4) = -------------- (0.001)4 (0.999)4996
4 x 4996!
Como su cálculo es complicado se usa la distribución de Poisson.

Calculando  = n*p = (5000)(0.0001) = 5 y sustituyendo en la fórmula de la distribución de probabilidad de
Poisson se tiene que:
x e -
p (x) = ----------------
x!
54 e -5
p (Y = u) = ---------------- = 0.1745
4!
La aproximación de Poisson mejora a medida que aumenta el valor de n.
6.4 DISTRIBUCIÓN HIPERGEOMÉTRICA.
También es utilizada para aquellos casos en que se toma una muestra de elementos de una población y se
determina si cada uno de ellos tiene o no una característica determinada, es decir los datos obtenidos son
del tipo “ acierto” o “ falla” como en el caso binomial. Para el caso binomial se considera que el número de
elementos de la población es grande en comparación con el de la muestra, entonces, la probabilidad de
seleccionar un elemento con una determinada característica en un solo ensayo es igual a la proporción “p”
de elementos con esa característica en la población. Dado que la población es grande comparada con el
tamaño de la muestra, esta probabilidad permanecerá constante(para propósitos prácticos) de ensayo a
ensayo y el número X de aciertos en la muestra sigue una distribución de probabilidad binomial.
60
Sin embargo, si el número de elementos en la población es pequeño en relación con el tamaño de la muestra,
la probabilidad de un acierto en un ensayo dado depende de los resultados precedentes, por lo tanto la
situación descrita no respeta una de las condiciones que caracterizaron a una distribución binomial
(independencia de ensayo a ensayo).
Entonces el número X de aciertos sigue lo que se conoce como una distribución de probabilidades
hipergeométrica, que está representada por la siguiente fórmula:
k n-k
C C
x n-x
p(x) = ----------------------------
N
C
n
Donde;
- N = Número de elementos de la población
- k = Número de elementos de la población que se consideran aciertos (esto es,
que poseen la característica deseada)
- (N – k) = Número de elementos en la población que no se consideran aciertos
- n = Número de elementos en la muestra seleccionada en los N elementos de la
Población.
- x = Número de aciertos.
Ej. De un grupo de 20 alumnos recién titulados una compañía en expansión necesita contratar 10 de ellos.
Los ejecutivos al no tener mayores antecedentes los eligen al azar.
¿ Cuál es la probabilidad de que entre los 10 seleccionados estén 5 de mayor promedio de notas en sus
años de Universidad ?.
k n-k
C C
x n-x
p(x) = ----------------------------
N
C
n
5 15
C C
0 5
p(x = 5) = ---------------------------- = 0.0163
20
C
10
61
R.- La probabilidad es de 0,0163.
1.- Halle la probabilidad de que una familia con 4 hijos(Considere hombres y mujeres), tenga;
a. exactamente un niño.
b. A lo mucho un niño.
R.- a. 4/16
b. 5/16
2.- En una investigación con 400 familias, que tienen 4 hijos cada una, determine cuántas familias tendrán;
a. exactamente un niño.
b. A lo mucho un niño.
R.- a. 100; b. 125
4. Considerando 10 estudiantes, de los que 6 son Bolivaristas y 4 Stronguistas. Se elige una muestra de
tamaño 5. ¿ Cuál es la probabilidad de que haya 3 Bolivaristas en esta muestra ?.
R.- 0.48
5. Quince estudiantes se han de dividir en 3 grupos de 5 para jugar al basquetbol. ¿ De cuántas formas
diferentes pueden hacerlo ?.
R.- 756.756
6. Considerando una caja de 100 bolillas, de las cuales 50 son rojas, 30 son verdes y 20 son negras. Se
eligen grupos de 5 bolillas, reemplazándolas cada vez. ¿Cuál es la probabilidad de elegir 5 bolillas, de
las cuales sean 3 rojas, 1 verde y 1 negra ?.
R.- 0.15
62
CAPITULO 7.
DISTRIBUCIÓN NORMAL
7.1 INTRODUCCION.
La curva normal también es conocida como distribución de Gauss o de Laplace, es una de las más útiles en
bioestadística, estudia los caracteres biológicos cuantitativos que manifiestan variación continua por la acción
de genes, del medio, o por la acción conjunta de ambos (interacción). El modelo probabilístico para la
distribución de frecuencias de una variable aleatoria continua se representa por una curva que representa a
la llamada función de densidad de probabilidad.
A pesar de que estas densidades pueden tomar una gran variedad de formas, es importante mencionar que
muchas de las variables aleatorias observadas en la naturaleza tienen una distribución de frecuencias de
forma acampanada, es decir tienen una distribución de probabilidad normal. es por lo tanto esta distribución
de frecuencias la mas importante en estadística.
La experiencia ha demostrado que muchas variables aleatorias continuas en diversos campos de aplicación
tienen distribuciones para las cuales la distribución normal podría servir como un modelo matemático o
teórico para las cuales una distribución normal podría ser usada como una buena aproximación.
7.2 CARACTERÍSTICAS.
1.- Es una distribución simétrica alrededor de un valor central.
2.- El valor de la media, mediana y moda coinciden en la curva.
3.- La distribución está caracterizada por dos parámetros, que son la media y la desviación estándar.
4.- El área bajo la curva y sobre el eje x es igual a la unidad.
5.- Si a ambos lados de u (media) se levantan rectas perpendiculares a una distancia de , 2 y 3,
las áreas representan los porcentajes del área total de la curva, de acuerdo a la siguiente relación:
63
1. x  s = 68,26% de las observaciones.

a. Area entre x +/-s = 0.6826 o 68.26%
b. Area entre x +/-2s = 0.9545 o 95.45%
c. Area entre x +/-3s = 0.9973 o 99.73%
x -3s x -2s x -s x x +s x +2s x +3s
Donde; x= promedio y s= desviación estándar
Para los casos a y b también se usan las siguientes expresiones:
a. Area entre x +/-1,96s = 0.95,

b. Area entre x +/-2,58s = 0.99.
7.3 FUNCIÓN DE DENSIDAD DE PROBABILIDAD NORMAL.
1
f(x) = ------------- e -1/2(x - /)
2
Donde;
 = Constante(Pi=3,1416)
e =Constante, base de los logaritmos neperianos(2,7182.....)
 = Un parámetro(es igual a la desviación estándar de la distribución)
 = Un parámetro( es igual a la media de la distribución)
f(x) = Ordenada, altura de la curva correspondiente a un valor de x asignado.
En la anterior fórmula los parámetros  y 2, y sus valores caracterizan a la distribución normal dado que
(Pi) y e son constantes. Hay entonces una distribución normal por cada par de valores  y 2, donde  es
cualquier número y 2 es positiva.
64
Si se fija a  un valor y se permite que 2 varíe, se obtiene una familia de curvas con la misma media pero
diferentes varianzas, y si 2 es fija y se permite que  varíe, se obtiene una familia de curvas con la misma
forma pero con diferente ubicación a lo largo del eje x.
Por lo tanto, existe una distribución normal para cada par de valores  y 2.
7.4 TEORÍA DEL LÍMITE CENTRAL.
Básicamente este teorema establece que bajo condiciones generales, sumatorias y medias de muestras de
mediciones aleatorias tienden a poseer una distribución acampanada en un muestreo repetitivo, es decir si
se extraen muestras de tamaño n desde una población con media finita  y desviación estándar , entonces
si n es grande, la media muestral x tienen una distribución aproximadamente normal con media  y
desviación estándar /n. la aproximación mejora en la medida en que n crece. Para el caso de la suma
de las mediciones este teorema establece que la distribución de la suma de las mediciones m uestrales
tiende a una distribución normal con media “n“ y desviación estándar “/n”.
Una conclusión de este teorema es que a medida que n crece, la dispersión de la distribución de las
medias muestrales se vuelve considerablemente menor que la dispersión de la población. Uno de los
inconvenientes de este teorema y de la mayor parte de los procedimientos de aproximación, es que se
debe tener alguna idea de que tan grande debe ser el tamaño muestral para que la aproximación produzca
resultados útiles, lamentablemente no existe una regla general para este problema, y el valor adecuado
de n dependerá de la distribución de probabilidad de la población y del uso que se quiera dar a la
aproximación, lo que significa que solo se puede confiar en la experiencia.
7.5 DISTRIBUCIÓN NORMAL ESTÁNDAR.
Es un caso particular de la distribución normal, con u=0 y =1, o N(0,1), donde cualquier variable distribuida
normalmente se puede transformar en una normal estándar, para luego poder comparar diferentes
poblaciones de variables, la fórmula de cálculo es la siguiente:
x-u
Z = ----------

65
Donde;
x=Promedio muestral
u=Promedio poblacional
=Desviación estándar
Se han elaborado diversas tablas matemáticas de áreas bajo la curva normal(ver anexos), para el manejo
de la tabla se debe considerar que: La curva es simétrica y que toda el área bajo la curva es igual a 1.
Fig 7.1 Curva normal estandarizada.

y
z
-3 -2 -1 0 1 2 3
CARACTERISTICAS.
 La curva es simétrica, siendo y el eje de simetría.
 La altura máxima se alcanza en el punto (0, 1/2), en el que (0, 1/2) es aproximadamente 0,4;
 La curva tiene sus puntos de inflexión en z = 1 y z = - 1
 Se extiende sin límite a la derecha y a la izquierda del eje de las Z.

EJERCICIOS.
Ej 1: Determinar el valor de probabilidad para:
66
a. P(z>1.36)= ?
El encontrar los diferentes valores de probabilidad en la tabla de z no representa mayor problema, solo debe
tenerse cierto cuidado, por ejemplo para el inciso a. el valor a buscarse es 1.36, pero nótese que en la tabla
1. se tienen valores en la columna hasta un decimal, por lo que 2.36 puede desglosarse de la siguiente
forma: 1.36 = 1.3 + 0.06, entonces en la columna se busca el 1.3 y el 0.06 en la fila(ver anexos de tablas).
De tal forma que al hacer coincidir ambos valores se encuentra el valor buscado, en este caso es 0.0869,
significando que la probabilidad de encontrar un valor mayor a 1.36 en una distribución normal es 0.0869 o
8.69%, es decir existe poca probabilidad.
b. P(z>1.379)= ?
En este inciso se muestra la posibilidad de que al hacer los cálculos matemáticos el resultados final a ser
buscado en la tabla tenga mas de 2 decimales (en este caso 3 decimales), puede procederse de dos formas:
1. Puede interpolarse, cuando se está trabajando con datos en los cuales se está buscando la mayor
precisión.
2. Puede redondearse a dos decimales y buscarse ese valor directamente en la tabla, pues el margen
de variación es pequeño y permisible, con respecto al valor real.
Para el problema en cuestión, en este caso se redondea, obteniendo 1.38 a continuación se busca en la
tabla y se tiene que;
P(z>1.38)=0.0838
Interpretándose de la misma forma que en el inciso a.
67
c. P(z<2.19)= ?
He aquí una variante interesante de otra posibilidad, que puede presentarse, cuando se quiere encontrar
valores en la tabla, para una mejor comprensión se analizará gráficamente:
- -3 -2 -1 0 1 2 2.19 3 +
 
A B
Se divide en dos áreas para facilitar los cálculos, el área A comprende desde - hasta 0, y el área B
comprende desde 0 hasta 2,19, el área A es igual a 0,5, puesto que toda el área bajo la curva es 1, el área
B se encuentra de la siguiente forma:
La tabla de z solo contempla valores de probabilidad mayores a z, entonces se encuentra primero lo

siguiente:
P(z>2.19)=0,0143
Se sabe que el área entre 0 y + es 0.5, de donde el área que se está buscando será igual a:
P(2.19>z>0)=0,5-0,0143
P(2.19>z>0)=0,4857
El área total es igual a la suma del área A +área B, es decir 0.5 + 0.4857, lo que da como resultado 0.9857.
P(z<2.19)=0,9857
68
y se dice que la probabilidad de encontrar un valor menor a 2.19 en una distribución que es normal, es de
98.57 %, probabilidad bastante alta.
d. P(z<-2,13)= ?
Para este inciso, se considera la simetría, y se dice que;
P(z<-2,13)=P(z>2,13)=0,0166
entonces,
P(z<-2,13)=0,0166
e. P(1.8>z>1,4)= ?
Aquí se trabaja dividiendo en dos áreas, y se encuentra el valor buscado por diferencia;
P(z>1.4)=0,0808
P(z>1.8)=0,0359
----------
0,0449
Entonces;
P(1.8>z>1,4)=0,0449
f. P(-1,2<z<0,9)= ?
Otra posibilidad de encontrar áreas bajo la curva de z, es la que se muestra en el inciso f. donde para mayor
facilidad se aconseja trabajar dividiendo en dos áreas, siendo que el área A se encuentra de la siguiente
forma:
área A=0,5-P(z>1,2) por simetría;
área A=0,5 – 0,1151
área A=0,3849
El área B es igual a:
área B=0,5 - P(z>0,9)

área B=0,5 – 0,1841
área B=0,3159
69
El área total es igual a:
0,3849 + 0,3159, de donde;
P(-1,2<z<0,9)=0,7008
g. P(z>4)= ?
Algunas veces, en el proceso de análisis se encuentra que el valor de probabilidad obtenido supera al que
se tiene en la tabla, el inciso g es un claro ejemplo; en algunos libros se dan tablas de z que llegan a 3.9,
pero en general no superan el 3, de tal forma que cuando se obtenga este tipo de valores, se interpreta de
la siguiente forma:
P(z>4)= ?
La probabilidad de encontrar un valor mayor a 4 es mínima, puesto que de acuerdo a la forma que sigue la
curva de distribución normal a partir de 3 hasta + la curva se aproxima al eje X de forma tal que el área es
sumamente pequeña, razón por la cual se hace despreciable, pudiendo concluir que la probabilidad de
obtener un valor mayor a 4 en una distribución normal es muy pequeña.
EJ 2:
En una zona papera el rendimiento promedio es de 9000 Kg. de tubérculos por ha con una desviación
estándar de 2400 Kg./ha. Determine la probabilidad de que 100 Agricultores seleccionados al azar, obtengan
un rendimiento superior a 12000 Kg./ha.
DATOS
N=100
u=9000 Kg./ha
=2400 Kg./ha
P(X > 12000)
x-u
Z = ---------

12000 - 9000
Z = --------------------
2400
Z = 1.25
70
El valor en la tabla es:
P(Z>1,25)=0,1056*100= 10,56%
Entonces, la probabilidad de que 100 Agricultores de esta zona obtengan un rendimiento promedio superior
a los 12000 Kg./ha es del 10,56 %, es decir lograr que los Agricultores produzcan rendimientos superiores al
promedio es poco probable.
Ej 3: El peso promedio por huevo de gallina, de todos los producidos durante un mes en una cierta granja,
es de 50 gramos y la desviación estándar es de 8 gramos. Si se supone que los pesos se distribuyen
normalmente, determine el porcentaje de huevos que tendrán sus pesos entre 55 y 65 gramos.
DATOS
u=50 gramos
s=8 gramos
P(65>X>55)
Graficando datos originales:
50 55 65
La fórmula de cálculo es la siguiente:
x-u
Z = -----------
s
Estandarizando:
Considerando límites reales, para lograr mayor precisión:
65,5 - 50 54,5 - 50
P(----------------- > z > ---------------)
8 8
71
P(1,94 > z > 0,56)
0 0,56 1,94
Buscando en la tabla;
Area 1=P(z>0,56)
Area 1=0,2877
Area 2=P(z>1,94)
Area 2=0,0262
Area total = Area 1 - Area 2

Area total = 0,2877 – 0,0262
Area total = 0,2615
- 0,2615 en porcentaje es 26,15%
R. El 26,15% del total de la producción de huevos, tendrá pesos entre 55 y 65 gramos.
Ej 4: En una distribución normal con media igual a 12 y desviación estándar 2, hay 200 observaciones
entre 7 y 15. Diga cuantas observaciones hay en toda la distribución
DATOS
x =12
s=2
N=200
P(15>X>7)
x-
Z = -------------
s
72
Estandarizando:
Considerando límites reales, para lograr mayor precisión:
15,5 - 12 6,5 - 12
P(---------------- > z > --------------- )
2 2
P(1,75 > z > -2,75)
Buscando en la tabla;
Area 1= P(z>2,75)
Area 1=0,0030
Area 2=P(z>1,75)
Area 2=0,0401
Area total = 1-(0,0030 + 0,0401)
Area total = 0,9569 o 95,69%
Entonces el valor buscado es:
200* 100%
X =------------------- X=209 observaciones
95,69%
R. Existen 209 observaciones en toda la distribución.
* Resuelva usted el anterior ejercicio considerando datos originales.
Nota. Algunos autores trabajan directamente con los valores originales, este proceso es también válido, pero
trabajando con límites reales se logra obtener resultados más precisos y confiables.
7.6 APROXIMACIÓN NORMAL DE LA DISTRIBUCIÓN BINOMIAL.
En el estudio de la distribución de probabilidad binomial, se vieron varias aplicaciones de esta distribución

que tenían relación con el cálculo de la probabilidad de que la variable aleatoria de que la variable aleatoria
Y, el número de aciertos o desaciertos en n ensayos, hubiesen caído dentro de determinada región. En la
mayoría de los ejemplos, el valor dado para n fue pequeño para evitar los cálculos tediosos que se
requerían para calcular P(Y).
73
En la medida en que se aumente el tamaño de la muestra, los cálculos asociados para la obtención P(Y) se
hacen más complicados por los elevados valores de las potencias de p y q, por lo tanto, para valores de n
mayores de 100 es conveniente usar algún método alternativo de aproximación.
Así, el cálculo directo de P(Y) para valores grandes de n no es imposible, pero representa una formidable
tarea que sería preferible evitar. Afortunadamente el teorema del límite central proporciona una solución a
este problema: dado que Y (el número de aciertos en n ensayos) puede considerarse como una suma que
satisface las condiciones de dicho teorema.
Cada ensayo tiene como resultado 0 o 1 aciertos con probabilidad p y q respectivamente. Por lo tanto, cada
uno de los n ensayos puede considerarse como una observación independiente de un experimento binomial
que consiste en un ensayo, y ; Y el número total de aciertos en n ensayos, es la suma se estas n
observaciones independientes.
Entonces, si n es suficientemente grande, la variable binomial Y tiene una distribución aproximadamente
normal con media np y varianza npq. Por lo que se pueden entonces usar las áreas bajo una curva normal
adecuada, para aproximar probabilidades binomiales.
1. ¿ Cuál es la proporción de reclutas que tienen un C.I. entre 100 y 105.7 ?, Sea  = 100 y  = 10.
R.- 21,57%
2.- Supóngase que la media del número de votantes en una región es de 120 y la desviación estándar ó
típica es de 20. ¿ Cuál es la probabilidad de que en una granja haya entre 130 y 150 votantes ?.
R.- 24,17%
3.- Hallar la probabilidad de obtener entre 3 y 6 sellos inclusive en 10 tiradas de una moneda por usar,
realizando una aproximación con la distribución normal.
R.- 77,19 %
4.- Un fabricante sabe que sobre el promedio, el 3 % de sus productos son defectuosos.
74
¿ Cuál es la probabilidad que un lote de 1000 piezas, contenga 10 defectuosas ?.
5.- Halle la probabilidad de obtener 20 o mas veces un cierto evento en 500 ensayos, sabiendo que la
probabilidad de ocurrencia del evento es p = 1/25.
6.- En una operación muy delicada, la única posibilidad de supervivencia es de un 80 por ciento. Determine
la probabilidad que exactamente el 90 por ciento de los 10 próximos pacientes puedan seguir viviendo
después de la operación.
7.- En una distribución normal con media igual a 12 y desviación estándar 2, hay 200 observaciones entre
7 y 15. Diga cuantas observaciones hay en toda la distribución. (no utilize límites reales).
R.- 216 Observaciones.
8.- El promedio de vida de un acumulador para automóviles es de 24 meses, con una desviación estándar
de 6 meses. Suponiendo que el tiempo de vida se distribuye normalmente, determine el porcentaje de
baterías que durará entre 20 y 30 meses.
9.- Un conjunto de 50.000 observaciones se distribuyen de acuerdo a la normal con media 500. Si 2.500 de
estas observaciones se hallan entre 480 y 500, halle la desviación estándar.
10.- El peso promedio por huevo de gallina, de todos los producidos durante un mes en una cierta granja,
es de 50 gramos y la desviación estándar es de 8 gramos. Si se supone que los pesos se distribuyen
normalmente. Determine el porcentaje de huevos que tendrán sus pesos iguales a 60 gramos.
75
CAPITULO 8.
INFERENCIA ESTADISTICA
8.1 INTRODUCCION.
En los capítulos anteriores se han entregado las bases para estudiar los conceptos fundamentales de la
inferencia estadística, la contribución más importante es el teorema del límite central, este teorema justifica
la normalidad aproximada de la distribución de probabilidad de la media muestral cuando el tamaño de la
muestra es grande.
El objetivo de la estadística es hacer inferencias acerca de una población tomando como base la información
contenida en una muestra.
La forma de hacer inferencias acerca de los parámetros puede ser clasificada en dos categorías. La primera
es hacer inferencia prediciendo o estimando el valor del parámetro. Ejemplo de esto sería la situación en que
se quisiera conocer el ingreso promedio de un grupo de Profesionales. Para esto se realiza un experimento
o varios experimentos y con estos resultados se obtiene un promedio de ingreso, el cuál estimaría el ingreso
promedio paramétrico o poblacional de ese grupo de Profesionales.
La segunda forma de hacer inferencias está relacionada con tomar decisiones acerca del valor del parámetro.
Ejemplo, probar si el ingreso promedio es igual a 2000 bolivianos por mes. Para esto se efectúa un
experimento o varios experimentos o se realizan encuestas y se registran los datos de ingreso
correspondientes.
El promedio observado o estimado permitirá tomar una decisión acerca de la hipótesis que se planteaba y
que era probar si el ingreso era igual a 2000 bolivianos por mes. Esta forma de hacer inferencia está
intimamente relacionada con una hipótesis.
 Tipos de estimación.
Los procedimientos de estimación pueden ser divididos en dos tipos, estimación puntual y estimación por
intervalo.
76
8.2 ESTIMACIÓN PUNTUAL
La estimación puntual utiliza la información de una muestra y la sintetiza en un solo número o punto, que
estima el parámetro de la población de interés. La estimación se lleva a cabo por medio de un estimador. La
estimación por intervalo utiliza la información de una muestra y la sintetiza en dos números entre los cuales
se espera que se encuentre el valor del parámetro de la población de interés, este intervalo se llama “intervalo
de confianza”.
Ejemplo de una estimación puntual es el ejemplo dado anteriormente de conocer el ingreso real del grupo
de Profesionales.
 Bondad de un estimador puntual.
La estimación puntual es el cálculo de un cierto valor llamado estimador o estadígrafo a partir de las
observaciones de la muestra, el cuál dará un valor representativo del parámetro.
Existen varios métodos para encontrar estimadores, basados en diferentes cirterios. Los más importantes
son:
- Método de máxima verosimilitud.
- Método de mínimos cuadrados.
- Método de Bayes.
- Método de los momentos.
Hay varios casos en los cuales el estimador de un parámetro es el mismo para los diferentes métodos.
No es el caso tratar aquí en que consiste cada uno de los métodos, pero si es importante notar que el tener
mas de un estimador para un mismo parámetro es importante, ya que es necesario disponer de algún criterio
que permita escoger un estimador.
Existe una serie de propiedades que podría ser deseable que el estimador escogido posea, por lo tanto el
criterio de selección será escoger el estimador que cumple con las propiedades que se señalarán o al menos
se acerque a ellas. Las propiedades de un estimador puntual se encuentran en su distribución de
probabilidades, pero ciertas propiedades son las más deseables en un estimador.
Básicamente son tres las características principales de un estimador:
77
1. Se desea que la distribución de las estimaciones se centre alrededor del parámetro de interés, esto es,
que el promedio de todos los estadígrafos de las muestras sea igual al parámetro. Por ejemplo, si se está
estimando  , se desearía que la distribución muestral del estimador estuviera centrada en , o lo más
próxima a , a tal estimador se lo denomina insesgado.
2. Es deseable, en un estimador puntual, que la desviación estándar de su distribución muestral sea

pequeña. Se desea entonces que la dispersión de las estimaciones sea tan pequeña como sea posible.
Esta dispersión es controlable ya que es posible hacer la desviación estándar tan pequeña como se
desee al aumentar el tamaño de la muestra. esta propiedad se conoce como “consistencia “ del
estimador. Concluyendo, puede decirse que cuando un estimado tiende a ser igual que el parámetro, a
medida que el tamaño de la muestra aumenta, entonces el estadístico es un estimador consistente del
parámetro.
3. Es deseable que un estimador puntual sea eficiente. Muchas veces, dos o más estimadores de un
parámetro pueden ser insesgados y consistentes, como es el caso de la media y la mediana indicados
anteriormente; por consiguiente, es necesario tener un criterio adicional que permita escoger uno de
ellos como el mejor estimador.
De tenerse dos o mas estimadores, insesgados y consistentes, de un parámetro, las varianzas de

ambos estimadores pueden ser utilizadas como un criterio adicional, aceptándose como mejor
estimador aquel que tenga una varianza más pequeña. Para muestras grandes se llega a determinar
que;
2 x = 2/n 2 Med = 2/2*n
y si el valor de n es el mismo, entonces;
2 x 2
----------- = ------------- = 0,64
2 Med 
En términos del tamaño de la muestra, la varianza de la mediana para muestras de tamaño 100 es igual
a la varianza de la media aritmética para muestras de tamaño 60.
78
8.3 ESTIMACIÓN POR INTERVALO.
La evaluación de un estimador por intervalo es un procedimiento que permite calcular dos números con
base en los datos muestrales. Cada vez que se toma una muestra y se construye el intervalo se espera
que el parámetro a estimar quede contenido dentro de él. Por supuesto esto no ocurrirá para cada
muestra.
La probabilidad de que un intervalo contenga al parámetro que se estima coeficiente de confianza y el

intervalo se llama intervalo de confianza. Como ejemplo suponga que se tiene un huerto frutal y se desea
estimar su producción en la temporada. Para esto se toman 10 muestras de 10 arboles cada una y para
cada muestra se construye el intervalo de confianza para la media  (producción total del huerto). No todos
los 10 intervalos necesariamente contendrán al parámetro.
Un buén intervalo será aquel que tenga un coeficiente de confianza alto, cercano a uno y que sea tan
estrecho como sea posible. Mientras mas estrecho sea el intervalo se tendrá localizado el parámetro
estimado de manera mas precisa. Mientras mayor sea el coeficiente de confianza, mas seguridad se tiene
de que un intervalo en particular pueda contener el parámetro estimado. En resumen, la amplitud de un
intervalo y su coeficiente de confianza asociado, miden la bondad de un intervalo de confianza.
8.4 ESTIMACIÓN DEL TAMAÑO DE MUESTRA.
Una de las preguntas que se deben hacer antes de comenzar a tomar una muestra es:
¿ Cuál es el tamaño que debe tener la muestra ?. Se debe evitar tomar una muestra tan pequeña que la
estimación del parámetro correspondiente resulte muy imprecisa, o tan grande que el muestreo sea muy
costoso, con una mayor precisión que la que se necesite, y requiere una gran inversión de tiempo.
Para la estimación del tamaño de muestra en variables cuantitativas, se utiliza la notación de Graybill y
Kneebone(1959), que está basada en el uso de la amplitud de los límites de confianza. El tamaño de
muestra requerida es inversamente proporcional a la amplitud del intervalo de confianza.
Así, si se define d como la amplitud del intervalo de confianza deseado, la determinación del tamaño de
muestra, de modo que el intervalo de confianza sea menor o igual a d unidades, es:
79
4 z t2 S 2
n 2
d
donde;
n = tamaño de muestra
zt = Valor de Z tabulado con /2.
S = Valor de la desviación estándar.
d = Diferencia deseable de detectar.
Ejemplo:
Se desea estimar a través de encuestas las diferencias en el consumo de energía de los habitantes de una
región. El número total de familias es de 80 los que se dividen en 10 en el estrato alto, 45 en el medio y 25
en el bajo.
Estudios preliminares muestran que la media del consumo de energía es de 2.500 Kcal con una desviación
estándar de 325 Kcal/dia. Se desea estimar el tamaño de muestra con una probabilidad de 95% y una
diferencia deseable de detectar (d) de 10%.
De acuerdo a la fórmula, el resultado es el siguiente:
4 z t2 S 2
n 2
d
2
4(1,96) 2 325
n 2
250
n = 26
Entonces, el número de encuestas que se deben tomar, si se utiliza un muestreo aleatorio simple es
26. La selección de individuos debe ser aleatoria, donde cada individuo tenga la misma probabilidad de
ser muestreado. Si se toma en cuenta los estratos, es decir se realiza un muestreo estratificado, el
número de encuestas en cada estrato sería.
Nh
n  (n)
N
80
10
Estrato Alto: n ( 26)
80
n=3
45
Estrato Medio: n  (26)
80
n = 15
25
Estrato Bajo: n  (26)
80
n=8
Estos números de muestras por estratos son correctos si la variabilidad entre estratos es homogénea. Si
se tiene el dato de la variabilidad por estrato, se utiliza la fórmula descrita anteriormente.
Cuándo se quiere determinar el tamaño de muestra de características cualitativas que no pueden tomar
diversos valores, como por ejemplo: Los ciudadanos de un país en las elecciones presidenciales pueden
votar o no a favor de un candidato, el valor que puede adoptar el resultado puede ser: 1= a favor, ó, 0 =
en contra, los habitantes de una nación pueden ser nacionales o extranjeros (valor 1 ó 0), este tipo de
características se llaman atributos, y para la determinación del tamaño de muestra se consideran las
proporciones, y la fórmula de cálculo es la siguiente:
4 p(1  p)
n
d2
donde;
n = tamaño de muestra
p = probabilidad de éxito.
(1-p) = probabilidad de fracaso.*
d = Diferencia deseable de detectar.
* Por probabilidades, p + q = 1; despejando q = 1 – p.
Ejemplo:
Una observación ligera indica que de 500 niños, más o menos 14% de ellos tienen caries dentales.
Supongamos que se desea saber el tamaño de la muestra para determinar p (porcentaje de niños con
caries), dentro de +/- 5%, con 95 % de seguridad: entonces, se tiene que q = 1 – p = 1 – 0.14=0.86):
81
4(14)(86)
n
52
n = 192
Si el valor calculado de n resulta ser mayor de 10% de N, es necesario revisar n para hallar n’ tomando
en cuenta la corrección, con la siguiente fórmula:
n
n' 
n
1
N
192
n' 
192
1
500
n’ = 119
El tamaño de muestra que debe obtenerse es de 119.
Las fórmulas presentadas en esta sección son apropiadas para muestreos realizados al azar simple. Si
se emplea otro método de muestreo, los principios generales para determinar n son los mismos.
82
CAPITULO 9.
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS
9.1 INTRODUCCION.
De modo general las preguntas que se refieren a las poblaciones que se están estudiando, pueden dividirse
en dos;
 Primero, cuando se desea conocer cuáles son los posibles valores para la diferencia entre dos
promedios(u2 - u1) que sugieren los datos, se usan intervalos de confianza adecuadamente
elaborados, y;
 Segundo, donde el valor obtenido con la diferencia entre los promedios(u2 - u1) es comparada con
valores tabulados lo que va a permitir aceptar o rechazar hipótesis planteadas inicialmente, este proceso
se denomina prueba de hipótesis.
9.2 INTERVALOS DE CONFIANZA.
Cuándo se trabaja con una sola muestra la fórmula es;
s
LI = x -  ----------
n
s
LS = x +  ---------
n
Donde;
LI = Límite de confianza inferior

LS = Límite de confianza superior
x = Promedio estadístico
s = Desviación estándar
 = Valor tabulado, que estará en función al estadístico de prueba utilizado(t, z, F, etc.)
n = Número de datos.
83
Si son dos las muestras en estudio, la fórmula que se utiliza es:
s1 s2 s1 s2
P( x 2- x 1) +   -------- + --------  (u2 - u1)  ( x 2 - x 1) -   ------- + -------- 
n1 n2 n1 n2
Donde;
( x 2- x 1) = Diferencia entre promedios muestrales
x 2= Promedio estadístico segunda muestra
x 1= Promedio estadístico primera muestra
(u2 - u1) = Diferencia entre promedios poblacionales
s2 = Desviación estándar segunda muestra
s1 = Desviación estándar primera muestra
 = Valor tabulado, en función al estadístico de prueba utilizado(t, z, etc.)
n2 = Número de observaciones primera muestra
n1 = Número de observaciones segunda muestra
9.3 PROPORCIONES.
Una población binomial, es definida también como una población cuyos elementos son clasificados como
perteneciendo a una de dos clases convencionales llamadas éxitos o fracasos. Es así que la proporción
de la población de la población que pertenece a la primera clase por un valor p y la proporción de la población
que perteneció a la segunda clase por ( 1 – p) ó por q.
Al sacar muestras desde una población binomial, se intenta estimar p y por lo tanto estimar q. El mejor
estimador de un parámetro binomial p es P, esto es el número de éxitos Y dividido por el número total de
intentos o ensayos n, es decir; p = Y/n donde Y es el número de éxitos en n ensayos. Ya se ha establecido
con anterioridad que Y tiene una media igual a np y una varianza igual a npq. A partir de este conocimiento
se puede definir, el intervalo de confianza para p del (1 - ) % es;
Cuándo se trabaja con una sola muestra la fórmula es;
pq
LI = P -  ----------
n
pq
LS = P+  ---------
n
84
vvvvvvvv
Donde;
LI = Límite de confianza inferior

LS = Límite de confianza superior
P= Proporción.
p = probabilidad de éxito.
q = probabilidad de fracaso.
 = Valor tabulado, que estará en función al estadístico de z.
n = Número de datos.
Si son dos las muestras en estudio, la fórmula que se utiliza es :
p1q1 p2q2 p1q1 p2q2

P(p2- p1) +   --------- + ---------  (P2 - P1)  (p2 - p1) -   -------- + ---------
n1 n2 n1 n2
Donde;
(p2-p1) = Diferencia entre promedios muestrales

p2= Probabilidad de éxito segunda muestra.
p1=Probabilidad de éxito primera muestra.
(P2 - P1) = Diferencia entre promedios poblacionales.
q2 = Probabilidad de fracaso segunda muestra.
q1 = Probabilidad de fracaso primera muestra.
 = Valor tabulado, en función al estadístico de prueba utilizado(t, z, etc.)
n2 = Número de observaciones primera muestra.
n1 = Número de observaciones segunda muestra.
EJEMPLOS:
1. En una muestra de 45 observaciones la media es igual a 60 y la desviación estándar es 2.5 Halle los
límites de confianza para la media de la población con 90 por ciento de probabilidades.
DATOS
n=45
x = 60 Kg.
s=2.5 Kg.
p=90%
=0.10
85
s
LI = x - zt --------
n
v s
LS = x + zt -------
n
2.5
LI = 60 - 1.645 -----------
45
2.5
LS = 60 + 1.645 ----------
45
LI = 59.38
LS = 60.61
Inferencia:
Con un 90% de probabilidad la media poblacional se encuentra entre los límites de 59,38 y 60,61 unidades.
2. En una muestra de 25 observaciones la media es igual a 33 cm y la desviación estándar es 1.6 cm.

Halle los límites de confianza para la media de la población con 90 por ciento de probabilidades.
DATOS
n=25
x =33 cm
s=1.6 cm
=90%
=0.10
s
LI = x - Th -----------
n
s
LS = x + Th ---------
n
86
v
* Th para 24 GL y 0.05 = 1.711
1.6
LI = 33 - 1.711 --------------
25
1.6
LS = 33 + 1.711 ------------
25
LI = 32.45 cm
LS = 33.55 cm.
Inferencia.
Con un 90% de probabilidad se llega a la conclusión de que la media poblacional se encuentra entre
32.45 cm y 33.55 cm.
9.4 PRUEBAS DE HIPÓTESIS.
Cuando se prueban medias generalmente interesa saber si dos conjuntos de datos de la muestra pudieron
haber provenido de la misma población implícita. Por ejemplo, si se desea probar si el ingreso promedio de
un Grupo A es el mismo que el de un Grupo B, dos formas de prueba de hipótesis de medias son posibles:
 Primera.
Las medias de la población de las que se obtuvieron las dos muestras son iguales; si cualquiera de las
poblaciones tiene una media mayor, la hipótesis será rechazada. Esta se llama prueba de dos extremos o
prueba de dos colas.
 Segunda.
La población A tiene una media mayor que la de la población B; esta hipótesis será rechazada si la media
de B es mas grande que la de A, pero también será rechazada si éstas son iguales, esta segunda forma de
la hipótesis se llama prueba de un extremo o prueba de una cola. Se debe considerar cuidadosamente la
hipótesis para determinar que prueba es la adecuada.
87
El seleccionar la prueba correcta depende del conocimiento previo y/o disposición para hacer suposiciones
acerca de las poblaciones estudiadas.
9.5 PASOS GENERALES PARA DESARROLLAR PRUEBAS DE HIPOTESIS.
Cuando se plantean pruebas de hipótesis, de modo general se deben tomar en cuenta cuatro pasos, que
son claves para el desarrollo de cualquier tipo de prueba estadística, ya sea que se trate de una distribución
de " z "," t ", " chi cuadrado", " F ", inclusive cuando se realizan Análisis de Varianza, estos pasos son:
 Primer paso. Consiste en plantear las hipótesis, existen dos tipos:
La hipótesis nula (Ho), siempre asume un valor poblacional, pues plantea la ausencia de efectos debidos
a tratamientos, y la hipótesis alterna (Ha), que debe ser planteada comparando el valor muestral con el
valor poblacional, por ejemplo si el valor de una media poblacional fuese igual a 10, y el valor de la media
muestral fuese igual a 12, entonces, las hipótesis planteadas serían las siguientes:
Datos.
u=10
x =12
s=8
Ho  u=10 (Hipótesis nula)

Ha  u>10 (Hipótesis alterna)
La importancia de la hipótesis alterna, es que cuando se realiza el análisis con datos numéricos define el
tipo de prueba que se va a utilizar, si en la hipótesis alterna se tiene:
- Un valor > se trata de una prueba de cola derecha

- Un valor < se trata de una prueba de cola izquierda
- Un valor  se trata de una prueba de dos colas.
Nota.- Existe otra forma de plantear hipótesis, pero en el presente texto considerando que se está viendo los
principios básicos, solo se utiliza metodología sencilla.
88
 Segundo paso. El segundo paso consiste en encontrar el valor tabulado, utilizando tablas adecuadas
para ese proceso, claro que este valor llamado también estadístico tabulado estará en función a la prueba
que se está utilizando, por ejemplo si se plantea una prueba de hipótesis para " z ", se deberá utilizar una
tabla de " z ", esto quizá parece rebundante, pero la experiencia ha demostrado que no es así.
Para este proceso usualmente debe asumirse un determinado nivel de significancia, lo que demuestra que
el procedimiento de prueba de hipótesis basado en el rechazo presenta debilidad. Para dar mayor precisión
y exactitud, se ha desarrollado un nuevo concepto valor “p”, que se conoce como el nivel de significancia
observado, porque es el nivel de significancia más pequeño al que la hipótesis sería rechazada, el cuál
proporciona el valor exacto que debe utilizarse para el rechazo de la hipótesis planteada. Generalmente este
valor se usa cuando se procesa datos en softwares estadísticos (MSTATC, SAS, SPSS, Cstat, etc).
Un comentario final sobre el acercamiento de la región de rechazo tiene que ver con la distinción entre
prueba de hipótesis de uno y dos lados. Ya que el valor “p” es un resumen de la evidencia, no se requiere
distinguir cuidadosamente entre esos dos casos, en la medida que se sepa de que valor “ p “ se está
hablando. Sin embargo, para la zona de rechazo, la decisión a tomar podría estar influenciada por la
hipótesis alterna que puede estar referida a uno o ambos lados de la distribución y por lo tanto la formulación
de la hipótesis alterna deberá ser realizada con mucho cuidado.
 Tercer paso. Este paso consiste en encontrar el valor calculado, utilizando fórmulas adecuadas para
ese proceso, claro que este valor llamado también estadístico calculado estará en función a la prueba
que se está utilizando, por ejemplo si se plantea una prueba de hipótesis para " z ", se deberá utilizar la
fórmula de " z ", y así sucesivamente. Así mismo, la utilización de las fórmulas dependerá exclusivamente
de la muestra en estudio, pudiendo ser una o dos muestras, en todo caso las fórmulas para una muestra
son mas sencillas.
 Cuarto paso. Finalmente se llega a esta fase que se denomina el paso de la inferencia, donde
básicamente se compara el valor calculado con el valor tabulado, y de acuerdo a ese análisis se acepta
o rechaza la hipótesis nula, para posteriormente sacar las conclusiones que son lo más importante de
todo trabajo estadístico.
89
EJEMPLO:
Ej: Un comprador de ladrillos cree que la calidad de los ladrillos se está deteriorando. De experiencias
anteriores, se sabe que la resistencia promedio al desmoronamiento de tales ladrillos es de 200 Kilogramos,
(Con una desviación estándar de 10 Kg.). Una muestra de 100 ladrillos ha dado un promedio de 195 Kg.
Probar la hipótesis que la calidad promedio de los ladrillos no ha variado, contra la alternativa de que se han
deteriorado.
DATOS
u=200 Kg.
x =195 kg.
s=10
n=100
=0,05
1. Ho  u=200
Ha  u<200
2. zt para 0.05 = 1.645
zt = 1.645
3. 195 - 200
zc = -------------------------
10
------
100
zc = - 5
INFERENCIA.
De acuerdo al análisis realizado no existe evidencia para rechazar la hipótesis alterna, por lo que se llega a
la conclusión de que la calidad de los ladrillos se está deteriorando, pues de acuerdo a la prueba de z utilizada
la resistencia promedio es menor a 200 kg.
90
9.6 CASOS DE ESTUDIO.

A continuación se presenta todos los posibles casos de estudio:
1. Si 2 es conocida: Pueden existir dos casos; que  sea conocida, o  sea desconocida.
a. Si  es conocida, entonces, se utiliza;
x-
z 

n
b. Si  es desconocida, entonces, se utiliza;
x1 - x 2
z
1 2

n1 n2
2. Si 2 es desconocida: Pueden existir dos casos; que  sea conocida, o  sea desconocida.
a. Si  es desconocida, entonces, se utiliza;
x-
t 
s
n
GL = N - 1
b. Si  es desconocida, existe una nueva división;
b1. Cuando 1  22 :
2
Si: N130, N1 N2 y

N230, N1 N2
Se utiliza;
91
x1 - x 2
Z 
s1 s2

n1  1 n2  1
Si: N130 y
N2 30; a su vez pueden existir dos casos;
Si: N1=N2, se utiliza;
x1 - x 2
t
s1 s2

n1  1 n2  1
GL = N -1
Si: N1 N2, se utiliza;
x1 - x 2
t
s1 s2

n1  1 n2  1
Aquí t’ es ponderada, con:

w1t1  w2t 2
t´
w1  w2
Donde;
w1=S12/N1, w2=S22/N2, y t1 y t2 son los valores apropiados de la distribución de t para N 1-1 y N2-1 grados
de libertad, respectivamente, a un nivel de significación seleccionado.
b2. Cuando 12= 22, existen dos casos:

 Si: N1 + N2  30
92
Se utiliza;
x1 - x 2
Z 
s1 s2

n1 n2
 Si: N1 + N2  30
Se utiliza;
x1 - x 2
t 
Sc Sc

n1 n2
Donde;
S12 (N1 - 1) + S22 (N2 - 1)

Sc = ----------------------------------------
N1 + N2 - 2
Y, los grados de libertad serán;

GL = N1 + N2 - 2
Es necesario mencionar que en primer lugar antes de optar por cualquiera de las opciones anteriores, se
debe considerar el problema de determinar si las dos poblaciones tienen una varianza común 2mediante
una prueba de F, que se verá mas adelante.
Ej. En un valle donde se probó la aplicación de un nuevo fungicida para combatir el hielo de la papa, el
rendimiento en promedio, de 10 campos escogidos al azar, que usaron el fungicida, fue de 12.200 Kg/hect.
con una desviación estándar de 2.500; el rendimiento en 15 campos, escogidos también al azar, que no
usaron fungicida, fue de 8.500 Kg/hect y una desviación estándar de 4.200. Determine con 5 por ciento de
error si fue conveniente la aplicación del nuevo fungicida.
93
 En este ejercicio se asume que existe homogeneidad de varianzas.
DATOS
x 1=12.200 Kg/hect.
s1=2.500
n1=10
x 2=8.500 Kg/hect.
s2=4.200
n2=15
=0.05
1. Ho  u1= u2
Ha  u1 u2
2. En primer lugar, se encuentra la varianza común.
S12 (N1 - 1) + S22 (N2 - 1)

Sc = ----------------------------------------
N1 + N2 - 2
(2.500)2 9 +(4.200)2 14
Sc = ----------------------------------------
9 + 14 - 2
Sc2 = 13.182.652
Luego, se encuentra el valor de tc.
x1 - x 2
tc 
Sc Sc

n1 n2
12.200- 8.500
tc 
13.182.652 13.182.652

15 10
tc = 2,496
94
3. Tt = con GL = n1 + n2 – 1, y 0.05 por ciento;
Tt = 2,069
4. INFERENCIA:
De acuerdo al análisis realizado no se acepta la hipótesis nula, por lo que se llega a la conclusión de que la
aplicación del nuevo fungicida produce un aumento significativo en el rendimiento de los campos de papa.
9.7 OBSERVACIONES PAREADAS O CORRELACIONADAS.
Mención especial merecen este tipo de situaciones, con las que también pueden encontrarse los
investigadores, y se denominan observaciones pareadas, no únicamente por el hecho de que tengan igual
número de repeticiones, si no mas bien porque existe un grado de dependencia entre cada par de
observaciones que se estudian, un ejemplo típico es el siguiente;
Si en una Granja porcina, se separan 10 Madres Gestantes y, de cada una se escoge 2 crías de lechones
recién nacidos, y a la primera se le suministra una ración determinada, y a la segunda cría se le da otra
ración diferente a la primera, es indudable que los resultados van a estar correlacionados, debido a un efecto
genotípico existente entre las dos crías que pertenecen a una misma Madre, de esta manera existen muchas
situaciones similares que se denominan observaciones pareadas o correlacionadas.
El problema planteado puede resolverse tomando como base matemática las diferencias que existen entre
cada par de datos computados, utilizando la siguiente fórmula:
Ud - 0
tc = -----------------------------------
(  DJ )2
 DJ 2 
N
N ( N  1)
Donde;
Dj = es la diferencia entre (X1j - X2j)
95
Ej. Se efectuó un experimento con 8 pares de vacunos para medir la eficiencia de una nueva dieta alimenticia,
cada par de vacunos tenía características similares en cuanto a raza, peso y talla. Al final del periodo
experimental, el incremento de peso fué como sigue:
PAR RACIONES
A B
1 19.2 21.5
2 23.3 24.9
3 20.6 22.2
4 22.0 23.3
5 16.8 21.6
6 20.5 24.1
7 22.1 24.2
8 23.0 23.3
Determine si existe diferencia significativa entre los incrementos promedio de peso logrados en los animales
por efecto de las raciones alimenticias, con un 5 por ciento de riesgo.
1. Ho  Ud = 0
Ha  Ud  0
2..
Ud - 0
tc = ----------------------------------------
(  DJ )2
 DJ 2 
N
N ( N  1)
PAR RACIONES DIFERENCIA

A B D=A–B D – Ud (D – Ud)2
1 19,2 21,5 -2,3 -0,1 0,01
2 23,3 24,9 -1,6 0,6 0,36
3 20,6 22,2 -1,6 0,6 0,36
4 22,0 23,3 -1,3 0,9 0,81
5 16,8 21,6 -4,8 -2,6 6,76
6 20,5 24,1 -3,6 -1,4 1,96
7 22,1 24,2 -2,1 0,1 0,01
8 23,0 23,3 -0,3 1,9 3,61
Total = 13,88
-2.3 +(-1.6)+... ...+1.9

Ud = ---------------------------------------------- = - 2.2
8
96
Como;
( DJ )2
 DJ 2   (D - d)2
N
Entonces;
-2,2
tc = -------------------------------
13,88
8(8  1)
tc = - 4.49
3. Tt para 7 GL y 0.025 (dos colas) = 2.365
Tt = 2.365
4. INFERENCIA: En este caso se acepta la hipótesis alterna, con lo que se llega a la conclusión
de que existe diferencia en los incrementos de peso logrados en los vacunos, lo que puede ser atribuido a
las raciones utilizadas.
1. En una muestra aleatoria de 400 familias de una región, 80 familias tiene más de un televisor. Obtenga
un intervalo de confianza 0.98 para estimar la proporción de familias que poseen más de un televisor.
R. ( 0.1534 ; 0.2466).
97
2. En una encuesta, 1069 adolescentes expresaron su opinión sobre lo que consideran que son los
problemas claves de la Juventud actualmente. El 27 por ciento opinó que el uso y abuso de las drogas es el
principal problema, el 20 por ciento optó por las relaciones y comunicación con los Padres, el 7 por ciento
por el uso y abuso del alcohol y el 6 por ciento por el desempleo. Si los 1069 adolescentes se pueden
considerar como una muestra aleatoria de toda la población de adolescentes, estime la fracción que
considera el uso y abuso de las drogas como el problema número uno. Use un intervalo de confianza del 99
por ciento.
R. (0,235 ; 0,305).
3. Se midió la altura y la longitud de los brazos extendidos, de extremo a extremo de los dedos medios, de
once estudiantes.(datos en cm.)
No. 1 2 3 4 5 6 7 8 9 10 11
Altura 170 172 185 180 178 173 155 174 167 168 182
Longitud 173 170 183 175 177 174 155 173 166 167 185
Determine si existe diferencia significativa(use 0,05).
R. Se acepta hipótesis nula, pues la diferencia no es significativa (0,05). La altura promedio del hombre es
igual al promedio de longitud de punta a punta de sus dedos medios entre sus brazos extendidos.
4. Un empleado A fue entrenado para efectuar análisis estadísticos. Suponiendo la bondad de sus
conocimientos, se desea saber si puede efectuar su trabajo con cierta prontitud, que es necesaria para darlo
como apto en el puesto. Se cuenta su rapidez en el número de minutos que requiere para efectuar cada
uno de dichos análisis, y se compara su eficiencia con otro empleado B de reconocida destreza. Use  =
0,05.
Para el efecto, A y B reciben cada uno, el duplicado de 12 trabajos a los que deben efectuarse un análisis
estadístico de rutina. Los tiempos empleados en minutos, para realizar los trabajos fueron como sigue:
A 16 12 13 12 15 23 20 19 12 21 18 16
B 12 14 21 9 16 11 13 12 17 18 13 12
98
Si se supone que las muestras de tiempo corresponden a poblaciones normales e independientemente

distribuidas, con varianzas comúnes, determine si ambos empleados realizan su trabajo en tiempos medios
diferentes.
R. Se acepta la hipótesis nula, por lo tanto el empleado B no es mejor que A. e el empleado A.
4. Pruebas de control de calidad para dos procesos de manufactura dan los siguientes resultados:
Proceso 1: 5 15 25 15
Proceso 2: 15 20 20 20 30 25
¿ Permiten estos resultados concluir que los procesos rinden diferentes calidades con 5 por ciento de riesgo
?.
6. Una fábrica que produce pilas eléctricas declara que el promedio de vida por pila pasa de 40 horas. Una
compañía comercial que se encargará de su venta en el mercado, lo hará si la declaración del productor es
verdadera. Se obtiene una muestra al azar de 55 pilas y se determina que la media es de 44 horas y la
desviación estándar de 7 horas: ¿ Habrá acuerdo entre productor y vendedor con 5 por ciento de riesgo ?.
7. Los tiempos de encendido en segundos de crisoles de humo flotante de dos tipos diferentes son los
siguientes:
TIPO I. X 481 506 527 661 501 572 561 501 487 524
TIPOII. Y 526 511 556 542 491 537 582 605 558 578
Determine un intervalo de confianza del 95 por ciento para la diferencia media en tiempos de encendido,
suponiendo varianzas iguales pero desconocidas.
R. (- 26.147, 59.147 ó - 59.147 , 26.147).
8. En una ciudad se sacó una muestra de 100 electores, 64 de ellos favorecieron con su opinión al candidato
A y la diferencia al candidato B. Estime la fracción de electores a favor del candidato A. Determine un
intervalo para el error de estimación y establezca al intervalo de confianza al 95 por ciento para el valor p.
99
R. (0.5459 ; 0.7341)
9. En un valle donde se probó la aplicación de un nuevo fungicida, el rendimiento en promedio, de 40 campos

escogidos al azar, que usaron el fungicida, fue de 12.200 Kg/hect. con una desviación estándar de 2.500; el
rendimiento en 55 campos, escogidos también al azar, que no usaron fungicida, fue de 8.500 Kg/hect y una
desviación estándar de 4.200. Determine con 5 por ciento de error si fue conveniente la aplicación del nuevo
fungicida.
10. Los tiempos de encendido en segundos de crisoles de humo flotante de dos tipos diferentes
son los siguientes:
TIPO I. X 481 506 527 661 501 572 561 501 487 524
TIPOII. Y 526 511 556 542 491 537 582 605 558 578
Determine un intervalo de confianza del 95 por ciento para la diferencia media en tiempos de
encendido, suponiendo varianzas iguales pero desconocidas.
R. (- 26.147, 59.147 ó - 59.147 , 26.147).
11. Una compañía productora de semillas de maíz híbrido planta dos nuevas hileras de maíz en
cinco granjas diferentes. Las producciones por hectárea fueron:
HIBRIDO I. 90 85 95 76 80
HIBRIDO II. 84 87 90 92 90
a. Determine un intervalo de confianza del 90% para la diferencia entre las dos producciones medias.
b. Con que tipo de Población trabaja la Compañía en esta prueba ?
100
CAPITULO 10.
DISTRIBUCIÓN DE ” t “
10.1 INTRODUCCION.
Las anteriores distribuciones son las que se emplean cuando la muestra es grande (30 ó más observaciones)
y se conoce la media y la desviación típica.
La distribución de “ t “ fue propuesta por W. S. Gossett, y publicada en 1908 bajo el seudónimo de “Student”,
se emplea cuando se trabaja con muestras pequeñas (menos de 30 observaciones) y se desconoce la
desviación estándar ó típica:  , la causa de este tamaño de muestra radica en aspectos de costos y tiempo.
Cuando este es el caso se hace necesario procedimientos de estimación y pruebas de hipótesis acerca de
la media de una población, así como de la diferencia entre dos medias poblacionales.
10.2 CARACTERISTICAS.
En muestreo repetido, la distribución del estadístico de prueba,
x - 
t =
ˆ
n
donde;
n
 x - x 
i
2
s = ̂ = i=1
n
Se presenta las siguientes características:
1ª Es una distribución exacta.
2ª Valores de - a +.
101
3ª Es unimodal y simétrica con respecto a z.
4ª Es una distribución más aplanada que la Distribución normal.  N(  , ) .
5ª Cuando el tamaño de la muestra n aumenta, y la distribución de “t” se aproxima a la

distribución normal.
6ª En la distribución de t además de la  y , existen los grados de libertad, que también

caracterizan a esta curva.
7ª La distribución de t está representada por una familia de curvas, cada una para los
respectivos grados de libertad.
La variabilidad de t disminuye a medida cuando n aumenta, porque la estimación s de  está basada en

mas y mas información, cuando n es infinitamente grande, las distribuciones de “ t “ y la de ” z “ son idénticas.
El origen del término grados de libertad (GL) está ligado a la teoría estadística involucrada en la distribución
de probabilidades de s2, es igual al número n de observaciones independientes en la muestra menos el
número k de parámetros que deben ser estimados con las observaciones de la muestra, donde;
GL = n - k
10.3 PROPIEDADES.
 La media y la varianza son principalmente los parámetros que caracterizan las distribuciones normal y
binomial.
 En la distribución de t, además de la media y la varianza, es el parámetro v, grados de libertad, el que

identifica a la curva respectiva. En realidad t es una familia de curvas, identificada cada una por sus
grados de libertad.
 UTILIDAD PRACTICA.
La principal aplicación práctica de la distribución de t, son las pruebas de hipótesis, donde se considera
los cuatro pasos mencionados anteriormente en la distribución normal, solo que los estudios están
referidos a muestras pequeñas, es una técnica estadística poderosa que permite probar si existe o no
diferencia entre mas de dos muestras que representen a mas de dos poblaciones, siempre y cuando se
procese los datos tomando solo dos poblaciones por comparación.
102
Por otra parte, esta técnica es útil en la Investigación, no solo para determinar si existe diferencias entre los
promedios de dos grupos de observaciones en estudio, sino también, ya que de ella pueden derivarse
intervalos de confianza para pequeñas muestras.
 Pruebas de hipótesis.
Ejemplos: 1. Prueba de cola izquierda.
Una muestra de 16 observaciones tiene media 28 y desviación estándar de 3. Usando un nivel de

significación de 5 %, ¿ Hay razón para no aceptar la hipótesis de que la media de la población es de 30 ?.
DATOS
u=30 Kg
n=16
x =28 Kg
s=3 Kg
=0.05
1. Ho  u=30
Ha  u<30
2. Tt para 15 GL y 0.05 = - 1.753 (Se hace necesario considerar el signo negativo,

puesto que se trata de una prueba de cola izquierda).
Tt = - 1.753
3. x- u
tc = --------------
s
--------
n
28 - 30
tc = ---------------------
3
----------
16
tc = - 2.67
103
4. INFERENCIA:
Como el valor de tc es menor que Th entonces se dice que sí hay razón para no aceptar la
hipótesis de que la media poblacional sea de 30, y de acuerdo a los valores obtenidos en la
muestra, la media es 28.
2. Prueba de cola derecha.
Supongamos que el comprador comercial para una marca privada de supermercados toma una muestra
aleatoria de 12 tarros No303 de frijoles en una planta de conservas. El peso promedio de los frijoles en cada
tarro es de 16.97 oz, con s=0.15. Se afirma que el peso neto promedio de los frijoles por tarro es de 16.0 oz.
¿ Se puede rechazar esta afirmación a un nivel de significancia del 10 por ciento?.
DATOS
u=16.0 oz.
n=12
x =16,97 Kg.
s=0,15 Kg.
=0,10
1. Ho  u=16.0
Ha  u>16.0
2. Tt para 11 GL y 0.10 = 1,363
Tt = 1,363
3. x -u
tc = --------------
s
--------
n
16,97 - 16
tc = ---------------------------
0.15
-------------
12
tc = 22,40
104
4. INFERENCIA:
Como tc es mayor que Tt, con un nivel del 10% puede rechazarse la afirmación realizada por el dueño de la
fábrica de conservas, llegándose a constituir en un grave problema, pues las máquinas estarían envasando
más de lo que él indica, lo que representaría una pérdida, lo más aconsejable sería trabajar con una muestra
más grande (por lo menos 25 muestras) para tomar una decisión definitiva.
1. En un muestreo de diferentes marcas de jugo de tomate enlatado, se analizó la vitamina C y se

encontraron, por cada 100 gramos de jugo, las siguientes cantidades de vitamina C (en mg) por
observación:
n 1 2 3 4 5 6 7 8 9 10 11
mg 16 22 21 20 23 21 19 15 13 23 17
n 12 13 14 15 16 17
mg 20 29 18 22 16 25
Si = 18,5 mg/100 g, ¿ es significativa la diferencia ?
R.- No es significativa, por lo tanto debe atribuirse a la casualidad o al azar.
2. Un estudiante de bioquímica analizó el fósforo en el suero sanguíneo, estudiando una muestra al azar
de 9 personas. Los valores del fósforo en miligramos por 100 cc de suero sanguíneo fueron los
siguientes:
n 1 2 3 4 5 6 7 8 9
Xi 2.9 3.0 3.0 2.9 3.0 2.9 2.9 3.0 2.9
La teoría y la experiencia indican que el promedio  en una población no deficiente debe ser de 7 mg/100cc.
¿es significativa la diferencia entre el promedio de la muestra y el promedio teórico ?
R.- No se acepta hipótesis nula, pues la probabilidad de error al rechazar una cosa cierta es casi cero. En el
suero sanguíneo de las 9 personas muestreadas se ha determinado que existe deficiencia de fósforo, ya que
la diferencia es altamente significativa.
105
3. Una fábrica de papel indica que el promedio de rotura por fuerza del papel es de más de 20 kg, y que
por lo tanto, puede usarse para hacer bolsas. Una muestra al azar de 9 hojas de ese papel tuvo un media
de rotura de 18 Kg y una desviación estándar de 2,5 Kg. ¿ Se aceptará la declaración de la fábrica con
un  = 0,01 ?.
4. De un experimento de selección de levaduras usadas en vinificación se obtuvo los siguientes resultados

expresados en materias reductoras.
Levadura 1: 27,78 31,25 33,33 33,33

Levadura 2: 23,81 22,72 29,41 26,31
Es verdad que no se acepta la hipótesis nula ?
R. Si, es verdad, no se acepta la hipótesis nula de que ambas levaduras son iguales en cuanto a materias
reductoras, se acepta que la levadura 1 es superior a la 2 en este aspecto.
5. Con el objeto de determinar si un tratamiento particular de calor es efectivo o no en reducir el número de

bacterias en la leche, se realizó un experimento en que se contó el número de bacterias mediante
observación directa al microscopio antes de aplicar calor y después de haber aplicado el tratamiento. Esto
se efectuó para 12 muestras de leche, y los resultados se presentan a continuación como el logaritmo del
número de bacterias.
Antes:
6.98 7.00 8.34 5.30 6.26 6.77 7.03 5.56 5.97 6.64 7.03 7.69
Después:
6.95 6.94 7.17 5.15 6.28 6.81 6.59 5.34 5.98 6.51 6.04 6.99
Usted rechazaría la hipótesis nula, con un nivel del 0.05
R. Si, se rechaza la hipótesis nula y se concluye que el tratamiento de calor redujo el número de bacterias.
6. Se efectuó un experimento para estudiar el efecto de la fertilización en sorgo. Se aplicó un tratamiento

A consistente en 1000 kg. de salitre por ha y otro tratamiento B que consistió en aplicar 2000 kg. de salitre
por ha. Los datos obtenidos de largo de la espiga en cm. Para cada tratamiento son:
A: 18 19 17 18 16 14 15 14 16 17
B: 14 15 17 18 16 17 20
106
Existe suficiente evidencia para no aceptar la hipótesis nula ?
R. Según el análisis realizado existe evidencia para no aceptar la hipótesis nula, indicando esto que aplicar
el doble de salitre no contribuye a aumentar el largo de la espiga.
7. De un experimento de selección de levaduras usadas en vinificación se obtuvo los siguientes resultados

expresados en materias reductoras.
Levadura 1: 27.78 31.25 33.33 33.33
Levadura 2: 23.81 22.72 29.41 26.31
Es verdad que no se acepta la hipótesis nula ?
S. Si, es verdad, no se acepta la hipótesis nula de que ambas levaduras son iguales en cuanto a materias
reductoras, se acepta que la levadura 1 es superior a la 2 en este aspecto.
107
CAPITULO 11.
DISTRIBUCIÓN 2 (CHI CUADRADO)
11.1 INTRODUCION.
Algunas veces es necesario estudiar la variabilidad o dispersión de un conjunto de datos u observaciones,

siendo la varianza el estadístico que mejor estima esa característica, en estos casos la distribución a utilizarse
será chi cuadrado (2).
La prueba de chi cuadrado, además de su gran utilidad para poder inferir sobre la varianza desconocida de
una población, es también importante en otras pruebas referidas al ajuste de distribuciones de muestreo
relacionadas con el ajuste de distribuciones de frecuencia obtenidas por muestreo y con tablas de
contingencia. La distribución de Chi cuadrado es continua normalmente derivada como una distribución
muestral de una suma de cuadrados de independientes variables normales estandarizadas.
xi -  2
2 = iZi = i ---------

Es una distribución no simétrica en la que solamente valores positivos de la variable son posibles, y depende
de los grados de libertad como parámetro ya que dependiendo del valor que puedan tomar se formará una
familia de curvas, donde la asimetría de las curva disminuye en la medida que los grados de libertad aumenta,
y podría ser demostrado que a medida que los grados de libertad aumentan sin límites, esta distribución se
aproxima a una distribución normal. La fórmula anterior es mas general que la que se necesita, ya que en el
presente texto solo se presentará el muestreo desde una simple población con varianza constante
muestreando desde una distribución normal.
Si la cantidad SC=(n-1)s2 es la suma de cuadrados de n-1 desviaciones independientes, entonces la relación:
(n-1)s2
2 = ----------------
2
108
Es un caso particular de la fórmula anterior, que es el estadístico de prueba para formular pruebas de
hipótesis acerca de la varianza desconocida de una población.
Entonces, dado una muestra de tamaño n, siendo las observaciones Xi. provenientes de una población de
valores X, los cuales son normal e independientemente distribuidos con media igual a  y varianza igual a
 , y el cuociente:
(Xi - )2
--------------
2
Esto es la sumatoria de las desviaciones de las observaciones de Xi, con respecto al promedio  al cuadrado
y dividido por la varianza 2, sigue una distribución chi cuadrado (2) con n-1 grados de libertad.
11.2 PROPIEDADES DE LA DISTRIBUCION JI CUADRADO.

Teoremas:
 Si un estadístico z se distribuye normalmente con media igual a cero y varianza igual a uno; entonces z2
sigue la distribución 2 con v = 1. La distribución Ji Cuadrado para 1 grado de libertad,(z2 ), es en
realidad una versión doblada de la distribución de z.
 Si de una población normal con varianza 2 se extraen todas las muestras posibles de tamaño n y para
cada muestra se calcula  (Xi - x )2 llamada la suma de cuadrados y representada por SC, entonces
los valores:
 (Xi - x )2 SC
-------------- = -------------
2 2
de todas las muestras, siguen la distribución 2 con n-1 grados de libertad.
 Si de una población normal, con varianza 2 se extraen todas las muestras posibles de tamaño n y
para cada muestra se calcula s2, la varianza de la muestra, entonces, la media de todas las relaciones
s2/2 es igual a uno.
109
11.3 APLICACIONES DE LA DISTRIBUCION JI CUADRADO.
Esta distribución puede ser usada para probar hipótesis y establecer intervalos de confianza para la varianza
poblacional 2, suponiendo que la media poblacional es conocida.
Desde el punto de vista práctico la prueba de Chi cuadrado, tiene dos aplicaciones.
- Formulación de hipótesis, y
- Pruebas de frecuencias observadas.
EJEMPLOS:
1. Cola derecha
Ej. Calcular el valor de 2 para 8 GL y 0.05 = 15.51
2. Cola izquierda
Ej. Calcular el valor de 2 para 8 GL y 0.05.
En este caso si se considera que toda el área bajo la curva es igual a 1, y el valor de probabilidad que se
debe encontrar está a la izquierda, se debe restar el área de 1, razón por la cuál el valor a buscar es 0.95;
por lo que:
El valor de 2 para 8 GL y 0.05 = 2.73
3. Dos colas
Ej: Calcular el valor de 2 para 8 GL y 0.01.
Este caso tiene la característica particular de que como se trata de una prueba de dos colas, el nivel de
significancia debe dividirse entre dos para que 0.01 sea repartido equitativamente en ambas colas, de
acuerdo a lo anterior los valores que deben ser buscados son los siguientes:
110
- Para cola derecha
El valor de 2 para 8 GL y 0.005 = 22.00
- Para cola izquierda
El valor de 2 para 8 GL y 0.005 = 1.34; puesto que el valor se ha restado de:
1 - 0.005 = 0.995
11.4 PRUEBAS DE HIPOTESIS.
1. La desviación estándar de las temperaturas anuales de una ciudad en un periodo de 50 años fue de
17F, con la Temperatura del día 15 de cada mes. Durante los últimos 10 años, la desviación estándar fue
de 13F. Ensayar la hipótesis de que las temperaturas anuales presentan ahora menos variabilidad que en
el pasado y sacar conclusiones, usando un nivel de significancia del 5%.
DATOS
N=50 s=17F s2=289

n=10 s=13F s2=169
=0,05
1. Ho  s2=289
Ha  s2<289
2. 2t para 9 GL y 0.05 = 3,33
2t = 3,33
3. (n-1)s2
2c = ----------------
2
(10-1)169
2c = ------------------
289
2c = 5,26
111
4. INFERENCIA:
De acuerdo al análisis realizado se acepta la hipótesis de que las temperaturas presentan la misma
variabilidad, por lo que se llega a la conclusión de que las temperaturas en la actualidad no son menos
variables que en el pasado.
1. De 64 descendientes de un cruce entre conejillos de indias; 8 son negros y 56 no lo son. De acuerdo

con el modelo genético estos números (negros y no negros) deberían hallarse en una relación 3:13. Usando
un nivel de 5% determine si los valores observados son consistentes con el modelo genético.
DATOS
N=64 (8 negros y 56 no negros)

Relación genética 3:13
=0.05
1.
Ho = Los valores observados son consistentes con el modelo genético.
Ha = Los valores observados no son consistentes con el modelo genético.
2. 2t para 1 GL y 0.05 = 3,84
2t = 3,84
3.
n
 (Oi-Ei)2
i=1
2c = ---------------------
Ei
Relación observada
Relación esperada
3 negros : 13 no negros
Expresado en términos de probabilidad:
112
3
P(negros)= -----------
16
13
P(no negros)= -----------
16
Correlacionando lo observado con lo esperado se tiene que:
3
P(negros)= ------------*(64) = 12
16
13
P(no negros)= ---------------*(64) = 52
16
----------------
Total = 64
Entonces;
n
 (Oi-Ei)2
i=1
2c = --------------------------
Ei
De acuerdo a la fórmula:
(8-12)2 (56-52)2
2c = --------------- + ----------------
12 52
2c = 1,64
4. INFERENCIA:
Una vez realizada la prueba correspondiente se acepta la hipótesis nula, puesto que el valor calculado es
menor al tabulado, concluyendo que no existe diferencia estadística entre lo que se ha obtenido y lo que se
esperaba, por lo que se puede decir que el modelo genético se cumple.
Analizando un poco los resultados por ejemplo para los conejos negros obtenidos en la prueba el valor es
8, se esperaba que fueran 12, existiendo una diferencia que a simple vista es notoria, pero una vez realizada
la prueba estadística correspondiente considerando el total de observaciones se llega a la conclusión de que
el modelo genético se cumple.
113
Realizando una corrección de Yates, se obtiene lo siguiente:
1.
Ho = Los valores observados son consistentes con el modelo genético.
Ha = Los valores observados no son consistentes con el modelo genético.
2. 2t para 1 GL y 0,05 = 3,84
2t = 3,84
3. n
 (Oi-Ei- 0,5)2
i=1
2c = ---------------------------
Ei
Relación observada
Relación esperada
3 negros : 13 no negros
Expresado en términos de probabilidad:
3
P(negros)= -----------
16
13
P(no negros)= -----------
16
3
P(negros)= ----------*(64) = 12
16
13
P(no negros)= ----------*(64) = 52
16
----------
Total = 64
114
Entonces;
(8-12-0,5)2 (56-52-0,5)2
2c = --------------------- + --------------------------
12 52
2c = 1,22
4. INFERENCIA:
Una vez realizada la prueba correspondiente se llega a la misma conclusión, es decir que se acepta la
hipótesis nula, puesto que el valor calculado es menor al tabulado, entonces no existe diferencia estadística
entre lo que se ha obtenido y lo que se esperaba, el modelo genético estadísticamente se cumple.
2. En un experimento Mendeliano con arvejas se obtuvo 13 flores rojas, 42 rosadas y 25 blancas. De

acuerdo a la teoría debe tenerse una proporción de 1 roja, 2 rosadas y 1 blanca. ¿ Se ajustan los resultados
obtenidos a la teoría al 1 porciento ?
DATOS
N=80 (13rojas, 42rosadas y 25blancas)

Relación esperada 1:2:1
=0.01
1. Ho = Si se ajustan los resultados a la teoría.

Ha =No se ajustan los resultados a la teoría.
2. 2t para 2 GL y 0.01 = 11,34
2t = 11,34
3. Relación observada
N=80 (13rojas, 42rosadas y 25blancas)
Relación esperada
1 roja:2 rosadas:1 blanca
Expresando en términos de probabilidad:
1
P(rojas)= -----------
4
115
2
P(rosadas)= ----------
4
1
P(blancas)= ----------
4
1
P(rojas)= ------------*(80) = 20
4
2
P(rosadas)= ---------*(80) = 40
4
1
P(blancas)= --------*(80) = 20
4
---------
Total = 80
Entonces;
De acuerdo a la fórmula:
(13-20)2 (42-40)2 (25-20)2

 2c = ----------------- + ---------------- + ----------------
20 40 20
2c = 3,8
4. INFERENCIA:
Como el valor calculado es menor al valor tabulado se acepta la hipótesis nula, por consiguiente se llega a
la conclusión de que los resultados obtenidos si se ajustan a la Teoría.
116
1. Se obtienen 10 muestras de suero sanguíneo. Se pesan estas 10 muestras y se registra esta información
en gramos. Los datos son:
55.5 46.5 53.5 48.5 82.0 73.5 85.0 74.5 44.5 63.5
Pruebe si la varianza poblacional es diferente de 100.
R. Se rechaza la hipótesis nula, entonces la varianza poblacional es mayor a 100.
2. Usando los datos del ejemplo anterior, calcule el intervalo de confianza con un nivel de 0,05.
R. (108.19 ; 762.15).
3. Un nuevo tipo de máquina para hacer ojales N, se compara con una que se usa en el proceso industrial
que puede considerarse como testigo T. Para la máquina testigo la varianza es 0.0050. Una muestra al azar
de 12 ojales hechos por la máquina N tiene varianza 0.0022. ¿Existen diferencias significativas entre las
varianzas de ambas máquinas ?.
R. Se acepta la hipótesis nula, es decir, no hay evidencia de que la varianza de la población no sea 0.0050.
4. La desviación estándar de las temperaturas anuales de una ciudad en un periodo de 50 años fue de 17
grados Farenheit, con la temperatura del dia 15 de cada mes. Durante los últimos 10 años, la desviación
estándar fue de 13 grados Farenheit. Ensayar la hipótesis de que las temperaturas anuales presentan ahora
menos variabilidad que en el pasado, usando un nivel de 5 por ciento.
R. De acuerdo al análisis realizado se acepta la hipótesis alterna, por lo que se llega a la conclusión de que
las temperaturas en la actualidad tienen menor variabilidad que en el pasado.
5. De 64 descendientes de un cruce entre conejillos de indias; 8 son negros y 56 no lo son. De acuerdo con
el modelo genético estos números (negros y no negros) deberían hallarse en una relación 3:13. Usando un
nivel de 5 por ciento determine si los valores observados son consistentes con el modelo genético.
117
R. El modelo genético se cumple.
6. Realice una corrección de Yates para el ejercicio anterior.
R. El modelo genético se cumple.
7. Una caja contiene bolas rojas, verdes y azules. Una muestra al azar de 30 bolas, sacada de la caja, está
compuesta de 20 bolas rojas, 8 azules y 2 verdes. Pruebe la hipótesis de que la caja contiene igual proporción
de bolas de los colores declarados.
R. Se rechaza la hipótesis de que en la caja haya igual proporción de bolas de los tres colores declarados,
con un riesgo de 1 por ciento.
118
CAPITULO 12.
DISTRIBUCIÓN de " F "
12.1 INTRODUCCION.
En la investigación científica se presenta con bastante frecuencia situaciones en las que se desea comparar
la varianza de dos poblaciones, por ejemplo, en el campo de la farmacéutica en donde se desea comparar
las varianzas de dos métodos en la fabricación de dos métodos en la fabricación de tabletas de alguna
medicina.
Para realizar esas comparaciones fue desarrollada la prueba de “F” por Fisher y Yates, que es una técnica
estadística que es utilizada cuando se desea investigar sobre las varianzas de dos poblaciones a través de
las varianzas muestrales, dando lugar a la siguiente relación:
S12
F = ---------------
S22
Donde;
F = Estadístico de prueba
S12 = Varianza de la muestra 1.
S22 =
Varianza de la muestra 2..
Cuanto mayor sea la variación entre las muestras en estudio, mayor va a ser mayor el valor de " F ", es
razonable comparar las varianzas de dos poblaciones mediante el cuociente de sus varianzas muestrales
S12/S22, si este valor se acerca a 1, se tendrá poca evidencia de la variabilidad de  12 y 22 son distintos. Así
mismo un valor muy pequeño o muy grande será evidencia de que existe diferencia entre las varianzas de
las poblaciones.
Los valores de " F " para niveles de significancia de 1 y 5%, han sido tabulados para diferentes grados de
libertad de muestras y del error(ver tabla del Apéndice).
119
12.2 PROPIEDADES de F.
 Si el estadístico SC1/ 2 sigue la distribución Ji cuadrado con (n1 – 1 ) grados de libertad y el estadístico
SC2/ 2 sigue la distribución Ji cuadrado con (n2 – 1 ) grados de libertad y SC1 y SC2 provienen de
muestras indeopendientes, entonces el estadístico.
SC1 +SC2
2
sigue la distribución Ji Cuadrado, con (n1+n2-2 ) grados de libertad.
 Si un estadístico 2 sigue la distribución Ji Cuadrado con v = n-1 grados de libertad, el estadístico 2/v
sigue la distribución de F con v y  grados de libertad. Desde que s2 es un estimador de 2 , s2 tenderá
al valor de 2 a medida que el tamaño de la población, es decir, que n tienda a infinito. Por consiguiente
el estadístico:
F = s21/s22 se convertirá en s21/2
si v = n2 –1 tiende a infinito. Pero el estadístico s21/2 sigue la distribución de 2/v . según se explico
anteriormente.
12.3 MANEJO DE LA TABLA.
Para el manejo de la tabla, se hace necesario conocer dos valores de grados de libertad, y el nivel de
significancia, ejemplo:
1. Cola derecha
Ej. Calcular el valor de F para 9 y 12 GL para 0.05 = 2.80
Nota: Asumiendo que 9 corresponde a un cuadrado medio o varianza entre muestras, y que 12 son los grados de
libertad para el cuadrado medio o varianza del error.
2. Cola izquierda
120
Ej. Calcular el valor de F para 9 y 12 GL para 0.05 = 0.32
En este caso se considera que toda el área bajo la curva es igual a 1, y el valor de probabilidad que se debe
encontrar se encuentra a la izquierda, debiéndose restar el área de 1, razón por la cuál el valor a buscar es
0.95; por lo que:
El valor de F para 12 y 9 GL(0.05) = 3.07
Debiendo realizarse el siguiente artificio:

1 1
Fc0.95(9 y 12) = ----------------------------- = -------------- = 0,32
F0.05 (12 y 9) 3.07
Fc = 0,32
EJEMPLO:
1. Dos procesos de envasar mermelada, ensayados por una compañía rinden el mismo peso medio.
Sin embargo el primer proceso es más rápido y la compañía está dispuesta a usarlo, a menos que la varianza
sea muy grande comparada con el segundo proceso, a un nivel de 5%. Del primer proceso una muestra de
25 frascos tiene una desviación estándar de 30 gramos y del segundo una muestra de 20 frascos, tiene una
desviación estándar de 22 gramos, ¿ A que conclusión puede llegarse con estos resultados ?.
DATOS
A B
nA=25 nB=20
sA=30 sB=22
s2A=900 s2B=484
= 0,05
1. Ho  s2 A=s2B
Ha  s2 A >s2B
s21
2. Fc = ---------------
s22
900
Fc = ------------ Fc = 1,86
484
121
3. Ft = para 24 y 19 Gl(0,05) = 2,11

* Los GL son los siguientes:
GLA = nA - 1
GLA = 25 - 1
GLA = 24
(Grados de libertad de la varianza entre muestras, se buscará en la tabla
donde indique los GL para el mayor cuadrado medio).
GLB = nB - 1
GLB = 20 - 1
GLB = 19
(Grados de libertad de la varianza menor, que debe buscarse en la columna
de la izquierda).
En este caso, el valor buscado es:
Ft = 2,11
4. INFERENCIA
Como el valor de Fc es menor a Ft, se acepta la hipótesis nula, por tanto la compañia puede
usar el primer proceso de envase, porque no se ha evidenciado que el segundo proceso sea
más rápido.
122
1. La consistencia en el sabor de la cerveza es una cualidad importante para mantener la lealtad de la

clientela. La variabilidad en el sabor de una cerveza puede verse afectada por la longitud del periodo de
fermentación, variación de los ingredientes y diferencias en el equipo de fermentación. Un fabricante de
dos líneas de producción 1 y 2 ha hecho ligeros cambios a la línea 2 buscando reducir la variabilidad así
como el promedio del índice de sabor. Se toman muestras al azar de n1 = 25 y n2 = 25 vasos de cerveza
de cada línea de producción y se determina el índice de sabor con un instrumento apropiado,
obteniéndose;
- -
X1 = 3,2 X2 = 3,0
S21 = 1,04 S22 = 0,51
¿ Representan estos datos evidencia suficiente para indicar que la variabilidad del proceso es menor para
la línea 2 ?.
R. Se rechaza hipótesis nula y se acepta que la variabilidad del proceso 2 es menor que la variabilidad
del proceso 1.
2. Supóngase que se lanza al aire 36 veces un tetraedro y el uno aparece 12 veces. ¿Confirma esto
la opinión de que la probabilidad de que aparezca 1 es mayor que ¼ ?.
R. Se acepta la hipótesis nula.
3. En un cierto envase de alimentación se dice que pesa 10 onzas. Se elige una m uestra aleatoria de 8
envases de una gran cantidad y los pesos encontrados son los siguientes:
9,7 10,3 10,2 10,1 9,9 10,2 10,1 10,1
Compruébese si la muestra confirma lo dicho de que los envases son de 10 onzas. Supóngase que los
pesos se distribuyen normalmente.
4. Supóngase que un cierto objeto tiene 10 cm. de longitud. De una partida grande se elige una muestra
aleatoria de 8 objetos y se encuentra que se desvían de 10 cm. en las siguientes cantidades.
-0,3 0,3 0,2 0,1 -0,1 0,2 0,1 0,1 (en cm.)
Compruébese si esta muestra confirma que los objetos miden 10 cm. de longitud. Supóngase que las
desviaciones están distribuidas normalmente.
123
5. Supóngase que hay dos máquinas A y B, que producen un cierto artículo, y queremos comprobar si los
pesos de los artículos producidos por ambas máquinas son iguales. Se toman muestras aleatorias de 4 y 5
con los resultados siguientes:
A: 15 17 16 16 (onzas)
B: 11 12 9 11 12 (onzas)
Compruebe si los pesos de los objetos son iguales, suponiendo que se distribuyen normalmente.
R. Se rechaza la hipótesis nula.
6. Se Prueba el efecto de fertilización sobre el rendimiento de un cultivo. Se aplican 1000 kg. de salitre por
ha. y 2000 kg/ha, tratamientos A y B respectivamente.
A 18 19 17 18 16 14 15 14 16 17
B 14 15 17 18 16 17 20
Pruebe si existe homogeneidad de varianzas.
R. Existe homogeneidad de varianzas.
124
CAPITULO 13.
ANÁLISIS DE VARIANZA
13.1 INTRODUCCION.
En el capítulo 12 se estudió la prueba de F, que es solo una de las muchas pruebas de F basadas en un
principio similar de Análisis de varianza. Es necesario mencionar que no es una prueba para varianzas, se
estará probando por medio de ella la igualdad de varias medias. El término Análisis de varianza como
prueba estadística tiene que ver con el uso de un cuociente de dos estimaciones de varianzas y en su forma
mas sencilla no es mas que desdoblar la varianza en dos direcciones, una referida a la variabilidad que pueda
existir entre las muestras en estudio(que pueden ser mas de dos a diferencia de lo que ocurre con una prueba
de “t”), y la otra variabilidad se refiere a aquella que puede existir dentro de cada muestra, lo que también se
conoce como el error experimental.
La estimación de 2 en el numerador es solo precisa, si la hipótesis nula es verdadera, de otra forma tiende
a ser mayor que 2. La estimación de 2 para el denominador es precisa sin importar si las medias son
iguales.
13.2 TABLA DE ANÁLISIS DE VARIANZA.
Se conoce también como tabla de ANDEVA, etc, el término análisis de varianza es un término generalmente
usado para describir los procedimientos para analizar datos clasificados de acuerdo a algún agrupamiento
de factores o clasificados por un cruzamiento simultáneo de dos o mas factores.
La comparación de varios grupos independientes usualmente es efectuada por un análisis de varianza de

una forma de especie de clasificación, debido a que las mediciones son clasificadas en grupos definidos por
los diferentes niveles de un solo factor en su forma mas sencilla. La investigación inicial de la diferencia de
grupos es generalmente llevada a cabo por una o mas pruebas de F semejantes a las descritas en el capítulo
anterior. La tabla de análisis de varianza es una forma de resumir los varios ingredientes numéricos que van
dentro del estadístico F. Esta tabla de análisis de varianza es también usada en análisis de regresión, donde
pruebas de F similares son usadas como investigación inicial.
Una tabla de análisis de varianza es importante en estadística aplicada porque proporciona una rutina
conveniente para los cálculos y presentación de valores numéricos presentes en el estadístico F.
125
La tabla de ANDEVA simplemente contiene los varios componentes del estadístico de F, basada en sus
respectivos grados de libertad. Cada una de las varianzas estimadas en el estadístico F es escrita como una
suma de cuadrados divididos entre sus grados de libertad.
Las varias sumas de cuadrados y los respectivos grados de libertad son organizados en la siguiente tabla de
análisis de varianza(ANDEVA).
FUENTE DE GRADOS DE SUMA DE CUADRADOS

VARIACIÓN (F.V.) LIBERTAD CUADRADOS MEDIOS “F” CALCULADO “F” TABULADO (Ft).
(G.L.) (S.C.) (C. M.) (Fc).
Entre grupos t -1 S.C.E.G. C.M.E.G C.M.E.G./ Buscar en tablas

C.M.D.G
Dentro de grupos t(r-1) S.C.D.G. C.M.D.G
Total tr-1 S.C.T.
Donde; t= Número de grupos en estudio; r= Número de repeticiones por grupo

S.C.E.G. = Suma de cuadrados entre grupos
S.C.D.G. = Suma de cuadrados dentro de grupos
S.C.T. = Suma de cuadrados totales
C.M.E.G = Cuadrado medio entre grupos
C.M.D.G = Cuadrado medio dentro de grupos
Fc = Valor de F calculado
Ft = Valor de F tabulado, (obtenido a través de tablas, puede utilizarse también el valor “p” ).
Las fórmulas de cálculo son:
n
(  xi ) 2
S .C.T .    xi2   i 1
 n
 i 1  r *t
n n
 xi2 ( xi ) 2
S .C.E.G.   ( t 1
) i 1
r r *t
S.C.D.G = S.C.T. - S.C.E.G

126
y;
C.M.E.G = S.C.E.G./(t-1)
C.M.D.G = S.C.D.G./t(r-1)
Como se mencionó anteriormente la estadística es el cerebro de los diseños experimentales, y

específicamente el análisis de varianza que se está estudiando, es en realidad el diseño experimental más
sencillo que existe, y se lo conoce también como diseño completamente al azar.
13.3 SUPUESTOS BÁSICOS.
Son los siguientes:
1. Supuesto de Normalidad.- Los 2 grupos de datos provienen de poblaciones distribuidas

normalmente.
2. Supuesto de homogeneidad de varianzas.- Las poblaciones tienen iguales varianzas
3. Supuesto de independencia entre grupos.- Las observaciones entre ambos grupos en estudio
deben ser independientes.
4. Supuesto de independencia dentro de grupos.- Las observaciones dentro de un grupo son

independientes unas a otras.
13.4 MODELO LINEAL ADITIVO.
Cualquier observación de una población puede expresarse por una media más un cierto error(en
términos de variabilidad), constituyéndose así un Modelo Lineal Aditivo.
Xi = u + e i
Las suposiciones que se hagan de la media u y del error e, variarán según el problema que se esté
estudiando. Sin embargo debe existir una suposición mínima y ésta es que Xi debe obtenerse al azar, o lo
que es lo mismo, los errores de muestreo, e; deben ser al azar.
127
Como caso general, si se tuvieran muestras de t poblaciones, con diferentes medias, pero varianza común,
la composición de una observación cualquiera ésta dada por:
Xij = u + ti+ e ij
En la que;
i = 1, 2, ..., t muestras.
j = 1, 2, ..., r observaciones.
En la anterior ecuación significa que la j - ma observación tomada de la i – ma población está conformada

de una media general u, más un componente ti propio de la población considerada(efecto de tratamiento),
más un elemento de error eij (variación).
13.5 COMO INTERPRETAR UNA TABLA DE ANÁLISIS DE VARIANZA.
Para interpretar una tabla de análisis de varianza, cuándo el cálculo se realiza manualmente básicamente se
compara el valor de Fc con el valor de Ft, siendo posible tan solo, una de las siguientes reglas de decisión:
1.- Si el valor de Fc es menor que Ft al 5 %, se acepta hipótesis nula, y se interpreta indicando que el
resultado no es significativo representando con una NS, y esto indica que no existe un efecto debido a
tratamientos.
2.- Si el valor de Fc es mayor que Ft al 5 %, pero no al 1 %, no existe evidencia para aceptar la hipótesis
nula, indicando esto que el resultado es significativo, se representa con un asterisco ( * ), y esto significa que
existe un efecto debido a tratamientos.
3.- Si el valor de Fc es mayor que Ft al 5 % y al 1%, no existe evidencia para aceptar la hipótesis nula,
indicando esto que el resultado es altamente significativo, se representa con dos asteriscos (* * ), y esto
significa que existe un efecto debido a tratamientos. Se hace necesario mencionar, que la tercera regla se
presenta solo para fines didácticos, pues en la práctica se acostumbra tomar en cuenta sólo las dos primeras.
Cuando se procede a realizar el procesamiento de los datos con un software estadístico (MSTATC, SAS,
CSTAT, SPSS, etc) la interpretación del valor de F es diferente.
128
EJEMPLO:
En la Pontificia Universidad Católica de Chile, se realizó un ensayo donde cuatro pollos fueron
aleatoriamente asignados a cada una de cuatro raciones diferentes (altamente energéticas),
habiéndose utilizado en total 16 animales. Fueron alimentados individualmente y después de un
período de tiempo(56 días), se midió en ellos el porcentaje de daño que las raciones en estudio
provocaron sobre un órgano determinado (hígado).
Los datos reportados fueron:
Cuadro 13.1 Porcentaje de daño causado por cuatro dietas altamente energéticas.
Raciones(grupos)
------------------------------------------------------------------
1 2 3 4
-------------------------------------------------------------------
I 7,2 4,5 9,7 7,1
Repeticiones II 6,8 6,0 8,4 6,1
(Animales) III 6,0 4,6 8,8 7,2
IV 6,3 5,3 9,9 6,4
---------------------------------------------------------------------
 26.3 20.4 36.8 26.8
Pruebe a través de un análisis de varianza la hipótesis de que el daño provocado por las raciones es el
mismo.(Aquí se plantea una hipótesis nula).
En primer lugar se ha verificado que estos datos cumplen con los supuestos que hacen válido el
correspondiente Análisis de Varianza. Recordando los cuatro pasos de pruebas de hipótesis, que como se
indicó anteriormente se puede aplicar a un análisis de varianza, se tiene;
1. Ho  u1= u2= u3= u4

Ha  u1 u2= u3= u4(Por lo menos alguna diferencia)
El paso 2 y 3, se resume en la tabla de ANDEVA;
n
( xi ) 2
S .C.T .   xi2  i 1
i 1 r *t
129
S.C.T. = (7.2)2 + (4.5)2 + (9.7)2 +.......... +(6.4)2 - ((7.2 + 4.5 + 9.7 + ........ + 6.4)2 /16)
S.C.T. = 799.99 - ((110.3)2/16)
S.C.T. = 39.41
n n
x 2
i ( xi ) 2
S .C.E.G.   ( t 1
) i 1
r r *t
(26.3) 2 (20.4) 2 (36.8) 2 (26.8) 2 (7.2 + 4.5 + 9.7 + ........ + 6.4)2

S.C.E.G. = ------------- + ------------ + ----------- + ---------- - --------------------------------------- 4
4 4 4 16
S.C.E.G = 795.08 - 760.38
S.C.E.G = 34.7
S.C.D.G = S.C.T. - S.C.E.G
S.C.D.G = 39,41 – 34,7

S.C.D.G = 4,71
Con estos resultados obtenidos se llena la tabla de Análisis de Varianza, llegándose a tener:
FUENTE DE GRADOS DE SUMA DE CUADRADOS

“F” TABULADO
VARIACION (F.V.) LIBERTAD CUADRADOS MEDIOS “F”CALCULADO
(Ft).
(G.L.) (S.C.) (C. M.) (Fc).
0.05 0.01
Entre grupos 3 34,70 11,57 29,67 * * 3,49 5,95
Dentro de grupos 12 4,70 0,39

Total 15 39,40
130
El valor de F tabulado se obtuvo en tablas, buscando con 3 y 12 grados de libertad

respectivamente, para 5 % de significancia.
4. Inferencia. Como Fc es mayor que Ft, entonces se dice que el resultado es estadísticamente significativo
entre los 4 grupos (diferentes raciones utilizadas), esto quiere decir que cada ración provoca un porcentaje
de daño diferente en el hígado de los pollos.
13.6 CONSIDERACIONES FINALES.
Hasta este momento, se ha llegado a la conclusión de que cada ración provoca un daño diferente en el
hígado de los pollos, desde el punto de vista metodológico siempre que el resultado sea significativo, el paso
siguiente es utilizar otro tipo de procedimientos, es decir técnicas estadísticas denominadas: Comparaciones
Múltiples de medias, Pruebas de Significancia, ó Comparaciones Ortogonales, debido a que en la práctica
un Investigador ó Productor estará interesado en saber específicamente que ración es la que causa mayor
o menor daño en el hígado de los pollos. Todas esas nuevas Metodologías, Técnicas y Procedimientos a las
que se hace referencia van mas allá del objetivo central del presente texto, que pretende proporcionar toda
la base estadística necesaria, tanto analítica como matemática, para que el alumno esté preparado
adecuadamente para profundizar aun más su conocimiento en Diseños Experimentales.
1. De una investigación hecha sobre alimentación en ovinos, medida como ganancia de peso en un cierto
período, se obtuvo la información que se ofrece.
Realice el análisis de varianza y obtenga sus conclusiones.
Ración A Ración B Ración C

n 5 5 5
X 68 61 38
X2 982 945 300
131
2. En un estudio hecho para probar el efecto rendidor de cuatro variedades de cebada se obtuvieron los
siguientes registros en kilogramos por unidad de observación. ¿ Qué recomendación podría hacerse en
base a los resultados obtenidos ?.
Variedades de cebada
Obs. v1 v2 v3 v4
1 53.4 33.4 50.4 49.0
2 64.8 38.2 63.4 64.8
3 63.2 40.2 58.2 62.2
4 55.8 47.0 63.0 57.0
5 50.1 49.0 67.6
6 59.7 60.0
132
CAPITULO 14.
ANÁLISIS DE CORRELACIÓN SIMPLE
14.1 INTRODUCCION.
Un análisis de correlación simple es una técnica estadística, que estudia la variación simultánea de dos
variables, el término de correlación se debe a Karl Pearson, y se usa para indicar aquellos casos en que los
cambios de una variable denominada dependiente, y simbolizada con la letra (Y), van asociados con cambios
de otra variable denominada independiente (X), existiendo una relación directa entre dichas variables. Si se
supone que las dos variables están correlacionadas, significa que existe una asociación entre ambas
variables, y si esta asociación se produce de tal forma que cuando aumenta una de ellas la otra también lo
hace, se dice que las variables están correlacionadas positivamente, si el aumento de una de las variables
coincide con una disminución de la otra, se dice que las dos variables están correlacionadas negativamente.
Finalmente, si no hay relación entre las dos variables, cuando el valor es igual a cero(esto es muy teórico,
en la práctica nunca se da), se dice que son independientes o que no están correlacionadas. Cuando se
estudia solamente dos características el trabajo se denomina correlación simple, de lo contrario, se trata de
una correlación múltiple.
14.2 PROPIEDADES DEL COEFICIENTE DE CORRELACION.
 El coeficiente de correlación es un valor que indica el grado de asociación entre dos variables, se
simboliza con la letra (r), puede ser positivo o negativo.
 La expresión numérica varía desde -1 pasando por cero hasta +1, de acuerdo a:
El valor numérico del coeficiente de correlación oscila entre (-1  r  1)
 Cuando r es igual a +1, indica una perfecta asociación positiva aumentando Y al aumentar X.
 Cuando r es igual a –1, indica una perfecta asociación negativa, aumentando Y al disminuir X o
viceversa, disminuyendo Y al aumentar X.
 Cuando r es igual a cero, indica que no hay asociación; es decir, que existe independencia entre las dos
variables.
133
14.3 FORMULAS DE CALCULO.
En el presente texto, se utiliza las llamadas fórmulas de computación, por considerar que son más prácticas,
directas y por considerar que su cálculo es más fácil y sencillo. La fórmula de cálculo es:
( X)( Y)
 XY - ------------------
n
r = -------------------------------------------------------------
( X)2 ( Y)2
( X2 - ------------) ( Y2 - --------------)
n n
EJEMPLO:
En el siguiente cuadro se presenta, las alturas en pulgadas de los padres (X) y las alturas de los hijos(Y), de
una muestra de 12 padres y sus hijos mayores.
X Y
Altura Altura
del Padre del hijo
(pulgadas) (pulgadas)
65 68
63 66
67 68
64 65
68 69
62 66
70 68
66 65
68 71
67 67
69 68
71 70
a. Hallar el coeficiente de correlación ( r ), e interprete,
( X)( Y)
 XY - ------------------
n
r = -------------------------------------------------------------
( X)2 ( Y)2
( X - ------------)( Y - --------------)
2 2
n n
134
(800)(811)
54107 - -------------------
12
r = -------------------------------------------------
(84.67) (38.92)
r = 0,702
INTERPRETACIÓN.- El valor de 0,702 indica que existe asociación o relación positiva entre la altura de los
padres y de los hijos, lo que indica que a medida que la altura de los padres aumenta, también aumenta la
altura de los hijos.
14.4 PRUEBAS DE SIGNIFICANCIA.
Una de las hipótesis más utilizadas en correlación es la que supone que el coeficiente de correlación es
igual a cero, esto es;
Ho   = 0
Se puede utilizar las distribuciones de F ó t.

Se sabe que;
Varianza de la regresión SC Regresión
F = ------------------------------------------- = ------------------------------
Varianza del Error SC Residual / (n – 2)
Al usar F puede expresarse en términos de r y n como :
r2 (SCY) r2 (n - 2)
F = -------------------------------------- = ---------------------
(1- r2 )SCY) 1 - r2
---------------------
(n – 2)
Pudiéndose, por consiguiente, usar F con 1 y n – 2 grados de libertad para probar esta hipótesis. Pero cuando
F tiene 1 y v grados de libertad, F = t2; por lo tanto;
r2 (n - 2)
F = -----------------------
1 - r2
135
Sigue la distribución t de “Student” con n – 2 grados de libertad, pudiéndose usar como una prueba análoga
a la de F. La prueba de significación de r es equivalente a la prueba para b. Si una es significativa, la otra
debe también serlo y viceversa.
En la práctica la prueba de significancia de r no tiene mucha importancia, basta solamente con la realizada
para b, y es más bien de mayor utilidad el coeficiente de determinación que es un buen indicador de la
bondad de ajuste.
Ej: Usando la distribución de t para el coeficiente de correlación calculado en el ejemplo de las alturas de los
padres y los hijos, se tiene que;
r2 (n - 2)
F = -----------------------
1 - r2
Como t2 = F, entonces;
r2 (n - 2)
tc = -----------------------
1 - r2
(0.702)2 (12 - 2)
tc = -----------------------
1 - (0.702)2
tc = 9,72 Si t2 = F; entonces. tc2 = 94,48
El valor de t tabulado, considerando 10 grados de libertad y 0,05 es igual a 1,812, por consiguiente como t-
calculado es mayor a t- tabulado, entonces se rechaza la hipótesis Ho   = 0, por lo que r es diferente de
cero, en este caso 0,702, y se llega a la conclusión de que ese valor estadísticamente es confiable.
136
1. En un muestreo de diferentes edades se tomaron datos de la edad (X) en años y el promedio (Y) de la
presión sanguínea (en mm de mercurio). Los valores obtenidos se ilustran en la siguiente tabla.
Pares 1 2 3 4 5 6 7 8 9 10
Edad(X) 19 25 30 42 46 52 57 62 70 73
Presión(Y) 122 125 126 129 130 135 138 142 145 146
a. Dibuje el diagrama de dispersión.

b. Determine el coeficiente de correlación, e interprételo.
R. b. r = 0,983; Existe una correlación altamente significativa y positiva entre edad y presión de sangre.
También se puede concluir que la muestra fue tomada de una población donde hay correlación positiva.
2. Para los datos siguientes:
X 0 1 3 5 6
Y -4 -2 1 6 8

b. Halle el coeficiente de correlación, e interprete su resultado.
3. De doce jugadoras de la selección de baloncesto de la Carrera de Comunicación de la UMSA, se tienen

registrados sus pesos (Y) y sus estaturas (X), en kilogramos y centímetros respectivamente:
Estatura (X) 155 161 168 170 173 175 159 165 170 172 174 176
Peso(Y) 44 60 72 77 68 70 60 62 65 70 69 71

b. halle r e interpretelo.
c. Determine la banda de confianza para r.
R. b. r=0.828; existe una correlación positiva entre la estatura y el peso de estas jugadoras, esto significa
que a media que aumenta su estatura, también aumenta su peso.
137
4. En el siguiente cuadro se presenta la edad en semanas y el peso medio en Kilogramos de un conjunto de

cerdos:
X Y
Edad Peso
(Semanas) (Kilogramos)
8 17.97
10 24.56
12 31.15
14 35.07
16 49.45
18 59.72
20 68.80
22 76.22
24 86.77
26 89.03
28 90.78
a. Hallar el coeficiente de correlación ( r ), e interpretar,
138
CAPITULO 15.
ANÁLISIS DE REGRESIÓN SIMPLE
15.1 INTRODUCCION.
En el anterior capítulo se estudió como calcular e interpretar el valor de correlación, pero en la práctica no
basta con saber si existe o no relación entre dos variables, si no que se hace necesario conocer en que
cantidad esas dos variables están relacionadas, en tales situaciones el análisis de regresión simple es otra
técnica estadística adecuada, el término de regresión fue dado por Galton para explicar fenómenos biológicos
debidos a la asociación de dos variables, en la cual a una variable(X) se le llama independiente, y a una
variable (Y) se le llama dependiente, lo que en matemáticas también se conoce como " Y es una función de
X"
El uso de la regresión es muy amplio en todas las ciencias, generalmente se usa la regresión para predecir
Y conociendo X, la regresión se mide por medio del coeficiente de regresión. Cuando se estudia solamente
dos características el trabajo se denomina regresión simple, de lo contrario, se trata de una regresión múltiple.
15.2 COEFICIENTE DE REGRESIÓN.
Es un valor que indica la cantidad en la que dos variables están asociadas, y la manera de interpretar resulta
más fácil, si se toma como parámetro base el siguiente enunciado:
" Por cada unidad de la variable independiente (X), se espera que exista un incremento promedio en la
variable dependiente (Y), en b unidades "
En el presente libro de texto se utiliza las llamadas fórmulas de computación, por considerar que son más
prácticas, directas y porque su cálculo es más fácil y sencillo.
139
La fórmula de cálculo es:
( X)( Y)
 XY - ------------------
n
b = ----------------------------------------
( X)2
2
( X - ----------------)
n
15.3 SUPOSICIONES NECESARIAS.
Para la validez estadística del análisis de regresión es necesario que se cumplan las siguientes
condiciones;
- La variable X, llamada variable independiente, de cuyos valores se harán predicciones, tiene valores
fijos y conocidos. En cambio, Y, llamada variable dependiente, es una variable aleatoria.
- Para cada valor fijo de X existe un conjunto de valores de Y que constituyen un arreglo que se
distribuye normalmente.
- Todos los arreglos de Y tienen varianza común.
La relación existente entre X e Y establece una dependencia lineal del tipo Y ó F(x).
15.4 LA ECUACION DE REGRESION LINEAL.
X Y
Altura Altura
del Padre del hijo
65 68
63 66
67 68
64 65
68 69
62 66
70 68
66 65
68 71
67 67
69 68
71 70
Para tener una idea previa de la relación de las dos variables se representa los dos pares de valores
dispuestos sobre un sistema de coordenadas rectangulares y debe observarse después la forma como se
disponen o agrupan.
140
Un gráfico que ofrece esta representación se llama diagrama de dispersión. En el caso del ejemplo de los
Padres e Hijos, el diagrama de dispersión es el siguiente:
Alturas (X) e (Y) de una muestra de 12 Padres y sus hijos

mayores.
72
70
Altura de hijos (pulgadas)
68
66
64
62
60
61 62 63 64 65 66 67 68 69 70 71 72
Altura de padres (pulgadas)
Como puede observarse la tendencia de este grupo de datos es lineal, por lo tanto el enfoque de la regresión
lineal en este caso es adecuado, si es que el diagrama de dispersión no fuese lineal, ya se debe utilizar otro
tipo de técnicas de regresión no lineal.
15.5 ECUACIÓN DE UNA RECTA.
Por Geometría Analítica se sabe que la ecuación de una recta es del tipo;
Y= a+bX
Donde X son los valores que adopta la variable independiente, por otra parte Y adopta los valores de la
variable dependiente, a es el punto donde la línea corta el eje de las Y recibe por esta razón el nombre de
intercepto, si la línea va a través del origen, entonces a = 0. Además del intercepto, la ecuación de una recta
establece el cambio de b unidades de Y por cada unidad de cambio en X, relación que se conoce con el
nombre de pendiente de la recta o valor de la tangente geométrica del ángulo que forma la recta trazada con
el eje X, y contado desde el eje de las X en sentido contrario a las agujas del reloj.
Cuando el valor de b es positivo, ambas variables X e Y aumentan o disminuyen juntas; cuando el valor es
negativo, al aumentar una variable disminuye la otra. También es conocido que para una línea recta, dos
puntos cualesquiera o la pendiente y el intercepto de Y, únicamente determinan la posición de la recta.
141
15.6 ECUACION DE REGRESION.
El objetivo central del análisis de regresión, es encontrar una recta que sea la que mejor se ajuste a los datos,
es decir, a y b deben determinados de tal manera que todos los puntos se encuentren tan cerca de la línea
como sea posible, esa línea se denomina línea de mejor ajuste.
Una vez determinada esta línea servirá para determinar para cada valor de X un cierto valor de Y, con la
ecuación;
Ye = a + b X
Donde a y b son conocidos, y reemplazando un determinado valor de X, se obtiene un valor para Ye.
Si el valor encontrado se encuentra dentro del rango de los datos que se están estudiando, el proceso se
llama interpolación, caso contrario se llama extrapolación, y solo es válido cuando el coeficiente de
correlación es alto (mayor a 0,9).
Una forma de lograr la línea de mejor ajuste es hallar una línea para la cuál la suma de los errores
(desviaciones) para todos los valores dados de X sea lo más pequeña posible, pero por una propiedad
matemática este cálculo da cero, razón por la cuál se usa el método de los mínimos cuadrados, que define
la línea de la siguiente forma;
 2


  Y  Ye   Mínimo 

 
La ecuación de mejor ajuste presentada, en función del intercepto y del coeficiente de regresión, puede
expresarse en función de las medias de Y y de X, en la cuál si a es reemplazada por su valor,
algebraicamente se tendría que;
--- ---
Ye = Y + b (X - X)
También se puede realizar el cálculo del coeficiente de correlación, tomando como variable independiente
(X), y como variable dependiente (Ye), con el fin de poder comparar los valores observados con los valores
teóricos (residuales), este procedimiento es la base para realizar el ajuste de modelos lineales y no lineales.
142
EJEMPLO:
X Y
Altura Altura
del Padre del hijo
65 68
63 66
67 68
64 65
68 69
62 66
70 68
66 65
68 71
67 67
69 68
71 70
a. Hallar el coeficiente de regresión ( b ), e interpretar,
( X)( Y)
 XY - ------------------
n
b = -------------------------------------------------------------
( X)2
( X2 - ----------------)
n
Pruebe usted, y verá que el resultado sale:
b = 0.476
INTERPRETACIÓN: El coeficiente de regresión indica la cantidad en la que ambas variables están

correlacionadas, interpretándose así, Por cada pulgada que aumenta la altura de los Padres se espera que
en promedio la altura de los Hijos aumente en 0.476 pulgadas.
15.7 PRUEBAS DE SIGNIFICANCIA.
Una de las hipótesis más utilizadas en regresión es la que supone que el coeficiente de regresión es igual
a cero, esto es;
143
Ho   = 0
Dicho de otro modo, es plantear que todos los arreglos de Y tienen la misma media, o que X no tiene efecto
alguno sobre la variable Y. En el ejemplo planteado, la hipótesis nula a plantearse sería que, la altura de los
padres (X) no tiene efecto alguno sobre la altura de los hijos (Y).
Se puede utilizar las distribuciones de F ó t (ya que t2 = F, para GL = n – 2).
b - o
tc = --------------------------
S2 y..x
----------------
SCX
Donde;
tc = Valor de t calculado.
b = Coeficiente de regresión.
o = Toma el valor de cero.
S2 y..x = Varianza residual.
SCX = Suma de Cuadrados de X.
15.8 LAS ECUACIONES NORMALES Y SU SOLUCION.
Las ecuaciones normales son:
X´X  = XÝ
La solución única a las ecuaciones normales, si ésta existe, es:
 = (X´X)-1 XÝ
La multiplicación X´X genera una matriz de orden pxp, donde el primer elemento (¡;!) es el número de
observaciones, luego los elementos que siguen en la diagonal son la suma de cuadrados de cada una de
las variables independientes y los elementos fuera de la diagonal son las sumas de productos entre las
variables independientes.
144
La forma general de X´X es:

n x1 x2 ... x3
x1 x12 x1 x2 ... x1x2
X´X = . . . ... .
. . . ... .
. . . ... .
xp xi2x1 xp x2 ... xp2
Si sólo una variable independiente está envuelta, X´X consiste sólo en la matriz 2x2 de la parte superior
izquierda. Este es el caso de la regresión lineal simple.
n x1
X´X = x1 x12
Los elementos de la matriz producto XÝ son las sumas de los productos de las variables independientes y
las variables dependientes:
y
x1 y
XÝ = x2 y
.
.
.
xpy
El primer elemento, y, es la suma de las observaciones que describen la variable dependiente; los demás
elementos son la suma de productos entre la variable dependiente y la independiente. La solución única
de las ecuaciones normales existe sólo si la inversa X´X existe. Esto a su vez, requiere que la matriz X sea
de rango completo y no singular, es decir que el determinante no sea cero; en otras palabras, no pueden
haber dependencias lineales entre las variables lineales entre las variables independientes.
EJ: Los datos (Quiroz,1986) describen la variable dependiente (Y) como el logaritmo natural de la
concentración de lignina Klason en la pared celular de alfalfa, mientras que la variable independiente (X) el
tiempo de tratamiento de la pared celular de alfalfa con Na OH 2 N.
Concentración de lignina(Y) 1.86 1.61 1.10 1.10 0.92 1.74 0.47 0.26
Tiempo de tratamiento (X) 0 3 6 9 12 18 24 30
En términos matriciales:
Xo X1 Y
1 0 1.86
1 3 1.61
1 6 1.10
X= 1 9 Y= 1.10
1 12 0.92
1 18 0.74
1 24 0.47
1 30 0.26
145
Xo siempre es representada por un vector fila, en este caso con valores constantes uno.
Los productos de X´X y de XÝ son;

n x1
X´X = x1 x12
X´X = Es la multiplicación de X’ (matriz transpuesta), por la matriz X;

1 0
1 3
1 6
1 1 1 1 1 1 1 1 1 9
X’ = 0 3 6 9 12 18 24 30 X = 1 12
1 18
1 24
1 30
Aqui se multiplica un matriz de (2x8) por (8x2), por consiguiente el producto equivale a una matriz de (2x2).
n =(1*1) +(1*1)+(1*1)+(1*1)+(1*1)+(1*1)+(1*1)+(1*1) = 8
x1 = (1*0)+(1*3)+(1*6)+(1*9)+(1*12)+(1*18)+(1*24)+(1*30) = 102
x1 = (0*1)+(3*1)+(6*1)+(9*1)+(12*1)+(18*1)+(24*1)+(30*1) = 102
x12 = (0*0)+(3*3)+(6*6)+(9*9)+(12*12)+(18*18)+(24*24)+(30*30) = 2070
Llegándose a obtener;
8 102
X´X = 102 2070
De igual manera, se encuentra los valores de XÝ, que es equivalente a la multiplicación de X’ (matriz
transpuesta), por la matriz Y.
1,86
1,61
1,10
1 1 1 1 1 1 1 1 1,10
X’ = 0 3 6 9 12 18 24 30 X = 0,92
0,74
0,47
0,26
y = (1*1.86)+(1*1.61)+(1*1.10)+(1*1.10)+(1*0.92)+(1*0.74)+(1*0.47+(1*.26) = 8,06
x12 = (0*1.86)+(3*1.61)+(6*1.10)+(9*1.10)+(12*0.92)+(18*0.74)+(24*0.47)+(30*0.26) = 64,77
y
XÝ = x1 y
8.06
XÝ = 64.77
De acuerdo a;
146
 = (X´X)-1 XÝ
Una vez determinada la matriz de cofactores, se encuentra su matriz adjunta, se realiza el cambio de signo
por el método del ajedrez y se divide cada valor entre el determinante, siendo la inversa de X´X, igual a:
0,3363 -0,0166
X´X-1 = -0,0166 0,0013
La solución se obtiene multiplicando la inversa de X´X por XÝ. La solución al problema es:
 = (X´X)-1 XÝ
0,3363 -0,0166 8,06

= -0,0166 0,0013 64,77
En este caso como se multiplica una matriz de (2x2) por (2x1), el resultado es una matriz de (2x1), donde
el resultado de la primera fila representa al intercepto (o), y el resultado de la segunda fila representa a
(1), que es el coeficiente de regresión.
o = 1,6370
1 = -0,0494
En la representación matricial de los datos, X 1 representa la variable X, ya que en este ejemplo se trabajó
con una sola variable independiente, si se estuviese procesando una regresión múltiple, simplemente se va
aumentando a la matriz X, todas las variables que pudieran existir (Xo, X 1 , X2... ...Xn ), la variable Y siempre
será una, a continuación se deben seguir los mismos pasos hasta obtener la multiplicación de (X´X) -1 XÝ
, con lo que se puede realizar el cálculo y la determinación de un Análisis de Regresión Múltiple.
15.9 CONSIDERACIONES FINALES ACERCA DEL ANALISIS DE REGRESION.
El objetivo del presente libro de texto ha sido cumplido, ya que se ha proporcionado una base sólida para
que el estudiante conceptualice, plantee y resuelva un determinado problema que se le presente mediante
el Análisis de Regresión.
Se hace necesario mencionar que, también se acostumbra realizar Análisis de Varianza de la Regresión,
técnica que usualmente se estudia en cursos mas avanzados, de todas maneras, si se desea realizar el
Análisis de Varianza, se sugiere hacerlo usando la técnica de ajuste de modelos, es decir, comparando
cuán bien diferentes modelos explican la relación entre variables, esto es, comparando los
residuales(errores ó desviaciones) de varios modelos, es decir, dados pares de valores X e Y se pueden
proponer dos modelos y examinar los residuales en términos de las varianzas para comparar la bondad de
ajuste de cada uno de ellos.
147
Si la variabilidad en Y no está relacionada con cambios en X1, entonces la tangente de la línea recta
verdadera que ajusta a las observaciones de X1 e y debiera ser cero. La pregunta a formularse y responder
será si los residuales de la línea ajustada son sustancialmente más pequeños que los residuales obtenidos
por ajustar un modelo más simple.
1. En un muestreo de diferentes edades se tomaron datos de la edad (X) en años y el promedio (Y) de la
presión sanguínea (en mm de mercurio).
Los valores obtenidos se ilustran en la siguiente tabla.
Pares 1 2 3 4 5 6 7 8 9 10
Edad(X) 19 25 30 42 46 52 57 62 70 73
Presión(Y) 122 125 126 129 130 135 138 142 145 146

b.Determine el coeficiente de regresión por el método de matrices, e interprételo.
c. Halle la ecuación de la línea de regresión.
R. b. El coeficiente de regresión(b) = 0.4563; representa el incremento promedio de la presión en mm de

Hg por cada año de edad.
c. Y = 112.08 + 0.4563 X
2. Para los datos siguientes:
X 0 1 3 5 6
Y -4 -2 1 6 8
b. Halle el coeficiente de regresión, e interprete su resultado.
3. De doce jugadoras de la selección de baloncesto de la Carrera de Comunicación de la UMSA, se tienen

registrados sus pesos (Y) y sus estaturas (X), en kilogramos y centímetros respectivamente:
Estatura (X) 155 161 168 170 173 175 159 165 170 172 174 176
Peso(Y) 44 60 72 77 68 70 60 62 65 70 69 71

b. halle b e interpretelo.
c. Determine la banda de confianza para b.
d. Estime Y para X = 166.
148
R. b. El coeficiente de regresión es 1.042, significa que por cada cm que aumenta la estatura de las
jugadoras, se espera que el peso aumente en promedio en 1.042 kilogramos.
d. 63.5 kilogramos.
4. Un horticultor muestreó 10 bulbos de cebolla y determinó diámetro(mm) y peso(gr).
Bulbo 1 2 3 4 5 6 7 8 9 10
Diámetro(X) 51 66 69 70 57 67 58 54 63 60
Peso(Y) 63 115 147 133 81 126 80 79 113 96
a. Calcular el coeficiente de regresión, e interprete su resultado.

b. Dibujar el diagrama y las líneas de regresión.
5. En un estudio sobre el contenido de lisina y de otras proteínas en el endospermo de maíz, en

colaboración con el CIMMYT, se encontraron los siguientes datos.
% proteínas 10.6 10.9 10.5 8.8 7.6 8.6 9.6 9.8 9.6
% lisina 1.5 1.6 1.9 1.7 2.1 1.7 2.3 2.3 2.2
a. Calcular el coeficiente de regresión, e interprete su resultado.

b. Dibujar el diagrama y las líneas de regresión.
149
LITERATURA CONSULTADA
ARTEAGA G, Y. 2004. Bioestadística. Texto de Apoyo a la materia de Bioestadística. Libro, Editorial

AGAETRA. La Paz - Bolivia, 145 p.
ARTEAGA G, Y. 2001. Bioestadística. Texto de Apoyo- Curso PETAE., Universidad Mayor de San
Andrés. Facultad de Agronomía. La Paz - Bolivia, 85 p.
BARRALES V, L. 1999. Métodos de Investigación I. Apuntes de Clase. Pontificia Universidad Católica

de Chile. Facultad de Agronomía. Santiago – Chile. 285 p.
BARRALES V, L. 1998. Métodos de Investigación II. Apuntes de Clase. Pontificia Universidad Católica
de Chile. Facultad de Agronomía. Santiago – Chile. 252 p.
CABALLERO A, W. 1975. Introducción a la Estadística. Editorial IICA. San José, Costa Rica. 289 p.
CALZADA B, J. 1970. Métodos estadísticos para la Investigación. Editorial Jurídica S.A. Lima - Perú. 611
p.
CALZADA B, J. 1983. Estadística General con énfasis en Muestreo. Editorial Jurídica S.A. Lima - Perú.
527 p.
LEON, C.; QUIROZ, R.; 1994. Análisis de Sistemas Agropecuarios. Uso de Métodos bio-
Matemáticos.CIRNMA (Centro de Investigación de Recursos Naturales y Medio Ambiente. La Paz
– Bolivia. 240 p.
MONTGOMERY D, C. 1991. Diseño y Análisis de Experimentos. Grupo Editorial Iberoamérica. S. A. de

C. V.,México, D. F. 585 p.
SANCHEZ C, J. 1980. Curso Intensivo de Muestreo en Poblaciones finitas Artes Gráficas, Madrid-
España. 240 p.
SPIEGEL, M. R Teoria y Problemas de Estadística. Serie Schaum Ed. Mgraw-Hill. 357 p.
SPIEGEL, M. R Probabilidad y Estadística. Serie Schaum Ed. Mgraw-Hill. 372 p.
YAMANE, T. 1973. Estadística. Editorial Harla, S. A. de C. V., México 559 p.
150
ANEXOS
151
TABLA No 1
Areas bajo la curva normal
Valor de " z ".

G.L. 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,10 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,20 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
0,30 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
0,40 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
0,50 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
0,60 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
0,70 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
0,80 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,90 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
1,00 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
1,10 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
1,20 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
2,20 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
2,30 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Fuente: Arteaga G. Y. 2001. Bioestadística. Universidad Mayor de San Andrés. Facultad de Agronomía La Paz - Bolivia. 78 p.
152
TABLA No 2
Areas bajo la Curva

Valor de " t "
G.L. 0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,598
3 0,765 0,980 1,250 1,638 2,353 3,182 4,541 5,841 12,941
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,859
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959

7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,405
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437

12 0,695 0,873 1,083 1,356 1,782 2,179 2,685 3,055 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015

17 0,689 0,863 1,069 1,333 1,740 2,110 2,561 2,898 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819

22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,767
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,397 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707

27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551

60 0,679 0,848 1,046 1,296 1,671 2,000 2,390 2,660 3,460
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373
inf. 0,674 0,820 1,036 1,282 1,645 1,960 2,326 2,576 3,291
153
TABLA No 3
Areas bajo la Curva
Valor de "Chi Cuadrado"
GL 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005
1 0,000980 0,0030 0,0158 0,102 0,455 1,323 2,71 3,84 5,02 6,63 7,88
2 0,0506 0,1030 0,2110 0,575 1,386 2,770 4,61 5,99 7,38 9,21 10,60
3 0,216 0,352 0,584 1,213 2,370 4,110 6,25 7,81 9,35 11,34 12,84
4 0,484 0,711 1,064 1,923 3,360 5,390 7,78 9,49 11,14 13,28 14,86
5 0,831 1,145 1,610 2,670 4,350 6,630 9,24 11,07 12,83 15,09 16,75
6 1,237 1,635 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 2,180 2,170 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,30
8 2,280 2,730 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,10 22,00
9 2,700 3,330 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,70 23,60
10 3,250 3,940 4,87 6,74 9,34 12,55 15,99 18,31 20,50 23,20 25,20
11 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,9 24,7 26,8
12 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,00 23,3 26,2 28,3
13 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,40 24,7 27,7 29,8
14 5,63 6,57 7,79 10,17 13,34 17,12 22,10 23,70 26,1 29,1 31,3
15 6,26 7,26 8,55 11,04 14,34 18,25 22,30 25,00 27,5 30,6 32,8
16 6,91 7,96 9,31 11,91 15,34 19,37 23,5 26,3 28,8 32,0 34,3
17 7,56 8,67 10,09 12,79 16,34 20,50 24,8 27,6 30,2 33,4 35,7
18 8,23 9,39 10,86 13,68 17,34 21,60 26,0 28,9 31,5 34,8 37,2
19 8,91 10,12 11,65 14,56 18,34 22,70 27,2 30,1 32,9 36,2 38,6
20 9,59 10,85 12,44 15,45 19,34 23,80 28,4 31,4 34,2 37,6 40,0
21 10,28 11,59 13,24 16,34 20,3 24,9 29,6 32,7 35,5 38,9 41,4
22 10,98 12,34 14,04 17,24 21,3 26,0 30,8 33,9 36,8 40,3 42,8
23 11,69 13,09 14,85 18,14 22,3 27,1 32,0 35,2 38,1 41,6 44,2
24 12,40 13,85 15,66 19,04 23,3 28,2 33,2 36,4 39,4 43,0 45,6
25 13,12 14,61 16,47 19,94 24,3 29,3 34,4 37,7 40,6 44,3 46,9
26 13,84 15,38 17,29 20,8 25,3 30,4 35,6 38,9 41,9 45,6 48,3
27 14,57 16,15 18,11 21,7 26,3 31,5 36,7 40,1 43,2 47,0 49,6
28 15,31 16,93 18,94 22,7 27,3 32,6 37,9 41,3 44,5 48,3 51,0
29 16,05 17,71 19,77 23,6 28,3 33,7 39,1 42,6 45,7 49,6 52,3
30 16,79 18,49 20,60 24,5 29,3 34,8 40,3 43,8 47,0 50,9 53,7
40 24,4 26,5 29,1 33,7 39,3 45,6 51,8 55,8 59,3 63,7 66,8
50 32,4 34,8 37,7 42,9 49,3 56,3 63,2 67,5 71,4 76,2 79,5
60 40,5 43,2 46,5 52,3 59,3 67,0 74,4 79,1 83,3 88,4 92,0
70 48,8 51,7 55,3 61,7 69,3 77,6 85,5 90,1 95,0 100,4 104,2
80 57,2 60,4 64,3 71,1 79,3 88,1 96,6 101,9 106,6 112,3 116,3
90 65,5 69,1 73,3 80,6 89,3 98,6 107,6 113,1 118,1 124,1 128,3
100 74,2 77,9 82,4 90,1 99,3 109,1 118,5 124,3 129,6 135,8 140,2
z -1,96 -1,64 -1,28 -0,67 0,00 0,67 1,28 1,65 1,96 2,33 2,58
154
TABLA No 4
Areas bajo la curva Valor "F"
nivel 1 2 3 4 5 6 7 8 9 10 14 20 30
1 0.05 161 200 216 225 230 234 237 239 241 242 245 248 250
0.01 4052 4999 5403 5625 5746 5859 5928 5981 6022 6056 6142 6208 6258
2 0.05 18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,38 19,39 19,42 19,44 19,46
0.01 98,49 99,01 99,17 99,25 99,30 99,33 99,34 99,36 99,88 99,40 99,43 99,45 99,47
3 0.05 10,13 9,55 9,28 9,12 9,01 8,94 8,88 8,84 8,81 8,78 8,71 8,66 8,62
0.01 34,12 60,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 26,92 26,69 25,50
4 0.05 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,87 5,80 5,74
0.01 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,65 14,54 14,24 14,02 13,83
5 0.05 6,61 5,79 5,41 5,19 5,05 4,95 4,88 8,42 4,78 4,74 4,64 4,56 4,50
0.01 16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,27 10,15 10,05 9,77 9,55 9,38
6 0.05 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,96 3,87 3,81
0.01 13,74 10,92 9,78 8,15 8,75 8,47 8,26 8,10 7,99 7,87 7,60 7,39 7,23
7 0.05 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,63 3,52 3,44 3,38
0.01 12,25 9,55 8,45 7,85 7,46 7,19 7,00 6,84 6,71 6,62 6,35 6,15 5,98
8 0.05 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,34 3,23 3,15 3,08
0.01 11,26 8,65 7,59 7,01 6,83 6,37 6,19 6,03 5,91 5,82 5,56 5,36 5,20
9 0.05 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,13 3,02 2,93 2,86
0.01 10,56 8,02 6,99 6,42 6,06 5,80 5,62 5,47 5,35 5,26 5,00 4,80 4,64
10 0.05 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,97 2,86 2,77 2,70
0.01 10,01 7,56 6,55 5,99 5,64 5,39 5,21 5,06 4,95 4,85 4,60 4,41 4,25
11 0.05 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,86 2,74 2,65 2,57
0.01 9,65 7,20 6,22 5,87 5,32 5,07 4,88 4,74 4,63 4,54 4,29 4,10 3,94
12 0.05 4,75 3,88 3,49 3,26 3,11 3,00 2,92 2,85 2,80 2,76 2,64 2,54 2,46
0.01 9,33 6,93 5,95 5,41 5,06 4,82 4,65 4,50 4,39 4,30 4,08 3,86 3,70
13 0.05 4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,72 2,67 2,55 2,46 2,38
0.01 9,07 6,70 5,74 5,20 4,86 4,62 4,44 4,30 4,19 4,10 3,85 3,67 3,51
14 0.05 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,65 2,60 2,48 2,39 2,31
0.01 8,86 6,51 5,56 5,03 4,69 4,46 4,28 4,14 4,03 3,94 3,70 3,51 3,34
15 0.05 4,50 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2,59 2,55 2,43 2,33 2,25
0.01 8,68 4,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,56 3,36 3,20
16 0.05 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,37 2,28 2,20
0.01 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,63 3,45 3,25 3,10
17 0.05 4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,50 2,45 2,33 2,23 2,15
0.01 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,63 3,59 3,35 3,16 3,00
18 0.05 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,29 2,19 2,11
0.01 8,28 6,01 5,09 4,58 4,25 4,01 3,85 3,71 3,60 3,51 3,27 3,07 2,91
19 0.05 4,18 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,43 2,38 2,26 2,15 2,07
0.01 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,19 3,00 2,84
20 0.05 4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,40 2,35 2,23 2,12 2,04
0.01 8,10 5,85 4,04 4,43 4,10 3,87 3,71 3,56 3,45 3,37 3,13 2,94 2,77
21 0.05 4,32 3,47 3,07 2,87 2,68 2,57 2,49 2,42 2,37 2,32 2,20 2,09 2,00
0.01 8,01 5,78 4,87 4,37 4,64 3,81 3,65 3,51 3,40 3,31 3,07 2,88 2,72
22 0.05 4,30 3,44 3,05 2,82 2,66 2,55 2,47 2,40 2,35 2,30 2,18 2,07 1,98
0.01 7,94 5,72 4,82 4,32 3,99 3,76 3,59 3,45 3,35 3,26 23,02 2,83 2,67
155
23 0.05 4,28 3,42 3,03 2,80 2,64 2,53 2,45 2,38 2,32 2,28 2,14 2,04 1,96
0.01 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,80 3,81 2,97 2,78 2,62
24 0.05 4,26 3,40 3,01 2,78 2,62 2,51 2,43 2,36 2,30 2,26 2,13 2,02 1,94
0.01 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,25 3,17 2,93 2,74 2,53
25 0.05 4,24 3,38 2,99 2,76 2,60 2,49 2,41 2,34 2,28 2,24 2,11 2,00 1,92
0.01 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 3,21 3,13 2,89 2,70 2,54
26 0.05 4,22 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,10 1,99 1,90
0.01 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,17 3,09 2,86 2,66 2,50
27 0.05 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,30 2,25 2,20 2,08 1,97 1,88
0.01 7,68 5,49 4,60 4,11 3,79 3,56 3,39 3,26 3,14 3,06 2,83 2,63 2,47
28 0.05 4,20 3,34 2,95 2,71 2,56 2,44 2,36 2,29 2,24 2,19 2,05 1,96 1,87
0.01 7,64 5,45 4,57 4,07 3,76 3,53 3,36 3,23 3,11 3,03 2,80 2,60 2,44
29 0.05 4,18 3,33 2,93 2,70 2,54 2,43 2,35 2,28 2,22 2,18 2,05 1,94 1,85
0.01 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,08 3,00 2,79 2,57 2,41
30 0.05 4,17 3,32 2,92 2,69 2,53 2,42 2,34 2,27 2,21 2,16 2,04 1,93 1,84
0.01 7,56 5,89 4,51 4,02 3,70 3,47 3,30 3,17 3,06 2,98 2,74 2,55 2,38
infinito 0.05 3,84 2,99 2,60 2,37 2,21 2,09 2,01 1,94 1,88 1,83 1,69 1,57 1,45
0.01 6,64 4,60 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,24 2,07 1,87
156

Biosapecho2018 1

Cargado por

Copyright:

Formatos disponibles

Biosapecho2018 1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Biosapecho2018 1

Cargado por

Copyright:

Formatos disponibles

1

Ph.D. José Yákov Arteaga García

El segundo componente presenta la inferencia estadística, el análisis de varianza, así como el

Sapecho, 04 de Julio de 2018

Indudablemente, que la vida es más placentera cuando te dedicas a

Capítulo 1. Definiciones Generales................................................................................................7

1.1 Introducción.- 1.2 Problema estadístico.- 1.3 Estadística y Bioestadística 1.4

Capítulo 2. Distribución de frecuencias........................................................................................13

2.1 Introducción. Frecuencia absoluta. Frecuencia relativa. Frecuencia acumulativa. –

Capítulo 3. Medidas de tendencia central......................................................................................23

Capítulo 4. Medidas de dispersión................................................................................................34

4.1 Introducción. – Rango. 4.2 Varianza. Datos agrupados. datos no-agrupados.

5.1 Introducción. – 5.2 Probabilidad condicional. – sucesos mutuamente excluyentes y

Capítulo 6. Distribuciones discretas..............................................................................................53

6.1 Introducción. – 6.2 Distribución binomial. – supuestos. La distribución de

Capítulo 7. Distribución normal.....................................................................................................63

7.1 Introducción. – 7.2 Características. – 7.3 Función de densidad de probabilidad

8.1 Introducción. Tipos de estimación. – 8.2 Estimación puntual. Bondad de un

Capítulo 9. Intervalos de confianza y pruebas de hipótesis......................................................83

9.1 Introducción. – 9.2 Intervalos de confianza. – 9.3 Pruebas de hipótesis. - 9.4

Capítulo 10. Distribución de “ t ” student.....................................................................................101

10.1 Introducción. – 10.2 Características. – 10.3 Propiedades. Utilidad práctica. Pruebas

Capítulo 11. Distribución chi cuadrado......................................................................................108

11.1 Introducción. – 11.2 Propiedades de la distribución Ji cuadrado. Teoremas. 11.3

Capítulo 12. Distribución de “ F ”.................................................................................................119

12.1 Introducción. – 12.2 Propiedades de F. – 12.3 Manejo de la tabla. Cola izquierda.

Capítulo 13. Análisis de Varianza. ...............................................................................................125

Capítulo 14. Análisis de correlación simple...............................................................................133

Capítulo 15. Análisis de regresión simple.................................................................................139

15.1 Introducción. – 15.2 Coeficiente de regresión. – 15.3 Suposiciones necesarias. –

1.2 PROBLEMA ESTADÍSTICO.

2. El diseño del experimento o procedimiento de muestreo. Esta parte concierne al problema

Aquí se contesta a la pregunta. ¿ Qué tan buena es la inferencia ?.

1.3 ESTADISTICA Y BIOESTADISTICA

1.4 BIOESTADISTICA INFERENCIAL Y DESCRIPTIVA.

1.5 POBLACIÓN ó UNIVERSO.

 Insesgados(el promedio de estimadores igual al parámetro).

1.6 MUESTRA AL AZAR Ó ALEATORIA.

Figura 1. Función de la estadística en el método científico.

Población  Muestra  Observaciones  Formulación de

N = Número de individuos que integran la población (tamaño)

1.7 TAMAÑO DE MUESTRA.

- Uso de las tablas de números aleatorios:

Las variables en forma general se dividen en:

 Variables cualitativas.- Son aquellas que no pueden expresarse numéricamente, y expresan la

2.2 REGLAS PARA ELABORAR LIMITES DE CLASES.

Al número de observaciones o de individuos iguales o semejantes de cada clase se le llama frecuencia

a. En la Estación Experimental Patacamaya, se ha registrado la producción de leche de 30 vacas criollas

3,6 3,8 6,3 5,7 5,9 7,3

a. Elabore una tabla de distribución de frecuencias.

El primer paso, es ordenar ya sea en forma ascendente o descendente, ordenando se obtiene:

Luego se determina el TIC(Tamaño de intervalo de clase).

De acuerdo a la tabla el valor de k para n=30, redondeando es 6

Una vez determinado el TIC, se elabora la tabla de distribución de frecuencias.

2.3 ELABORACIÓN DE LA TABLA DE DISTRIBUCION DE FRECUENCIAS:

Realizados todos los cálculos se obtiene la tabla 1.

Tabla 1. Producción de leche (lt/dia), de 30 vacas criollas de la Estación Experimental

N Lim. clase Frec. Lim. real clase Pto. Medio