Binder 1
Binder 1
Variables aleatorias
Ejemplo
Ejemplo:
Definición 2.
Definición 3.
Ejemplo:
de probabilidad de y grafíquela.
Definición 4.
Ejemplo:
( ) {
Definición 5.
Definición 6.
Ejemplo:
Ejemplo:
( ) {
Encuentre ( ) y grafique ( ) y ( )
Ejemplo:
Ejercicios:
1.- Determine el valor de de modo que cada uno de las siguientes funciones
sirva como distribución de probabilidad de una variable aleatoria discreta
a. ( ) ( ), para
b. ( ) ( )( ), para
( ) {
2
Probabilidad y Estadística 10 de Octubre del 2014
( ) {
4.- Un hotel hace una compra al azar de tres televisores, a una tienda que tiene
7 de estos aparatos de los cuales 2 están defectuosos.
5.- La duración de un transistor hasta que falla (en cientos de horas) es una
variable aleatoria Y con una función de distribución dada por:
( ) {
a. Encuentre f(y)
b. Calcule la probabilidad de que el transmisor funcione por lo menos 200
horas.
2) Una gasolinera funciona con dos bombas, cada una de las cuales
bombea 10 000 galones de gasolina al mes. El total de gasolina que
se despacha en un mes es una variable aleatoria Y (medida cada 10
000 galones) con una función de densidad de probabilidad dada
por
3
Probabilidad y Estadística 10 de Octubre del 2014
( ) {
( ) {
a. Trace la gráfica de ( )
b. Encuentre ( ) y grafíquela
c. Calcule la probabilidad de que en cierto mes se despachen
entre 8000 y 12000 galones.
d. Si en un mes particular la gasolinera bombea más de 10000
galones, calcule la probabilidad de que ésta despache más
de 15000 galones durante un mes.
4
Valor Esperado de una variable aleatoria
Definición 1.
Ejemplo 2. Sea la variable aleatoria que denota la vida en horas de cierto dispositivo
electrónico. La función de densidad de probabilidad es
( ) {
Teorema 1.
Ejemplo 3. Suponga que el número de automóviles que pasa por un local de lavado de
autos entre las 4:00 P.M. y las 5:00 P.M. de cualquier viernes soleado tiene la siguiente
distribución de probabilidad:
4 5 6 7 8 9
( )
( ) {
Definición 2.
Totales por
( )
0 1 2 renglón
0 3/28 9/28 3/28 15/28
1 3/14 3/14 0 3/7
2 1/28 0 0 1/28
1
Totales por columna 5/14 15/28 3/28 1
( )
( ) {
Definición 3.
1 2 3
( ) 0.3 0.4 0.3
0 1 2 3 4
( ) 0.2 0.1 0.3 0.3 0.1
0 1 2 3
( ) 0.51 0.38 0.10 0.01
Use el Teorema 2 y Calcule .
Ejemplo 9. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua que tiene la siguiente
densidad de probabilidad
( )
( ) {
2
Calcule la media y la varianza de .
Teorema 3.
Teorema 4.
Ejemplo 10. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua ( ) , donde
tiene la siguiente función de densidad
( )
( ) {
Ejemplo 11. El gerente de una compañía petrolera planea adquirir una nueva máquina del
tipo A o B. Si denota el número de horas de funcionamiento diario, el número de
reparaciones diarias que se tienen que hacer a una máquina del tipo A es una variable
aleatoria con una media y una varianza iguales a . La cantidad de reparaciones diarias
que requiere una máquina del tipo B constituye una variable aleatoria con una media y
una varianza iguales a . El costo diario de operación de la máquina tipo A es de
( ) , y para la de tipo B es de ( ) . Suponga que las
reparaciones toman un mínimo de tiempo, y que cada noche las máquinas se alternan de tal
manera que funcionen como nuevas al comienzo del siguiente día. ¿Cuál de ellas reduce al
mínimo el costo diario esperado si un día laboral consta de a) 10 horas y b) 20 horas?
Ejercicios.
2 3 4 5 6
( ) 0.01 0.25 0.4 0.3 0.04
Encuentre la varianza de .
2. El periodo de tiempo, en minutos, que un aeroplano espera vía libre para aterrizar en
un cierto aeropuerto es una variable aleatoria ( ) , donde X tiene la
función de densidad
( ) {
3
3. Si Y es una variable aleatoria cuya ( ) aparece en la tabla adjunta, encuentre
( ) ( ) ( ) y ( ).
1 2 3 4
( ) 0.4 0.3 0.2 0.1
( ) ( )( )
{
( ) ( )
{
( ) {
Encuentre ( ) y ( ).
8. La radiación solar total diaria que incide en una zona específica en el mes de
octubre tiene una función de densidad de probabilidad dada por
( ) ( )( )( )
{
4
9. El pH de unas muestras de agua de cierto lago es una variable aleatoria Y cuya
función de densidad de probabilidad está dada por
( ) ( )( )
{
Encuentre ( ) y ( ).
0 1 2 3
( )
( ) ( )
0 1 2
0
( ) 1
Encuentre la covarianza de y .
5
17Myers. Técnicas de conteo
1. A los participantes en una convención se les ofrecen 6 recorridos por día para visitar
lugares de interés durante los 3 días de duración del evento. ¿En cuántas formas
puede una persona acomodarse para hacer algunos de ellos?
2. En un estudio médico, los pacientes se clasifican en 8 formas diferentes de acuerdo
con su tipo de sangre, u , y su presión sanguínea
(baja, normal o alta). Encuentre el número de formas posibles para clasificar a un
paciente.
3. Si un experimento consiste en lanzar un dado y después seleccionar aleatoriamente
una letra del alfabeto en inglés, ¿Cuántos puntos habrá en el espacio muestral?
4. Los estudiantes de un colegio privado de humanidades se clasifican como
estudiantes de primer año, de segundo, de penúltimo o de último, y también de
acuerdo con su sexo: hombres o mujeres. Encuentre el número total de
clasificaciones posibles para los estudiantes de este colegio.
5. Un determinado zapato se fabrica en 5 estilos diferentes y en 4 colores distintos para
cada uno. Si la zapatería desea mostrar clientela pares de zapatos en todos los estilos
y colores, ¿Cuántos pares diferentes deberán colocar en el aparador?
6. Un estudiante de primer año debe tomar un curso de ciencia, uno de humanidades y
otro de matemáticas. Si puede escoger entre cualquiera de 6 cursos de ciencia, 4 de
humanidades y 4 de matemáticas, ¿en cuántas formas puede acomodar su horario?
7. Un urbanista de una nueva subdivisión ofrece a los clientes prospectos para la
compra de una casa, la posibilidad de seleccionar cualquiera de 4 diseños diferentes,
3 sistemas de calefacción, cochera con puertas o sin ellas, y patio o pórtico.
¿Cuántos planes distintos están disponibles para el comprador?
8. Puede comprarse un medicamento para la cura del asma ya sea líquido, en tabletas o
en capsulas, a 5 diferentes fabricantes, y todas las presentaciones en concentración
regular o alta. ¿en cuántas formas diferentes puede un medico recetar la medicina a
un paciente que sufre de este padecimiento?
10.
a. ¿Cuántas permutaciones diferentes pueden hacerse con las letras de la
palabra columna?
b. ¿Cuántas de estas permutaciones empiezan con la letra m?
11. En cuantas formas pueden sentarse en una línea 4 niños y 5 niñas, si deben
colocarse alternadamente?
1
12. En un curso regional de deletreo, los 8 finalistas son 3 niños y 5 niñas. Encuentre el
número de puntos muestrales en el espacio S para el numero de ordenes posibles al
final del evento para:
a. Los 8 finalistas;
b. Las primeras 3 posiciones.
13. ¿En cuántas formas puede llenarse las 5 posiciones iniciales de un equipo de
baloncesto con 8 jugadores que pueden ocupar cualquiera de ellas?
14. Encuentre el número de formas en las cuales pueden asignarse 6 profesores a las 4
secciones de un curso introductorio de psicología, si ninguno cubre más de una
selección.
15. Se sacan 3 boletos de la lotería, de un grupo de 40, para el primero, segundo y tercer
premios. Encuentre el número de puntos muestrales en S para otorgarlos si cada
concursantes conserva solo un boleto.
16. ¿En cuántas formas pueden plantarse en círculo 5 árboles diferentes?
17. ¿En cuántas formas pueden acomodarse en un círculo los 8 vagones cubiertos de
una caravana proveniente de Arizona?
18. ¿En cuántas formas pueden plantarse, a lo largo de la línea divisoria de una
propiedad, 3 robles, 4 pinos y 2 arces, si no se distingue entre los arboles de la
misma clase?
19. Un colegio participa en 12 partidos de futbol en una temporada. ¿De cuantas
maneras puede el equipo terminar la temporada con 7 victorias, 3 derrotas y 2
empates?
20. ¿Cuántas formas hay de seleccionar a 3 candidatos de un total de 8 recién graduados
y con las mismas capacidades para ocupar vacantes en una firma contable?
21. En un estudio que realizaron en California, el decano Lester Breslow y el doctor
James Enstrom de la School Of Public Health de la University Of California en Los
Angeles, se concluyó que al seguir 7 sencillas reglas de salud, la vida de un hombre
puede alargarse, en promedio, 11 años y la de las mujeres, siete. Estas 7 reglas son:
no fumar, hacer ejercicio regularmente, tomar alcohol solo en forma moderada,
dormir siete u ocho horas, conservar un peso apropiado, desayunar y no comer entre
alimentos. ¿En cuántas formas puede una persona adoptar 5 de estas reglas:
a. Si actualmente las viola todas?
b. Si nunca toma bebidas alcohólicas y siempre desayuna?
Probabilidad de un evento 20
Ejemplo 1.22 Una moneda se lanza dos veces al aire. ¿Cuál es la probabilidad de que caiga
cuando menos una vez en cara?
Ejemplo 1.23 Se carga un dado de tal manera que un número par tiene el doble de
posibilidades de presentarse que un nom. Si E es el evento en el que se da un número
menor que 4 en un solo lanzamiento, encuentre P(E).
2
Ejemplo 1.24 En el ejemplo 1.23 sea A el evento de que el dado caiga en un número par y
B el evento de que resulte uno divisible entre 3. Encuentre ( ) y ( ).
Ejemplo 1.25 Una mezcla de dulces contiene 6 mentas, 4 chiclosos y 3 chocolates. Si una
persona realiza una selección al azar de uno de ellos, encuéntrese la probabilidad de
obtener: a) una menta, o b) un chicloso o un chocolate.
Ejemplo 1.29 Si las probabilidades de que una persona, al comprar un nuevo automóvil,
seleccione el color verde, blanco, rojo o azul, son, respectivamente, 0.09, 0.15, 0.21 y 0.23
¿Cuál es la probabilidad de un comprador dado adquiera un automóvil en uno de esos
colores?
Pag.26 Ejercicios.
3
4- Si A,B y C son eventos mutuamente excluyentes y P(A)= 0.2, P(B)=0.3 y
P(C)=O.2, encuentre:
a) ( )
b) [ ( )]
c) ( )
6.17- ¿De cuantas maneras se pueden ordenar en fila 5 canicas de distintos colores?
6.18- ¿De cuantas maneras pueden sentarse 10 personas en una banca si solo 4 asientos
están disponibles?
6.20- Se necesita sentar a 5 hombres y 4 mujeres en fila, de tal manera que las mujeres
ocupen los lugares pares. ¿Cuántas formas hay de hacerlo?
6.21- ¿Cuántos números de cuatro dígitos se forman con los 10 digitos 0,1,2,3,…,9, si :
a) se permite repeticiones,
b) no se permiten repeticiones,
6.23- Cinco canicas rojas, dos blancas y tres azules se ordenan en una fila. Si no es posible
distinguir entre sí a las canicas del mismo color, ¿Cuántas posibles ordenaciones hay?
6.24-¿De cuantas maneras se pueden sentar 7 personas en torno a una mesa redonda si a)
pueden sentarse en cualquier parte y b) 2 personas no deben sentarse juntas?
Combinaciones 143
6.25- ¿De cuantas formas pueden dividirse 10 objetos en dos grupos que contengan 4 y 6
objetos, respectivamente?
6.27- ¿De cuantas maneras puede formarse una comisión de 5 personas, elegidas de entre
9?
4
matemáticos y físicos puede incluirse, b) un físico en particular debe estar en la comisión y
c) dos matemáticos en particular no pueden estar en la comisión?
6.29. Una niña tiene 5 flores, cada una de distinta variedad. ¿Cuántos ramos diferentes
puede formar?
6.32 Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Si se extraen tres bolas al azar,
determine la probabilidad de que a) las 3 sean rojas, b) las 3 sean blancas, c) sean rojas y 1
blanca, d) al menos 1 sea blanca e) sea 1 de cada color y f) se extraigan en el orden roja,
blanca y azul.
6.33 se extraen cinco cartas de una baraja de 52 naipes bien mezclada. Calcule la
probabilidad de que a) 4 sean ases, b) 4 sean ases y 1 sea un rey, c) 3 sean diez y 2 sean
jacks, d) que sean 9, 10, Jack, reina y rey, obtenidos en cualquier orden, e) 3 sean de un
mismo palo y 2 sean de otro, y f) se obtenga al menos un as.
6.35 Una fábrica encuentra que, en promedio, 20% de las tuercas producidas por cierta
máquina son defectuosas. Si se seleccionan aleatoriamente 10 tuercas en la producción
diaria de la máquina, calcule la probabilidad de a) que exactamente 2 sean defectuosas, b)
que 2 o más sean defectuosas y c) que más de 5 sean defectuosas.
6.1 Determine la probabilidad P, o un estimado de ésta, para cada uno de los siguientes
eventos:
a.
5
b.
c.
d. ( )
e. ( )
f. ( )
6.3 Se extrae al azar una bola de una caja que contiene 6 bolas rojas, 4 bolas blancas y 5
bolas azules. Determine la probabilidad de que la bola extraída sea a) roja, b) blanca, c)
azul, d) no roja y e) roja o blanca.
6.4 Un dado se lanza dos veces. Calcule la probabilidad de obtener 4,5 o 6 en el primer
lanzamiento y un 1, 2, 3 o 4 en el segundo.
6.5 Se extraen dos cartas de una baraja de 52 naipes bien mezclada. Calcule la probabilidad
de que ambas sean ases, si la primera carta a) se regresa a la baraja y b) no se regresa.
a. Si ( ) ( ) ( ) y ( ) ( ), encuentre las
probabilidades de y
b. Si ( ) ( ) encuentre las probabilidades de los eventos simples
restantes si usted sabe que tienen la misma probabilidad
2.11 Los estadounidenses pueden ser muy suspicaces, sobre todo cuando se trata de
conspiraciones contra el gobierno. En relación con la pregunta de si la fuerza aérea de
6
Estados Unidos posee suficiente evidencia de la existencia de vida inteligente en otros
planetas, las proporciones de estadounidenses con distinta opinión aparecen en la siguiente
tabla.
Opinión Proporción
Muy probable 0.24
Poco probable 0.24
No probable 0.40
Otra 0.12
Suponga que se elige a un estadounidense y se registra su opinión.
2.13 Una próspera empresa petrolera extrae gas o petróleo en 10% de sus perforaciones. Si
la empresa perfora dos pozos, los cuatro eventos simples posibles y tres de sus
probabilidades asociadas figuran en la tabla que aparece a continuación
7
b. Defecto en los elevadores o en los cojinetes?
c. Exactamente una de las dos clases de defectos?
d. Ninguno de los dos defectos?
2.17 Una oficina de negocios ordena papel a uno de sus tres proveedores V1, V2, o V3.
Se atenderá una orden por día, en dos días sucesivos. Así (V2,V3) podría representar el
hecho de que el proveedor V2 recibe la orden el primer día y el proveedor V3 recibe la
orden el segundo día.
a. Elabore una lista de los puntos muestrales del experimento que implica ordenar
papel dos días sucesivos
b. Suponga que los proveedores se eligen al azar cada día y asigne una probabilidad a
cada punto muestral
c. Imagine que A representa el evento de que el mismo proveedor recibe las dos
órdenes y B el evento que indica que el proveedor V2 recibe por lo menos una
orden. Encuentre P(A), P (B), ( )y ( ) sumando las probabilidades de
los puntos muestrales de estos eventos.
34
Ejemplo 2.3 Una moneda perfecta se lanza tres veces. Calcule la probabilidad de obtener
cara en dos de los tres lanzamientos.
Ejemplo 2.4 Cuando A juega tenis contra B, las probabilidades de que gane A son de dos a
una. Suponga que A y B juegan dos partidos. ¿Cuál es la probabilidad de que A gane por lo
menos un partido?
38
2.20 Cuatro personas con las mismas habilidades solicitan dos puestos iguales en una
empresa. Solo un candidato pertenece a un grupo minoritario. Los puestos se ocupan
eligiendo al azar dos de los candidatos.
8
a. Elabore una lista de los posibles resultados de este experimento
b. Asigne probabilidades razonables a los puntos muestrales
c. Encuentre la probabilidad de que le candidato que pertenece a un grupo minoritario
sea elegido para un puesto
2.21 En un juicio penal se necesitan dos personas para un jurado. Hay seis candidatos para
integrarlo, 2 mujeres y 4 hombres. Se eligen al azar dos miembros de los 6 disponibles.
9
Apuntes de Estadı́stica para LCEA
10 de enero de 2011
2
.
Índice general
Introducción 5
1. Introducción a la Estadı́stica 6
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Definición de estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. ¿Para que estudiamos estadı́stica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminologı́a estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notación de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estadı́stica descriptiva 23
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organización de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtención de los intervalos y lı́mites de clases . . . . . . . . . 26
2.4. Presentación gráfica de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 ÍNDICE GENERAL
3. Muestreo 64
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de números aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimación basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Bibliografı́a 149
Introducción
Introducción a la Estadı́stica
1.1. Introducción
Para la gente común y corriente la estadı́stica significa números. En el periódico de la
mañana se pueden encontrar las estadı́sticas más recientes sobre los delitos de la ciu-
dad: número de asesinatos, robos de automóviles, asaltos y demás delitos que hayan
sido denunciados en determinado periodo de tiempo; o las más recientes estadı́sticas
acerca de la mano de obra en el paı́s: por ejemplo, el número de desempleados; o
las últimas estadı́sticas sobre el número de nacimientos y muertes que han ocurrido
durante cierto periódo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estadı́stica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos técnicos. Para estas personas, la estadı́stica tiene relación con aquellos
conceptos y técnicas que se emplean en la recopilación, organización, resumen, análi-
sis, interpretación y comunicación de información numérica.
Generalmente se diseña una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.
El capı́tulo incluye una introducción del término Estadı́stica y presenta los conceptos
más básicos relativos a poblaciones y muestras.
razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos más datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operación reduce el costo. Otra
razón para realizar el muestreo es el hecho de que la información pierde su
valor en poco tiempo. Para que ésta sea útil, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el único medio posible de lograr lo
anterior. Algunas veces, el exámen de los artı́culos, causa destrucción. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedarı́a ninguno
para vender. Esas y otras razones para el muestreo, se considerarán con mayor
detalle en capı́tulos posteriores.
En la vida cotidiana hay muchos ejemplos de como la estadı́stica está presente. Las
aplicaciones estadı́sticas se presentan en muchos campos incluyendo la ingenierı́a,
ciencias fı́sicas, negocios, ciencias biológicas y de salud, ciencias sociales y educación,
comercio, quı́mica, comunicación, economı́a, ciencias polı́ticas, psicologı́a, etc. A con-
tinuación se describen algunas aplicaciones.
a) Se diseñan encuestas con el fin de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).
b) Se realizan entrevistas con los consumidores para obtener mas información acerca
de los productos que prefieren.
d) Los Economistas observan los ı́ndices para saber que tan saludable es la economı́a
durante un periodo y utilizan la información para predecir como se compar-
tirá en el futuro.
g) En Negocios se usa para predecir volúmenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.
Nota 1. Los elementos que forman una población pueden ser personas, empresas,
12 Introducción a la Estadı́stica
I Un médico puede mostrar interés por los pacientes que muestren determinada
serie de sı́ntomas.
Ejemplo 1.4.2. Entre los datos numéricos que son nominales (datos cuan-
titativos) se incluyen los números de las camisetas deportivas, los números
de código de las zonas postales, los números telefónicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el género,
la raza, el tipo de sangre y la religión. Ver ejemplo 1.4.1.
Si sólo se van a sumar algunos de los valores, se utilizan subı́ndices para indicar dichos
valores de este modo:
5
X
xi
i=1
16 Introducción a la Estadı́stica
n
X n
X
xi significa que hay que sumar n observaciones. A menudo xi se abrevia con
i=1 X X i=1
los sı́mbolos xi o x.
2
X 4
X 11
X X
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule xi , xi , xi y xi
i=1 i=1 i=7
i 1 2 3 4 5 6 7 8 9 10 11
xi 8 2 3 6 7 8 9 4 5 4 1
Solución:
X2
xi = x1 + x2 = 8 + 2 = 10,
i=1
4
X
xi = x2 + x3 + x4 = 2 + 3 + 6 = 11,
i=1
11
X
xi = x7 + x8 + x9 + x10 + x11 = 9 + 4 + 5 + 4 + 1 = 23,
X
i=7
xi = x1 + x2 + . . . + x11 = 8 + 2 + . . . + 1 = 57.
Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar después de que los valores se hayan sumado
X X
cx = c x
Ası́,
4
X 4
X
2xi = 2x1 + 2x2 + 2x3 + 2x4 = 2(x1 + x2 + x3 + x4 ) = 2 xi
i=1 i=1
Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notación de suma con sigma 17
Por ejemplo,
6
X
5i = 5 + 5 + 5 + 5 + 5 + 5 = 30
i=1
n
X n
X n
X
(xi − yi ) = xi − yi
i=1 i=1 i=1
.
Ejemplo 1.5.3. Se tienen dos conjuntos de números, tales como salarios por hora para
diversos empleados y el número de horas que cada uno trabajó.
i fi xi x2i fi xi fi x2i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27
P P P P P
fi = 19 xi = 14 x2i = 42 fi xi = 52 fi x2i = 152
P
y( fi xi )2 = 2704
1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
5
X
a) xi
i=1
5
X
b) xi yi
i=1
6
X
c) (xi − yi )2
i=1
n
X xi
d) para n = 8.
i=1
n
X X
2. Calcule las siguientes cantidades según los datos que se indican. xi , fi ,
X X
f i xi y fi x2i .
i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26
El paı́s C en Europa.
17 gramos.
25 segundos.
3 canastas.
22 Introducción a la Estadı́stica
Más lento.
Talla de camisas.
El más encantador.
Estatura de un hombre.
Estadı́stica descriptiva
2.1. Introducción
Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al número de faltas a clases durante el periodo de otoño de 2010 para
26 Estadı́stica descriptiva
9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7
Solución:
Definición 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribución de frecuencia. Una aproximación razonable para calcular el número
de clases nos la da la regla de Sturges
Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.
Definición 2.3.7. Lı́mite normal de clase: Las clases o intervalos de clase están
limitados por sus valores extremos que se denominan lı́mite inferior y lı́mite superior.
Sus sı́mbolos son: L.N.I. y L.N.S.
28 Estadı́stica descriptiva
LN I + LN S
x̂ = , (2.4)
2
donde x̂ : marca de clase y LN I y LN S : lı́mites normales.
3. Forme los intervalos de clase iniciando por el lı́mite inferior del rango o por el
dato menor. El lı́mite inferior de la clase siguiente será el valor consecutivo al
máximo de la clase anterior y ası́ sucesivamente,
12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11
Solución:
1.- Ordenar del número menor al número mayor para saber la frecuencia de cada
número,
=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el número y amplitud de clases
=⇒ n0 = 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el número de clases es n0 = 6.
Vmax − Vmin 26 − 9
Ahora C = = = 2.83, ası́ la amplitud del intervalo de clase es
n0 6
C = 3.
3.-
Clase LN I − LN S LRI − LRS F Fa Fr Fra X̂
1 9 − 11 8.5 − 11.5 6 6 24 % 24 % 10
2 12 − 14 11.5 − 14.5 6 12 24 % 48 % 13
3 15 − 17 14.5 − 17.5 3 15 12 % 60 % 16
4 18 − 20 17.5 − 20.5 4 19 16 % 76 % 19
5 21 − 23 20.5 − 23.5 4 23 16 % 92 % 22
6 24 − 26 23.5 − 26.5 2 25 8% 100 % 25
25
donde
F 6
Fr = × 100 =⇒ para la primera clase Fr = × 100 = 24 % y ası́ sucesivamente
N 25
para las demás.
Fa 6
Fra = × 100 =⇒ para la primera clase Fra = × 100 = 24 %, para la segunda
N 25
12
Fra = × 100 = 48 % y ası́ sucesivamente.
25
30 Estadı́stica descriptiva
LN I + LN S 9 + 11
x̂ = =⇒ para la primera marca x̂ = = 10, para la segunda
2 2
12 + 14
x̂ = = 13 y ası́ en sucesivamente. Continuando con todos los cálculos se
2
obtiene la tabla 2.1.
1
F Los datos son de unidad ⇒ = 0.5 (lo que se resta y suma a los lı́mites normales
2
para obtener los lı́mites reales).
Ejemplo 2.3.6. Elabore una distribución de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.
32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32
Solución:
45 − 18
n0 = 1 + 3.3 log 70 = 7.08 =⇒ n0 = 8. Ahora C = = 3.375 =⇒ C = 4.
8
(Completa la tabla 2.2.)
2.3 Distribuciones de frecuencias 31
Ejercicios
1. Los datos siguientes representan el número de clientes que visitan una tienda en
un periodo de 22 dı́as. Construya la distribución de frecuencias para los datos
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39
20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44
3. Los datos siguientes representan los dı́as de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribución de frecuencia.
151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156
57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88
Gráfico estadı́stico
Un gráfico es útil para dar una rápida idea de la situación general que se esta ana-
lizando, permite determinar por simple examen, el máximo y mı́nimo de las varia-
ciones de un fenómeno.
Gráficas circulares
(Fra )(360)
100
3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.
Ejemplo 2.4.1. La tabla 2.3 muestra el área de los cinco Grandes Lagos bajo jurisdic-
ción de E.U. Grafique los datos:
34 Estadı́stica descriptiva
Tabla 2.3: Áreas de los cinco Grandes Lagos bajo la jurisdicción de E.U.
Se hace corresponder el área total, 60178 millas cuadradas a los 360◦ del cı́rculo. Ası́,
360◦
una milla cuadrada corresponde a . Se deduce que el lago Superior, con 20557
60178 µ ¶
360◦
millas cuadradas ocupa un arco de 20557 = 123◦ y del mismo modo se
60178
deducen los arcos de los otros lagos. Las lı́neas divisorias se pueden trazar usando un
transportador.
Histograma
4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representarán en el
histograma con barras altas y los intervalos de clases con frecuencias pequeñas
con barras cortas.
5. Las barras de dibujan adyacentes entre sı́. Esto tiene por objeto dar a entender
gráficamente la naturaleza continua de los datos que se están considerando.
Polı́gono de frecuencias
Aunque de menor uso, los polı́gonos de frecuencia son otro medio de representar
gráficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un polı́gono de frecuencias marcamos éstas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rectángulos
del histograma.
Ojivas
Dos caracterı́sticas importantes de los datos que las medidas pueden poner de mani-
fiesto son: 1) el valor central o tı́pico del conjunto y 2) la dispersión de los números.
La media aritmética
21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7
En la última carrera, en la que él ocupó el 85◦ lugar, fue todo el tiempo tratando
de ganar la carrera. Corrió en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las últimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
terminó a lo más en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quizá la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.
La mediana
La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribución de datos que tiene la caracterı́stica
de dividirla en dos partes iguales. La identificaremos con el sı́mbolo Me .
Cuando se trata de datos no ordenados no es necesario utilizar formulas, únicamente
tenemos que ordenar los datos de menor a mayor, el concepto de término medio es
correcto si el número de datos ordenados es impar, si el número de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su definición.
Ejemplo 2.5.4. En cada uno de los siguientes la mediana está dada por el número
subrayado.
3 5 7 9 10
1 2 5 8 9 10
5+8
aquı́ Me = 2
= 6.5.
Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al final de la distribución. La desventaja del uso de la mediana reside en que no
es fácilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden numérico de menor a mayor o al contrario.
2.6 Medidas de dispersión 39
Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
ası́:
N +1
a) Si N es impar, la mediana es la medida que está en el lugar ,
2
La moda
Es el dato que aparece mas veces en una distribución de frecuencia. Es fácil deter-
minarla por simple inspección, para una distribución de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribución de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.
Ejemplo 2.5.5.
3 5 8 3 7 4 3 2
Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio
se le llama dispersión o variación de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribución de datos, es necesario
acompañarla de un indicador que de cuenta del grado de dispersión con que se dis-
tribuyen los datos de la variable. Una medida de dispersión dice cuanto se desvı́an los
datos respecto a las tendencias centrales. Las medidas de dispersión mas importantes
son: el rango, la desviación media, la varianza, la desviación estándar y los
porcentajes.
40 Estadı́stica descriptiva
Rango
Desviación media
Mide la desviación promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviación. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o −) de la desviación, hallando después el promedio.
Al calcular la desviación media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre será (por definición) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviación
absoluta media se calcula con la fórmula siguiente
P
| xi − x̄ |
D.M. = (2.6)
N
Varianza
Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el número de valores menos 1. La varianza
muestral se puede calcular mediante la fórmula
P
2 (xi − x̄)2
S = (2.7)
N −1
2.6 Medidas de dispersión 41
Tabla 2.4:
Solución:
Al usar la fórmula 2.8 se obtiene que S 2 = 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observación 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S 2 = 167.32 centavos cuadrados tiene muy poco significado por sı́ mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas están muy dispersas, mientras que si el valor es pequeño hay muy poca
variabilidad en las medidas.
42 Estadı́stica descriptiva
Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dólares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.
Tabla 2.5:
¿Para cuál alimento, el asado de cerdo o el queso cheddar, son menos variables y más
estables los precios?
Solución:
Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galón diario
por cinco dı́as para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
Solución:
Desviación estándar
Coeficiente de variación
S 0.6831
Ejemplo 2.6.4. En caso de que C.V. = = = 0.0595. El bajo valor del
x̄ 11.48
coeficiente de variación indica que los valores están muy concentrados y que la media
representa aceptablemente al conjunto de la distribución.
S 9.06
Ejemplo 2.6.5. En caso de que C.V. = = = 0.6. Lo que implica que la media
x̄ 15
no representa en modo alguno al conjunto de la distribución.
Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CP U
de 25 tareas, la varianza es 1.42, luego su desviación estandar es 1.19, y el coeficiente
1.19
de variación = 0.73. Por tanto, la desviación estándar es algo más del 70 % de
1.63
la media. Esto indica que los datos no están muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
La media aritmética
Ejemplo 2.7.1. Los datos siguientes representan el número de discos vendidos cada
dı́a durante un periodo de 25 dı́as en una tienda de música localizada en un centro
2.7 Medidas de tendencia central y de dispersión para datos agrupados 45
comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada
Tabla 2.6:
Encuentre:
Solución:
b) Encontramos primero las marcas de clase x̂. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
46 Estadı́stica descriptiva
Clase F x̂ x̂F
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320
Tabla 2.7:
1061
Usando la fórmula (2.11), la media aproximada es x̄a = = 42.44.
25
Note que x̄a = 42.44 es sólo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximación se considera buena comparada con el valor
exacto x̄ = 42.40 obtenido en la parte a).
Mediana
Solución:
N 37
Como N = 37, queremos localizar el = = 18.5−ésimo valor. Al observar la
2 2
tabla 2.8 notamos que tal valor cae en la clase 16 − 20, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hipótesis de que los 10 valores
que caen en esta clase están distribuidos homogéneamente a lo largo de ella; en otras
8.5
palabras, estamos buscando la medida en la clase 16 − 20 localizada en los de la
10
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
8.5
la mediana Me sólo necesitamos sumar del ancho C = 5 a la frontera inferior de
10
la cuarta clase. Ası́ el valor aproximado de la mediana es:
µ ¶
8.5
Me = 15.5 + 5 = 15.5 + 4.25 = 19.75
10
Moda
La fórmula es µ ¶
∆1
Mo = LRI + C (2.13)
∆1 + ∆2
donde ∆1 exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal), ∆2 exceso de F después de la clase modal (Frecuencia
modal menos la frecuencia después de la frecuencia modal).
F La clase modal es el intervalo de clase que contiene al mayor número de observa-
ciones.
Desviación media
Tabla 2.8:
48 Estadı́stica descriptiva
La varianza
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N − 1
P
2 | x̂ − x̄ |2 F
S = (2.15)
N −1
Desviación estándar
2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en dólares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de exámenes.
57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84
2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:
1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10
27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1
El rango.
52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67
11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
b) 5, 7, 22, 17, 5, 7, 20
c) 8, 6, 0, 17, 12, 7, 5
12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) −1, 0, 0, 0, −1, 2, −2, 3
38 39 33 37 34 31 38 36 35 5
¿Cuál medida de tendencia central es más útil para describir el valor cen-
tral?¿Cuál es su valor numérico?.
16. En una investigación realizada por la secretaria de un médico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un dı́a arrojó los resultados:
35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
56 Estadı́stica descriptiva
a) ¿Cuál es la moda?
b) ¿Cuál es la media?
c) ¿Cuál es la mediana?
a) ¿Cuál es la moda?
c) ¿Cuál es el rango?
20. La tabla adjunta indica los salarios anuales, en dólares, para una muestra de 25
trabajadores.
21. Una gran lecherı́a vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviación estándar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registró el porcentaje de grasa en cada uno. Los resultados
se anotan a continuación.
Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26
Autoevaluación
Nombre:
1. Define Estadı́stica.
6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estadı́stica descriptiva b) La estadı́stica inferencial c) El muestreo
8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.
9. Son las medidas que estudian la distribución de los valores de la serie, analizando
si estos se encuentran más o menos concentrados, o más o menos dispersos.
a) Las MTC b) Las MD c) Las variables.
12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el número de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tamaño de la muestra.
a) La varianza b) La desviación media c) La desviación estándar
13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16
16. La generación de energı́a resulta costosa para el gobierno federal. Con el fin de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la población para que economicen energı́a apagando
los focos que no estén utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos está el uso del horario
de verano. Para contar con una idea más clara sobre el consumo de energı́a en
los hogares, se requiere de la información correspondiente. Para obtenerla, se
pidió a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su último
62 Estadı́stica descriptiva
299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324
Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8
245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140
b) Trazar un histograma de Fr .
20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9
Muestreo
3.1. Introducción
En multitud de ámbitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estadı́stica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
población. Sin embargo, como en la vida real, en Estadı́stica también debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qué pasarı́a si
basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
población puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras más fiables deberı́an ser nuestras inferencias.
Ahora bien, el principal objetivo de la estadı́stica es hacer inferencias acerca de una
población con base en la información contenida en una parte o muestra de ello. El ob-
jetivo principal de un diseño de muestreo es proporcionar indicaciones para la selección
de una muestra que sea representativa de la población bajo estudio, proporcionando
ası́ una cantidad especificada de información a un costo mı́nimo.
Los términos usados frecuentemente en inferencia son:
3.1 Introducción 65
Se podrı́a pensar que la única forma de garantizar que un conjunto de datos represente
a la población es a través del censo pues se registra a cada elemento de la población.
Entonces ¿porqué llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.
Ejemplo 3.2.1. Un gerente bancario no tomará una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contarı́a
3.2 Muestra y censo 67
Desventajas
Es muy costoso.
Los resultados finales se tienen a largo plazo. Por esta razón la información
estadı́stica ya no es oportuna para la toma de desiciones adecuada.
No se puede conocer la dimensión del error que se comete en los registros de los
datos.
tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
serı́a necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagación de la enfermedad. Ası́, el estudio
puede indicar que localmente se dispone de suficiente vacuna para hacer frente
a la enfermedad pero, para ese momento, ésta se encontrará fuera de control y
requerirá dosis masivas de la vacuna.
Desventajas
Para que las conclusiones de la teorı́a del muestreo sean válidas es necesario que las
muestras sean representativas y que se satisfaga:
1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la población. Se observa que un elemento en común
puede ser seleccionado mas de una vez para la muestra y es posible que un sólo
elemento contribuya a la muestra.
2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una población
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.
Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administración
adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente
sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar más por bienes y servicios.
Una de las mejores maneras de medir la situación de una compañı́a de ventas al
menudeo, en lo que se refiere a efectivo, es a través de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situación de una tienda, una firma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo
por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinará cuáles son las
cuentas que serán incluidas en la muestra de tamaño n = 15.
Solución:
Se puede pensar que las N = 1000 cuentas por cobrar están numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 números de tres dı́gitos, donde 001
representa la primera cuenta, 999 la cuenta número 999 y 000 la cuenta número mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer número de la quinta columna y se eliminan el últimos dı́gito de cada número
de cuatro, se verá que el primer número de tres dı́gitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un número aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro número aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 números de tres dı́gitos
no repetidos de la columna 5, se obtienen los siguientes números:
Si las cuentas por cobrar están numeradas, simplemente se escogen aquellas cuyos
números corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no están numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los números
obtenidos anteriormente.
¿Qué se puede hacer si N = 964? Está claro que se pueden asociar los números de
tres dı́gitos 001, 002, . . . , 964 con los elementos de la población. Los números de tres
dı́gitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n números de tres dı́gitos de la tabla de números al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma “aleatoria”. Ambos procedimientos están sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo
Estimador n
X yi
µ̂ = ȳ = (3.1)
i=1
n
Varianza estimada del estimador
µ 2¶µ ¶ n
X
2 s N −n (yi − ȳ)2
σ̂ȳ = con s2 = (3.2)
n N i=1
n−1
Nótese que la cantidad 2σ̂ȳ es una cota aproximada del error de estimación y sólo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo
Estimador
τ̂ = N ȳ (3.4)
Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tamaño n = 15 de la población de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10
a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimación.
b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el
error de estimación.
3.4 Estimación basada en una muestra aleatoria simple 77
Solución:
Para facilitar los cálculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3
yi yi2
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.41
15
X 15
X
yi = 283.30 yi2 = 6570.85
i=1 i=1
15
X
yi
i=1 283.30
ȳ = = = $18.89
15 15
78 Muestreo
Dado que la varianza estimada de τ̂ es σ̂τ̂2 = N 2 σ̂ȳ2 , una estimación del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimación,
corresponde a
√
τ̂ ± 2σ̂τ̂ = N ȳ ± 2N σ̂ȳ = $18, 890 ± 2(1, 000) 5.72
= $18, 890 ± $4, 783
Estimador
y
p̂ =
n
Varianza estimada del estimador
µ ¶µ ¶
2 p̂ q̂ N −n
σ̂p̂ = con q̂ = 1 − p̂
n−1 N
Cotas para el error de estimación
p̂ ± 2σ̂p̂
En este caso y es el número total de los elementos de la muestra que tienen determi-
nada caracterı́stica por la cual se tiene interés.
Solución:
Una estimación de la proporción p de los clientes de la empresa que aceptaron la
oferta de descuento es
y 15
p̂ = = = 0.30
n 50
80 Muestreo
Para establecer cota para el error de estimación, es necesario calcular la varianza σ̂p̂2
µ ¶µ ¶ · ¸µ ¶
2 p̂ q̂ N −n (0.30)(0.70) 430 − 50
σ̂p̂ = =
n−1 N 49 430
µ ¶
0.21
= (0.88) = 0.003771
49
Una estimación de p, con una cota para el error de estimación, corresponde a
√
p̂ ± 2σ̂p̂ = 0.30 ± 2 0.003771 ≈ 0.30 ± 0.12
Ejercicios
Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimación.
muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho
entre estratos, es preferible utilizar una afijación óptima que particione la muestra de
acuerdo con el costo, la variabilidad y el tamaño de los estratos.
El primer paso en la selección de una muestra aleatoria estratificada consiste en la
especificación clara y detallada de cada estrato, asociando a cada elemento de la
población con uno y sólo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opinión, en la que la población se divide en urbana y rural, ¿cómo deben
clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energı́a, ¿cómo debe clasificarse la residencia de un contador
cuya oficina está en su propia casa?. La resolución que se tome no afecta los resul-
tados siempre y cuando se tenga una polı́tica consistente al respecto. Por ejemplo,
podrı́a establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de más de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasificarse según la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especificados los estratos, se puede usar el método de la sección 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tamaño total de la muestra n
dependerá del presupuesto disponible para el muestreo y de la presición y exactitud
que se requieran del estimador. Usando afijación proporcional, el tamaño de muestra
n se particiona en un tamaño de muestra para cada uno de los L estratos de forma que
n = n1 + n2 + · · · + nL , con cada ni dado por la fórmula que aparece a continuación.
µ ¶
Ni
ni = n i = 1, 2, . . . , L
N
donde Ni es el número de elementos del estrato i y
L
X
N= Ni
i=1
84 Muestreo
es el tamaño de la población.
De la información obtenida de los elementos muestrales, se puede calcular la media
estimada ȳi y la varianza s2i para las observaciones de cada estrato, usando las fórmulas
que aparecen a continación.
ni
X
yij
j=1
ȳi =
ni
ni
X
(yij − ȳi )2
j=1
s2i = i = 1, 2, . . . , L
ni − 1
donde yij es la j-ésima observación del estrato i.
La varianza s2i es un estimador de la correspondiente varianza del estrato σi2 .
Estimador
L
1 X
ȳest = Ni ȳi
N i=1
Varianza estimada del estimador
L µ ¶µ 2¶
1 X 2 Ni − ni si
σ̂ȳ2est = 2 Ni
N i=1 Ni ni
Cotas para el error de estimación
ȳest ± 2σ̂ȳest
3.5 Muestreo aleatorio estratificado 85
Solución:
Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-
da, con L = 3 estratos, parece ser el diseño mas apropiado en este caso. Se espera
que en cada uno de los estratos, los hábitos de consumo e inversión de los empleados
sean razonablemente homogéneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el último mes.
La compañı́a manufacturera emplea un total de 5000 personas, de las cuales 3500 son
oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigación tiene suficiente tiempo y dinero para entrevistar únicamente
n = 50 empleados. Usando una afijación proporcional, se particiona la muestra como
sigue:
µ ¶ µ ¶
N1 3500
n1 = n = 50 = 35
N 5000
µ ¶ µ ¶ µ ¶ µ ¶
N2 1000 N3 500
n2 = n = 50 = 10 y n3 = n = 50 =5
N 5000 N 5000
El marco muestral está constituido por una lista alfabética de los empleados de ca-
da categorı́a, disponible en la oficina de nóminas. Empezando arbitrariamente en
86 Muestreo
Tabla 3.4:
A partir de los datos de la tabla 3.4 se estima la inversión promedio en ahorros ȳest
como
L
1 X 1
ȳest = Ni ȳi = [(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
N i=1 5000
1
= (71, 960) = $14.39
5000
Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
3.5 Muestreo aleatorio estratificado 87
La varianza estimada es
3 µ ¶µ 2¶
2 1 X 2 Ni − n i si
σ̂ȳest = 2 Ni
N i=1 Ni ni
· ¸
1 (3500)2 (0.99)(16.81) (1000)2 (0.99)(22.09) (500)2 (0.99)(125.44)
= + +
(5000)2 35 10 5
= 0.5688
La estimación de los ahorros promedio, con una cota para el error de estimación,
está dada por
√
ȳest ± 2σ̂ȳest = $14.39 ± 2 0.5688 = $14.39 ± 2(0.75) = $14.39 ± $1.50
Estimador
τ̂ = N ȳest
σ̂τ̂2 = N 2 σ̂ȳ2est
τ̂ ± 2σ̂τ̂
La estimación del total de ahorros, con una cota para el error de estimación, está dada
por
p
τ̂ ± 2σ̂τ̂ = $71, 950 ± 2 14, 220, 000 = $71, 950 ± 2(3, 771)
= $71, 950 ± $7, 542
Po lo tanto, hay una certeza del 95 % de que la inversión total en ahorros de los
empleados está contenida en el intervalo de $64, 410 a $79, 490.
Supóngase que la empresa manufacturera esta interesada en estimar la proporción
de empleados que invirtieron parte de los ingresos del último mes en una cuenta de
ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporción p̂i de
empleados en el estrato i que invirtieron parte de sus ingresos del último mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporción poblacional.
Estimador
L
1 X
p̂est = Ni p̂i
N i=1
Varianza estimada del estimador
L µ ¶µ ¶
2 1 X 2 Ni − n i p̂i q̂i
σ̂p̂est = 2 N con q̂i = 1 − p̂i
N i=1 i Ni ni − 1
Cotas para el error de estimación
p̂est ± 2σ̂p̂est
3.5 Muestreo aleatorio estratificado 89
Solución:
La estimación deseada está dada por p̂est , de donde
1
p̂est = [(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
5000
Para obtener la cota para el error de estimación, es necesario calcular la varianza
estimada
· µ ¶µ ¶¸
1 3500 − 35 (0.6)(0.4)
σ̂p̂2est = (3500) 2
(5000)2 3500 34
· µ ¶µ ¶¸
1 2 1000 − 10 (0.7)(0.3)
+ (1000)
(1000)2 1000 9
· µ ¶µ ¶¸
1 2 500 − 5 (0.8)(0.2)
+ (500) = 0.004744
(500)2 500 4
La estimación de la proporción de empleados que participaron en el programa de
ahorros de la compañı́a manufacturera, con una cota para el error de estimación,
está dada por
√
p̂est ± 2σ̂p̂est = 0.64 ± 2 0.004744 = 0.64 ± 2(0.069) = 0.64 ± 0.14
Ejercicios
de uno de cada diez nuevos productos satisface los criterios de éxito de las em-
presas. Uno de los procedimientos mas útiles para medir la aceptación de un
nuevo producto consiste en su introducción al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una compañı́a fabri-
cante de implementos agrı́colas que está interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agrı́colas diferentes. Para probar la
aceptación de los equipos de riego, se seleccionó una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agrı́colas y se observó el número de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estratificado con afijación proporcional.
Los resultados aparecen en la siguiente tabla:
a) Estime el número promedio µ de ventas para las 250 tiendas de las tres zonas
agrı́colas, y establezca una cota para el error de estimación.
b) Estime el total de ventas que habrı́a en las tres zonas agrı́colas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
error de estimación.
3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control más eficiente de las actividades administra-
tivas de las sucursales. El gerente de crédito de una cadena está interesado
en conocer el volumen de cuentas atrasadas que tiene la organización. Para
reducir el costo de muestreo, se usó un muestreo estratificado en el que los es-
tratos están constituidos por cada uno de los cuatro bancos. De los registros
que hay en su oficina, el gerente de crédito decidió usar afijación proporcional
para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
Número total de cuentas por cobrar N1 = 56 N2 = 68 N3 = 40 N4 = 36
Tamaño de muestra n1 = 14 n2 = 17 n3 = 10 n4 = 9
Número de cuestas atrasadas y1 = 5 y2 = 7 y3 = 5 y4 = 1
92 Muestreo
b) ¿Hay alguna razón para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar préstamos a sus clientes?. Estime la proporción p3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimación.
1. No existe una lista de todos los elementos de la población o serı́a muy costoso
obtenerla, o
Estimador
m
X
ti
i=1
µ̂ = ȳc = m
X
ni
i=1
donde
m m
1 X 1 X
n̄ = ni y t̄ = ti
m i=1 m i=1
ȳc ± 2σ̂ȳc
Estimador
m
MX
τ̂ = ti
m i=1
3.6 Muestreo por conglomerados 95
m
X
2
µ ¶ (ti − t̄)
M − m
σ̂τ̂2 = M 2 i=1
Mm
m−1
τ̂ ± 2σ̂τ̂
Distrito Núm. de amas Gastos tot. Distrito Núm. de amas Gastos tot.
i de casa ni ti i de casa ni ti
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
10
X 10
X
Sumas ni = 630 ti = $4819
i=1 i=1
a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
periódicos, y establezca una cota para el error de estimación.
b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perió-
dicos, y establezca una cota para el error de estimación.
Solución:
µ ¶µ ¶
50 − 10 79, 153.235
= = 0.1773
(50)(10)(63)2 9
Por lo tanto, una estimación de µ, con una cota para el error de estimación es
√
ȳc ± σ̂ȳc = $7.65 ± 2 0.1773 = $7.65 ± $0.84
µ ¶µ ¶
2 50 − 10 52, 336.90
=(50) = 1, 163, 042.222
(50)(10) 9
La estimación de los gastos totales en revistas y periódicos de las amas de casa,
de la ciudad, con una cota para el error de estimación es
p
τ̂ ± 2σ̂τ̂ = $24, 095 ± 2 1, 163, 042.222
= $24, 095 ± $2, 157
Estimador
m
X
ai
i=1
p̂c = m
X
ni
i=1
p̂c ± 2σ̂p̂c
Ejercicios
0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1
3.7. Ejercicios
1. Define que es una muestra aleatoria.
10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medición) de la población).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporción de votantes en el estado que estará a favor de la aprobación de una
ley.
c) Una cadena de supermercados desea conocer la opinión de sus empleados
acerca del plan de seguro médico patrocinado por la compañı́a.
d) Un ejecutivo de mercadotecnia de una compañı́a desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva lı́nea de
productos.
11. Explique porqué cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opinión de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento público respecto al último decreto presiden-
cial, un reportero entrevista a mediodı́a a 25 personas en la esquina de una
céntrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la Cámara
de Diputados en un intento por predecir la opinión de varios Estados con res-
pecto al aumento de la deuda pública por tercera vez en una semana.
3.7 Ejercicios 103
13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario diseñado para mejorar la imagen de la tienda en lo que se re-
fiere a la calidad de sus productos. De un directorio residencial se seleccionó una
muestra aleatoria simple de n = 50 familias. Un mes después de iniciada la cam-
paña publicitaria, se entrevistó a los jefes de familia y 13 de ellos afirmaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporción de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las demás tiendas. Establezca una cota para el error de estimación.
Municipio
A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
Número de los que aprueban la nueva polı́tica 8 20 9
15. El gerente de ventas de una fábrica de máquinas de escribir desea saber si existe
la demanda suficiente en determinada ciudad, que justifique agregar un nuevo
104 Muestreo
E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18
4.1. Introducción
En este capı́tulo se describe el modelo de regresión lineal simple, que asume que en-
tre dos variables dadas existe una relación de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hipótesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relación lineal.
En la práctica es común encontrar relación entre dos o más variables. Por ejemplo,
5. La efectividad media de un antibiótico depende del tiempo que éste lleve almace-
nado.
4.1 Introducción 107
Uno de los aspectos más relevantes que aborda la Estadı́stica se refiere al análisis
de las relaciones que se dan entre dos variables aleatorias. El análisis de estas rela-
ciones está muy frecuentemente ligado al análisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones básicas:
Ejemplo 4.1.1. Supóngase que se han reunido datos locales de vendedores de au-
tomóviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, dirección hidráulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
región serı́an los mostrados en la tabla
Y = β0 + β1 X + ε.
donde
Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de predicción sera realmente
Ŷ = β0 +β1 X. Lo que en primer lugar resultarı́a deseable de un modelo de regresión es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,
E[Y /X = x] = β0 + β1 x + E[ε/X = x] = β0 + β1 x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretación de los coeficientes del
modelo es:
4.1 Introducción 109
y = a0 + a1 x Lı́nea recta
y = a0 + a1 x + a2 x2 Parábola o curva cuadrática
y = a0 + a1 x + a2 x2 + a3 x3 Curva cúbica
y = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 Curva cuártica
y = a0 + a1 x + . . . + an xn Curva de grado n
Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-ésimo grados respectivamente.
110 Regresión lineal y multilineal
Cuando las gráficas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y = β0 + β1 x se dice ser un modelo determinista porque
no permite error en la predicción de y como función de x (no interviene el azar o
la incertidumbre). En fı́sica, quı́mica, economı́a, etc., describen fenómenos (explican
y predicen) en los cuales el error de predicción es despreciable en la práctica. Por
ejemplo 0.1 cm de error en la construcción de una viga de un puente es pequeño, pero
0.1 cm en una pieza de relojeria es absurdamente grande.
conocido como método de mı́nimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mı́nimos cuadrados coinciden con
los estimadores máximo-verosimiles de β0 y β1 .
n
X n ³
X ´2
2
SSE = (yi − ŷi ) = yi − [β̂0 + β̂1 xi ]
i=1 i=1
" n #
∂SSE ∂ X³ ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂0 ∂ β̂0 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−1)
X
=− 2(yi − β̂0 − β̂1 xi )
³X X X ´
= −2 yi − β̂0 − β̂1 xi
³X X ´
= −2 yi − nβ̂0 − β̂1 xi = 0
X X
=⇒ −2 yi + 2nβ̂0 + 2β̂1 xi = 0
P P
yi − β̂1 xi
=⇒ β̂0 =
n
∴ β̂0 = ȳ − β̂1 x̄
" n ³
#
∂SSE ∂ X ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂1 ∂ β̂1 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−xi )
X
=− 2(xi yi − β̂0 xi − β̂1 x2i )
³X X X ´
= −2 xi yi − β̂0 xi − β̂1 x2i = 0
X X X
=− xi yi + β̂0 xi + β̂1 x2i = 0
P P
xi yi − β̂0 xi
=⇒ β̂1 = P 2
xi
4.2 Estimación de los coeficientes del modelo por mı́nimos cuadrados 113
SSxy
β̂1 =
SSxx
n
X n
X
donde SSxy = (xi − x̄)(yi − ȳ) y SSxx = (xi − x̄)2
i=1 i=1
β̂0 = ȳ − β̂1
yi xi yi xi
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
114 Regresión lineal y multilineal
a) ¿Cuál es la lı́nea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?
b) Si se tienen $10, 000 para publicidad este mes ¿Cuál es el volumen de ventas
pronosticado?
Solución:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresión.
luego
SSxy 23.34
β̂1 = = = 52.57
SSxx 0.444
β̂0 = ȳ − β̂1 x̄ = 95.9 − (52.57)(0.94) = 46.49
ŷ = 46.49 + 52.57x
Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es
o bien $990600.
Ahora, debemos encontrar las cotas para el error de estimación. Para eso estimamos
σ 2 , la varianza de y dado un valor de x. Entonces
SCE
σ 2 = s2 =
n−2
n
X
donde SCE = (yi − ŷi )2 y n − 2 son los grados de libertad (número de parámetros
i=1
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de mı́nimos cuadrados 115
1. Que las medias de Y para cada valor de X se ajusten más o menos a una lı́nea
recta, algo fácilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una lı́nea recta sino a otro tipo de función,
lógicamente no haremos regresión lineal.
2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hipótesis sino más bien un requerimiento lógico al
modelo.
Lo que ahora vamos a hacer es añadir algunos supuestos al modelo de manera que
cuando éstos se cumplan, las propiedades de los estimadores de los coeficientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
116 Regresión lineal y multilineal
1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna región de observación?
2) ¿Podemos pensar que aún no habiendo relación entre x y y los puntos observados
forman un diagrama como el de la figura?
H0 : βi = 0 contra Ha : βi 6= 0
β̂i es un estimador insesgado de βi con una distribución normal que tiene el valor
esperado E[β̂i ].
4.4 Inferencias relativas a la pendiente β1 de una recta 117
| z | ≥ zα/2
Entonces
β̂i − βi0
√ t= ,
S Cii
estadı́stico que se distribuye con una t de Student con n − 2 grados de libertad
(varianza desconocida y n pequeña).
H0 :βi = βi0
βi > βi0 región de rechazo de cola superior,
Ha : βi < βi0 región de rechazo de cola inferior,
βi 6= βi0 región de rechazo de dos colas.
1
Prueba estadı́stica en la cual la región de rechazo está separada por la región de aceptación y
se localiza en ámbos extremos de la distribución de la estadı́stica de prueba
118 Regresión lineal y multilineal
Estadı́stico de prueba:
β̂i − βi0
t= √
S Cii
Región de rechazo:
donde: X
x2i 1
C00 = y C11 =
nSCxx SCxx
Nota 8. tα se basa en n − 2 grados de libertad 2 .
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que β1 difiere de cero al usar una relación lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.
Solución:
Se quiere probar
H0 : β1 = 0 contra Ha : β1 6= 0
β̂1 − 0
Entonces t = √ . Usando α = 0.05 se rechaza H0 si t > 2.306 o t < −2.306
S C11
52.87
con n − 2 = 8 grados de libertad. Entonces t = √ = 5.15. Como 5.15 >
6.84 2.25
2.306, entonces se rechaza H0 . Hay evidencia que indica que los gastos publicitarios
proporcionan información para la predicción de los volúmenes mensuales de ventas.
Ahora si x aumenta una unidad ¿Cuál será el cambio estimado para y?,¿qué confianza
se puede tener en dicha estimación?.
Debemos investigar la amplitud de un intervalo de confianza para β1 y verificar si
es lo bastante pequeño para detectar una desviación de cero que sea de significancia
práctica.
2
Número de observaciones linealmente independientes de un conjunto de n observaciones
4.4 Inferencias relativas a la pendiente β1 de una recta 119
p
β̂i ± tα/2 S Cii
Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β1 usando los datos
del ejercicio 4.2.1.
Solución:
1 − α =95 % =⇒ 1 − α = 0.95
despejando α = 1 − 0.95 =⇒ α/2 = 0.025
asi, 52.57 ± 23.67
Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los volúmenes de ventas mensuales correspondientes será 28.90 y
76.24.
Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de
β0 y β1 . Trace una gráfica de los puntos y represente la recta ajustada para verificar
los cálculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente
β1 difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre
un intervalo de confianza de 95 % para β1 .
y x
3 -2
2 -1
1 0
1 1
0.5 2
120 Regresión lineal y multilineal
Estimación de E[y/x].
Estadı́stico de prueba:
ŷ − E0
t= r
1 (xp − x̄)2
S +
n SCxx
Región de rechazo:
s
1 (xp − x̄)2
ŷ ± tα/2 S + (4.1)
n SCxx
s
1 (xp − x̄)2
ŷ ± tα/2,n−2 S 1+ + (4.2)
n SCxx
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para
b) Calcular S 2
Solución:
xp = 1.0, entonces ŷ = β̂0 + β̂1 x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
s
1 (xp − x̄)2
ŷ ± t0.025 S+
n SCxx
r
1 (1.0 − 0.94)2
99.06 ± (2.306)(6.84) +
10 0.444
99.06 ± 5.19, es decir, (93.87,104.25)
Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la población de los meses en los que la compañı́a
gasta $10, 000 estan entre $938, 700 y $1042, 500.
122 Regresión lineal y multilineal
Tiempo de Tiempo de
Paciente Dosificación x reacción y Paciente Dosificación x reacción y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Solución:
El modelo de predicción obtenido hal hacer los calculos es:
H0 : β1 = 0 vs Ha : β1 6= 0
4.4 Inferencias relativas a la pendiente β1 de una recta 123
Ası́, el estadı́stico es
18.85 − 0
t= = 8.96
(7.51)(0.28)
de acuerdo a la tabla de la t de Student, la hipótesis H0 se rechaza con un nivel de
significancia de 0.05 ya que
y como
| t | > tα/2,n−2 es decir, 8.96 > 2.120
r
1 (2 − 1.75)2
47.49 ± (2.120)(7.51) 1 + +
18 13.13
47.49 ± 16.39
31.1 ≤ŷ ≤ 63.88
a) Ajuste el modelo.
Solución:
a)
SCxy −0.247
β̂1 = = = −1.056
SCxx 0.234
β̂0 =2.563
=⇒ ŷ =2.563 − 1.056x
b)
Se rechaza H0 , hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la razón agua/cemento en la región donde se hizo el experimento.
En la práctica, la razón agua/cemento debe ser lo suficientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la razón es
muy grande no servirá.
c)
Cuanto más se acerque a 1 ó −1, más fuerte será la relación lineal entre x e y.
Si r = 0, no hay relación.
128 Regresión lineal y multilineal
SCE
r2 = 1 − 0 ≤ r2 ≤ 1
SCyy
H0 : r = 0 vs Ha : r 6= 0
H0 : β1 = 0 vs Ha : β1 6= 0
β̂1 − 0
con su estadı́stico t = √ .
S C11
Dejando el estadı́stico anterior en términos de r se obtiene
√
r n−2
t= √
1 − r2
Para probar la hipótesis nula H0 = r = r0 r0 6= 0 contra Ha = r 6= r0 se utiliza el
estadı́stico µ ¶
1 1+r
ln
2 1−r
4.5 Correlación lineal 129
¶ µ
1+r1 1
que sigue una distribución normal con media ln 2
y varianza . En-
1−r n−3
tonces, usaremos µ ¶ µ ¶
1 1+r 1 1 + r0
2
ln − 2 ln
1−r 1 − r0
z= r
1
n−3
lo anterior es equivalente a
√ · ¸
n−3 (1 + r)(1 − r0 )
z= ln
2 (1 − r)(1 + r0 )
Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de quı́mica para
una muestra aleatoria de 12 estudiantes de primer año de determinada institución de
enseñanza superior, junto con sus calificaciones en un examen de inteligencia aplicado
cuando aún cursaban el último año de secundaria.
Solución:
q
SCxx
a) r = β̂1 SCyy
, entonces
X 1 ³X ´2 1
SCxx = x2i − xi = 44475 − (725)2 = 672.92
n 12
X 1 ³X ´2 1
SCyy = yi2 − yi = 85905 − (1011)2 = 728.25
n 12
SCxy X 1X X 1
β̂1 = =⇒ SCxy = xi yi − xi yi = 61685 − (725)(1011) = 603.75
SCxx n 12
603.75
=⇒ β̂1 = = 0.897 o 0.9
672.92
r
672.92
r = 0.897 = 0.862.
728.25
Note que, el coeficiente está cerca de 1, entonces hay una fuerte asociación entre x e
y, como se podrá esperar.
b)
Ahora veamos si se cumple que z > zα , para esto usamos α = 0.05. Entonces, z0.05 =
1.64 + 1.65
1.645 (buscamos α = 0.05 en la tabla de la distribución normal y cae en =
2
1.645).
Ası́, 2.255 > 1.645, por lo cual se rechaza la hipótesis nula H0 .
Lluvia diaria (0.01 cm) x Partı́culas eliminadas (mg por metro cúbico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Calcule r,
Solución:
4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
artı́culo) del catálogo de inventario con el valor en los libros (o nominal). Si una
compañı́a tiene su inventario y sus libros al dı́a, debe existir una relación lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
artı́culos del catálogo de cierta compañı́a dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y = β0 +β1 x+ε
a esos datos. ¿Cuál es su estimación para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, ¿qué utilizarı́a para estimar el valor revisado?
132 Regresión lineal y multilineal
6. Las medianas de los precios de ventas de casas nuevas para una sóla familia
durante un periodo de 8 años se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el año (representado con números enteros, 1,2,...,8),
4.6 Ejercicios 135
Conteste lo siguiente:
a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de significancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de confianza de 99 %.
en el siguiente cuadro:
9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energı́a (en miles de kilowatts-hora, kwh) y el número de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
138 Regresión lineal y multilineal
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε (4.3)
Y = Xβ + ε
X t X β̂ = X t Y
donde
β̂0
β̂
1
β̂ = .
..
β̂k
Entonces β̂ = (X t X)−1 X t Y .
Por lo tanto, el modelo ajustado es
ŷ = X β̂ = X(X t X)−1 X t Y
140 Regresión lineal y multilineal
x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4
E(y/x) = β0 + β1 x + β2 x2
b) Estime y cuando x = 2
Solución:
a) Sea x1 = x y x2 = x2 , entonces y = β0 + β1 x1 + β2 x2 . Ahora,
1 0 0
1 1 1
1 2 4 1 1 1 1 1 1 1
X = 1 3 9 y Xt =
0 1 2 3 4 5 6
1 4 16 0 1 4 9 16 25 36
1 5 25
1 6 36
entonces
1 0 0
1 1 1
1 1 1 1 1 1 1 1 2 4 7 21 91
X X=
t
0 1 2 3 4 5 6
1 3 9= 21 91 441
0 1 4 9 16 25 36
1 4 16 91 441 2275
1 5 25
1 6 36
4.7 Regresión lineal multiple 141
Calculando la inversa de X t X
7 21 91 | 1 0 0
P ant = 1
(X t X)−1 =
21 91 441 | 0 1 0
∼
P act = 7
91 441 2275 | 0 0 1
7 21 91 | 1 0 0
P ant = 7
0 196 1176 | −21 7 0 ∼
P act = 196
0 1176 7644 | −91 0 7
196 0 −980 | 91 −21 0
P ant = 196
0 196 1176 | −21 7 0 ∼
P act = 16464
0 0 16464 | 980 −1176 196
16464 0 0 | 12544 −7644 980
0 16464 0 | −7644 7644 −1176
0 0 16464 | 980 −1176 196
1 0 0 | 16/21 −13/28 5/84
0 1 0 | −13/28 13/28 −1/14
0 0 1 | 5/84 −1/14 1/84
Por lo tanto,
16/21 −13/28 5/84
(X t X)−1 =
−13/28 13/28 −1/14
5/84 −1/14 1/84
142 Regresión lineal y multilineal
Ahora bien,
1
4
16/21 −13/28 5/84 1 1 1 1 1 1 1 5
β̂ = (X t X)−1 X t Y = 3
−13/28 13/28 −1/14 0 1 2 3 4 5 6
5/84 −1/14 1/84 0 1 4 9 16 25 36 2
3
4
2.4062
= 0.7143
−0.09524
Por lo tanto, β̂0 = 2.4062, β̂1 = 0.7143 y β̂3 = −0.09524. Entonces, el modelo de
predicción es
ŷ = 2.4062 + 0.7143x − 0.09524x2 .
Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119
Solución:
Capı́tulo 5
Habilidades básicas
1. Comprende las técnicas que se emplean para resumir y describir datos numéri-
cos, de tipo grafico, o que requieren análisis computacional.
2. En base a que, en una muestra sometida a observación sirven para tomar deci-
siones.
4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:
1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94
10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100
50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11
14. Se ocupa una vez hecha la recopilación de los datos, ordenarlos y clasificarlos
para extraer conclusiones:
20. Son aquellas que se pueden cuantificar, como la edad, peso, n0 de hijos, etc.
Además es una de las divisiones de carácter:
28. ¿Qué ventaja tiene la regresión múltiple con respecto a la regresión lineal?¿Qué desven-
tajas?
29. ¿Cómo determinarı́a cuál de las dos técnicas: la de regresión lineal o la múltiple
serı́a la más apropiada para una situación determinada?
30. Compare la finalidad del análisis de regresión con la del análisis de correlación.
X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5
35. En el servicio central de turismo del paı́s se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el
total de plazas ocupadas en un año se tiene:
Precio (U S$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N0 hab. ocup. 4725 2610 1872 943 750 700 700 580 500
a) Representa los datos gráficamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147
36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77 − 86 fueron:
Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el
ahorro esperado para el año 87?
37. Los datos de la tabla adjunta muestran el tiempo en horas de impresión de tra-
bajos que se han imprimido en una impresora láser de la marca HP . Se está in-
teresado en estudiar la relación existente entre la variable de interés “tiempo
de impresión de un trabajo ”y la variable explicativa “número de páginas del
trabajo ”.
Tiempo 1 2 3 4 5 6 7 8
N0 Páginas 600 900 1400 1800 2500 3200 3400 4500
[?]
Bibliografı́a