Estadistica I
Estadistica I
Estadistica I
U.T.N.-F.R.R.- Ao 2005-
PROBABILIDADES Y ESTADISTICA
Profesor Titular: E Mario J. GARBER INTRODUCCION TEORICA RECOPILACION DE DATOS Unidad 1 - DEFINICIONES BASICAS - SELECCIN MUESTRAL
1 - DEFINICION DE ESTADISTICA: La Estadstica es un mtodo cientfico destinado a recopilar, ordenar, presentar y resumir datos, para posteriormente analizarlos, extraer conclusiones vlidas y tomar, sobre esa base, decisiones razonables. Las primeras cuatro acciones indicadas en la anterior definicin conforman la Estadstica Descriptiva, mientras que las ltimas tres, la Inferencia Estadstica. Algunas de las aplicaciones actuales ms conocidas de la Estadstica son: en el campo poltico: la prediccin de los resultados electorales en el campo del marketing: seleccionar caractersticas deseables de los productos y disear estrategias de venta en el campo de la medicina: determinar la eficacia de los medicamentos en el campo contable: determinar el porcentaje de errores en las registraciones en el campo de la zoologa: estimar el tamao real de la poblacin de una especie 2 - POBLACION Y MUESTRA: Poblacin es un conjunto de elementos, finito o infinito, que responden a una determinada caracterstica. Luego, el concepto de poblacin en Estadstica va ms all de la clsica definicin que se da en la Demografa, esto es, la poblacin de seres humanos exclusivamente. En la actividad estadstica una poblacin puede estar constituida por elementos de cualquier tipo, no solamente por seres humanos. Por ejemplo, se puede hablar de la poblacin de viviendas de un barrio; de la poblacin de comprobantes contables de una empresa; de la poblacin de alumnos de una Facultad, etc. Muestra es un subconjunto de elementos seleccionado en una poblacin, o sea de tamao menor que sta, que se utiliza para realizar estudios o investigaciones referidas a toda la poblacin pero en menor tiempo y por supuesto a un menor costo que si se la estudiara en forma exhaustiva, pero al mismo tiempo sin la exactitud que slo se puede conseguir en investigaciones del cien por cien. -----------------------Probabilidades y Estadstica - Ao 2005
Por eso, la opcin entre poblacin y muestra puede ser presentada como la opcin entre un relevamiento caro y un relevamiento econmico, o bien entre exactitud y precisin. La muestra no garantiza, pues, exactitud pero puede asegurar investigaciones estadstica rpidas y econmicas que suelen ir acompaadas con la informacin del grado de precisin con el que se ha trabajado. 3 VARIABLES: Una variable es una magnitud que puede tomar diferentes valores entre dos previamente determinados, que limitan lo que constituye el campo de variacin de la variable. Ejemplos: la altura de los integrantes de un equipo de bsquetbol; la cantidad de alumnos en las clases de una materia; los ingresos o los gastos de un conjunto de personas. Las variables pueden ser cuantitativas o cualitativas. Las variables cuantitativas se expresan mediante cantidades (nmero, distancia, altura, etc.). Las cualitativas indican atributos o calidades (colores, sexos, razas), a pesar que se pueden utilizar diferentes cantidades para indicar cualidades, pero sin que las cantidades utilizadas permitan realizar comparaciones del tipo mayor menor. Las variables cuantitativas pueden ser discretas o continuas. Las variables continuas son aquellas que pueden tomar cualquier valor en el campo de su variacin. Ejemplos: los ingresos (en dinero); las alturas, las distancias. Las variables discretas slo pueden tomar algunos valores en su campo de variacin. Ejemplos: el nmero de alumnos; la cantidad de hijos; el resultado de un examen calificado como aprob-no aprob. En trminos generales puede decirse que las variables continuas se relacionan con la operacin de medir, en tanto las variables discretas se relacionan con la operacin de contar. Las variables aleatorias expresan el resultado de un experimento, tambin denominado aleatorio, que recibe ese nombre porque se realiza en condiciones de incertidumbre, y que se presenta con una cierta probabilidad que puede llegar a conocerse. Ejemplos: el resultado al arrojar un dado; el sexo de un nio en el momento de la concepcin. Las variables no aleatorias se denominan determinsticas. El siguiente grfico ilustra sobre la clasificacin de las variables: (colaboracin de la Profesora Mara de los Arcos Martnez)
ESTADISTICA DESCRIPTIVA TRATAMIENTO DE LOS DATOS ESTADISTICOS Unidad 2 DISTRIBUCION DE FRECUENCIAS Profesor Titular: E Mario J. Garber
1 - DATOS NO ORDENADOS: Son aquellos datos recolectados a partir de una muestra que no han sido arreglados de acuerdo con algn criterio convencional, por lo que se presentan en el orden en que han sido obtenidos. 2 - ORDENAMIENTO: Es un arreglo convencional de los datos obtenidos en una investigacin muestral, colocndolos por ejemplo, de menor a mayor, de mayor a menor, o de cualquier otro modo. A medida que se avanza en el trabajo estadstico pasando de una etapa a la otra, en cada paso que se da, el mtodo debe permitir encontrar las soluciones para cada problema que se presente sin retroceder a la etapa anterior, tomando los datos en su nueva forma de presentacin. Con los datos ordenados puede obtenerse el Rango, que se convierte en la primera medida estadstica que puede ser calculada. 3 - RANGO: Es la primera medida estadstica que puede calcularse , y se obtiene haciendo la diferencia entre los valores extremos del conjunto de datos ordenados. Slo puede calcularse, precisamente, con los datos previamente ordenados. R = xM xm donde xM es el valor mximo del conjunto y xm es el valor mnimo del conjunto. 4 - CUADRO DE LA DISTRIBUCION DE FRECUENCIAS: El cuadro de la distribucin de frecuencias es una forma de presentacin de los datos que facilita su tratamiento conjunto y, por consiguiente, permite una comprensin diferente sobre ellos. Los datos pierden la individualidad (se deja de conocer el valor particular de cada uno) porque se presentan en clases o categoras que agrupan a un conjunto ms o menos amplio de valores. Estos grupos se denomina intervalos de clases. Los siguientes cuadros constituyen ejemplos de Distribuciones de Frecuencias. Sus datos originales (que no se encuentran a la vista) fueron obtenidos luego de consultar sobre diferentes tipos de variables. A continuacin de los cuadros se definen sus elementos componentes. a) Para ISI: el ingreso mensual de un grupo de personas. Frecuen. Verdadero Punto Frecuen. Frecuen. Ingreso absoluta Lmite Medio Acum. Relativa ($) fi xi Creciente hi VL Fi 0 999,99 5 0 500 5 5% 1000 1999,99 18 1000 1500 23 18% 2000 2999,99 42 2000 2500 65 42% 3000 3999,99 27 3000 3500 92 27% 4000 4999,99 8 4000 4500 100 8% 100 100% -----------------------Probabilidades y Estadstica - Ao 2005
b) Para IQ-ISI: el nivel de la acidez del vino depositado en toneles en una bodega. Frecuen. Verdadero Punto Frecuen. Frecuen. Frecuencia Acidez absoluta Lmite Medio Acum. Relativa Relativa (pH) fi x Creciente h Acumulada i i VL Fi Hi 1,00 1,49 5 1,00 1,25 5 5% 5% 1,50 1,99 18 1,50 1,75 23 18% 23% 2,00 2,49 42 2,00 2,25 65 42% 65% 2,50 2,99 27 2,50 2,75 92 27% 92% 3,00 3,49 8 3,00 3,25 100 8% 100% 100 100% c) Para IEM: el consumo de energa elctrica en las viviendas de un barrio: Frecuen. VerdaPunto Frecuencia Frecuen. Frecuencia Consumo absoluta dero Medio Acumulada Relativa Relativa (KWh) fi Lmite xi Fi hi Acumulada Hi VL 5,00 9,99 10,00 14,99 15,00 19,99 20,00 24,99 25,00 29,99 5 18 42 27 8 100 5,00 10,00 15,00 20,00 25,00 7,50 12,50 17,50 22,50 27,50 5 23 65 92 100 5% 18% 42% 27% 8% 100% 5% 23% 65% 92% 100%
Reglas para la construccin del cuadro de la distribucin de frecuencias - Definicin de sus elementos: a) Intervalo de clase: Es un intervalo entre dos valores de la variable bajo estudio, elegido en forma convencional y conveniente, y constituye la primera columna de la distribucin, que lleva como ttulo el nombre de la variable que se est midiendo o presentando. Si bien existen frmulas para definir cul es el nmero de intervalos de clase para cada distribucin (la frmula de Sturges es un ejemplo en la que el Nmero de Intervalos: NI = 1 + 3,3 log.n), ellas no toman en cuenta todos los elementos disponibles, ya que el Rango, por ejemplo, podra ser una buena informacin a tomar en cuenta para definir el nmero de los intervalos, pero no aparece participando en ninguna de las frmulas conocidas. Normalmente una distribucin debera tener entre 5 y 12 intervalos de clase, y depende de cada investigador la cantidad definitiva que construir, y su formato. b) Frecuencia absoluta (fi): Es la cantidad de casos que pertenecen a cada clase. c) Total de elementos (n): es la suma total de las frecuencias absolutas, lo que da el total de elementos en la muestra. es decir que n = f i . d) Lmite inferior del intervalo de clase (LI): Es el menor valor de cada intervalo de clase. En cada uno de los intervalos, los lmites inferiores son los valores ubicados a la izquierda. e) Lmite superior del intervalo de clase ( LS): Es el mayor valor de cada intervalo de clase. f) Verdadero Lmite o Lmite Real del intervalo de clase ( VL): Se obtiene haciendo la semisuma de un Lmite Superior y el siguiente Lmite Inferior, es decir -----------------------Probabilidades y Estadstica - Ao 2005
VL
i +1
LS + LI
i
i +1
En las Distribuciones de frecuencias para variables continuas se conviene en que los Verdaderos Lmites coinciden con los Lmites Inferiores, por lo que la frmula de clculo de los VL se aplica fundamentalmente en los casos de Distribuciones para variables discretas. g) Amplitud o tamao del intervalo de clase ( c): Es la diferencia, en valor absoluto, entre dos Verdaderos Lmites consecutivos: c = VLi VLi +1 Si la distribucin de frecuencias tuviera todos sus intervalos con igual amplitud, se la denomina equiespaciada. En una distribucin de frecuencias, existe una relacin entre el nmero de intervalos (NI), el Rango (R) y la amplitud (c), que se puede observar en la siguiente expresin:
NI = R R c= c NI
Esto significa que, conocido el rango, puede establecerse indistintamente uno de los otros dos valores: o la amplitud c o el N de intervalos NI. Si se decide construir una distribucin con una amplitud determinada, se aplica la primera frmula para obtener el N de intervalos. En cambio, si se desea construir la distribucin con un nmero de intervalos determinado, la amplitud se puede obtener con la segunda frmula. h) Punto medio del intervalo de clase (xi): Se calcula haciendo la semisuma entre dos Verdaderos Lmites inferiores consecutivos, valor que se atribuye al intervalo que corresponde al menor de ellos. Es decir que VL +VLi + 1 xi = i 2 Si la distribucin de frecuencias fuera equiespaciada, a partir del primer punto medio se pueden obtener los siguientes sumndoles sucesivamente la amplitud c. i) Frecuencia acumulada creciente (Fi): Es el total de elementos menores o iguales que un lmite superior cualquiera LSk. Se obtiene por adicin sucesiva de las frecuencias absolutas, comenzando desde el primer intervalo hasta el ltimo. El resultado final debe coincidir con n. j)Frecuencia relativa (hi): Es la relacin entre las frecuencias absolutas y el total de f elementos n: hi = i . Suele expresarse en forma de porcentajes. n k) Frecuencia relativa acumulada (H): Es similar a la correspondiente Frecuencia acumuladas Fi , pero calculada con la frecuencia relativa. Ejemplo de distribucin de frecuencias para una variable discreta: Se trata de la cantidad de expedientes iniciados en una oficina a lo largo de los veinte das hbiles de un mes cualquiera. El resultado se presenta a continuacin: Frec. Frec. N de Frec. Verdadero Punto Acumul. Frec. Relativa Exped. Absoluta Lmite Medio Creciente Relativa Acumulada Fi VL xi Fi hi Hi 1-6 1 0,5 3,5 1 5,0 % 5,0 % 7-12 4 6,5 9,5 5 20,0 % 25,0 % 13-18 7 12,5 15,5 12 35,0 % 60,0 % 19-24 6 18,5 21,5 18 30,0 % 90,0 % 25-30 2 24,5 27,5 20 10,0 % 100,0 % 20 100,0 % -----------------------Probabilidades y Estadstica - Ao 2005
Nota: Prestar atencin a los Verdaderos lmites (que ya que no coinciden con los lmites), y al clculo de los puntos medios de los Intervalos de Clase. 5 - GRAFICO DE LA DISTRIBUCION DE FRECUENCIAS -HISTOGRAMA: El Histograma es un grfico de la distribucin de frecuencias, que se construye con rectngulos de superficie proporcional al producto de la amplitud por la frecuencia absoluta (o relativa) de cada uno de los intervalos de clase . La figura que sigue muestra el Histograma de las Distribuciones de frecuencias de las variables continuas Acidez del vino y Consumo de energa, que fueran presentadas en este fascculo. Se han incluido dos ejes de
abscisas para permitir efectuar la representacin de ambos casos en un solo grfico. ( Nota: El histograma correspondiente al ejemplo del Ingreso de las personas tiene forma similar). El siguiente grfico corresponde al caso de la variable discreta Nmero de expedientes
iniciados en una oficina, cuya distribucin fuera tambin presentada precedentemente. Puede observarse con claridad que los rectngulos correspondientes a cada intervalo de clase se han construido entre los Verdaderos lmites. -----------------------Probabilidades y Estadstica - Ao 2005
6 - POLIGONO DE FRECUENCIAS: El polgono de frecuencias es un grfico lineal que se construye a partir de un histograma uniendo los puntos medios de los lados opuestos a las bases de los rectngulos, incluyendo adems, si correspondiere (en ambos grficos anteriores as se ha hecho), el punto medio del intervalo de clase inmediato anterior al primer intervalo y el punto medio del intervalo de clase inmediato posterior al ltimo intervalo de clase, lo cual permite obtener una figura poligonal cerrada con similar superficie que el histograma. En el trazado del polgono hay sectores que se pierden y otros que se ganan respecto del histograma propiamente dicho. Esas superficies se han destacado con un gris ms claro en el grfico del histograma correspondiente a la variable bajo estudio. El polgono de frecuencias permite mostrar cmo sera, de una manera sumamente esquemtica, la verdadera distribucin terica de la variable bajo estudio, distribucin sta que nunca puede obtenerse realmente. Si en un histograma se supone que la amplitud de los intervalos disminuyera al mismo tiempo que aumentara el nmero total de observaciones, se producira un aumento en el nmero de intervalos. Cuando la amplitud tiende a cero, el nmero de intervalos de clase se vuelve infinito, y el histograma se convierte en una lnea continua que debe considerarse como la verdadera distribucin terica. Lo que hace el polgono es, como ya se dijo, mostrar una aproximacin eminentemente prctica de ese proceso. 7 GRAFICO DE FRECUENCIAS ACUMULADAS - OJIVAS CRECIENTES: El grfico de Frecuencias Acumuladas es la representacin de esas Frecuencias Acumuladas en particular, y se construye, al igual que el Histograma, con rectngulos de base y altura proporcionales a la amplitud y a la frecuencia absoluta de cada intervalo, respectivamente, pero desplazando hacia arriba el inicio de cada rectngulo hasta coincidir con el nivel exacto de la terminacin del anterior. En los grficos siguientes se verifica que los rectngulos oscuros podran ser, exactamente, la reiteracin del histograma desplazado hacia arriba. Adicionalmente, se unen en forma consecutiva los verdaderos lmites para obtener una lnea poligonal creciente, llamada en algunos textos ojiva creciente. GRAFICOS FUNCIONES ACUMULADAS CASO CRECIENTE
8 COMENTARIOS SOBRE LA CONSTRUCCION DE DISTRIBUCIONES DE FRECUENCIAS: Cuando se trat el tema referido a los Intervalos de clase, se mencion que la cantidad de ellos y el formato de la distribucin de frecuencias dependan de cada investigador, o, lo que es lo mismo, del objetivo de cada investigacin particular. A lo largo del texto se presentaron varios ejemplos de distribuciones de frecuencias, todas con las siguientes caractersticas: Son equiespaciadas: el tamao o amplitud de todos sus intervalos es idntico. Esto permite imaginar que pueden construirse distribuciones de frecuencias con intervalos de clase no equiespaciados, lo cual conducira a que el tamao de cada intervalo debera ser variable (ci). El que la distribucin sea equiespaciada resulta una importante ventaja para la organizacin del trabajo estadstico debido a la simplificacin que eso significa en el uso de las frmulas estadsticas y en los clculos propiamente dichos. Tienen sus intervalos de clase cerrados: eso significa que en todos los intervalos existen, perfectamente identificados, los Lmites Inferior y Superior. Esto tambin permite pensar en distribuciones de frecuencias con algn intervalo que no posea, o el Lmite Inferior, o el Lmite Superior, o ambos. El ejemplo siguiente ilustra este comentario: Intervalos fi Imaginemos que el cuadro del ejemplo Menos de 450 3 de la izquierda se refiere a los ingresos 450-499,99 5 mensuales del personal de una empresa y 500-599,99 12 que incluye a un directivo cuyo sueldo es 600-699,99 10 de $ 1.590.-. Se observa que la distribucin 700-799,99 4 tiene trece intervalos de clase (ms del n800-899,99 mero lmite, como ya se mencion). El 900-999,99 primero es abierto y los ltimos siete son 1000-1099,99 cerrados, de los cuales seis tienen sus 1100-1199,99 frecuencias absolutas nulas. Esta forma 1200-1299,99 resulta inconveniente, por lo que es muy 1300-1399,99 apropiado y conveniente construir una 1400-1499,99 distribucin de frecuencias como la que 1500-1599,99 1 presenta ms abajo, agrupando los ltimos intervalos en uno solo. De ese modo se obtiene el siguiente formato: Intervalos Menos de 450 450-499,99 500-599,99 600-699,99 700 o ms fi 3 5 12 10 5 En la distribucin que se encuentra a la izquierda, tanto el primero como el ltimo intervalo de clase son abiertos (no tienen alguno de los dos Lmites) mientras que los dems intervalos son cerrados.
Se han resuelto algunos inconvenientes de la presentacin anterior, ya que se tiene slo cinco intervalos y desaparecieron las frecuencias absolutas iguales a cero. Pero la principal dificultad de una distribucin como sa es la imposibilidad de calcular alguno de los elementos que forman parte del -----------------------Probabilidades y Estadstica - Ao 2005
cuadro de la Distribucin. En particular no pueden calcularse los puntos medios, lo cual constituye un impedimento para efectuar posteriores pasos estadsticos. No obstante esa situacin, a menudo se tropieza con distribuciones que tienen, o bien esta forma o bien slo el primero o el ltimo de los intervalos de clase abiertos. PREGUNTAS TEORICAS FRECUENCIAS: SOBRE INTRODUCCION Y DISTRIBUCION DE
1) Cunto vale la suma de las frecuencias relativas? a) n b) Fi. c) 100 2) En una distribucin de frecuencias, si se desea saber cul es la frecuencia de los valores menores o iguales que un lmite superior cualquiera, a travs de que dato se la obtiene? a) la frecuencia absoluta b) la frecuencia relativa c) la frecuencia acumulada CUADRO SINOPTICO SOBRE ESTADISTICA
E S T A D IS T IC A
u tiliz a c i n d e
M e t d o s c ie n t fic o s
p a ra
E x t r a e r c o n c lu s io n e s v lid a s
p a ra
T o m a r d e c is io n e s
a p a r ti r d e
D a to s
d e la
P o b la c i n E s t a d s t ic a d e s c r ip t iv a R e c o le t a r O rd e n a r R e s u m ir
e s p a r te
M u e s tra I n fe r e n c ia e s t a d s t ic a
P re s e n ta r
E s t im a r
D e c id ir
10
D a to s n o o rd e n a d o s O r d e n a m ie n t o D a to s n o a g ru p a d o s D a to s a g ru p a d o s D is t r ib u c i n d e F r e c u e n c ia s
D is t r ib u c i n de F r e c u e n c ia s A b s o lu t a s
D is t r ib u c i n de F r e c u e n c ia s R e la t iv a s
D is t r ib u c i n d e F r e c u e n c ia s A c u m u la d a s A b s o lu t a s
D is t r ib u c i n d e F r e c u e n c ia s A c u m u la d a s R e la t iv a s
H is t o g r a m a
P o l g o n o de F r e c u e n c ia s
O jiv a
BIBLIOGRAFIA CONSULTADA: Kazmier L. Daz Matta A. Estadstica Aplicada a Administracin y Economa Editorial McGraw Hill 2 Edicin Berenson Levine Estadstica bsica en Administracin Editorial Prentice Hall 6 Edicin Levin Rubin Estadstica para Administradores Editorial Prentice Hall 6 Edicin Deming W. Sobre Teora del Muestreo Editorial Comisin de Educacin Estadstica del Instituto Interamericano de Estadstica 1952 Montiel Ros Barn Elementos Bsicos de Estadstica Econmica y Empresarial Editorial Prentice Hall Ao 1996 Spiegel M. Teora y Problemas de Estadstica Editorial Shaum Mendenhall Reinmuth Estadstica para Administracin y Economa Grupo Editorial Iberoamrica Ao 1993 -----------------------Probabilidades y Estadstica - Ao 2005
11