I.Investigacion Estadistica
I.Investigacion Estadistica
I.Investigacion Estadistica
Proceso de Análisis para una Descripción Inicial de los Datos: •Variables Categóricas:
*Recurso numérico: Tabla de distribución de frecuencias.
*Recurso Grafico:
-Grafico de barras: recoge en el eje horizontal (en este caso el eje no es
numérico) las categorías correspondientes a la variable (en nuestro
ejemplo varón y mujer). El eje vertical (de las Y) es un eje numérico, con •Variables Numéricas: Cuando se construyen distribuciones de
una escala en la que se pueden representar los valores de frecuencias frecuencias para variables cuantitativas, los recursos numéricos y
observados. Las alturas de las barras de cada categoría expresan la gráficos difieren según las mismas presenten pocos o muchos valores
frecuencia absoluta correspondiente. diferentes. Esta distinción entre las variables numéricas es al único
efecto de poder destacar las particularidades de las técnicas que se
utilizan en uno y otro caso.
-En este caso la forma del histograma nos indica la fuerte concentración -Asimétricas a la izquierda: cuando los datos se concentran a la
de estudiantes entre 17 y 21 años con una sostenida disminución del derecha de la distribución y las frecuencias disminuyen gradualmente a
número de ellos a partir de esa edad. Otra manera de expresar la forma medida que los valores de la variable decrecen.
•Frecuencia Acumulada:
-Frecuencias acumuladas “menos que” (Fa-): Indican el número de
observaciones en la distribución que son menores al límite superior de
cada una de las clases (valor individual o categoría de respuesta) en que
fueron organizados los datos.
-71 tiene 21 años o más y este grupo representa el 52,2% del total.
-Estos representan el 77,4% del total de los estudiantes. • Los que tienen
padres con secundario incompleto o más, son 47 y representan el 35,4%
del total.
III.Medidas de Tendencia Central, Dispersión y Asimetría: valores atípicos y tiende a desplazarse del centro de la distribu-
ción hacia el lado en dónde están esos valores atípicos. Cuando es-
Medias de Tendencia Central: tamos frente a esta situación se aconseja no usar la media aritmética
como medida representativa del conjunto.
Tienden a representar al conjunto de datos o a resumir toda la
información en un solo número y hay distintas formas de plantear el
problema.
Media Aritmética:
La media aritmética X̅ de un conjunto de datos de una variable numérica
“X”, es el resultado de sumar todos los valores del conjunto y dividir esa
suma por el total n de observaciones que componen el conjunto.
Distribución de estudiantes de universidades privadas, según
Sumar todas las observaciones y dividir por cada uno de los casos. cantidad de hijos. Posadas en el 2018.
Cantidad total
•Propiedades: Cantidad de hi-
Estudiantes (fi) Xi*Fi del producto/ n
jos
-1° Propiedad: ( X̅ )
0 30 0
1 15 15
2 4 8
3 1 3
7 1 7
8 2 16
12 1 12
Total 54 61 1,13
Fuente: elaboración propia
El promedio se modifica porque no resiste los valores atípicos de 0.48
paso a 1,13. Valores atípicos alteran a la media aritmética.
-2° Propiedad: El promedio es una medida calculada a partir de todos y -3° Propiedad: Se denomina residuo o desvío individual de un dato
cada uno de los datos de una serie, en consecuencia, resume apropiada- cualquiera de la serie, con respecto a la media aritmética de todo el con-
mente la información del conjunto. Sin embargo, por esta propiedad, en junto, a la diferencia entre el valor de ese dato y el valor de X̅.
ciertas situaciones de trabajo puede perder eficacia como medida “repre- Residuo o Desvío Individual (di): resta de cada dato de la distribución –
sentativa” del conjunto de datos. el promedio aritmético. Este nos brinda la información de la distancia a
Cuando estamos en una situación de trabajo en donde hay valores atípi- la cual esta supuesta cada dato de la media aritmética, tendremos tantos
cos (valores fuera de lo normal o valores que no se esperan) como esos desvíos como observaciones tengamos. Según sea el desvío mayor, me-
valores son tenidos en cuenta, a la hora de sumar todas las observacio- nor o igual al promedio vamos a tener desvíos individuales positivos, ne-
nes, esos valores atípicos arrastran a la media aritmética hacia el lado gativos o nulos.
donde se encuentran. La media aritmética no resiste la presencia de
-Tienen la propiedad de que la suma de todos los desvíos individuales El procedimiento a seguir para el cálculo de x dependerá del estado en el
(teniendo en cuenta cada uno con su signo negativo, nulo o positivo) es que se encuentran los datos a trabajar. Esto es:
siempre igual a cero.
-¿Se trata de datos en el estado “bruto” de la matriz de datos (sin ningu-
Cant. Veces que na forma de resumen)?
Estudiantes vacacionó el año di
-¿Se trata de datos resumidos en un arreglo de frecuencias?
pasado
1 3 1,9 -¿Se trata de datos resumidos en una distribución de frecuencias con
2 1 -0,1 intervalos?
3 1 -0,1
4 1 -0,1 *Datos sin resumir:
5 2 0,9 El procedimiento de cálculo consiste en aplicar estrictamente y paso a
6 1 -0,1 paso, el concepto de la media aritmética. O sea: “sumar todos los datos
7 1 -0,1 del conjunto y luego, dividir esa suma por el total n de observaciones de
8 0 -1,1 la serie”.
9 0 -1,1
10 1 -0,1 *Datos agrupados en arreglo de frecuencias:
11 0 El resumen en arreglo de frecuencias permite identificar a cada dato por
1,1 su valor individual y, por ello, el cálculo se realiza de igual modo que en
-4° Propiedad: la situación anterior: mando todas las observaciones individuales y divi-
diendo la suma por n.
Pregunta estadística: ¿Cuál es la cantidad promedio de hijos que tie-
nen los estudiantes de universidades privadas?
Cantidad total
Cantidad de hijos Estudiantes (fi) Xi*Fi del producto/
n ( X̅ )
0 34 0
1 15 15
2 4 8
3 1 3
Total 54 26 0,48
Fuente: elaboración propia
1° Cada valor de la variable * su correspondiente frecuencia absoluta.
•Cálculo de la Media Aritmética: (Cantidad de hijos / Estudiantes)
2° Sumar todos esos productos. (0+15+8+3) = 26 4° Dividir por la cantidad total de unidades observadas (n).
(1042500/54)
3° Dividir por la cantidad total de casos. (26/54) = 0,48
El ingreso promedio de los hogares de los estudiantes
de universidades privadas en Posadas en el 2018 es de
La cantidad promedio de hijos que tienen los estu- aproximadamente 19.305,56.
diantes de universidades privadas de Posadas en el
2018 no llega a un hijo.
Medidas de variación o dispersión:
*Datos agrupados en una distribución con intervalos:
Cuando los datos se encuentran agrupados en una distribución con in- •Variancia (σ2): Es el promedio de los cuadrados de los desvíos de la
tervalos, es necesario basar el cálculo de x en un procedimiento que no media aritmética.
considere a los valores individuales, ya que estos no son conocidos en
esta situación de trabajo.
No tenemos los valores individuales lo que nos presenta esa tabla son in-
tervalos (grupos de valores). Entonces:
Pregunta estadística: ¿Cuál es el ingreso promedio de los hogares de
Cuando uno realiza un promedio aritmético hay algo que suma y divide
los estudiantes de universidades privadas?
por la cantidad de casos.
Estudiantes de universidades privadas, según Ingreso del hogar en Posa-
1°Tener la media aritmética.
das en el 2018.
Estudian- 2°Calcular cada uno de los desvíos individuales.
Ingresos PM
tes (Fi) PM*Fi
3°Todos los desvíos individuales elevarlos al cuadrado (2).
5000 7500 2 6250 12500
7500 10000 3 8750 26250 4°Sumar todos esos cuadrados y esa suma dividirla por la cantidad de
10000 12500 3 11250 33750 caos.
12500 15000 5 13750 68750
La ventaja que tiene el O2 es que es muy utilizada porque la media arit-
15000 17500 5 16250 81250
mética es muy utilizada entonces como medida de dispersión asociada
17500 20000 5 18750 93750
viene la variancia. Y la desventaja que posee esta medida es que el resul-
20000 22500 9 21250 191250
tado que da la variancia queda expresado en la misma unidad de medida
22500 25000 17 23750 403750
de la variable, pero elevada al cuadrado. Por ejemplo, edades de los estu-
25000 27500 5 26250 131250
diantes, calculamos la edad promedio de los estudiantes y la variancia de
Total 54 1042500 19305,56 la edad de los estudiantes el resultado de la variancia va a estar medido
1° Calcular el punto medio (PM) o marca de clase en intervalos. en años al cuadrado porque la unidad de medida queda expresada al
(Xi+Fi)/2. cuadrado, el problema allí es que cuando una unidad de medida queda
2° Cada PM * su respectiva Fi (6250*2). elevada al cuadrado no se puede interpretar entonces en términos de re-
dactar un informe estadístico no tiene sentido.
3° Sumar todos los productos.
•Desvío Estándar (σ): es la raíz cuadrada de la variancia. la variabilidad promedio de los datos con respecto a la media
aritmética expresada en %.
Si el CV da 0% no hay variabilidad, todos los datos son iguales no existe
diferencia entre los datos. Si me da 100% dispersión extrema, los datos
La ventaja que presenta la O es que es la medida de dispersión mas utili- son muy deferentes entre si con respecto a la media aritmética.
zada. No porque la media aritmética sea la medida más común y el des-
vío estándar viene a acompañarla sino que además la variancia tiene el
problema en el que el resultado queda expresado en la unidad de medida
elevada al cuadrado y el desvío estándar viene a resolver ese problema al
aplicar la raíz cuadrada es decir que el desvío estándar es la medida de
dispersión que voy a utilizar para acompañar a la media aritmética y para
contar como se dispersan los datos en promedio alrededor de la media Mediana:
aritmética cuando realizo un informe estadístico. Su desventaja es que
solo se usa cuando trabajo con la media aritmética es decir cuando se -La mediana (Ma) de una distribución es el dato que ocupa la posición
mide la dispersión promedio de los datos con respecto a la media arit- central del conjunto de observaciones, debiendo estar los datos
mética. previamente ordenados en forma ascendente (o descendente) de
magnitud.
-El 50% de los estudiantes vacacionaron hasta una vez o como máximo
1° Ordenar las observaciones. Como la cantidad de casos es par
una vez, mientras que la otra mitad de los estudiantes declaro haber ido
determinar las dos posiciones centrales.
de vacaciones el año pasado 1 ves o más.
P1= n/2 (54/2)= 27. -La mitad de los estudiantes de las universidades privadas tienen madres
cuyo nivel educativo no supera el terciario completo.
P2= n/2+1 (54/2+1)= 28.
- La mitad de los estudiantes de las universidades privadas tienen
2° Como ubicar esas posiciones. Observando el arreglo de frecuencias
madres cuyo nivel educativo de Terciario Completo o más.
vemos que hay 34 estudiantes que manifestaron no tener hijos, es decir
que el valor 0 hijos se manifestó 34 veces en donde están contenidas *Datos resumidos en una distribución de intervalos:
ambas posiciones, nuestra mediana se encuentra en el valor 0 hijos.
a. determinar el punto medio “teórico” (o centro geométrico) de la serie
-La mitad de los estudiantes no tienen hijos. haciendo: Posición Ma = n/2
-El 25% de los ingresantes universitarios finalizaron el secundario en el Cada ingresante de una carrera universitaria según
año 2011 o en años anteriores. la cantidad de hijos en Posadas en el 2018.
N° de en-
¿Cómo ubicar el dato que está en la posición del Q3? cuesta Cantidad de hijos posición
1°Ordenar los datos. 36 0 1
35 0 2
2° Ubicar la posición del Q3. 34 0 3
3° Buscar el dato que está en esa posición. 33 0 4
32 0 5
-El 75% de los ingresantes universitario finalizaron sus estudios secun-
30 0 6
darios como máximo en el año 2014.
28 0 7
25 0 8
23 0 9
•Deciles (D):
22 0 10 Estudiantes de universidades privadas según ingreso
18 0 11 del hogar. Posadas en el 2018.
15 0 12 Estudiantes Posición frecuencia
Ingresos
12 0 13 (Fi) absoluta
10 0 14 5000 7500 2 2
9 0 15 7500 10000 3 5
8 0 16 10000 12500 3 8
7 0 17 12500 15000 5 13
5 0 18 15000 17500 5 18
2 0 19 17500 20000 5 23
27 1 20 20000 22500 9 32
26 1 21 22500 25000 17 49
20 1 22 25000 27500 5 54
13 1 23 Total 54
D2 20% de los estudiantes que provienen de hogares más pobres.
11 1 24
29 2 25 1°Ordenar los datos.
24 2 26
2° Ubicar posición del D2 [(1*n)/10] (2*54)/10=10,8 (11 aprox.).
21 2 27
19 2 28 3° Ubicar dato en esa posición acumular las Frecuencias absoluta.
16 2 29 Formula de interpolación, manera más fácil promediar el intervalo
14 2 30 (12.500+15.000)/2=$13.750
4 2 31
-El 20% de los estudiantes de universidades privadas provienen de hoga-
3 2 32
res donde el ingreso es de =$13.750 o menos.
1 2 33
31 3 34 D8 20% de los estudiantes que provienen de hogares más ricos.
17 3 35
1°Ordenar los datos.
6 4 36
2° Ubicar posición del D2 [(1*n)/10] (8*54)/10=43,2 (44 aprox.).
3° Ubicar dato en esa posición acumular las Frecuencias absoluta.
Formula de interpolación, manera más fácil promediar el intervalo
(22500+25.000)/2=$23.750
-El 20% de los estudiantes de universidades privadas que provienen de
*Tabla de distribución en intervalos de clase: hogares con mayor ingreso es de $23.750 o más.
•Centiles(c):
-Son 99 valores de la distribución -previamente ordenada- que divide al
conjunto de datos en 100 partes iguales, cada una con el 1% de los datos.