I.Investigacion Estadistica

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 24

I.

La Investigación Estadística: Es preguntas se originan por el investigador, ajustándose a principios,


conceptos y procedimientos plenamente reconocidos y aceptados para
¿Qué es la Estadística?
tal fin: la metodología de investigación cuantitativa.
“La estadística es la ciencia que trata sobre la obtención de información a
El diseño metodológico podrá ser más o menos complejo, dependiendo
partir de datos numéricos[...] Para la mayoría de las personas que
ello de la complejidad del fenómeno en estudio, del carácter de los
utilizan la estadística, e incluso para muchos estadísticos profesionales,
resultados buscados y de las condiciones prácticas bajo las que se llevará
la estadística es la disciplina que proporciona instrumentos e ideas que
a cabo.
permiten utilizar datos numéricos para profundizar en la comprensión de
distintos temas [...] A pesar de que la estadística se fundamenta en una Un buen diseño metodológico de la investigación es de extrema
sólida base matemática, nuestro interés se centra en la estadística importancia para:
aplicada, que se puede dividir en tres campos de estudio: el análisis de
-Orientar correctamente la construcción y obtención de los datos
datos, la obtención de datos y la inferencia estadística”.
apropiados al problema y a la solución buscada,
Es una disciplina que aporta los conocimientos y herramientas
-Asignar validez a los resultados que se obtengan de los datos
insustituibles para:
recogidos,
-Diseñar y aplicar procedimientos de recolección de datos
-Optimizar los esfuerzos de todo tipo que se dediquen al trabajo,
(experimentos, muestras, censos, registros administrativos y fuentes
secundarias), referidos a un conjunto numeroso de personas, animales, -Valorar las conclusiones de una investigación.
objeto, etc.; necesarios para el estudio de un fenómeno de nuestra esfera
*Preguntas de investigación: Toda investigación surge y es guiada por
de interés científico, o de toma de decisiones.
una o varias preguntas de generales o supuestos que el investigador
-Organizar y resumir los datos masivos recogidos. formula sobre las cuestiones centrales de su problema de trabajo. Su
valor es de actuar el tema de trabajo, abarca el objeto de estudio y orienta
-Describir y analizar a las personas, animales u objetos observados,
la estrategia de abordaje al tema.
mediante los datos organizados y resumidos.
-¿Qué dimensión tiene el mercado de usuarios de Internet en Argentina?
-Realizar inferencias sobre la población de la que provienen los datos
recogidos, cuando estos se originan en procedimientos muestrales. *Preguntas estadísticas: Cada una de estas preguntas generales deriva de
otra pregunta más especifica que tenderán a expresar el problema en
-Obtener conocimientos e información sobre el fenómeno en
términos numéricos concretos.
estudio, a partir de interpretar los resultados del análisis estadístico.
-¿Cuántos son los usuarios efectivos de Internet en nuestro país?
•Problema de Trabajo e Investigación Estadística: A estos tipos de
problema de trabajo se originan preguntas (explícitas o implícitas) que -¿En qué medida ha crecido el número de usuarios en los últimos años?
nos formulamos sobre el tema.
Los Datos estadísticos: *Variables Numéricas o Cuantitativas: denota una cantidad del
individuo observado y sus datos se expresan en números.
Un dato es un registro ya sea numérico o no, que se obtiene como
resultado de observar cierta característica de interés en el individuo que Discretas Continuas
se constituye como objeto de estudio. Solamente se expresan en Se expresan en números reales.
números enteros.
•Unidad de Análisis: Es la persona, animal o cosa, sometida a la
Por ejemplo: número de personas Por ejemplo: la estatura (1.66).
observación/medición y a la cual harán referencia los datos.
en un hogar.
-“Persona residente en la República Argentina que en el año 2001 que es *Variables Categóricas o Cualitativas: denotan una cualidad del
usuaria del servicio de Internet”. individuo y sus datos se expresan en categoría predefinida del atributo
observado.
•Población de Estudio: Conjunto de todas las unidades de análisis que
serán consideradas en la investigación. Nominales Ordinales
Clasifica a los individuos son Clasifica a los individuos
-“Todos los usuarios del servicio de Internet en la Argentina, en el año
establecer ningún tipo de orden o estableciendo un orden entre
2001”.
jerarquía entre ellos. ellos.
•Variables: Denominaremos variable, a toda característica que será Por ejemplo: categoría varón- Por ejemplo: variable nivel
observada/medida en los individuos de la población en estudio. Toda mujer de la variable sexo. socioeconómico, cuya categoría
característica de los individuos que es relevante en una investigación, sin es alta, media baja.
dudas variará a lo largo de la población en estudio. •Forma de Observación Transversal y Longitudinal: los datos
estadísticos de una variable en estudio se pueden obtener:

Observación Transversal Observación Longitudinal


Observando al mismo tiempo y Observando a un mismo
bajo las mismas condiciones a un individuo, bajo las mismas
gran número de individuos condiciones a lo largo de
diferentes. numerosos momentos diferentes
en el tiempo.
Fuente de datos:
Los datos a emplear en una investigación pueden provenir de diferentes
fuentes u orígenes y encontrarse en diferentes estados de elaboración.
Podemos clasificarlos en:

*Datos Primarios: son aquellos que se encuentran en la forma original


en que fueron registrados (datos brutos), sin haber sufrido ningún tipo
de tratamiento o elaboración posterior. Este tipo de dato según su Censo y Muestra:
fuente pueden ser:
La población de estudio puede ser observada (transversalmente)
Propios Registro de terceros de dos maneras.
Cuando fueron diseñados con el Datos que se recopilan con fines
fin específico de la investigación y
ajenos a los de la investigación, Enumeración completa Por Muestra
expresamente recolectados por pero que por su definición y Consiste en observar las variables Consiste en seleccionar una parte
quien los utilizara. procedimientos de captación se de estudio en todos los individuos de la población (la muestra),
ajustan a nuestras necesidades. que forman la población. observar a los individuos elegidos
Datos con fines administrativos. Usualmente se denomina “censo” en las variables en estudio,
Por Ejemplo: los datos recogidos Por ejemplo: datos que se a esta forma de recopilación de elaborar conclusiones a partir de
mediante la encuesta realizada a registran en el legajo de cada datos. los datos de la muestra y, cuando
los usuarios de internet. alumno de la facultad. esto es posible, generalizar estas
conclusiones al conjunto de toda
la población de origen (inferir
*Datos Secundarios: Son aquellos que fueron producidos (diseñados y conclusiones sobre la población a
recopilados) por terceros, con un fin ajeno al de la investigación y que ya partir de los resultados
han sido sometidos a alguna forma de elaboración posterior. En muestrales).
consecuencia, estos datos siempre se originan en terceras fuentes. Por
ejemplo: los datos que publican las oficinas de estadística de
instituciones públicas, de las empresas, etc.
II.Organización y Descripción Inicial de los Datos: Aun cuando la matriz de datos constituye una organización que facilita
el acceso a los registros, es indudable que nuestra capacidad cognitiva no
Los Datos y la Organización:
nos permite aprehender el comportamiento de los datos y obtener
Una vez obtenidos los datos primarios, recogidos mediante alguna de las información a partir de ellos.
estrategias de observación transversal, el investigador debe encontrar el
Esta limitación de procesar mentalmente tal cantidad de información,
mejor camino para convertirlos en información sobre los individuos
nos obliga a recurrir a nuevas herramientas que permitan resumir los
observados; información que deberá acercar respuestas a las preguntas
datos haciendo visibles aspectos que de otra forma permanecerían
que dieron inicio a la investigación. La manera de organización que se
ocultos. Ahora bien, decidir sobre cuáles son las herramientas más
utiliza es la conocida como “Matriz de datos” que ordena los datos en
apropiadas depende en primer lugar de las preguntas que intentemos
una planilla rectangular, posibilitando su tratamiento en los programas
responder y que, como ya dijimos, son las que guían todo el proceso de
informáticos.
análisis.
Matriz de Datos:
Las Distribuciones de Frecuencias para el Análisis Univariado:
Es una forma de organizar los registros originales (de los cuestionarios,
Cualquier análisis requiere de la exploración de cada una de las variables
entrevistas, archivos, etc.), por la cual se ponen en relación los
de la matriz de datos. Las distribuciones de frecuencias constituyen un
individuos con sus datos y permite visualizar estas relaciones. Consiste
primer resumen de los datos, que nos permitirán formarnos una primera
en un arreglo matricial de filas y columnas:
idea de cada una de las características consideradas en la investigación,
construir nuevas clasificaciones, evaluar la posibilidad de aplicar otras
herramientas de análisis, reformularnos algunas de las preguntas
iniciales, plantear otras, etc.

La construcción de una distribución de frecuencias es un procedimiento


sencillo e intuitivo que consiste en contar el número de veces que se
repite cada valor de la variable en estudio (sea esta cualitativa o
numérica), en el conjunto de todas las observaciones.

•Frecuencia Absoluta: es el número de veces que se repite un mismo


valor de una variable en un conjunto de los “n” individuos.
Cada fila de la matriz representa a un individuo de la muestra o
•Distribución de Frecuencia: Cosiste en un arreglo en el cual se
población en estudio y cada columna identifica a una de las variables
presentan los valores de la variable y las frecuencias absolutas
observadas. En las celdas se ubican los valores correspondientes a los
computadas para cada uno de ellos. Una condición que deben cumplir la
individuos en cada una de estas variables (numéricas o categóricas).
distribución de frecuencias absolutas es que la suma de todas ellas es
igual al total “n” de individuos observados.

Proceso de Análisis para una Descripción Inicial de los Datos: •Variables Categóricas:
*Recurso numérico: Tabla de distribución de frecuencias.

*Recurso Grafico:
-Grafico de barras: recoge en el eje horizontal (en este caso el eje no es
numérico) las categorías correspondientes a la variable (en nuestro
ejemplo varón y mujer). El eje vertical (de las Y) es un eje numérico, con •Variables Numéricas: Cuando se construyen distribuciones de
una escala en la que se pueden representar los valores de frecuencias frecuencias para variables cuantitativas, los recursos numéricos y
observados. Las alturas de las barras de cada categoría expresan la gráficos difieren según las mismas presenten pocos o muchos valores
frecuencia absoluta correspondiente. diferentes. Esta distinción entre las variables numéricas es al único
efecto de poder destacar las particularidades de las técnicas que se
utilizan en uno y otro caso.

-Gráfico de sectores o de torta: divide una circunferencia en porciones


donde cada una de ellas representa una categoría de la variable; su
“tamaño” es proporcional a la frecuencia absoluta de esa categoría y el
círculo representa al total de casos.
•Variables numéricas con pocos valores:
*Recurso numérico: Arreglo de frecuencias: Tabla en la que se
presentan ordenados por magnitud (creciente o decreciente) los valores
individuales observados de la variable en estudio y sus correspondientes
frecuencias.

-El gráfico permite observar inmediatamente que, como se describiera a


partir de los datos de la tabla, los valores 0, 1 y 2 horas de mirar TV
concentran el mayor número de alumnos y que es poco frecuente que los
estudiantes miren más de 5 horas de TV.
-A partir de la lectura de la tabla, se puede señalar que mayoritariamente
•Variables numéricas con muchos valores:
los alumnos miran TV 2 horas o menos por día, y son pocos los que le
dedican 5 horas o más. *Recurso numérico: Distribución de intervalos de clase: tabla en la
que se presentan los datos agrupados en ciertas clases o intervalos de
*Recurso gráfico:
valores de la variable de estudio y las frecuencias para cada clase o
-Gráfico de bastones: utiliza un sistema de ejes cartesianos, en cuyo eje intervalo.
de abscisas (eje X) se representan los valores de la variable y en las
ordenadas (eje Y) las frecuencias absolutas. Para cada valor de la variable
se levanta una línea (o bastón) cuya altura es la frecuencia absoluta
correspondiente a ese valor. Debe destacarse que en este tipo de gráficos
se traza una línea y no una barra, debido a que a cada valor de la variable
le corresponde un punto en el eje de las abscisas.
-Leyendo la tabla, vemos que (en cuanto a su edad) el grupo es bastante de esta distribución sería señalando que en este conjunto existe una
heterogéneo, con edades que van desde los 17 a los 48 años; sin embargo, concentración de los datos en los primeros grupos de edades (es muy
hay 90 estudiantes que no exceden los 24 años, y entre ellos el mayor frecuente la presencia de estudiantes “jóvenes”) y pocos casos de
número se concentra entre los 17 y 20 años de edad. Solamente 3 superan estudiantes en las edades más altas.
los 40 años. Una vez más, la descripción de la edad de los
estudiantes no se puede reducir a la mención de lo hegemónico que
resulta el grupo de edades entre 17 y 20 años. Por ello, se intenta expresar
la diversidad de edades en este grupo.

*Recurso gráfico: Histograma: Se trata de un gráfico de barras en un


sistema de ejes cartesianos, en cuyo eje de las X se representa la variable
en estudio, y en el eje de las Y las frecuencias. En él, se hace
corresponder a cada intervalo de clase una barra cuya altura coincide con
la frecuencia de esa clase.

Las distribuciones en cuanto a su forma pueden ser de tres tipos (ver


gráfico):

-Simétricas: cuando los datos se concentran en los valores centrales de


la distribución, y las frecuencias decrecen hacia ambos extremos de
manera simétrica.

-Asimétricas a la derecha: cuando los datos se concentran a la


izquierda y disminuyen las frecuencias a medida que aumentan los
valores de la variable.

-En este caso la forma del histograma nos indica la fuerte concentración -Asimétricas a la izquierda: cuando los datos se concentran a la
de estudiantes entre 17 y 21 años con una sostenida disminución del derecha de la distribución y las frecuencias disminuyen gradualmente a
número de ellos a partir de esa edad. Otra manera de expresar la forma medida que los valores de la variable decrecen.
•Frecuencia Acumulada:
-Frecuencias acumuladas “menos que” (Fa-): Indican el número de
observaciones en la distribución que son menores al límite superior de
cada una de las clases (valor individual o categoría de respuesta) en que
fueron organizados los datos.

-Frecuencias acumuladas “más que” (Fa+): Indican el número de


observaciones en la distribución que son mayores al límite inferior de
cada una de las clases (valor individual o categoría de respuesta) en que
•Frecuencia Relativa: mide la proporción de datos del conjunto que fueron organizados los datos.
presentan un determinado valor de la variable, generalmente expresado
en porcentaje. -Frecuencias acumuladas relativas (Far): Indican la proporción o
porcentaje de observaciones acumuladas respecto al total de datos.

-20 estudiantes tienen entre 21 y 22 años, y constituyen el 14,7% del total


del curso.

-85 estudiantes tienen 22 años o menos y representan el 62,5% del total.

-71 tiene 21 años o más y este grupo representa el 52,2% del total.

-Cuando se trata de una variable ordinal, el razonamiento es análogo al


desarrollado para las variables numéricas. Por ejemplo, en el caso de la
variable Nivel de estudios del Padre la información se podría organizar
-En la tabla se puede leer, por ejemplo, que los 15 estudiantes de entre 23 en una tabla como la siguiente:
y 26 años, representan el 11% del total.
-Los 17 estudiantes cuyos padres tienen secundario incompleto,
representan el 12,8%.

-Son 103 los estudiantes cuyos padres no superaron el secundario


incompleto (tienen un nivel de estudios de secundario incompleto o
menos).

-Estos representan el 77,4% del total de los estudiantes. • Los que tienen
padres con secundario incompleto o más, son 47 y representan el 35,4%
del total.
III.Medidas de Tendencia Central, Dispersión y Asimetría: valores atípicos y tiende a desplazarse del centro de la distribu-
ción hacia el lado en dónde están esos valores atípicos. Cuando es-
Medias de Tendencia Central: tamos frente a esta situación se aconseja no usar la media aritmética
como medida representativa del conjunto.
Tienden a representar al conjunto de datos o a resumir toda la
información en un solo número y hay distintas formas de plantear el
problema.

Media Aritmética:
La media aritmética X̅ de un conjunto de datos de una variable numérica
“X”, es el resultado de sumar todos los valores del conjunto y dividir esa
suma por el total n de observaciones que componen el conjunto.
Distribución de estudiantes de universidades privadas, según
Sumar todas las observaciones y dividir por cada uno de los casos. cantidad de hijos. Posadas en el 2018.
Cantidad total
•Propiedades: Cantidad de hi-
Estudiantes (fi) Xi*Fi del producto/ n
jos
-1° Propiedad: ( X̅ )
0 30 0
1 15 15
2 4 8
3 1 3
7 1 7
8 2 16
12 1 12
Total 54 61 1,13
Fuente: elaboración propia
El promedio se modifica porque no resiste los valores atípicos de 0.48
paso a 1,13. Valores atípicos alteran a la media aritmética.

-2° Propiedad: El promedio es una medida calculada a partir de todos y -3° Propiedad: Se denomina residuo o desvío individual de un dato
cada uno de los datos de una serie, en consecuencia, resume apropiada- cualquiera de la serie, con respecto a la media aritmética de todo el con-
mente la información del conjunto. Sin embargo, por esta propiedad, en junto, a la diferencia entre el valor de ese dato y el valor de X̅.
ciertas situaciones de trabajo puede perder eficacia como medida “repre- Residuo o Desvío Individual (di): resta de cada dato de la distribución –
sentativa” del conjunto de datos. el promedio aritmético. Este nos brinda la información de la distancia a
Cuando estamos en una situación de trabajo en donde hay valores atípi- la cual esta supuesta cada dato de la media aritmética, tendremos tantos
cos (valores fuera de lo normal o valores que no se esperan) como esos desvíos como observaciones tengamos. Según sea el desvío mayor, me-
valores son tenidos en cuenta, a la hora de sumar todas las observacio- nor o igual al promedio vamos a tener desvíos individuales positivos, ne-
nes, esos valores atípicos arrastran a la media aritmética hacia el lado gativos o nulos.
donde se encuentran. La media aritmética no resiste la presencia de
-Tienen la propiedad de que la suma de todos los desvíos individuales El procedimiento a seguir para el cálculo de x dependerá del estado en el
(teniendo en cuenta cada uno con su signo negativo, nulo o positivo) es que se encuentran los datos a trabajar. Esto es:
siempre igual a cero.
-¿Se trata de datos en el estado “bruto” de la matriz de datos (sin ningu-
Cant. Veces que na forma de resumen)?
Estudiantes vacacionó el año di
-¿Se trata de datos resumidos en un arreglo de frecuencias?
pasado
1 3 1,9 -¿Se trata de datos resumidos en una distribución de frecuencias con
2 1 -0,1 intervalos?
3 1 -0,1
4 1 -0,1 *Datos sin resumir:
5 2 0,9 El procedimiento de cálculo consiste en aplicar estrictamente y paso a
6 1 -0,1 paso, el concepto de la media aritmética. O sea: “sumar todos los datos
7 1 -0,1 del conjunto y luego, dividir esa suma por el total n de observaciones de
8 0 -1,1 la serie”.
9 0 -1,1
10 1 -0,1 *Datos agrupados en arreglo de frecuencias:
11 0 El resumen en arreglo de frecuencias permite identificar a cada dato por
1,1 su valor individual y, por ello, el cálculo se realiza de igual modo que en
-4° Propiedad: la situación anterior: mando todas las observaciones individuales y divi-
diendo la suma por n.
Pregunta estadística: ¿Cuál es la cantidad promedio de hijos que tie-
nen los estudiantes de universidades privadas?

Distribución de estudiantes de universidades privadas, según


cantidad de hijos. Posadas 2018.

Cantidad total
Cantidad de hijos Estudiantes (fi) Xi*Fi del producto/
n ( X̅ )
0 34 0
1 15 15
2 4 8
3 1 3
Total 54 26 0,48
Fuente: elaboración propia
1° Cada valor de la variable * su correspondiente frecuencia absoluta.
•Cálculo de la Media Aritmética: (Cantidad de hijos / Estudiantes)
2° Sumar todos esos productos. (0+15+8+3) = 26 4° Dividir por la cantidad total de unidades observadas (n).
(1042500/54)
3° Dividir por la cantidad total de casos. (26/54) = 0,48
El ingreso promedio de los hogares de los estudiantes
de universidades privadas en Posadas en el 2018 es de
La cantidad promedio de hijos que tienen los estu- aproximadamente 19.305,56.
diantes de universidades privadas de Posadas en el
2018 no llega a un hijo.
Medidas de variación o dispersión:
*Datos agrupados en una distribución con intervalos:
Cuando los datos se encuentran agrupados en una distribución con in- •Variancia (σ2): Es el promedio de los cuadrados de los desvíos de la
tervalos, es necesario basar el cálculo de x en un procedimiento que no media aritmética.
considere a los valores individuales, ya que estos no son conocidos en
esta situación de trabajo.
No tenemos los valores individuales lo que nos presenta esa tabla son in-
tervalos (grupos de valores). Entonces:
Pregunta estadística: ¿Cuál es el ingreso promedio de los hogares de
Cuando uno realiza un promedio aritmético hay algo que suma y divide
los estudiantes de universidades privadas?
por la cantidad de casos.
Estudiantes de universidades privadas, según Ingreso del hogar en Posa-
1°Tener la media aritmética.
das en el 2018.
Estudian- 2°Calcular cada uno de los desvíos individuales.
Ingresos PM
tes (Fi) PM*Fi
3°Todos los desvíos individuales elevarlos al cuadrado (2).
5000 7500 2 6250 12500
7500 10000 3 8750 26250 4°Sumar todos esos cuadrados y esa suma dividirla por la cantidad de
10000 12500 3 11250 33750 caos.
12500 15000 5 13750 68750
La ventaja que tiene el O2 es que es muy utilizada porque la media arit-
15000 17500 5 16250 81250
mética es muy utilizada entonces como medida de dispersión asociada
17500 20000 5 18750 93750
viene la variancia. Y la desventaja que posee esta medida es que el resul-
20000 22500 9 21250 191250
tado que da la variancia queda expresado en la misma unidad de medida
22500 25000 17 23750 403750
de la variable, pero elevada al cuadrado. Por ejemplo, edades de los estu-
25000 27500 5 26250 131250
diantes, calculamos la edad promedio de los estudiantes y la variancia de
Total 54 1042500 19305,56 la edad de los estudiantes el resultado de la variancia va a estar medido
1° Calcular el punto medio (PM) o marca de clase en intervalos. en años al cuadrado porque la unidad de medida queda expresada al
(Xi+Fi)/2. cuadrado, el problema allí es que cuando una unidad de medida queda
2° Cada PM * su respectiva Fi (6250*2). elevada al cuadrado no se puede interpretar entonces en términos de re-
dactar un informe estadístico no tiene sentido.
3° Sumar todos los productos.
•Desvío Estándar (σ): es la raíz cuadrada de la variancia. la variabilidad promedio de los datos con respecto a la media
aritmética expresada en %.
Si el CV da 0% no hay variabilidad, todos los datos son iguales no existe
diferencia entre los datos. Si me da 100% dispersión extrema, los datos
La ventaja que presenta la O es que es la medida de dispersión mas utili- son muy deferentes entre si con respecto a la media aritmética.
zada. No porque la media aritmética sea la medida más común y el des-
vío estándar viene a acompañarla sino que además la variancia tiene el
problema en el que el resultado queda expresado en la unidad de medida
elevada al cuadrado y el desvío estándar viene a resolver ese problema al
aplicar la raíz cuadrada es decir que el desvío estándar es la medida de
dispersión que voy a utilizar para acompañar a la media aritmética y para
contar como se dispersan los datos en promedio alrededor de la media Mediana:
aritmética cuando realizo un informe estadístico. Su desventaja es que
solo se usa cuando trabajo con la media aritmética es decir cuando se -La mediana (Ma) de una distribución es el dato que ocupa la posición
mide la dispersión promedio de los datos con respecto a la media arit- central del conjunto de observaciones, debiendo estar los datos
mética. previamente ordenados en forma ascendente (o descendente) de
magnitud.

A diferencia de los promedios (la media aritmética en nuestro caso) que


resultan de una operación basada en todos los datos de la serie, la
mediana marca la tendencia central del conjunto tomando en
consideración a uno solo de ellos. La mediana no se calcula, se
determina para variables numéricas y categóricas ordinales porque
en estos dos tipos de variables se cumple la condición de ordenar los
datos.

Medida relativa: comparar la dispersión entre dos grupos de


variables expresadas en distintas unidades de medida.

•Coeficiente de Variación (CV): indica la cantidad de variación


expresada como un porcentaje de la media aritmética.
A ambos lados de la categoría Mediana se ubica la misma cantidad de
observaciones, unas de categoría igual o inferior a Ma y otras de cate-
goría igual o superior a ella.
-Es decir, aproximadamente el 50% de los visitantes del ejemplo, asignó
a la Fiesta una calificación “buena” o inferior y la otra mitad la calificó
como “buena” o superior.
3° Propiedad: la mediana de datos numéricos tiene la propiedad de ser
resistente a la presencia de valores atípicos en el conjunto de observacio-
nes, porque como la Ma es un dato no es una medida calculada sino que
hay que ubicar el dato que esta en el centro si hay valores atípicos que en
general se ubican en los extremos, la Ma como es el dato que esta en el
centro no da cuenta de la presencia de estos valores atípicos es por eso
que no se ve afectada.
4° Propiedad: la Ma puede modificarse si se modifica la cantidad de
La mediana es el dato que está en el centro de la distribución, satos de la serie.
primeramente, se ordenan los datos. La mediana divide a la distribución 5° Propiedad: por ser una medida que representa a todo el conjunto de
en dos partes iguales hacia un lado se encuentra el 50% de los datos que datos mediante uno solo de sus valores, cuando se trabaja con datos nu-
son iguales o menores a la mediana y hacia el otro lado de la mediana méricos la Ma no aporta elementos sobre la conformación general del
queda el otro 50% de dato que son iguales a la mediana o mayores. grupo de observaciones. No le podemos pedir a la mediana mas de lo
que nos cuenta nos da la información de lo que ocurre en el centro de la
•Propiedades: distribución, pero no informa si existen o no datos atípicos o cuan dife-
rentes son los valores extremos en relación con el dato común. Solo nos
1° Propiedad: es una medida basada en un concepto fácilmente com-
cuenta lo que ocurre en el centro de la distribución.
prensible, que requiere de operaciones simples para aplicarla (ordenar y
ubicar la posición central). •Formas de determinación:
2° Propiedad: Siendo Ma el dato que ocupa el lugar central de la distri- *Datos sin resumir en la matriz:
bución ordenada, el concepto tiene significado y, en consecuencia, es
aplicable a datos categóricos ordinales. Tengo que tener en cuenta en primera instancia si la cantidad de casos
(n) es impar o par ¿Por qué? Porque si estoy trabajando con un tamaño
Viendo un ejemplo: se analiza las respuestas sobre “Calificación a la fies- de muestra o de población que es impar va a haber un único valor
ta de la yerba mate” en apóstoles ene l año 2001.
central que va a ser la mediana. De allí se aplica estrictamente el
Calificaciones (R, MB, MB, B, M, MB, R, MB, B) concepto de la mediana: ordenar los datos y ubicar el valor que se
Conjunto ordenado: (M, R, R, B, B, MB, MB, MB, MB) encuentra en el centro del conjunto de datos.

En la posición 5 encontraremos la Ma= Bueno. Cant. Veces que Identificar canti-


Estudiantes vacacionó el año dad de casos ob-
pasado servados
central y promediarlos para tener un único dato que me sirva de
8 0 1 mediana.
9 0 2
2 1 3
3 1 4
4 1 5
6 1 6
7 1 7
10 1 8
5 2 9
11 2 10
1 3 11
1° Ordenar los daros

2°Identificar cantidad de casos observados n=11 Estudiantes impar.

3° 6 es la posición en la que se ubica la Ma.

-El 50% de los estudiantes vacacionaron hasta una vez o como máximo
1° Ordenar las observaciones. Como la cantidad de casos es par
una vez, mientras que la otra mitad de los estudiantes declaro haber ido
determinar las dos posiciones centrales.
de vacaciones el año pasado 1 ves o más.

En cambio, si en la matriz de datos el conjunto de observaciones es par


habrá dos valores que ocuparan la posición central, en ese caso aplico el
concepto:
Cantidad de ma- Cantidad de ca- ordenar los P1= tamaño de la muestra(n)/2 (12/2)=6.
Estudiantes
terias aprobadas sos observados
datos, luego
P2= Tamaño de la muestra(n)/2 +1 (12/2+1)=7.
ubicar esos dos
2 5 1 6 y 7 no son la mediana, son nuestras posiciones centrales.
valores que
9 5 2
ocupan la
4 6 3 2° Ubicar esas posiciones (6 y 7)= (10 y 11).
8 7 4 posición
1 8 5 3° Calcular la mediana. (10+11)/2= 10,5 aproximadamente 11 materias.
5 10 6 -El 50% de los estudiantes observados tienen 11 materias aprobadas o
6 11 7
menos. Mientras que la otra mitad de los estudiantes tienen 11 materias
7 11 8
aprobadas o más.
12 11 9
11 13 10
10 14 11
3 15 12
*Datos numéricos resumidos en un arreglo de frecuencias: a-ubicar el lugar central (o los lugares si n es par) del conjunto ordenado
(posición de la categoría Ma),
En esta situación de trabajo el razonamiento debe seguir los mismos
pasos anteriores, considerando que en el arreglo de frecuencias los b-identificar el valor (o los valores si n es par) que ocupa esa posición (o
datos ya se encuentran ordenados por magnitud. El problema esas posiciones).
entonces consiste en:
Estudiantes de universidades privadas, según nivel educativo de la
a-ubicar el lugar central del conjunto ordenado (posición del valor Ma), madre. Posadas en el 2018.
Nivel Educativo Estudiantes (fi) Fa
b-identificar el valor (o los valores si n es par) que ocupa esa posición (o Primario incompleto 2 2
esas posiciones). Secundario incompleto 5 7
Secundario completo 8 15
Terciario incompleto 4 19
Distribución de estudiantes de las universi- Universitario Incompleto 2 21
dades privadas, según cantidad de hijos. Po-
Terciario completo 15 36
sadas en el 2018.
Universitario completo 13 49
Posgrado 5 54
Cantidad de Hijos Estudiantes (fi) Total 54
0 34 Fuente: elaboración propia.
1 15 1°Ordenar las observaciones.
2 4
2° Calcular las posiciones.
3 1
Total 54 P1= n/2=27 TC
Fuente: elaboración propia.
P2= n/2+1=28 TC
1° Observar la cantidad de observaciones para determinar si es par o
impar. Tenemos que ir acumulando los valores.

P1= n/2 (54/2)= 27. -La mitad de los estudiantes de las universidades privadas tienen madres
cuyo nivel educativo no supera el terciario completo.
P2= n/2+1 (54/2+1)= 28.
- La mitad de los estudiantes de las universidades privadas tienen
2° Como ubicar esas posiciones. Observando el arreglo de frecuencias
madres cuyo nivel educativo de Terciario Completo o más.
vemos que hay 34 estudiantes que manifestaron no tener hijos, es decir
que el valor 0 hijos se manifestó 34 veces en donde están contenidas *Datos resumidos en una distribución de intervalos:
ambas posiciones, nuestra mediana se encuentra en el valor 0 hijos.
a. determinar el punto medio “teórico” (o centro geométrico) de la serie
-La mitad de los estudiantes no tienen hijos. haciendo: Posición Ma = n/2

*Datos categóricos ordinales:


b. analizando las frecuencias acumuladas (“menor que”), identificar la clase -El 50% de los estudiantes provienen de hogares donde el ingreso es de
o intervalo (“clase mediana”) de la distribución en la que se ubica dicha $21.111 o menos.
posición;
Medidas de variación o dispersión:
c. estimar el valor mediana aplicando la siguiente fórmula de interpolación:
•Desviación Mediana (DMa): es el promedio de los desvíos individuales
(en valor absoluto) con respecto a la mediana.
Lo que hace esta medida es que la distancia de los datos con respecto a la
mediana como medida de tendencia central promedia esas distancias.

Estudiantes de universidades privadas, según ingreso


del hogar. Posadas en el 2018.
La principal ventaja es que es que nos permite medir la variabilidad para
Ingresos Estudiantes (Fi) Fa la Ma. Y su desventaja es que solo se usa para trabajar con la medida de
5000 7500 2 2 tendencia central Ma.
7500 10000 3 5
10000 12500 3 8
12500 15000 5 13
15000 17500 5 18
17500 20000 5 23
20000 22500 9 32 Modo/Moda:
22500 25000 17 49 El Mo de un conjunto de observaciones (numéricas o categóricas
25000 27500 5 54 nominales u ordinales) es el dato que mas veces se repite en la serie.
Total 54
Mo será el valor mas típico o recurrente que reúne la mayor frecuencia
21111
absoluta entre todos los calores (categorías) individuales observados
ene l conjunto de datos que se analiza.
1°Ordenar los datos de la distribución.

2° Ubicar si la distribución es par o impar.

3°Calcular la mediana. La mediana estaría ubicada entre los intervalos


de 20000 y 22500.

Formula de interpolación para encontrar el valor teórico de la mediana.

Li=20000 + ((n/2 – Fa (i-1)=23)/Fi=9)* a=2500. = $21.111 •Propiedades:


-Primera Propiedad: es una medida conceptualmente simple, fácil de
interpretar y de comunicar, que requiere únicamente del conteo para ser
determinada.
-Segunda Propiedad: por no requerir de ninguna forma de orden en los
datos, tiene significado y es aplicable a datos categóricos nominales (es
la única de las tres medidas de tendencia central que hemos tratado, po- -
sible de ser utilizada con este tipo de datos).
-Tercera Propiedad: cuando la diferencia entre la frecuencia máxima
observada (frecuencia modal) con alguna de las restantes no es muy
grande (no es muy deferente), el Mo como medida característica de la
distribución pierde relevancia. (cuando la frecuencia máxima del valor
Mo no tiene mucha diferencia con otra frecuencia de otro valor conviene
no utilizarla o utilizarla con recaudo a esta medida).
•Determinación del valor modal:
-Lo más típico es que los estudiantes de universidades privadas tengan
*Arreglos de frecuencia y datos categóricos: 19 años.
Distribución de estudiantes de universidades privadas, *Distribución de intervalos.
según su situación laboral en Posadas en el 2018.
Situación Laboral Fi Fr% En la situación de trabajo en la que los datos son numéricos y se
Trabajo 11 20% encuentran resumidos en una distribución con intervalos (como el
Busco trabajo 8 15% ejemplo de los gastos turísticos que se presentan a continuación), el Mo
No trabajo, solamente estudio 35 65% debe determinarse mediante el siguiente procedimiento de estimación,
Total 54 100% aceptado por convención:
Distribución de estudiantes de universidades privadas, -Lo más común
según su edad en Posadas en el 2018. en los 54
Edad Estudiantes estudiantes
18 1 observados en
19 23 que no trabajen
20 9 y se dedique
21 2
solamente a
22 5
23 6 estudiar.
24 2
25 1
26 2
36 1
37 1
41 1
Total 54
Asumiendo que la clase que presenta la mayor frecuencia absoluta de la Q1: el dato que divide a la distribución de tal manera que hacia la iz-
distribución (“clase modal”) es la que contiene entre sus datos al valor quierda queda el 25% de los datos que son iguales o menores al Q1 y del
modal, una vez identificada el valor del Mo se puede estimar mediante el lado derecho el 75% de los datos que son iguales o mayores al Q1.
siguiente procedimiento de interpolación: Q2=Ma: de igual manera el Q2 va a ser un dato que se ubique en el cen-
tro de la distribución al igual que la Ma que es una medida de tendencia
central, hacia la izquierda queda el 50% de los datos iguales o menores al
Q2 y en el lado derecho el otro 50% de los datos que son iguales o mayo-
res al Q2.
Q3: se divide hacia la izquierda va a quedar el 75% de los datos que son
iguales o menores que el Q3 mientras que del lado derecho nos queda el
25% de los datos que son iguales o mayores al Q3.
Los Q se pueden determinar para las variables numéricas y categó-
ricas ordinales.
*Procedimiento:
Matriz de ingresantes universitarios según
Medidas de Posición: el año de la finalizacion del secundario en
Posadas en el 2018.
•Cuartiles (Q): Encuesta Año Secundario posicion
36 1998 1
-Los cuartiles son 3 datos de la distribución -previamente ordenada- que
35 2017 2
dividen al conjunto de datos en 4 partes iguales, cada una con el 25% de
34 2016 3
los datos.
33 2019 4
32 2005 5
31 2000 6
30 2019 7
29 2002 8
28 2011 9
27 2018 10
26 2014 11
25 2015 12
24 2007 13
23 2013 14
22 2007 15
21 1996 16
Como identifico estos datos que van a ser los cuartiles, primero se orde- 20 1998 17
nan los datos y de esa manera identificar en la distribución: 19 2002 18
18 2000 19 -Son 9 datos de la distribución -previamente ordenada- que divide al
17 2008 20 conjunto de datos en 10 partes iguales, cada uno con el 10% de los datos.
16 1999 21 Los D se pueden determinar para las variables numéricas y categó-
15 2016 22 ricas ordinales.
14 1991 23
13 2016 24 *Procedimiento:
12 2015 25 D1: es el dato que divide a la distribución, previamente ordenada, en dos
11 2003 26 partes (que no son iguales) dejando hacia un lado el 10% de los daros
10 2014 27 que son iguales o menores al D1 y hacia el otro lado el 90% de los datos
9 2005 28 iguales o mayores.
8 2011 29
¿Cómo ubicar un Decil?
7 2000 30
6 2001 31 *Matriz:
5 2011 32
1°ordenar los datos.
4 2006 33
3 2019 34 2°Ubicar la posición del D.
2 2016 35 3° Buscar el dato que está en esa posición.
1 2000 36
¿Cómo ubicar el dato que está en la posición del Q1? D1= El 10% de los ingresantes a la carrera universitaria no tienen hijos.
(36/10=4).
1°Ordenar los datos.
El 90% de los ingresantes universitarios con más hijos manifestaron te-
2° Ubicar la posición del Q1. ner 0 hijos o más. (hacia el extremo superior están los ingresantes uni-
3° Buscar el dato que está en esa posición. versitarios que más hijos tienen).

-El 25% de los ingresantes universitarios finalizaron el secundario en el Cada ingresante de una carrera universitaria según
año 2011 o en años anteriores. la cantidad de hijos en Posadas en el 2018.
N° de en-
¿Cómo ubicar el dato que está en la posición del Q3? cuesta Cantidad de hijos posición
1°Ordenar los datos. 36 0 1
35 0 2
2° Ubicar la posición del Q3. 34 0 3
3° Buscar el dato que está en esa posición. 33 0 4
32 0 5
-El 75% de los ingresantes universitario finalizaron sus estudios secun-
30 0 6
darios como máximo en el año 2014.
28 0 7
25 0 8
23 0 9
•Deciles (D):
22 0 10 Estudiantes de universidades privadas según ingreso
18 0 11 del hogar. Posadas en el 2018.
15 0 12 Estudiantes Posición frecuencia
Ingresos
12 0 13 (Fi) absoluta
10 0 14 5000 7500 2 2
9 0 15 7500 10000 3 5
8 0 16 10000 12500 3 8
7 0 17 12500 15000 5 13
5 0 18 15000 17500 5 18
2 0 19 17500 20000 5 23
27 1 20 20000 22500 9 32
26 1 21 22500 25000 17 49
20 1 22 25000 27500 5 54
13 1 23 Total 54
D2 20% de los estudiantes que provienen de hogares más pobres.
11 1 24
29 2 25 1°Ordenar los datos.
24 2 26
2° Ubicar posición del D2 [(1*n)/10] (2*54)/10=10,8 (11 aprox.).
21 2 27
19 2 28 3° Ubicar dato en esa posición acumular las Frecuencias absoluta.
16 2 29 Formula de interpolación, manera más fácil promediar el intervalo
14 2 30 (12.500+15.000)/2=$13.750
4 2 31
-El 20% de los estudiantes de universidades privadas provienen de hoga-
3 2 32
res donde el ingreso es de =$13.750 o menos.
1 2 33
31 3 34 D8 20% de los estudiantes que provienen de hogares más ricos.
17 3 35
1°Ordenar los datos.
6 4 36
2° Ubicar posición del D2 [(1*n)/10] (8*54)/10=43,2 (44 aprox.).
3° Ubicar dato en esa posición acumular las Frecuencias absoluta.
Formula de interpolación, manera más fácil promediar el intervalo
(22500+25.000)/2=$23.750
-El 20% de los estudiantes de universidades privadas que provienen de
*Tabla de distribución en intervalos de clase: hogares con mayor ingreso es de $23.750 o más.
•Centiles(c):
-Son 99 valores de la distribución -previamente ordenada- que divide al
conjunto de datos en 100 partes iguales, cada una con el 1% de los datos.

Los C se pueden determinar para las variables numéricas y categó-


ricas ordinales.
*Recurso gráfico: Diagrama de caja (Box-plot)
*Procedimiento:
En este diagrama se utiliza un rectángulo (caja) que limitado por los Q1 y
-C5: va a ser el dato que divide a la distribución en dos partes que no son Q3, incluye en su interior el 50% de los datos centrales; dentro de la caja
iguales, dejando hacia un lado el 5% de los datos iguales o menores al C5 se señala la mediana (Ma) con un segmento. A partir de esos límites del
y hacia el otro lado el 95% de los datos iguales o mayores al C5. rectángulo, se grafican líneas -llamadas “bigotes”- con una longitud
igual a 1,5 veces la distancia entre el Q1 y Q3. Posteriormente –fuera de
¿Cómo ubicar un Centil?
los “bigotes”- el gráfico identifica aquellos valores atípicos (outliers), que
1° Ordenar los datos. están a más de 1,5 veces la distancia Intercuartil (1,5. R Q) de los extre-
mos de la caja.
2° Ubicar la posición del C5.

3° Buscar el dato que esta en esa posición.

Integración de los Valores Característicos para Describir los


Individuos:
•Resumen de los cinco números: Una forma aceptada y eficaz de inte-
grar diferentes medidas descriptivas es la que se conoce como “el resu-
men de los cinco números”, en la que se consideran:

Con estos valores, estamos describiendo la distribución identificando un


valor de tendencia central (Ma), dos valores entre los cuales se concen-
tran el 50% de los datos centrales (Q1 y Q3) y otros dos valores entre los
cuales se dispersa el conjunto total de los datos (Xmín y Xmáx). En este gráfico podemos ver que los gastos diarios de los turistas tienen
un comportamiento bastante simétrico en el 50% de los datos centrales
(la mediana se ubica en el centro de la caja, a igual distancia de los
cuartiles uno y tres). El conjunto total de los datos muestra una
asimetría a la derecha, (el bigote superior es más largo que el inferior e
incluso se aprecia la presencia de cuatro grupos turísticos con gastos •Rango Intercuartil (RQ):
atípicos). Por otro lado, el “bigote” inferior está indicando una mayor
Otra medida que se suele utilizar para medir la dispersión en términos
concentración de los gastos menores, no hay valores atípicos pequeños e
generales en una distribución de datos de una variable numérica es el
incluso no se identifica ningún grupo que no haya realizado gastos (el
RQ. Este indica la expresión en la que varían (ya no la totalidad de los
“bigote” no alcanza al valor $0).
datos) sino que varía el 50% de los datos centrales de la distribución.
Medidas de variación o dispersión: (mide la variabilidad que hay en el centro de la distribución)

-Son medidas que se utilizan para medir variabilidad en variables


numéricas y estas dos medidas son conocidas como medidas
absolutas de dispersión porque el resultado se expresa en la misma Al hacer la resta entre estos dos cuartiles dejamos afuera el 25% de
unidad de medida de la variable en estudio. Estas dos medidas permiten los datos menores de la distribución y el 25% de los datos mayores
medir la dispersión que existe en el campo de variación (conjunto total de la distribución.
de observaciones). Campo de variación: Rango(R) y Rango
Intercuartil (RQ). La ventaja que presenta el RQ es que es útil cuando existen valores
atípicos porque justamente deja de lado los 25% de los datos mas
•Rango (R): extremos y mide la variabilidad solamente en el centro de la
-Indica la extensión en la que varían la totalidad de los datos; es la mayor distribución. Ahora bien, allí también radica su desventaja ya que
diferencia que se puede registrar entre dos valores de la variable. hay que tener en cuenta que al hacer esto se esta dejando de lado
el 50% de los datos.

•Coeficiente de asimetría de Pearson (CAP): el Coeficiente de Asime-


tría de Pearson que calcula esa diferencia en cantidad de desvíos están-
En una clase de estudiantes se podría identificar al estudiante con más
dar.
edad y al estudiante con menos edad y de esa manera calcular el rango
de edades que hay en la clase, el resultado de ese rango estaría medido
en años porqué la variable es edad, es por eso que el rango es una medida
absoluta porque el resultado se expresa en la misma unidad de medida
de la variable en cuestión.
La ventaja que presenta esta medida es que es de muy fácil calculo ya que
se calcula restando el valor máximo – el valor mínimo de una distribu-
ción.
Como trabaja con los valores extremos de la distribución allí radica su
principal desventaja ya que tenemos que tener cuidado con esta medida
si hay valores atípicos porque nos podría informar mal una situación so-
bre todo si hay variabilidad interna en la distribución de datos.

También podría gustarte