Clase 6

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 56

Clase

De acuerdo a Tukey (1977), El análisis exploratorio de datos (EDA), según unos, nueva rama
de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio
de actitud y de enfoque metodológico ante el análisis de datos.
El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen
cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos
contienen.
La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de
algunas medidas de tendencia central y de dispersión.
El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las
distribuciones univariantes de los datos. También intenta descubrir patrones o modelos.
El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como
un índice más, una gráfica bien realizada puede ser mas informativa que un conjunto de
números.
Sirven para:
- Evaluar la calidad y consistencia de la información
- Investigar la distribución de las variables de interés.
- Investigar adherencia a las suposiciones estadísticas necesarias, en etapas posteriores
del análisis.
- Resumir información mediante diferentes estadísticos y gráficos.

- Evaluar la necesidad de realizar transformación de las variables de interés.

- Detectar valores “fuera de serie” (OL) “no plausibles” (outliers).

- Explorar formas de categorizar variables (puntos de corte).


Representar datos estadísticos en diagrama tallo y hojas.
Tallo y Hojas:
Stem-and-Leaf Diagram, permite obtener simultáneamente una distribución de
frecuencias de la variable y su representación gráfica.
Un diagrama donde cada valor de datos es dividido en una “hoja” (normalmente el último
dígito) y un “tallo” (los otros dígitos).

Cómo se Construye?
Los valores del tallo se escriben hacia abajo
en columna y los valores hoja van a la
derecha en fila de los valores del tallo.
En Resúmen:
En los dos cuadros: determinar cuales son los números de la serie:
Boxplot:

Es un gráfico representativo de las distribuciones de un conjunto de datos en


cuya construcción se usan cinco medidas descriptivas de los mismos, a saber:
mediana, primer, cuartil, tercer cuartil, valor máximo y valor mínimo.

Presenta al mismo tiempo, información sobre la tendencia central, dispersión y


simetría de los datos de estudio.

Además, permite identificar con claridad y de forma individual, observaciones


que se alejan de manera poco usual del resto de los datos, a estas observaciones
se les conoce como valores atípicos.
Partes del Boxplot:

El nombre original del gráfico introducido por Jhon Tukey en 1977 es Box and
whisker plot, es decir, diagrama de caja y bigote. En efecto, el gráfico consiste
en un rectángulo (caja) de cuyos lados superior e inferior se derivan
respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes).

La caja y los bigotes están ubicados paralelos a un eje rotulado, que en este caso
está en la escala del 1 al 5 e indica el puntaje obtenido en una pregunta según la
opinión de los estudiantes que llenaron el instrumento de opinión.
1.-Límite superior: Es el extremo superior del bigote. Las opiniones por encima
de este límite se consideran atípicas.
2.-Tercer cuartil (Q3): Por debajo de este valor se encuentran como máximo el
75% de las opiniones de los estudiantes.
3.-Mediana: Coincide con el segundo cuartil. Divide a la distribución en dos
partes iguales. De este modo, 50% de las observaciones están por debajo de la
mediana y 50% está por encima.
4.-Primer cuartil (Q1): Por debajo de este valor se encuentra como máximo el
25% de las opiniones de los estudiantes
5.-Límite inferior: Es el extremo inferior del bigote. Las opiniones por debajo
de este valor se consideran atípicas.
6.-Valores atípicos: Opiniones que están apartadas del cuerpo principal de datos.
Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de
la tabulación manual, errores de medición o registro.
7.-Media aritmética: Es lo que tradicionalmente se conoce como promedio.
Originalmente no forma parte del boxplot, sin embargo, se consideró su inclusión
para dar una idea del puntaje general obtenido por pregunta. Actualmente se
trabaja en la elaboración de estadísticos más representativos que la media
aritmética para describir el conjunto de datos.
Ejemplo:
Sobre la construcción de los límites y los valores atípicos.
Tukey (1997) sugiere una regla sencilla para determinar los límites de los bigotes. Tomando
en cuenta que el Rango Intercuartílico (RI) es la diferencia entre el Tercer y el Primer Cuartil,
tenemos que existen límites interiores y límites exteriores.

Límite interior inferior = Límite del bigote inferior = Q 1 - 1,5RI

Límite interior superior = Límite del bigote superior = Q 3 + 1,5RI

Límite exterior inferior = Q1 - 3RI

Límite exterior superior = Q3 + 3RI


Este Proceso se denomina:

MUESTREO
Inferencia Estadística:

Es la rama de la Estadística encargada


de hacer conclusiones válidas, a partir
de una muestra de dicha población.
Importante!

Si se conoce la forma de distribución de probabilidad de la


variable aleatoria a estudiar, el problema consiste en determinar
los parámetros (media, varianza, etc.)
DISTRIBUCIÓN MUESTRAL DE LA MEDIA

muestra muestra muestra

Media Media Media

La distribución es la distribución de un
estadístico a lo largo
muestral........ de un infinito
número de muestras

https://slideplayer.es/slide/4148529/
DISTRIBUCION DE MUESTREO

POBLACION BASE DISTRIBUCION DE MUESTREO DE MEDIAS


Importante!
Para ello la muestra debe estar bien escogida, es decir que
sea representativa de la población.

Los métodos de seleccionar la muestra será entonces el


núcleo principal del muestreo.
Por lo tanto!

Con el objetivo de medir el grado de


representatividad de la muestra es necesario
utilizar el MUESTREO PROBABILÍSTICO
MUESTREO PROBABILÍSTICO
Se llama así cuando puede establecerse en condiciones
del azar.

Esto permitirá medir los errores cometidos en el proceso


del muestreo.
Métodos de Muestreo

Son un conjunto de técnicas estadísticas que


estudian la forma de seleccionar una muestra
suficiente representativa.
Métodos de Muestreo
 Muestreo aleatorio simple con o sin reposición .
 Muestreo Estratificado.
 Muestreo Sistemático.
 Muestreo por conglomerados,
 Etc.
Muestreo Aleatorio Simple
Cada una de las muestras posibles tiene idéntica
probabilidad de ser elegida. Puede obtenerse:
- Con reemplazamiento. Un mismo elemento puede entrar
más de una vez en la muestra.

- Sin reemplazamiento. Un mismo elemento sólo puede


entrar una vez en la muestra.
Muestreo Aleatorio Simple

Lista de Empleados
N = Población del estudio
n = Número de elementos en la muestra

Muestra aleatoria
de tamaño n
Ejemplo:

De una población de 100


personas, se quiere aplicar el
método del MAS para elegir
un tamaño de muestra de 6:
Muestreo Estratificado
Se toman muestras aleatorias en cada uno de
los grupos homogéneos o estratos en que se
divide la población.
N = Población del estudio Muestreo Aleatorio Estratificado

n = Número de elementos en la
muestra Lista de Empleados

Micros PYMES Grandes

Estratos

f = n/N razón de muestreo

Muestras aleatorias de n/N


Ejemplo:
Se tiene una población estudiantil de 270, se pide con
el método estratificado, seleccionar una muestra de
40 estudiantes, si se tiene los siguientes datos:
Solución:
Aplicamos el factor: f = n/N = 40/270 = 0.14815
Aplicamos el factor: f = n/N = 40/270 = 0.14815
Muestreo Sistemático

Los elemento de la muestra se seleccionan


aplicando un intervalo uniforme que se pide en el
orden de una lista, en el tiempo o en el espacio. El
primero de ellos se determina aleatoriamente.
Muestreo Aleatorio Sistemático

Deseamos n = 20

Elegimos aleatoriamente un número entre


1 y 5 (por ej. 4)

Comenzamos por el 4 y seleccionamos un


elemento cada 5 unidades
CONCEPTOS
BÁSICOS
Experimento aleatorio.

- Es un proceso del que conocemos los resultados posibles, pero con


incertidumbre respecto a cuál de ellos se producirá.

• E1: Se lanza un dado y se observa el número que resulta

• E2: Se lanza una moneda dos veces y se observa los


resultados posibles.
Espacio muestral.
- Es el conjunto de resultados posibles del experimento aleatorio.
• Ejemplos:
• Para el lanzamiento de un dado, el espacio muestral es:

• Ω1: {1,2,3,4,5,6}
• Para el lanzamiento de una moneda dos veces, el espacio muestral es:

• Ω2: {(C,C);(C,S);(S,C);(S,S)}
Sucesos ó Eventos
• Subconjunto de un espacio muestral.
• A los sucesos normalmente se los denota por letras mayúsculas, tales como
A, B, C, etc.

• Ejemplo
• A= en los dos lanzamientos sale por lo menos una cara.

• Ω2: {(C,C);(C,S);(S,C);(S,S)}
A: {(C,C);(C,S);(S,C)}
Sucesos elementales.
- Son los resultados posibles del experimento, tal que:
1º) Siempre ocurre alguno de ellos.
2º) Son mutuamente excluyentes.
• Ejemplo
 Al lanzar un dado:

Los sucesos elementales: {1},{2},{3},{4},{5},{6}


Sucesos compuestos.
- Son los construidos a partir de la unión de sucesos elementales.
Ejemplo
Al lanzar un dado dos veces:

Los sucesos compuestos:

{1,1},{1,2},{1,3}…,{4,6},{5,6},{6,6}
Suceso Seguro:

Es el que esta formado por todos los resultados posibles.

Ejemplo
 Al lanzar un dado:

A={1,2,3,4,5,6}
Sucesos Imposible:

Es el que no contiene ningún resultado posible del experimento

Ejemplo

 Al lanzar un dado sacar un numero 7:

A=Ф={ }
Es la medida de incertidumbre que asociamos a los sucesos del espacio
muestral.
 Es un valor numérico que representa la oportunidad o posibilidad de que
un evento en particular ocurra.

 El valor numérico de la probabilidad es una proporción o fracción que


cuyo valor varía entre Cero (0) y uno (1).

 Cuanto mas próximo a 0, más “difícil” es la ocurrencia del evento.

 Cuanto más próximo a 1, más chance el evento tiene a ocurrir.


Enfoques de Probabilidad:
 Pr ob a b il id ad Sub jet i v a .

 Pr ob a b il id ad Ob jet i v a .

• Clásica o a Priori.

• Frecuencia Relativa o a posteriori.

• Axiomático.
 P r obabi l i dad Su bjet i v a .

La posibilidad (probabilidad) de que suceda un evento asignado por una


persona (Experto), con base en cualquier información que se disponga.

Por ejemplo: “ Hay un 70% de probabilidad de que esta noche llueva”

Desventajas:
• Son difíciles de defender cuando son puestas en
duda.
• Difícil de identificar los sesgos del informante.
• Sea el suceso o evento A del espacio muestral (Ω); la probabilidad de A
denotada por P(A) es la razón entre el número de resultados favorables al
suceso A y el número total de resultados del espacio muestral (casos posibles).

Ejemplo 01: Determinar la probabilidad de obtener un número par, cuando se tira un dado.

Experimento Aleatorio:
Ω= {1,2,3,4,5,6} n(Ω)= 6
𝟑
Suceso A: 𝑷 = = 𝟎. 𝟓𝟎 ≠ 𝟓𝟎%
𝟔
A = Lanza un dado y que salga un número par: A = { 2, 4, 6}

n(A )= 3
Ejemplo 02: Determinar la probabilidad de obtener un número par mayor a cuatro, cuando
se tira un dado.

Ejemplo 03: Determinar la probabilidad de obtener un número par mayor o igual a cuatro,
cuando se tira un dado.

Ejemplo 03: Determinar la probabilidad de obtener un número par menor a tres, cuando se
tira un dado.
Ejemplo 04:
• Si se lanza una moneda tres veces . ¿Cuál es la probabilidad de …?
 Obtener exactamente dos caras
n(A )= 3 𝟑
𝑷 = = 𝟎. 𝟑𝟕𝟓 ≠ 𝟑𝟕. 𝟓%
𝟖
Obtener al menos dos caras
𝟒
n(A )= 4 𝑷 = = 𝟎. 𝟓𝟎 ≠ 𝟓𝟎%
𝟖
 No obtener ninguna cara
n(A )= 1 𝟏
𝑷= = 𝟎. 𝟏𝟐𝟓 ≠ 𝟏𝟐. 𝟓%
𝟖
Experimento Aleatorio:

Ω=
n(Ω)= 8
Ejemplo:
1.- La probabilidad de un suceso A es un valor comprendido entre cero y uno.

0  P (A)  1
2.- La probabilidad del suceso seguro E, que ocurre siempre, es uno.
P (E) = 1
3.- Si A y B son sucesos mutuamente excluyentes y los unimos, la probabilidad del
suceso compuesto por esa unión es igual a la suma de las probabilidades de
A y de B.
P (A+B) = P (A) + P (B)

También podría gustarte