Taller Usando R

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

DOCTORADO EN CIENCIAS DE LA COMPUTACIÓN

ASIGNATURA: MÉTODOS EMPÍRICOS PARA CIENCIAS DE LA COMPUTACIÓN

Taller: Análisis de datos usando R

PROCESO A REALIZAR
Considere el siguiente problema:

Se tiene que evaluar cuatro tipos de algoritmos, Algoritmo1, Algoritmo2, Algoritmo3, Algoritmo4, los mismos que
serán utilizados por 100 personas (usuarios que son ingenieros de sistemas, expertos en el manejo de procesos de
validación de algoritmos). Los algoritmos deben ser usados con un conjunto de datos que se le entrega a cada uno,
todos reciben los mismos datos para aplicar en cada algoritmo. Una vez que ellos han obtenido resultados se les
aplica un cuestionario post-test para verificar si los algoritmos han pasado las evaluaciones aplicadas.

Suponga que los resultados a obtener tienen relación con (a) la precisión de las respuestas obtenidas al aplicar cada
algoritmo, así como (b) con el tiempo de respuesta requerido para que se obtengan resultados con cada algoritmo.

Defina:

a) Las variables independientes y dependientes del problema.


b) Escriba una hipótesis nula y una alternativa, una para cada algoritmo relacionadas con las dos condiciones
indicadas en el párrafo anterior.
c) Un cuestionario post-test a aplicar a cada usuario, respecto a cada algoritmo. Las respuestas se basan en la
escala de Likert y van desde 1 (poco probable que lo vuelva a usar) hasta 7 (muy probable que lo vuelva a
usar).

PARTE 1: GENERACIÓN DE DATOS DE PRUEBA Y DETERMINACIÓN DE PARÁMETROS ESTADÍSTICOS


PASO 1: En base al cuestionario de evaluación definido para el cuasiexperimento, considere las respuestas que
emplean la escala de Likert para obtener las respuestas de los usuarios. Con un tamaño de muestra de 100 usuarios
y la escala de Likert entre 1 y 7, genere números aleatorios considerando:

• Número de filas = número de usuarios


• Número de columnas = número de respuestas de cuestionario, una columna por algoritmo.

El conjunto de datos a generar debe tener una cabecera similar a como se muestra en la figura:

Debe emplear Excel para la generación de números aleatorios:

Grabe este archivo como datos_taller.csv.


PASO 2: Inicie R Studio para realizar el análisis de datos. Luego importe los datos almacenados en el archivo
datos_taller.csv:

Dar clic en el botón Import. Una vez que se han importado los datos, se va a proceder a obtener la información
requerida para el análisis de los datos.

PASO 3: Obtenga los nombres de las variables del archivo importado:

PASO 4: Obtenga un resumen de los datos, donde se observen los valores de media, mediana, y, primer y tercer
quartil:
A efectos de comprender el comportamiento de los datos, obtenga los boxplot de cada uno:

a) De Resp.1:
➢ boxplot(datos_$Resp.1)

b) De Resp.2:

c) De Resp.3:

d) De Resp.4:

PASO 4: Obtener el histograma de cada variable:

La frecuencia absoluta de Resp. 1 es:

➢ dim.datos <- dim(datos_)


➢ n.ind = dim.datos[1]
➢ fabs <- table(datos_$Resp.1)
➢ fabs

➢ frel <- fabs/n.ind


➢ barplot(fabs,ylab=”Frecuencias absolutas”,main=”Diagrama de barras”)

Repita el proceso para las otras variables que tenga en sus datos, para cada algoritmo.
PARTE 2: TEST DE BONDAD DE AJUSTE
El objetivo de esta segunda parte es asignar un modelo de probabilidad a un conjunto de datos. De esta manera, el
modelo elegido puede interpretarse como la distribución que ha generado dichos datos. Al proceso de búsqueda de
un modelo de probabilidad a partir de la muestra de datos se le suele denominar ajuste de una distribución.

Medidas de centralización, dispersión y forma

PASO 5: Calcular la media, mediana y cuantiles para la variable Resp.1, y para cada algoritmo.

Vemos que la media y la mediana son muy próximas indicando que la variable puede ser bastante simétrica.

Se debe calcular las diferencias entre los cuantiles a la mediana, si son bastante parecidas puede confirmarse la
simetría.

PASO 6: Calcular las medidas de dispersión: varianza, desviación típica, la desviación absoluta media (mad), el rango
intercuartílico (IQR) y el rango:

Por último, veamos la asimetría y la curtosis:

Basados en las fórmulas:


Y,

Vemos que la variable es bastante simétrica, pero la curtosis es algo más pequeña de 3, que es la correspondiente a
la normal.

Repita el proceso para las otras variables que tenga en sus datos.

PASO 7: Ajuste del modelo

Es necesario indicar que se va a trabajar con la distribución normal. Para ello, se debe ajustar la distribución normal
a los datos, lo cual significa estimar los parámetros μ y ơ de la distribución N (μ, ơ). Para ello, se debe importar la
librería MASS de R:

➢ library(MASS)

Luego, se calcula el ajuste de la distribución:

Vemos cuáles son las estimaciones máximo verosímiles de los parámetros, que coinciden prácticamente con el
resultado que da la función mean y la función sd. Esta última función da la cuasi-desviación típica, en lugar de la
desviación típica y por eso existe esta pequeña diferencia. Se calcula los valores siguientes:

Una vez hecho el ajuste, se construyen tres gráficos, que van a permitir comparar:

(1) el histograma de los tiempos con respecto a la densidad de la normal;


(2) la función de distribución empírica de los datos con respecto a la función de distribución de una normal y
(3) los cuantiles de los datos con respecto a los cuantiles de la distribución normal.

Recuerde que la función de distribución empírica de una muestra está dada por:

Para hacer los gráficos se debe considerar que el valor mínimo y el máximo de los datos son 1 y 7, respectivamente.
Entonces:
Obteniendo:
Además de la distribución normal, se puede probar con otras, por ejemplo, con Weibull o con la log.normal.

Se va a probar con la Weibull. Esta distribución tiene dos parámetros, que aquí aparecen con los nombres de shape
y scale, respectivamente:

Entonces:

Una vez hecho el ajuste, se van a hacer los tres gráficos que se hicieron anteriormente, y que permiten comparar:

(1) el histograma de los tiempos con respecto a la densidad de la Weibull;


(2) la función de distribución empírica de los datos con respecto a la función de distribución de una Weibull y
(3) los cuantiles de los datos con respecto a los cuantiles de la distribución Weibull.

Entonces:

Obteniendo los tres gráficos:


Finalmente, se va a probar con la distribución log-normal. Considere que la distribución log-normal tiene dos
parámetros, que aquí aparecen con los nombres de meanlog y sdlog.

Una vez hecho el ajuste, se construyen los tres gráficos vistos anteriormente, que permiten comparar:

(1) el histograma de los tiempos con respecto a la densidad de la log-normal;


(2) la función de distribución empírica de los datos con respecto a la función de distribución de una log-normal; y
(3) los cuantiles de los datos con respecto a los cuantiles de la distribución log-normal.

Entonces:

Obteniendo:
A efectos de comparar los gráficos obtenidos, se los ubica en una sola gráfica:

Distribución normal Distribución de Weibull Distribución log-normal

PREGUNTA:

En base a los resultados gráficos obtenidos en este PARTE 2, ¿qué conclusión se puede obtener respecto a la
distribución que siguen los datos? Justifique su respuesta.

PARTE 3: DETERMINACIÓN DE LA NORMALIDAD DE UNA MUESTRA

La inspección visual de la distribución puede utilizarse para evaluar la normalidad, aunque este enfoque suele ser
poco confiable y no garantiza que la distribución es normal.

Las pruebas de normalidad son complementarias a la evaluación gráfica de la normalidad. Las principales pruebas
para evaluar la normalidad son la prueba de Kolmogorov-Smirnov (K-S), la prueba K-S corregida de Lilliefors, la prueba
de Shapiro-Wilk, la prueba de Anderson-Darling, entre otras.

Utilice las pruebas de Kolmogorov-Smirnov y la de Shapiro-Wilk, en R, para determinar la normalidad de los datos
que ha generado en este taller. Documente todo el proceso.
PARTE 4: CONTRASTE DE HIPÓTESIS

En el proceso del diseño de investigación un elemento clave es la evaluación empírica de las hipótesis.

Un contraste de hipótesis es un procedimiento que sirve para rechazar o no una hipótesis estadística. En un contraste
de hipótesis se juzga si el valor de un parámetro poblacional es compatible con lo observado en una muestra de dicha
población. Es decir, en un contraste de hipótesis se analiza una muestra estadística y, a partir de los resultados
obtenidos, se determina si se rechaza o se acepta una hipótesis establecida previamente.

En estadística, un contraste de hipótesis también se conoce como test de hipótesis, prueba de hipótesis o prueba de
significación. Un contraste de hipótesis está formado por dos tipos de hipótesis estadísticas:

➢ Hipótesis alternativa (H1): es la hipótesis de la investigación que se pretende probar que es cierta. Es decir,
la hipótesis alternativa es una suposición previa que tiene el investigador y para intentar demostrar que es
verdadera llevará a cabo el contraste de hipótesis.
➢ Hipótesis nula (H0): es la hipótesis que sostiene que la suposición inicial que se tiene respecto a un parámetro
poblacional es falsa. Por lo tanto, la hipótesis nula es aquella hipótesis que se pretende rechazar.

La elección de una prueba de hipótesis específica depende de la naturaleza de los datos y de la pregunta de
investigación. A continuación, se muestran algunas pruebas de hipótesis de uso común:

➢ Prueba t: Se utiliza al comparar las medias de dos grupos para determinar si son significativamente
diferentes. Existen diferentes variaciones de la prueba t, como la prueba t para muestras independientes y
la prueba t para muestras pareadas.
➢ ANOVA (Análisis de Varianza): Se utiliza para comparar medias entre tres o más grupos. Si el ANOVA indica
una diferencia significativa, se pueden realizar pruebas post hoc para identificar qué diferencias de grupos
específicos son significativas.
➢ Prueba de chi-cuadrado: se utiliza para datos categóricos para determinar si existe una asociación
significativa entre dos variables categóricas. Incluye pruebas como la prueba de independencia de chi-
cuadrado de Pearson y la prueba de bondad de ajuste de chi-cuadrado.
➢ Análisis de regresión: se utiliza para examinar la relación entre una variable dependiente y una o más
variables independientes. La importancia de los coeficientes de regresión se puede probar para evaluar si las
variables independientes tienen un efecto estadísticamente significativo sobre la variable dependiente.
➢ Pruebas pareadas (p. ej., prueba t pareada, prueba de McNemar): se utilizan para comparar mediciones de
los mismos sujetos en diferentes momentos o en diferentes condiciones.
➢ Prueba de suma de rangos de Wilcoxon (prueba U de Mann-Whitney): prueba no paramétrica utilizada para
comparar dos muestras independientes. No asume una distribución normal y es apropiado para datos
ordinales o de intervalo.
➢ Prueba de Kolmogorov-Smirnov: Prueba no paramétrica utilizada para comparar la distribución de una
muestra con una distribución conocida.
➢ Prueba exacta de Fisher: se utiliza para muestras de tamaño pequeño y situaciones en las que no se cumplen
los supuestos de la prueba de chi-cuadrado.

ACTIVIDAD A REALIZAR

Determine cuales pruebas se utilizan cuando los datos siguen una distribución normal y cuales se usan en otro caso,
es decir, cuando los datos no siguen una distribución normal.

Luego, dependiendo de que sus datos sigan una distribución normal o no, aplique un método para determinar si las
hipótesis planteadas en este taller se aceptan o se rechazan.

Documente el proceso a realizar.

También podría gustarte