Grupo4 - TAREA GRUPAL - MineriaDeDatos

1
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE INGENIERIA INDUSTRIAL
TELEMÁTICA
TRABAJO GRUPAL
LIBRERÍAS DE RSTUDIO Y PYTHON
ESTUDIANTES:
BRAVO RODRIGUEZ MIGUEL ANTONIO
MEJIA PAZMIÑO DAVID STALIN
PIZARRO INTRIAGO PABLO RONALDO
ORTIZ GÓMEZ DUVAL LEANDRO
RODRIGUEZ VILLAO ANGIE PAMELA
CARRERA:
TELEMÁTICA
ASIGNATURA:
MINERIA DE DATOS
DOCENTE:
ING. TARANTO VERA GILDA JUDITH
CICLO II 2022-2023
2
Índice
Librerías De Rstudio.....................................................................................................................................3
Lubridate.................................................................................................................................................3
ggplot2.....................................................................................................................................................4
H20..........................................................................................................................................................5
mlr...........................................................................................................................................................5
Caret........................................................................................................................................................6
Métodos implementados....................................................................................................................6
Herramientas.......................................................................................................................................7
Janitor......................................................................................................................................................8
Funciones............................................................................................................................................9
dataCompareR.........................................................................................................................................9
Librerías de Python....................................................................................................................................10
NumPy...................................................................................................................................................10
Pandas...................................................................................................................................................11
Seaborn.................................................................................................................................................12
Referencias................................................................................................................................................14
3
Investigue qué librerías de Rstudio y Python podemos utilizar para realizar el
preprocesamiento de datos y describa su funcionalidad.
Librerías De Rstudio
Lubridate.
Fue creado por Garrett Grolemund y Hadley Wickham y es un paquete de R que
simplifica la labor de trabajar con fechas y horas en R.
Cuenta con diversos formatos de trabajo en sus funciones. Tiene como estructura las
fechas en: y (año), m (mes) y d (día), estos se pueden almacenar en variables para poder
simplificarlos en tablas.
 Nos permite separar año, mes y día por guiones o barras.
 Nos permite cambiar a un formato estándar las fechas con día, mes y año sin
separación o incluso escritos en inglés.
Ejemplos de comandos con la función que desempeña:
Comando Función
Today Devuelve la fecha del día actual.
now Devuelve la fecha y hora de ese momento.
hour/minute/second Devuelven el valor hora/minuto/segundo al momento.
ymd, dmy, hms, etc Ayudan a separar los componentes de la fecha y hora
cuando no tienen una estructura definida.
update Permite actualizar fecha y hora.

4
ggplot2.
Ofrece la posibilidad de crear una gran cantidad de gráficos, como scatter plots, gráficos
de barras, boxplots o histogramas entre otros muchos.
Un gráfico realizado con ggplot2 presenta, al menos, tres elementos:
 Datos o Data que queremos representar.
 Características estéticas estas describen cómo queremos que los datos se
vean en el gráfico.
- posición (en los ejes)
- color exterior (color)
- color de relleno (fill)
- forma de puntos (shape)
 Objetos geométricos los cuales representan lo que vemos en el gráfico
(puntos, líneas, etc.). Todo gráfico tiene, como mínimo, una geometría. La
geometría determina el tipo de gráfico.
- geom_point (para puntos)
- geom_lines (para lineas)
- geom_histogram (para histograma)
- geom_boxplot (para boxplot)
- geom_bar (para barras)

5
H20.
Es una plataforma en memoria para el aprendizaje automático distribuido y escalable.
H2O utiliza interfaces familiares como R, Python, Scala, Java, JSON y el cuaderno/interfaz web
Flow, y funciona a la perfección con tecnologías de big data como Hadoop y Spark.
H2O es una biblioteca muy interesante y diversa. Contiene tantas características diversas
(que van desde modelos de entrenamiento hasta capacidades de automl) que es fácil perderse un
poco al utilizarla, sobre todo debido al elevado número de métodos y funciones que uno puede
utilizar con el paquete.
mlr.
El objetivo principal de mlr es proporcionar una interfaz unificada para tareas de
aprendizaje automático como la clasificación, la regresión, el análisis de conglomerados y el
análisis de supervivencia en R. A falta de una interfaz común, resulta complicado llevar a cabo
métodos estándar como la validación cruzada y el ajuste de hiperparámetros para distintos
aprendizajes.
Por lo tanto, mlr ofrece las siguientes características:
 Posibilidad de ajustar, predecir, evaluar y remuestrear modelos
 Descripción abstracta de alumnos y tareas mediante propiedades
 Sistema de parámetros para que los aprendices codifiquen tipos de datos y
restricciones
 Muchos métodos prácticos y bloques de construcción genéricos para sus
experimentos de aprendizaje automático
 Remuestreo como bootstrapping, validación cruzada y submuestreo

6
Caret
Según (Kuhn, 2008) “Proporciona una interfaz unificada que simplifica el proceso de
modelado empleando la mayoría de los métodos de AE implementados en R. Además de
proporcionar rutinas para los principales pasos del proceso, incluye también numerosas
funciones auxiliares que permitirían implementar nuevos procedimientos.”
En otras palabras, es un conjunto de funciones que intentan agilizar el proceso de
creación de modelos predictivos.
Métodos implementados
La función principal es train() (descrita en la siguiente subsección), que incluye un
parámetro method que permite establecer el modelo mediante una cadena de texto. Podemos
obtener información sobre los modelos disponibles con las
funciones getModelInfo() y modelLookup() (puede haber varias implementaciones del mismo
método con distintas configuraciones de hiperparámetros.
library(caret)
str(names(getModelInfo())) # Listado de todos los métodos disponibles
## chr [1:239] "ada" "AdaBag" "AdaBoost.M1" "adaboost" "amdai" "ANFIS" ...
# names(getModelInfo("knn", regex = TRUE)) # Por defecto devuelve coincidencias

parciales
modelLookup("knn") # Información sobre hiperparámetros
## model parameter label forReg forClass probModel## 1 knn k #Neighbors

TRUE TRUE TRUE
7
Herramientas
Este paquete permite, entre otras cosas:
 Partición de los datos
o createDataPartition(y, p = 0.5, list = TRUE, ...): crea particiones balanceadas de
los datos.
o Funciones
auxiliares: createFolds(), createMultiFolds(), groupKFold(), createResample(), cre
ateTimeSlices()
 Análisis descriptivo: featurePlot()
 Preprocesado de los datos:
o La función principal es preProcess(x, method = c("center", "scale"), ...), aunque se
puede integrar en el entrenamiento (función train()) para estimar los parámetros
de las transformaciones a partir de la muestra de entrenamiento y posteriormente
aplicarlas automáticamente al hacer nuevas predicciones (p.e. en la muestra de
test).
o El parámetro method permite establecer una lista de procesados:
 Imputación: "knnImpute", "bagImpute" o "medianImpute"
 Creación y transformación de variables
explicativas: "center", "scale", "range", "BoxCox", "YeoJohnson", "expoT
rans", "spatialSign"
 Entrenamiento y selección de los hiperparámetros del modelo:

8
o La función principal es train(formula, data, method = "rf", trControl =
trainControl(), tuneGrid = NULL, tuneLength = 3, ...)
 Predicción: Una de las ventajas es que incorpora un único método predict() para objetos
de tipo train con dos únicas opciones13 type = c("raw", "prob"), la primera para obtener
predicciones de la respuesta y la segunda para obtener estimaciones de las probabilidades
(en los métodos de clasificación que lo admitan).
Además, si se incluyó un preprocesado en el entrenamiento, se emplearán las mismas
transformaciones en un nuevo conjunto de datos newdata.
 Evaluación de los modelos
o postResample(pred, obs, ...): regresión
o confusionMatrix(pred, obs, ...): clasificación
 Funciones auxiliares: twoClassSummary(), prSummary()…
 Analisis de la importancia de los predictores:
o varImp(): interfaz a las medidas específicas de los métodos de aprendizaje
supervisado
Janitor
Es una herramienta pequeña pero increíblemente útil y conveniente cuando se trata de
limpiar y mantener marcos de datos dentro de RStudio. Según los expertos, los científicos de
datos dedican entre el 50 % y el 80 % de su tiempo a recopilar y preparar datos digitales
ingobernables, antes de tener la oportunidad de convertirlos en información útil. El paquete de

9
conserjería contiene funciones simples y está optimizado para ser fácil de usar. También es un
paquete orientado a tidyverse, por lo que funciona bien con el operador de canalización %>%.
Es una biblioteca que ayuda a limpiar nombres de columnas que vienen formateados de
forma subóptima (para ser generosos) para el análisis de datos. Generalmente sirve para aquellos
Excel que nos pasan con nombres de columna con tildes, puntos como separadores, duplicados,
entre otros problemillas.
Funciones
Las funciones principales del conserje:
 formatear perfectamente los nombres de columna data.frame;
 crear y formatear tablas de frecuencia de una, dos o tres variables piensa un
mejorado table(); y
 proporcionar otras herramientas para limpiar y examinar data.frames.
Las funciones de tabulación e informe se aproximan a las características populares de
SPSS y Microsoft Excel.
dataCompareR
Permite a los usuarios comparar dos conjuntos de datos y ver un informe sobre sus
similitudes y diferencias. Para facilitar la comparación de dos objetos de datos de tabla en R.
Está especialmente diseñado para mostrar las diferencias entre los dos conjuntos de datos de una
manera conveniente, facilitando la comprensión de las diferencias y ayudando a resolverlas
según sea necesario.
Paquete Categoria Descripción

10
Una forma rápida y elegante

DataCompareR Data wrangling de comparar dos marcos de
datos fila por fila o por clave
específica.
Librerías de Python
Python es otro de los lenguajes de programación más usados para el análisis a conjuntos
de datos de manera masiva. Los analistas de datos pueden usar el análisis de Python en la
exploración de datos para escribir scripts y funciones personalizados, manipular datos, optimizar
flujos de trabajo y crear visualizaciones de datos para ayudar a las organizaciones
a comprender sus datos más rápido. Para ello se utilizan librerías como:
NumPy
Numpy es una librería de Python, su nombre es una abreviatura de “Python Numérico”,
por lo cual, Numpy se centra en cálculos numéricos, el análisis y manejo de datos de forma
rápida y eficiente, del mismo modo, permite utilizar “arreglos N-dimensional, herramientas para
integrar código en C/C++ y Fortran, útiles capacidades de álgebra lineal, transformación de
Fourier y números aleatorios” (Cardellino, 2021).
Esta librería se suele importar de la siguiente manera: “import numpy as np”
Numpy tiene su propia estructura denominada “array()” o arreglos, estos arreglos se
encuentran organizados en tablas o cuadriculas de diferentes dimensiones o ejes, y permiten
almacenar datos como tiempos discretos de un experimento, señales grabadas por un instrumento
de medida, pixeles de una imagen, etc.

11
Para crear una array se usa la función “np” de la siguiente manera: ndarray =
np.array(lista)
Entre otras funciones útiles con respecto a los arrays están:
 ndarray.ndim: Proporciona el número de dimensiones del array.
 ndarray.dtype: Describe el tipo de elementos del array.
 ndarray.data: El buffer contiene los elementos actuales del array.
 ndarray.size: Es el número total de elementos del array.
Por último, también se puede realizar operaciones matemáticas entre los arrays.
Pandas
Pandas es una librería de Python que maneja, modela, analiza, manipula y prepara datos
sin importar el formato en el cual se encuentren, por medio de tres estructuras de datos de la
librería Numpy: Series, Dataframe y Panel. La estructura Series (s) es una estructura
unidimensional, mientras que DataFrame (df) es bidimensional (tablas) y Panel son estructuras
que manejan 3 dimensiones como un cubo de datos.
Por lo general se importa esta librería de la siguiente forma: “import pandas as pd”.
Por otra parte, entre las funciones que proporciona Pandas para la descripción de una
serie se encuentran: count(), sum(), min(), max(), std() para desviación estándar y describe() que
muestras la estructura de la Serie en el siguiente orden: La cantidad total de elementos, suma,
media, desviación estándar, mínimo, cuartiles y el máximo.
Además, Pandas ofrece funciones para el filtrado y manipulación de datos como:

12
 Importador de datos: pd.read_sql(query, connection_object) - Lee desde una
BaseDeDatos/Tabla SQL
 Exportador de datos: df.to_excel(filename) - Escribir en un archivo Excel
 Crear objetos de Test: pd.Series(my_list) - Crea series de una lista iterativa
 Visualizar/Inspeccionar Datos: df.head(n) - Primeras n filas del DataFrame
 Selección: df.iloc[0,0] - Primer elemento de la primera columna
 Limpieza de datos: df.columns = ['a', 'b', 'c'] - Renombrar columnas
 Unir y combinar: df1.append(df2) - Agrupa las filas en df1 al final de df2 (las
columnas deben ser idénticas)
 Estadísticas: df.describe - Resumen de estadísticas para columnas numéricas
Seaborn
Seaborn es una librería de Python desarrollada a partir de matplotlib, la cual permite
visualizar datos por medio de gráficos llamativos. Generalmente, se la importa de la siguiente
manera: “import seaborn as sns”.
Por lo general, la representación de los datos es un paso clave para el análisis de datos,
por lo cual, Seaborn resulta una librería muy útil, debido a que permite hallar tendencias y
patrones dentro de un conjunto de datos proporcionados.
Además, entre sus funciones se encuentran:
Manejo de datos: Searborn es capaz de analizar un DataFrame, de tal modo que puede
representar estos datos sin desarrollar líneas de código extensas.

13
Diversidad de gráficos: Los gráficos son una herramienta útil para entender los datos, y
Searborn tiene una variedad de ellos para poder representar los datos de forma sencilla, entre
estos gráficos y su función para colocarlos se encuentran:
 Gráfico de barras: Función countplot.
 Histograma: Función histplot.
 Gráfico de cajas: Función boxplot.
 Gráfico de densidad: Función kdeplot.
 Gráfico de dispersión: Función scatterplot.
Personalización: Searborn proporciona diferentes funciones que permiten personalizar
los gráficos de manera sencilla, entre estas funciones están:
 Agregar título: set_title
 Agregar textos personalizados: text, en este caso se debe indicar las
coordenadas donde se desea que aparezca.
 Líneas y segmentos: axvline y avlines para agregar líneas verticales, y axhline y
hlines para agregar líneas horizontales.
 Agregar y personalizar grids: set_style para agregar un grid, grid.color para
agregarle color y grid.linestyle para colocar el estilo de línea que se desee.
 Temas: darkgrid, whitegrid, dark, white y ticks, se los puede colocar por medio
de la función set_style.
14
Referencias
Cardellino, F. (2021, 20 marzo). La guía definitiva del paquete NumPy para computación
científica en Python. freeCodeCamp.org.
https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-
computacion-cientifica-en-python/
Coppola, M. (2022, 24 agosto). Qué es Pandas en Python y cómo instalarlo.
https://blog.hubspot.es/website/que-es-pandas-python
R CODER. (2022, 12 octubre). La librería seaborn | PYTHON CHARTS. PYTHON CHARTS |
Visualización de datos con Python. https://python-charts.com/es/seaborn/
Carmona, P. (2021, 14 diciembre). Data Visualization con pandas y seaborn - Ironhack.
Medium. https://medium.com/ironhack/data-visualization-con-pandas-y-seaborn-
1044906af34f
Kuhn, M. (2008). Obtenido de https://doi.org/10.18637/jss.v028.i05
Dowle, M., & Srinivasan, A. (13 de Diciembre de 2021). data.table. Obtenido de
rdatatable: https://rdatatable.gitlab.io/data.table/

Grupo4 - TAREA GRUPAL - MineriaDeDatos

Cargado por

Copyright:

Formatos disponibles

Grupo4 - TAREA GRUPAL - MineriaDeDatos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Grupo4 - TAREA GRUPAL - MineriaDeDatos

Cargado por

Copyright:

Formatos disponibles

1

FACULTAD DE INGENIERIA INDUSTRIAL

LIBRERÍAS DE RSTUDIO Y PYTHON

MEJIA PAZMIÑO DAVID STALIN

PIZARRO INTRIAGO PABLO RONALDO

ORTIZ GÓMEZ DUVAL LEANDRO

RODRIGUEZ VILLAO ANGIE PAMELA

Investigue qué librerías de Rstudio y Python podemos utilizar para realizar el

preprocesamiento de datos y describa su funcionalidad.

Fue creado por Garrett Grolemund y Hadley Wickham y es un paquete de R que

simplifica la labor de trabajar con fechas y horas en R.

 Nos permite separar año, mes y día por guiones o barras.

separación o incluso escritos en inglés.

Ejemplos de comandos con la función que desempeña:

Today Devuelve la fecha del día actual.

now Devuelve la fecha y hora de ese momento.

hour/minute/second Devuelven el valor hora/minuto/segundo al momento.

cuando no tienen una estructura definida.

update Permite actualizar fecha y hora.

de barras, boxplots o histogramas entre otros muchos.

Un gráfico realizado con ggplot2 presenta, al menos, tres elementos:

 Datos o Data que queremos representar.

 Características estéticas estas describen cómo queremos que los datos se

- posición (en los ejes)

- color exterior (color)

- color de relleno (fill)

- forma de puntos (shape)

 Objetos geométricos los cuales representan lo que vemos en el gráfico

geometría determina el tipo de gráfico.

- geom_point (para puntos)

- geom_lines (para lineas)

- geom_histogram (para histograma)

- geom_boxplot (para boxplot)

- geom_bar (para barras)

Es una plataforma en memoria para el aprendizaje automático distribuido y escalable.

utilizar con el paquete.

El objetivo principal de mlr es proporcionar una interfaz unificada para tareas de

aprendizaje automático como la clasificación, la regresión, el análisis de conglomerados y el

métodos estándar como la validación cruzada y el ajuste de hiperparámetros para distintos

Por lo tanto, mlr ofrece las siguientes características:

 Posibilidad de ajustar, predecir, evaluar y remuestrear modelos

 Descripción abstracta de alumnos y tareas mediante propiedades

 Sistema de parámetros para que los aprendices codifiquen tipos de datos y

 Muchos métodos prácticos y bloques de construcción genéricos para sus

experimentos de aprendizaje automático

 Remuestreo como bootstrapping, validación cruzada y submuestreo

modelado empleando la mayoría de los métodos de AE implementados en R. Además de

funciones auxiliares que permitirían implementar nuevos procedimientos.”

En otras palabras, es un conjunto de funciones que intentan agilizar el proceso de

creación de modelos predictivos.

La función principal es train() (descrita en la siguiente subsección), que incluye un

parámetro method que permite establecer el modelo mediante una cadena de texto. Podemos

obtener información sobre los modelos disponibles con las

funciones getModelInfo() y modelLookup() (puede haber varias implementaciones del mismo

método con distintas configuraciones de hiperparámetros.

str(names(getModelInfo())) # Listado de todos los métodos disponibles

## chr [1:239] "ada" "AdaBag" "AdaBoost.M1" "adaboost" "amdai" "ANFIS" ...

# names(getModelInfo("knn", regex = TRUE)) # Por defecto devuelve coincidencias