Grupo4 - TAREA GRUPAL - MineriaDeDatos
Grupo4 - TAREA GRUPAL - MineriaDeDatos
Grupo4 - TAREA GRUPAL - MineriaDeDatos
UNIVERSIDAD DE GUAYAQUIL
TELEMÁTICA
TRABAJO GRUPAL
ESTUDIANTES:
BRAVO RODRIGUEZ MIGUEL ANTONIO
CARRERA:
TELEMÁTICA
ASIGNATURA:
MINERIA DE DATOS
DOCENTE:
ING. TARANTO VERA GILDA JUDITH
CICLO II 2022-2023
2
Índice
Librerías De Rstudio.....................................................................................................................................3
Lubridate.................................................................................................................................................3
ggplot2.....................................................................................................................................................4
H20..........................................................................................................................................................5
mlr...........................................................................................................................................................5
Caret........................................................................................................................................................6
Métodos implementados....................................................................................................................6
Herramientas.......................................................................................................................................7
Janitor......................................................................................................................................................8
Funciones............................................................................................................................................9
dataCompareR.........................................................................................................................................9
Librerías de Python....................................................................................................................................10
NumPy...................................................................................................................................................10
Pandas...................................................................................................................................................11
Seaborn.................................................................................................................................................12
Referencias................................................................................................................................................14
3
Librerías De Rstudio
Lubridate.
Cuenta con diversos formatos de trabajo en sus funciones. Tiene como estructura las
fechas en: y (año), m (mes) y d (día), estos se pueden almacenar en variables para poder
simplificarlos en tablas.
Nos permite cambiar a un formato estándar las fechas con día, mes y año sin
Comando Función
ymd, dmy, hms, etc Ayudan a separar los componentes de la fecha y hora
ggplot2.
Ofrece la posibilidad de crear una gran cantidad de gráficos, como scatter plots, gráficos
vean en el gráfico.
(puntos, líneas, etc.). Todo gráfico tiene, como mínimo, una geometría. La
H20.
H2O utiliza interfaces familiares como R, Python, Scala, Java, JSON y el cuaderno/interfaz web
Flow, y funciona a la perfección con tecnologías de big data como Hadoop y Spark.
H2O es una biblioteca muy interesante y diversa. Contiene tantas características diversas
(que van desde modelos de entrenamiento hasta capacidades de automl) que es fácil perderse un
poco al utilizarla, sobre todo debido al elevado número de métodos y funciones que uno puede
mlr.
análisis de supervivencia en R. A falta de una interfaz común, resulta complicado llevar a cabo
aprendizajes.
restricciones
Caret
Según (Kuhn, 2008) “Proporciona una interfaz unificada que simplifica el proceso de
proporcionar rutinas para los principales pasos del proceso, incluye también numerosas
Métodos implementados
library(caret)
Herramientas
los datos.
o Funciones
auxiliares: createFolds(), createMultiFolds(), groupKFold(), createResample(), cre
ateTimeSlices()
Análisis descriptivo: featurePlot()
test).
Imputación: "knnImpute", "bagImpute" o "medianImpute"
explicativas: "center", "scale", "range", "BoxCox", "YeoJohnson", "expoT
rans", "spatialSign"
Funciones auxiliares: twoClassSummary(), prSummary()…
supervisado
Janitor
limpiar y mantener marcos de datos dentro de RStudio. Según los expertos, los científicos de
conserjería contiene funciones simples y está optimizado para ser fácil de usar. También es un
paquete orientado a tidyverse, por lo que funciona bien con el operador de canalización %>%.
Es una biblioteca que ayuda a limpiar nombres de columnas que vienen formateados de
forma subóptima (para ser generosos) para el análisis de datos. Generalmente sirve para aquellos
Excel que nos pasan con nombres de columna con tildes, puntos como separadores, duplicados,
Funciones
mejorado table(); y
dataCompareR
Permite a los usuarios comparar dos conjuntos de datos y ver un informe sobre sus
Está especialmente diseñado para mostrar las diferencias entre los dos conjuntos de datos de una
Librerías de Python
Python es otro de los lenguajes de programación más usados para el análisis a conjuntos
de datos de manera masiva. Los analistas de datos pueden usar el análisis de Python en la
NumPy
por lo cual, Numpy se centra en cálculos numéricos, el análisis y manejo de datos de forma
rápida y eficiente, del mismo modo, permite utilizar “arreglos N-dimensional, herramientas para
almacenar datos como tiempos discretos de un experimento, señales grabadas por un instrumento
Para crear una array se usa la función “np” de la siguiente manera: ndarray =
np.array(lista)
Por último, también se puede realizar operaciones matemáticas entre los arrays.
Pandas
Pandas es una librería de Python que maneja, modela, analiza, manipula y prepara datos
sin importar el formato en el cual se encuentren, por medio de tres estructuras de datos de la
librería Numpy: Series, Dataframe y Panel. La estructura Series (s) es una estructura
unidimensional, mientras que DataFrame (df) es bidimensional (tablas) y Panel son estructuras
Por lo general se importa esta librería de la siguiente forma: “import pandas as pd”.
Por otra parte, entre las funciones que proporciona Pandas para la descripción de una
serie se encuentran: count(), sum(), min(), max(), std() para desviación estándar y describe() que
BaseDeDatos/Tabla SQL
Unir y combinar: df1.append(df2) - Agrupa las filas en df1 al final de df2 (las
Seaborn
Por lo general, la representación de los datos es un paso clave para el análisis de datos,
por lo cual, Seaborn resulta una librería muy útil, debido a que permite hallar tendencias y
Manejo de datos: Searborn es capaz de analizar un DataFrame, de tal modo que puede
Diversidad de gráficos: Los gráficos son una herramienta útil para entender los datos, y
Searborn tiene una variedad de ellos para poder representar los datos de forma sencilla, entre
Temas: darkgrid, whitegrid, dark, white y ticks, se los puede colocar por medio
de la función set_style.
14
Referencias
Cardellino, F. (2021, 20 marzo). La guía definitiva del paquete NumPy para computación
https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-
computacion-cientifica-en-python/
https://blog.hubspot.es/website/que-es-pandas-python
Medium. https://medium.com/ironhack/data-visualization-con-pandas-y-seaborn-
1044906af34f
rdatatable: https://rdatatable.gitlab.io/data.table/