Grupo4 - TAREA GRUPAL - MineriaDeDatos

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 14

1

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE INGENIERIA INDUSTRIAL 

TELEMÁTICA

TRABAJO GRUPAL

LIBRERÍAS DE RSTUDIO Y PYTHON

ESTUDIANTES:
BRAVO RODRIGUEZ MIGUEL ANTONIO

MEJIA PAZMIÑO DAVID STALIN

PIZARRO INTRIAGO PABLO RONALDO

ORTIZ GÓMEZ DUVAL LEANDRO

RODRIGUEZ VILLAO ANGIE PAMELA

CARRERA:

TELEMÁTICA

ASIGNATURA:

MINERIA DE DATOS

DOCENTE:
ING. TARANTO VERA GILDA JUDITH

CICLO II 2022-2023
2

Índice
Librerías De Rstudio.....................................................................................................................................3
Lubridate.................................................................................................................................................3
ggplot2.....................................................................................................................................................4
H20..........................................................................................................................................................5
mlr...........................................................................................................................................................5
Caret........................................................................................................................................................6
Métodos implementados....................................................................................................................6
Herramientas.......................................................................................................................................7
Janitor......................................................................................................................................................8
Funciones............................................................................................................................................9
dataCompareR.........................................................................................................................................9
Librerías de Python....................................................................................................................................10
NumPy...................................................................................................................................................10
Pandas...................................................................................................................................................11
Seaborn.................................................................................................................................................12
Referencias................................................................................................................................................14
3

Investigue qué librerías de Rstudio y Python podemos utilizar para realizar el

preprocesamiento de datos y describa su funcionalidad.

Librerías De Rstudio

Lubridate.

Fue creado por Garrett Grolemund y Hadley Wickham y es un paquete de R que

simplifica la labor de trabajar con fechas y horas en R.

Cuenta con diversos formatos de trabajo en sus funciones. Tiene como estructura las

fechas en: y (año), m (mes) y d (día), estos se pueden almacenar en variables para poder

simplificarlos en tablas.

 Nos permite separar año, mes y día por guiones o barras.

 Nos permite cambiar a un formato estándar las fechas con día, mes y año sin

separación o incluso escritos en inglés.

Ejemplos de comandos con la función que desempeña:

Comando Función

Today Devuelve la fecha del día actual.

now Devuelve la fecha y hora de ese momento.

hour/minute/second Devuelven el valor hora/minuto/segundo al momento.

ymd, dmy, hms, etc Ayudan a separar los componentes de la fecha y hora

cuando no tienen una estructura definida.

update Permite actualizar fecha y hora.


4

ggplot2.

Ofrece la posibilidad de crear una gran cantidad de gráficos, como scatter plots, gráficos

de barras, boxplots o histogramas entre otros muchos.

Un gráfico realizado con ggplot2 presenta, al menos, tres elementos:

 Datos o Data que queremos representar.

 Características estéticas estas describen cómo queremos que los datos se

vean en el gráfico.

- posición (en los ejes)

- color exterior (color)

- color de relleno (fill)

- forma de puntos (shape)

 Objetos geométricos los cuales representan lo que vemos en el gráfico

(puntos, líneas, etc.). Todo gráfico tiene, como mínimo, una geometría. La

geometría determina el tipo de gráfico.

- geom_point (para puntos)

- geom_lines (para lineas)

- geom_histogram (para histograma)

- geom_boxplot (para boxplot)

- geom_bar (para barras)


5

H20.

Es una plataforma en memoria para el aprendizaje automático distribuido y escalable.

H2O utiliza interfaces familiares como R, Python, Scala, Java, JSON y el cuaderno/interfaz web

Flow, y funciona a la perfección con tecnologías de big data como Hadoop y Spark.

H2O es una biblioteca muy interesante y diversa. Contiene tantas características diversas

(que van desde modelos de entrenamiento hasta capacidades de automl) que es fácil perderse un

poco al utilizarla, sobre todo debido al elevado número de métodos y funciones que uno puede

utilizar con el paquete.

mlr.

El objetivo principal de mlr es proporcionar una interfaz unificada para tareas de

aprendizaje automático como la clasificación, la regresión, el análisis de conglomerados y el

análisis de supervivencia en R. A falta de una interfaz común, resulta complicado llevar a cabo

métodos estándar como la validación cruzada y el ajuste de hiperparámetros para distintos

aprendizajes.

Por lo tanto, mlr ofrece las siguientes características:

 Posibilidad de ajustar, predecir, evaluar y remuestrear modelos

 Descripción abstracta de alumnos y tareas mediante propiedades

 Sistema de parámetros para que los aprendices codifiquen tipos de datos y

restricciones

 Muchos métodos prácticos y bloques de construcción genéricos para sus

experimentos de aprendizaje automático

 Remuestreo como bootstrapping, validación cruzada y submuestreo


6

Caret

Según (Kuhn, 2008) “Proporciona una interfaz unificada que simplifica el proceso de

modelado empleando la mayoría de los métodos de AE implementados en R. Además de

proporcionar rutinas para los principales pasos del proceso, incluye también numerosas

funciones auxiliares que permitirían implementar nuevos procedimientos.”

En otras palabras, es un conjunto de funciones que intentan agilizar el proceso de

creación de modelos predictivos.

Métodos implementados

La función principal es train() (descrita en la siguiente subsección), que incluye un

parámetro method que permite establecer el modelo mediante una cadena de texto. Podemos

obtener información sobre los modelos disponibles con las

funciones getModelInfo() y modelLookup() (puede haber varias implementaciones del mismo

método con distintas configuraciones de hiperparámetros.

library(caret)

str(names(getModelInfo())) # Listado de todos los métodos disponibles

## chr [1:239] "ada" "AdaBag" "AdaBoost.M1" "adaboost" "amdai" "ANFIS" ...

# names(getModelInfo("knn", regex = TRUE)) # Por defecto devuelve coincidencias


parciales

modelLookup("knn") # Información sobre hiperparámetros

## model parameter label forReg forClass probModel## 1 knn k #Neighbors


TRUE TRUE TRUE
7

  Herramientas

Este paquete permite, entre otras cosas:

 Partición de los datos

o createDataPartition(y, p = 0.5, list = TRUE, ...): crea particiones balanceadas de

los datos.

o Funciones

auxiliares: createFolds(), createMultiFolds(), groupKFold(), createResample(), cre

ateTimeSlices()

 Análisis descriptivo: featurePlot()

 Preprocesado de los datos:

o La función principal es preProcess(x, method = c("center", "scale"), ...), aunque se

puede integrar en el entrenamiento (función train()) para estimar los parámetros

de las transformaciones a partir de la muestra de entrenamiento y posteriormente

aplicarlas automáticamente al hacer nuevas predicciones (p.e. en la muestra de

test).

o El parámetro method permite establecer una lista de procesados:

 Imputación: "knnImpute", "bagImpute" o "medianImpute"

 Creación y transformación de variables

explicativas: "center", "scale", "range", "BoxCox", "YeoJohnson", "expoT

rans", "spatialSign"

 Entrenamiento y selección de los hiperparámetros del modelo:


8

o La función principal es train(formula, data, method = "rf", trControl =

trainControl(), tuneGrid = NULL, tuneLength = 3, ...)

 Predicción: Una de las ventajas es que incorpora un único método predict() para objetos

de tipo train con dos únicas opciones13 type = c("raw", "prob"), la primera para obtener

predicciones de la respuesta y la segunda para obtener estimaciones de las probabilidades

(en los métodos de clasificación que lo admitan).

Además, si se incluyó un preprocesado en el entrenamiento, se emplearán las mismas

transformaciones en un nuevo conjunto de datos newdata.

 Evaluación de los modelos

o postResample(pred, obs, ...): regresión

o confusionMatrix(pred, obs, ...): clasificación

 Funciones auxiliares: twoClassSummary(), prSummary()…

 Analisis de la importancia de los predictores:

o varImp(): interfaz a las medidas específicas de los métodos de aprendizaje

supervisado

Janitor

Es una herramienta pequeña pero increíblemente útil y conveniente cuando se trata de

limpiar y mantener marcos de datos dentro de RStudio. Según los expertos, los científicos de

datos dedican entre el 50 % y el 80 % de su tiempo a recopilar y preparar datos digitales

ingobernables, antes de tener la oportunidad de convertirlos en información útil. El paquete de


9

conserjería contiene funciones simples y está optimizado para ser fácil de usar. También es un

paquete orientado a tidyverse, por lo que funciona bien con el operador de canalización %>%.

Es una biblioteca que ayuda a limpiar nombres de columnas que vienen formateados de

forma subóptima (para ser generosos) para el análisis de datos. Generalmente sirve para aquellos

Excel que nos pasan con nombres de columna con tildes, puntos como separadores, duplicados,

entre otros problemillas.

Funciones

Las funciones principales del conserje:

 formatear perfectamente los nombres de columna data.frame;

 crear y formatear tablas de frecuencia de una, dos o tres variables piensa un

mejorado table(); y

 proporcionar otras herramientas para limpiar y examinar data.frames.

Las funciones de tabulación e informe se aproximan a las características populares de

SPSS y Microsoft Excel.

dataCompareR

Permite a los usuarios comparar dos conjuntos de datos y ver un informe sobre sus

similitudes y diferencias. Para facilitar la comparación de dos objetos de datos de tabla en R.

Está especialmente diseñado para mostrar las diferencias entre los dos conjuntos de datos de una

manera conveniente, facilitando la comprensión de las diferencias y ayudando a resolverlas

según sea necesario.

Paquete Categoria Descripción


10

Una forma rápida y elegante


DataCompareR Data wrangling de comparar dos marcos de
datos fila por fila o por clave
específica.

Librerías de Python

Python es otro de los lenguajes de programación más usados para el análisis a conjuntos

de datos de manera masiva. Los analistas de datos pueden usar el análisis de Python en la

exploración de datos para escribir scripts y funciones personalizados, manipular datos, optimizar

flujos de trabajo y crear visualizaciones de datos para ayudar a las organizaciones

a comprender sus datos más rápido. Para ello se utilizan librerías como:

NumPy

Numpy es una librería de Python, su nombre es una abreviatura de “Python Numérico”,

por lo cual, Numpy se centra en cálculos numéricos, el análisis y manejo de datos de forma

rápida y eficiente, del mismo modo, permite utilizar “arreglos N-dimensional, herramientas para

integrar código en C/C++ y Fortran, útiles capacidades de álgebra lineal, transformación de

Fourier y números aleatorios” (Cardellino, 2021).

Esta librería se suele importar de la siguiente manera: “import numpy as np”

Numpy tiene su propia estructura denominada “array()” o arreglos, estos arreglos se

encuentran organizados en tablas o cuadriculas de diferentes dimensiones o ejes, y permiten

almacenar datos como tiempos discretos de un experimento, señales grabadas por un instrumento

de medida, pixeles de una imagen, etc.


11

Para crear una array se usa la función “np” de la siguiente manera: ndarray =

np.array(lista)

Entre otras funciones útiles con respecto a los arrays están:

 ndarray.ndim: Proporciona el número de dimensiones del array.

 ndarray.dtype: Describe el tipo de elementos del array.

 ndarray.data: El buffer contiene los elementos actuales del array.

 ndarray.size: Es el número total de elementos del array.

Por último, también se puede realizar operaciones matemáticas entre los arrays.

Pandas

Pandas es una librería de Python que maneja, modela, analiza, manipula y prepara datos

sin importar el formato en el cual se encuentren, por medio de tres estructuras de datos de la

librería Numpy: Series, Dataframe y Panel. La estructura Series (s) es una estructura

unidimensional, mientras que DataFrame (df) es bidimensional (tablas) y Panel son estructuras

que manejan 3 dimensiones como un cubo de datos.

Por lo general se importa esta librería de la siguiente forma: “import pandas as pd”.

Por otra parte, entre las funciones que proporciona Pandas para la descripción de una

serie se encuentran: count(), sum(), min(), max(), std() para desviación estándar y describe() que

muestras la estructura de la Serie en el siguiente orden: La cantidad total de elementos, suma,

media, desviación estándar, mínimo, cuartiles y el máximo.

Además, Pandas ofrece funciones para el filtrado y manipulación de datos como:


12

 Importador de datos: pd.read_sql(query, connection_object) - Lee desde una

BaseDeDatos/Tabla SQL

 Exportador de datos: df.to_excel(filename) - Escribir en un archivo Excel

 Crear objetos de Test: pd.Series(my_list) - Crea series de una lista iterativa

 Visualizar/Inspeccionar Datos: df.head(n) - Primeras n filas del DataFrame

 Selección: df.iloc[0,0] - Primer elemento de la primera columna

 Limpieza de datos: df.columns = ['a', 'b', 'c'] - Renombrar columnas

 Unir y combinar: df1.append(df2) - Agrupa las filas en df1 al final de df2 (las

columnas deben ser idénticas)

 Estadísticas: df.describe - Resumen de estadísticas para columnas numéricas

Seaborn

Seaborn es una librería de Python desarrollada a partir de matplotlib, la cual permite

visualizar datos por medio de gráficos llamativos. Generalmente, se la importa de la siguiente

manera: “import seaborn as sns”.

Por lo general, la representación de los datos es un paso clave para el análisis de datos,

por lo cual, Seaborn resulta una librería muy útil, debido a que permite hallar tendencias y

patrones dentro de un conjunto de datos proporcionados.

Además, entre sus funciones se encuentran:

Manejo de datos: Searborn es capaz de analizar un DataFrame, de tal modo que puede

representar estos datos sin desarrollar líneas de código extensas.


13

Diversidad de gráficos: Los gráficos son una herramienta útil para entender los datos, y

Searborn tiene una variedad de ellos para poder representar los datos de forma sencilla, entre

estos gráficos y su función para colocarlos se encuentran:

 Gráfico de barras: Función countplot.

 Histograma: Función histplot.

 Gráfico de cajas: Función boxplot.

 Gráfico de densidad: Función kdeplot.

 Gráfico de dispersión: Función scatterplot.

Personalización: Searborn proporciona diferentes funciones que permiten personalizar

los gráficos de manera sencilla, entre estas funciones están:

 Agregar título: set_title

 Agregar textos personalizados: text, en este caso se debe indicar las

coordenadas donde se desea que aparezca.

 Líneas y segmentos: axvline y avlines para agregar líneas verticales, y axhline y

hlines para agregar líneas horizontales.

 Agregar y personalizar grids: set_style para agregar un grid, grid.color para

agregarle color y grid.linestyle para colocar el estilo de línea que se desee.

 Temas: darkgrid, whitegrid, dark, white y ticks, se los puede colocar por medio

de la función set_style.
14

Referencias

Cardellino, F. (2021, 20 marzo). La guía definitiva del paquete NumPy para computación

científica en Python. freeCodeCamp.org.

https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-

computacion-cientifica-en-python/

Coppola, M. (2022, 24 agosto). Qué es Pandas en Python y cómo instalarlo.

https://blog.hubspot.es/website/que-es-pandas-python

R CODER. (2022, 12 octubre). La librería seaborn | PYTHON CHARTS. PYTHON CHARTS |

Visualización de datos con Python. https://python-charts.com/es/seaborn/

Carmona, P. (2021, 14 diciembre). Data Visualization con pandas y seaborn - Ironhack.

Medium. https://medium.com/ironhack/data-visualization-con-pandas-y-seaborn-

1044906af34f

Kuhn, M. (2008). Obtenido de https://doi.org/10.18637/jss.v028.i05

Dowle, M., & Srinivasan, A. (13 de Diciembre de 2021). data.table. Obtenido de

rdatatable: https://rdatatable.gitlab.io/data.table/

También podría gustarte