Introducción A La Ciencia de Datos y El Big Data - Proyecto Individual Evaluado Por Pares

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Introducción a la Ciencia de Datos y el Big Data

Practica Individual con Evaluación entre pares

Proyecto
Aplicando la Ciencia de Datos en una organización

Elaborado por: William Quintanilla


Tabla de contenidos

I. INTRODUCCIÓN ............................................................................................................................................. 1
1.1 ANTECEDENTES ............................................................................................................................................... 1
1.2 OBJETIVO GENERAL......................................................................................................................................... 1
1.3 OBJETIVOS ESPECÍFICOS. ................................................................................................................................. 2
II. DESARROLLO DEL CICLO DE VIDA DEL PROYECTO ........................................................................ 2
2.1 COMPRESIÓN DEL NEGOCIO. ............................................................................................................................ 2
2.2 ADQUISICIÓN DE LOS DATOS ........................................................................................................................... 2
2.3 PREPARACIÓN DE DATOS ................................................................................................................................. 6
2.4 MODELACIÓN .................................................................................................................................................. 6
III. RESULTADOS Y RECOMENDACIONES. .............................................................................................. 8
3.1 DEFINICIÓN DE INDICADORES. ......................................................................................................................... 8
3.2 TIPO DE ANÁLISIS RECOMENDADO. .................................................................................................................. 8
3.3 DECISIONES INFERIDAS. ................................................................................................................................... 8
Introducción a la Ciencia de Datos y el Big Data

I. Introducción

En los proyectos de ciencias de datos es necesario contar con las herramientas


tecnológicas adecuadas para el procesamiento, almacenaje y presentación a la
información, información que en muchos casos incluye diversos tipos de datos o grandes
cantidades de ellos sobre los cuales las herramientas tradicionales no nos darían las
misma facilidad y rendimiento que las herramientas para Big Data nos ofrecen.

Las tecnologías de visualización de datos proporcionan un medio altamente efectivo para


presentar la información necesaria que permita la toma de decisiones solidas.

En este documento se centra en la aplicación de estas tecnologías de visualización como


parte de un proyecto de Ciencia de Datos desarrollado para la Librería Iztaccihuatl la cual
necesita definir los mejores tipos de visualizaciones para la toma de decisiones.

1.1 Antecedentes
La Librería Iztaccihuatl ubicada en la ciudad de Monterey, Nuevo León, México se ve
actualmente en la necesidad de mejorar sus indicadores de desempeño y a la vez
desarrollar una mejor estrategia para la toma de decisiones. La librería cuenta con un
sitio web en donde se generan calificaciones de los libros por parte de los clientes. La
librería ha entregado una serie de documentos los cuales se analizan en el capitulo dos
de este documento.

1.2 Objetivo General


Analizar las fuentes de información internas y externas proporcionadas por la librería
Iztaccihuatl a través de herramientas computacionales para generar un modelo basado
en Ciencia de Datos como apoyo a la toma de decisiones.

Página 1 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

1.3 Objetivos Específicos.

• Definir los indicadores mas importantes a determinar de acuerdo a la información


presentada.

• Definir el tipo de análisis mas adecuado justificando su elección.

• Identificar el tipo de decisiones que se podrían tomar basadas en los


descubrimientos o inferencias de la información analizada.

II. Desarrollo del Ciclo de Vida del Proyecto

Basados en los conceptos vistos sobre la metodología CRISP-DM, se ha decidido utilizar


las primeras fases de esta metodología sobre el presente proyecto.

2.1 Compresión del Negocio.

Dado que la librería Iztaccihuatl es una empresa dedicada a la comercialización de libros,


el análisis que se hará sobre la información ira orientado a la identificación de métricas,
variables e indicadores que mejoren sus volúmenes de ventas a través del tiempo.

2.2 Adquisición de los Datos


Para el presente análisis, la librería proporciono una serie de archivos con datos en
formato texto delimitado por comas, que representan la operación de la librería. Una
descripción de estos sets de datos se presenta a continuación.

El archivo Books es un catálogo maestro de 10,000 registros que representan los datos
generales de cada libro existente en la librería, además de contener el promedio de
clasificación de cada libro de acuerdo a las votaciones y compras de los clientes.

Una muestra de los datos se presenta a continuación

Página 2 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

La descripción de la estructura del archivo es la siguiente

Nombre Dato Descripción

id Identificador del registro

Book Id Identificador del libro

Number Editions Número de ediciones

ISBN Clave estándar internacional del libro

ISBN13 Clave estándar extendida internacional del libro

Authors Autor del libro

Original Publication Fecha de publicación

Original Title Título original del libro

Title Título del libro

Language Code Clave de idioma del libro

Average Rating Promedio de la clasificación del libro

Image Enlace a la imagen de la portada del libro

Small Image Enlace a la imagen en versión optimizada de la portada del libro.

Página 3 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

El archivo to_read contiene 912,705 registros que representan las recomendaciones de


libros para leer que cada cliente o usuario ha realizado usando el sitio web.

Una muestra de los datos se presenta a continuación

La estructura del archivo es la siguiente:

Nombre Dato Descripción

User Id Identificador del cliente/usuario que clasifico un libro

Book Id Identificador del libro

El archivo top_books contiene 120 registros con el top 20 de los libros más vendidos de
acuerdo a una clasificación general. El archivo contiene una serie de atributos de cada
libro desde características de identificación y generales, hasta ventas por volumen,
precios recomendados, etc.

Un ejemplo de los contenidos de este archivo se muestra a continuación.

Página 4 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

La estructura de archivo es la siguiente:

Nombre Dato Descripción

Position Posición del libro en la clasificación del libro

ISBN Clave estándar extendida internacional del libro

Title Título del libro

Author Autor del libro

Imprint Editorial

Publisher Group Grupo Editorial

Volume Volumen de ventas hasta el 2010

Value Ventas determinadas por el volumen

RRP Precio recomendado para minoristas

ASP Precio promedio para venta

Binding Tipo de encuadernación

Publ Date Fecha de publicación

Product Class Clasificación del libro

Classification Clasificación General del libro

Página 5 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

El archivo Ratings contiene 981,756 registros con los datos de los libros mas votados por
los clientes dentro del sitio web de la librería.

Una muestra de los datos se presenta a continuación:

La estructura del archivo se muestra a continuación;

Nombre Dato Descripción

Book Id Identificador del libro

User Id Identificador del cliente/usuario que clasifico un libro

Rating Nivel de clasificación del libro.

2.3 Preparación de Datos

Se analizaron los datos y se encontraron algunas incongruencias así como datos


faltantes, por ejemplo el campo ISBN en el archivo top_books no ha sido exportado
correctamente por lo que se necesitaría una nueva copia de estos datos para un mejor
análisis.

2.4 Modelación
Después de analizar la información proporcionada y su estructura, nos damos cuenta que
fácilmente se puede generar un modelo relacional como se presenta a continuación.

Página 6 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

Revisando esta información identificamos que el tipo de análisis a realizar mas adecuado
de acuerdo a la data sería un Análisis Descriptivo.

Página 7 25/11/2020
Introducción a la Ciencia de Datos y el Big Data

III. Resultados y Recomendaciones.

3.1 Definición de Indicadores.

Los indicadores a genera son:

1) Rating Promedio por Genero de libro, asi como también por Autor.
2) Volumen de Venta por Genero de libro.
3) Volumen de Venta por Rating y recomendaciones de lectura.
4) Recomendaciones de Lectura por Periodo de Tiempo.
5) Autores y Géneros mas recomendados.

3.2 Tipo de análisis recomendado.

El análisis recomendado en el descriptivo, dado que este será la base para identificar la
situación actual y a partir de este mejorar los datos para crear predicciones.

3.3 Decisiones Inferidas.

1) Adquirir libros de Géneros que tengan un alto rating y alto volumen de ventas,
promocionándolos a las personas que han realizado recomendaciones de lectura
de esos géneros.
2) Promocionar además los libros de los autores con altos niveles de ventas.
3) Mejorar la captura y clasificación de los datos del cliente adicionando atributos de
tiempo para saber en que momentos compra, recomienda, etc. Además de contar
cos los gustos de los clientes por clasificación.

Página 8 25/11/2020

También podría gustarte