Tunala Marilyn Act1 Procesado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

Asignatura Datos del alumno Fecha

Ingeniería para el Apellidos: Tunala Llumiugsi


Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

Actividad 1: HDFS, Spark SQL y MLlib


 PARTE 1. Manejo de HDFS. Tras acceder a la terminal de Linux en Jupyter Lab, el
alumno deberá:

• Crear en el directorio raíz de HDFS una carpeta llamada <nombre_apellidos_


alumno> (sin tildes ni espacios), utilizando el comando de HDFS apropiado.
© Universidad Internacional de La Rioja (UNIR)

Se ha cargado el archivo csv

1
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

 PARTE 2. Manejo de Apache Spark con notebooks de Jupyter.


La segunda parte de la tarea se continuó con Cloud Databricks, donde se cargó el
archivo manualmente.
© Universidad Internacional de La Rioja (UNIR)

2
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

Lectura del archivo

Impresión del esquema


© Universidad Internacional de La Rioja (UNIR)

3
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

Cantidad de registros

Quitar las filas con registros NA

 PARTE 3. Spark MLlib. Las instrucciones se encuentran en el notebook.


Ejercicio 1
Crear un nuevo DataFrame llamado aeropuertosOrigenDF que tenga una
© Universidad Internacional de La Rioja (UNIR)

columna origin y que tenga tantas filas como aeropuertos distintos de origen existan.
Crear un nuevo DataFrame llamado rutasDistintasDF que tenga dos
columnas origin, dest y que tenga tantas filas como rutas diferentes existan

4
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

Ejercicio 2
Vuelos que llegan con retraso positivo, el retraso medio a la llegada de dichos vuelos,
para cada aeropuerto de destino. La nueva columna con el retraso medio a la llegada
debe llamarse retraso_medio. El DF resultante debe estar ordenado de mayor a
menor retraso medio.
© Universidad Internacional de La Rioja (UNIR)

5
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel

Ejercicio 3
Ajustar un modelo de DecisionTree de Spark para predecir si un vuelo vendrá o no
con retraso (problema de clasificación binaria), utilizando como variables predictoras
el mes, el día del mes, la hora de partida dep_time, la hora de llegada arr_time, el
tipo de avión (carrier), la distancia y el tiempo que permanece en el aire. Para ello,
sigue los siguientes pasos.
© Universidad Internacional de La Rioja (UNIR)

6
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel
© Universidad Internacional de La Rioja (UNIR)

7
Actividades
Asignatura Datos del alumno Fecha
Ingeniería para el Apellidos: Tunala Llumiugsi
Procesado Masivo de 10-07-2022
Datos Nombre: Marilyn Anabel
© Universidad Internacional de La Rioja (UNIR)

8
Actividades

También podría gustarte