Usa la plataforma de trabajo de exploración de datos

El área de trabajo de exploración de datos en Dataplex (Explorar) te permite consultar de forma interactiva datos completamente administrados con acceso con un clic a las secuencias de comandos de Spark SQL y a los notebooks de Jupyter. Explorar te permite colaborar con otros equipos mediante la publicación, el uso compartido y la búsqueda integrados de recursos de codificación.

Explora, aprovisiona, escala y administra la infraestructura sin servidores necesaria para ejecutar tus notebooks y secuencias de comandos de Spark SQL con credenciales de usuario. Puedes poner en funcionamiento tu trabajo con la programación sin servidores desde el área de trabajo.

En este documento, se describe cómo usar las funciones de Explorar en Dataplex.

Costos

Dataplex ofrece Explore en el nivel de procesamiento premium.

Terminología

En este documento, se usan los siguientes términos:

Entorno

Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten en un lake. Un administrador de Dataplex crea y administra entornos.

Los administradores pueden autorizar a uno o más usuarios para que ejecuten consultas y notebooks en el entorno configurado otorgándoles el rol de desarrollador de Dataplex o los permisos de IAM asociados.

Sesión

Cuando un usuario autorizado elige un entorno para ejecutar sus consultas y notebooks, Dataplex usa la configuración del entorno especificada para crear una sesión activa específica del usuario. Según la configuración del entorno, si una sesión no está en uso, se finaliza automáticamente.

Iniciar una sesión nueva por usuario demora unos minutos. Una vez que comienza una sesión, ejecuta consultas y notebooks posteriores para el mismo usuario. Una sesión está activa durante un máximo de 10 horas.

Para un entorno, Dataplex crea solo una sesión por usuario, que comparten las secuencias de comandos de Spark SQL y los notebooks de Jupyter.

Dataplex usa credenciales de usuario dentro de una sesión para ejecutar operaciones, como consultar los datos de Cloud Storage y BigQuery.

Nodo

Un nodo especifica la capacidad de procesamiento en la configuración de un entorno. Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM.

Entorno predeterminado

Puedes crear un entorno predeterminado por lake con el ID default. Un entorno predeterminado debe usar una configuración predeterminada. Una configuración predeterminada consiste en lo siguiente:

  • Capacidad de procesamiento de un nodo
  • Tamaño del disco principal de 100 GB
  • Cierre automático de la sesión (tiempo de cierre automático) establecido en 10 minutos de tiempo inactivo
  • El parámetro sessionSpec.enableFastStartup, que se establece de forma predeterminada en true Cuando este parámetro se establece en true, Dataplex aprovisiona previamente las sesiones para este entorno para que estén disponibles de inmediato, lo que reduce el tiempo de inicio de la sesión inicial.
  • Una sesión de inicio rápido es una sesión de un solo nodo, que Dataplex cobra a tarifas similares a las de una sesión normal con el SKU de procesamiento premium. Hay disponible un máximo de una sesión siempre activa para el inicio rápido, lo que genera costos incluso cuando no está en uso. Dataplex mantiene esta sesión creada previamente activa durante 10 horas, la cierra y, luego, crea una nueva.

Si no seleccionas un entorno de forma explícita y configuraste un entorno predeterminada previamente, Dataplex usa el entorno predeterminada para crear sesiones.

Secuencia de comandos de SQL

Una secuencia de comandos de SQL es una secuencia de comandos de Spark SQL que se guarda como contenido dentro de un lago de Dataplex. Puedes guardar la secuencia de comandos en un lago y compartirla con otros principales. Además, puedes programarlo para que se ejecute como un trabajo de Spark sin servidor por lotes en Dataplex. Dataplex habilita el acceso listo para usar de Spark SQL a las tablas que se asignan a datos en Cloud Storage y BigQuery.

Notebook

Un notebook de Python 3 es un notebook de Jupyter que guardas como contenido en un lago de Dataplex. Puedes guardar un notebook como contenido dentro de un lake y compartirlo con otros principales, o bien programarlo para que se ejecute como un trabajo por lotes de Spark sin servidores de Dataproc en Dataplex.

En el caso de los datos de BigQuery, puedes acceder a las tablas de BigQuery directamente a través de Spark sin usar el comando mágico %%bigquery.

Antes de comenzar

Antes de comenzar, vincula tu lake a Dataproc Metastore y otorga los roles necesarios.

Vincula tu lago a Dataproc Metastore (DPMS)

Para usar Explorar, haz lo siguiente:

Aprende a configurar Dataproc Metastore con Dataplex para acceder a los metadatos en Spark.

Roles obligatorios

Según las acciones que planeas realizar, necesitas todos los siguientes roles de IAM. Todos los entornos de un lake heredan los permisos otorgados a nivel del lake.

Roles de IAM de Dataplex:

  • Visualizador de Dataplex
  • Desarrollador de Dataplex
  • Lector de metadatos de Dataplex
  • Lector de datos de Dataplex

Roles adicionales:

Logging

Para comprender el uso de Explorar, consulta los siguientes documentos:

Limitaciones conocidas

En esta sección, se describen las limitaciones conocidas de Explorar.

  • Explorar está disponible para los lagos de las siguientes regiones:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Puedes usar hasta 10 entornos por región en un proyecto. Para obtener información sobre cómo aumentar el límite de cuota, consulta Trabaja con cuotas.

  • Puedes crear entornos con un máximo de 150 nodos. La duración de las sesiones individuales de los usuarios se limita a 10 horas.

  • Las secuencias de comandos de Spark SQL solo pueden consultar datos dentro de un lago determinado. Si deseas consultar datos en un lago diferente, debes cambiar a ese lago y seleccionar un entorno dentro de él.

  • Después de deshacer la eliminación de un proyecto, Dataplex no restablece los recursos de contenido, como las secuencias de comandos de SQL o los notebooks. Procede con precaución cuando borres un proyecto con recursos de contenido de Explorar.

  • Cuando programes un notebook, si el entorno tiene paquetes personalizados, podrás programarlo solo con la CLI de gcloud. Para obtener más información, consulta Cómo programar notebooks con paquetes personalizados.

  • Si borras un entorno antes de borrar las secuencias de comandos y los notebooks, no podrás acceder a la página Explorar. Por lo tanto, asegúrate de borrar las secuencias de comandos y los notebooks antes de borrar un entorno en Explorar.

  • Las sesiones de exploración no admiten sistemas de archivos distribuidos de Hadoop (HDFS). No almacenes datos del usuario en una sesión de Explorar, ya que se borrarán cuando finalice.

  • El límite de tamaño máximo para un notebook o una secuencia de comandos de SQL es de 1 MB.

Crear un entorno

  1. En la consola de Google Cloud, ve a la página Administrar Lakes de Dataplex.

    Ir a Dataplex

  2. Selecciona un lake de Dataplex para el que deseas crear un ambiente.

  3. Haz clic en la pestaña Environments (Entornos).

  4. Haz clic en Crear entorno.

  5. En el campo Nombre visible, ingresa un nombre para tu entorno.

  6. En ID del entorno, ingresa un ID único.

  7. Opcional: Ingresa una descripción para el entorno nuevo.

  8. En el panel Configure compute, especifica lo siguiente:

    1. Cantidad de nodos: Es la cantidad de nodos que se aprovisionarán para las sesiones de usuario creadas para este entorno.
    2. Cantidad máxima de nodos: Es la cantidad máxima de nodos que Dataplex puede ajustar automáticamente en las sesiones de usuario asociadas con este entorno.
    3. Tamaño del disco principal: Es la cantidad de tamaño de disco asociada con cada nodo aprovisionado.
    4. Tiempo de cierre automático: Es el tiempo inactivo después del cual Dataplex cierra automáticamente las sesiones de los usuarios asociadas con este entorno. Puedes establecer un mínimo de 10 minutos y un máximo de 60 minutos.
  9. En el panel Paquetes de software (opcional), puedes especificar paquetes de Python, archivos JAR y propiedades de Spark adicionales para instalar en las sesiones de usuario aprovisionadas para este entorno.

    Cuando creas un entorno y proporcionas la ruta de acceso de Cloud Storage para los archivos JAR de Java o los paquetes de Python, para que Dataplex instale los archivos JAR o los paquetes, asegúrate de que el agente de servicio de Cloud Dataplex tenga los permisos necesarios para acceder a los archivos de Cloud Storage.

  10. Haz clic en Crear.

Notas

  • Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable con 4 CPU virtuales y 16 GB de RAM.

  • Puedes crear un entorno con un nodo, o con tres o más nodos.

  • Si eres administrador de Lake, puedes configurar los entornos con anticipación, lo que permite a los usuarios ejecutar sus cargas de trabajo con las configuraciones especificadas previamente.

  • Aunque los entornos se pueden compartir con varios usuarios, Dataplex crea una sesión independiente por usuario con la configuración del entorno.

Crea un entorno predeterminado

Consulta los requisitos de configuración para un entorno predeterminado.

Console

  1. Abre Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Navega a la vista Administrar.

  3. Selecciona un lake de Dataplex.

  4. Haz clic en la pestaña Environments (Entornos).

  5. Haz clic en Crear entorno predeterminado.

gcloud

Para crear un entorno predeterminado con el inicio rápido habilitado, ejecuta el siguiente comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Explora datos con el área de trabajo de Spark SQL

Para explorar datos de BigQuery y Cloud Storage, usa las secuencias de comandos de Spark SQL.

Crea y guarda una secuencia de comandos

  1. En la consola de Google Cloud, ve a la página Explorar de Dataplex.

  2. En la vista Explorar, selecciona el lago que contiene los activos de datos que deseas explorar.

  3. En el navegador de recursos, expande el lago. Se mostrarán las siguientes carpetas:

    • Datos: Contiene todas las bases de datos y tablas de la instancia de DPMS conectada a tu lago, incluidas las tablas de Hudi, Iceberg y Delta Lake.
    • Notebooks: Contiene todos los notebooks creados en el lago seleccionado.
    • Secuencias de comandos de Spark SQL: Contiene todas las secuencias de comandos de Spark SQL creadas en el lago seleccionado.
  4. Expande Datos y selecciona la base de datos y la tabla requeridas.

  5. Para usar una consulta de muestra, haz clic en CONSULTA. El área de trabajo de Spark SQL completa automáticamente una pestaña nueva con una consulta de muestra.

  6. Para crear una secuencia de comandos nueva, en el Editor de SQL de Spark, haz clic en Nueva secuencia de comandos y, luego, ingresa tus consultas.

  7. Para guardar la secuencia de comandos, selecciona Guardar > Guardar secuencia de comandos.

Ejecuta una secuencia de comandos

  1. En el Editor de SQL de Spark, haz clic en la pestaña con la consulta que deseas ejecutar.

  2. Haz clic en Seleccionar entorno. Selecciona el entorno en el que deseas ejecutar la consulta. Si no seleccionas un entorno, Dataplex usará el entorno predeterminado para crear una sesión por usuario.

    Para ejecutar varias consultas de Spark SQL en la misma secuencia de comandos, separa las consultas con punto y coma.

  3. Haz clic en Ejecutar.

  4. Consulta los resultados del Historial de búsquedas de cada una de las consultas de la secuencia de comandos con la lista desplegable.

Programa una secuencia de comandos

Puedes programar una secuencia de comandos para que se ejecute como una tarea de Dataplex. Para obtener más información, consulta Crea y administra programas para secuencias de comandos de SQL.

Cómo compartir una secuencia de comandos

Puedes compartir una secuencia de comandos con otras personas de la organización mediante permisos de IAM:

  1. En la vista Explorar, haz clic en la secuencia de comandos de Spark SQL que deseas compartir.

  2. En el menú Más, haz clic en Compartir.

  3. Revisa los permisos. Agrega o quita los permisos de visualizador, editor y administrador para la secuencia de comandos compartida.

Después de compartir una secuencia de comandos, los usuarios con permisos de visualización o edición a nivel del lago pueden navegar al lago y trabajar en la secuencia de comandos compartida.

Explora datos de BigQuery y Cloud Storage con Spark SQL

Para cualquier conjunto de datos de BigQuery que se agregue como activo a una zona, Dataplex habilita el acceso directo de Spark SQL a todas las tablas de ese conjunto de datos. Puedes consultar datos en Dataplex con notebooks o secuencias de comandos de SQL de Spark. Por ejemplo:

 select * from ZONE_ID.TABLE_ID

Si tus recursos se asignan a buckets de Cloud Storage en la misma zona, Dataplex proporciona una lista unificada de tablas que puedes consultar con Spark.

Explora datos con notebooks

En esta sección, se describe cómo crear, programar, compartir, importar y exportar notebooks.

Crea y guarda un notebook

  1. En la consola de Google Cloud, ve a la página Explorar de Dataplex.

  2. En la vista Explorar, selecciona un lago.

  3. Expande el lago y haz clic en la carpeta Notebooks.

  4. Haz clic en Notebook nuevo.

  5. En el campo Ruta de acceso del notebook, proporciona el nombre del notebook.

  6. Opcional: En el campo Descripción, proporciona una descripción para la nueva notebook.

  7. Opcional: Agrega etiquetas.

  8. Haz clic en Crear notebook. Se creó un notebook.

  9. Para abrir el notebook creado, haz clic en Abrir notebook.

  10. Selecciona un entorno en el que deseas que Dataplex cree una sesión de usuario cuando crees o abras tu notebook. Asegúrate de seleccionar un entorno con paquetes de confianza.

    Si no seleccionas un entorno, Dataplex usará el entorno predeterminada. Si no tienes un entorno, créalo. Para obtener más información, consulta Crea un entorno.

    Ahora puedes explorar tus datos escribiendo código de Python y guardando el notebook después de la exploración. Más adelante, puedes obtener una vista previa del notebook creado y examinar su resultado sin crear una sesión ni ejecutar el código.

Programa un notebook

Puedes programar un notebook para que se ejecute como una Tarea de Dataplex. Para obtener más información, consulta Cómo crear y administrar programas para notebooks.

Cómo compartir un notebook

Puedes compartir un notebook con otras personas de la organización usando los permisos de IAM:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Selecciona el notebook de Jupyter que quieres compartir.

  3. Haz clic en Compartir

  4. Revisa los permisos. Agrega o quita los permisos de visualizador, editor y administrador para este notebook.

    Después de compartir un notebook, los usuarios con permisos de lectura o edición a nivel del lago pueden navegar a él y trabajar en el notebook compartido.

Cómo importar un notebook

Puedes importar un notebook desde un bucket de Cloud Storage:

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Haz clic en Importar.

  3. Navega al bucket de Cloud Storage que contiene el notebook que deseas importar.

  4. Selecciona el notebook, proporciona un nombre y haz clic en Importar.

    El notebook importado se crea en la carpeta Notebooks. Puedes abrir, escribir, compartir y programar el notebook importado.

Cómo exportar un notebook

Puedes exportar un notebook a un bucket de Cloud Storage para que otras personas de la organización con permisos de IAM puedan usarlo.

  1. En la vista Explorar, haz clic en la carpeta Notebooks.

  2. Marca el notebook que quieres exportar.

  3. Haz clic en el menú y, luego, en Exportar.

  4. Ingresa la ruta de acceso de Cloud Storage a la que deseas exportar el notebook.

  5. Haz clic en Exportar notebook.

¿Qué sigue?