El área de trabajo de exploración de datos en Dataplex (Explorar) te permite interactuar de forma interactiva consultar datos completamente administrados con acceso de un clic a Spark SQL {i>scripts<i} y {i>notebooks<i} de Jupyter. Explorar te permite colaborar con otros equipos mediante la publicación, el uso compartido y la búsqueda integrados de recursos de codificación.
Explorar el aprovisionamiento, el escalamiento y la administración de la infraestructura sin servidores necesarios para ejecutar tus secuencias de comandos y notebooks de Spark SQL con credenciales de usuario. Puedes poner en funcionamiento tu trabajo con la programación sin servidores desde el área de trabajo.
En este documento, se describe cómo usar las funciones de Explorar en Dataplex
Costos
Dataplex ofrece Explore en el nivel de procesamiento premium.
Terminología
En este documento, se usan los siguientes términos:
Entorno
Un entorno proporciona recursos de procesamiento sin servidores para tu Spark SQL y notebooks para ejecutar en un lake. Un administrador de Dataplex crea y administra entornos.
Los administradores pueden autorizar a uno o más usuarios para que ejecuten consultas y notebooks. en el entorno configurado otorgándoles Rol de desarrollador o los permisos de IAM asociados.
Sesión
Cuando un usuario autorizado elige un entorno para ejecutar sus consultas y en notebooks, Dataplex usa la configuración del entorno para crear una sesión activa específica para el usuario. Según el entorno predeterminada, si una sesión no está en uso, finaliza automáticamente.
Iniciar una sesión nueva por usuario demora unos minutos. Una vez que comienza una sesión, ejecuta consultas y notebooks posteriores para el mismo usuario. Una sesión es que esté activa durante un máximo de 10 horas.
Para un entorno, Dataplex crea solo una sesión por usuario, que se comparte con las secuencias de comandos de Spark SQL y los notebooks de Jupyter.
Dataplex usa credenciales de usuario en una sesión para ejecutar operaciones, como consultar los datos de Cloud Storage y en BigQuery.
Nodo
Un nodo especifica la capacidad de procesamiento en la configuración de un entorno. Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM
Entorno predeterminado
Puedes crear un entorno predeterminado por lake con el ID default
.
Un entorno predeterminado debe usar una configuración predeterminada. Una configuración predeterminada
consta de lo siguiente:
- Capacidad de procesamiento de un nodo
- Tamaño del disco principal de 100 GB
- Cierre automático de la sesión (tiempo de cierre automático) establecido en 10 minutos de tiempo inactivo
- El parámetro
sessionSpec.enableFastStartup
, que se establece de forma predeterminada entrue
Cuando este parámetro se establece entrue
, Dataplex aprovisiona previamente las sesiones para este entorno para que estén disponibles de inmediato, lo que reduce el tiempo de inicio de la sesión inicial. - Una sesión de inicio rápido es una sesión de un solo nodo, que Dataplex cobra a tarifas de SKU de procesamiento premium similares a las de una sesión normal. Hay disponible un máximo de una sesión siempre activa para el inicio rápido, lo que genera costos incluso cuando no está en uso. Dataplex mantiene activa esta sesión creada previamente durante 10 horas, la apaga y, luego, crea una nueva sesión.
Si no seleccionas un entorno de forma explícita y configuraste un entorno predeterminada previamente, Dataplex usa el entorno predeterminada para crear sesiones.
Secuencia de comandos de SQL
Una secuencia de comandos de SQL es una secuencia de comandos de Spark SQL que se guarda como contenido dentro de un lago de Dataplex. Puedes guardar la secuencia de comandos en un lake y compartirlo con otros directores. También puedes programarlo para que se ejecute por lotes de Spark sin servidores en Dataplex. Dataplex habilita el acceso listo para usar de Spark SQL a las tablas que se asignan a datos en Cloud Storage y BigQuery.
Notebook
Un notebook de Python 3 es un notebook de Jupyter que guardas como contenido en un lago de Dataplex. Puedes guardar un notebook como contenido un lake y compartirlo con otras principales programarlo para que se ejecute como Trabajo por lotes de Spark sin servidores de Dataproc en Dataplex.
Para los datos en BigQuery, puedes acceder a BigQuery
tablas directamente a través de Spark sin usar el comando mágico %%bigquery
.
Antes de comenzar
Antes de comenzar, vincula tu lake a Dataproc Metastore y otorga roles necesarios.
Vincula tu lake a Dataproc Metastore (DPMS)
Para usar Explorar, haz lo siguiente:
- Asocia un Dataproc Metastore (DPMS) habilitado para gRPC en la versión 3.1.2 o posterior con el lake de Dataplex.
- Asegúrate de tener Dataproc Metastore de muestra asignado a tu lake.
Aprende a configurar Dataproc Metastore con Dataplex para acceder a los metadatos en Spark.
Roles obligatorios
Según las acciones que planees realizar, necesitarás todos los siguientes elementos de IAM roles de seguridad. Todos los entornos de un lake heredan los permisos otorgados a nivel del lake.
- Visualizador de Dataplex
- Desarrollador de Dataplex
- Lector de metadatos de Dataplex
- Lector de datos de Dataplex
Roles adicionales:
Logging
Para comprender el uso de Explorar, consulta los siguientes documentos:
Limitaciones conocidas
En esta sección, se describen las limitaciones conocidas de Explorar.
Explorar está disponible para los lagos de las siguientes regiones:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
Puedes usar hasta 10 entornos por región en un proyecto. Para obtener información sobre cómo aumentar el límite de cuota, consulta Trabaja con cuotas.
Puedes crear entornos con un máximo de 150 nodos. La duración de la sesión de las sesiones de usuario individuales está restringida a 10 horas.
Las secuencias de comandos de Spark SQL solo pueden consultar datos dentro de un lake determinado. Si deseas consultar datos en un lake diferente, debes cambiar a ese lake y seleccionar dentro de ese lake.
Después de recuperar un proyecto, Dataplex no restablece el contenido como secuencias de comandos de SQL o notebooks. Procede con precaución cuando borres un proyecto con recursos de contenido de Explorar.
Cuando programes un notebook, si el entorno tiene paquetes personalizados, podrás programarlo solo con la CLI de gcloud. Para obtener más información, consulta Cómo programar notebooks con paquetes personalizados.
Si borras un entorno antes de borrar las secuencias de comandos y los notebooks, no puede acceder a la página Explorar. Por lo tanto, asegúrate de borrar las secuencias de comandos y los notebooks antes de borrar un entorno en Explorar.
Las sesiones de exploración no son compatibles con los sistemas de archivos distribuidos de Hadoop (HDFS). No almacenes datos del usuario en una sesión de Explorar, ya que se borrarán cuando finalice.
El límite de tamaño máximo para un notebook o una secuencia de comandos de SQL es de 1 MB.
Crear un entorno
En la consola de Google Cloud, ve a la página Administrar Lakes de Dataplex.
Selecciona un lake de Dataplex para el que quieras crear un en un entorno de nube.
Haz clic en la pestaña Environments (Entornos).
Haz clic en Crear entorno.
En el campo Nombre visible, ingresa un nombre para tu entorno.
En el ID del entorno, ingresa un ID único.
Opcional: Ingresa una descripción para el entorno nuevo.
En el panel Configurar procesamiento, especifica lo siguiente:
- Cantidad de nodos: Es la cantidad de nodos que se aprovisionarán. para las sesiones de usuario creadas para este entorno.
- Cantidad máxima de nodos: Es la cantidad máxima de nodos que Dataplex puede ajustar automáticamente en las sesiones de usuario asociadas con este entorno.
- Tamaño del disco principal: Es la cantidad de tamaño del disco asociado a cada uno. aprovisionado a un nodo.
- Tiempo de cierre automático: El tiempo de inactividad después del cual Dataplex cierra automáticamente las sesiones de usuario asociadas con esta en un entorno de nube. Puedes establecer un mínimo de 10 minutos y un máximo de 60 minutos.
En el panel Paquetes de software (opcional), puedes especificar paquetes de Python, archivos JAR y propiedades de Spark adicionales para instalar en las sesiones de usuario aprovisionadas para este entorno.
Cuando creas un entorno y proporcionas la ruta de acceso de Cloud Storage para los archivos JAR de Java o los paquetes de Python, para que Dataplex instale los archivos JAR o los paquetes, asegúrate de que el agente de servicio de Cloud Dataplex tenga los permisos necesarios para acceder a los archivos de Cloud Storage.
Haz clic en Crear.
Notas
Un nodo se asigna a 4 unidades de procesamiento de datos (DCU), que es comparable a 4 CPU virtuales y 16 GB de RAM
Puedes crear un entorno con un nodo, o bien con tres o más nodos.
Si eres administrador del lake, puedes configurar entornos y permitir que los usuarios ejecuten sus cargas de trabajo con parámetros de configuración ya especificados.
Aunque los entornos se pueden compartir con varios usuarios, Dataplex crea una sesión independiente por usuario con la configuración del entorno.
Crea un entorno predeterminado
Consulta los requisitos de configuración para un entorno predeterminado.
Console
Abre Dataplex en la consola de Google Cloud.
Ve a la vista Administrar.
Selecciona un lake de Dataplex.
Haz clic en la pestaña Environments (Entornos).
Haz clic en Crear entorno predeterminado.
gcloud
Para crear un entorno predeterminado con el inicio rápido habilitado, ejecuta el siguiente comando: :
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Explora datos con el área de trabajo de Spark SQL
Para explorar datos de BigQuery y Cloud Storage, usa las secuencias de comandos de Spark SQL.
Crea y guarda una secuencia de comandos
En la consola de Google Cloud, ve a Explorar de Dataplex. .
En la vista Explorar, selecciona el lago que contiene los activos de datos que deseas explorar.
En el navegador de recursos, expande el lago. Muestra lo siguiente carpetas:
- Datos: Contienen todas las bases de datos y tablas de la instancia de DPMS. conectadas a tu lago, incluidas las tablas lacustres Hudi, Iceberg y Delta.
- Notebooks: Contiene todos los notebooks creados en el lago seleccionado.
- Secuencias de comandos de Spark SQL: Contiene todas las secuencias de comandos de Spark SQL creadas en el lake seleccionado.
Expande Datos y selecciona la base de datos y la tabla requeridas.
Para usar una consulta de muestra, haz clic en CONSULTA. El área de trabajo de Spark SQL completa automáticamente una pestaña nueva con una consulta de muestra.
Para crear una secuencia de comandos nueva, en el Editor de SQL de Spark, haz clic en Nueva secuencia de comandos y, luego, ingresa tus consultas.
Para guardar la secuencia de comandos, selecciona Guardar > Guardar secuencia de comandos.
Ejecuta una secuencia de comandos
En el Editor de SQL de Spark, haz clic en la pestaña con la consulta que deseas ejecutar.
Haz clic en Seleccionar entorno. Selecciona el entorno en el que deseas ejecutar la consulta. Si no seleccionas un entorno, Dataplex usa el entorno predeterminado para crear una sesión por usuario.
Para ejecutar varias consultas de Spark SQL en la misma secuencia de comandos, separa las consultas con punto y coma.
Haz clic en Ejecutar.
Consulta los resultados del Historial de búsquedas de cada una de las consultas de la secuencia de comandos con la lista desplegable.
Programa una secuencia de comandos
Puedes programar una secuencia de comandos para que se ejecute como una tarea de Dataplex. Para obtener más información, consulta Cómo crear y administrar programas para secuencias de comandos de SQL.
Comparte un guion
Puedes compartir una secuencia de comandos con otras personas de la organización mediante los permisos de IAM:
En la vista Explorar, haz clic en la secuencia de comandos de Spark SQL que deseas compartir.
En el menú Más, haz clic en Compartir.
Revisa los permisos. Agrega o quita permisos de visualizador, editor y administrador para la secuencia de comandos compartida.
Después de compartir una secuencia de comandos, los usuarios con permisos de visualización o edición a nivel del lago pueden navegar al lago y trabajar en la secuencia de comandos compartida.
Explora datos de BigQuery y Cloud Storage con Spark SQL
Para cualquier conjunto de datos de BigQuery que se agregue como activo a una zona, Dataplex habilita el acceso directo de Spark SQL a todas las tablas de ese conjunto de datos. Puedes consultar datos en Dataplex con secuencias de comandos de SQL de Spark o notebooks. Por ejemplo:
select * from ZONE_ID.TABLE_ID
Si tus recursos se asignan a buckets de Cloud Storage en la misma zona, Dataplex ofrece una lista unificada de tablas con Spark.
Explora datos con notebooks
En esta sección, se describe cómo crear, programar, compartir, importar y exportar notebooks.
Crea y guarda un notebook
En la consola de Google Cloud, ve a la página Explorar de Dataplex.
En la vista Explorar, selecciona un lago.
Expande el lake y haz clic en la carpeta Notebooks.
Haz clic en Nuevo notebook.
En el campo Ruta del notebook, proporciona el nombre del notebook.
Opcional: En el campo Descripción, proporciona una descripción para la nueva notebook.
Opcional: Agrega etiquetas.
Haz clic en Crear notebook. Se creó un notebook.
Para abrir el notebook creado, haz clic en Abrir notebook.
Selecciona un entorno en el que quieras que Dataplex cree de usuario, cuando crees o abras tu notebook. Asegúrate de seleccionar un entorno con paquetes de confianza.
Si no seleccionas un entorno, Dataplex usa en un entorno de nube. Si no tienes un entorno, crea uno. Para obtener más información, consulta Cómo crear un entorno.
Ahora puedes explorar tus datos escribiendo código de Python y guardando el notebook después de la exploración. Más adelante, puedes obtener una vista previa del notebook creado y examinar su sin crear una sesión ni ejecutar el código.
Programa un notebook
Puedes programar un notebook para que se ejecute como una Tarea de Dataplex. Para obtener más información, consulta Cómo crear y administrar agendas para notebooks.
Cómo compartir un notebook
Puedes compartir un notebook con otras personas de la organización mediante los permisos de IAM:
En la vista Explorar, haz clic en la carpeta Notebooks.
Selecciona el notebook de Jupyter que quieres compartir.
Haz clic en Compartir
Revisa los permisos. Agregar o quitar visualizador, editor y administrador permisos para este notebook.
Después de compartir un notebook, los usuarios que tengan permisos de lectura o edición a nivel del lago pueden navegar a él y trabajar en el notebook compartido.
Cómo importar un notebook
Puedes importar un notebook desde un bucket de Cloud Storage:
En la vista Explorar, haz clic en la carpeta Notebooks.
Haga clic en Import.
Navega al bucket de Cloud Storage que contiene el notebook que deseas importar.
Selecciona el notebook, proporciona un nombre y haz clic en Importar.
El notebook importado se crea en la carpeta Notebooks. Puedes abrir, escribir, compartir y programar el notebook importado.
Cómo exportar un notebook
Puedes exportar un notebook a un bucket de Cloud Storage para que se pueda que usan otras personas de la organización con permisos de IAM.
En la vista Explorar, haz clic en la carpeta Notebooks.
Marca el notebook que quieres exportar.
Haz clic en el menú
y, luego, en Exportar.Ingresa la ruta de acceso de Cloud Storage a la que quieres exportar el notebook.
Haz clic en Exportar notebook.
¿Qué sigue?
- Consulta la referencia de la API del recurso Task.
- Administra tus entornos.
- Descubre datos.
- Programa secuencias de comandos y notebooks de SQL.
- Administrar metadatos.