Precios de Dataflow
En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.
Para obtener información sobre cómo puedes ahorrar un 40% con un compromiso de tres años o un 20% con un compromiso de uno, consulta nuestra página de descuentos por compromiso de uso (CUDs).
Información general
El uso de Dataflow se factura en función de los recursos que utilicen tus tareas. Los recursos se miden y facturan de forma diferente según el modelo de precios que uses.
Recursos de computación de Dataflow | Recursos de computación de Dataflow Prime |
|
Unidades de computación de datos (DCUs) (por lotes y en streaming) |
Otros recursos de Dataflow en los que se facturan todas las tareas incluyen discos persistentes, GPUs y capturas.
Es posible que se usen recursos de otros servicios para la tarea de Dataflow. Entre los servicios que se usan con Dataflow, se pueden incluir BigQuery, Pub/Sub, Cloud Storage y Cloud Logging.
Aunque los precios se indican en horas, el uso de Dataflow se factura en incrementos de por segundo y por tarea. El uso se indica en horas para poder aplicar los precios por hora al uso por segundo. Por ejemplo, 30 minutos son 0,5 horas. Es posible que los trabajadores y las tareas consuman recursos, tal como se describe en las siguientes secciones.
En futuras versiones, es posible que haya otros cargos por servicio en Dataflow o que se agrupen servicios relacionados.
Recursos de computación de Dataflow
La facturación de Dataflow para los recursos de computación incluye los siguientes componentes:
- CPU y memoria de trabajador
- Datos de Dataflow Shuffle tratados para cargas de trabajo por lotes
- Unidades de computación de Streaming Engine
- Datos de Streaming Engine tratados
Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.
CPU y memoria del trabajador
En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Los trabajadores por lotes y en streaming tienen cargos por servicio independientes.
Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:
- CPU
- Memoria
Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, las tareas de Dataflow no emiten facturas de Compute Engine por los recursos de Compute Engine que gestiona el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.
Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que quieres asignar a una tarea. Los trabajadores y los recursos respectivos se añaden y se quitan automáticamente en función de la actuación del autoescalado.
Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos, como el tipo de máquina, el tipo de disco y el tamaño de disco, que se asignan a cada trabajador y que usan GPUs.
FlexRS
Dataflow ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles.
Aunque Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te cobrará una tarifa uniforme con un descuento del 40% en el coste de la CPU y la memoria, en comparación con los precios normales de Dataflow, independientemente del tipo de trabajador. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.
Datos procesados por Shuffle de Dataflow
En el caso de los flujos de procesamiento por lotes, Dataflow proporciona una función de gran escalabilidad, Shuffle, que ordena los datos sistemáticamente fuera de los trabajadores. Para obtener más información, consulta Dataflow Shuffle.
La función Shuffle de Dataflow cobra según el volumen de datos que se procesan durante la reproducción aleatoria.
Precios de Streaming Engine
En el caso de los flujos de procesamiento de streaming, Streaming Engine de Dataflow traslada el procesamiento de estado, aleatorio y de las máquinas virtuales de trabajadores al backend del servicio Dataflow. Para obtener más información, consulta Streaming Engine.
Unidades de computación de Streaming Engine
Con la facturación basada en recursos, los recursos de Streaming Engine se miden en unidades de computación de Streaming Engine. Dataflow mide los recursos de Streaming Engine que usa cada tarea y, a continuación, los factura en función del total de recursos que usa esa tarea. Para habilitar la facturación basada en recursos en tu tarea, consulta la sección Utilizar la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos que tienes se aplican automáticamente.
Cuando usas Dataflow Prime con la facturación basada en recursos, se te cobra en función del total de recursos que usa cada tarea. Sin embargo, se utiliza el SKU de Data Compute Unit (DCU) en lugar del SKU de unidad de computación de Streaming Engine.
Datos de Streaming Engine procesados (antiguos)
Dataflow sigue admitiendo la antigua facturación procesada por datos. A menos que habilites la facturación basada en recursos, las tareas se facturan mediante el procesamiento de datos procesados.
La facturación del procesamiento de datos de Streaming Engine mide el uso según el volumen de datos de streaming procesados, y depende de los siguientes factores:
- El volumen de datos ingeridos en tu flujo de procesamiento de streaming
- La complejidad del flujo de procesamiento
- Número de fases de flujo de procesamiento con operaciones aleatorias o doFns con reconocimiento del estado.
Estos son algunos ejemplos de lo que se contabiliza como un byte procesado:
- Flujos de entrada de fuentes de datos
- Flujos de datos de una fase de un flujo de procesamiento fusionado a otra fase de un flujo de procesamiento fusionado
- Flujos de datos que se conservaron en el estado definido por el usuario o se usaron en ventanas
- Enviar mensajes a sumideros de datos, como Pub/Sub o BigQuery
Precios de los recursos de computación de Dataflow: por lotes y FlexRS
En la siguiente tabla se indican los precios detallados de los recursos de trabajadores y de los datos procesados por Shuffle de las tareas por lotes y FlexRS.
1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3, 75 GB de memoria y disco persistente de 250 GB si no se utiliza Dataflow Shuffle, y 25 GB de disco persistente si se utiliza Dataflow Shuffle.
2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.
Precios de los recursos de computación de Dataflow (streaming)
En la siguiente tabla se indican los precios detallados de los recursos de trabajadores, los datos procesados (antiguos) de Streaming Engine y las unidades de computación de Streaming Engine para las tareas de streaming.
3 Valores predeterminados de los trabajadores de streaming: 4 vCPUs, 15 GB de memoria, disco persistente de 400 GB si no se utiliza Streaming Engine y 30 GB si se utiliza Streaming Engine. Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador al ejecutar una tarea de streaming. Una proporción de 1:1 entre trabajadores y discos es la asignación mínima de recursos.
4 Los precios de Shuffle de Dataflow se basan en los ajustes de volumen que se aplican a la cantidad de datos procesados durante las operaciones de lectura y escritura al reorganizar tu conjunto de datos. Para obtener más información, consulta los precios detallados de Shuffle de Dataflow. Los precios de Shuffle de Dataflow no se aplican a las tareas de Streaming Engine que usan la facturación basada en recursos.
5 Unidades de computación de Streaming Engine: para las tareas de streaming que utilizan Streaming Engine y el modelo de facturación basado en recursos. Estas tareas no se facturan por los datos que se procesan durante la reproducción aleatoria.
Ajustes de volumen de los datos procesados por Shuffle de Dataflow
Los cargos por cada tarea de Dataflow se calculan en función de los ajustes de volumen que se aplican a la cantidad total de datos procesados durante las operaciones de Dataflow Shuffle. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esta diferencia provoca que la métrica de datos aleatorios facturables procesados sea inferior a la métrica de datos aleatorios totales procesados.
En la tabla siguiente se explica cómo se aplican estos ajustes:
Datos tratados por Shuffle de Dataflow | Ajuste de facturación |
Primeros 250 GB | Reducción del 75 % |
Siguientes 4870 GB | Reducción del 50 % |
Resto de datos a partir de 5120 GB (5 TB) | ninguno |
Por ejemplo, si tu flujo de procesamiento genera 1024 GB (1 TB) de datos totales procesados por Shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Si tu flujo de procesamiento genera un total de 10240 GB (10 TB) de datos procesados por Shuffle de Dataflow, la cantidad de datos facturable es la siguiente:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Precios de los recursos de computación de Dataflow Prime
Dataflow Prime es una plataforma de procesamiento de datos basada en Dataflow para mejorar el uso de recursos y el diagnóstico distribuido.
El precio de los recursos de computación que utiliza una tarea de Dataflow Prime se determina en función del número de unidades de computación de datos (DCUs). Las DCUs representan los recursos informáticos que están asignados para ejecutar tu flujo de procesamiento. Otros recursos de Dataflow que utilizan las tareas de Dataflow Prime, como los discos persistentes, las GPUs y las capturas, se facturan por separado.
Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.
Unidad de computación de datos
Una unidad de computación de datos (DCU) es una unidad de medición del uso de Dataflow que hace un seguimiento del número de recursos de computación que consumen tus tareas. Entre los recursos que monitorizan las DCU se incluyen las vCPU, la memoria, los datos procesados por Shuffle de Dataflow (para las tareas por lotes) y los datos procesados de Streaming Engine (para las tareas de streaming). Las tareas que consumen más recursos tienen un mayor uso de DCU que las tareas que consumen menos recursos. Una DCU es comparable a los recursos que utiliza una tarea de Dataflow que se ejecuta durante una hora en un trabajador con 1 vCPU y 4 GB.
Facturación de unidades de computación de datos
Se te facturará por el número total de DCUs consumidas por tu tarea. El precio de una sola DCU varía en función de si se trata de una tarea por lotes o de streaming. Cuando usas Dataflow Prime con la facturación basada en recursos, se te cobra en función del total de recursos usados, no del proceso de bytes.
Optimiza el uso de unidades de computación de datos
No puedes establecer el número de DCUs para tus tareas. Dataflow Prime para contar las DCUs. Sin embargo, puedes reducir el número de DCUs consumidas gestionando los siguientes aspectos de la tarea:
- Reduce el consumo de memoria
- Reducir la cantidad de datos que se procesan en los pasos de reordenación usando filtros, combinadores y programadores eficientes.
Para identificar estas optimizaciones, usa la interfaz de monitorización de Dataflow y la interfaz de detalles de ejecución.
¿En qué se diferencian los precios de Dataflow Prime y los de Dataflow?
En Dataflow, se te cobra por los distintos recursos que consumen tus tareas, como las vCPU, la memoria, el disco persistente y la cantidad de datos que procesan Dataflow Shuffle o Streaming Engine.
Las unidades de computación de datos consolidan todos los recursos, excepto el almacenamiento, en una única unidad de cupo por usuario. Se te factura por los recursos de disco persistente y por el número de DCUs consumidas en función del tipo de tarea, por lotes o en streaming. Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.
¿Qué ocurre con las tareas que utilizan el modelo de precios de Dataflow?
Tus tareas de streaming y por lotes se seguirán facturando mediante el modelo de Dataflow. Cuando actualices tus tareas para usar Dataflow Prime, se les aplicará el modelo de precios de Dataflow Prime, en el que se les facturarán los recursos de Persistent Disk y las DCUs consumidas.
Otros recursos de Dataflow
El almacenamiento, las GPUs, las capturas y otros recursos se facturan de la misma forma en Dataflow y Dataflow Prime.
Precios de los recursos de almacenamiento
Los recursos de almacenamiento se facturan al mismo precio por las tareas de streaming, por lotes y de FlexRS. Puedes usar las opciones de flujo de procesamiento para cambiar el tamaño o el tipo de disco predeterminados. Dataflow Prime para facturar el disco persistente por separado de acuerdo con los precios que figuran en la tabla siguiente.
Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador al ejecutar una tarea de streaming. Cada disco persistente es local de una máquina virtual de Compute Engine individual. Una proporción de 1:1 entre los trabajadores y los discos es la asignación mínima de recursos.
Las tareas que usan Streaming Engine usan discos de arranque de 30 GB. Las tareas que usan Dataflow Shuffle utilizan discos de arranque de 25 GB. Para las tareas que no utilizan estas ofertas, el tamaño predeterminado de cada disco persistente es de 250 GB en modo por lotes y 400 GB en modo de streaming.
El uso de Compute Engine se basa en el número medio de trabajadores, mientras que el uso del disco persistente se basa en el valor exacto de --maxNumWorkers
. Los discos persistentes se redistribuyen de tal manera que cada trabajador tiene el mismo número de discos conectados.
Precios de los recursos de GPU
Los recursos de GPU se facturan al mismo precio en las tareas de streaming y por lotes. FlexRS no admite actualmente GPUs. Para obtener información sobre las regiones y zonas disponibles para las GPUs, consulta la disponibilidad de las regiones y zonas de las GPUs en la documentación de Compute Engine.
Capturas
Si quieres gestionar la fiabilidad de tus flujos de procesamiento de streaming, puedes usar capturas para guardar y restaurar su estado. El uso de las capturas se factura según el volumen de datos almacenados y depende de los siguientes factores:
- El volumen de datos ingeridos en tu flujo de procesamiento de streaming
- Tu lógica de ventanas
- El número de fases del flujo de procesamiento.
Puedes hacer una captura de tu tarea de streaming con la consola de Dataflow o con la CLI de Google Cloud. No se te cobrará nada por crear una tarea a partir de la captura y restaurar el estado del flujo de procesamiento. Para obtener más información, consulta Usar capturas de Dataflow.
Precios de las capturas
VM confidenciales
La máquina virtual confidencial de Dataflow encripta los datos que usan las máquinas virtuales de Compute Engine de los trabajadores. Para obtener más información, consulta el artículo Información general sobre las máquinas virtuales confidenciales.
Si usas VM confidencial para Dataflow, se aplican cargos adicionales por vCPU y por GB.
Precios de las VM confidenciales
Los precios son globales y no cambian según la región de Google Cloud.
Recursos que no son de Dataflow
Además del uso de Dataflow, es posible que una tarea consuma, entre otros, los siguientes recursos (cada uno tiene su propio precio):
-
Las tareas de Dataflow usan Cloud Storage para almacenar archivos temporales durante la ejecución del flujo de procesamiento. Para evitar que se te facturen costes de almacenamiento innecesarios, desactiva la función de eliminación no definitiva en los segmentos que utilizan tus tareas de Dataflow para el almacenamiento temporal. Para obtener más información, consulta Eliminar una política de eliminación no definitiva de un segmento.
-
Puedes enrutar los registros a otros destinos o excluirlos de la ingestión. Para obtener información sobre cómo optimizar el volumen de registros de tus tareas de Dataflow, consulta cómo controlar el volumen de registros de Dataflow.
Consultar el uso de recursos
Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en el panel Información de la tarea, en Métricas de recursos. Puedes hacer un seguimiento de las siguientes métricas en la interfaz de supervisión de Dataflow:
- Tiempo total de vCPU
- Tiempo de uso total de memoria
- Tiempo de uso total del disco persistente
- Total de datos de transmisión procesados
- Total de datos procesados por Shuffle
- Datos de Shuffle facturables procesados
Puedes usar la métrica Total de datos de reproducción aleatoria procesados para evaluar el rendimiento de tu flujo de procesamiento y la métrica Datos aleatorios procesados facturables para determinar los costes de la tarea de Dataflow.
En Dataflow Prime, puedes ver el número total de DCUs consumidas por una tarea en la sección Métricas del recurso del panel Información de la tarea.
Calculadora de precios
Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en la página de SKUs de Cloud Platform.
Siguientes pasos
- Consulta la documentación de Dataflow.
- Empieza a utilizar Dataflow.
- Prueba la calculadora de precios.
- Obtén información sobre las soluciones y los casos prácticos de Dataflow.