Prezzi di Dataflow
In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.
Per scoprire come risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno, consulta la pagina relativa agli sconti per impegno di utilizzo (CUD).
Panoramica
L'utilizzo di Dataflow viene fatturato per le risorse utilizzate dai tuoi job. A seconda del modello di prezzi, le risorse vengono misurate e fatturate in modo diverso.
Risorse di calcolo Dataflow | Risorse di calcolo di Dataflow Prime |
|
Unità di calcolo dei dati (DCU) (batch e flussi) |
Le altre risorse Dataflow fatturate per tutti i job includono Persistent Disk, GPU e snapshot.
Potrebbero essere utilizzate risorse di altri servizi per il job Dataflow. I servizi utilizzati con Dataflow includono, tra gli altri, BigQuery, Pub/Sub, Cloud Storage e Cloud Logging.
Anche se la tariffa per i prezzi si basa su ora, l'utilizzo di Dataflow viene fatturato in incrementi di al secondo per singolo job. L'utilizzo è espresso in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti equivalgono a 0,5 ore. I worker e i job potrebbero consumare le risorse descritto nelle sezioni seguenti.
Le versioni future di Dataflow potrebbero avere tariffe di servizio diverse o pacchetti di servizi correlati.
Risorse delle computing di Dataflow
La fatturazione di Dataflow per le risorse di calcolo include i seguenti componenti:
- CPU e memoria worker
- Dati di Dataflow Shuffle elaborati per carichi di lavoro in batch
- Unità di calcolo Streaming Engine
- Dati di Streaming Engine elaborati
Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Regioni e zone di Compute Engine.
CPU e memoria worker
Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I worker batch e flusso hanno costi di servizio separati.
I worker Dataflow consumano le seguenti risorse, ognuna fatturata al secondo:
- CPU
- Memoria
I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette la fatturazione di Compute Engine per le risorse Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprendono l'uso di queste risorse Compute Engine.
Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, vengono aggiunti e rimossi automaticamente in base all'attivazione della scalabilità automatica.
Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come tipo di macchina, tipo di disco e dimensione del disco, allocate a ciascun worker e che utilizzano GPU.
FlexRS
Dataflow offre un'opzione con prezzi scontati per CPU e memoria per l'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.
Sebbene Dataflow utilizzi una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata di circa il 40% sui costi di CPU e memoria rispetto ai normali prezzi di Dataflow, indipendentemente dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.
Dati di Dataflow Shuffle elaborati
Per le pipeline batch, Dataflow offre una funzionalità molto scalabile, Dataflow Shuffle, per eseguire lo shuffling dei dati all'esterno dei worker. Per ulteriori informazioni, consulta Dataflow Shuffle.
Dataflow Shuffle addebita i costi in base al volume dei dati elaborati durante lo shuffling.
Prezzi di Streaming Engine
Per le pipeline in modalità flusso, Dataflow Streaming Engine trasferisce lo shuffling dei flussi di dati e l'elaborazione degli stati dalle VM worker al backend del servizio Dataflow. Per ulteriori informazioni, consulta Streaming Engine.
Unità di calcolo Streaming Engine
Con la fatturazione basata sulle risorse, le risorse di Streaming Engine vengono misurate in unità di calcolo di Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ciascun job e fattura le risorse in base alle risorse totali utilizzate da quel job. Per abilitare la fatturazione basata sulle risorse per il job, consulta Utilizzare la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.
Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, i costi vengono addebitati in base alle risorse totali utilizzate da ciascun job, ma viene utilizzato lo SKU DCU (Data Compute Unit) al posto dello SKU dell'unità di calcolo Streaming Engine.
Dati elaborati da Streaming Engine (legacy)
Dataflow continua a supportare la fatturazione legacy elaborata per i dati. A meno che non abiliti la fatturazione basata sulle risorse, i job vengono fatturati utilizzando la fatturazione elaborata sui dati.
La fatturazione elaborata con i dati di Streaming Engine misura l'utilizzo in base al volume dei dati in modalità flusso elaborati, che dipende dai seguenti fattori:
- Il volume di dati importati nella pipeline in modalità flusso
- La complessità della pipeline
- Il numero di fasi della pipeline con operazione di shuffling o con DFn stateful
Ecco alcuni esempi di ciò che viene conteggiato come byte elaborato:
- Flussi di input da origini dati
- Flussi di dati da una fase unificata della pipeline a un'altra
- Flussi di dati mantenuti in stato definito dall'utente o utilizzati per il windowing
- Inviare messaggi di output a sink di dati, ad esempio in Pub/Sub o BigQuery
Prezzi delle risorse di calcolo di Dataflow - batch e FlexRS
La tabella seguente contiene i dettagli dei prezzi per le risorse worker e i dati di Shuffle elaborati per job batch e FlexRS.
1 Valori predefiniti per i worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non si utilizza Dataflow Shuffle, 25 GB su disco permanente se si utilizza Dataflow Shuffle
2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker
Prezzi delle risorse di calcolo di Dataflow - Flussi di dati
La tabella seguente contiene i dettagli dei prezzi per le risorse worker, i dati elaborati di Streaming Engine (legacy) e le unità di calcolo Streaming Engine per i job di flussi.
3 Valori predefiniti per i worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non si utilizza Streaming Engine, 30 GB su disco permanente se si utilizza Streaming Engine. Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job di flussi di dati. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
4 I prezzi di Dataflow Shuffle si basano sugli aggiustamenti del volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura durante lo shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle. I prezzi di Dataflow Shuffle non sono applicabili ai job di Streaming Engine che utilizzano la fatturazione basata sulle risorse.
5 Unità di calcolo Streaming Engine: per job in modalità flusso che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Questi job non vengono fatturati per i dati elaborati durante lo shuffling.
Regolazioni del volume per i dati di Dataflow Shuffle elaborati
Gli addebiti vengono calcolati per job Dataflow attraverso aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Di conseguenza, la metrica Dati shuffle fatturabili elaborati è inferiore a quella dei dati totali elaborati shuffle.
La seguente tabella spiega come vengono applicati questi aggiustamenti:
Dati di Dataflow Shuffle elaborati | Aggiustamento di fatturazione |
Primi 250 GB | Riduzione del 75% |
Successivi 4870 GB | Riduzione del 50% |
Dati rimanenti oltre 5120 GB (5 TB) | nessuno |
Ad esempio, se la pipeline restituisce 1024 GB (1 TB) di dati Dataflow Shuffle totali elaborati, l'importo fatturabile viene calcolato come segue:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Se la pipeline genera 10.240 GB (10 TB) di dati Dataflow Shuffle totali elaborati, la quantità fatturabile di dati è:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Prezzi delle risorse di calcolo di Dataflow Prime
Dataflow Prime è una piattaforma di elaborazione dati basata su Dataflow per migliorare l'utilizzo delle risorse e la diagnostica distribuita.
Il prezzo delle risorse di calcolo utilizzate da un job Dataflow Prime dipende dal numero di unità di calcolo dei dati (DCU). Le DCU rappresentano le risorse di calcolo allocate per l'esecuzione della pipeline. Altre risorse Dataflow utilizzate dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono fatturate separatamente.
Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Regioni e zone di Compute Engine.
Unità di calcolo dati
Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora il numero di risorse di calcolo utilizzate dai tuoi job. Le risorse monitorate dalle DCU includono vCPU, memoria, dati elaborati tramite Dataflow Shuffle (per job batch) e dati Streaming Engine elaborati (per job in modalità flusso). I job che consumano più risorse hanno un utilizzo di DCU maggiore rispetto a quelli che consumano meno risorse. Una DCU è paragonabile alle risorse utilizzate da un job Dataflow che viene eseguito per un'ora su un worker da 1 vCPU e 4 GB.
Fatturazione per Data Compute Unit
Ti verrà addebitato il numero totale di DCU utilizzate dal job. Il prezzo di una singola DCU varia a seconda che tu abbia un job batch o un job di flussi. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, la fatturazione avviene in base alle risorse totali utilizzate, anziché al processo dei byte.
Ottimizza l'utilizzo delle unità di calcolo dei dati
Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU utilizzate gestendo i seguenti aspetti del job:
- Riduzione del consumo di memoria
- Ridurre la quantità di dati elaborati nei passaggi di shuffling utilizzando filtri, combinatori e programmatori efficienti
Per identificare queste ottimizzazioni, utilizza l'interfaccia di monitoraggio di Dataflow e l'interfaccia dei dettagli di esecuzione.
Quali sono le differenze tra i prezzi di Dataflow Prime e i prezzi di Dataflow?
In Dataflow ti vengono addebitate le diverse risorse utilizzate dai job, come vCPU, memoria, Persistent Disk e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.
Le unità di calcolo dei dati consolidano tutte le risorse, tranne l'archiviazione, in un'unica unità di misurazione. Ti vengono addebitati i costi per le risorse Persistent Disk e per il numero di DCU utilizzate in base al tipo di job, batch o flusso. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.
Cosa succede ai miei job esistenti che utilizzano il modello di prezzi di Dataflow?
I job batch e flussi esistenti continuano a essere fatturati utilizzando il modello Dataflow. Quando aggiorni i job per utilizzare Dataflow Prime, i job utilizzeranno quindi il modello di prezzi di Dataflow Prime, in cui vengono fatturati le risorse del Persistent Disk e le DCU utilizzate.
Altre risorse Dataflow
Spazio di archiviazione, GPU, snapshot e altre risorse sono fatturati allo stesso modo per Dataflow e Dataflow Prime.
Prezzi delle risorse di archiviazione
Le risorse di archiviazione vengono fatturate alla stessa tariffa per i job di flussi di dati, batch e FlexRS. Puoi utilizzare le opzioni pipeline per modificare le dimensioni o il tipo di disco predefiniti. Dataflow Prime fattura il Persistent Disk separatamente in base ai prezzi riportati nella tabella seguente.
Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job di flussi di dati. Ogni disco permanente è locale di una singola macchina virtuale di Compute Engine. L'allocazione minima delle risorse è un rapporto 1:1 tra worker e dischi.
I job che utilizzano Streaming Engine usano dischi di avvio da 30 GB. I job che utilizzano Dataflow Shuffle usano dischi di avvio da 25 GB. Per i job che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è di 250 GB in modalità batch e di 400 GB in modalità flusso di dati.
L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre
l'utilizzo del Persistent Disk si basa sul valore esatto di --maxNumWorkers
. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
Prezzi delle risorse GPU
Le risorse GPU vengono fatturate alla stessa tariffa per i job batch e per flussi di dati. Al momento FlexRS non supporta le GPU. Per informazioni sulle regioni e sulle zone disponibili per le GPU, consulta Disponibilità di regioni e zone delle GPU nella documentazione di Compute Engine.
Snapshot
Per gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare gli snapshot per salvare e ripristinare lo stato della pipeline. L'utilizzo degli snapshot viene fatturato in base al volume di dati archiviati, che dipende dai seguenti fattori:
- Il volume dei dati importati nella pipeline in modalità flusso
- La logica del windowing
- Il numero di fasi della pipeline
Puoi acquisire uno snapshot del tuo job di flussi di dati utilizzando la console Dataflow o Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta Utilizzo degli snapshot Dataflow.
Prezzi degli snapshot
Confidential VM
Confidential VM per Dataflow cripta i dati in uso sulle VM Compute Engine dei worker. Per maggiori dettagli, consulta Panoramica di Confidential VM.
L'utilizzo di Confidential VM per Dataflow comporta costi fissi aggiuntivi per vCPU e per GB.
Prezzi di Confidential VM
I prezzi sono globali e non cambiano in base alla regione di Google Cloud.
Risorse non Dataflow
Oltre all'utilizzo di Dataflow, un job potrebbe consumare le seguenti risorse, ciascuna fatturata in base ai relativi prezzi, inclusi, a titolo esemplificativo:
-
I job Dataflow utilizzano Cloud Storage per archiviare i file temporanei durante l'esecuzione della pipeline. Per evitare che ti vengano addebitati costi di archiviazione non necessari, disattiva la funzionalità di eliminazione temporanea sui bucket che i job Dataflow utilizzano per l'archiviazione temporanea. Per maggiori informazioni, consulta Rimuovere un criterio di eliminazione temporanea da un bucket.
-
Puoi eseguire il routing dei log ad altre destinazioni o escludere i log dall'importazione. Per informazioni sull'ottimizzazione del volume dei log per i job Dataflow, consulta Controllo del volume dei log di Dataflow.
Visualizza l'utilizzo delle risorse
Puoi visualizzare le risorse totali per vCPU, memoria e Persistent Disk associate a un job nel riquadro Informazioni job in Metriche delle risorse. Puoi monitorare le seguenti metriche nell'interfaccia di monitoraggio di Dataflow:
- Totale tempo vCPU
- Tempo totale di utilizzo della memoria
- Tempo di utilizzo totale del disco permanente
- Totale dati di streaming elaborati
- Dati shuffling totali elaborati
- Dati shuffling fatturabili elaborati
Puoi utilizzare la metrica Dati shuffling totali elaborati per valutare le prestazioni della pipeline e la metrica Dati elaborati shuffle fatturabili per determinare i costi del job Dataflow.
Per Dataflow Prime, puoi visualizzare il numero totale di DCU utilizzate da un job nel riquadro Informazioni job in Metriche delle risorse.
Calcolatore prezzi
Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Passaggi successivi
- Leggi la documentazione di Dataflow.
- Inizia a utilizzare Dataflow.
- Prova il Calcolatore prezzi.
- Scopri di più su soluzioni e casi d'uso di Dataflow.