Questo tutorial mostra come trascrivere la traccia audio di un video utilizzando Speech-to-Text.
I file audio possono provenire da molte fonti diverse. Dati audio disponibili da uno smartphone (ad esempio un messaggio vocale) o dalla colonna sonora inclusa in un video .
Speech-to-Text può utilizzare uno dei diversi modelli di machine learning per trascrivere il file audio in modo da ottenere la migliore corrispondenza con la fonte originale dell'audio. Puoi ottenere risultati migliori dalla trascrizione vocale specificando la fonte dell'audio originale. In questo modo, Speech-to-Text può elaborare i file audio utilizzando un modello di machine learning addestrato per dati simili al file audio.
Obiettivi
- Invia una richiesta di trascrizione audio per un file video a Speech-to-Text:
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
- Speech-to-Text
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
Questo tutorial prevede diversi prerequisiti:
- Hai configurato un progetto Speech-to-Text nella console Google Cloud.
- Hai configurato l'ambiente utilizzando Credenziali predefinite dell'applicazione nella console Google Cloud.
- Aver configurato l'ambiente di sviluppo linguaggio di programmazione.
- Hai installato Libreria client di Google Cloud per il linguaggio di programmazione scelto.
Prepara i dati audio
Prima di poter trascrivere l'audio di un video, devi estrarre i dati dal file video. Dopo aver estratto i dati audio, devi archiviarlo in un bucket Cloud Storage oppure convertirla in codifica base64.
Estrai i dati audio
Puoi utilizzare qualsiasi strumento di conversione di file in grado di gestire audio e file video, ad esempio FFmpeg.
Utilizza lo snippet di codice riportato di seguito per convertire un file video in un file audio
utilizzando ffmpeg
.
ffmpeg -i video-input-file audio-output-file
Memorizza o converti i dati audio
Puoi trascrivere un file audio archiviato sul tuo computer locale o in un bucket Cloud Storage.
Utilizza il seguente comando per caricare il file audio in un bucket Cloud Storage esistente utilizzando Google Cloud CLI.
gcloud storage cp audio-output-file storage-bucket-uri
Se utilizzi un file locale e prevedi di inviare una richiesta tramite curl
dalla riga di comando, devi convertire il file audio in
dati con codifica Base64.
Utilizza il seguente comando per convertire un file audio in un file di testo.
base64 audio-output-file -w 0 > audio-data-text
Invio di una richiesta di trascrizione
Utilizza il seguente codice per inviare una richiesta di trascrizione a Text-to-Speech.
Richiesta di file locale
Protocollo
Per informazioni dettagliate, consulta l'endpoint API di speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il
corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
che utilizza
curl
. L'esempio utilizza Google Cloud CLI per generare un
token di accesso. Per istruzioni sull'installazione di gcloud CLI,
consulta la guida rapida.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulta la documentazione di riferimento di RecognitionConfig
per
per ulteriori informazioni sulla configurazione
del corpo della richiesta.
Se la richiesta riesce, il server restituisce un codice di stato HTTP 200 OK
e la risposta in formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Go.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Java Speech-to-Text documentazione di riferimento.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Node.js Speech-to-Text documentazione di riferimento.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Python.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per PHP.
Ruby: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per Ruby.
Richiesta di file remoto
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Go.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Java Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Node.js Speech-to-Text documentazione di riferimento.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Python.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per Ruby.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Elimina le istanze
Per eliminare un'istanza di Compute Engine:
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Elimina le regole del firewall per la rete predefinita
Per eliminare una regola firewall:
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.
Passaggi successivi
- Scopri come ricevere i timestamp per l'audio.
- Identifica diversi altoparlanti in un file audio.
Provalo
Se non conosci Google Cloud, crea un account per valutare le prestazioni di Speech-to-Text in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
Prova Speech-to-Text gratuitamente