Questa pagina descrive come selezionare un profilo del dispositivo per l'audio creato con Text-to-Speech.
Puoi ottimizzare la sintesi vocale prodotta da Text-to-Speech per la riproduzione su diversi tipi di hardware. Ad esempio, se la tua app viene eseguita principalmente su dispositivi più piccoli di tipo "indossabile", puoi creare una voce sintetica dall'API Text-to-Speech ottimizzata appositamente per altoparlanti più piccoli.
Puoi anche applicare più profili di dispositivo alla stessa voce
sintetica. L'API Text-to-Speech applica i profili del dispositivo all'audio nell'ordine fornito nella richiesta all'endpoint text:synthesize
. Evita di specificare lo stesso profilo più di una volta, in quanto potresti
ottenere risultati indesiderati applicando lo stesso profilo più volte.
L'utilizzo dei profili audio è facoltativo. Se scegli di utilizzarne uno o più, Text-to-Speeche applica il profilo o i profili ai risultati vocali post-sintesi. Se scegli di non utilizzare un profilo audio, riceverai i risultati della sintesi vocale senza modifiche post-sintesi.
Per sentire la differenza tra l'audio generato da profili diversi, confronta i due clip riportati di seguito.
Esempio 1. Audio generato con il profilo handset-class-device
Esempio 2. Audio generato con il profilo telephony-class-application
Nota: ogni profilo audio è stato ottimizzato per un dispositivo specifico regolando una serie di effetti audio. Tuttavia, la marca e il modello del dispositivo utilizzato per la regolazione del profilo potrebbero non corrispondere esattamente ai dispositivi di riproduzione degli utenti. Potresti dover sperimentare con profili diversi per trovare l'output audio migliore per la tua applicazione.
Profili audio disponibili
La tabella seguente riporta gli ID e gli esempi dei profili dei dispositivi disponibili per l'utilizzo da parte dell'API Text-to-Speech.
ID profilo audio | Ottimizzato per |
---|---|
wearable-class-device |
Smartwatch e altri dispositivi indossabili, come Apple Watch, smartwatch Wear OS |
handset-class-device |
Smartphone, come Google Pixel, Samsung Galaxy, Apple iPhone |
headphone-class-device |
Auricolari o cuffie per la riproduzione audio, ad esempio cuffie Sennheiser |
small-bluetooth-speaker-class-device |
Speaker per la casa di piccole dimensioni, come Google Home Mini |
medium-bluetooth-speaker-class-device |
Speaker per la smart home, come Google Home |
large-home-entertainment-class-device |
Sistemi di intrattenimento domestico o smart TV, come Google Home Max, LG TV |
large-automotive-class-device |
Altoparlanti auto |
telephony-class-application |
Sistemi di Risposta Vocale Interattiva (IVR) |
Specifica un profilo audio da utilizzare.
Per specificare un profilo audio da utilizzare, imposta il campo
effectsProfileId
per la richiesta di sintesi vocale.
Protocollo
Per generare un file audio, esegui una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza Google Cloud CLI per recuperare un token di accesso per la richiesta.
Per istruzioni sull'installazione di gcloud CLI, vedi
Autenticarsi in Text-to-Speech.
L'esempio seguente mostra come inviare una richiesta all'endpoint
text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Se la richiesta riesce, l'API Text-to-Speech restituisce l'audio sintetizzato
come dati codificati in base64 contenuti nell'output JSON. L'output JSON
nel file audio-profiles.txt
ha il seguente aspetto:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Per decodificare i risultati dell'API Cloud Text-to-Speech come file audio MP3, esegui il seguente comando dalla stessa directory del file audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta la sezione Librerie client Text-to-Speech. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Text-to-Speech per Go.
Per eseguire l'autenticazione in Text-to-Speech, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta la sezione Librerie client Text-to-Speech. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Text-to-Speech per Java.
Per eseguire l'autenticazione in Text-to-Speech, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta la sezione Librerie client Text-to-Speech. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Text-to-Speech per Node.js.
Per eseguire l'autenticazione in Text-to-Speech, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta la sezione Librerie client Text-to-Speech. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Text-to-Speech per Python.
Per eseguire l'autenticazione in Text-to-Speech, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi visita la documentazione di riferimento di Text-to-Speech per .NET.
PHP: Segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi visita la documentazione di riferimento di Text-to-Speech per PHP.
Ruby: Segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di Text-to-Speech per Ruby.