En esta página se describe cómo seleccionar un perfil de dispositivo para el audio creado con la función de conversión de texto a voz.
Puedes optimizar la síntesis de voz que genera Text-to-Speech para reproducirla en diferentes tipos de hardware. Por ejemplo, si tu aplicación se ejecuta principalmente en dispositivos más pequeños, como wearables, puedes crear voz sintética a partir de la API Text-to-Speech que esté optimizada específicamente para altavoces más pequeños.
También puedes aplicar varios perfiles de dispositivo al mismo texto de síntesis de voz. La API Text-to-Speech aplica perfiles de dispositivo al audio en el orden proporcionado en la solicitud al endpoint text:synthesize
. No especifiques el mismo perfil más de una vez, ya que puedes obtener resultados no deseados si lo aplicas varias veces.
El uso de perfiles de audio es opcional. Si decides usar uno o varios perfiles, la función de texto a voz los aplicará a los resultados de voz sintetizada. Si decides no usar un perfil de audio, recibirás los resultados de tu voz sin ninguna modificación posterior a la síntesis.
Para escuchar la diferencia entre el audio generado a partir de diferentes perfiles, compara los dos clips de abajo.
Ejemplo 1. Audio generado con el perfil handset-class-device
Ejemplo 2. Audio generado con el perfil telephony-class-application
Nota: Cada perfil de audio se ha optimizado para un dispositivo específico ajustando una serie de efectos de audio. Sin embargo, es posible que la marca y el modelo del dispositivo usado para ajustar el perfil no coincidan exactamente con los dispositivos de reproducción de los usuarios. Puede que tengas que probar con diferentes perfiles para encontrar la mejor salida de sonido para tu aplicación.
Perfiles de audio disponibles
En la siguiente tabla se muestran los IDs y ejemplos de los perfiles de dispositivo disponibles para usar con la API Text-to-Speech.
ID de perfil de audio | Optimizado para |
---|---|
wearable-class-device |
Smartwatches y otros wearables, como Apple Watch y relojes Wear OS |
handset-class-device |
Smartphones, como Google Pixel, Samsung Galaxy o Apple iPhone |
headphone-class-device |
Auriculares de botón o auriculares para reproducir audio, como los auriculares Sennheiser |
small-bluetooth-speaker-class-device |
Altavoces domésticos pequeños, como Google Home Mini |
medium-bluetooth-speaker-class-device |
Altavoces domésticos inteligentes, como Google Home |
large-home-entertainment-class-device |
Sistemas de entretenimiento doméstico o smart TVs, como Google Home Max o LG TV |
large-automotive-class-device |
Altavoces para coche |
telephony-class-application |
Sistemas de respuesta de voz interactiva (IVR) |
Especificar un perfil de audio que se va a usar
Para especificar un perfil de audio que se va a usar, asigna el valor effectsProfileId
al campo
de la solicitud de conversión de texto a voz.
Protocolo
Para generar un archivo de audio, haz una solicitud POST
y proporciona el cuerpo de la solicitud adecuado. A continuación, se muestra un ejemplo de una solicitud POST
que utiliza curl
. En el ejemplo se usa la CLI de Google Cloud para obtener un token de acceso para la solicitud.
Para obtener instrucciones sobre cómo instalar gcloud CLI, consulta Autenticarse en Text-to-Speech.
En el siguiente ejemplo se muestra cómo enviar una solicitud al endpoint text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Si la solicitud se realiza correctamente, la API Text-to-Speech devuelve el audio sintetizado como datos codificados en base64 incluidos en la salida JSON. El resultado JSON del archivo audio-profiles.txt
tiene el siguiente aspecto:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para decodificar los resultados de la API Cloud Text-to-Speech como un archivo de audio MP3, ejecuta el siguiente comando desde el mismo directorio que el archivo audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Go.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Java.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Node.js.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para Ruby.