En esta página se muestra cómo transcribir a texto un archivo de audio corto mediante el reconocimiento de voz síncrono.
El reconocimiento de voz síncrono devuelve el texto reconocido de audios cortos (de menos de 60 segundos). Para procesar una solicitud de reconocimiento de voz de audio de más de 60 segundos, usa el reconocimiento de voz asíncrono.
El contenido de audio se puede enviar directamente a Speech-to-Text desde un archivo local, o bien Speech-to-Text puede procesar el contenido de audio almacenado en un segmento de Google Cloud Storage. Consulta los límites de las solicitudes de reconocimiento de voz síncronas en la página de cuotas y límites.
Realizar el reconocimiento de voz síncrono en un archivo local
A continuación, se muestra un ejemplo de cómo realizar el reconocimiento de voz síncrono en un archivo de audio local:
REST
Consulta todos los detalles en el endpoint de la API speech:recognize
. Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
El contenido de audio proporcionado en el cuerpo de la solicitud debe estar codificado en Base64.
Para obtener más información sobre cómo codificar audio en Base64, consulta Codificar contenido de audio en Base64. Para obtener más información sobre el campo content
, consulta RecognitionAudio.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
- LANGUAGE_CODE: el código BCP-47 del idioma que se habla en el clip de audio.
- ENCODING: la codificación del audio que quieras transcribir.
- SAMPLE_RATE_HERTZ: frecuencia de muestreo en hercios del audio que quieras transcribir.
- ENABLE_WORD_TIME_OFFSETS: habilita este campo si quieres que se devuelvan los desplazamientos de la hora de inicio y de finalización de las palabras (marcas de tiempo).
- INPUT_AUDIO: una cadena codificada en base64 de los datos de audio que quieras transcribir.
- PROJECT_ID: el ID alfanumérico de tu proyecto de Google Cloud .
Método HTTP y URL:
POST https://speech.googleapis.com/v1/speech:recognize
Cuerpo JSON de la solicitud:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulta todos los detalles sobre el comando recognize
.
Para usar el reconocimiento de voz en un archivo local, usa la CLI de Google Cloud y proporciona la ruta del archivo local en el que quieres usar el reconocimiento de voz.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Si la solicitud se realiza de forma correcta, el servidor devuelve una respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Go Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Node.js Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para Ruby.
Realizar un reconocimiento de voz síncrono en un archivo remoto
Para tu comodidad, la API Speech-to-Text puede realizar el reconocimiento de voz síncrono directamente en un archivo de audio ubicado en Google Cloud Storage, sin necesidad de enviar el contenido del archivo de audio en el cuerpo de tu solicitud.
A continuación se muestra un ejemplo de cómo realizar el reconocimiento de voz síncrono en un archivo ubicado en Cloud Storage:
REST
Consulta todos los detalles en el endpoint de la API speech:recognize
. Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
El contenido de audio proporcionado en el cuerpo de la solicitud debe estar codificado en Base64.
Para obtener más información sobre cómo codificar audio en Base64, consulta Codificar contenido de audio en Base64. Para obtener más información sobre el campo content
, consulta RecognitionAudio.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
- LANGUAGE_CODE: el código BCP-47 del idioma que se habla en el clip de audio.
- ENCODING: la codificación del audio que quieras transcribir.
- SAMPLE_RATE_HERTZ: frecuencia de muestreo en hercios del audio que quieras transcribir.
- ENABLE_WORD_TIME_OFFSETS: habilita este campo si quieres que se devuelvan los desplazamientos de la hora de inicio y de finalización de las palabras (marcas de tiempo).
- STORAGE_BUCKET: un segmento de Cloud Storage.
- INPUT_AUDIO: el archivo de datos de audio que quieras transcribir.
- PROJECT_ID: el ID alfanumérico de tu proyecto de Google Cloud .
Método HTTP y URL:
POST https://speech.googleapis.com/v1/speech:recognize
Cuerpo JSON de la solicitud:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulta todos los detalles sobre el comando recognize
.
Para usar el reconocimiento de voz en un archivo local, usa la CLI de Google Cloud y proporciona la ruta del archivo local en el que quieres usar el reconocimiento de voz.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Si la solicitud se realiza de forma correcta, el servidor devuelve una respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Go Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Node.js Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para Ruby.