En esta sección se muestra cómo transcribir a texto audio en streaming, como la entrada de un micrófono.
El reconocimiento de voz en tiempo real te permite enviar audio a Speech-to-Text y recibir una secuencia de resultados de reconocimiento de voz en tiempo real a medida que se procesa el audio. Consulta también los límites de audio para las solicitudes de reconocimiento de voz en streaming. El reconocimiento de voz en streaming solo está disponible a través de gRPC.
Realizar el reconocimiento de voz en streaming en un archivo local
A continuación, se muestra un ejemplo de cómo realizar el reconocimiento de voz en streaming en un archivo de audio local. Hay un límite de 10 MB en todas las solicitudes de streaming que se envíen a la API. Este límite se aplica tanto a la solicitud StreamingRecognize
inicial como al tamaño de cada mensaje concreto que se incluya en la emisión. Si se supera este límite, se produce un error.
Go
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Go Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Node.js Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para Ruby.
Aunque puedes transmitir un archivo de audio local a la API Speech-to-Text, te recomendamos que realices el reconocimiento de audio síncrono o asíncrono para obtener resultados en modo por lotes.
Realizar el reconocimiento de voz en streaming en una emisión de audio
Speech-to-Text también puede realizar el reconocimiento de audio en streaming y en tiempo real.
A continuación, se muestra un ejemplo de cómo realizar el reconocimiento de voz en streaming en un flujo de audio recibido de un micrófono:
Go
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Go Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para usar estas muestras, debes instalar SoX, que debe estar disponible en tu $PATH
.
- En macOS:
brew install sox
. - En la mayoría de las distribuciones de Linux:
sudo apt-get install sox libsox-fmt-all
. - En Windows: descarga los archivos binarios.
Para obtener más información sobre cómo instalar y crear un cliente de Speech-to-Text, consulta las bibliotecas de cliente de Speech-to-Text.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Speech-to-Text para Ruby.
Realizar un reconocimiento de voz en streaming continuo
A continuación, se muestra un ejemplo de cómo realizar el reconocimiento de voz en streaming en un flujo de audio infinito recibido de un micrófono:
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para usar este ejemplo, debes instalar SoX, que debe estar disponible en tu $PATH
.
- En macOS:
brew install sox
. - En la mayoría de las distribuciones de Linux:
sudo apt-get install sox libsox-fmt-all
. - En Windows: descarga los archivos binarios.
Para obtener más información sobre cómo instalar y crear un cliente de Speech-to-Text, consulta las bibliotecas de cliente de Speech-to-Text.
Siguientes pasos
- Consulta cómo medir y mejorar la precisión.
Pruébalo
Si es la primera vez que utilizas Google Cloud, crea una cuenta para evaluar el rendimiento de Speech-to-Text en situaciones reales. Los nuevos clientes también reciben 300 USD en crédito gratuito para ejecutar, probar y desplegar cargas de trabajo.
Probar Speech-to-Text gratis