Transcribir voz a texto con bibliotecas de cliente
En esta página se explica cómo enviar una solicitud de reconocimiento de voz a Speech-to-Text en tu lenguaje de programación favorito mediante las bibliotecas de cliente de Google Cloud.
Speech-to-Text permite integrar de forma sencilla las tecnologías de reconocimiento de voz de Google en las aplicaciones de desarrolladores. Puedes enviar datos de audio a la API Speech-to-Text, que devuelve una transcripción de texto de ese archivo de audio. Para obtener más información sobre el servicio, consulta el artículo Conceptos básicos de Speech-to-Text.
Antes de empezar
Antes de enviar una solicitud a la API Speech-to-Text, debes haber completado las siguientes acciones. Consulta la página Antes de empezar para obtener más información.
- Habilita Speech-to-Text en un proyecto de Google Cloud.
- Asegúrate de que la facturación esté habilitada en Speech-to-Text.
-
Instala Google Cloud CLI. Después de la instalación, inicializa la CLI de Google Cloud ejecutando el siguiente comando:
gcloud init
Si utilizas un proveedor de identidades (IdP) externo, primero debes iniciar sesión en la CLI de gcloud con tu identidad federada.
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
- (Opcional) Crea un segmento de Google Cloud Storage para almacenar tus datos de audio.
Instalar la biblioteca cliente
Go
go get cloud.google.com/go/speech/apiv1
Java
If you are using Maven, add
the following to your pom.xml
file. For more information about
BOMs, see The Google Cloud Platform Libraries BOM.
If you are using Gradle, add the following to your dependencies:
If you are using sbt, add the following to your dependencies:
If you're using Visual Studio Code, IntelliJ, or Eclipse, you can add client libraries to your project using the following IDE plugins:
The plugins provide additional functionality, such as key management for service accounts. Refer to each plugin's documentation for details.
Node.js
Antes de instalar la biblioteca, prepara el entorno para las tareas de desarrollo en Node.js.
npm install @google-cloud/speech
Python
Antes de instalar la biblioteca, prepara el entorno para las tareas de desarrollo en Python.
pip install --upgrade google-cloud-speech
Hacer una solicitud de transcripción de audio
Ahora puedes usar Speech-to-Text para transcribir un archivo de audio a texto. Usa el siguiente código para enviar una solicitud recognize
a la API Speech-to-Text.
Go
Java
Node.js
Antes de ejecutar el ejemplo, prepara el entorno para las tareas de desarrollo en Node.js.
Python
Antes de ejecutar el ejemplo, prepara el entorno para las tareas de desarrollo en Python.
¡Enhorabuena! Has enviado tu primera solicitud a Speech-to-Text.
Si recibes un error o una respuesta vacía de Speech-to-Text, consulta los pasos para solucionar problemas y mitigar errores.
Limpieza
Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.
- Usa el Google Cloud console para eliminar el proyecto si no lo necesitas.
Siguientes pasos
- Practica la transcripción de archivos de audio cortos.
- Consulta cómo procesar por lotes archivos de audio largos para el reconocimiento de voz.
- Consulta cómo transcribir audio en streaming, como el de un micrófono.
- Empieza a usar Speech-to-Text en el idioma que elijas con una biblioteca de cliente de Speech-to-Text.
- Consulta las aplicaciones de ejemplo.
- Para obtener el mejor rendimiento, precisión y otros consejos, consulta la documentación sobre prácticas recomendadas.