En esta página se muestra cómo enviar audio a una solicitud de detección de intención mediante la API. Dialogflow procesa el audio y lo convierte en texto antes de intentar encontrar una coincidencia con una intención. Esta conversión se conoce como entrada de audio, reconocimiento de voz, transcripción de voz o STT.
Antes de empezar
Esta función solo se aplica cuando se usa la API para las interacciones con el usuario final. Si usas una integración, puedes saltarte esta guía.
Antes de leer esta guía, debes hacer lo siguiente:
- Consulta los conceptos básicos de Dialogflow.
- Sigue los pasos de configuración.
Crear un agente
Si aún no has creado un agente, hazlo ahora:
- Ve a la consola de Dialogflow ES.
- Si se te solicita, inicia sesión en la consola de Dialogflow. Para obtener más información, consulta el artículo Información general sobre la consola de Dialogflow.
- En el menú de la barra lateral de la izquierda, haz clic en Crear agente. Si ya tienes otros agentes, haz clic en el nombre del agente, desplázate hasta la parte inferior y haz clic en Crear nuevo agente.
- Introduce el nombre, el idioma predeterminado y la zona horaria predeterminada del agente.
- Si ya has creado un proyecto, accede a él. Si quieres permitir que la consola de Dialogflow cree el proyecto, selecciona Crear un proyecto de Google.
- Haz clic en el botón Crear.
Importar el archivo de ejemplo a tu agente
En los pasos de esta guía se presupone que tienes un agente, por lo que debes importar un agente preparado para esta guía. Al importar, estos pasos utilizan la opción Restaurar, que sobrescribe todos los ajustes, las intenciones y las entidades del agente.
Para importar el archivo, sigue estos pasos:
-
Descarga el archivo
room-booking-agent.zip
. - Ve a la consola de Dialogflow ES.
- Selecciona tu agente.
- Haz clic en el botón de configuración settings situado junto al nombre del agente.
- Selecciona la pestaña Exportar e importar.
- Selecciona Restaurar desde ZIP y sigue las instrucciones para restaurar el archivo ZIP que has descargado.
Conceptos básicos sobre el streaming
El método streamingDetectIntent
del tipo Session
devuelve un objeto de streaming bidireccional de gRPC.
Los métodos disponibles para este objeto varían según el lenguaje, por lo que debes consultar la documentación de referencia de tu biblioteca de cliente para obtener más información.
El objeto de streaming se usa para enviar y recibir datos simultáneamente.
Con este objeto, tu cliente transmite contenido de audio a Dialogflow mientras escucha simultáneamente una StreamingDetectIntentResponse
.
El método streamingDetectIntent
tiene un parámetro query_input.audio_config.single_utterance
que afecta al reconocimiento de voz:
- Si se usa
false
(valor predeterminado), el reconocimiento de voz no se detiene hasta que el cliente cierra el flujo. - Si
true
, Dialogflow detectará una sola expresión hablada en el audio de entrada. Cuando Dialogflow detecta que la voz del audio se ha detenido o pausado, deja de reconocer la voz y envía unStreamingDetectIntentResponse
con un resultado de reconocimiento deEND_OF_SINGLE_UTTERANCE
a tu cliente. Dialogflow ignora el audio que se envía a Dialogflow en el flujo después de recibirEND_OF_SINGLE_UTTERANCE
.
En el streaming bidireccional, un cliente puede cerrar parcialmente el objeto de flujo para indicar al servidor que no enviará más datos.
Por ejemplo, en Java y Go, este método se llama closeSend
.
Es importante cerrar los flujos a medias (pero no cancelarlos) en las siguientes situaciones:
- Tu cliente ha terminado de enviar datos.
- Tu cliente tiene el valor
single_utterance
configurado como true y recibe unStreamingDetectIntentResponse
con un resultado de reconocimiento deEND_OF_SINGLE_UTTERANCE
.
Después de cerrar una emisión, tu cliente debe iniciar una nueva solicitud con una nueva emisión según sea necesario.
Detectar intent en streaming
En los siguientes ejemplos se usa el método streamingDetectIntent
del tipo Session
para transmitir audio.
Go
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Dialogflow para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Dialogflow para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Dialogflow para Ruby.
Ejemplos
Consulta la página de ejemplos para ver las prácticas recomendadas sobre la transmisión desde un micrófono del navegador a Dialogflow.