Algunos productos y funciones están en proceso de cambiar de nombre. Las funciones de flujo y de la guía generativa también se migrarán a una sola consola consolidada. Consulta los detalles.

Se usó la API de Cloud Translation para traducir esta página.

Adaptación de voz

Cuando realizas una solicitud de detección de intent, puedes proporcionar phrase_hints de forma opcional para proporcionar sugerencias al reconocedor de voz. Estas sugerencias pueden ayudarte con el reconocimiento en una situación de conversación específica.

Adaptación de voz automática

La función de adaptación de voz automática mejora la precisión del reconocimiento de voz de tu agente mediante el uso automático del estado de la conversación para pasar entidades relevantes y frases de entrenamiento como sugerencias de contexto de voz en todas las solicitudes de detección de intent. Esta función se inhabilita de forma predeterminada.

Habilita o inhabilita la adaptación automática de voz

Para habilitar o inhabilitar la adaptación automática de voz, haz lo siguiente:

Console

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Selecciona el agente.
Haz clic en Configuración del agente.
Haz clic en la pestaña IVR y voz.
Activa o desactiva Habilitar la adaptación de voz automática.
Haz clic en Guardar.

API

Consulta los métodos get y patch/update para el tipo Agent.

Selecciona un protocolo y una versión para la Referencia del agente:

Protocolo	V3	V3beta1
REST	Recurso del agente	Recurso del agente
RPC	Interfaz del agente	Interfaz del agente
C++	AgentsClient	No disponible
C#	AgentsClient	No disponible
Go	AgentsClient	No disponible
Java	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	No disponible	No disponible
Python	AgentsClient	AgentsClient
Ruby	No disponible	No disponible

Diseño del agente para mejorar el reconocimiento de voz

Si habilitas la adaptación automática de voz, puedes compilar tu agente para aprovecharla. En las siguientes secciones, se explica cómo se puede mejorar el reconocimiento de voz con ciertos cambios en las frases de entrenamiento y las entidades del agente.

Frases de entrenamiento

Si defines frases de entrenamiento con una frase como “es 3 de diciembre”, un enunciado del usuario que suene similar se reconoce de manera correcta como “es 3 de diciembre” y no “estrés de diciembre”.

Cuando tienes un parámetro obligatorio que obliga a Dialogflow a recibir solicitudes de relleno de formularios, la adaptación de voz automática se inclinará fuertemente hacia la entidad que se va a completar.

En todos los casos, la adaptación de voz automática solo restringe el reconocimiento de voz, no la limita. Por ejemplo, aunque Dialogflow le solicite a un usuario un parámetro obligatorio, los usuarios aún podrán activar otros intents, como un intent “hablar con un agente”.

Entidades del sistema

Si defines una frase de entrenamiento que usa la entidad del sistema @sys.number y el usuario final dice “Quiero dos”, este enunciado puede reconocerse como “a”, “también”, “2” o “dos”.

Cuando la adaptación de voz automática está habilitada, Dialogflow usa la entidad @sys.number como pista durante el reconocimiento de voz, y es más probable que el parámetro se extraiga como "100".

Entidades personalizadas

Si defines una entidad personalizada para los nombres de productos o servicios que ofrece tu empresa, y el usuario final menciona estos términos en un enunciado, es más probable que se reconozcan. Una frase de entrenamiento “Me encanta Dialogflow”, en la que “Dialogflow” se anota como la entidad @product, le indicará una adaptación de voz automática a la biografía para “Me encanta Dialogflow”, “Me encanta Cloud Speech” y otras entradas en la entidad @product.
Es muy importante definir sinónimos de entidad limpia cuando se usa Dialogflow para detectar la voz. Imagina que tienes dos entradas de entidad @product: “Dialogflow” y “Dataflow”. Tus sinónimos de “Dialogflow” pueden ser “Dialogflow”, “flujo de diálogo”, “compilador de diálogo”, “Speakoit”, “hablar con él”, “API.ai”, “IA de punto de API”. Estos son sinónimos adecuados, ya que abarcan las variaciones más comunes. No es necesario que agregues “el compilador de flujo de diálogo” porque el “flujo de diálogo” ya lo cubre.

Nota: ¿Por qué es importante? Considera que tienes dos entidades “Dialogflow“ y “Dataflow”, y dos sinónimos son “el compilador de flujos de diálogo” y “Google Cloud Dataflow”. Un usuario final podría decir de forma razonable “Google Cloud Dialogflow”, pero como no hay una palabra clave “Google Cloud Dialogflow”, el reconocimiento de voz probablemente escuche “Google Cloud Dataflow” porque las definiciones de la entidad se restringen para esa frase. Del mismo modo, si alguien dice “el compilador de flujo de datos”, es probable que escuchemos “el compilador de flujos de diálogo”, ya que es la única entidad definida con “compilador”. En su lugar, obtendrás un mejor rendimiento si solo defines las frases clave como se indica en la viñeta anterior. En resumen, ten cuidado de no agregar datos genéricos a las definiciones de entidades, ya que estas son las frases de entrenamiento de intent diseñadas. Una frase de entrenamiento “Google Cloud Dataflow”, en la que “Dataflow” está anotado como la entidad @product que permite la adaptación de voz automática para escuchar “Google Cloud Dataflow” y “Google Cloud Dialogflow” con el mismo peso. Consulta Diseño de agentes para conocer más prácticas recomendadas.

Las declaraciones de usuario con entidades numéricas consecutivas, pero distintas pueden ser ambiguas. Por ejemplo, “Quiero dos dieciséis paquetes” podría significar 2 cantidades de 16 paquetes o 216 cantidades de paquetes. La Adaptación de voz puede ayudar a evitar la ambigüedad de estos casos si configuras las entidades con valores deletreados:
- Define una entidad quantity con entradas:
  zero
  one
  ...
  twenty
- Define una entidad product o size con entradas:
  sixteen pack
  two ounce
  ...
  five liter
- Solo se usan los sinónimos de entidad en la adaptación de voz, por lo que puedes definir una entidad con valor de referencia 1 y sinónimo único one para simplificar tu lógica de entrega.

Entidades de expresión regular

Las entidades de expresión regular pueden activar la adaptación de voz automática para secuencias alfanuméricas y de dígitos, como “ABC123” o “12345”, cuando se configuran y prueban de forma correcta.

Para reconocer estas secuencias por voz, implementa los cuatro requisitos que se indican a continuación:

1. Requisito de entrada de Regexp

Si bien se puede usar cualquier expresión regular para extraer entidades de entradas de texto, solo ciertas expresiones le indicarán a la adaptación de voz automática que se oriente a secuencias alfanuméricas o de dígitos deletreados cuando reconozca la voz.

En la entidad de expresión regular, al menos una entrada debe seguir todas estas reglas:

Debe coincidir con algunos caracteres alfanuméricos, por ejemplo: \d, \w, [a-zA-Z0-9]
No debe contener espacios en blanco ni \s, aunque se permiten \s* y \s?
No debe contener grupos de captura o no captura ().
No debe coincidir con ningún carácter especial ni puntuación como la siguiente: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Esta entrada puede tener conjuntos de caracteres [] y cuantificadores de repetición como *, ?, + y {3,5}.

Consulta Ejemplos.

2. Requisito de definición de parámetros

Marca la entidad de expresión regular como parámetro del formulario requerido para que pueda recopilarse durante el proceso para completar formularios. Esto permite que la adaptación de voz automática establezca un sesgo sólido para el reconocimiento de secuencias en lugar de intentar reconocer una intención y una secuencia al mismo tiempo. De lo contrario, “Where is my package for ABC123” podría no reconocerse como “Where is my package 4ABC123”?

3. Requisito de anotación de frases de entrenamiento

No uses la entidad de expresión regular para una anotación de frase de entrenamiento de intents. Esto garantiza que el parámetro se resuelva como parte del proceso de relleno de formularios.

4. Requisitos de pruebas

Consulta Cómo probar la adaptación de voz.

Ejemplos

Por ejemplo, una entidad de expresión regular con una sola entrada ([a-zA-Z0-9]\s?){5,9} no activará el reconocedor de la secuencia de voz porque contiene un grupo de captura. Para solucionar este problema, agrega otra entrada para [a-zA-Z0-9]{5,9}. Ahora podrás alejarte del reconocedor de secuencia cuando coincida con “ABC123”, pero la NLU seguirá comparando entradas como “ABC 123” gracias a la regla original que permite los espacios.

Los siguientes ejemplos de expresiones regulares se adaptan a secuencias alfanuméricas:

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Los siguientes ejemplos de expresiones regulares se adaptan a las secuencias de dígitos:

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Solución alternativa de la expresión regular

La compatibilidad integrada de la adaptación de voz automática para entidades de regex varía según el idioma. Verifica los tokens de clase de voz para los idiomas admitidos $OOV_CLASS_ALPHANUMERIC_SEQUENCE y $OOV_CLASS_DIGIT_SEQUENCE.

Si tu idioma no aparece en la lista, puedes solucionar esta limitación. Por ejemplo, si deseas que se reconozca con precisión un ID de empleado que tenga tres letras seguidas de tres dígitos, podrías compilar el agente con estos parámetros y entidades:

Define una entidad digit que contenga 10 entradas de entidad (con sinónimos):
0, 0
1, 1
...
9, 9
Define una entidad letter que contenga 26 entradas de entidad (con sinónimos):
A, A
B, B
...
Z, Z
Define una entidad employee-id que contenga una sola entrada de entidad (sin sinónimos):
@letter @letter @letter @digit @digit @digit
Usa @employee-id como parámetro en una frase de entrenamiento.

Adaptación de voz manual

La adaptación de voz manual te permite configurar de forma manual las frases de adaptación de voz para un flujo o una página. También anula los contextos de voz implícitos que genera la adaptación de voz automática cuando esta última está habilitada.

La configuración de adaptación de voz a nivel del flujo y a nivel de la página tiene una relación jerárquica, lo que significa que una página hereda la configuración de adaptación de voz del nivel del flujo de forma predeterminada y el nivel de página más detallado siempre anula el nivel de flujo si la página tiene una configuración personalizada.

En el caso de la configuración de adaptación de voz, la configuración a nivel del flujo y la configuración a nivel de la página se pueden habilitar de forma independiente. Si no está habilitado el parámetro de configuración de adaptación a nivel del flujo, puedes elegir Personalizar a nivel de la página para habilitar la adaptación de voz manual para esa página específica. Del mismo modo, si inhabilitas la adaptación de voz manual en la configuración a nivel del flujo, las páginas del flujo con Personalizar seleccionadas no se verán afectadas.

Sin embargo, no se pueden inhabilitar de forma independiente los parámetros de configuración a nivel del flujo y a nivel de la página. Si un flujo tiene habilitada la adaptación de voz manual, no puedes inhabilitarla para una página del flujo a través de la opción Personalizar. Por lo tanto, si deseas tener un uso mixto de la adaptación de voz manual y la adaptación de voz automática para las páginas dentro de un flujo, no debes habilitar la adaptación de voz manual a nivel del flujo y, en su lugar, debes usar solo la configuración de adaptación a nivel de la página. Puedes consultar la siguiente tabla para comprender qué combinación de configuración de flujo y página debes usar para tu caso de adaptación.

Efecto objetivo	Uso recomendado de la configuración de adaptación
Inhabilita la adaptación automática para un flujo	Flujo habilitado sin conjuntos de frases (las páginas dentro del flujo usan la configuración del flujo de forma predeterminada).
Inhabilita la adaptación automática para una página	Flujo inhabilitado y página habilitada (se eligió Personalizar) sin conjuntos de frases
Usa solo la adaptación de voz manual para todas las páginas de un flujo	Se habilitó el flujo. Personaliza las páginas que necesitan usar conjuntos de frases diferentes del flujo.
Combina el uso de la adaptación automática y manual dentro de un flujo	Se inhabilitó el flujo. Personaliza las páginas a las que deseas aplicar la adaptación manual.
Usar solo la adaptación de voz automática para todas las páginas de un flujo	Se inhabilitó el flujo.

Habilita o inhabilita la adaptación de voz manual

Para habilitar o inhabilitar la adaptación de voz manual a nivel del flujo o de la página, haz lo siguiente:

Configuración del flujo

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Desplaza el mouse sobre el flujo en la sección Flujos.
Haz clic en el botón de opciones .
Selecciona Configuración de flujo en el menú desplegable.
Selecciona o anula la selección de la casilla de verificación Habilitar la adaptación de voz manual.
Cómo editar, agregar o borrar conjuntos de frases en la tabla de conjuntos de frases
Haz clic en Guardar.

Configuración de la página

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Coloca el cursor sobre la página de la sección Páginas.
Haz clic en el botón de opciones .
Selecciona Configuración de la página en el menú desplegable.
La opción Usar nivel de flujo se elige de forma predeterminada y, cuando se elige, se vuelven a usar las frases de adaptación a nivel del flujo para esta página. Puedes elegir Personalizar para configurar frases de adaptación diferentes de la configuración a nivel del flujo. Incluso si la adaptación de voz manual está inhabilitada a nivel del flujo, puedes habilitar y configurar la adaptación de voz manual para una página en ese flujo a través de la opción Personalizar.
Edita, agrega o borra un conjunto de frases en la tabla de conjuntos de frases de adaptación
Haz clic en Guardar.

Configuración manual de conjuntos de frases para mejorar el reconocimiento de voz

1. Palabras y frases

En un conjunto de frases de adaptación, puedes definir frases de una o varias palabras con referencias opcionales a tokens de clase de voz. Por ejemplo, puedes agregar frases como "precio excelente", "el número de seguimiento es $OOV_CLASS_ALPHANUMERIC_SEQUENCE" o "$FULLPHONENUM". Estas frases proporcionadas aumentan la probabilidad de que se transcriban en lugar de otras frases fonéticamente similares. Cuando agregas una frase de varias palabras sin ninguna mejora, el sesgo se aplica a toda la frase y a las partes continuas dentro de ella. En general, la cantidad de frases debe ser pequeña y solo debes agregar frases que el reconocimiento de voz tenga dificultades para interpretar correctamente sin la adaptación de voz. Si la función de Speech-to-Text ya puede reconocer una frase correctamente, no es necesario agregarla a la configuración de adaptación de voz. Si ves algunas frases que la función de Speech-to-Text suele reconocer de forma incorrecta en una página o un flujo, puedes agregar las frases correctas a la configuración de adaptación correspondiente.

Ejemplo de corrección de errores de reconocimiento

A continuación, se muestra un ejemplo de cómo puedes usar la adaptación de voz para corregir problemas de reconocimiento. Supongamos que estás diseñando un agente de intercambio de dispositivos telefónicos y el usuario puede decir algo que incluya las frases "vender teléfonos" o "teléfono celular" después de que el agente haga su primera pregunta: "¿En qué te puedo ayudar?". Entonces, ¿cómo podemos usar la adaptación de voz para mejorar la precisión del reconocimiento en ambas frases?

Si incluyes ambas frases en la configuración de adaptación, es posible que la función Speech-to-Text siga generando confusión, ya que suenan similares. Si solo proporcionas una de las dos frases, es posible que Speech-to-Text reconozca una como la otra. Para mejorar la exactitud del reconocimiento de voz para ambas frases, debes proporcionarle a Speech-to-Text más pistas contextuales para distinguir cuándo debe escuchar "vender teléfonos" y cuándo debe escuchar "teléfono celular". Por ejemplo, es posible que notes que las personas suelen usar "vender teléfonos" como parte de frases como "cómo vender teléfonos", "quiero vender teléfonos" o "¿vendes teléfonos?", mientras que "teléfono celular" se usa como parte de frases como "comprar teléfono celular", "factura de teléfono celular" y "servicio de teléfono celular". Si proporcionas estas frases más precisas al modelo en lugar de las frases originales cortas “teléfono celular” y “vender teléfonos”, Speech-to-Text aprenderá que “vender teléfono” como frase de verbo es más probable que siga a palabras como “cómo”, “quiero” y “¿tienes?”, mientras que “teléfono celular” como frase de sustantivo es más probable que siga a palabras como “comprar” o que le sigan palabras como “factura” o “servicio”. Por lo tanto, como regla general para configurar las frases de adaptación, suele ser mejor proporcionar frases más precisas, como "cómo vender teléfonos" o "¿vendes teléfonos?", en lugar de solo incluir "vender teléfono".

2. Tokens de clase de voz

Además de las palabras en lenguaje natural, también puedes incorporar referencias a tokens de clase de voz en una frase. Los tokens de clase de voz representan conceptos comunes que suelen seguir un formato determinado por escrito. Por ejemplo, en el caso del número de una dirección como "123 Main Street", las personas suelen esperar ver el formato numérico "123" en una dirección en lugar de la versión completa "ciento veintitrés". Si esperas un formato determinado en los resultados de la transcripción, en especial para las secuencias alfanuméricas, consulta la lista de tokens de clase admitidos para ver cuáles están disponibles para tu idioma y tu caso de uso.

Si la página ya tiene rutas de intent o parámetros con referencias a entidades del sistema, esta es una tabla de referencia para las asignaciones entre entidades del sistema comunes y tokens de clase de voz:

Entidades del sistema	Tokens de clase de voz
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` o `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. Valor de mejora

Si agregar frases sin el valor de impulso no proporciona un efecto de sesgo lo suficientemente fuerte, puedes usar el valor de impulso para fortalecer aún más el efecto de sesgo de la adaptación de voz.

El impulso aplica un sesgo adicional cuando se establece en valores superiores a 0 y no más de 20. Cuando el aumento está vacío o es 0, el efecto de sesgo predeterminado ayuda a reconocer la frase completa y las partes continuas dentro de ella. Por ejemplo, una frase no potenciada "¿estás disponible para vender teléfonos" ayuda a reconocer esa frase y también frases similares, como "vendo teléfonos" y "Hola ¿estás disponible".

Cuando se aplica el aumento positivo, el efecto de sesgo es más fuerte, pero solo se aplica a la frase exacta. Por ejemplo, una frase potenciada "vender teléfonos" ayuda a reconocer "¿puedes vender teléfonos?", pero no "¿vendes teléfonos?".

Por estos motivos, obtendrás los mejores resultados si proporcionas frases con y sin mejora.

Los valores de mejora más altos pueden dar como resultado menos falsos negativos, que son casos en los que la palabra o frase ocurrió en el audio, pero no se reconoció correctamente en Speech-to-Text (subpolarización). Sin embargo, la mejora también puede aumentar la probabilidad de falsos positivos; es decir, casos en los que la palabra o la frase aparecen en la transcripción aunque esto no haya ocurrido en el audio (sobreajuste). Por lo general, debes ajustar tus frases de sesgo para encontrar un buen punto de equilibrio entre los dos problemas de sesgo.

Obtén más información para ajustar el valor de impulso de las frases en la documentación de Cloud Speech sobre el impulso.

Cuándo usar la adaptación de voz automática o manual

En general, si no estás seguro de si la adaptación de voz mejorará la calidad del reconocimiento de voz de tu agente (no tienes patrones claros de errores de transcripción en mente), te recomendamos que primero pruebes la adaptación de voz automática antes de recurrir a la adaptación de voz manual. Para tomar decisiones más detalladas, considera los siguientes factores para decidir entre la adaptación automática de la voz o la manual:

1. Relleno de formularios

La adaptación automática de la voz funciona muy bien con el relleno de formularios, ya que usa el contexto de gramática ABNF para los parámetros del formulario y aplica reglas de gramática según sus tipos de entidades. Dado que la adaptación de voz manual aún no admite gramáticas ABNF, por lo general, se prefiere la adaptación de voz automática a la manual para una página de llenado de formularios. Aún así, para las páginas que solo tienen parámetros de entidades del sistema y entidades de regex simples que son compatibles con tokens de clase de voz, también puedes usar la adaptación de voz manual para lograr un efecto de sesgo similar a la adaptación de voz automática sin necesidad de ajustar las entidades de regex.

2. Complejidad de la transición de páginas o flujos

En el caso de una página o un flujo simples con algunas rutas de intents, es probable que la adaptación automática de voz genere frases de sesgo representativas y tenga un rendimiento bastante bueno.

Sin embargo, si una página o un flujo tiene una gran cantidad de rutas de intents (para una página, también considera la cantidad de rutas a nivel del flujo) o si alguno de los intents tiene frases de entrenamiento poco importantes demasiado largas o cortas (por ejemplo, una oración completa o una sola palabra con una o dos sílabas), es muy probable que el modelo de adaptación de voz no funcione bien con estas frases. Primero, debes inhabilitar la adaptación de voz para las páginas abiertas con alta complejidad habilitando la adaptación de voz manual con conjuntos de frases vacíos (anulación de adaptación vacía). Luego, evalúa si hay frases especiales no ambiguas que aún se deban proporcionar a Speech-to-Text para mejorar la calidad del reconocimiento.

Otro síntoma de este problema de complejidad es ver una amplia variedad de problemas de sesgo insuficiente o excesivo cuando se habilita la adaptación de voz automática. Al igual que en el caso anterior, primero debes realizar la prueba con la adaptación de voz inhabilitada para la página específica. Si los comportamientos erróneos persisten después de inhabilitar la adaptación de voz, puedes agregar las frases que deseas corregir a la configuración de adaptación de voz y hasta agregar valores de mejora para fortalecer aún más los efectos de sesgo cuando sea necesario.

Cómo probar la adaptación de voz

Cuando pruebes las capacidades de adaptación de voz de tu agente para una frase de entrenamiento o una coincidencia de entidad en particular, no debes ir directamente a probar la coincidencia con la primera frase hablada de una conversación. Debes usar solo entradas de voz o de eventos para toda la conversación antes de la coincidencia que deseas probar. El comportamiento de tu agente cuando se pruebe de esta manera será similar al comportamiento en las conversaciones reales de producción.

Limitaciones

Se aplica la siguiente limitación:

La adaptación de voz no está disponible para todos los modelos de voz y combinaciones de idiomas. Consulta la página de idiomas admitidos de Cloud Speech para verificar si la "adaptación del modelo" está disponible para tu modelo de voz y combinación de idiomas.

Actualmente, la adaptación de voz manual aún no admite clases personalizadas ni gramática ABNF. Puedes habilitar la adaptación automática de voz o usar la solicitud de intent de detección del entorno de ejecución para usar estas funciones de adaptación.
El mismo valor de aumento puede tener un rendimiento diferente en diferentes modelos de voz y idiomas, por lo que debes tener cuidado cuando los configures de forma manual para agentes que usen varios idiomas o modelos de voz. Actualmente, la adaptación de voz manual se aplica a todos los idiomas de un agente, por lo que los agentes multilingües solo deben usar frases independientes del idioma o dividir cada idioma en un agente independiente. Dado que el comportamiento de sesgo predeterminado (no proporcionar una mejora o una mejora de 0) suele tener un rendimiento bastante bueno para todos los idiomas y modelos, no es necesario que configures valores de mejora específicos del idioma, a menos que se requiera un sesgo más fuerte para tu caso de uso de reconocimiento. Obtén más información para ajustar el valor de impulso en esta guía de Cloud Speech-to-Text.

Es un desafío reconocer secuencias de personajes largos. La cantidad de caracteres que se capturan en una sola vuelta está directamente relacionada con la calidad del audio de entrada. Si seguiste todos los lineamientos de las entidades de expresión regular, intentaste usar tokens de clase de voz relevantes en la configuración de adaptación de voz manual y aún tienes problemas para capturar toda la secuencia en una sola vez, puedes considerar algunas alternativas más conversacionales:
- Cuando valides la secuencia en una base de datos, considera hacer una referencia cruzada de otros parámetros recopilados, como las fechas, los nombres o los números de teléfono, a fin de permitir coincidencias incompletas. Por ejemplo, en lugar de pedir a un usuario a su número de pedido, también pídele su número de teléfono. Ahora, cuando tu webhook consulta a tu base de datos por el estado del pedido, primero puede aparecer en el número de teléfono y, luego, mostrar el orden coincidente más cercano para esa cuenta. Esto podría permitir que Dialogflow escuche incorrectamente “ABC” como “AVC” y aún muestra el estado correcto del pedido para el usuario.
- Para secuencias más largas, considera diseñar un flujo que aliente a los usuarios finales a pausarse en el medio para que el bot pueda confirmarse a medida que avanzas.

Clonación de voz

Configuración avanzada de voz