Paramètres vocaux avancés

Ce guide fournit des paramètres avancés supplémentaires pour les fonctionnalités de reconnaissance vocale. Vous pouvez activer ou désactiver ces paramètres avancés en accédant à Paramètres de l'agent > Synthèse vocale et IVR > Speech-to-Text > Paramètres vocaux avancés.

Ces paramètres sont disponibles dans les paramètres de l'agent (s'appliquent à l'ensemble de l'agent), dans les paramètres de flux (s'appliquent à l'ensemble du flux et remplacent les paramètres de l'agent), dans les paramètres de page (s'appliquent à la page et remplacent les paramètres de flux et de l'agent) et dans les paramètres de traitement (s'appliquent au traitement et remplacent les paramètres de page, de flux et de l'agent). Un sous-ensemble de ces paramètres est disponible à chaque niveau, en fonction de la pertinence du paramètre pour le niveau. *Avant de pouvoir configurer ces paramètres à un niveau inférieur, vous devez d'abord cocher la case Activer les paramètres avancés de synthèse vocale au niveau de l'agent (Paramètres de l'agent > Synthèse vocale et IVR > Speech-to-Text > Paramètres avancés de synthèse vocale)*.

Les paramètres mis à jour au niveau de l'agent ne se propagent pas au niveau du flux, de la page et de l'exécution lorsque l'option Personnaliser est sélectionnée à ces niveaux inférieurs. Si l'option Personnaliser englobe plusieurs paramètres et que vous ne souhaitez en modifier que certains, vous devrez peut-être également modifier d'autres paramètres si vous souhaitez qu'ils soient identiques à ceux définis au niveau de l'agent.

Disponibilité des paramètres par niveau

Le tableau suivant indique les paramètres vocaux avancés disponibles à chaque niveau:

Nom du paramètre Agent Flux Page Fulfillment
Sélection du modèle (Speech-to-Text)
Sensibilité de la fin de voix
Sensibilité de la fin de voix avancée basée sur un délai avant expiration
Activer la terminaison intelligente
Délai avant expiration de la reconnaissance vocale
Barrage
Autoriser l'annulation de la lecture d'une réponse partielle
Bucket d'exportation audio
DTMF

Sélection du modèle (Speech-to-Text)

Peut être défini au niveau de l'agent, du flux et de la page.

Définit le modèle vocal utilisé pour la reconnaissance vocale. Ce paramètre est spécifique à la langue. Vous pouvez donc sélectionner différents modèles pour différentes langues. Vous pouvez également cocher Ignorer le modèle de reconnaissance vocale au niveau de la requête, ce qui permet d'utiliser le modèle sélectionné même si un appel d'API d'exécution spécifie un modèle différent.

Pour la passerelle de téléphonie des agents de conversation (Dialogflow CX), consultez les limites. Pour en savoir plus, consultez la page Modèles de synthèse vocale.

Sensibilité de la fin de voix

Peut être défini au niveau de l'agent, du flux et de la page.

Contrôle la sensibilité de la reconnaissance de fin de voix dans les entrées audio de l'utilisateur final. La valeur varie de 0 (faible sensibilité, probabilité plus faible de fin de voix) à 100 (haute sensibilité, probabilité plus élevée de fin de voix).

Sensibilité de la fin de voix avancée basée sur un délai avant expiration

Peut être défini au niveau de l'agent et désactivé au niveau du flux et de la page.

Si ce paramètre est activé, la valeur du paramètre Sensibilité de fin de la parole est utilisée comme jauge pour établir un délai avant expiration du silence audio relatif afin de déterminer la fin de la parole. Si ce paramètre est désactivé (valeur par défaut), la valeur du paramètre Sensibilité à la fin de la parole est utilisée pour déterminer la fin de la parole par le modèle de ML fourni par Google Cloud Speech-to-Text.

Bien que le paramètre Sensibilité à la fin de la parole ne prenne en charge que le modèle vocal phone_call pour la balise langue en-US par défaut, le paramètre Activer la sensibilité avancée à la fin de la parole basée sur le délai permet de configurer la sensibilité à la fin de la parole pour toutes les langues et tous les modèles vocaux compatibles avec Dialogflow.

Activer la terminaison intelligente

Ne peut être défini qu'au niveau de l'agent.

Si ce paramètre est activé, les agents de conversation (Dialogflow CX) analysent l'entrée partielle de l'utilisateur pour déterminer la fin de la parole. Par exemple, si l'utilisateur dit "Je voudrais" et fait une pause, les agents de conversation (Dialogflow CX) attendent que l'utilisateur termine la phrase.

Cela est particulièrement utile pour la collecte de paramètres numériques, où l'utilisateur peut dire "1234" et faire une pause avant de dire "5678". Pour appliquer ce paramètre à un paramètre spécifique, vous devez configurer le point de terminaison intelligent dans le formulaire du paramètre.

Ce paramètre n'est disponible que pour la balise de langue en-US et est désactivé par défaut.

Délai avant expiration de la reconnaissance vocale

Peut être défini au niveau de l'agent, du flux et de la page.

Durée en secondes pendant laquelle les agents de conversation (Dialogflow CX) s'arrêtent d'attendre l'entrée audio de l'utilisateur final. La valeur par défaut est de cinq secondes et la valeur maximale est de 60 secondes. Pour ce délai, les agents de conversation (Dialogflow CX) appellent un événement sans entrée.

Barrage

Peut être défini au niveau de l'agent, du flux et du traitement.

Lorsque ce paramètre est activé, un utilisateur final peut interrompre le contenu audio de la réponse des agents de conversation (Dialogflow CX). Lorsqu'il est interrompu, l'agent de conversation (Dialogflow CX) arrête l'envoi du contenu audio et traite la prochaine entrée de l'utilisateur final.

Si la file d'attente de messages comporte plusieurs messages, et qu'un message a été mis en file d'attente par un fulfillment associé à une page, à un flux ou à un agent sur lequel la désynchronisation (barge-in) est activée, alors tous les messages suivants de la file d'attente auront également la désynchronisation activée. Dans ce cas, l'intégration arrête la lecture du contenu audio de tous les messages en file d'attente avec la fonctionnalité de désynchronisation (barge-in) activée.

Autoriser l'annulation de la lecture d'une réponse partielle

Ne peut être défini qu'au niveau de la gestion des commandes.

Vous pouvez activer ce paramètre lorsque la case Enable advanced speech settings (Activer les paramètres avancés de synthèse vocale) est cochée dans Agent settings > Speech and IVR (Paramètres de l'agent > Synthèse vocale et IVR) et que la réponse partielle est activée au niveau du traitement. Ce paramètre permet d'annuler la lecture d'une réponse partielle.

Si un message de la file d'attente de messages est créé par un traitement qui permet l'annulation, la lecture du message est annulée si un autre message est ajouté à la file d'attente. Cette option est utile lorsque vous souhaitez qu'un message initial lance la lecture, mais que cette lecture soit annulée si un webhook opérationnel génère un autre message avant la fin de la lecture du message initial.

Bucket d'exportation audio

Peut être défini au niveau de l'agent et du flux.

Si ce paramètre est spécifié, toutes les données audio associées à une requête sont enregistrées dans le bucket Cloud Storage:

Audio enregistré Demandes applicables
Entrée audio de l'utilisateur final DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Audio synthétisé par la synthèse Text-to-Speech (TTS) pour une réponse AnalyzeContent, StreamingAnalyzeContent

Attribuez le rôle Créateur d'objets de stockage aux comptes de service suivants dans votre projet:

  • Au compte de service au format one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si vous utilisez une intégration téléphonique intégrée de partenaires.

  • Au compte de service au format service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si vous utilisez l'intégration de passerelle de téléphonie Dialogflow CX. Pour trouver ce compte de service dans IAM, cochez l'option Inclure les attributions de rôles fournies par Google.

DTMF

Pour en savoir plus sur cette fonctionnalité, consultez la documentation sur la signalisation DTMF (Dual-tone multi-frequency signaling).