Certains produits et fonctionnalités sont en cours de changement de nom. Les fonctionnalités de playbook et de flux génératifs sont également en cours de migration vers une console unique. Consultez les détails.

Cette page a été traduite par l'API Cloud Translation.

Paramètres vocaux avancés

Ce guide fournit des paramètres avancés supplémentaires pour les fonctionnalités de reconnaissance vocale. Vous pouvez activer ou désactiver ces paramètres avancés en accédant à Paramètres de l'agent > Synthèse vocale et réponse vocale interactive > Speech-to-Text > Paramètres vocaux avancés.

Ces paramètres sont disponibles dans les paramètres de l'agent (s'appliquent à l'ensemble de l'agent), les paramètres du flux (s'appliquent à l'ensemble du flux et remplacent les paramètres de l'agent), les paramètres de la page (s'appliquent à la page et remplacent les paramètres du flux et de l'agent) et les paramètres du fulfillment (s'appliquent au fulfillment et remplacent les paramètres de la page, du flux et de l'agent). Un sous-ensemble de ces paramètres est disponible à chaque niveau, en fonction de la pertinence du paramètre pour le niveau. * Avant de pouvoir configurer ces paramètres à un niveau inférieur, vous devez d'abord cocher la case Activer les paramètres vocaux avancés au niveau de l'agent (Paramètres de l'agent > Synthèse vocale et réponse vocale interactive > Reconnaissance vocale > Paramètres vocaux avancés).

Les paramètres mis à jour au niveau de l'agent ne sont pas propagés aux niveaux du flux, de la page et de l'exécution lorsque l'option Personnaliser est sélectionnée à ces niveaux inférieurs. Si l'option Personnaliser englobe plusieurs paramètres et que vous ne souhaitez en modifier que certains, vous devrez peut-être également mettre à jour d'autres paramètres si vous souhaitez qu'ils soient identiques à ceux au niveau de l'agent.

Disponibilité des paramètres par niveau

Le tableau suivant indique les paramètres vocaux avancés disponibles à chaque niveau :

Nom du paramètre	Agent	Flow	Page	Fulfillment
Sélection du modèle (Speech-to-Text)	✔	✔	✔
Sensibilité de la fin du contenu vocal	✔	✔	✔
Sensibilité avancée de la fin du contenu vocal basée sur le délai d'inactivité	✔	✔	✔
Activer l'arrêt intelligent	✔
Délai avant expiration de la reconnaissance vocale	✔	✔	✔
Barge-in	✔	✔		✔
Autoriser l'annulation de la lecture des réponses partielles				✔
Bucket d'exportation audio	✔	✔
DTMF	✔	✔	✔

Sélection du modèle (Speech-to-Text)

Peut être défini au niveau de l'agent, du flux et de la page.

Définit le modèle vocal utilisé pour la reconnaissance vocale. Ce paramètre est spécifique à chaque langue. Vous pouvez donc sélectionner différents modèles pour différentes langues. Vous pouvez également cocher la case Remplacer le modèle de reconnaissance vocale au niveau de la requête. Le modèle sélectionné sera alors utilisé même si un appel d'API d'exécution spécifie un autre modèle.

Pour la passerelle de téléphonie des agents conversationnels (Dialogflow CX), consultez les limites. Pour en savoir plus, consultez Modèles vocaux.

Sensibilité de la fin du contenu vocal

Peut être défini au niveau de l'agent, du flux et de la page.

Contrôle la sensibilité de la reconnaissance de fin de voix dans les entrées audio de l'utilisateur final. La valeur varie de 0 (faible sensibilité, probabilité plus faible de fin de voix) à 100 (haute sensibilité, probabilité plus élevée de fin de voix).

Sensibilité avancée de la fin du contenu vocal basée sur le délai d'inactivité

Peut être défini au niveau de l'agent et désactivé au niveau du flux et de la page.

Si ce paramètre est activé, la valeur du paramètre Sensibilité de fin de parole est utilisée comme indicateur pour établir un délai d'inactivité audio relatif afin de déterminer la fin de la parole. Si ce paramètre est désactivé (par défaut), la valeur du paramètre Sensibilité de fin de parole est utilisée pour déterminer la fin de la parole par le modèle ML fourni par Google Cloud Speech-to-Text.

Alors que le paramètre Sensibilité de la fin de la parole n'est compatible par défaut qu'avec le modèle vocal phone_call pour la balise de langue en-US, le paramètre Activer la sensibilité avancée de la fin de la parole basée sur le délai avant expiration permet de configurer la sensibilité de la fin de la parole pour toutes les langues et tous les modèles vocaux compatibles avec Dialogflow.

Activer l'arrêt intelligent

Ne peut être défini qu'au niveau de l'agent.

Si ce paramètre est activé, les agents conversationnels (Dialogflow CX) analysent les entrées utilisateur partielles pour déterminer la fin de la parole. Par exemple, si l'utilisateur dit "J'aimerais" et fait une pause, les agents conversationnels (Dialogflow CX) attendent qu'il poursuive sa phrase.

Cela est particulièrement utile pour la collecte de paramètres numériques, où l'utilisateur peut dire "1234" et faire une pause avant de dire "5678". Pour appliquer ce paramètre à un paramètre spécifique, vous devez configurer l'arrêt intelligent dans le formulaire du paramètre.

Ce paramètre n'est disponible que pour le tag de langue en-US et est désactivé par défaut.

Délai avant expiration de la reconnaissance vocale

Peut être défini au niveau de l'agent, du flux et de la page.

Durée en secondes pendant laquelle les agents conversationnels (Dialogflow CX) arrêtent d'attendre l'entrée audio de l'utilisateur final. La valeur par défaut est de cinq secondes et la valeur maximale est de 60 secondes. Pour ce délai, les agents conversationnels (Dialogflow CX) appellent un événement sans entrée.

Barge-in

Peut être défini au niveau de l'agent, du flux et de l'exécution.

Lorsque ce paramètre est activé, un utilisateur final peut interrompre le contenu audio de la réponse des agents conversationnels (Dialogflow CX). Lorsqu'il est interrompu, l'agent de conversation (Dialogflow CX) arrête l'envoi du contenu audio et traite la prochaine entrée de l'utilisateur final.

Si la file d'attente de messages comporte plusieurs messages, et qu'un message a été mis en file d'attente par un fulfillment associé à une page, à un flux ou à un agent sur lequel la désynchronisation (barge-in) est activée, alors tous les messages suivants de la file d'attente auront également la désynchronisation activée. Dans ce cas, l'intégration arrête la lecture du contenu audio de tous les messages en file d'attente avec la fonctionnalité de désynchronisation (barge-in) activée.

Autoriser l'annulation de la lecture des réponses partielles

Ne peut être défini qu'au niveau de l'exécution.

Vous pouvez activer ce paramètre lorsque la case Activer les paramètres vocaux avancés est cochée dans Paramètres de l'agent > Synthèse vocale et réponse vocale interactive et que la réponse partielle est activée au niveau du fulfillment. Ce paramètre permet d'annuler la lecture d'une réponse partielle.

Si un message de la file d'attente de messages est créé par un fulfillment qui autorise l'annulation, la lecture du message est annulée si un autre message est ajouté à la file d'attente. Cela peut être utile lorsque vous souhaitez qu'un message initial lance la lecture, mais que cette lecture soit annulée si un webhook fonctionnel produit un autre message avant la fin de la lecture du message initial.

Bucket d'exportation audio

Peut être défini au niveau de l'agent et du flux.

Si ce paramètre est spécifié, toutes les données audio associées à une requête seront enregistrées dans le bucket Cloud Storage :

Audio enregistré	Demandes concernées
Entrée audio de l'utilisateur final	DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Text-to-Speech audio de synthèse vocale généré pour une réponse	AnalyzeContent, StreamingAnalyzeContent

Attribuez le rôle Créateur des objets de l'espace de stockage aux comptes de service suivants dans votre projet :

Au compte de service au format one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si vous utilisez une intégration téléphonique intégrée de partenaires.
Au compte de service au format service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si vous utilisez l'intégration de passerelle de téléphonie Dialogflow CX. Pour trouver ce compte de service dans IAM, cochez l'option Inclure les attributions de rôles fournies par Google.

DTMF

Pour en savoir plus sur cette fonctionnalité, consultez la documentation sur la signalisation multifréquence à deux tonalités (DTMF).

Adaptation vocale

Migration du modèle de reconnaissance vocale au 1er trimestre 2024