Impostazioni avanzate per il parlato

Questa guida fornisce impostazioni aggiuntive e avanzate per le funzionalità vocali. Puoi attivare e disattivare queste impostazioni avanzate andando a Impostazioni agente > Voce e IVR > Speech-to-Text > Impostazioni vocali avanzate.

Queste impostazioni sono disponibili nelle impostazioni dell'agente (si applicano all'intero agente), nelle impostazioni del flusso (si applicano all'intero flusso e sostituiscono le impostazioni dell'agente), nelle impostazioni della pagina (si applicano alla pagina e sostituiscono le impostazioni del flusso e dell'agente) e nelle impostazioni di adempimento (si applicano all'adempimento e sostituiscono le impostazioni della pagina, del flusso e dell'agente). Un sottoinsieme di queste impostazioni è disponibile a ogni livello, a seconda della pertinenza dell'impostazione per il livello. *Prima di poter configurare queste impostazioni a un livello inferiore, devi prima selezionare la casella Attiva le impostazioni di sintesi vocale avanzate a livello di agente (Impostazioni agente > Voce e IVR > Speech-to-Text > Impostazioni di sintesi vocale avanzate)*.

Le impostazioni aggiornate a livello di agente non vengono propagate ai livelli di flusso, pagina e adempimento quando l'opzione Personalizza è selezionata a questi livelli inferiori. Se l'opzione Personalizza include più impostazioni e vuoi aggiornarne solo alcune, potresti dover aggiornare anche altre impostazioni se vuoi che siano uguali a quelle a livello di agente.

Disponibilità delle impostazioni per livello

La tabella seguente indica quali impostazioni avanzate di sintesi vocale sono disponibili su ciascun livello:

Nome impostazione Agente Flusso Pagina Fulfillment
Selezione del modello (Speech-to-Text)
Fine della sensibilità al parlato
Sensibilità avanzata al termine del parlato basata su timeout
Attivare l'endpointing intelligente
Nessun timeout vocale
Interruzioni
Consenti l'annullamento della riproduzione di una risposta parziale
Bucket di esportazione audio
DTMF

Selezione del modello (Speech-to-Text)

Può essere impostato a livello di agente, flusso e pagina.

Imposta il modello vocale utilizzato per il riconoscimento vocale. Questa impostazione è specifica per lingua, quindi puoi selezionare modelli diversi per lingue diverse. Puoi anche selezionare Sostituisci il modello vocale a livello di richiesta, in modo che il modello selezionato venga utilizzato anche se una chiamata dell'API di runtime specifica un altro modello.

Per il gateway di telefonia di Conversational Agents (Dialogflow CX), consulta le limitazioni. Per ulteriori informazioni, consulta Modelli vocali.

Fine della sensibilità al parlato

Può essere impostato a livello di agente, flusso e pagina.

Controlla la sensibilità per il riconoscimento della fine del parlato nell'input audio dell'utente finale. Il valore va da 0 (sensibilità bassa, meno probabilità di terminare il parlato) a 100 (sensibilità elevata, maggiore probabilità di terminare il parlato).

Sensibilità avanzata al termine del parlato basata su timeout

Può essere impostato a livello di agente e disattivato a livello di flusso e pagina.

Se questa impostazione è attiva, il valore dell'impostazione Sensibilità fine parlato viene utilizzato come indicatore per stabilire un timeout relativo al silenzio audio per determinare la fine del parlato. Se questa impostazione è disattivata (valore predefinito), il valore dell'impostazione Sensibilità fine parlato viene utilizzato per determinare la fine del parlato dal modello di ML fornito da Google Cloud Speech-to-Text.

Sebbene l'impostazione Sensibilità fine del parlato supporti per impostazione predefinita solo il modello vocale phone_call per il tag en-US lingua, l'impostazione Abilita la sensibilità fine del parlato avanzata basata su timeout consente di configurare la sensibilità fine del parlato per tutte le lingue e i modelli vocali supportati da Dialogflow.

Attivare l'endpointing intelligente

Può essere impostato solo a livello di agente.

Se questa impostazione è attivata, Conversational Agents (Dialogflow CX) analizzerà l'input parziale dell'utente per determinare la fine del parlato. Ad esempio, se l'utente dice "Vorrei" e fa una pausa, Conversational Agents (Dialogflow CX) attenderà che l'utente continui la frase.

Questo è particolarmente utile per la raccolta di parametri numerici, in cui l'utente potrebbe dire "1234" e fare una pausa prima di dire "5678". Per applicare questa impostazione per un parametro specifico, devi configurare Endpointing intelligente nel modulo del parametro.

Questa impostazione è disponibile solo per il tag lingua en-US ed è disattivata per impostazione predefinita.

Nessun timeout vocale

Può essere impostato a livello di agente, flusso e pagina.

La durata in secondi per cui Conversational Agents (Dialogflow CX) smetterà di attendere l'input audio dell'utente finale. Il valore predefinito è 5 secondi e il valore massimo è 60 secondi. Per questo timeout, Conversational Agents (Dialogflow CX) richiama un evento di assenza di input.

Interruzioni

Può essere impostato a livello di agente, flusso e adempimento.

Se questa opzione è attiva, un utente finale può interrompere l'audio della risposta di Conversational Agents (Dialogflow CX). Quando viene interrotto, Conversational Agents (Dialogflow CX) interrompe l'invio di audio ed elabora l'input successivo dell'utente finale.

Se nella coda dei messaggi sono presenti più messaggi e un messaggio è stato inserito in coda da un'implementazione associata a una pagina, a un flusso o a un agente per cui è attivato il barge-in, anche tutti i messaggi successivi nella coda avranno il barge-in attivato. In questo caso, l'integrazione interromperà la riproduzione dell'audio per tutti i messaggi in coda con l'interruzione attivata.

Consenti l'annullamento della riproduzione di una risposta parziale

Può essere impostato solo a livello di evasione.

Puoi attivare questa impostazione se la casella Attiva le impostazioni avanzate di riconoscimento vocale è selezionata in Impostazioni agente > Ricerca vocale e IVR e la risposta parziale è attivata a livello di adempimento. Questa impostazione consente di annullare la riproduzione di una risposta parziale.

Se un messaggio nella coda dei messaggi viene creato da un'implementazione che consente l'annullamento, la riproduzione del messaggio viene annullata se alla coda viene aggiunto un altro messaggio. Questa opzione è utile quando vuoi che un messaggio iniziale avvii la riproduzione, ma che questa venga annullata se un webhook funzionante genera un altro messaggio prima del completamento della riproduzione del messaggio iniziale.

Bucket di esportazione audio

Può essere impostato a livello di agente e flusso.

Se forniti, tutti i dati audio associati a una richiesta verranno salvati nel bucket Cloud Storage:

Audio salvato Richieste applicabili
Input audio dell'utente finale DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Audio sintetizzato con la tecnologia Text-to-Speech (TTS) per una risposta AnalyzeContent, StreamingAnalyzeContent

Concedi il ruolo Creatore oggetti archiviazione ai seguenti account di servizio nel tuo progetto:

  • All'account di servizio del formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com se utilizzi un'integrazione di telefonia integrata del partner.

  • All'account di servizio del formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com se utilizzi l'integrazione Dialogflow CX Phone Gateway. Per trovare questo account di servizio in IAM, seleziona l'opzione Includi concessioni di ruoli fornite da Google.

DTMF

Per ulteriori informazioni su questa funzionalità, consulta la documentazione relativa al segnale DTMF (Dual-tone multi-frequency).