Configurações avançadas de fala

Este guia fornece configurações adicionais e avançadas para os recursos de fala. Você pode Desative e ative essas configurações avançadas acessando Configurações do agente > Fala e URA > Speech-to-Text > Configurações avançadas de fala.

Essas configurações estão disponíveis nas configurações do agente (se aplicam a todo o agente), configurações do fluxo (se aplicam a todo o fluxo e substituem as configurações do agente), configurações da página (se aplicam à página e substituem as configurações do fluxo e do agente) e configurações de fulfillment (se aplicam ao fulfillment e substituem as configurações da página, do fluxo e do agente). Um subconjunto dessas configurações está disponível em cada nível, dependendo da relevância da configuração para o nível. *Antes de configurar essas configurações em qualquer nível inferior, marque a caixa Ativar configurações de fala avançadas no nível do agente (Configurações do agente > Fala e IVR > Conversão de fala em texto > Configurações de fala avançadas)*.

As configurações atualizadas no nível do agente não são propagadas para o fluxo, a página e o nível de preenchimento quando a opção Personalizar está selecionada nesses níveis mais baixos. Se o A opção Personalizar abrange várias configurações, e você deseja atualizar apenas talvez seja necessário atualizar outras, se você quiser que elas são as mesmas que as configurações no nível do agente.

Disponibilidade de configurações por nível

A tabela a seguir indica quais configurações avançadas de fala estão disponíveis em cada nível:

Nome da configuração Agente Fluxo Página Fulfillment
Seleção de modelo (conversão de voz em texto)
Sensibilidade ao fim da fala
Sensibilidade de fim de fala avançada com base em tempo limite
Ativar endpoints inteligentes
Sem tempo limite de fala
Interrupção
Permitir o cancelamento da reprodução de resposta parcial
Bucket de exportação de áudio
DTMF

Seleção de modelo (Speech-to-Text)

Pode ser definido nos níveis do agente, do fluxo e da página.

Define o modelo de fala usado para reconhecimento de fala. Essa configuração é específicos do idioma. Assim, é possível selecionar modelos diferentes para idiomas diferentes. Você também pode marcar Substituir modelo de fala no nível da solicitação, o que vai fazer com que modelo selecionado seja usado mesmo se uma chamada de API de tempo de execução especificar um objeto um modelo de machine learning.

Para o gateway de telefone do Dialogflow CX, consulte limitações. Para mais informações, consulte Modelos de fala.

Sensibilidade ao fim da fala

Pode ser definido nos níveis do agente, do fluxo e da página.

Controla a sensibilidade do reconhecimento do final da fala na entrada de áudio do usuário final. O valor varia de 0 (baixa sensibilidade, menor probabilidade de terminar a fala) a 100 (alta sensibilidade, mais provável de terminar a fala).

Sensibilidade de fim de fala avançada com base em tempo limite

Pode ser definido no nível do agente e desativado nos níveis de fluxo e página.

Se essa configuração estiver ativada, o valor da configuração Sensibilidade ao fim da fala será usado como um indicador para estabelecer um tempo limite relativo de silêncio de áudio para determinar o fim da fala. Se essa configuração estiver desativada (padrão), os O valor da configuração Sensibilidade de fim de fala é usado para determinar o fim do fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.

Embora a configuração Sensibilidade ao fim da fala ofereça suporte apenas ao modelo de fala phone_call para a tag language en-US por padrão, a configuração Ativar a sensibilidade ao fim da fala avançado com base no tempo limite permite configurar a sensibilidade ao fim da fala para todos os idiomas e modelos de fala aceitos pelo Dialogflow.

Ativar o endpoint inteligente

Pode ser definido apenas no nível do agente.

Se essa configuração estiver ativada, o Dialogflow CX vai analisar entradas parciais do usuário para determinar o fim da fala. Por exemplo, se o usuário disser “Eu gostaria de” e o Dialogflow CX esperar que o usuário continue a frase.

Isso é particularmente útil para a coleta de parâmetros numéricos, em que o usuário pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar essa configuração para um parâmetro específico, é preciso configurar Endpointing inteligente em formulário do parâmetro.

Essa configuração está disponível apenas para a tag de idioma en-US e é desativada por padrão.

Sem tempo limite de fala

Pode ser definido nos níveis do agente, do fluxo e da página.

O tempo em segundos que o Dialogflow CX para de aguardar pelo usuário final entrada de áudio. O padrão é 5 segundos, e o valor máximo é 60 segundos. Para tempo limite, o Dialogflow CX invoca um evento sem entrada.

Barcaça

Pode ser definido nos níveis de agente, fluxo e atendimento.

Quando ativado, o usuário final pode interromper o áudio de resposta do Dialogflow CX. Quando interrompido, o Dialogflow CX interrompe o envio de áudio e processa a próxima entrada do usuário final.

Se houver várias mensagens na fila de mensagens: e uma mensagem tiver sido enfileirada por um fulfillment associado a uma página, fluxo ou agente estiver com a permissão barge-in ativada, todas as mensagens seguintes na fila também serão estão com a barge ativada. Nesse caso, a integração vai interromper a reprodução de áudio do todas as mensagens na fila com o barge-in ativado.

Permitir o cancelamento da reprodução de resposta parcial

Pode ser definido apenas no nível de atendimento.

Você poderá ativar essa configuração quando a caixa Ativar configurações avançadas de fala estiver marque Configurações do agente > Fala e URA e resposta parcial é ativada no nível do atendimento. Essa configuração permite o cancelamento da reprodução de uma resposta parcial.

Se uma mensagem na fila de mensagens for criado por um fulfillment que permita o cancelamento, a reprodução da mensagem será cancelado se outra mensagem for adicionada à fila. Isso é útil quando você deseja uma mensagem inicial para iniciar a reprodução, mas para que a reprodução seja cancelada se uma o webhook em funcionamento produz outra mensagem antes da reprodução da mensagem inicial é concluída.

Bucket de exportação de áudio

Pode ser definido nos níveis de agente e fluxo.

Se fornecidos, todos os dados de áudio associados a uma solicitação serão salvos no Bucket do Cloud Storage:

Áudio salvo Solicitações aplicáveis
Entrada de áudio do usuário final DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Áudio com conversão da Text-to-Speech (TTS) sintetizado para uma resposta AnalyzeContent, StreamingAnalyzeContent

Conceda o papel Criador de objetos do Storage às seguintes contas de serviço no projeto:

  • Para a conta de serviço no formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com, se você usar uma integração de telefonia integrada por parceiro.

  • Para a conta de serviço no formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com, se você usar a integração do Dialogflow CX Phone Gateway. Para encontrar essa conta de serviço no IAM, marque a opção Incluir concessões de papel fornecidas pelo Google.

DTMF

Consulte a Documentação da sinalização de multifrequência de dois tons (DTMF, na sigla em inglês) para mais informações sobre esse recurso.