Alguns produtos e recursos estão sendo renomeados. Os recursos de playbook generativo e de fluxo também estão sendo migrados para um único console consolidado. Confira os detalhes.

Esta página foi traduzida pela API Cloud Translation.

Configurações avançadas de fala

Este guia fornece configurações adicionais e avançadas para recursos de fala. Para ativar e desativar essas configurações avançadas, acesse Configurações do agente > Fala e URA > Speech-to-Text > Configurações de fala avançadas.

Essas configurações estão disponíveis nas configurações do agente (aplicadas a todo o agente), nas configurações de fluxo (aplicadas a todo o fluxo e substituem as configurações do agente), nas configurações de página (aplicadas à página e substituem as configurações de fluxo e agente) e nas configurações de fulfillment (aplicadas ao fulfillment e substituem as configurações de página, fluxo e agente). Um subconjunto dessas configurações está disponível em cada nível, dependendo da relevância da configuração para o nível. *Antes de configurar essas opções em qualquer nível inferior, marque a caixa Ativar configurações avançadas de fala no nível do agente (Configurações do agente > Fala e URA > Speech-to-Text > Configurações avançadas de fala)*.

As configurações atualizadas no nível do agente não são propagadas para o fluxo, a página e o nível de fulfillment quando a opção Personalizar é selecionada nesses níveis mais baixos. Se a opção Personalizar abranger várias configurações e você quiser atualizar apenas algumas delas, talvez seja necessário atualizar outras configurações se quiser que elas sejam iguais às do nível do agente.

Disponibilidade das configurações por nível

A tabela a seguir indica quais configurações avançadas de fala estão disponíveis em cada nível:

Nome da configuração	Agente	Fluxo	Página	Fulfillment
Seleção de modelos (Speech-to-Text)	✔	✔	✔
Sensibilidade ao fim da fala	✔	✔	✔
Sensibilidade avançada ao fim da fala com base no tempo limite	✔	✔	✔
Ativar o endpoint inteligente	✔
Sem tempo limite de fala	✔	✔	✔
Interrupção	✔	✔		✔
Permitir o cancelamento da reprodução de respostas parciais				✔
Bucket de exportação de áudio	✔	✔
DTMF	✔	✔	✔

Seleção de modelos (Speech-to-Text)

Pode ser definido nos níveis de agente, fluxo e página.

Define o modelo de fala usado para reconhecimento de fala. Essa configuração é específica para cada idioma. Assim, você pode selecionar modelos diferentes para idiomas diferentes. Você também pode marcar a caixa Substituir modelo de fala no nível da solicitação, que fará com que o modelo selecionado seja usado mesmo que uma chamada de API de tempo de execução especifique um modelo diferente.

Para o gateway telefônico dos agentes de conversação (Dialogflow CX), consulte as limitações. Para mais informações, consulte Modelos de voz.

Sensibilidade ao fim da fala

Pode ser definido nos níveis de agente, fluxo e página.

Controla a sensibilidade do reconhecimento do final da fala na entrada de áudio do usuário final. O valor varia de 0 (baixa sensibilidade, menor probabilidade de terminar a fala) a 100 (alta sensibilidade, mais provável de terminar a fala).

Sensibilidade avançada ao fim da fala com base no tempo limite

Pode ser definido no nível do agente e desativado nos níveis de fluxo e página.

Se essa configuração estiver ativada, o valor da sensibilidade ao fim da fala será usado como um indicador para estabelecer um tempo limite de silêncio de áudio relativo e determinar o fim da fala. Se essa configuração estiver desativada (o padrão), o valor da configuração Sensibilidade de fim de fala será usado para determinar o fim da fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.

Embora a configuração Sensibilidade ao fim da fala seja compatível apenas com o modelo de fala phone_call para a tag idioma en-US por padrão, a configuração Ativar a sensibilidade avançada ao fim da fala com base em tempo limite permite configurar a sensibilidade ao fim da fala para todos os idiomas e modelos de fala compatíveis com o Dialogflow.

Ativar o endpoint inteligente

Só pode ser definido no nível do agente.

Se essa configuração estiver ativada, os agentes de conversação (Dialogflow CX) vão analisar a entrada parcial do usuário para determinar o fim da fala. Por exemplo, se o usuário disser "Eu gostaria de" e fizer uma pausa, os agentes de conversação (Dialogflow CX) vão esperar que ele continue a frase.

Isso é especialmente útil para a coleta de parâmetros numéricos, em que o usuário pode dizer "1234" e pausar antes de dizer "5678". Para aplicar essa configuração a um parâmetro específico, configure o endpoint inteligente no formulário do parâmetro.

Essa configuração está disponível apenas para a tag de idioma en-US e fica desativada por padrão.

Sem tempo limite de fala

Pode ser definido nos níveis de agente, fluxo e página.

O tempo em segundos que os agentes de conversação (Dialogflow CX) vão deixar de aguardar a entrada de áudio do usuário final. O padrão é 5 segundos, e o valor máximo é 60 segundos. Para esse tempo limite, os agentes de conversação (Dialogflow CX) invocam um evento sem entrada.

Interrupção

Pode ser definido nos níveis de agente, fluxo e atendimento.

Quando ativado, um usuário final pode interromper o áudio da resposta dos agentes de conversação (Dialogflow CX). Quando interrompidos, os agentes de conversação (Dialogflow CX) param de enviar áudio e processam a próxima entrada do usuário final.

Se houver várias mensagens na fila de mensagens e uma mensagem foi enfileirada por um fulfillment associado a uma página, um fluxo ou um agente com carregamento ativado, todas as mensagens seguintes na fila também terão a ativação ativada. Nesse caso, a integração vai parar de reproduzir áudio para todas as mensagens na fila com a ativação ativada.

Permitir o cancelamento da reprodução de respostas parciais

Só pode ser definido no nível do atendimento.

Você pode ativar essa configuração quando a caixa Ativar configurações avançadas de fala estiver marcada em Configurações do agente > Fala e URA e a resposta parcial estiver ativada no nível de fulfillment. Essa configuração permite o cancelamento de uma reprodução de resposta parcial.

Se uma mensagem na fila de mensagens for criada por um fulfillment que permite o cancelamento, a reprodução da mensagem será cancelada se outra mensagem for adicionada à fila. Isso é útil quando você quer uma mensagem inicial para iniciar a reprodução, mas quer que ela seja cancelada se um webhook funcional produzir outra mensagem antes da conclusão da reprodução da mensagem inicial.

Bucket de exportação de áudio

Pode ser definido nos níveis do agente e do fluxo.

Se fornecidos, todos os dados de áudio associados a uma solicitação serão salvos no bucket do Cloud Storage:

Áudio salvo	Solicitações aplicáveis
Entrada de áudio do usuário final	DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Áudio de conversão da Text-to-Speech (TTS) sintetizado para uma resposta	AnalyzeContent, StreamingAnalyzeContent

Conceda o papel Criador de objetos do Storage às seguintes contas de serviço no seu projeto:

Para a conta de serviço no formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com, se você usar uma integração de telefonia integrada por parceiro.
Para a conta de serviço no formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com, se você usar a integração do Dialogflow CX Phone Gateway. Para encontrar essa conta de serviço no IAM, marque a opção Incluir concessões de papéis fornecidos pelo Google.

DTMF

Consulte a documentação de DTMF (sinalização multifrequencial de tom duplo) para mais informações sobre esse recurso.

Adaptação de fala

Avançar

Migração do speech model no 1º trimestre de 2024

Configurações avançadas de fala Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Disponibilidade das configurações por nível

Seleção de modelos (Speech-to-Text)

Sensibilidade ao fim da fala

Sensibilidade avançada ao fim da fala com base no tempo limite

Ativar o endpoint inteligente

Sem tempo limite de fala

Interrupção

Permitir o cancelamento da reprodução de respostas parciais

Bucket de exportação de áudio

DTMF

Configurações avançadas de fala