Fazer upload de dados de conversa

Os dados de conversa são aceitos como transcrições (Resposta inteligente) e transcrições mais dados de anotação (Resumo). Se quiser, use os dados de conversa e os modelos de demonstração fornecidos pelo Assistente de IA para testar a funcionalidade ou a integração sem precisar fornecer seus próprios dados. Para usar a Resposta inteligente e o resumo durante a execução, você precisa fornecer seus próprios dados de conversa.

Esta página orienta você pelas etapas necessárias para usar os conjuntos de dados públicos e formatar seus próprios dados para upload no Cloud Storage. Você precisa fornecer os dados da conversa como arquivos de texto formatados em JSON.

Formato de dados da Resposta inteligente

A Resposta Inteligente pode ser usada com qualquer recurso do Agent Assist ou como um recurso independente. Para implementar a Resposta inteligente, é necessário fornecer ao Agent Assist dados de conversa.

O Assistente de IA oferece dados de conversas de exemplo que podem ser usados para treinar um modelo, além de um modelo de demonstração e uma lista de permissões. Você pode usar esses recursos para criar um perfil de conversa e testar a funcionalidade de recursos sem precisar fornecer seus próprios dados. Se você fornecer seus próprios dados, eles precisam estar no formato especificado.

Usar os dados de conversa de amostra da Resposta inteligente

O conjunto de dados de conversa de exemplo é derivado de uma fonte externa e armazenado em um bucket do Google Cloud Storage. Os dados contêm diálogos orientados a tarefas que abordam seis domínios: "Reserva", "restaurante", "hotel", "atração", "táxi" e "trem". Para treinar seu próprio modelo usando esse conjunto de dados, siga as etapas para criar um conjunto de dados de conversa usando o console do Assistente de agente. No campo Dados da conversa, insira gs://smart_messaging_integration_test_data/*.json para usar o conjunto de dados de teste. Se você estiver fazendo chamadas de API diretas em vez de usar o console, crie um conjunto de dados de conversa apontando a API para o bucket do Cloud Storage acima.

Usar o modelo de demonstração da Resposta inteligente e a lista de permissão

Para testar o modelo de Resposta inteligente de demonstração e a lista de permissões usando o console (não é necessário um conjunto de dados), navegue até o console do Agent Assist e clique no botão Começar no recurso Resposta inteligente. Os tutoriais do console oferecem opções para usar seus próprios dados, dados fornecidos ou o modelo de demonstração.

Se você estiver fazendo chamadas diretamente para a API em vez de usar o console, o modelo e a lista de permissões poderão ser encontrados nos seguintes locais:

  • Modelo: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Lista de permissões: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Para testar a funcionalidade do recurso, sugerimos que você comece usando as seguintes mensagens para o usuário final para acionar uma resposta:

  • "Você pode encontrar um lugar caro para ficar que esteja localizado no leste?"
  • "Estou procurando um restaurante caro que sirva comida tailandesa, por favor."
  • "Olá, preciso de um hotel com Wi-Fi gratuito no norte de Cambridge."

Formato de dados de resumo

O resumo pode ser usado com qualquer recurso da Assistente de IA ou como um recurso independente. Para implementar a sumarização, é necessário fornecer ao Assistente do agente dados de conversa que incluam anotações. Uma anotação é um resumo de uma transcrição de conversa associada. As anotações são usadas para treinar um modelo que pode ser usado para gerar resumos para seus agentes ao final de cada conversa com um usuário final.

Usar os dados de conversa de resumo de amostra e o modelo de demonstração

O Assistente do agente também oferece dados de conversa anotados de exemplo que podem ser usados para treinar um modelo. Recomendamos que você escolha essa opção se quiser testar o recurso de resumo antes de formatar seu próprio conjunto de dados. O conjunto de dados de teste está localizado no seguinte bucket do Cloud Storage: gs://summarization_integration_test_data/data. Se você usar os dados de amostra, poderá treinar um modelo de resumo usando o console ou a API. Insira gs://summarization_integration_test_data/data/* no campo URI do conjunto de dados para usar o conjunto de dados de amostra.

Para testar o modelo de resumo de demonstração (não é necessário um conjunto de dados), navegue até o console do Assistente do agente e clique no botão Começar no recurso de resumo. Os tutoriais do console oferecem opções para usar seus próprios dados, dados fornecidos ou o modelo de demonstração.

Formatar anotações

Os modelos personalizados de resumo da Assistente de agente são treinados usando conjuntos de dados de conversas. Um conjunto de dados de conversa contém sua própria transcrição enviada e dados de anotação.

Antes de começar a fazer upload de dados, verifique se cada transcrição de conversa está no formato JSON, tem uma anotação associada e está armazenada em um bucket do Google Cloud Storage.

Para criar anotações, adicione strings key e value esperadas ao campo annotation associado a cada conversa no conjunto de dados. Para melhores resultados, os dados de treinamento de anotação precisam seguir estas diretrizes:

  1. O número mínimo recomendado de anotações de treinamento é 1.000. O número mínimo obrigatório é 100.
  2. Os dados de treinamento não podem conter PII.
  3. As anotações não podem incluir informações sobre gênero, raça ou idade.
  4. As anotações não podem usar linguagem tóxica ou profana.
  5. As anotações não podem conter informações que não possam ser inferidas da transcrição da conversa correspondente.
  6. Cada anotação pode ter até três seções. Você pode escolher os nomes das seções.
  7. As anotações precisam ter ortografia e gramática corretas.

Confira um exemplo que demonstra o formato de uma transcrição de conversa com anotação associada:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Dados de transcrição de conversa

Os dados de conversas de texto precisam ser fornecidos em arquivos formatados em JSON, em que cada arquivo contém dados de uma única conversa. A seguir, descrevemos o formato JSON obrigatório.

Conversa

O objeto de nível superior para dados de conversa.

Campo Tipo Descrição
conversation_info ConversationInfo { } Opcional. Metadados da conversa.
entries Entrada [ ] Obrigatório. As mensagens de conversa em ordem cronológica.

ConversationInfo

Os metadados de uma conversa.

Campo Tipo Descrição
categorias Categoria [ ] Opcional. Categorias personalizadas para os dados da conversa.

Categoria

Categoria de dados de conversa. Se você fornecer categorias com os dados da conversa, elas serão usadas para identificar tópicos nas suas conversas. Se você não fornecer categorias, o sistema vai categorizar automaticamente as conversas com base no conteúdo.

Campo Tipo Descrição
display_name string Obrigatório. Um nome de exibição para a categoria.

Entrada

Dados de uma única mensagem de conversa.

Campo Tipo Descrição
texto string Obrigatório. O texto desta mensagem de conversa. Todo o texto precisa estar com as letras maiúsculas adequadas. A qualidade do modelo pode ser significativamente afetada se todas as letras do texto estiverem em maiúsculas ou minúsculas. Um erro será retornado se este campo for deixado em branco.
user_id integer Opcional. Um número que identifica o participante da conversa. Cada participante precisa ter um único user_id, usado repetidamente se ele participar de várias conversas.
papel string Obrigatório. A função do participante da conversa. Uma destas opções: "AGENT", "CUSTOMER".
start_timestamp_usec integer Opcional se a conversa for usada apenas para o recurso de ajuda com perguntas frequentes, sugestão de artigos e resumo. Caso contrário, é obrigatório. O carimbo de data/hora do início desta conversa em microssegundos.

Exemplo

Confira a seguir um exemplo de arquivo de dados de conversa.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Fazer upload de conversas para o Cloud Storage

Você precisa fornecer os dados da conversa em um bucket do Cloud Storage contido no seu projeto do Google Cloud Platform. Ao criar o bucket:

  • Verifique se selecionou o projeto do Google Cloud Platform que você usa para o Dialogflow.
  • Use a classe Armazenamento padrão.
  • Defina o local do bucket como o local mais próximo de você. Você precisará do ID do local (por exemplo, us-west1) ao fornecer os dados da conversa. Portanto, anote sua escolha.
  • Você também vai precisar do nome do bucket ao fornecer os dados da conversa.

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.