Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Um conjunto de dados de conversa contém dados de transcrição de conversa e é usado para treinar um modelo personalizado de Resposta inteligente ou de resumo.
A Resposta inteligente usa as transcrições de conversa
para recomendar respostas de texto aos agentes humanos que conversam com um usuário final.
Os modelos personalizados de resumo
são treinados em conjuntos de dados de conversas que contêm transcrições e
dados de anotação. Eles usam as anotações para gerar resumos de conversas para agentes humanos depois que uma conversa é concluída.
Há duas maneiras de criar um conjunto de dados: usando os fluxos de trabalho do tutorial do console ou criando um conjunto de dados manualmente no console usando a guia Dados->Conjuntos de dados. Recomendamos que você use os tutoriais do console como primeira opção. Para usar os tutoriais do console, acesse o
Console da Assistente de IA
e clique no botão Começar abaixo do recurso que você quer testar.
Esta página demonstra como criar um conjunto de dados manualmente.
Antes de começar
Siga as instruções de configuração do Dialogflow
para ativar o Dialogflow em um projeto do Google Cloud Platform.
Recomendamos que você leia a página de fundamentos da Assistente de IA antes de começar este tutorial.
Se você estiver implementando o Smart Reply usando seus próprios dados de transcrição, verifique se as transcrições estão em JSON no formato especificado e armazenadas em um bucket do Google Cloud Storage. Um conjunto de dados de conversas precisa ter pelo menos 30.000 conversas. Caso contrário, o treinamento de modelo vai falhar. Como regra geral, quanto mais conversas você tiver, melhor será a qualidade do seu modelo. Recomendamos remover conversas com menos de 20 mensagens ou três turnos de conversa (mudanças no participante que está falando). Também sugerimos que você
remova mensagens de bots ou mensagens geradas automaticamente por sistemas (por
exemplo, "O agente entra na sala de chat"). Recomendamos que você envie pelo menos três meses de conversas para garantir a cobertura do maior número possível de casos de uso. O número máximo de conversas em um conjunto de dados de conversa é de 1.000.000.
Se você estiver implementando a sumarização usando seus próprios dados de transcrição e anotação, verifique se as transcrições estão no formato especificado e armazenadas em um bucket do Google Cloud Storage. O número mínimo recomendado de anotações de treinamento é 1.000. O número mínimo obrigatório é 100.
Acesse o console da Assistente de IA.
Selecione seu projeto do Google Cloud Platform e clique na opção de menu Dados na margem esquerda da página. O menu Dados mostra todas as suas informações. Há duas guias, uma para conjuntos de dados de conversação e outra para bases de conhecimento.
Clique na guia Conjuntos de dados de conversas e depois no botão +Criar novo no canto superior direito da página.
Criar um conjunto de dados de conversa
Insira um Nome e uma Descrição opcional para o novo conjunto de dados. No campo Dados de conversa, insira o URI do bucket de armazenamento que contém as transcrições de conversa. O Assistente de IA é compatível com o uso do símbolo * para correspondência de caracteres curinga. O URI precisa ter o seguinte
formato:
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-01 UTC."],[[["\u003cp\u003eConversation datasets, which contain conversation transcript data, are used to train Smart Reply models that suggest text responses and Summarization models that generate conversation summaries for human agents.\u003c/p\u003e\n"],["\u003cp\u003eDatasets can be created manually in the Console using the "Data -> Datasets" tab, or it is recommended to use the Console tutorials located in the Agent Assist Console under the "Get started" button.\u003c/p\u003e\n"],["\u003cp\u003eTo use Smart Reply, conversation datasets must contain at least 30,000 conversations in \u003ccode\u003eJSON\u003c/code\u003e format and stored in a Google Cloud Storage bucket, and you should aim to remove any conversations with fewer than 20 messages or three conversation turns.\u003c/p\u003e\n"],["\u003cp\u003eFor Summarization, in addition to conversation transcripts in the required format, your dataset will need to contain at least 100 conversation annotations and a recommended 1000, also stored in a Google Cloud Storage bucket.\u003c/p\u003e\n"],["\u003cp\u003eTo create a new conversation dataset, you will need to specify a name, an optional description, and the URI of the Google Cloud Storage bucket containing your conversation transcripts, using the \u003ccode\u003egs://<bucket name>/<object name>\u003c/code\u003e format.\u003c/p\u003e\n"]]],[],null,["# Create a conversation dataset\n\nA conversation dataset contains conversation transcript data, and is used to\ntrain either a Smart Reply or Summarization custom model.\n[Smart Reply](/agent-assist/docs/smart-reply) uses the conversation transcripts\nto recommend text responses to human agents conversing with an end-user.\n[Summarization custom models](/agent-assist/docs/summarization-console)\nare trained on conversation datasets that contain both transcripts and\n**annotation** data. They use the annotations to generate conversation\nsummaries to human agents after a conversation has completed.\n\nThere are two ways to create a dataset: Using the Console tutorial workflows,\nor manually creating a dataset in the Console using the **Data** **-\\\u003e**\n**Datasets** tab. We recommend that you use the Console tutorials as a first\noption. To use the Console tutorials, navigate to the\n[Agent Assist Console](https://agentassist.cloud.google.com)\nand click the **Get started** button under the feature you'd like to test.\n\nThis page demonstrates how to create a dataset manually.\n\nBefore you begin\n----------------\n\n1. Follow the [Dialogflow setup](/dialogflow/es/docs/quick/setup?hl=en)\n instructions to enable Dialogflow on a Google Cloud Platform project.\n\n2. We recommend that you read the Agent Assist\n [basics](/agent-assist/docs/basics) page before starting this tutorial.\n\n3. If you are implementing Smart Reply using your own transcript data, make\n sure your transcripts are in `JSON` in the specified\n [format](/agent-assist/docs/conversation-data-format#conversation_transcript_data)\n and stored in a\n [Google Cloud Storage bucket](/storage/docs/creating-buckets). A\n conversation dataset must contain at least 30,000 conversations, otherwise\n model training will fail. As a general rule, the more conversations you have\n the better your model quality will be. We suggest that you remove any\n conversations with fewer than 20 messages or 3 conversation turns (changes\n in which participant is making an utterance). We also suggest that you\n remove any bot messages or messages automatically generated by systems (for\n example, \"Agent enters the chat room\"). We recommend that you upload\n at least 3 months of conversations to ensure coverage of as many use cases\n as possible. The maximum number of conversations in a conversation dataset\n is 1,000,000.\n\n4. If you are implementing Summarization using your own transcript and\n annotation data, make sure your transcripts are in the specified\n [format](/agent-assist/docs/summarization#summarization_training_data)\n and stored in a\n [Google Cloud Storage bucket](/storage/docs/creating-buckets). The\n recommended minimum number of training annotations is 1000. The enforced\n minimum number is 100.\n\n5. Navigate to the [Agent Assist Console](https://agentassist.cloud.google.com).\n Select your Google Cloud Platform project, then click on the **Data** menu\n option on the far left margin of the page. The **Data** menu displays all of\n your data. There are two tabs, one each for **conversation datasets** and\n **knowledge bases**.\n\n6. Click on the **conversation datasets** tab, then on the **+Create new**\n button at the top right of the conversation datasets page.\n\nCreate a conversation dataset\n-----------------------------\n\n1. Enter a **Name** and optional **Description** for your new dataset. In the\n **Conversation data** field, enter the URI of the storage bucket that\n contains your conversation transcripts. Agent Assist supports use of\n the `*` symbol for wildcard matching. The URI should have the following\n format:\n\n gs://\u003cbucket name\u003e/\u003cobject name\u003e\n\n For example: \n\n gs://mydata/conversationjsons/conv0*.json\n gs://mydatabucket/test/conv.json\n\n2. Click **Create** . Your new dataset now appears in the dataset list on the\n **Data** menu page under the **Conversation datasets** tab.\n\nWhat's next\n-----------\n\nTrain a [Smart Reply](/agent-assist/docs/smart-reply) or\n[Summarization](/agent-assist/docs/summarization-console) model on\none or more conversation datasets\n[using the Agent Assist console](/agent-assist/docs/model-training)."]]