Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Ein Unterhaltungs-Dataset enthält Transkriptdaten von Unterhaltungen und wird zum Trainieren eines benutzerdefinierten Modells für intelligente Antworten oder Zusammenfassungen verwendet.
Bei Smart Reply werden die Unterhaltungstranskripte verwendet, um Textantworten an menschliche Kundenservicemitarbeiter zu senden, die mit einem Endnutzer interagieren.
Benutzerdefinierte Modelle für die Zusammenfassung werden mit Unterhaltungs-Datasets trainiert, die sowohl Transkripte als auch Anmerkungsdaten enthalten. Sie verwenden die Anmerkungen, um nach Abschluss einer Unterhaltung Zusammenfassungen für Kundenservicemitarbeiter zu erstellen.
Es gibt zwei Möglichkeiten, ein Dataset zu erstellen: mit den Console-Tutorial-Workflows oder manuell in der Console über den Tab Daten->Datasets. Wir empfehlen, zuerst die Console-Tutorials zu verwenden. Wenn Sie die Console-Tutorials verwenden möchten, rufen Sie die Agent Assist Console auf und klicken Sie unter der Funktion, die Sie testen möchten, auf die Schaltfläche Jetzt starten.
Auf dieser Seite wird gezeigt, wie Sie ein Dataset manuell erstellen.
Hinweise
Folgen Sie der Anleitung unter Dialogflow einrichten, um Dialogflow in einem Google Cloud-Projekt zu aktivieren.
Wir empfehlen, die Seite Grundlagen zu Agent Assist zu lesen, bevor Sie mit dieser Anleitung beginnen.
Wenn Sie „Intelligente Antwort“ mit Ihren eigenen Transkriptdaten implementieren, achten Sie darauf, dass die Transkripte in JSON im angegebenen Format und in einem Google Cloud Storage-Bucket gespeichert sind. Ein Unterhaltungs-Dataset muss mindestens 30.000 Unterhaltungen enthalten, andernfalls schlägt das Modelltraining fehl. Als allgemeine Regel gilt: Je mehr Unterhaltungen, desto besser ist die Modellqualität. Es wird empfohlen, Unterhaltungen mit weniger als 20 Nachrichten oder drei Unterhaltungsrunden zu entfernen (Änderungen, bei denen der Teilnehmer eine Äußerung macht). Wir empfehlen außerdem, alle Bot-Nachrichten oder automatisch von Systemen generierten Nachrichten zu entfernen (z. B. „Der Kundenservicemitarbeiter betritt den Chatroom“). Sie sollten Unterhaltungen aus einem Zeitraum von mindestens drei Monaten hochladen, damit möglichst viele Anwendungsfälle abgedeckt sind. Die maximale Anzahl an Unterhaltungen in einem Unterhaltungs-Dataset beträgt 1.000.000.
Wenn Sie die Zusammenfassung mit Ihren eigenen Transkript- und Anmerkungsdaten implementieren, achten Sie darauf, dass die Transkripte im angegebenen Format und in einem Google Cloud Storage-Bucket gespeichert sind. Die empfohlene Mindestanzahl an Trainingsanmerkungen beträgt 1.000. Die Mindestanzahl beträgt 100.
Öffnen Sie die Agent Assist Console.
Wählen Sie Ihr Google Cloud Platform-Projekt aus und klicken Sie dann am linken Rand der Seite auf die Menüoption Daten. Im Menü Daten werden alle Ihre Daten angezeigt. Es gibt zwei Tabs, einen für Unterhaltungs-Datasets und einen für Wissensdatenbanken.
Klicken Sie auf den Tab Unterhaltungs-Datasets und dann rechts oben auf der Seite „Unterhaltungs-Datasets“ auf die Schaltfläche + Neu erstellen.
Unterhaltungs-Dataset erstellen
Geben Sie einen Namen und optional eine Beschreibung für das neue Dataset ein. Geben Sie im Feld Unterhaltungsdaten den URI des Speicher-Buckets ein, der Ihre Unterhaltungstranskripte enthält. Agent Assist unterstützt die Verwendung des Symbols * für den Abgleich von Platzhaltern. Der URI sollte das folgende Format haben:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eConversation datasets, which contain conversation transcript data, are used to train Smart Reply models that suggest text responses and Summarization models that generate conversation summaries for human agents.\u003c/p\u003e\n"],["\u003cp\u003eDatasets can be created manually in the Console using the "Data -> Datasets" tab, or it is recommended to use the Console tutorials located in the Agent Assist Console under the "Get started" button.\u003c/p\u003e\n"],["\u003cp\u003eTo use Smart Reply, conversation datasets must contain at least 30,000 conversations in \u003ccode\u003eJSON\u003c/code\u003e format and stored in a Google Cloud Storage bucket, and you should aim to remove any conversations with fewer than 20 messages or three conversation turns.\u003c/p\u003e\n"],["\u003cp\u003eFor Summarization, in addition to conversation transcripts in the required format, your dataset will need to contain at least 100 conversation annotations and a recommended 1000, also stored in a Google Cloud Storage bucket.\u003c/p\u003e\n"],["\u003cp\u003eTo create a new conversation dataset, you will need to specify a name, an optional description, and the URI of the Google Cloud Storage bucket containing your conversation transcripts, using the \u003ccode\u003egs://<bucket name>/<object name>\u003c/code\u003e format.\u003c/p\u003e\n"]]],[],null,["# Create a conversation dataset\n\nA conversation dataset contains conversation transcript data, and is used to\ntrain either a Smart Reply or Summarization custom model.\n[Smart Reply](/agent-assist/docs/smart-reply) uses the conversation transcripts\nto recommend text responses to human agents conversing with an end-user.\n[Summarization custom models](/agent-assist/docs/summarization-console)\nare trained on conversation datasets that contain both transcripts and\n**annotation** data. They use the annotations to generate conversation\nsummaries to human agents after a conversation has completed.\n\nThere are two ways to create a dataset: Using the Console tutorial workflows,\nor manually creating a dataset in the Console using the **Data** **-\\\u003e**\n**Datasets** tab. We recommend that you use the Console tutorials as a first\noption. To use the Console tutorials, navigate to the\n[Agent Assist Console](https://agentassist.cloud.google.com)\nand click the **Get started** button under the feature you'd like to test.\n\nThis page demonstrates how to create a dataset manually.\n\nBefore you begin\n----------------\n\n1. Follow the [Dialogflow setup](/dialogflow/es/docs/quick/setup?hl=en)\n instructions to enable Dialogflow on a Google Cloud Platform project.\n\n2. We recommend that you read the Agent Assist\n [basics](/agent-assist/docs/basics) page before starting this tutorial.\n\n3. If you are implementing Smart Reply using your own transcript data, make\n sure your transcripts are in `JSON` in the specified\n [format](/agent-assist/docs/conversation-data-format#conversation_transcript_data)\n and stored in a\n [Google Cloud Storage bucket](/storage/docs/creating-buckets). A\n conversation dataset must contain at least 30,000 conversations, otherwise\n model training will fail. As a general rule, the more conversations you have\n the better your model quality will be. We suggest that you remove any\n conversations with fewer than 20 messages or 3 conversation turns (changes\n in which participant is making an utterance). We also suggest that you\n remove any bot messages or messages automatically generated by systems (for\n example, \"Agent enters the chat room\"). We recommend that you upload\n at least 3 months of conversations to ensure coverage of as many use cases\n as possible. The maximum number of conversations in a conversation dataset\n is 1,000,000.\n\n4. If you are implementing Summarization using your own transcript and\n annotation data, make sure your transcripts are in the specified\n [format](/agent-assist/docs/summarization#summarization_training_data)\n and stored in a\n [Google Cloud Storage bucket](/storage/docs/creating-buckets). The\n recommended minimum number of training annotations is 1000. The enforced\n minimum number is 100.\n\n5. Navigate to the [Agent Assist Console](https://agentassist.cloud.google.com).\n Select your Google Cloud Platform project, then click on the **Data** menu\n option on the far left margin of the page. The **Data** menu displays all of\n your data. There are two tabs, one each for **conversation datasets** and\n **knowledge bases**.\n\n6. Click on the **conversation datasets** tab, then on the **+Create new**\n button at the top right of the conversation datasets page.\n\nCreate a conversation dataset\n-----------------------------\n\n1. Enter a **Name** and optional **Description** for your new dataset. In the\n **Conversation data** field, enter the URI of the storage bucket that\n contains your conversation transcripts. Agent Assist supports use of\n the `*` symbol for wildcard matching. The URI should have the following\n format:\n\n gs://\u003cbucket name\u003e/\u003cobject name\u003e\n\n For example: \n\n gs://mydata/conversationjsons/conv0*.json\n gs://mydatabucket/test/conv.json\n\n2. Click **Create** . Your new dataset now appears in the dataset list on the\n **Data** menu page under the **Conversation datasets** tab.\n\nWhat's next\n-----------\n\nTrain a [Smart Reply](/agent-assist/docs/smart-reply) or\n[Summarization](/agent-assist/docs/summarization-console) model on\none or more conversation datasets\n[using the Agent Assist console](/agent-assist/docs/model-training)."]]