Datenspeicher

Datenspeicher werden von Datenspeicher-Tools verwendet, um anhand Ihrer Daten Antworten auf Fragen von Endnutzern zu finden. Datenspeicher sind eine Sammlung von Websites, Dokumenten oder Daten in Drittanbietersystemen, die jeweils auf Ihre Daten verweisen.

Wenn ein Endnutzer dem Agent eine Frage stellt, sucht der Agent in den angegebenen Quellinhalten nach einer Antwort und fasst die Ergebnisse in einer zusammenhängenden Antwort des Agents zusammen. Außerdem werden Links zu den Quellen der Antwort bereitgestellt, damit der Endnutzer weitere Informationen erhalten kann. Der Kundenservicemitarbeiter kann bis zu fünf Antwort-Snippets für eine bestimmte Frage bereitstellen.

Datenspeicherquellen

Sie können verschiedene Quellen für Ihre Daten angeben:

Datenquellen mit eingeschränktem Zugriff

Google bietet viele zusätzliche Quellen für selbst erhobene und Drittanbieterdaten als Funktion mit eingeschränktem Zugriff an. Eine Liste der verfügbaren Quellen und Informationen zum Anfordern des Zugriffs finden Sie auf dieser Seite im Abschnitt Zusätzliche Data Store-Quellen.

Websiteinhalte

Wenn Sie Websiteinhalte als Quelle hinzufügen, können Sie mehrere Websites hinzufügen und ausschließen. Wenn Sie eine Website angeben, können Sie einzelne Seiten oder * als Platzhalter für ein Muster verwenden. Alle HTML- und PDF-Inhalte werden verarbeitet.

Wenn Sie Websiteinhalte als Quelle verwenden, müssen Sie Ihre Domain bestätigen.

Einschränkungen:

  • Dateien aus öffentlichen URLs müssen vom Google-Suchindexer gecrawlt worden sein, damit sie im Suchindex erscheinen. Sie können dies mit der Google Search Console prüfen.
  • Es werden maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung an dieser Stelle fehl. Bereits indexierte Inhalte bleiben erhalten.

Daten importieren

Sie können Ihre Daten entweder aus BigQuery oder aus Cloud Storage importieren. Diese Daten können in Form von FAQs oder unstrukturiert sein und mit Metadaten> oder ohne Metadaten vorliegen.

Die folgenden Optionen für den Datenimport sind verfügbar:

  • Daten hinzufügen/aktualisieren: Die bereitgestellten Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, wird das alte Dokument durch das neue ersetzt.
  • Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht und dann werden neue Daten hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.

FAQ-Datenspeicher

FAQ-Datenspeicher können Antworten auf häufig gestellte Fragen enthalten. Wenn Nutzerfragen mit hoher Wahrscheinlichkeit einer hochgeladenen Frage entsprechen, gibt der Agent die Antwort auf diese Frage ohne Änderungen zurück. Sie können für jedes Frage- und Antwortpaar, das vom Kundenservicemitarbeiter angezeigt wird, einen Titel und eine URL angeben.

Daten müssen im CSV-Format in den Datenspeicher hochgeladen werden. Jede Datei muss eine Kopfzeile mit einer Beschreibung der Spalten enthalten.

Beispiel:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Die Spalten title und url sind optional und können weggelassen werden:

"answer","question"
"42","What is the meaning of life?"

Während des Uploads können Sie einen Ordner auswählen, in dem jede Datei unabhängig von der Erweiterung als CSV-Datei behandelt wird.

Einschränkungen:

  • Ein zusätzliches Leerzeichen nach , führt zu einem Fehler.
  • Leere Zeilen (auch am Ende der Datei) führen zu einem Fehler.

Unstrukturierter Datenspeicher

Datenspeicher für unstrukturierte Daten können Inhalte in den folgenden Formaten enthalten:

  • HTML
  • PDF
  • TXT
  • CSV

Es ist möglich (aber ungewöhnlich), Dateien aus dem Cloud Storage-Bucket eines anderen Projekts zu importieren. Dazu müssen Sie dem Importprozess expliziten Zugriff gewähren. Folgen Sie der Anleitung in der Fehlermeldung. Sie enthält den Namen des Nutzers, der Lesezugriff auf den Bucket benötigt, um den Import durchzuführen.

Einschränkungen:

  • Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.

Datenspeicher mit Metadaten

Ein Titel und URL können als Metadaten angegeben werden. Wenn der Agent mit einem Nutzer kommuniziert, kann er diese Informationen dem Nutzer zur Verfügung stellen. So können Nutzer schnell auf interne Webseiten verlinken, auf die der Google Suche-Indexer nicht zugreifen kann.

Wenn Sie Inhalte mit Metadaten importieren möchten, müssen Sie eine oder mehrere JSON Lines-Dateien bereitstellen. Jede Zeile in dieser Datei beschreibt ein Dokument. Sie laden die eigentlichen Dokumente nicht direkt hoch. URIs, die auf die Cloud Storage-Pfade verweisen, werden in der JSON Lines-Datei angegeben.

Um Ihre JSON Lines-Dateien bereitzustellen, müssen Sie einen Cloud Storage-Ordner angeben, der diese Dateien enthält. Legen Sie keine anderen Dateien in diesem Ordner ab.

Feldbeschreibungen:

Feld Typ Beschreibung
id String Eindeutige Kennung für das Dokument.
content.mimeType String MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt.
content.uri String URI für das Dokument in Cloud Storage.
structData String Einzeiliges JSON-Objekt mit optionalen Feldern title und url.

Beispiel:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datenspeicher ohne Metadaten

Für diese Art von Inhalten sind keine Metadaten vorhanden. Stattdessen geben Sie URI-Links zu den einzelnen Dokumenten an. Der Inhaltstyp wird durch die Dateiendung bestimmt.

Konfiguration für das Parsen und Aufteilen in Blöcke

Je nach Datenquelle können Sie möglicherweise Einstellungen zum Parsen und Aufteilen in Chunks konfigurieren, wie sie von Vertex AI Search definiert werden.

Cloud Storage für ein Dokument im Datenspeicher verwenden

Wenn Ihre Inhalte nicht öffentlich sind, sollten Sie sie in Cloud Storage speichern. Wenn Sie Datenspeicher-Dokumente erstellen, geben Sie die URLs für Ihre Cloud Storage-Objekte im folgenden Format an: gs://bucket-name/folder-name. Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.

Beim Erstellen des Cloud Storage-Bucket:

Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.

Sprachen

Eine Liste der unterstützten Sprachen finden Sie in der Spalte „Datenspeicher“ in der Sprachreferenz.

Für eine optimale Leistung sollten Datenspeicher in einer einzigen Sprache erstellt werden.

Nachdem Sie einen Datenspeicher erstellt haben, können Sie optional die Sprache des Datenspeichers angeben. Wenn Sie die Sprache des Datenspeichers festlegen, können Sie den Datenspeicher mit einem Agent verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agent verbunden ist.

Unterstützte Regionen

Informationen zu unterstützten Regionen finden Sie in der Regionsreferenz.

(Eingeschränkter Zugriff) Zusätzliche Datenspeicherquellen

Weitere Datenspeichertypen sind in der folgenden Tabelle aufgeführt. Sie sind als Funktionen mit eingeschränktem Zugriff verfügbar. Sie können das Formular für die Zulassungsliste ausfüllen, um Zugriff anzufordern. Nach der Genehmigung können Sie diese Optionen sehen, wenn Sie einen neuen Datenspeicher in AI Applications erstellen.

Google-Datenspeicherquellen

Datenspeicherquelle Beschreibung
Google Drive Link zum Drive Ihrer Organisation.
(Vorabversion) Google Gmail Link zu Gmail Ihrer Organisation.
(Vorschau) Google Sites Link zu Sites Ihrer Organisation
(Vorabversion) Google Kalender Link zum Kalender Ihrer Organisation.
(Vorschau) Google Groups Link zu den Gruppen Ihrer Organisation.

Datenquellen von Drittanbietern

Datenspeicherquelle Beschreibung
(Vorabversion) AODocs Importieren Sie Daten aus Ihrem AODocs-Dokumentverwaltungssystem.
Hinweise für Box Importieren Sie Daten von der Box-Website Ihrer Organisation.
Confluence Cloud Importieren Sie Daten aus Ihrem Confluence Cloud-Workspace.
(Preview) Confluence Data Center Importieren Sie Daten aus Ihrem Confluence Data Center-Workspace.
Dropbox Importieren Sie Daten aus Ihrem Dropbox-Speicher.
EntraID Daten aus dem EntraID-System Ihrer Organisation importieren
(Vorschau) HubSpot Importieren Sie Daten von der HubSpot-Website Ihrer Organisation.
Jira Cloud Importieren Sie Daten aus Ihrem Jira-Aufgabenverwaltungssystem.
(Vorabversion) Jira Data Center Importieren Sie Daten von Ihrer Jira Data Center-Website.
(Vorabversion) Marketo Daten aus dem Marketo-Marketingsystem Ihrer Organisation importieren
(Vorabversion) Notion Importieren Sie Daten aus dem Notion-Workspace Ihrer Organisation.
OneDrive Importieren Sie Daten aus dem OneDrive-Speicher Ihrer Organisation.
Microsoft Outlook Daten aus Microsoft Outlook importieren
Salesforce Daten aus Salesforce importieren
ServiceNow Daten aus ServiceNow importieren
SharePoint Importieren Sie Daten aus dem SharePoint-System Ihrer Organisation.
(Vorschau) Shopify Daten aus dem Shopify-System Ihrer Organisation importieren
Slack Daten aus Slack importieren
Microsoft Teams Daten aus Microsoft Teams importieren.
(Vorschau) WordPress Importieren Sie Daten von der WordPress-Website Ihrer Organisation.

Drittanbieter-Datenspeicher mit einem Connector einrichten

In diesem Abschnitt wird beschrieben, wie Sie einen Datenspeicher mit Drittanbieterdaten einrichten. Anleitungen für die einzelnen Drittanbieter-Datenquellen finden Sie in der Dokumentation zu generativer KI.

Identitätsanbieter

Mit Identitätsanbietern können Sie Nutzer, Gruppen und die Authentifizierung verwalten. Wenn Sie einen Datenspeicher eines Drittanbieters einrichten, können Sie entweder einen Google-Identitätsanbieter oder einen Drittanbieter-Identitätsanbieter verwenden.

Google-Identitätsanbieter:

  • Alle Nutzer des Agents müssen sich mit ihren Google-Anmeldedaten anmelden. Das kann eine beliebige @gmail.com-E-Mail-Adresse oder ein beliebiges Konto sein, das Google als Identitätsanbieter verwendet (z. B. Google Workspace). Dieser Schritt wird übersprungen, wenn Nutzer direkt mit dem Agent über Google Cloud kommunizieren, da die Google-Identität automatisch in das System integriert ist.
  • Sie können den Zugriff auf Google-Konten mit IAM zuweisen.

Identitätsanbieter von Drittanbietern:

  • Nutzer des Agents melden sich mit Anmeldedaten an, die nicht von Google stammen, z. B. mit einer Microsoft-E-Mail-Adresse.
  • Sie müssen einen Personalpool mit Google Cloud erstellen, der die Nicht-Google-Identitätsanbieter enthält. Anschließend können Sie mit IAM Zugriff auf den gesamten Pool oder auf einzelne Nutzer in diesem Pool gewähren.
  • Diese Methode kann nicht für Google Cloud -Projekte verwendet werden, die unter der Organisation @google.com eingerichtet wurden.

Connectors

Drittanbieter-Datenspeicher werden mithilfe eines Connectors implementiert. Jeder Connector kann mehrere Datenspeicher enthalten, die als Entitäten im System „Conversational Agents (Dialogflow CX)“ gespeichert werden.

  • Bevor Sie einen Datenspeicher erstellen, müssen Sie jede Region mit einem einzelnen Identitätsanbieter in Google Cloud  > Agent Builder > Einstellungen einrichten. Für alle Datenspeicher in dieser Region wird derselbe Identitätsanbieter verwendet. Sie können entweder eine Google-Identität oder eine Drittanbieteridentität in einem Workforce-Pool auswählen. Dasselbe Google-Anmeldedaten werden als unterschiedliche Identität betrachtet, wenn sie sich in einem Workforce-Pool befinden. So wird beispielsweise test@gmail.com als andere Identität als workforcePools/test-pool/subject/test@gmail.com betrachtet.

    • Erstellen Sie einen Workforce-Pool (falls erforderlich).
    • Gehen Sie zu Agent Builder > Einstellungen und wählen Sie entweder Google-Identität oder Identität von Drittanbieter aus. Klicken Sie auf SPEICHERN, um die Identität in der Region zu speichern.
    • Sie können jetzt einen Datenspeicher in der Region erstellen.
  • In jedem Datenspeicher werden ACL-Daten (Access Control List, Zugriffskontrollliste) mit jedem Dokument gespeichert. Hier wird aufgezeichnet, welche Nutzer oder Gruppen Lesezugriff auf welche Einheiten haben. Zur Laufzeit erhält ein Nutzer oder Gruppenmitglied nur Antworten vom Agent, die auf Entitäten basieren, auf die er Lesezugriff hat. Wenn ein Nutzer keinen Lesezugriff auf Entitäten im Datenspeicher hat, gibt der Agent eine leere Antwort zurück.

  • Da die Daten im Datenspeicher eine Kopie der Drittanbieterinstanz sind, müssen sie regelmäßig aktualisiert werden. Sie können die Aktualisierungsintervalle auf einer Zeitskala von Stunden oder Tagen konfigurieren.

  • Nachdem Sie den Datenspeicher konfiguriert und auf Erstellen geklickt haben, kann es bis zu einer Stunde dauern, bis der Datenspeicher in der Liste der Datenspeicher angezeigt wird.

Tracing von Datenspeichern

Diese Funktion besteht aus zwei Teilen:

  1. Anzeige der internen Ausführungstraces und Schrittlatenzen des Datenspeichers im Agent-Simulator.
  2. Export von Tracing- und Latenzdaten in Cloud Logging und BigQuery

Daten im Simulator ansehen

Wenn Sie Tracing- und Ausführungsdaten in den Agent-Daten anzeigen möchten, maximieren Sie die Details zu einem Gesprächsabschnitt, indem Sie rechts neben der Antwort des Agents auf das Dreieck klicken.

Auf dem Tab Ausführung werden die Ausführungs-Traces des internen Datenspeichers angezeigt, einschließlich der folgenden Informationen:

  • Die ursprüngliche Nutzereingabe.
  • Die Abfrage, wie sie von der Datenspeicher-Engine umgeschrieben wurde.
  • Die Qualitätssignale während der verschiedenen Ausführungsschritte, einschließlich des Status des Sicherheitschecks, des Status des Stabilitätstests, des Ergebnisses des Grounding-Checks und des Status des Sicherheitschecks.
  • Such-Snippets aus der Datenspeichersuche.
  • Die Liste der unterstützenden Dokumente, aus denen die Snippets stammen.

Auf dem Tab Latenz wird ein Zeitdiagramm für verschiedene Ausführungsschritte des Datenspeichers angezeigt. Die Liste der Schritte kann je nach Konfiguration des Datenspeichers und Ausführungsablauf variieren. Die angezeigten Daten können Folgendes umfassen:

  • FAQ-Abgleich: Für den Datenspeicher wurde ein FAQ-Abgleich durchgeführt.
  • Abfrage neu formulieren: Die ursprüngliche Nutzeranfrage wurde vom Datenspeicher neu formuliert.
  • Suche: Der Datenspeicher hat Snippets durchsucht.
  • Zusammenfassung: Der Datenspeicher hat die Antwort zusammengefasst.
  • Sicherheitschecks: Der Datenspeicher hat Sicherheitschecks durchgeführt.

Tracing-Daten an anderen Orten ansehen

  • Wenn der Conversational AI-Agent mit Unterhaltungsverlaufsprotokollierung konfiguriert ist, können Sie die Datenspeicher-Traces auch im Unterhaltungsverlauf ansehen.

  • Wenn der Conversational AI-Agent mit Cloud Logging konfiguriert ist, können Sie Traces und Latenzen auch im Logs Explorer in der Cloud ansehen.

  • Wenn der Conversational AI-Agent mit BigQuery Export konfiguriert ist, können Sie Traces und Latenzen auch in einer exportierten BigQuery-Tabelle ansehen.

Nächste Schritte

Eine Anleitung zum Erstellen eines Datenspeichers und zur Verwendung mit einem Agent finden Sie in der Dokumentation zu Datenspeichertools.