Datenspeicher werden von Datenspeicher-Tools verwendet, um anhand Ihrer Daten Antworten auf Fragen von Endnutzern zu finden. Datenspeicher sind eine Sammlung von Websites, Dokumenten oder Daten in Drittanbietersystemen, die jeweils auf Ihre Daten verweisen.
Wenn ein Endnutzer dem Agent eine Frage stellt, sucht der Agent in den angegebenen Quellinhalten nach einer Antwort und fasst die Ergebnisse in einer zusammenhängenden Antwort des Agents zusammen. Außerdem werden Links zu den Quellen der Antwort bereitgestellt, damit der Endnutzer weitere Informationen erhalten kann. Der Kundenservicemitarbeiter kann bis zu fünf Antwort-Snippets für eine bestimmte Frage bereitstellen.
Datenspeicherquellen
Sie können verschiedene Quellen für Ihre Daten angeben:
- Website-URLs: Websiteinhalte werden automatisch von einer Liste mit Domains oder Webseiten gecrawlt.
- BigQuery: Daten aus Ihrer BigQuery-Tabelle importieren.
- Cloud Storage: Daten aus Ihrem Cloud Storage-Bucket importieren.
- AlloyDB: Importieren Sie Daten aus Ihrem AlloyDB-Cluster.
- Bigtable: Daten aus einer Bigtable-Tabelle importieren.
- Firestore: Daten aus Ihrer Firestore-Sammlung importieren.
- Cloud SQL: Importieren Sie Daten aus einer Cloud SQL-Tabelle.
- Spanner: Daten aus einer Spanner-Tabelle importieren.
Datenquellen mit eingeschränktem Zugriff
Google bietet viele zusätzliche Quellen für selbst erhobene und Drittanbieterdaten als Funktion mit eingeschränktem Zugriff an. Eine Liste der verfügbaren Quellen und Informationen zum Anfordern des Zugriffs finden Sie auf dieser Seite im Abschnitt Zusätzliche Data Store-Quellen.
Websiteinhalte
Wenn Sie Websiteinhalte als Quelle hinzufügen, können Sie mehrere Websites hinzufügen und ausschließen.
Wenn Sie eine Website angeben, können Sie einzelne Seiten oder *
als Platzhalter für ein Muster verwenden.
Alle HTML- und PDF-Inhalte werden verarbeitet.
Wenn Sie Websiteinhalte als Quelle verwenden, müssen Sie Ihre Domain bestätigen.
Einschränkungen:
- Dateien aus öffentlichen URLs müssen vom Google-Suchindexer gecrawlt worden sein, damit sie im Suchindex erscheinen. Sie können dies mit der Google Search Console prüfen.
- Es werden maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung an dieser Stelle fehl. Bereits indexierte Inhalte bleiben erhalten.
Daten importieren
Sie können Ihre Daten entweder aus BigQuery oder aus Cloud Storage importieren. Diese Daten können in Form von FAQs oder unstrukturiert sein und mit Metadaten> oder ohne Metadaten vorliegen.
Die folgenden Optionen für den Datenimport sind verfügbar:
- Daten hinzufügen/aktualisieren: Die bereitgestellten Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, wird das alte Dokument durch das neue ersetzt.
- Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht und dann werden neue Daten hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.
FAQ-Datenspeicher
FAQ-Datenspeicher können Antworten auf häufig gestellte Fragen enthalten. Wenn Nutzerfragen mit hoher Wahrscheinlichkeit einer hochgeladenen Frage entsprechen, gibt der Agent die Antwort auf diese Frage ohne Änderungen zurück. Sie können für jedes Frage- und Antwortpaar, das vom Kundenservicemitarbeiter angezeigt wird, einen Titel und eine URL angeben.
Daten müssen im CSV
-Format in den Datenspeicher hochgeladen werden. Jede Datei muss eine Kopfzeile mit einer Beschreibung der Spalten enthalten.
Beispiel:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Die Spalten title
und url
sind optional und können weggelassen werden:
"answer","question"
"42","What is the meaning of life?"
Während des Uploads können Sie einen Ordner auswählen, in dem jede Datei unabhängig von der Erweiterung als CSV
-Datei behandelt wird.
Einschränkungen:
- Ein zusätzliches Leerzeichen nach
,
führt zu einem Fehler. - Leere Zeilen (auch am Ende der Datei) führen zu einem Fehler.
Unstrukturierter Datenspeicher
Datenspeicher für unstrukturierte Daten können Inhalte in den folgenden Formaten enthalten:
HTML
PDF
TXT
CSV
Es ist möglich (aber ungewöhnlich), Dateien aus dem Cloud Storage-Bucket eines anderen Projekts zu importieren. Dazu müssen Sie dem Importprozess expliziten Zugriff gewähren. Folgen Sie der Anleitung in der Fehlermeldung. Sie enthält den Namen des Nutzers, der Lesezugriff auf den Bucket benötigt, um den Import durchzuführen.
Einschränkungen:
- Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.
Datenspeicher mit Metadaten
Ein Titel und URL
können als Metadaten angegeben werden.
Wenn der Agent mit einem Nutzer kommuniziert, kann er diese Informationen dem Nutzer zur Verfügung stellen.
So können Nutzer schnell auf interne Webseiten verlinken, auf die der Google Suche-Indexer nicht zugreifen kann.
Wenn Sie Inhalte mit Metadaten importieren möchten, müssen Sie eine oder mehrere JSON Lines-Dateien bereitstellen. Jede Zeile in dieser Datei beschreibt ein Dokument. Sie laden die eigentlichen Dokumente nicht direkt hoch. URIs
, die auf die Cloud Storage-Pfade verweisen, werden in der JSON Lines-Datei angegeben.
Um Ihre JSON Lines-Dateien bereitzustellen, müssen Sie einen Cloud Storage-Ordner angeben, der diese Dateien enthält. Legen Sie keine anderen Dateien in diesem Ordner ab.
Feldbeschreibungen:
Feld | Typ | Beschreibung |
---|---|---|
id | String | Eindeutige Kennung für das Dokument. |
content.mimeType | String | MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt. |
content.uri | String | URI für das Dokument in Cloud Storage. |
structData | String | Einzeiliges JSON-Objekt mit optionalen Feldern title und url . |
Beispiel:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Datenspeicher ohne Metadaten
Für diese Art von Inhalten sind keine Metadaten vorhanden. Stattdessen geben Sie URI-Links zu den einzelnen Dokumenten an. Der Inhaltstyp wird durch die Dateiendung bestimmt.
Konfiguration für das Parsen und Aufteilen in Blöcke
Je nach Datenquelle können Sie möglicherweise Einstellungen zum Parsen und Aufteilen in Chunks konfigurieren, wie sie von Vertex AI Search definiert werden.
Cloud Storage für ein Dokument im Datenspeicher verwenden
Wenn Ihre Inhalte nicht öffentlich sind, sollten Sie sie in Cloud Storage speichern.
Wenn Sie Datenspeicher-Dokumente erstellen, geben Sie die URLs für Ihre Cloud Storage-Objekte im folgenden Format an:
gs://bucket-name/folder-name
.
Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.
Beim Erstellen des Cloud Storage-Bucket:
- Sie müssen das Projekt ausgewählt haben, das Sie für den Agent verwenden.
- Verwenden Sie die Standard Storage-Klasse.
- Legen Sie den Bucket-Speicherort auf denselben Standort wie Ihren Agent fest.
Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.
Sprachen
Eine Liste der unterstützten Sprachen finden Sie in der Spalte „Datenspeicher“ in der Sprachreferenz.
Für eine optimale Leistung sollten Datenspeicher in einer einzigen Sprache erstellt werden.
Nachdem Sie einen Datenspeicher erstellt haben, können Sie optional die Sprache des Datenspeichers angeben. Wenn Sie die Sprache des Datenspeichers festlegen, können Sie den Datenspeicher mit einem Agent verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agent verbunden ist.
Unterstützte Regionen
Informationen zu unterstützten Regionen finden Sie in der Regionsreferenz.
(Eingeschränkter Zugriff) Zusätzliche Datenspeicherquellen
Weitere Datenspeichertypen sind in der folgenden Tabelle aufgeführt. Sie sind als Funktionen mit eingeschränktem Zugriff verfügbar. Sie können das Formular für die Zulassungsliste ausfüllen, um Zugriff anzufordern. Nach der Genehmigung können Sie diese Optionen sehen, wenn Sie einen neuen Datenspeicher in AI Applications erstellen.
Google-Datenspeicherquellen
Datenspeicherquelle | Beschreibung |
---|---|
Google Drive | Link zum Drive Ihrer Organisation. |
(Vorabversion) Google Gmail | Link zu Gmail Ihrer Organisation. |
(Vorschau) Google Sites | Link zu Sites Ihrer Organisation |
(Vorabversion) Google Kalender | Link zum Kalender Ihrer Organisation. |
(Vorschau) Google Groups | Link zu den Gruppen Ihrer Organisation. |
Datenquellen von Drittanbietern
Datenspeicherquelle | Beschreibung |
---|---|
(Vorabversion) AODocs | Importieren Sie Daten aus Ihrem AODocs-Dokumentverwaltungssystem. |
Hinweise für Box | Importieren Sie Daten von der Box-Website Ihrer Organisation. |
Confluence Cloud | Importieren Sie Daten aus Ihrem Confluence Cloud-Workspace. |
(Preview) Confluence Data Center | Importieren Sie Daten aus Ihrem Confluence Data Center-Workspace. |
Dropbox | Importieren Sie Daten aus Ihrem Dropbox-Speicher. |
EntraID | Daten aus dem EntraID-System Ihrer Organisation importieren |
(Vorschau) HubSpot | Importieren Sie Daten von der HubSpot-Website Ihrer Organisation. |
Jira Cloud | Importieren Sie Daten aus Ihrem Jira-Aufgabenverwaltungssystem. |
(Vorabversion) Jira Data Center | Importieren Sie Daten von Ihrer Jira Data Center-Website. |
(Vorabversion) Marketo | Daten aus dem Marketo-Marketingsystem Ihrer Organisation importieren |
(Vorabversion) Notion | Importieren Sie Daten aus dem Notion-Workspace Ihrer Organisation. |
OneDrive | Importieren Sie Daten aus dem OneDrive-Speicher Ihrer Organisation. |
Microsoft Outlook | Daten aus Microsoft Outlook importieren |
Salesforce | Daten aus Salesforce importieren |
ServiceNow | Daten aus ServiceNow importieren |
SharePoint | Importieren Sie Daten aus dem SharePoint-System Ihrer Organisation. |
(Vorschau) Shopify | Daten aus dem Shopify-System Ihrer Organisation importieren |
Slack | Daten aus Slack importieren |
Microsoft Teams | Daten aus Microsoft Teams importieren. |
(Vorschau) WordPress | Importieren Sie Daten von der WordPress-Website Ihrer Organisation. |
Drittanbieter-Datenspeicher mit einem Connector einrichten
In diesem Abschnitt wird beschrieben, wie Sie einen Datenspeicher mit Drittanbieterdaten einrichten. Anleitungen für die einzelnen Drittanbieter-Datenquellen finden Sie in der Dokumentation zu generativer KI.
Identitätsanbieter
Mit Identitätsanbietern können Sie Nutzer, Gruppen und die Authentifizierung verwalten. Wenn Sie einen Datenspeicher eines Drittanbieters einrichten, können Sie entweder einen Google-Identitätsanbieter oder einen Drittanbieter-Identitätsanbieter verwenden.
Google-Identitätsanbieter:
- Alle Nutzer des Agents müssen sich mit ihren Google-Anmeldedaten anmelden. Das kann eine beliebige
@gmail.com
-E-Mail-Adresse oder ein beliebiges Konto sein, das Google als Identitätsanbieter verwendet (z. B. Google Workspace). Dieser Schritt wird übersprungen, wenn Nutzer direkt mit dem Agent über Google Cloud kommunizieren, da die Google-Identität automatisch in das System integriert ist. - Sie können den Zugriff auf Google-Konten mit IAM zuweisen.
Identitätsanbieter von Drittanbietern:
- Nutzer des Agents melden sich mit Anmeldedaten an, die nicht von Google stammen, z. B. mit einer Microsoft-E-Mail-Adresse.
- Sie müssen einen Personalpool mit Google Cloud erstellen, der die Nicht-Google-Identitätsanbieter enthält. Anschließend können Sie mit IAM Zugriff auf den gesamten Pool oder auf einzelne Nutzer in diesem Pool gewähren.
- Diese Methode kann nicht für Google Cloud -Projekte verwendet werden, die unter der Organisation
@google.com
eingerichtet wurden.
Connectors
Drittanbieter-Datenspeicher werden mithilfe eines Connectors implementiert. Jeder Connector kann mehrere Datenspeicher enthalten, die als Entitäten im System „Conversational Agents (Dialogflow CX)“ gespeichert werden.
Bevor Sie einen Datenspeicher erstellen, müssen Sie jede Region mit einem einzelnen Identitätsanbieter in Google Cloud > Agent Builder > Einstellungen einrichten. Für alle Datenspeicher in dieser Region wird derselbe Identitätsanbieter verwendet. Sie können entweder eine Google-Identität oder eine Drittanbieteridentität in einem Workforce-Pool auswählen. Dasselbe Google-Anmeldedaten werden als unterschiedliche Identität betrachtet, wenn sie sich in einem Workforce-Pool befinden. So wird beispielsweise
test@gmail.com
als andere Identität alsworkforcePools/test-pool/subject/test@gmail.com
betrachtet.- Erstellen Sie einen Workforce-Pool (falls erforderlich).
- Gehen Sie zu Agent Builder > Einstellungen und wählen Sie entweder Google-Identität oder Identität von Drittanbieter aus. Klicken Sie auf SPEICHERN, um die Identität in der Region zu speichern.
- Sie können jetzt einen Datenspeicher in der Region erstellen.
In jedem Datenspeicher werden ACL-Daten (Access Control List, Zugriffskontrollliste) mit jedem Dokument gespeichert. Hier wird aufgezeichnet, welche Nutzer oder Gruppen Lesezugriff auf welche Einheiten haben. Zur Laufzeit erhält ein Nutzer oder Gruppenmitglied nur Antworten vom Agent, die auf Entitäten basieren, auf die er Lesezugriff hat. Wenn ein Nutzer keinen Lesezugriff auf Entitäten im Datenspeicher hat, gibt der Agent eine leere Antwort zurück.
Da die Daten im Datenspeicher eine Kopie der Drittanbieterinstanz sind, müssen sie regelmäßig aktualisiert werden. Sie können die Aktualisierungsintervalle auf einer Zeitskala von Stunden oder Tagen konfigurieren.
Nachdem Sie den Datenspeicher konfiguriert und auf Erstellen geklickt haben, kann es bis zu einer Stunde dauern, bis der Datenspeicher in der Liste der Datenspeicher angezeigt wird.
Tracing von Datenspeichern
Diese Funktion besteht aus zwei Teilen:
- Anzeige der internen Ausführungstraces und Schrittlatenzen des Datenspeichers im Agent-Simulator.
- Export von Tracing- und Latenzdaten in Cloud Logging und BigQuery
Daten im Simulator ansehen
Wenn Sie Tracing- und Ausführungsdaten in den Agent-Daten anzeigen möchten, maximieren Sie die Details zu einem Gesprächsabschnitt, indem Sie rechts neben der Antwort des Agents auf das Dreieck klicken.
Auf dem Tab Ausführung werden die Ausführungs-Traces des internen Datenspeichers angezeigt, einschließlich der folgenden Informationen:
- Die ursprüngliche Nutzereingabe.
- Die Abfrage, wie sie von der Datenspeicher-Engine umgeschrieben wurde.
- Die Qualitätssignale während der verschiedenen Ausführungsschritte, einschließlich des Status des Sicherheitschecks, des Status des Stabilitätstests, des Ergebnisses des Grounding-Checks und des Status des Sicherheitschecks.
- Such-Snippets aus der Datenspeichersuche.
- Die Liste der unterstützenden Dokumente, aus denen die Snippets stammen.
Auf dem Tab Latenz wird ein Zeitdiagramm für verschiedene Ausführungsschritte des Datenspeichers angezeigt. Die Liste der Schritte kann je nach Konfiguration des Datenspeichers und Ausführungsablauf variieren. Die angezeigten Daten können Folgendes umfassen:
- FAQ-Abgleich: Für den Datenspeicher wurde ein FAQ-Abgleich durchgeführt.
- Abfrage neu formulieren: Die ursprüngliche Nutzeranfrage wurde vom Datenspeicher neu formuliert.
- Suche: Der Datenspeicher hat Snippets durchsucht.
- Zusammenfassung: Der Datenspeicher hat die Antwort zusammengefasst.
- Sicherheitschecks: Der Datenspeicher hat Sicherheitschecks durchgeführt.
Tracing-Daten an anderen Orten ansehen
Wenn der Conversational AI-Agent mit Unterhaltungsverlaufsprotokollierung konfiguriert ist, können Sie die Datenspeicher-Traces auch im Unterhaltungsverlauf ansehen.
Wenn der Conversational AI-Agent mit Cloud Logging konfiguriert ist, können Sie Traces und Latenzen auch im Logs Explorer in der Cloud ansehen.
Wenn der Conversational AI-Agent mit BigQuery Export konfiguriert ist, können Sie Traces und Latenzen auch in einer exportierten BigQuery-Tabelle ansehen.
Nächste Schritte
Eine Anleitung zum Erstellen eines Datenspeichers und zur Verwendung mit einem Agent finden Sie in der Dokumentation zu Datenspeichertools.