Wenn Sie einen Datenspeicher erstellen und Daten für allgemeine Empfehlungen aufnehmen möchten, rufen Sie den Abschnitt für die Quelle auf, die Sie verwenden möchten:
Website-URLs
Console
So erstellen Sie mit der Google Cloud Console einen Datenspeicher und indexieren Daten von einer Website:
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf Neuer Datenspeicher.
Wählen Sie auf der Seite Datenquelle auswählen Websitecontent.
Wählen Sie aus, ob die erweiterte Websiteindexierung für diesen Datenspeicher aktiviert werden soll. Diese Option kann später nicht mehr deaktiviert werden.
Die erweiterte Websiteindexierung bietet zusätzliche Funktionen wie Suchsummen, Suchanfragen mit Nachfragen und extrahierte Antworten. Für die erweiterte Websiteindexierung fallen zusätzliche Kosten an. Außerdem müssen Sie die Inhaberschaft der Domain für jede Website bestätigen, die Sie indexieren. Weitere Informationen finden Sie unter Erweiterte Websiteindexierung und Preise.
Geben Sie im Feld Einzuschließende Websites die URLs der Websites an, die indexiert werden sollen. Geben Sie pro Zeile eine URL ohne Kommatrennzeichen an.
Optional: Geben Sie im Feld Auszuschließende Websites Websites ein, die Sie aus Ihrer App ausschließen möchten.
Klicken Sie auf Weiter.
Geben Sie einen Namen für den Datenspeicher ein.
Wählen Sie einen Speicherort für den Datenspeicher aus. Die erweiterte Websiteindexierung muss aktiviert sein, damit Sie einen Standort auswählen können.
Klicken Sie auf Erstellen. Vertex AI Agent Builder erstellt Ihren Datenspeicher und zeigt ihn auf der Seite Datenspeicher an.
Klicken Sie in der Spalte Name auf den Namen des Datenspeichers, um Informationen dazu aufzurufen. Die Seite Ihres Datenspeichers wird angezeigt.
Wenn Sie die Erweiterte Websiteindexierung aktiviert haben, wird eine Warnung angezeigt, in der Sie aufgefordert werden, die Inhaberschaft Ihrer Domain zu bestätigen. Wenn Ihr Kontingent nicht ausreicht (die Anzahl der Seiten auf den von Ihnen angegebenen Websites das Kontingent für Ihr Projekt für die Option „Anzahl der Dokumente pro Projekt“ überschreitet), wird eine zusätzliche Warnung angezeigt, in der Sie aufgefordert werden, Ihr Kontingent zu erhöhen. In den folgenden Schritten erfahren Sie, wie Sie die Domaininhaberschaft bestätigen und Ihr Kontingent erhöhen.
So bestätigen Sie die Inhaberschaft Ihrer Domain:
- Klicken Sie auf In der Google Search Console bestätigen. Die Seite Willkommen in der Google Search Console wird angezeigt.
- Folgen Sie der Anleitung auf dem Bildschirm, um eine Domain oder ein URL-Präfix zu bestätigen, je nachdem, ob Sie eine ganze Domain oder ein URL-Präfix bestätigen möchten, das zu einer Domain gehört. Weitere Informationen finden Sie in der Search Console-Hilfe unter Websiteinhaberschaft bestätigen.
- Wenn Sie den Workflow zur Domainbestätigung abgeschlossen haben, kehren Sie zur Seite Agent Builder zurück und klicken Sie im Navigationsmenü auf Datenspeicher.
- Klicken Sie in der Spalte Name auf den Namen des Datenspeichers. Die Seite Ihres Datenspeichers wird angezeigt.
- Klicken Sie auf Status aktualisieren, um die Werte in der Spalte Status zu aktualisieren. In der Spalte Status für Ihre Website wird angezeigt, dass die Indexierung in Bearbeitung ist.
- Wiederholen Sie die Schritte zur Domainbestätigung für jede Website, für die eine Domainbestätigung erforderlich ist, bis die Indexierung für alle Websites beginnt. Wenn in der Spalte Status für eine URL Indexiert angezeigt wird, sind für diese URL oder dieses URL-Muster erweiterte Funktionen zur Websiteindexierung verfügbar.
So erhöhen Sie Ihr Kontingent:
- Klicken Sie auf Kontingent aktualisieren. Der Bereich Discovery Engine API wird angezeigt. Der Tab Kontingente ist ausgewählt.
- Folgen Sie der Anleitung unter Höheres Kontingent anfordern in der Google Cloud-Dokumentation. Erhöhen Sie das Kontingent für Anzahl der Dokumente.
- Nachdem Sie die Anfrage für ein höheres Kontingentlimit gesendet haben, kehren Sie zur Seite Agent Builder zurück und klicken Sie im Navigationsmenü auf Datenspeicher.
- Klicken Sie in der Spalte Name auf den Namen des Datenspeichers. In der Spalte Status sehen Sie, dass die Indexierung für die Websites, die das Kontingent überschritten haben, noch nicht abgeschlossen ist. Wenn in der Spalte Status für eine URL Indexiert angezeigt wird, sind für diese URL oder dieses URL-Muster erweiterte Funktionen zur Websiteindexierung verfügbar.
Nächste Schritte
Wenn Sie Ihren Datenspeicher mit einer App verknüpfen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Allgemeine Empfehlungs-App erstellen.
Eine Vorschau, wie Ihre Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers angezeigt werden, finden Sie unter Empfehlungen erhalten.
BigQuery
Wenn Sie Daten aus BigQuery aufnehmen möchten, erstellen Sie mithilfe der folgenden Schritte einen Datenspeicher und nehmen Sie Daten entweder über die Google Cloud Console oder die API auf.
Lesen Sie vor dem Importieren Ihrer Daten den Hilfeartikel Daten für die Aufnahme vorbereiten.
Console
So nehmen Sie mit der Google Cloud Console Daten aus BigQuery auf:
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Neuer Datenspeicher.
Wählen Sie auf der Seite Typ die Option BigQuery aus.
Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie eine Tabelle aus, die Sie für die Datenaufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort der Tabelle direkt in das Feld BigQuery-Pfad eingeben.
Wählen Sie aus, welche Daten Sie importieren.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Felder Schlüsselattributen zuordnen
Wenn dem Schema wichtige Felder fehlen, können Sie sie mit Neues Feld hinzufügen hinzufügen.
Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.
Klicken Sie auf Weiter.
Wählen Sie eine Region für den Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um auf der Seite Daten Details dazu aufzurufen.
Den Status der Datenaufnahme können Sie auf der Seite Datenspeicher prüfen. Klicken Sie dazu auf den Namen des Datenspeichers, um auf der Seite Daten Details dazu aufzurufen. Wenn sich der Status in der Spalte „Status“ auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Datenaufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
REST
So erstellen Sie über die Befehlszeile einen Datenspeicher und importieren Daten aus BigQuery:
Erstellen Sie einen Datenspeicher.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: Die ID des Datenspeichers für Empfehlungen, den Sie erstellen möchten. Die ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Datenspeichers für Empfehlungen, den Sie erstellen möchten.
Optional: Wenn Sie strukturierte Daten mit Ihrem eigenen Schema hochladen, können Sie das Schema angeben. Wenn Sie das Schema angeben, erhalten Sie in der Regel bessere Ergebnisse. Andernfalls wird das Schema automatisch erkannt. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: die ID des Datenspeichers für Empfehlungen.JSON_SCHEMA_OBJECT
: Ihr JSON-Schema als JSON-Objekt, z. B.:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Daten aus BigQuery importieren.
Wenn Sie ein Schema definiert haben, achten Sie darauf, dass die Daten diesem Schema entsprechen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: die ID des Datenspeichers für Empfehlungen.DATASET_ID
: die ID des BigQuery-Datasets.TABLE_ID
: Die ID der BigQuery-Tabelle.- Wenn sich die BigQuery-Tabelle nicht unter
PROJECT_ID
befindet, müssen Sie dem Dienstkontoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
die Berechtigung „BigQuery Data Viewer“ für die BigQuery-Tabelle erteilen. Wenn Sie beispielsweise eine BigQuery-Tabelle aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, erteilen Sieservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
-Berechtigungen für die BigQuery-Tabelle im Projekt „123“.
- Wenn sich die BigQuery-Tabelle nicht unter
DATA_SCHEMA
: Optional. Mögliche Werte sinddocument
undcustom
. Der Standardwert istdocument
.document
: Die verwendete BigQuery-Tabelle muss dem Standard-BigQuery-Schema entsprechen, das unter Daten für die Datenaufnahme vorbereiten beschrieben wird. Sie können die ID jedes Dokuments selbst definieren und alle Daten in den String „jsonData“ einfügen.custom
: Jedes BigQuery-Tabellenschema ist zulässig. Die IDs für jedes importierte Dokument werden automatisch von Recommendations generiert.
ERROR_DIRECTORY
: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Recommendations automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE
: Optional. Mögliche Werte sindFULL
undINCREMENTAL
. Der Standardwert istINCREMENTAL
. Wenn SieINCREMENTAL
angeben, werden die Daten aus BigQuery inkrementell in Ihrem Datenspeicher aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULL
angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu ausgerichtet. Mit anderen Worten: Ihrem Datenspeicher werden neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in BigQuery sind, werden daraus entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.AUTO_GENERATE_IDS
: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftrue
gesetzt ist, werden Dokument-IDs basierend auf einem Hash der Nutzlast generiert. Die generierten Dokument-IDs bleiben bei mehreren Importen möglicherweise nicht gleich. Wenn Sie IDs bei mehreren Importen automatisch generieren, sollten SiereconciliationMode
aufFULL
festlegen, um einheitliche Dokument-IDs zu erhalten.Geben Sie
autoGenerateIds
nur an, wennbigquerySource.dataSchema
aufcustom
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls können die Dokumente nicht importiert werden.ID_FIELD
: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei BigQuery-Quelldateien gibtidField
den Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.Geben Sie
idField
nur an, wenn (1)bigquerySource.dataSchema
aufcustom
und (2)auto_generate_ids
auffalse
festgelegt ist oder nicht angegeben wurde. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben.Der Wert des BigQuery-Spaltennamens muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
C#
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder C# API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Go
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Go API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Java API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Python API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Ruby
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Ruby API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Nächste Schritte
Wenn Sie Ihren Datenspeicher mit einer App verknüpfen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Allgemeine Empfehlungs-App erstellen.
Eine Vorschau, wie Ihre Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers angezeigt werden, finden Sie unter Empfehlungen erhalten.
Cloud Storage
Wenn Sie Daten aus Cloud Storage aufnehmen möchten, erstellen Sie mithilfe der folgenden Schritte einen Datenspeicher und nehmen Sie Daten entweder über die Google Cloud Console oder die API auf.
Lesen Sie vor dem Importieren Ihrer Daten den Hilfeartikel Daten für die Aufnahme vorbereiten.
Console
So nehmen Sie mit der Console Daten aus einem Cloud Storage-Bucket auf:
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Neuer Datenspeicher.
Wählen Sie auf der Seite Typ die Option Cloud Storage aus.
Wählen Sie im Bereich Zu importierenden Ordner oder zu importierende Datei auswählen die Option Ordner oder Datei aus.
Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Datenaufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld
gs://
eingeben.Wählen Sie aus, welche Daten Sie importieren.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Felder Schlüsselattributen zuordnen
Wenn dem Schema wichtige Felder fehlen, können Sie sie mit Neues Feld hinzufügen hinzufügen.
Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.
Klicken Sie auf Weiter.
Wählen Sie eine Region für den Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um auf der Seite Daten Details dazu aufzurufen.
Den Status der Datenaufnahme können Sie auf der Seite Datenspeicher prüfen. Klicken Sie dazu auf den Namen des Datenspeichers, um auf der Seite Daten Details dazu aufzurufen. Wenn sich der Status in der Spalte „Status“ auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Datenaufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
REST
So erstellen Sie mit der Befehlszeile einen Datenspeicher und nehmen Daten aus Cloud Storage auf:
Erstellen Sie einen Datenspeicher.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"], "contentConfig": "CONTENT_REQUIRED" }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: Die ID des Datenspeichers für Empfehlungen, den Sie erstellen möchten. Die ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Datenspeichers für Empfehlungen, den Sie erstellen möchten.
Daten aus Cloud Storage importieren.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: die ID des Datenspeichers für Empfehlungen.INPUT_FILE_PATTERN
: ein Dateimuster in Cloud Storage, das Ihre Dokumente enthält.Für strukturierte Daten oder unstrukturierte Daten mit Metadaten für unstrukturierte Dokumente ist ein Beispiel für das Eingabedateimuster
gs://<your-gcs-bucket>/directory/object.json
oder ein Muster, das mit einer oder mehreren Dateien übereinstimmt, z. B.gs://<your-gcs-bucket>/directory/*.json
.Ein Beispiel für unstrukturierte Dokumente ist
gs://<your-gcs-bucket>/directory/*.pdf
. Jede Datei, die mit dem Muster übereinstimmt, wird zu einem Dokument.Wenn
<your-gcs-bucket>
nicht unterPROJECT_ID
aufgeführt ist, müssen Sie dem Dienstkontoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
die Berechtigungen „Storage-Objekt-Betrachter“ für den Cloud Storage-Bucket zuweisen. Wenn Sie beispielsweise einen Cloud Storage-Bucket aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sieservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
-Berechtigungen für den Cloud Storage-Bucket unter dem Projekt „123“.DATA_SCHEMA
: Optional. Werte sinddocument
,custom
,csv
undcontent
. Der Standardwert istdocument
.document
: Laden Sie unstrukturierte Daten mit Metadaten für unstrukturierte Dokumente hoch. Jede Zeile der Datei muss einem der folgenden Formate entsprechen. Sie können die ID jedes Dokuments so definieren:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: JSON für strukturierte Dokumente hochladen. Die Daten sind nach einem Schema organisiert. Sie können das Schema angeben. Andernfalls wird es automatisch erkannt. Sie können den JSON-String des Dokuments in einem einheitlichen Format direkt in jede Zeile einfügen. Empfehlungen generiert dann automatisch die IDs für jedes importierte Dokument.content
: Unstrukturierte Dokumente (PDF, HTML, DOC, TXT, PPTX) hochladen Die ID jedes Dokuments wird automatisch als die ersten 128 Bit von SHA256(GCS_URI) generiert, die als Hexadezimalstring codiert sind. Sie können mehrere Eingabedateimuster angeben, solange die Anzahl der übereinstimmenden Dateien die Grenze von 100.000 Dateien nicht überschreitet.csv
: Fügen Sie Ihrer CSV-Datei eine Kopfzeile hinzu, wobei jeder Kopfzeile ein Dokumentfeld zugeordnet ist. Geben Sie im FeldinputUris
den Pfad zur CSV-Datei an.
ERROR_DIRECTORY
: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors
. Wir empfehlen, dieses Feld leer zu lassen, damit Recommendations automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE
: Optional. Mögliche Werte sindFULL
undINCREMENTAL
. Der Standardwert istINCREMENTAL
. Wenn SieINCREMENTAL
angeben, werden die Daten aus Cloud Storage inkrementell in Ihrem Datenspeicher aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULL
angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu ausgerichtet. Mit anderen Worten: Ihrem Datenspeicher werden neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in Cloud Storage vorhanden sind, werden daraus entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.AUTO_GENERATE_IDS
: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftrue
gesetzt ist, werden Dokument-IDs basierend auf einem Hash der Nutzlast generiert. Die generierten Dokument-IDs bleiben bei mehreren Importen möglicherweise nicht gleich. Wenn Sie IDs bei mehreren Importen automatisch generieren, empfehlen wir Ihnen,reconciliationMode
aufFULL
festzulegen, um einheitliche Dokument-IDs beizubehalten.Geben Sie
autoGenerateIds
nur an, wenngcsSource.dataSchema
aufcustom
odercsv
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls können die Dokumente nicht importiert werden.ID_FIELD
: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei Cloud Storage-Quelldokumenten gibtidField
den Namen in den JSON-Feldern an, die Dokument-IDs sind. Wenn{"my_id":"some_uuid"}
beispielsweise das Feld für die Dokument-ID in einem Ihrer Dokumente ist, geben Sie"idField":"my_id"
an. Dadurch werden alle JSON-Felder mit dem Namen"my_id"
als Dokument-IDs identifiziert.Geben Sie dieses Feld nur an, wenn (1)
gcsSource.dataSchema
aufcustom
odercsv
festgelegt ist und (2)auto_generate_ids
auffalse
festgelegt ist oder nicht angegeben ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben.Der Wert des Cloud Storage-JSON-Felds muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
Der mit
id_field
angegebene JSON-Feldname muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
C#
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder C# API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Go
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Go API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Java API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Python API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Ruby
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Ruby API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
In diesem Beispiel werden unstrukturierte Daten entweder aus BigQuery oder Cloud Storage in einen vorhandenen Datenspeicher aufgenommen.
Nächste Schritte
Wenn Sie Ihren Datenspeicher mit einer App verknüpfen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Allgemeine Empfehlungs-App erstellen.
Eine Vorschau, wie Ihre Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers angezeigt werden, finden Sie unter Empfehlungen erhalten.
Strukturierte JSON-Daten mit der API hochladen
So laden Sie ein JSON-Dokument oder -Objekt direkt über die API hoch:
Bevor Sie Ihre Daten importieren, müssen Sie sie für die Aufnahme vorbereiten.
REST
So erstellen Sie mit der Befehlszeile einen Datenspeicher und importieren strukturierte JSON-Daten:
Erstellen Sie einen Datenspeicher.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: Die ID des Datenspeichers für Empfehlungen, den Sie erstellen möchten. Die ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Datenspeichers für Empfehlungen, den Sie erstellen möchten.
Optional: Geben Sie ein eigenes Schema an. Wenn Sie ein Schema angeben, erhalten Sie in der Regel bessere Ergebnisse. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: die ID des Datenspeichers für Empfehlungen.JSON_SCHEMA_OBJECT
: Ihr JSON-Schema als JSON-Objekt, z. B.:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importieren Sie strukturierte Daten, die dem definierten Schema entsprechen.
Es gibt verschiedene Möglichkeiten, Daten hochzuladen:
Laden Sie ein JSON-Dokument hoch.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Ersetzen Sie
JSON_DOCUMENT_STRING
durch das JSON-Dokument als einzelnen String. Dieser muss dem JSON-Schema entsprechen, das Sie im vorherigen Schritt angegeben haben, z. B.:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Laden Sie ein JSON-Objekt hoch.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Ersetzen Sie
JSON_DOCUMENT_OBJECT
durch das JSON-Dokument als JSON-Objekt. Dieser muss dem JSON-Schema entsprechen, das Sie im vorherigen Schritt angegeben haben, z. B.:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Aktualisieren Sie die Daten mit einem JSON-Dokument.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Aktualisieren Sie mit einem JSON-Objekt.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Nächste Schritte
Wenn Sie Ihren Datenspeicher mit einer App verknüpfen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Allgemeine Empfehlungs-App erstellen.
Eine Vorschau, wie Ihre Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers angezeigt werden, finden Sie unter Empfehlungen erhalten.
Datenspeicher mit Terraform erstellen
Sie können mit Terraform einen leeren Datenspeicher erstellen. Nachdem der leere Datenspeicher erstellt wurde, können Sie Daten mithilfe der Google Cloud Console oder API-Befehle in den Datenspeicher aufnehmen.
Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.
Informationen zum Erstellen eines leeren Datenspeichers mit Terraform finden Sie unter
google_discovery_engine_data_store
.