Auf dieser Seite wird beschrieben, wie Sie strukturierte und unstrukturierte Daten aktualisieren.
Weitere Informationen zum Aktualisieren Ihrer Website-Apps finden Sie unter Webseite aktualisieren.
Strukturierte Daten aktualisieren
Sie können die Daten in einem strukturierten Datenspeicher aktualisieren, solange Sie ein Schema verwenden, das mit dem Schema im Datenspeicher identisch oder abwärtskompatibel ist. Wenn Sie einem vorhandenen Schema beispielsweise nur neue Felder hinzufügen, ist das abwärtskompatibel.
Sie können strukturierte Daten in der Google Cloud Console oder über die API aktualisieren.
Console
So aktualisieren Sie mit der Google Cloud Console strukturierte Daten aus einem Zweig eines Datenspeichers:
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie in der Spalte Name auf den Datenspeicher, den Sie bearbeiten möchten.
Klicken Sie auf dem Tab Dokumente auf
Daten importieren.So aktualisieren Sie die Daten aus Cloud Storage:
- Wählen Sie im Bereich Datenquelle auswählen die Option Cloud Storage aus.
- Klicken Sie im Bereich Daten aus Cloud Storage importieren auf Durchsuchen, wählen Sie den Bucket mit den aktualisierten Daten aus und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort des Buckets direkt in das Feld gs:// eingeben.
- Wählen Sie unter Optionen für den Datenimport eine Importoption aus.
- Klicken Sie auf Importieren.
So aktualisieren Sie Daten aus BigQuery:
- Wählen Sie im Bereich Datenquelle auswählen die Option BigQuery aus.
- Klicken Sie im Bereich Daten aus BigQuery importieren auf Durchsuchen, wählen Sie eine Tabelle mit den aktualisierten Daten aus und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort der Tabelle direkt in das Feld BigQuery-Pfad eingeben.
- Wählen Sie unter Optionen für den Datenimport eine Importoption aus.
- Klicken Sie auf Importieren.
REST
Verwenden Sie die Methode documents.import
, um Ihre Daten zu aktualisieren, und geben Sie dabei den entsprechenden reconciliationMode
-Wert an.
So aktualisieren Sie strukturierte Daten aus BigQuery oder Cloud Storage über die Befehlszeile:
Suchen Sie die Datenspeicher-ID. Wenn Sie die Datenspeicher-ID bereits haben, fahren Sie mit dem nächsten Schritt fort.
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf und klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf den Namen des Datenspeichers.
Rufen Sie auf der Datenseite Ihres Datenspeichers die Datenspeicher-ID ab.
Rufen Sie die folgende Methode auf, um Ihre strukturierten Daten aus BigQuery zu importieren. Sie können entweder aus BigQuery oder Cloud Storage importieren. Wenn Sie aus Cloud Storage importieren möchten, fahren Sie mit dem nächsten Schritt fort.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
- PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
- DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers.
- DATASET_ID: der Name Ihres BigQuery-Datasets.
- TABLE_ID: Der Name Ihrer BigQuery-Tabelle.
- DATA_SCHEMA_BQ: Optionales Feld, in dem das Schema angegeben wird, das beim Parsen von Daten aus der BigQuery-Quelle verwendet werden soll. Kann die folgenden Werte haben:
document
: der Standardwert. Die verwendete BigQuery-Tabelle muss dem folgenden BigQuery-Standardschema entsprechen. Sie können die ID jedes Dokuments selbst definieren und die gesamten Daten in denjson_data
-String einschließen.custom
: Es wird jedes BigQuery-Tabellenschema akzeptiert und Vertex AI Agent Builder generiert automatisch die IDs für jedes importierte Dokument.
- ERROR_DIRECTORY: Optionales Feld, in dem ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import angegeben werden kann, z. B.
gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Vertex AI Agent Builder automatisch ein temporäres Verzeichnis erstellt. - RECONCILIATION_MODE: Optionales Feld, mit dem angegeben wird, wie die importierten Dokumente mit den vorhandenen Dokumenten im Zieldatenspeicher abgeglichen werden. Kann die folgenden Werte haben:
INCREMENTAL
: der Standardwert. Führt zu einer inkrementellen Aktualisierung von Daten aus BigQuery in Ihrem Datenspeicher. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden.FULL
: führt zu einer vollständigen Neuausrichtung der Dokumente in Ihrem Datenspeicher. Daher werden Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in BigQuery vorhanden sind, werden aus Ihrem Datenspeicher entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.
AUTO_GENERATE_IDS: Optionales Feld, mit dem angegeben wird, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auf
true
gesetzt ist, werden Dokument-IDs basierend auf einem Hash der Nutzlast generiert. Die generierten Dokument-IDs bleiben bei mehreren Importen möglicherweise nicht gleich. Wenn Sie IDs bei mehreren Importen automatisch generieren, sollten SiereconciliationMode
aufFULL
festlegen, um einheitliche Dokument-IDs zu erhalten.Geben Sie
autoGenerateIds
nur an, wennbigquerySource.dataSchema
aufcustom
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls können die Dokumente nicht importiert werden.ID_FIELD: Optionales Feld, mit dem angegeben wird, welche Felder die Dokument-IDs sind. Bei BigQuery-Quelldateien gibt
idField
den Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.Geben Sie
idField
nur an, wenn beide dieser Bedingungen erfüllt sind. Andernfalls wird einINVALID_ARGUMENT
-Fehler zurückgegeben:bigquerySource.dataSchema
ist aufcustom
gesetzt.auto_generate_ids
ist auffalse
festgelegt oder nicht angegeben.
Außerdem muss der Wert des BigQuery-Spaltennamens vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
Hier ist das Standard-BigQuery-Schema. Ihre BigQuery-Tabelle muss diesem Schema entsprechen, wenn Sie
dataSchema
aufdocument
festlegen.[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]
Rufen Sie die folgende Methode auf, um Ihre strukturierten Daten aus Cloud Storage zu importieren. Sie können entweder aus BigQuery oder Cloud Storage importieren. Wenn Sie Daten aus BigQuery importieren möchten, gehen Sie zum vorherigen Schritt.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
- PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
- DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers.
- GCS_PATHS: Eine Liste von durch Kommas getrennten URIs zu Cloud Storage-Speicherorten, von denen aus Sie importieren möchten. Jeder URI kann 2.000 Zeichen lang sein. URIs können mit dem vollständigen Pfad eines Speicherobjekts oder mit dem Muster für ein oder mehrere Objekte übereinstimmen.
gs://bucket/directory/*.json
ist beispielsweise ein gültiger Pfad. - DATA_SCHEMA_GCS: Optionales Feld, in dem das Schema angegeben wird, das beim Parsen von Daten aus der BigQuery-Quelle verwendet werden soll. Kann die folgenden Werte haben:
document
: der Standardwert. Die verwendete BigQuery-Tabelle muss dem folgenden BigQuery-Standardschema entsprechen. Sie können die ID jedes Dokuments selbst definieren und die gesamten Daten in denjson_data
-String einschließen.custom
: Es wird jedes BigQuery-Tabellenschema akzeptiert und Vertex AI Agent Builder generiert automatisch die IDs für jedes importierte Dokument.
- ERROR_DIRECTORY: Optionales Feld, in dem ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import angegeben werden kann, z. B.
gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Vertex AI Agent Builder automatisch ein temporäres Verzeichnis erstellt. - RECONCILIATION_MODE: Optionales Feld, mit dem angegeben wird, wie die importierten Dokumente mit den vorhandenen Dokumenten im Zieldatenspeicher abgeglichen werden. Kann die folgenden Werte haben:
INCREMENTAL
: der Standardwert. Führt zu einer inkrementellen Aktualisierung von Daten aus BigQuery in Ihrem Datenspeicher. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden.FULL
: führt zu einer vollständigen Neuausrichtung der Dokumente in Ihrem Datenspeicher. Daher werden Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in BigQuery vorhanden sind, werden aus Ihrem Datenspeicher entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Python API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Unstrukturierte Daten aktualisieren
Sie können unstrukturierte Daten in der Google Cloud Console oder über die API aktualisieren.
Console
So aktualisieren Sie mit der Google Cloud Console unstrukturierte Daten aus einem Zweig eines Datenspeichers:
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie in der Spalte Name auf den Datenspeicher, den Sie bearbeiten möchten.
Klicken Sie auf dem Tab Dokumente auf
Daten importieren.So nehmen Sie Daten aus einem Cloud Storage-Bucket auf (mit oder ohne Metadaten):
- Wählen Sie im Bereich Datenquelle auswählen die Option Cloud Storage aus.
- Klicken Sie im Bereich Daten aus Cloud Storage importieren auf Durchsuchen, wählen Sie den Bucket mit den aktualisierten Daten aus und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort des Buckets direkt in das Feld
gs://
eingeben. - Wählen Sie unter Optionen für den Datenimport eine Importoption aus.
- Klicken Sie auf Importieren.
So nehmen Sie Daten aus BigQuery auf:
- Wählen Sie im Bereich Datenquelle auswählen die Option BigQuery aus.
- Klicken Sie im Bereich Daten aus BigQuery importieren auf Durchsuchen, wählen Sie eine Tabelle mit den aktualisierten Daten aus und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort der Tabelle direkt in das Feld BigQuery-Pfad eingeben.
- Wählen Sie unter Optionen für den Datenimport eine Importoption aus.
- Klicken Sie auf Importieren.
REST
Wenn Sie unstrukturierte Daten mit der API aktualisieren möchten, importieren Sie sie noch einmal mit der Methode documents.import
und geben Sie den entsprechenden reconciliationMode
-Wert an. Weitere Informationen zum Importieren unstrukturierter Daten finden Sie unter Unstrukturierte Daten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Agent Builder Python API.
Richten Sie zur Authentifizierung bei Vertex AI Agent Builder Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.