如需刷新网站应用,请参阅刷新网页。
刷新结构化数据
只要您使用的架构与数据存储区中的架构相同或向后兼容,就可以刷新结构化数据存储区中的数据。例如,仅向现有架构添加新字段是向后兼容的。
您可以在 Google Cloud 控制台中或使用 API 刷新结构化数据。
控制台
如需使用 Google Cloud 控制台刷新数据存储分支中的结构化数据,请按以下步骤操作:
在 Google Cloud 控制台中,前往 Agent Builder 页面。
在导航菜单中,点击数据存储区。
在名称列中,点击要修改的数据存储区。
在文档标签页上,点击
导入数据。如需从 Cloud Storage 刷新,请执行以下操作:
- 在选择数据源窗格中,选择 Cloud Storage。
- 在从 Cloud Storage 导入数据窗格中,点击浏览,选择包含刷新后数据的存储桶,然后点击选择。或者,直接在 gs:// 字段中输入存储桶位置。
- 在数据导入选项下,选择一个导入选项。
- 点击导入。
如需从 BigQuery 刷新,请执行以下操作:
- 在选择数据源窗格中,选择 BigQuery。
- 在从 BigQuery 导入数据窗格中,点击浏览,选择包含刷新后数据的表,然后点击选择。或者,您也可以直接在 BigQuery 路径字段中输入表位置。
- 在数据导入选项下,选择一个导入选项。
- 点击导入。
REST
使用 documents.import
方法刷新数据,并指定适当的 reconciliationMode
值。
如需使用命令行刷新 BigQuery 或 Cloud Storage 中的结构化数据,请按以下步骤操作:
找到您的数据存储区 ID。如果您已拥有数据存储区 ID,请跳至下一步。
在 Google Cloud 控制台中,前往 Agent Builder 页面,然后在导航菜单中点击数据存储区。
点击您的数据存储区的名称。
在数据存储区的数据页面上,获取数据存储区 ID。
如需从 BigQuery 导入结构化数据,请调用以下方法。您可以从 BigQuery 或 Cloud Storage 导入。如需从 Cloud Storage 导入,请跳至下一步。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
- PROJECT_ID:您的 Google Cloud 项目的 ID。
- DATA_STORE_ID:Vertex AI Search 数据存储区的 ID。
- DATASET_ID:BigQuery 数据集的名称。
- TABLE_ID:BigQuery 表的名称。
- DATA_SCHEMA_BQ:一个可选字段,用于指定在解析 BigQuery 来源的数据时要使用的架构。可以具有以下值:
document
:默认值。您使用的 BigQuery 表必须符合以下默认 BigQuery 架构。您可以自行定义每个文档的 ID,同时将所有数据封装在json_data
字符串中。custom
:接受任何 BigQuery 表架构,Vertex AI Agent Builder 会自动为导入的每份文档生成 ID。
- ERROR_DIRECTORY:一个可选字段,用于指定存放与导入有关的错误信息的 Cloud Storage 目录,例如
gs://<your-gcs-bucket>/directory/import_errors
。Google 建议将此字段留空,以便 Vertex AI Agent Builder 自动创建临时目录。 - RECONCILIATION_MODE:一个可选字段,用于指定如何将导入的文档与目标数据存储区中的现有文档进行协调。可以具有以下值:
INCREMENTAL
:默认值。会导致从 BigQuery 到数据存储区以增量方式刷新数据。这会执行更新/插入操作,该操作会添加新文档,并将现有文档替换为具有相同 ID 的更新文档。FULL
:会导致数据存储区中的文档完全重新设置基准。因此,系统会将新文档和更新后的文档添加到您的数据存储区,并将 BigQuery 中不存在的文档从您的数据存储区中移除。如果您想自动删除不再需要的文档,FULL
模式会很有用。
AUTO_GENERATE_IDS:一个可选字段,用于指定是否自动生成文档 ID。如果设置为
true
,则文档 ID 会根据载荷的哈希生成。请注意,在多次导入后,生成的文档 ID 可能不会保持一致。如果您在多次导入时自动生成 ID,Google 强烈建议您将reconciliationMode
设置为FULL
,以保持文档 ID 的一致性。仅当
bigquerySource.dataSchema
设置为custom
时,才指定autoGenerateIds
。否则,系统将返回INVALID_ARGUMENT
错误。如果您未指定autoGenerateIds
或将其设置为false
,则必须指定idField
。否则,文档将无法导入。ID_FIELD:一个可选字段,用于指定哪些字段是文档 ID。对于 BigQuery 源文件,
idField
表示 BigQuery 表中包含文档 ID 的列的名称。仅当同时满足以下两个条件时,才指定
idField
,否则系统会返回INVALID_ARGUMENT
错误:- 将
bigquerySource.dataSchema
设置为custom
auto_generate_ids
设置为false
或未指定。
此外,BigQuery 列名称的值必须为字符串类型,长度必须介于 1 到 63 个字符之间,并且必须符合 RFC-1034 的要求。否则,文档将无法导入。
- 将
以下是默认的 BigQuery 架构。将
dataSchema
设为document
时,您的 BigQuery 表必须符合此架构。[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]
如需从 Cloud Storage 导入结构化数据,请调用以下方法。您可以从 BigQuery 或 Cloud Storage 导入数据。如需从 BigQuery 导入,请前往上一步。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
- PROJECT_ID:您的 Google Cloud 项目的 ID。
- DATA_STORE_ID:Vertex AI Search 数据存储区的 ID。
- GCS_PATHS:以英文逗号分隔的 Cloud Storage 位置 URI 列表,您要从这些位置导入数据。每个 URI 的长度不得超过 2,000 个字符。URI 可以与存储对象的完整路径匹配,也可以与一个或多个对象的模式匹配。例如,
gs://bucket/directory/*.json
是有效的路径。 - DATA_SCHEMA_GCS:一个可选字段,用于指定在解析 BigQuery 来源的数据时要使用的架构。可以具有以下值:
document
:默认值。您使用的 BigQuery 表必须符合以下默认 BigQuery 架构。您可以自行定义每个文档的 ID,同时将所有数据封装在json_data
字符串中。custom
:接受任何 BigQuery 表架构,Vertex AI Agent Builder 会自动为导入的每份文档生成 ID。
- ERROR_DIRECTORY:一个可选字段,用于指定存放与导入有关的错误信息的 Cloud Storage 目录,例如
gs://<your-gcs-bucket>/directory/import_errors
。Google 建议将此字段留空,以便 Vertex AI Agent Builder 自动创建临时目录。 - RECONCILIATION_MODE:一个可选字段,用于指定如何将导入的文档与目标数据存储区中的现有文档进行协调。可以具有以下值:
INCREMENTAL
:默认值。会导致从 BigQuery 到数据存储区以增量方式刷新数据。这会执行更新/插入操作,该操作会添加新文档,并将现有文档替换为具有相同 ID 的更新文档。FULL
:会导致数据存储区中的文档完全重新设置基准。因此,系统会将新文档和更新后的文档添加到您的数据存储区,并将 BigQuery 中不存在的文档从您的数据存储区中移除。如果您想自动删除不再需要的文档,FULL
模式会很有用。
Python
如需了解详情,请参阅 Vertex AI Agent Builder Python API 参考文档。
如需向 Vertex AI Agent Builder 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
刷新非结构化数据
您可以在 Google Cloud 控制台中或使用 API 刷新非结构化数据。
控制台
如需使用 Google Cloud 控制台刷新数据存储分支中的非结构化数据,请按以下步骤操作:
在 Google Cloud 控制台中,前往 Agent Builder 页面。
在导航菜单中,点击数据存储区。
在名称列中,点击要修改的数据存储区。
在文档标签页上,点击
导入数据。如需从 Cloud Storage 存储桶(包含或不包含元数据)注入数据,请执行以下操作:
- 在选择数据源窗格中,选择 Cloud Storage。
- 在从 Cloud Storage 导入数据窗格中,点击浏览,选择包含刷新后数据的存储桶,然后点击选择。或者,您也可以直接在
gs://
字段中输入存储桶位置。 - 在数据导入选项下,选择一个导入选项。
- 点击导入。
如需从 BigQuery 注入数据,请执行以下操作:
- 在选择数据源窗格中,选择 BigQuery。
- 在从 BigQuery 导入数据窗格中,点击浏览,选择包含刷新后数据的表,然后点击选择。或者,直接在 BigQuery 路径字段中输入表位置。
- 在数据导入选项下,选择一个导入选项。
- 点击导入。
REST
如需使用 API 刷新非结构化数据,请使用 documents.import
方法重新导入数据,并指定适当的 reconciliationMode
值。如需详细了解如何导入非结构化数据,请参阅非结构化数据。
Python
如需了解详情,请参阅 Vertex AI Agent Builder Python API 参考文档。
如需向 Vertex AI Agent Builder 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。