对象表简介

本文档介绍对象表，即位于 Cloud Storage 中的非结构化数据对象上的只读表。

对象表可让您分析 Cloud Storage 中的非结构化数据。您可以使用远程函数执行分析，或使用 BigQuery ML 执行推理，然后将这些操作的结果与 BigQuery 中的其余结构化数据进行联接。

与 BigLake 表一样，对象表使用访问权限委托功能，将对对象表的访问权限与对 Cloud Storage 对象的访问权限分离开来。与服务账号关联的外部连接用于连接到 Cloud Storage，因此您只需向用户授予访问对象表的权限。这样，您就可以强制执行行级安全措施，并管理用户有权访问哪些对象。

注意： 在外部身份提供方中管理用户访问权限时，请将 Google 账号主账号标识符（例如 user:kiran@example.com、group:support@example.com 和 domain:example.com）替换为适当的员工身份联合主账号标识符。

对象表架构

对象表提供指定 Cloud Storage 存储桶中的非结构化数据对象的元数据索引。表中的每一行对应一个对象，表列对应于 Cloud Storage 生成的对象元数据（包括所有自定义元数据）。

对象表还包含一个 data 伪列，该伪列表示原始字节的文件内容，系统在创建对象表时会自动填充该列。当您对图片数据运行推理时，ML.DECODE_IMAGE 函数会使用此伪列。您不能在查询中包含 data 伪列，它不会显示为对象表架构的一部分。

下表介绍了对象表使用的固定架构：

字段名称	类型	Mode	说明
`uri`	STRING	可以为空	`uri`：对象的统一资源标识符 (URI)，格式为 `gs://bucket_name/[folder_name/]object_name`。
`generation`	INTEGER	可以为空	此对象的世代，用于标识对象版本。
`content_type`	STRING	可以为空	对象数据的 Content-Type，用于标识媒体的类型。如果存储的对象没有 Content-Type，则它作为应用/八位字节流传送。
`size`	INTEGER	可以为空	数据的 Content-Length（以字节为单位）。
`md5_hash`	STRING	可以为空	数据的 MD5 哈希，使用 base64 编码。如需详细了解如何使用 MD5 哈希，请参阅 Cloud Storage 对象元数据。
`updated`	TIMESTAMP	可以为空	上次修改对象元数据的时间。
`metadata`	RECORD	REPEATED	对象的自定义元数据。每个元数据都表示为 `metadata` 字段的子级 `(metadata.)name` 和 `(metadata.)value` 字段中的键值对。
`(metadata.)name`	STRING	可以为空	单个元数据条目中的键。
`(metadata.)value`	STRING	可以为空	单个元数据条目中的值。
`ref`	STRUCT	NULLABLE	以 `ObjectRef` 格式存储的 Google 管理的 Cloud Storage 元数据。（预览版）您可以使用此列在标准表中维护 `ObjectRef` 值。借助 `ObjectRef` 值，您可以将对象数据与结构化数据集成。仅当您在多模数据预览的许可名单中时，系统才会创建此列。

对象表中的行类似于以下内容：

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
|  uri                 | generation | content_type | size  | md5_hash   | updated                        | metadata...name | metadata...value  | ref.uri              | ref.version | ref.authorizer | ref.details                                              |
—----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| gs://mybucket/a.jpeg | 165842…    | image/jpeg   | 26797 | 8c33be10f… | 2022-07-21 17:35:40.148000 UTC | null            | null              | gs://mybucket/a.jpeg | 12345678    | us.conn        | {"gcs_metadata":{"content_type":"image/jpeg","md5_hash"… |
—----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| gs://mybucket/b.bmp  | 305722…    | image/bmp    | 57932 | 44eb90cd1… | 2022-05-14 12:09:38.114000 UTC | null            | null              | gs://mybucket/b.bmp  | 23456789    | us.conn        | {"gcs_metadata":{"content_type":"image/bmp","md5_hash"…  |
—----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

使用场景

您可以按照与查询任何其他 BigQuery 表相同的方式查询对象表中的元数据。但是，对象表的主要使用场景是使非结构化数据可用于分析。您可以通过 BigQuery ML，使用 TensorFlow、TensorFlow Lite 和 PyTorch 模型对图片对象表运行推理。您还可以使用远程函数以几乎您想要的任何方式分析非结构化数据。例如，您可以创建一个可让您使用 Cloud Vision 分析图片的远程函数，也可以创建一个可让您使用 Apache Tika 从 PDF 文档中提取元数据的远程函数。

下表介绍了可用于基于对象表数据执行机器学习的集成点：

集成	说明	用例	教程
`ML.GENERATE_TEXT` 函数	使用 Vertex AI、合作伙伴或开放模型生成文本。	您想根据对象数据生成文本。	使用 `ML.GENERATE_TEXT` 函数生成文本
`ML.GENERATE_EMBEDDING` 函数	使用 Vertex AI 多模态模型生成嵌入。	您希望为视频或图片数据生成嵌入，以便在向量搜索、模型输入或其他用例中使用。	使用 `ML.GENERATE_EMBEDDING` 函数生成图片嵌入使用 `ML.GENERATE_EMBEDDING` 函数生成视频嵌入
导入的 BigQuery ML 模型	将 TensorFlow、TensorFlow Lite 或 ONNX 模型导入 BigQuery ML，以在 BigQuery 中运行本地推理。	您使用的是符合受支持的限制的开源或自定义模型。	教程：使用特征向量模型对对象表运行推理
Cloud Run 函数	使用 Cloud Run functions 调用服务或托管模型。这是最通用的集成。	您在 Compute Engine、Google Kubernetes Engine 或其他客户拥有的基础架构上自托管模型。
`ML.ANNOTATE_IMAGE` 函数	使用 Cloud Vision API 为图片添加注解。	您想要使用 Vision API 预训练模型为图片添加注解。	使用 `ML.ANNOTATE_IMAGE` 函数为图片添加注解
`ML.PROCESS_DOCUMENT` 函数	使用 Document AI API 提取文档分析洞见。	您想要使用 Document AI 预训练或自定义文档处理器。	使用 `ML.PROCESS_DOCUMENT` 函数处理文档
`ML.TRANSCRIBE` 函数	使用 Speech-to-Text API 转写音频文件。	您想要使用 Speech-to-Text 预训练或自定义语音识别器。	使用 `ML.TRANSCRIBE` 函数转写音频文件

如果要将结果与其他结构化数据联接，可以从分析结果创建视图或表。例如，以下语句根据推理结果创建表：

CREATE TABLE my_dataset.my_inference_results AS
SELECT uri, content_type, vision_feature
FROM ML.PREDICT(
  MODEL my_dataset.vision_model,
  SELECT ML.DECODE_IMAGE(data) AS vision_input
  FROM my_dataset.object_table
);

创建表后，您可以根据标准或自定义元数据字段将该表与其他表联接，如下所示：

SELECT a.vision_feature, a.uri, b.description
FROM my_dataset.my_inference_results a
JOIN my_dataset.image_description b
ON a.uri = b.uri;

您还可以创建搜索索引，为分析结果搜索提供支持。例如，以下语句会针对从 PDF 文件中提取的数据创建搜索索引：

CREATE SEARCH INDEX my_index ON pdf_text_extract(ALL COLUMNS);

然后，您可以使用索引在这些结果中查找所需内容：

SELECT * FROM pdf_text_extract WHERE SEARCH(pdf_text, 'Google');

优势

在 BigQuery 中以原生方式分析非结构化数据具有以下优势：

它使您可以自动执行预处理步骤（例如根据模型要求调整图片大小），从而减少手动工作量。
它可让您使用熟悉的 SQL 接口来处理非结构化数据。
它利用现有的 BigQuery 槽（而无需预配新形式的计算）帮助您节省费用。

签名网址

若要访问由对象表示的数据，请生成签名网址。您可以使用签名网址直接查看对象数据，还可以将签名网址传递给远程函数，以使它们能够处理对象表数据。

使用 EXTERNAL_OBJECT_TRANSFORM 函数生成签名网址，如以下示例所示：

SELECT uri, signed_url
FROM EXTERNAL_OBJECT_TRANSFORM(TABLE `mydataset.myobjecttable`, ['SIGNED_URL']);

这将返回如下所示的结果：

---------------------------------------------------------------------------------------------------
|  uri                 | signed_url                                                               |
—--------------------------------------------------------------------------------------------------
| gs://mybucket/a.docx | https://storage.googleapis.com/mybucket/a.docx?X-Goog-Signature=abcd&... |
—-------------------------------------------------------------------------------------------------
| gs://mybucket/b.pdf  | https://storage.googleapis.com/mybucket/b.pdf?X-Goog-Signature=wxyz&...  |
—--------------------------------------------------------------------------------------------------

通过对象表生成的签名网址使拥有它们的任何用户或过程都可以读取相应的对象。生成的签名网址会在 6 小时后过期。如需了解详情，请参阅 Cloud Storage 签名网址。

访问权限控制

对象表基于 BigLake 构建，因此它们使用基于服务账号的外部连接来访问 Cloud Storage 数据。这样，您就可以通过访问权限委派将对表的访问权限与对底层对象存储的访问权限相分离。您可以授予服务账号访问对象中的数据和元数据的权限，并将其显示在表中。您可以只授予用户对表的权限，以便使用 Identity and Access Management (IAM) 和行级安全性来控制数据访问权限。

对象表与使用访问权限委派的其他表不同，因为有权访问对象表的行意味着有权访问底层文件内容。虽然用户无法直接访问对象，但可以生成可让其查看文件内容的签名网址。例如，如果用户有权访问表示 flower.jpg 图片文件的对象表行，则可以生成一个签名网址以显示该文件并且看到它是一张雏菊图片。

在对象表上设置行级访问权限政策可以限制用户或群组对所选行中的对象元数据的访问权限，以及对这些行表示的对象的访问权限。例如，以下语句仅授予用户 Alice 访问代表 2022 年 6 月 25 日之前创建的对象的行：

CREATE ROW ACCESS POLICY before_20220625
ON my_dataset.my_object_table
GRANT TO ("user:alice@example.com")
FILTER USING (updated < TIMESTAMP("2022-06-25"));

实施此行级访问权限政策后，Alice 将获得以下结果：

运行查询 SELECT * FROM my_dataset.my_object_table; 只会返回 updated 值在 2022 年 6 月 25 日之前的行。
对 my_dataset.my_object_table 运行推理只会返回 updated 值在 2022 年 6 月 25 日之前的对象的预测结果。
为 my_dataset.my_object_table 生成签名网址只会为 updated 值在 2022 年 6 月 25 日之前的对象创建网址。

您还可以使用自定义元数据限制对对象表行的访问权限。例如，以下语句限制 users 群组只能访问对象被标记为不包含任何个人身份信息的行：

CREATE ROW ACCESS POLICY no_pii
ON my_dataset.my_object_table
GRANT TO ("group:users@example.com")
FILTER USING (ARRAY_LENGTH(metadata)=1
AND metadata[OFFSET(0)].name="no_pii")

安全模型

管理和使用对象表通常涉及以下组织角色：

数据湖管理员。这些管理员通常负责管理针对 Cloud Storage 存储桶和对象的 Identity and Access Management (IAM) 政策。
数据仓库管理员。这些管理员通常负责创建、删除和更新表。
数据分析师。分析师通常读取数据和运行查询。

数据湖管理员负责创建连接并与数据仓库管理员共享连接。而数据仓库管理员可以创建表、设置适当的访问控制，以及与数据分析师共享表。

支持的对象文件

您可以基于任何类型和大小的非结构化数据文件创建对象表，并且可以创建远程函数来处理任何类型的非结构化数据。但是，如需使用 BigQuery ML 执行推理，对象表只能基于满足多种大小和类型要求的图片文件。如需了解详情，请参阅限制。

启用元数据缓存以提高性能

您可以使用缓存的元数据提高对象表的推理和其他类型的分析的性能。在对象表引用大量对象的情况下，元数据缓存特别有用。BigQuery 使用 CMETA 作为分布式元数据系统，以高效处理大型表。CMETA 在列和块级别提供精细的元数据，可通过系统表进行访问。该系统可通过优化数据访问和处理来帮助提高查询性能。为了进一步提高对大型表的查询性能，BigQuery 会保留元数据缓存。CMETA 刷新作业可确保此缓存保持最新状态。

元数据包括文件中的文件名、分区信息和物理元数据（例如行数）。您可以选择是否为表启用元数据缓存。包含大量文件和使用 Apache Hive 分区过滤条件的查询从元数据缓存中获益最多。

如果您未启用元数据缓存，则针对表的查询必须读取外部数据源来获取对象元数据。读取这些数据会增加查询延迟时间；列出外部数据源中的数百万个文件可能需要几分钟时间。如果启用了元数据缓存，查询可以避免列出外部数据源中的文件，并且可以更快地对文件进行分区和删减。

元数据缓存还与 Cloud Storage 对象版本控制集成。填充或刷新缓存时，它会根据当时的 Cloud Storage 对象的现行版本来捕获元数据。因此，启用了元数据缓存的查询会读取与特定缓存对象版本对应的数据，即使 Cloud Storage 中已发布较新版本也是如此。如需访问 Cloud Storage 中任何后续更新的对象版本中的数据，就必须刷新元数据缓存。

有两个属性可以控制此功能：

最大过时指定查询何时使用缓存的元数据。
元数据缓存模式指定元数据的收集方式。

启用元数据缓存后，您需要指定对表执行的操作可以接受的元数据过时的最大间隔时间。例如，当指定间隔时间为 1 小时的时候，如果缓存的元数据在过去 1 小时内刷新，针对表的操作会使用缓存的元数据。如果缓存的元数据早于该值，操作会回退到从 Cloud Storage 检索元数据。您可以指定从 30 分钟到 7 天的过时间隔时间。

为 BigLake 或对象表启用元数据缓存后，BigQuery 会触发元数据生成刷新作业。您可以选择自动或手动刷新缓存：

对于自动刷新，缓存会按系统定义的间隔时间刷新，间隔时间通常为 30 到 60 分钟。如果 Cloud Storage 中的文件添加、删除或修改的间隔时间是随机的，则自动刷新缓存是一种很好的方法。如果您需要控制刷新的时间（例如在提取-转换-加载作业结束时触发刷新），请使用手动刷新。
对于手动刷新，您需要运行 BQ.REFRESH_EXTERNAL_METADATA_CACHE 系统过程，以按符合要求的时间表刷新元数据缓存。如果 Cloud Storage 中的文件添加、删除或修改的间隔时间是已知的（例如作为流水线的输出），则手动刷新缓存是一种很好的方法。

如果您发出多个并发手动刷新，则只有一个刷新会成功。

如果元数据缓存在 7 天内没有刷新，则会失效。

手动和自动缓存刷新都会以 INTERACTIVE 查询优先级执行。

使用 `BACKGROUND` 预留

如果您选择使用自动刷新，我们建议您创建预留，然后为运行元数据缓存刷新作业的项目创建具有 BACKGROUND 作业类型的分配。使用 BACKGROUND 预留时，刷新作业会使用专用资源池，这样可以防止刷新作业与用户查询争用资源，并且如果没有足够可用资源，会防止作业可能发生失败。

虽然使用共享槽池不会产生额外费用，但改用 BACKGROUND 预留可以通过分配专用资源池来提供更一致的性能，并提高 BigQuery 中刷新作业的可靠性和整体查询效率。

在设置过时间隔时间和元数据缓存模式值之前，您应该考虑它们的交互方式。请参考以下示例：

如果您要手动刷新表的元数据缓存并将过时间隔时间设置为 2 天，那么如果希望针对该表的操作使用缓存的元数据，您必须每 2 天（或更短时间）运行一次 BQ.REFRESH_EXTERNAL_METADATA_CACHE 系统过程。
如果您要自动刷新表的元数据缓存并将过时间隔时间设置为 30 分钟，那么在元数据缓存刷新时间较长（通常为 30 到 60 分钟）的情况下，针对该表的某些操作可能会从 Cloud Storage 读取。

如需查找元数据刷新作业的相关信息，请查询 INFORMATION_SCHEMA.JOBS 视图，如以下示例所示：

SELECT *
FROM `region-us.INFORMATION_SCHEMA.JOBS_BY_PROJECT`
WHERE job_id LIKE '%metadata_cache_refresh%'
AND creation_time > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 6 HOUR)
ORDER BY start_time DESC
LIMIT 10;

如需了解详情，请参阅元数据缓存。

如需详细了解如何设置元数据缓存选项，请参阅创建对象表。

限制

对象表是只读的，因为它们映射到 Cloud Storage 中的非结构化数据对象。您无法更改对象表或修改对象表数据。
旧版 SQL 或其他云环境（例如 Amazon Web Services [AWS] 和 Microsoft Azure）不支持对象表。
如果要使用 BigQuery ML 执行推理，您使用的模型和对象表必须满足限制中所述的要求。
包含对象表的查询无法访问超过 10 GB 的对象元数据。例如，如果通过签名网址从对象表和对象数据的组合访问 100 TB，则元数据列中只能有 10 GB 的 100 TB。
对象表受到与其他 BigQuery 外部表相同的限制。如需了解详情，请参阅配额。
对对象表的查询受到与所有其他 BigQuery 查询相同的限制。如需了解详情，请参阅配额。
处理对象表中的非结构化数据的远程函数与所有其他远程函数受到相同的限制。
为对象表中的对象生成的签名网址会在 6 小时（即查询执行时间限制）后过期。
按需价格或标准版不支持使用 BigQuery ML 进行推理。
按需价格或标准版不支持以下函数：
对象表最多包含 6,000 万行。如需参与将最大行数增加到 3 亿的预览版发布，请填写此申请表单。

费用

费用与对象表的以下方面相关联：

查询表。
刷新元数据缓存。

如果您具有槽预留，则无需为查询外部表付费。这些查询会使用槽。

下表显示了您的价格模式如何影响这些费用的应用：

	按需价格	标准版、企业版和企业 Plus 版
查询	您需要为用户查询处理的字节数付费。	具有 `QUERY` 作业类型的预留分配中的槽会在查询期间使用。
手动刷新元数据缓存。	您需要为刷新缓存所处理的字节数付费。	具有 `QUERY` 作业类型的预留分配中的槽会在缓存刷新期间使用。
自动刷新元数据缓存。	您需要为刷新缓存所处理的字节数付费。	具有 `BACKGROUND` 作业类型的预留分配中的槽会在缓存刷新期间使用。如果没有可用的 `BACKGROUND` 预留来刷新元数据缓存，并且您使用的是企业版或企业 Plus 版，则 BigQuery 会自动改用 `QUERY` 预留中的槽。

您还需要为 Cloud Storage、Amazon S3 和 Azure Blob Storage 的存储和数据访问付费，具体费用取决于每种产品的定价指南。

将对象表与 BigQuery Sharing

对象表与 BigQuery Sharing（以前称为 Analytics Hub）兼容。包含对象表的数据集可以作为 Sharing 清单发布。Sharing 订阅方可以订阅这些列表，这些列表会在其项目中预配一个名为关联的数据集）的只读数据集。订阅方可以查询关联的数据集中的所有表，包括所有对象表。如需了解详情，请参阅订阅列表。

对象表简介

对象表架构

使用场景

优势

签名网址

访问权限控制

安全模型

支持的对象文件

启用元数据缓存以提高性能

使用 BACKGROUND 预留

限制

费用

将对象表与 BigQuery Sharing

后续步骤

使用 `BACKGROUND` 预留