此页面由 Cloud Translation API 翻译。

使用 Dataflow 和 Cloud Vision API 构建机器学习视觉分析解决方案

Last reviewed 2024-05-23 UTC

在此参考架构中，您将了解在部署 Dataflow 流水线以使用 Cloud Vision 处理图片文件并将处理结果存储在 BigQuery 中时，有哪些使用情形、设计替代方案和设计注意事项。您可以将这些存储的结果用于大规模数据分析，并训练 BigQuery ML 预构建模型。

本参考架构文档适用于数据工程师和数据科学家。

架构

下图展示了此参考架构的系统流程。

展示用于注入、触发、处理以及存储和分析流程的信息流的架构。

如上图所示，信息流如下：

提取和触发：这是系统流程的第一个阶段，图片首次进入系统。在此阶段，会发生以下操作：
1. 客户端将图片文件上传到 Cloud Storage 存储桶。
2. 对于每项文件上传操作，Cloud Storage 会通过向 Pub/Sub 发布消息自动发送输入通知。
处理：此阶段紧随注入和触发阶段之后。对于每条新的输入通知，系统都会执行以下操作：
1. Dataflow 流水线会监听这些文件输入通知，从 Pub/Sub 消息中提取文件元数据，并将文件引用发送到 Vision API 进行处理。
2. Vision API 会读取图片并创建注释。
3. Dataflow 流水线将 Vision API 生成的注释存储在 BigQuery 表中。
存储和分析：这是流程中的最后一个阶段。在此阶段，您可以对保存的结果执行以下操作：
1. 查询 BigQuery 表并分析存储的注释。
2. 使用 BigQuery ML 或 Vertex AI 构建模型，并根据存储的注释执行预测。
3. 在 Dataflow 流水线中执行其他分析（未在此图表中显示）。

使用的产品

此参考架构使用以下 Google Cloud 产品：

使用场景

Vision API 支持多种处理功能，包括图片标记、面孔和地标检测、光学字符识别、露骨内容标记等。这些功能可实现多种用例，适用于不同的行业。本文档包含一些简单的示例，展示了使用 Vision API 可以实现的功能，但可能的应用范围非常广泛。

Vision API 还通过 REST API 和 RPC API 提供功能强大的预训练机器学习模型，您可以为图片分配标签，并将其归入数百万个预定义的类别。它可以帮助您检测对象、识别印刷体及手写文本，并在您的图像目录中纳入有价值的元数据。

此架构无需任何模型训练即可使用。如果您需要根据特定数据训练自定义模型，Vertex AI 可让您训练 AutoML 模型或自定义模型，用于图片分类和对象检测等计算机视觉目标。或者，您可以使用 Vertex AI Vision，它是一个端到端应用开发环境，可让您构建、部署和管理计算机视觉应用。

设计替代方案

生成图片的进程可以将图片直接发布到消息传递系统（例如 Pub/Sub），而不是将图片存储在 Google Cloud Storage 存储桶中，然后 Dataflow 流水线可以将图片直接发送到 Vision API。

对于需要分析相对较小尺寸的图片且对延迟时间敏感的应用场景，这种设计替代方案可能是不错的选择。Pub/Sub 将消息的大小上限限制为 10 Mb。

如果您需要批量处理大量图片，可以使用专门设计的 asyncBatchAnnotate API。

设计考虑事项

本部分介绍了此参考架构的设计注意事项：

安全性、隐私权和合规性
费用优化
性能优化

安全性、隐私权和合规性

从不可信来源收到的图片可能包含恶意软件。由于 Vision API 不会根据其分析的图片执行任何操作，因此基于图片的恶意软件不会影响该 API。如果您需要扫描图片，请更改 Dataflow 流水线以添加扫描步骤。为了获得相同的结果，您还可以使用单独的订阅来订阅 Pub/Sub 主题，并在单独的进程中扫描图片。

如需了解详情，请参阅对上传到 Cloud Storage 的文件进行自动恶意软件扫描。

Vision API 使用 Identity and Access Management (IAM) 进行身份验证。如需访问 Vision API，安全主账号需要对包含要分析的文件的存储桶拥有 Cloud Storage > Storage Object Viewer (roles/storage.objectViewer) 访问权限。

如需了解专门针对 AI 和机器学习工作负载的安全原则和建议，请参阅 Well-Architected Framework 中的 AI 和机器学习视角：安全性。

费用优化

与讨论的其他选项（例如低延迟处理和异步批处理）相比，此参考架构通过批处理 API 请求，以经济高效的方式在流式处理流水线中处理图片。设计替代方案部分中提到的低延迟直接图像流式传输可能会因额外的 Pub/Sub 和 Dataflow 费用而更加昂贵。对于无需在几秒或几分钟内完成的图片处理，您可以采用批量模式运行 Dataflow 流水线。与运行流式流水线的费用相比，以批处理模式运行流水线可以节省一些费用。

Vision API 支持将离线异步批量图片注解用于所有功能。异步请求支持每个批次最多包含 2,000 张图片。作为响应，Vision API 会返回存储在 Cloud Storage 存储桶中的 JSON 文件。

Vision API 还提供了一套图片分析功能。价格是按每张图片每项功能计算的。为降低费用，请仅请求解决方案所需的特定功能。

如需根据您的预计使用量来估算费用，请使用价格计算器。

如需了解专门针对 AI 和机器学习工作负载的费用优化原则和建议，请参阅 Well-Architected Framework 中的AI 和机器学习视角：费用优化。

性能优化

Vision API 是一种资源密集型 API。因此，大规模处理图片需要仔细编排 API 调用。Dataflow 流水线负责对 API 请求进行批处理、妥善处理与达到配额相关的异常情况，以及生成 API 用量的自定义指标。这些指标可帮助您确定是否需要增加 API 配额，或者是否应调整 Dataflow 流水线参数以降低请求频率。如需详细了解如何申请增加 Vision API 配额，请参阅配额和限制。

Dataflow 流水线有多个可能会影响处理延迟时间的参数。如需详细了解这些参数，请参阅使用 Dataflow 和 Vision API 部署机器学习视觉分析解决方案。

如需了解针对 AI 和机器学习工作负载的性能优化原则和建议，请参阅 Well-Architected 框架中的 AI 和机器学习视角：性能优化。

部署

如需部署此架构，请参阅使用 Dataflow 和 Vision API 部署机器学习视觉分析解决方案。

后续步骤

详细了解 Dataflow。
详细了解 BigQuery ML。
如需详细了解 BigQuery 可靠性，请参阅了解 BigQuery 可靠性指南。
了解如何在快速启动解决方案：使用 BigQuery 创建数据仓库中存储数据。
查看 Vision API 功能列表。
了解如何使用 Dataflow 和 Vision API 部署机器学习视觉分析解决方案。
如需简要了解 Google Cloud中针对 AI 和机器学习工作负载的架构原则和建议，请参阅 Well-Architected 框架中的 AI 和机器学习视角。
如需查看更多参考架构、图表和最佳实践，请浏览 Cloud 架构中心。

贡献者

作者：

Masud Hasan | 站点可靠性工程经理
Sergei Lilichenko | 解决方案架构师
Lakshmanan Sethu | 技术支持客户经理

其他贡献者：

Jiyeon Kang | 客户工程师
Sunil Kumar Jang Bahadur | 客户工程师

使用 Dataflow 和 Cloud Vision API 构建机器学习视觉分析解决方案 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

架构