借助 Gemini 的批量预测功能,您可以异步、高效且经济实惠地进行推理,满足大规模数据处理需求。 本指南将详细介绍批量预测的价值、工作原理、限制以及可实现理想效果的最佳实践。
为何要使用批量预测?
在许多实际应用场景中,您不需要语言模型立即做出回答。相反,您可能需要高效且经济实惠地处理大量提示数据集。批量预测的优势就在于此。
主要优势包括以下各项:
- 经济高效:与实时推理相比,批处理的费用可享受 50% 的折扣,非常适合大规模的非紧急任务。对于 Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite,隐式缓存默认处于启用状态。与标准输入 token 相比,隐式缓存可为缓存的 token 提供 75% 的折扣。但是,缓存和批处理折扣不叠加。75% 的缓存命中率折扣优先于批量折扣。
- 高速率限制:与实时 Gemini API 相比,以更高的速率限制在单个批量中处理数十万个请求。
- 简化的工作流程:您无需管理复杂的单个实时请求流水线,只需提交单个批量作业,并在处理完成后检索结果。该服务将处理格式验证、并行处理请求以实现并发处理,并自动重试,力求在 24 小时内完成处理,从而实现高完成率。
批量预测针对大规模处理任务进行了优化,例如:
- 内容生成:批量生成商品说明、社交媒体帖子或其他创意文本。
- 数据注释和分类:对用户评价进行分类、对文档进行归类,或对大量文本语料库执行情感分析。
- 离线分析:总结文章、从报告中提取关键信息或大规模翻译文档。
支持批量预测的 Gemini 模型
以下基础 Gemini 模型和调优的 Gemini 模型支持批量预测:
- Gemini 2.5 Flash 图片
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
配额和限制
虽然批量预测功能强大,但请务必注意以下限制。
- Quota:您的使用量没有预定义的配额限制。相反,批量服务提供对大型共享资源池的访问权限,并根据资源可用性和该模式的所有客户的实时需求动态分配资源。当有更多客户处于活跃状态且我们的容量达到饱和时,您的批量请求可能会排队等待容量。
- 排队时间:当我们的服务遇到高流量时,您的批量作业将排队等待容量。作业在队列中最多保留 72 小时,之后会过期。
- 请求限制:单个批量作业最多可包含 20 万个请求。如果您使用 Cloud Storage 作为输入,文件大小上限为 1 GB。
- 处理时间:批量作业是异步处理的,不适合实时应用。大多数作业会在开始运行后 24 小时内完成(不包括排队时间)。24 小时后,未完成的作业将取消,您只需为已完成的请求付费。
- 不支持的功能:批量预测不支持显式缓存、RAG 或全球端点。 Gemini 2.0 Flash 或 Gemini 2.0 Flash-Lite 不支持批量预测隐式缓存。
最佳做法
为了充分利用 Gemini 进行批量预测,我们建议您遵循以下最佳实践:
- 合并作业:为了最大限度地提高吞吐量,请在系统限制范围内将较小的作业合并为一个较大的作业。例如,提交一个包含 20 万个请求的批量作业,比提交 1,000 个各包含 200 个请求的作业可实现更高的吞吐量。
- 监控作业状态:您可以使用 API、SDK 或界面监控作业进度。 如需了解详情,请参阅监控作业状态。如果作业失败,请检查错误消息,以诊断和排查问题。
- 优化费用:对于不需要立即响应的任务,可利用批量处理带来的费用节省优势。
后续步骤
- 使用 Cloud Storage 创建批量作业
- 使用 BigQuery 创建批量作业
- 如需了解如何对 Gemini 模型进行调优,请参阅 Gemini 模型调优概览
- 详细了解批量预测 API。