GSU 和消耗率
生成式 AI 扩缩单元 (GSU) 是提示和响应的吞吐量衡量单位。此数量指定了为模型预配多少吞吐量。
消耗率是将输入和输出字符转换为每秒输入字符数(吞吐量)的比率。此比率用于在各个模型中生成标准单位。
不同模型使用不同的吞吐量。如需了解每种模型的最低 GSU 购买金额和增量,请参阅本文档中的支持的模型和消耗率部分。
以下等式演示了如何计算吞吐量:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
计算出的每秒吞吐量决定了您的用例需要多少 GSU。
重要注意事项
为帮助您规划预配吞吐量需求,请查看以下重要注意事项:
请求会按优先级处理。
系统会优先处理和服务预配吞吐量客户的请求,然后再处理按需请求。
吞吐量不会累积。
未使用的吞吐量都不会累积或结转到下个月。
预配吞吐量以每秒字符数或词元数为计量单位。
预配吞吐量以每秒字符数或词元数为单位进行衡量,而不是以每分钟查询次数 (QPM) 为单位进行衡量。因此,测量预分配吞吐量取决于用例的查询大小、响应大小和 QPM。
预配吞吐量特定于项目、区域、模型和版本。
预配吞吐量会分配给特定的“项目-区域-模型-版本”组合。从其他区域调用同一模型不会占用预配吞吐量配额,也不会优先于按需请求。
估算预配的吞吐量需求的示例
如需估算预配置吞吐量需求,请使用 Google Cloud 控制台中的估算工具。以下示例说明了估算模型预配吞吐量的过程。估算计算中不考虑该区域。
下表提供了 gemini-2.0-flash
的消耗率,您可以使用该消耗率来跟随示例操作。
模型 | 每个 GSU 的吞吐量 (chars/sec) | 最小 GSU 购买增量 | 消耗率 |
---|---|---|---|
Gemini 2.0 Flash | 小于或等于 128,000 个 token 上下文窗口: 54,000 大于 128,000 个 token 上下文窗口: 27,000 |
1 | 小于或等于 128,000 词元的上下文窗口: 1 个输入字符 = 1 个字符 1 个输出字符 = 4 个字符 1 张图片 = 1,067 个字符 1 个视频/秒 = 1,067 个字符 1 个音频/秒 = 107 个字符 大于 128,000 词元的上下文窗口: 1 个输入字符 = 2 个字符 1 个输出字符 = 8 个字符 1 张图片 = 2,134 个字符 1 个视频/秒 = 2,134 个字符 1 个音频/秒 = 214 个字符 |
收集要求。
在此示例中,您的要求是确保您可以使用
gemini-2.0-flash
发送 2 张图片和 2,000 个字符,并以每秒 10 个查询的速度接收 300 个字符的输出。此步骤意味着您了解自己的用例,因为您已经确定了输入和输出的大小、每秒查询次数 (QPS) 以及模型。
如需估算吞吐量,请指定模型。在此示例中,您的模型为
gemini-2.0-flash
。指定输入类型,并确定消耗率。使用消耗率根据输入类型确定消耗率。
gemini-2.0-flash
模型的图片消耗率为 1,067 个字符。
计算吞吐量。
将图片数量乘以特定模型的输入类型的消耗率。
2 张图片 * 每张图片 1,067 个输入字符 = 2,134 个输入字符
您的输出字符总数为 300。返回到消耗率表格,查找特定模型的输出字符消耗率(每输出字符四个字符)(
gemini-2.0-flash
)。300 个输出字符 * 每个输出字符 4 个字符 = 1,200 个转换后的输入字符
将总计相加。
2,000 个输入字符 + 2,134 个转换后的图片输入字符 + 1,200 个转换后的输出字符 = 每次查询的 5,334 个转换后的输入字符
将每次查询的字符数乘以预期的每秒查询数,即可得出每秒的总吞吐量。
每次查询转换的输入字符数 5,334 个 * 10 QPS = 每秒总共转换的输入字符数 53,340 个
计算 GSU。
GSU 是指每秒总吞吐量除以消耗量表格中的每 GSU 吞吐量。
每秒总转换输入字符数 53,340 ÷ 每 GSU 54,000 个传输量 = 0.988 GSU
gemini-2.0-flash
的最小 GSU 购买增量为 1,符合您的要求。