此页面由 Cloud Translation API 翻译。

使用 Google Cloud 控制台部署模型

在 Google Cloud 控制台中，您可以创建公共端点并将模型部署到该端点。

您可以从“在线预测”页面或“模型注册表”页面部署模型。

从“在线预测”页面部署模型

在“在线预测”页面中，您可以创建端点并将一个或多个模型部署到该端点，具体方法如下：

在 Google Cloud 控制台的 Vertex AI 部分中，前往在线预测页面。

前往“在线预测”页面
点击创建。
在新建端点窗格中：
1. 输入端点名称。
2. 选择标准作为访问权限类型。
3. 如需创建专用（非共享）公共端点，请选中启用专用 DNS 复选框。
4. 点击继续。
在模型设置窗格中：
1. 从下拉列表中选择您的型号。
2. 从下拉列表中选择模型版本。
3. 为模型输入流量拆分百分比。
4. 点击完成。
5. 对要部署的任何其他模型重复上述步骤。

从 Model Registry 页面部署模型

在“Model Registry”页面中，您可以按如下方式将模型部署到一个或多个新端点或现有端点：

在 Google Cloud 控制台的 Vertex AI 部分中，前往模型页面。

转到“模型”页面
点击要部署的模型的名称和版本 ID 以打开其详情页面。
选择部署和测试标签页。

如果模型已部署到任何端点，部署模型 (Deploy your model) 部分中会列出这些端点。
点击部署到端点。
如需将模型部署到新的端点，请执行以下操作：
1. 选择创建新端点
2. 为新端点提供名称。
3. 如需创建专用（非共享）公共端点，请选中启用专用 DNS 复选框。
4. 点击继续。
如需将模型部署到现有端点，请执行以下操作：
1. 选择 Add to existing endpoint（添加到现有端点）。
2. 从下拉列表中选择端点。
3. 点击继续。
您可以将多个模型部署到一个端点，也可以将同一模型部署到多个端点。
如果您将模型部署到已部署有一个或多个模型的现有端点，则必须为要部署的模型和已部署模型更新流量分配比例，以使所有百分比的总和为 100%。
如果您要将模型部署到新端点，请接受 100 的流量分配比例值。否则，请为端点上所有模型调整流量拆分值，使它们的总和为 100。
输入要为模型提供的计算节点数下限。

这是模型始终需要可用的节点数。

您需要为使用的节点（无论是处理推理负载还是备用 [最少]节点）付费，即使没有推理流量也是如此。请参阅价格页面。

在需要处理推理流量时计算节点的数量可能会增加，但绝不会超出节点数上限。
如需使用自动扩缩功能，请输入希望 Vertex AI 扩容到的计算节点数上限。
选择机器类型。

较大的机器资源将提高推理性能和增加费用。比较可用的机器类型。
选择加速器类型和加速器数量。

如果您在导入或创建模型时启用了加速器使用，则会显示此选项。

对于加速器数量，请参阅 GPU 表，查看每个 CPU 机器类型的有效 GPU 数量。加速器数量指的是每个节点的加速器数量，而不是部署中的加速器总数。
如果要使用自定义服务账号进行部署，请在服务账号下拉框中选择服务账号。
了解如何更改推理日志记录的默认设置。
为模型点击完成，当所有流量分配百分比均正确无误时，点击继续。
随即将显示在其中部署模型的区域。此区域必须是您在其中创建模型的区域。
点击部署，将模型部署到端点。

后续步骤

了解如何获取在线推理结果。
了解如何更改推理日志记录的默认设置。

使用 Google Cloud 控制台部署模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

从“在线预测”页面部署模型

从 Model Registry 页面部署模型

后续步骤

使用 Google Cloud 控制台部署模型