在 Google Cloud 控制台中,您可以创建公开端点并将模型部署到该端点。
您可以从“在线预测”页面或“模型注册表”页面部署模型。
从“在线预测”页面部署模型
在“在线预测”页面中,您可以创建端点并向其部署一个或多个模型,具体方法如下:
在 Google Cloud 控制台的 Vertex AI 部分中,前往在线预测页面。
点击
创建。在新建端点窗格中:
输入端点名称。
选择标准作为访问权限类型。
如需创建专用(非共享)公共端点,请选中启用专用 DNS 复选框。
点击继续。
在模型设置窗格中:
从下拉列表中选择您的型号。
从下拉列表中选择模型版本。
为模型输入流量拆分百分比。
点击完成。
对要部署的任何其他模型重复上述步骤。
从 Model Registry 页面部署模型
在“Model Registry”页面中,您可以按如下方式将模型部署到一个或多个新端点或现有端点:
在 Google Cloud 控制台的 Vertex AI 部分中,转到模型页面。
点击要部署的模型的名称和版本 ID 以打开其详情页面。
选择部署和测试标签页。
如果模型已部署到任何端点,部署模型 (Deploy your model) 部分中会列出这些端点。
点击部署到端点。
如需将模型部署到新的端点,请执行以下操作:
- 选择 创建新端点
- 为新端点提供名称。
- 如需创建专用(非共享)公共端点,请选中启用专用 DNS 复选框。
- 点击继续。
如需将模型部署到现有端点,请执行以下操作:
- 选择 Add to existing endpoint(添加到现有端点)。
- 从下拉列表中选择端点。
- 点击继续。
您可以将多个模型部署到一个端点,也可以将同一模型部署到多个端点。
如果您将模型部署到已部署有一个或多个模型的现有端点,则必须为要部署的模型和已部署模型更新流量分配比例,以使所有百分比的总和为 100%。
如果您要将模型部署到新端点,请接受 100 的流量分配比例值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。
输入要为模型提供的计算节点数下限。
这是模型始终需要可用的节点数。
您需要为使用的节点(无论是处理预测负载还是备用[最少]节点)付费,即使没有预测流量也是如此。请参阅价格页面。
在需要处理预测流量时计算节点的数量可能会增加,但绝不会超出节点数上限。
如需使用自动扩缩功能,请输入希望 Vertex AI 扩容到的计算节点数上限。
选择机器类型。
较大的机器资源将提高预测性能和增加费用。比较可用的机器类型。
选择加速器类型和加速器数量。
如果您在导入或创建模型时启用了加速器使用,则会显示此选项。
对于加速器数量,请参阅 GPU 表,查看每个 CPU 机器类型的有效 GPU 数量。加速器数量指的是每个节点的加速器数量,而不是部署中的加速器总数。
如果要使用自定义服务账号进行部署,请在服务账号下拉框中选择服务账号。
了解如何更改预测日志记录的默认设置。
为模型点击完成,当所有流量分配百分比均正确无误时,点击继续。
随即将显示在其中部署模型的区域。此区域必须是您在其中创建模型的区域。
点击部署,将模型部署到端点。
后续步骤
- 了解如何获取在线预测结果。
- 了解如何更改预测日志记录的默认设置。