使用 Google Cloud 控制台部署模型

在 Google Cloud 控制台中,您可以创建公开端点并将模型部署到该端点。

您可以从“在线预测”页面或“模型注册表”页面部署模型。

从“在线预测”页面部署模型

在“在线预测”页面中,您可以创建端点并向其部署一个或多个模型,具体方法如下:

  1. 在 Google Cloud 控制台的 Vertex AI 部分中,前往在线预测页面。

    前往“在线预测”页面

  2. 点击 创建

  3. 新建端点窗格中:

    1. 输入端点名称

    2. 选择标准作为访问权限类型。

    3. 如需创建专用(非共享)公共端点,请选中启用专用 DNS 复选框。

    4. 点击继续

  4. 模型设置窗格中:

    1. 从下拉列表中选择您的型号。

    2. 从下拉列表中选择模型版本。

    3. 为模型输入流量拆分百分比。

    4. 点击完成

    5. 对要部署的任何其他模型重复上述步骤。

从 Model Registry 页面部署模型

在“Model Registry”页面中,您可以按如下方式将模型部署到一个或多个新端点或现有端点:

  1. 在 Google Cloud 控制台的 Vertex AI 部分中,转到模型页面。

    转到“模型”页面

  2. 点击要部署的模型的名称和版本 ID 以打开其详情页面。

  3. 选择部署和测试标签页。

    如果模型已部署到任何端点,部署模型 (Deploy your model) 部分中会列出这些端点。

  4. 点击部署到端点

  5. 如需将模型部署到新的端点,请执行以下操作:

    1. 选择创建新端点
    2. 为新端点提供名称。
    3. 如需创建专用(非共享)公共端点,请选中启用专用 DNS 复选框。
    4. 点击继续

    如需将模型部署到现有端点,请执行以下操作:

    1. 选择 Add to existing endpoint(添加到现有端点)。
    2. 从下拉列表中选择端点。
    3. 点击继续

    您可以将多个模型部署到一个端点,也可以将同一模型部署到多个端点。

  6. 如果您将模型部署到已部署有一个或多个模型的现有端点,则必须为要部署的模型和已部署模型更新流量分配比例,以使所有百分比的总和为 100%。

  7. 如果您要将模型部署到新端点,请接受 100 的流量分配比例值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。

  8. 输入要为模型提供的计算节点数下限

    这是模型始终需要可用的节点数。

    您需要为使用的节点(无论是处理预测负载还是备用[最少]节点)付费,即使没有预测流量也是如此。请参阅价格页面

    在需要处理预测流量时计算节点的数量可能会增加,但绝不会超出节点数上限。

  9. 如需使用自动扩缩功能,请输入希望 Vertex AI 扩容到的计算节点数上限

  10. 选择机器类型

    较大的机器资源将提高预测性能和增加费用。比较可用的机器类型

  11. 选择加速器类型加速器数量

    如果您在导入或创建模型时启用了加速器使用,则会显示此选项。

    对于加速器数量,请参阅 GPU 表,查看每个 CPU 机器类型的有效 GPU 数量。加速器数量指的是每个节点的加速器数量,而不是部署中的加速器总数。

  12. 如果要使用自定义服务账号进行部署,请在服务账号下拉框中选择服务账号。

  13. 了解如何更改预测日志记录的默认设置

  14. 为模型点击完成,当所有流量分配百分比均正确无误时,点击继续

    随即将显示在其中部署模型的区域。此区域必须是您在其中创建模型的区域。

  15. 点击部署,将模型部署到端点。

后续步骤