此页面由 Cloud Translation API 翻译。

将模型部署到端点

您必须先将训练好的模型部署到端点，然后才能通过该模型获取在线推理结果。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 来执行此操作。

本文档介绍了将模型部署到端点的流程。

部署模型时发生的情况

部署模型的操作会将物理资源与模型相关联，以便它以较低的延迟执行在线推理。

您可以将多个模型部署到一个端点，也可以将同一模型部署到多个端点。如需了解详情，请参阅将多个模型部署到同一端点的原因。

准备将模型部署到端点

在模型部署期间，您要针对如何运行在线推理做出以下重要决策：

资源已创建	在创建资源时指定的设置
端点	运行推理的位置
型号	要使用的容器 (`ModelContainerSpec`)
DeployedModel	用于在线推理的计算资源

将模型部署到端点后，这些部署设置便无法更改。如需更改这些设置，您必须重新部署模型。

部署流程的第一步是确定要使用的端点类型。如需了解详情，请参阅选择端点类型。

接下来，确保模型在 Vertex AI Model Registry 中可见。这是模型可部署的必要条件。如需了解 Model Registry（包括如何导入模型制品或直接在 Model Registry 中创建模型制品），请参阅 Vertex AI Model Registry 简介。

接下来要决定的是使用哪些计算资源来提供模型服务。模型的训练类型（AutoML 或自定义）和 (AutoML) 数据类型决定了模型可用的物理资源类型。部署模型后，您可以 mutate 其中一些资源，而无需创建新部署。

端点资源提供用于请求推理的服务端点（网址）。例如：

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

将模型部署到端点

您可以通过使用 Google Cloud 控制台或使用 gcloud CLI 或 Vertex AI API 将模型部署到端点。

使用 Google Cloud 控制台将模型部署到公共端点

在 Google Cloud 控制台中，您可以将模型部署到现有的专用或共享公共端点，也可以在部署过程中创建新端点。如需了解详情，请参阅使用 Google Cloud 控制台部署模型。

使用 gcloud CLI 或 Vertex AI API 将模型部署到公共端点

使用 gcloud CLI 或 Vertex AI API 部署模型时，您必须先创建专用端点或共享端点，然后将模型部署到该端点。有关详情，请参阅：

将模型部署到 Private Service Connect 端点

如需了解详情，请参阅使用 Private Service Connect 端点进行在线推理。

使用滚动部署更新已部署的模型

您可以使用滚动部署将已部署的模型替换为同一模型的新版本。新模型会重复使用上一个模型的计算资源。如需了解详情，请参阅使用滚动部署替换已部署的模型。

取消部署模型并删除端点

您可以取消部署模型并删除端点。如需了解详情，请参阅取消部署模型并删除端点。

将多个模型部署到同一端点的原因

将两个模型部署到同一端点后，您可以逐步替换其中一个模型。例如，假设您正在使用某个模型，然后找到一种方法可通过新训练数据来提高该模型的准确率。但是，您不希望将应用更新为指向新的端点网址，也不希望应用发生突然的变化。您可以将新模型添加到同一端点，处理一小部分流量，然后逐渐增加新模型的流量分配比例，直到新模型处理所有流量。

由于资源与模型（而非端点）关联，您可以将不同类型的模型部署到同一端点。但是，最佳做法是将某个特定类型的模型（例如，AutoML 表格或自定义训练）部署到一个端点。此配置更易于管理。

将一个模型部署到多个端点的原因

您可能需要针对不同的应用环境（例如测试和生产）部署具有不同资源的模型。您可能还需要为推理请求支持不同的 SLO。也许您的某一个应用的性能需求明显高于其他应用。在这种情况下，您可以将该模型部署到具有更多机器资源的高性能端点。如需优化费用，您还可以将模型部署到具有较少机器资源的低性能端点。

扩缩行为

Vertex AI 推理自动扩缩功能会根据并发请求的数量扩缩推理节点的数量。这样一来，您就可以在管理费用的同时，根据不断变化的请求负载动态调整容量。如需了解详情，请参阅扩缩 Vertex AI Inference 的推理节点。

后续步骤

选择端点类型。
使用 Google Cloud 控制台部署模型。
了解针对专用端点和 Private Service Connect 端点的推理请求-响应日志记录。
了解如何获取在线推理结果。
了解如何更改推理日志记录的默认设置。