English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

联系我们免费开始使用吧

从自定义训练模型获取推理结果

推理结果是经过训练的机器学习模型的输出。本页面简要介绍了在 Vertex AI 上从模型获取推理结果的工作流。

Vertex AI 提供两种获取推理结果的方法：

在线推理是指向部署到 Endpoint 的模型发出的同步请求。因此，在发送请求之前，您必须先将 Model 资源部署到端点。这会将计算资源与模型相关联，以便模型以低延迟方式执行在线推理。如果您要发出请求以响应应用输入，或者在其他需要及时推理的情况下，可以使用在线推理。
批量推理是指向未部署到端点的模型发出的异步请求。您可以将请求（作为 BatchPredictionJob 资源）直接发送到 Model 资源。如果您不需要立即响应并且希望使用单个请求处理累积的数据，可使用批量推理。

在本地测试模型

在获取推理结果之前，在开发和测试阶段将您的模型部署到本地端点会很有用。这样，您就可以更快地迭代并测试模型，而无需将其部署到在线端点，也不会产生推理费用。本地部署适用于本地开发和测试，而不是用于生产部署。

如需在本地部署模型，请使用 Python 版 Vertex AI SDK 并将 LocalModel 部署到 LocalEndpoint。如需查看演示，请参阅此笔记本。

即使您的客户端不是用 Python 编写的，您仍然可以使用 Python 版 Vertex AI SDK 来启动容器和服务器，以测试来自客户端的请求。

从自定义训练模型获取推理结果

如需获取推理结果，您必须先导入模型。导入后，它将成为在 Vertex AI Model Registry 中显示的 Model 资源。

然后，阅读以下文档以了解如何获取推理结果：

获取批量推理结果

或
将模型部署到端点并获取在线推理结果。

后续步骤

了解用于预测的计算资源。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-07。