使用 scikit-learn 创建自定义预测例程

Colab 徽标 在 Colab 中以笔记本的形式运行本教程 GitHub 徽标 在 GitHub 上查看笔记本

概览

本教程介绍如何使用自定义预测例程将经过训练的 scikit-learn 模型部署到 AI Platform Prediction 并执行预测。这一方法让您可以自定义 AI Platform Prediction 如何响应每个预测请求。

在此示例中,您将使用自定义预测例程,通过缩放对预测输入进行预处理,并通过将类数字转换为标签字符串以对预测输出进行后处理。

本教程将完成以下多个步骤:

  • 在本地训练一个简单的 scikit-learn 模型(在此笔记本中)
  • 创建自定义预测例程并将其部署到 AI Platform Prediction
  • 从该部署中处理预测请求

数据集

本教程使用 R.A. Fisher 的鸢尾数据集,这是一个小型数据集,非常适合用于试用机器学习技术。每个实例具有四个数值特征(这些特征是花朵的不同测量值)和一个目标标签(将实例标记为三种类型的鸢尾之一:山鸢尾、变色鸢尾或维吉尼亚鸢尾)。

本教程使用 scikit-learn 库中包含的鸢尾数据集副本

目标

目标是训练一个模型,该模型使用花朵的测量值作为输入,以预测此花是什么类型的鸢尾。

本教程重点介绍如何将此模型与 AI Platform Prediction 结合使用,而不是仅仅介绍模型本身的设计。

费用

本教程使用 Google Cloud 的以下收费组件:

  • AI Platform Prediction
  • Cloud Storage

了解 AI Platform Prediction 价格Cloud Storage 价格,并使用价格计算器根据您的预计使用情况来估算费用。

准备工作

在 AI Platform Prediction 中训练和部署模型之前,您必须先完成以下事项:

  • 设置本地开发环境。
  • 设置 Google Cloud 项目,并启用结算功能和必要的 API。
  • 创建 Cloud Storage 存储分区以存储您的训练软件包和经过训练的模型。

设置本地开发环境

您需要以下资源才能完成本教程:

  • Python 3
  • virtualenv
  • Google Cloud SDK

有关设置 Python 开发环境的 Google Cloud 指南详细说明了如何满足这些要求。以下步骤提供了一系列简要的说明:

  1. 安装 Python 3

  2. 安装 virtualenv 并创建一个使用 Python 3 的虚拟环境。

  3. 激活该环境。

  4. 完成以下部分中的步骤以安装 Google Cloud SDK。

设置您的 Google Cloud 项目

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the AI Platform Training & Prediction and Compute Engine APIs.

    Enable the APIs

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the AI Platform Training & Prediction and Compute Engine APIs.

    Enable the APIs

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init

验证您的 GCP 账号

要设置身份验证,您需要创建服务账号密钥并为服务账号密钥的文件路径设置环境变量。

  1. 创建服务账号:

    1. 在 Google Cloud 控制台中,转到创建服务账号页面。

      转到“创建服务账号”

    2. 服务账号名称字段中,输入一个名称。
    3. 可选:在服务账号说明字段中,输入说明。
    4. 点击创建
    5. 点击选择角色字段。在所有角色下,选择 AI Platform > AI Platform Admin
    6. 点击添加其他角色
    7. 点击选择角色字段。在所有角色下,选择存储 > Storage Object Admin

    8. 点击完成以创建服务账号。

      不要关闭浏览器窗口。您将在下一步骤中用到它。

  2. 创建用于身份验证的服务账号密钥:

    1. 在 Google Cloud 控制台中,点击您创建的服务账号的电子邮件地址。
    2. 点击密钥
    3. 依次点击添加密钥创建新密钥
    4. 点击创建。JSON 密钥文件将下载到您的计算机上。
    5. 点击关闭
  3. 将环境变量 GOOGLE_APPLICATION_CREDENTIALS 设置为包含服务账号密钥的 JSON 文件的文件路径。此变量仅适用于当前的 shell 会话,因此,如果您打开新的会话,请重新设置该变量。

创建 Cloud Storage 存储分区

如需部署自定义预测例程,您必须将经过训练的模型工件和您的自定义代码上传到 Cloud Storage。

将 Cloud Storage 存储分区的名称设置为环境变量。它在所有 Cloud Storage 存储分区中必须是唯一的:

BUCKET_NAME="your-bucket-name"

选择一个可以使用 AI Platform Prediction 的区域,然后另外创建一个环境变量。

REGION="us-central1"

在您选择的区域中创建 Cloud Storage 存储分区,稍后使用同一区域进行训练和预测。如果存储分区尚不存在,请运行以下命令创建一个:

gcloud storage buckets create gs://$BUCKET_NAME --location=$REGION

构建和训练 scikit-learn 模型

通常,您不能使用原始形式的数据来训练机器学习模型。即便可以,在用于训练之前对数据进行预处理有时可改善您的模型。

假设您希望预测输入与训练数据采用相同的格式,您必须在训练和预测过程中应用相同的预处理,以确保您的模型做出一致的预测。

在本部分中,创建一个预处理模块,并在训练过程中使用它。然后,导出具备在训练期间获知的特征的预处理器,以便稍后在自定义预测例程中使用。

安装用于本地训练的依赖项

在本地训练需要多个依赖项:

pip install numpy>=1.16.0 scikit-learn==0.20.2

编写预处理器

缩放训练数据,使每个数值特征列的平均值为 0,标准差为 1,以便改善您的模型

创建 preprocess.py,其中包含用于执行此缩放操作的类:

import numpy as np

class MySimpleScaler(object):
  def __init__(self):
    self._means = None
    self._stds = None

  def preprocess(self, data):
    if self._means is None: # during training only
      self._means = np.mean(data, axis=0)

    if self._stds is None: # during training only
      self._stds = np.std(data, axis=0)
      if not self._stds.all():
        raise ValueError('At least one column has standard deviation of 0.')

    return (data - self._means) / self._stds

请注意,MySimpleScaler 的实例会在首次使用时保存每个特征列的均值和标准偏差。然后,它使用这些总结统计信息来缩放之后出现的数据。

这样一来,您可以存储训练分布的特征,并在预测时使用这些特征实现相同的预处理。

训练模型

接下来,使用 preprocess.MySimpleScaler 对鸢尾花数据进行预处理,然后使用 scikit-learn 训练模型。

最后,将经过训练的模型导出为 joblib (.joblib) 文件,并将您的 MySimpleScaler 实例导出为 pickle (.pkl) 文件:

import pickle

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.externals import joblib

from preprocess import MySimpleScaler

iris = load_iris()
scaler = MySimpleScaler()
X = scaler.preprocess(iris.data)
y = iris.target

model = RandomForestClassifier()
model.fit(X, y)

joblib.dump(model, 'model.joblib')
with open ('preprocessor.pkl', 'wb') as f:
  pickle.dump(scaler, f)

部署自定义预测例程

要部署自定义预测例程以便根据经过训练的模型执行预测,请执行以下操作:

  • 创建自定义预测器来处理请求
  • 封装预测器和预处理模块
  • 将您的模型工件和自定义代码上传到 Cloud Storage
  • 将自定义预测例程部署到 AI Platform Prediction

创建自定义预测器

如需部署自定义预测例程,您必须创建一个实现 Predictor 接口的类。这会告知 AI Platform Prediction 如何加载您的模型以及如何处理预测请求。

将以下代码写入 predictor.py

import os
import pickle

import numpy as np
from sklearn.datasets import load_iris
from sklearn.externals import joblib

class MyPredictor(object):
  def __init__(self, model, preprocessor):
    self._model = model
    self._preprocessor = preprocessor
    self._class_names = load_iris().target_names

  def predict(self, instances, **kwargs):
    inputs = np.asarray(instances)
    preprocessed_inputs = self._preprocessor.preprocess(inputs)
    if kwargs.get('probabilities'):
      probabilities = self._model.predict_proba(preprocessed_inputs)
      return probabilities.tolist()
    else:
      outputs = self._model.predict(preprocessed_inputs)
      return [self._class_names[class_num] for class_num in outputs]

  @classmethod
  def from_path(cls, model_dir):
    model_path = os.path.join(model_dir, 'model.joblib')
    model = joblib.load(model_path)

    preprocessor_path = os.path.join(model_dir, 'preprocessor.pkl')
    with open(preprocessor_path, 'rb') as f:
      preprocessor = pickle.load(f)

    return cls(model, preprocessor)

请注意,除了使用您在训练期间定义的预处理器,该预测器会执行后处理步骤,将预测输出从类索引(012)转换为标签字符串(花朵类型的名称)。

但是,如果预测器收到值为 Trueprobabilities 关键字参数,则会返回概率数组,指示这三个类中的每个类是正确标签的概率(根据模型)。本教程的最后一部分介绍如何在预测期间提供关键字参数。

封装您的自定义代码

您必须将 predictor.pypreprocess.py 封装为 .tar.gz 源分发软件包,并将该软件包提供给 AI Platform Prediction,以使其能够使用您的自定义代码来执行预测。

编写以下 setup.py 以定义您的软件包:

from setuptools import setup

setup(
    name='my_custom_code',
    version='0.1',
    scripts=['predictor.py', 'preprocess.py'])

然后,运行以下命令以创建 dist/my_custom_code-0.1.tar.gz

python setup.py sdist --formats=gztar

将模型工件和自定义代码上传到 Cloud Storage

在部署您的模型以提供服务之前,AI Platform Prediction 需要 Cloud Storage 中以下文件的访问权限:

  • model.joblib(模型工件)
  • preprocessor.pkl(模型工件)
  • my_custom_code-0.1.tar.gz(自定义代码)

模型工件必须一起存储在模型目录中,您的 Predictor 可以将该目录作为 from_path 类方法中的 model_dir 参数进行访问。自定义代码不需要位于同一目录中。您可以运行以下命令上传您的文件:

gcloud storage cp ./dist/my_custom_code-0.1.tar.gz gs://$BUCKET_NAME/custom_prediction_routine_tutorial/my_custom_code-0.1.tar.gz
gcloud storage cp model.joblib preprocessor.pkl gs://$BUCKET_NAME/custom_prediction_routine_tutorial/model/

部署自定义预测例程

创建模型资源和版本资源以部署您的自定义预测例程。首先,使用您的资源名称定义环境变量:

MODEL_NAME='IrisPredictor'
VERSION_NAME='v1'

然后创建模型:

gcloud ai-platform models create $MODEL_NAME \
  --regions $REGION

接下来,创建版本。在该步骤中,提供您上传到 Cloud Storage 的工件和自定义代码的路径:

gcloud components install beta

gcloud beta ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --runtime-version 1.13 \
  --python-version 3.5 \
  --origin gs://$BUCKET_NAME/custom_prediction_routine_tutorial/model/ \
  --package-uris gs://$BUCKET_NAME/custom_prediction_routine_tutorial/my_custom_code-0.1.tar.gz \
  --prediction-class predictor.MyPredictor

详细了解您在部署自定义预测例程时必须指定的选项

执行在线预测

通过发送在线预测请求试用您的部署。首先,安装 Python 版 Google API 客户端库:

pip install --upgrade google-api-python-client

然后,通过运行以下 Python 代码,将鸢尾数据的两个实例发送到已部署的版本:

import googleapiclient.discovery

instances = [
  [6.7, 3.1, 4.7, 1.5],
  [4.6, 3.1, 1.5, 0.2],
]

service = googleapiclient.discovery.build('ml', 'v1')
name = 'projects/{}/models/{}/versions/{}'.format(PROJECT_ID, MODEL_NAME, VERSION_NAME)

response = service.projects().predict(
    name=name,
    body={'instances': instances}
).execute()

if 'error' in response:
    raise RuntimeError(response['error'])
else:
  print(response['predictions'])
['versicolor', 'setosa']

发送关键字参数

将预测请求发送到自定义预测例程时,您可以在请求正文中提供其他字段。Predictor 的 predict 方法将这些字段作为 **kwargs 字典的字段接收。

以下代码发送的请求与之前相同,但这一次,它在请求正文中添加了 probabilities 字段:

response = service.projects().predict(
    name=name,
    body={'instances': instances, 'probabilities': True}
).execute()

if 'error' in response:
    raise RuntimeError(response['error'])
else:
  print(response['predictions'])
[[0.0, 1.0, 0.0], [1.0, 0.0, 0.0]]

清理

如需清理此项目中使用的所有 GCP 资源,您可以删除用于本教程的 GCP 项目

您也可以运行以下命令,清理各个资源:

# Delete version resource
gcloud ai-platform versions delete $VERSION_NAME --quiet --model $MODEL_NAME

# Delete model resource
gcloud ai-platform models delete $MODEL_NAME --quiet

# Delete Cloud Storage objects that were created
gcloud storage rm gs://$BUCKET_NAME/custom_prediction_routine_tutorial --recursive

后续步骤