Google Kubernetes Engine（GKE）を使用して GPU 上の LLM ワークロードの自動スケーリングを構成する

Autopilot Standard

このページでは、GKE HorizontalPodAutoscaler（HPA）を使用して自動スケーリングインフラストラクチャを設定し、Hugging Face のテキスト生成インターフェース（TGI）サービングフレームワークで Gemma 大規模言語モデル（LLM）をデプロイする方法について説明します。

自動スケーリングの指標の選択の詳細については、GKE で GPU を使用して LLM ワークロードを自動スケーリングするためのベストプラクティスをご覧ください。

始める前に

始める前に、次の作業が完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update を実行して最新のバージョンを取得する。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region と compute/zone のプロパティを設定してください。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。

GKE の GPU で Hugging Face TGI を使用して Gemma オープンモデルを提供するのワークフローを理解する。

サーバー指標を使用した自動スケーリング

TGI 推論サーバーから出力されるワークロード固有のパフォーマンス指標を使用して、Pod の自動スケーリングを直接制御できます。これらの指標の詳細については、サーバー指標をご覧ください。

サーバー指標を使用してカスタム指標の自動スケーリングを設定する手順は次のとおりです。

TGI サーバーから Cloud Monitoring に指標をエクスポートします。Google Cloud Managed Service for Prometheus を使用すると、Prometheus コレクタのデプロイと構成が簡素化されます。Google Cloud Managed Service for Prometheus は、GKE クラスタでデフォルトで有効になっています。手動で有効にすることもできます。

次のマニフェストの例は、Google Cloud Managed Service for Prometheus に Pod から 15 秒間隔で指標をスクレイピングするよう指示する PodMonitoring リソース定義を設定する方法を示しています。
```
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: gemma-pod-monitoring
spec:
  selector:
    matchLabels:
      app: gemma-server
  endpoints:
  - port: 8000
    interval: 15s
```
カスタム指標 Stackdriver アダプタをインストールします。このアダプタにより、Monitoring にエクスポートしたカスタム指標が HPA コントローラで認識されるようになります。詳細については、Google Cloud Managed Service for Prometheus ドキュメントの水平 Pod 自動スケーリングをご覧ください。

次のコマンド例は、アダプタをインストールする方法を示しています。
```
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
```
カスタム指標ベースの HPA リソースを設定します。目的のカスタム指標に基づく HPA リソースをデプロイします。詳細については、Google Cloud Managed Service for Prometheus ドキュメントの水平 Pod 自動スケーリングをご覧ください。

次のいずれかのタブを選択して、マニフェストで HorizontalPodAutoscaler リソースを構成する方法の例をご覧ください。
キューサイズ
この例では、キュー内のリクエスト数を表す tgi_queue_size TGI サーバー指標を使用します。

HPA に適したキューサイズのしきい値を決定するには、GPU を使用して LLM 推論ワークロードを自動スケーリングするためのベストプラクティスをご覧ください。
```
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-server
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Pods
    pods:
      metric:
        name: prometheus.googleapis.com|tgi_queue_size|gauge
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET
```
バッチサイズ
この例では、現在のバッチ内のリクエスト数を表す tgi_batch_size TGI サーバー指標を使用します。

HPA に適したバッチサイズのしきい値を決定するには、GPU を使用した LLM 推論ワークロードの自動スケーリングに関するベストプラクティスをご覧ください。
```
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-server
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Pods
    pods:
      metric:
        name: prometheus.googleapis.com|tgi_batch_current_size|gauge
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET
```

GPU 指標を使用した自動スケーリング

GPU から出力された使用率とパフォーマンスの指標を使用して、Pod の自動スケーリングを制御できます。これらの指標の詳細については、GPU の指標をご覧ください。

GPU 指標を使用してカスタム指標の自動スケーリングを設定するには、次の操作を行います。

GPU 指標を Cloud Monitoring にエクスポートします。GKE クラスタでシステム指標が有効になっている場合、GPU 使用率の指標は 60 秒ごとに container/accelerator/duty_cycle システム指標を介して Cloud Monitoring に自動的に送信されます。
- GKE システム指標を有効にする方法については、指標の収集を構成するをご覧ください。
- マネージドコレクションを設定するには、Google Cloud Managed Service for Prometheus ドキュメントのマネージドコレクションを使ってみるをご覧ください。
- GKE で GPU ワークロードのパフォーマンスをモニタリングするその他の方法については、GKE Standard ノードプールで GPU を実行するをご覧ください。
次のマニフェストの例は、NVIDIA DCGM ワークロードから指標を取り込むように PodMonitoring リソース定義を設定する方法を示しています。
```
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: nvidia-dcgm-exporter-for-hpa
  namespace: gke-managed-system
  labels:
    app.kubernetes.io/name: nvidia-dcgm-exporter
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  selector:
    matchLabels:
      app.kubernetes.io/name: gke-managed-dcgm-exporter
  endpoints:
    - port: metrics
      interval: 15s
      metricRelabeling:
        - action: keep
          sourceLabels: [__name__]
        - action: replace
          sourceLabels: [__name__]
          targetLabel: __name__
          regex: DCGM_FI_DEV_GPU_UTIL
          replacement: dcgm_fi_dev_gpu_util
```
コードでは、HPA で使用する DCGM 指標名を小文字に変更してください。大文字の外部指標名で HPA が機能しないという既知の問題があるためです。マネージド DCGM エクスポータを使用しないクラスタの場合は、HPA の metadata.namespace と spec.selector.matchLabels が DCGM エクスポータの構成と完全に一致していることを確認します。このように正確に調整することは、HPA によるカスタム指標の検出とクエリの成功に不可欠です。
カスタム指標 Stackdriver アダプタをインストールします。このアダプタにより、Monitoring にエクスポートしたカスタム指標が HPA コントローラで認識されるようになります。詳細については、Google Cloud Managed Service for Prometheus ドキュメントの水平 Pod 自動スケーリングをご覧ください。

次のコマンド例は、このインストールを実行する方法を示しています。
```
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
```

カスタム指標ベースの HPA リソースを設定します。目的のカスタム指標に基づく HPA リソースをデプロイします。詳細については、Google Cloud Managed Service for Prometheus ドキュメントの水平 Pod 自動スケーリングをご覧ください。

自動スケーリングをトリガーする HPA の平均値の目標を特定します。たとえば、サーバーの負荷を増加させて GPU 使用率がピークになる場所を観察するなどのテストを実施して、目標値を特定します。HPA の許容範囲に注意してください。デフォルトでは、減衰振動のため目標値の前後に 0.1 の無動作範囲が設定されています。
テストには、locust-load-inference ツールを使用することをおすすめします。Cloud Monitoring のカスタムダッシュボードを作成して、指標の動作を可視化することもできます。

次のいずれかのタブを選択して、マニフェストで HorizontalPodAutoscaler リソースを構成する方法の例を確認してください。

デューティサイクル（GKE システム）

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: External
    external:
      metric:
        name: kubernetes.io|container|accelerator|duty_cycle
        selector:
          matchLabels:
            resource.labels.container_name: inference-server
            resource.labels.namespace_name: default
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET

デューティサイクル（DCGM）

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: External
    external:
      metric:
        name: prometheus.googleapis.com|dcgm_fi_dev_gpu_util|unknown
        selector:
          matchLabels:
            metric.labels.exported_container: inference-server
            metric.labels.exported_namespace: default
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET

次のステップ

Cloud Monitoring の指標に基づいて Pod の自動スケーリングを最適化する方法を確認する。
オープンソースの Kubernetes ドキュメントで、水平 Pod 自動スケーリングの詳細を確認する。

Google Kubernetes Engine（GKE）を使用して GPU 上の LLM ワークロードの自動スケーリングを構成する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

サーバー指標を使用した自動スケーリング

キューサイズ

バッチサイズ

GPU 指標を使用した自動スケーリング

デューティ サイクル（GKE システム）

デューティ サイクル（DCGM）

次のステップ

Google Kubernetes Engine（GKE）を使用して GPU 上の LLM ワークロードの自動スケーリングを構成する

デューティサイクル（GKE システム）

デューティサイクル（DCGM）