Best Practices für die Inferenz mit GKE Inference Quickstart-Rezepten ausführen


Auf dieser Seite wird beschrieben, wie Sie mit dem GKE Inference Quickstart die Bereitstellung von KI-/ML-Inferenzarbeitslasten in der Google Kubernetes Engine (GKE) vereinfachen können. Mit dem Schnellstart für die Inferenz können Sie Ihre geschäftlichen Anforderungen an die Inferenz angeben und optimierte Kubernetes-Konfigurationen basierend auf Best Practices und den Benchmarks von Google für Modelle, Modellserver, Beschleuniger (GPUs, TPUs) und Skalierung erhalten. So vermeiden Sie den zeitaufwendigen Prozess der manuellen Anpassung und Prüfung von Konfigurationen.

Diese Seite richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑benutzer sowie an Daten- und KI-Spezialisten, die wissen möchten, wie sie GKE effizient für KI-/ML-Inferenzen verwalten und optimieren. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud -Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.

Weitere Informationen zu den Konzepten und der Terminologie der Modellausführung sowie dazu, wie Sie mit den KI-Funktionen von GKE Gen 2 die Leistung der Modellausführung verbessern und unterstützen können, finden Sie unter Modellinferenz in GKE.

Machen Sie sich vor dem Lesen dieser Seite mit Kubernetes, GKE und Modellbereitstellung vertraut.

Kurzanleitung für die Inferenz verwenden

Dies sind die allgemeinen Schritte zum Verwenden des Schnellstarts für die Inferenz: Klicken Sie auf die Links, um eine detaillierte Anleitung aufzurufen.

  1. Individuelle Best Practices ansehen: Geben Sie auf der Seite „GKE AI/ML“ in der Google Cloud Console oder in der Google Cloud CLI im Terminal zuerst Eingaben wie Ihr bevorzugtes offenes Modell ein (z. B. Llama, Gemma oder Mistral).
    • Sie können das Latenzziel Ihrer Anwendung angeben und angeben, ob es sich um eine latenzempfindliche Anwendung (z. B. einen Chatbot) oder um eine durchsatzempfindliche Anwendung (z. B. Batch-Analysen) handelt.
    • Je nach Ihren Anforderungen bietet der Inference Quickstart eine Auswahl an Beschleunigern, Leistungsmesswerten und Kubernetes-Manifesten, mit denen Sie die Bereitstellung oder weitere Änderungen vollständig steuern können. In den generierten Manifesten werden öffentliche Modellserver-Images referenziert, sodass Sie diese nicht selbst erstellen müssen.
  2. Manifeste bereitstellen: Stellen Sie die empfohlenen Manifeste über die Google Cloud Console oder den Befehl kubectl apply bereit. Bevor Sie eine Bereitstellung vornehmen, müssen Sie prüfen, ob Sie ein ausreichendes Beschleunigerkontingent für die ausgewählten GPUs oder TPUs in Ihrem Google Cloud Projekt haben.
  3. Leistung überwachen: Mit Cloud Monitoring können Sie Messwerte überwachen, die von GKE zum Überwachen der Arbeitslastleistung verwendet werden. Sie können sich modellserverspezifische Dashboards ansehen und die Bereitstellung nach Bedarf optimieren.

Vorteile

Mit der Kurzanleitung für die Inferenz können Sie Zeit und Ressourcen sparen, da optimierte Konfigurationen bereitgestellt werden. Diese Optimierungen verbessern die Leistung und senken die Infrastrukturkosten auf folgende Weise:

  • Sie erhalten detaillierte, maßgeschneiderte Best Practices für die Einrichtung des Accelerators (GPU und TPU), des Modellservers und der Skalierungskonfigurationen. GKE aktualisiert das Tool regelmäßig mit den neuesten Fehlerkorrekturen, Images und Leistungsbenchmarks.
  • Sie können die Latenz- und Durchsatzanforderungen Ihrer Arbeitslast über dieGoogle Cloud -Console-Benutzeroberfläche oder eine Befehlszeile angeben und detaillierte, maßgeschneiderte Best Practices als Kubernetes-Bereitstellungsmanifeste erhalten.

Anwendungsfälle

Die Kurzanleitung für die Inferenz eignet sich für Szenarien wie die folgenden:

  • Optimale GKE-Inferenzarchitekturen finden: Wenn Sie von einer anderen Umgebung wie einer On-Premises-Umgebung oder einem anderen Cloud-Anbieter migrieren und die aktuellsten empfohlenen Inferenzarchitekturen in GKE für Ihre spezifischen Leistungsanforderungen benötigen.
  • KI-/ML-Inferenz-Deployments beschleunigen: Wenn Sie ein erfahrener Kubernetes-Nutzer sind und schnell mit der Bereitstellung von KI-Inferenz-Arbeitslasten beginnen möchten, hilft Ihnen die Kurzanleitung für Inferenzen, Best Practices für GKE-Deployments zu finden und umzusetzen. Dazu werden detaillierte YAML-Konfigurationen verwendet, die auf Best Practices basieren.
  • TPUs für eine bessere Leistung verwenden: Wenn Sie bereits Kubernetes in GKE mit GPUs verwenden, können Sie mit der Inferenz-Schnellstartanleitung die Vorteile von TPUs kennenlernen, um möglicherweise eine bessere Leistung zu erzielen.

Funktionsweise

Die Kurzanleitung für die Inferenz enthält maßgeschneiderte Best Practices, die auf den umfassenden internen Benchmarks von Google zur Leistung von einzelnen Replikas für Kombinationen aus Modell, Modellserver und Beschleunigertopologie basieren. Diese Benchmarks stellen die Latenz im Vergleich zum Durchsatz dar, einschließlich Warteschlangengröße und KV-Cache-Messwerten, die Leistungskurven für jede Kombination abbilden.

So werden individuelle Best Practices erstellt

Wir messen die Latenz in normalisierter Zeit pro Ausgabetoken (NTPOT) in Millisekunden und den Durchsatz in Ausgabetokens pro Sekunde, indem wir die Acceleratoren auslasten. Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Das folgende Beispiel für ein Latenzprofil zeigt den Wendepunkt, an dem der Durchsatz stagniert (grün), den Punkt nach dem Wendepunkt, an dem sich die Latenz verschlechtert (rot), und die ideale Zone (blau) für den optimalen Durchsatz beim Latenzziel. Der Schnellstart für die Inference-Funktion enthält Leistungsdaten und Konfigurationen für diese ideale Zone.

Latenzprofil mit grüner Markierung für weniger als 2.000 Ausgabetokens pro Sekunde und roter Markierung für mehr als 2.000 Ausgabetokens pro Sekunde

Basierend auf den Latenzanforderungen einer Inferenzanwendung identifiziert der Inference Quickstart geeignete Kombinationen und bestimmt den optimalen Betriebspunkt auf der Latenz-Durchsatz-Kurve. An diesem Punkt wird der Grenzwert für das horizontale Pod-Autoscaling (HPA) mit einem Puffer festgelegt, um die Latenz beim Skalieren zu berücksichtigen. Der Gesamtgrenzwert gibt auch die anfängliche Anzahl der erforderlichen Repliken an, obwohl die HPA diese Anzahl dynamisch an die Arbeitslast anpasst.

Benchmarking

Die bereitgestellten Konfigurationen und Leistungsdaten basieren auf Benchmarks, bei denen der Datensatz ShareGPT verwendet wird, um Traffic mit der folgenden Eingabe- und Ausgabeverteilung zu senden.

Eingabetokens Ausgabetokens
Min. Medianwert Durchschnitt P90 P99 Max. Min. Medianwert Durchschnitt P90 P99 Max.
4 108 226 635 887 1.024 1 132 195 488 778 1.024

Wenn Sie den Benchmark selbst ausführen möchten, folgen Sie der Anleitung unter AI-Hypercomputer/inference-benchmark. Wir bieten verschiedene Optionen, mit denen Sie beim Benchmarking Lastmuster simulieren können, die für Ihre Arbeitslast repräsentativ sind.

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.
  • Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Google Cloud Projekt aus oder erstellen Sie eines.

  • Die Abrechnung für Ihr Google Cloud -Projekt muss aktiviert sein.

  • Prüfen Sie, ob Sie für Ihr Projekt genügend Beschleunigerkapazität haben:

  • Erstellen Sie ein Hugging Face-Zugriffstoken und ein entsprechendes Kubernetes-Secret, falls Sie noch keines haben. Führen Sie den folgenden Befehl aus, um ein Kubernetes-Secret zu erstellen, das das Hugging Face-Token enthält:

    kubectl create secret generic hf-secret \
        --from-literal=hf_api_token=HUGGING_FACE_TOKEN \
        --namespace=NAMESPACE
    

    Ersetzen Sie die folgenden Werte:

    • HUGGING_FACE_TOKEN: das Hugging Face-Token, das Sie zuvor erstellt haben.
    • NAMESPACE: Der Kubernetes-Namespace, in dem Sie Ihren Modellserver bereitstellen möchten.
  • Bei einigen Modellen müssen Sie möglicherweise auch die Einwilligungs-Lizenzvereinbarung akzeptieren und unterzeichnen.

Benutzeroberfläche für KI/ML in GKE verwenden

Wenn Sie die Google Cloud Console verwenden, müssen Sie auch einen Autopilot-Cluster erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen.

Befehlszeile vorbereiten

Wenn Sie die gcloud CLI verwenden, um die Kurzanleitung für die Inferenz auszuführen, müssen Sie auch die folgenden zusätzlichen Befehle ausführen:

  1. Aktivieren Sie die gkerecommender.googleapis.com API:

    gcloud services enable gkerecommender.googleapis.com
    
  2. Legen Sie das Abrechnungskontingentprojekt fest, das Sie für API-Aufrufe verwenden:

    gcloud config set billing/quota_project PROJECT_ID
    

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie mit der Kurzanleitung für die Inferenz beginnen:

  • Google Cloud Die Bereitstellung von Modellen über die Console wird nur für Autopilot-Cluster unterstützt.
  • Die Kurzanleitung für die Inferenz bietet keine Profile für alle Modelle, die von einem bestimmten Modellserver unterstützt werden.

Optimierte Konfigurationen für die Modellinferenz ansehen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen mithilfe der Google Cloud Console oder der Befehlszeile generieren und aufrufen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite „GKE AI/ML“ auf.

  2. Klicken Sie auf Modelle bereitstellen.
  3. Wählen Sie ein Modell aus, das Sie sich ansehen möchten. Modelle, die von der Kurzanleitung für die Inferenz unterstützt werden, sind mit dem Tag Optimiert gekennzeichnet.

    • Wenn Sie ein Basismodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der tatsächlichen Bereitstellung noch ändern.
    • Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur Seite „GKE AI/ML“ in der Google Cloud Console zurück, um ein Modell auszuwählen.

    Auf der Seite „Modellbereitstellung“ werden das ausgewählte Modell sowie der empfohlene Modellserver und ‑beschleuniger vorab ausgefüllt. Außerdem kannst du Einstellungen wie die maximale Latenz konfigurieren.

  4. Klicken Sie auf YAML aufrufen, um das Manifest mit der empfohlenen Konfiguration aufzurufen.

gcloud

Mit dem Befehl gcloud alpha container ai recommender können Sie optimierte Kombinationen von Modell, Modellserver, Modellserverversion und Beschleunigern untersuchen und ansehen:

Modelle

Verwenden Sie die Option models, um ein Modell zu untersuchen und auszuwählen.

  gcloud alpha container ai recommender models list

Die Ausgabe sieht dann ungefähr so aus:

  Supported models:
  -  deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  -  google/gemma-2-27b-it
  -  google/gemma-2-2b-it
  -  meta-llama/Llama-3.2-1B-Instruct
  -  meta-llama/Llama-3.3-70B-Instruct
  -  meta-llama/Meta-Llama-3-8B
  -  mistralai/Mixtral-8x22B-Instruct-v0.1
  -  mistralai/Mixtral-8x7B-Instruct-v0.1

Modellserver

Mit der Option model-servers können Sie empfohlene Modellserver für das gewünschte Modell aufrufen. Beispiel:

  gcloud alpha container ai recommender model-servers list \
      --model=meta-llama/Meta-Llama-3-8B

Die Ausgabe sieht dann ungefähr so aus:

  Supported model servers:
  -  vllm

Serverversionen

Optional können Sie die Option model-server-versions verwenden, um unterstützte Versionen des gewünschten Modellservers zu sehen. Wenn Sie diesen Schritt überspringen, wird in der Kurzanleitung für die Inferenz standardmäßig die neueste Version verwendet. Beispiel:

gcloud alpha container ai recommender model-server-versions list \
    --model=meta-llama/Meta-Llama-3-8B \
    --model-server=vllm

Die Ausgabe sieht dann ungefähr so aus:

    Supported model server versions:
    -  e92694b6fe264a85371317295bca6643508034ef
    -  v0.7.2
    ```

Beschleuniger

Mit der Option accelerators können Sie sich empfohlene Beschleuniger für die gewünschte Kombination aus Modell und Modellserver ansehen. Beispiel:

  gcloud alpha container ai recommender accelerators list \
      --model=deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
      --model-server-version=v0.7.2

Die Ausgabe sieht dann ungefähr so aus:

  Supported accelerators:
  accelerator          | model                                   | model server | model server version                     | accelerator count | output tokens per second | ntpot ms
  ---------------------|-----------------------------------------|--------------|------------------------------------------|-------------------|--------------------------|---------
  nvidia-tesla-a100    | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 3357                     | 72
  nvidia-h100-80gb     | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 6934                     | 30

  For more details on each accelerator, use --format=yaml

Die Ausgabe enthält eine Liste von Beschleunigertypen und die folgenden Messwerte:

  • Durchsatz in Ausgabetokens pro Sekunde
  • Normalisierte Zeit pro Ausgabetoken (NTPOT) in Millisekunden

Die Werte repräsentieren die Leistung, die an dem Punkt beobachtet wird, an dem der Durchsatz nicht mehr zunimmt und die Latenz dramatisch ansteigt (d. h. der Wende- oder Sättigungspunkt) für ein bestimmtes Profil mit diesem Beschleunigertyp. Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Weitere Optionen finden Sie in der Dokumentation zur Google Cloud CLI.

Nachdem Sie ein Modell, einen Modellserver, eine Modellserverversion und einen Beschleuniger ausgewählt haben, können Sie ein Bereitstellungsmanifest erstellen.

Empfohlene Konfigurationen bereitstellen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen mithilfe der Google Cloud Konsole oder der Befehlszeile generieren und bereitstellen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite „GKE AI/ML“ auf.

  2. Klicken Sie auf Modelle bereitstellen.
  3. Wählen Sie ein Modell aus, das Sie bereitstellen möchten. Modelle, die von der Kurzanleitung für die Inferenz unterstützt werden, sind mit dem Tag Optimiert gekennzeichnet.

    • Wenn Sie ein Basismodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der tatsächlichen Bereitstellung noch ändern.
    • Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur Seite „GKE AI/ML“ in der Google Cloud Console zurück, um ein Modell auszuwählen.

    Auf der Seite „Modellbereitstellung“ werden das ausgewählte Modell sowie der empfohlene Modellserver und ‑beschleuniger vorab ausgefüllt. Außerdem kannst du Einstellungen wie die maximale Latenz konfigurieren.

  4. Optional: Klicken Sie auf YAML aufrufen, um das Manifest mit der empfohlenen Konfiguration aufzurufen.

  5. Klicken Sie auf Bereitstellen, um das Manifest mit der empfohlenen Konfiguration bereitzustellen. Es kann einige Minuten dauern, bis der Bereitstellungsvorgang abgeschlossen ist.

Rufen Sie die Seite Kubernetes Engine > Arbeitslasten auf, um sich Ihre Bereitstellung anzusehen.

gcloud

  1. Manifeste generieren: Verwenden Sie im Terminal die Option manifests, um Bereitstellungs-, Dienst- und PodMonitoring-Manifeste zu generieren:

    gcloud alpha container ai recommender manifests create
    

    Verwenden Sie die erforderlichen Parameter --model, --model-server und --accelerator-type, um Ihr Manifest anzupassen.

    Optional können Sie die folgenden Parameter festlegen:

    • --target-ntpot-milliseconds: Legen Sie mit diesem Parameter den HPA-Grenzwert fest. Mit diesem Parameter können Sie einen Skalierungsgrenzwert definieren, um die P50-Latenz der normalisierten Zeit pro Ausgabetoken (Normalized Time Per Output Token, NTPOT), die im fünften Quartil gemessen wird, unter dem angegebenen Wert zu halten. Wählen Sie einen Wert aus, der über der Mindestlatenz Ihres Accelerators liegt. Die HPA wird für den maximalen Durchsatz konfiguriert, wenn Sie einen NTPOT-Wert angeben, der über der maximalen Latenz Ihres Accelerators liegt. Beispiel:

      gcloud alpha container ai recommender manifests create \
          --model=google/gemma-2-27b-it \
          --model-server=vllm \
          --model-server-version=v0.7.2 \
          --accelerator-type=nvidia-l4 \
          --target-ntpot-milliseconds=200
      
    • --model-server-version: Die Version des Modellservers. Wenn keine Angabe erfolgt, wird standardmäßig die neueste Version verwendet.

    • --namespace: Der Namespace, in dem die Manifeste bereitgestellt werden sollen. Der Standard-Namespace ist „default“.

    • --output: Zulässige Werte sind manifest, comments und all. Standardmäßig ist dieser Parameter auf all eingestellt. Sie können auswählen, ob nur das Manifest für die Bereitstellung von Arbeitslasten oder nur die Kommentare ausgegeben werden sollen, wenn Sie eine Anleitung zum Aktivieren von Funktionen aufrufen möchten.

    • --output-path: Wenn angegeben, wird die Ausgabe anstelle des Druckens im Terminal im angegebenen Pfad gespeichert. So können Sie die Ausgabe bearbeiten, bevor Sie sie bereitstellen. Sie können dies beispielsweise mit der Option --output=manifest verwenden, wenn Sie Ihr Manifest in einer YAML-Datei speichern möchten. Beispiel:

      gcloud alpha container ai recommender manifests create \
          --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
          --model-server vllm \
          --accelerator-type=nvidia-tesla-a100 \
          --output=manifest \
          --output-path  /tmp/manifests.yaml
      

    Weitere Optionen finden Sie in der Dokumentation zur Google Cloud CLI.

  2. Infrastruktur bereitstellen: Sorgen Sie dafür, dass Ihre Infrastruktur für die Modellbereitstellung, -überwachung und -skalierung richtig eingerichtet ist. Folgen Sie dazu diesen Bereitstellungsschritten.

  3. Manifeste bereitstellen: Führen Sie den Befehl kubectl apply aus und geben Sie die YAML-Datei für Ihre Manifeste an. Beispiel:

    kubectl apply -f ./manifests.yaml
    

Infrastruktur bereitstellen

Führen Sie die folgenden Schritte aus, um sicherzustellen, dass Ihre Infrastruktur für die Bereitstellung, Überwachung und Skalierung von Modellen richtig eingerichtet ist:

  1. Cluster erstellen: Sie können Ihr Modell in GKE Autopilot- oder Standardclustern bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

    Wenn Sie noch keinen Cluster haben, gehen Sie so vor:

    Autopilot

    Folgen Sie dieser Anleitung, um einen Autopilot-Cluster zu erstellen. GKE stellt die Knoten basierend auf den Bereitstellungsmanifesten mit GPU- oder TPU-Kapazität bereit, sofern Sie das erforderliche Kontingent in Ihrem Projekt haben.

    Standard

    1. Erstellen Sie einen zonal oder regionalen Cluster.
    2. Erstellen Sie einen Knotenpool mit den entsprechenden Beschleunigern. Gehen Sie je nach ausgewähltem Beschleunigertyp so vor:

  2. Optional, aber empfohlen: Observability-Funktionen aktivieren: Im Kommentarbereich des generierten Manifests finden Sie zusätzliche Befehle, mit denen Sie die vorgeschlagenen Observability-Funktionen aktivieren können. Wenn Sie diese Funktionen aktivieren, erhalten Sie mehr Informationen, mit denen Sie die Leistung und den Status von Arbeitslasten und der zugrunde liegenden Infrastruktur im Blick behalten können.

    Im Folgenden finden Sie ein Beispiel für einen Befehl zum Aktivieren von Funktionen zur Observabilität:

    gcloud beta container clusters update $CLUSTER_NAME
        --project=$PROJECT_ID
        --location=$LOCATION \
        --enable-managed-prometheus \
        --logging=SYSTEM,WORKLOAD \
        --monitoring=SYSTEM,DEPLOYMENT,HPA,POD,DCGM \
        --auto-monitoring-scope=ALL
    

    Weitere Informationen finden Sie unter Inferenzarbeitslasten überwachen.

  3. (Nur HPA) Messadapter bereitstellen: Ein Messadapter wie der Stackdriver-Adapter für benutzerdefinierte Messwerte ist erforderlich, wenn HPA-Ressourcen in den Bereitstellungsmanifesten generiert wurden. Über den Messwertadapter kann die HPA auf Messwerte des Modellservers zugreifen, die die kube external metrics API verwenden. Informationen zum Bereitstellen des Adapters finden Sie in der Adapterdokumentation auf GitHub.

Bereitstellungsendpunkte testen

Wenn Sie das Manifest über die Befehlszeile bereitgestellt haben, wird der bereitgestellte Dienst unter dem folgenden Endpunkt freigegeben:

http://model-model_server-service:port/

Testen Sie Ihren Service. Richten Sie in einem separaten Terminal die Portweiterleitung mit dem folgenden Befehl ein:

kubectl port-forward service/model-model_server-service 8000:8000

Beispiele zum Erstellen und Senden einer Anfrage an Ihren Endpunkt finden Sie in der vLLM-Dokumentation.

Inferenzarbeitslasten überwachen

Rufen Sie den Metrics Explorer in der Google Cloud Console auf, um Ihre bereitgestellten Inferenzarbeitslasten zu überwachen.

Automatisches Monitoring aktivieren

GKE bietet eine Funktion für das automatische Monitoring, die Teil der umfassenderen Observability-Funktionen ist. Diese Funktion durchsucht den Cluster nach Arbeitslasten, die auf unterstützten Modellservern ausgeführt werden, und stellt die PodMonitoring-Ressourcen bereit, die es ermöglichen, diese Arbeitslastmesswerte in Cloud Monitoring zu sehen. Weitere Informationen zum Aktivieren und Konfigurieren des automatischen Monitorings finden Sie unter Automatisches Anwendungsmonitoring für Arbeitslasten konfigurieren.

Nach der Aktivierung der Funktion werden in GKE vordefinierte Dashboards zum Überwachen von Anwendungen für unterstützte Arbeitslasten installiert.

Wenn Sie über die Seite „GKE AI/ML“ in der Google Cloud Console einrichten, werden PodMonitoring- und HPA-Ressourcen automatisch für Sie erstellt. Dabei wird dietargetNtpot-Konfiguration verwendet.

Fehlerbehebung

  • Wenn Sie die Latenz zu niedrig festlegen, wird in der Inference Quickstart-Demo möglicherweise keine Empfehlung generiert. Wählen Sie zum Beheben dieses Problems ein Ziel für die Latenz zwischen der minimalen und maximalen Latenz aus, die für die ausgewählten Beschleuniger beobachtet wurde.
  • Die Kurzanleitung für die Inference API ist unabhängig von GKE-Komponenten verfügbar. Die Clusterversion ist daher nicht direkt für die Nutzung des Dienstes relevant. Wir empfehlen jedoch, einen neuen oder aktuellen Cluster zu verwenden, um Leistungsabweichungen zu vermeiden.
  • Wenn Sie bei gkerecommender.googleapis.com-Befehlen den Fehler PERMISSION_DENIED erhalten, dass ein Kontingentprojekt fehlt, müssen Sie es manuell festlegen. Führen Sie gcloud config set billing/quota_project PROJECT_ID aus, um das Problem zu beheben.

Nächste Schritte