Diese Seite wurde von der Cloud Translation API übersetzt.

Best Practices für die Inferenz mit GKE Inference Quickstart-Rezepten ausführen

Autopilot Standard

Auf dieser Seite wird beschrieben, wie Sie mit dem GKE Inference Quickstart die Bereitstellung von KI-/ML-Inferenzarbeitslasten in Google Kubernetes Engine (GKE) vereinfachen können. Inference Quickstart ist ein Dienstprogramm, mit dem Sie Ihre geschäftlichen Anforderungen für die Inferenz angeben und optimierte Kubernetes-Konfigurationen basierend auf Best Practices und den Benchmarks von Google für Modelle, Modellserver, Beschleuniger (GPUs, TPUs) und Skalierung erhalten können. So können Sie den zeitaufwendigen Prozess des manuellen Anpassens und Testens von Konfigurationen vermeiden.

Diese Seite richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑operatoren sowie an Daten- und KI-Spezialisten, die erfahren möchten, wie sie GKE für KI-/ML-Inferenz effizient verwalten und optimieren können. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und ‑Aufgaben.

Weitere Informationen zu Konzepten und Begriffen für die Bereitstellung von Modellen sowie dazu, wie GKE Gen AI-Funktionen die Leistung der Bereitstellung von Modellen verbessern und unterstützen können, finden Sie unter Modellinferenz in GKE.

Machen Sie sich vor dem Lesen dieser Seite mit Kubernetes, GKE und Model Serving vertraut.

Kurzanleitung für die Inferenz verwenden

Dies sind die allgemeinen Schritte zur Verwendung des Inference Quickstart: Klicken Sie auf die Links, um eine detaillierte Anleitung aufzurufen.

Maßgeschneiderte Best Practices ansehen: Geben Sie auf der Seite „GKE AI/ML“ in der Google Cloud -Konsole oder in der Google Cloud CLI im Terminal zuerst Eingaben wie Ihr bevorzugtes offenes Modell (z. B. Llama, Gemma oder Mistral) an.
- Sie können das Latenzziel Ihrer Anwendung angeben und so festlegen, ob sie latenzsensibel (z. B. ein Chatbot) oder durchsatzsensibel (z. B. Batchanalysen) ist.
- Basierend auf Ihren Anforderungen bietet Inference Quickstart Optionen für Beschleuniger, Leistungsmesswerte und Kubernetes-Manifeste, mit denen Sie die Bereitstellung oder weitere Änderungen vollständig steuern können. In den generierten Manifesten wird auf öffentliche Modellserver-Images verwiesen, sodass Sie diese Images nicht selbst erstellen müssen.
Manifeste bereitstellen: Stellen Sie die empfohlenen Manifeste mit der Google Cloud Konsole oder mit dem Befehl kubectl apply bereit. Bevor Sie die Bereitstellung vornehmen, müssen Sie prüfen, ob Sie in Ihrem Google Cloud Projekt ein ausreichendes Beschleunigerkontingent für die ausgewählten GPUs oder TPUs haben.
Leistung überwachen: Verwenden Sie Cloud Monitoring, um die von GKE bereitgestellten Messwerte zur Arbeitslastleistung zu überwachen. Sie können Dashboards für Modellserver aufrufen und Ihre Bereitstellung nach Bedarf optimieren.

Vorteile

Mit der Inference Quickstart können Sie Zeit und Ressourcen sparen, da optimierte Konfigurationen bereitgestellt werden. Diese Optimierungen verbessern die Leistung und senken die Infrastrukturkosten auf folgende Weise:

Sie erhalten detaillierte, maßgeschneiderte Best Practices für die Konfiguration von Beschleuniger (GPU und TPU), Modellserver und Skalierung. GKE aktualisiert das Tool regelmäßig mit den neuesten Korrekturen, Images und Leistungsbenchmarks.
Sie können die Anforderungen an Latenz und Durchsatz für Ihre Arbeitslast über dieGoogle Cloud -Konsolen-UI oder eine Befehlszeilenschnittstelle angeben und erhalten detaillierte, maßgeschneiderte Best Practices als Kubernetes-Bereitstellungsmanifeste.

Anwendungsfälle

Die Kurzanleitung für die Inferenz eignet sich für Szenarien wie die folgenden:

Optimale GKE-Inferenzarchitekturen ermitteln: Wenn Sie von einer anderen Umgebung wie einer On-Premise-Umgebung oder einem anderen Cloud-Anbieter wechseln und die aktuellsten empfohlenen Inferenzarchitekturen in GKE für Ihre spezifischen Leistungsanforderungen benötigen.
KI‑/ML-Inferenz-Deployments beschleunigen: Wenn Sie ein erfahrener Kubernetes-Nutzer sind und schnell mit dem Bereitstellen von KI‑Inferenz-Arbeitslasten beginnen möchten, hilft Ihnen die Inferenz-Kurzanleitung dabei, Best Practice-Deployments in GKE zu finden und zu implementieren. Sie enthält detaillierte YAML-Konfigurationen, die auf Best Practices basieren.
TPUs für eine höhere Leistung nutzen: Wenn Sie bereits Kubernetes in GKE mit GPUs verwenden, können Sie mit dem Inference Quickstart die Vorteile der Verwendung von TPUs untersuchen, um möglicherweise eine bessere Leistung zu erzielen.

Funktionsweise

Die Kurzanleitung für die Inferenz enthält maßgeschneiderte Best Practices, die auf den umfassenden internen Benchmarks von Google zur Leistung einzelner Replikate für Kombinationen aus Modell, Modellserver und Beschleunigertopologie basieren. In diesen Benchmarks wird die Latenz im Vergleich zum Durchsatz dargestellt, einschließlich der Messwerte für die Warteschlangengröße und den KV-Cache, die Leistungskurven für jede Kombination abbilden.

So werden maßgeschneiderte Best Practices generiert

Wir messen die Latenz in normalisierter Zeit pro Ausgabetoken (Normalized Time per Output Token, NTPOT) in Millisekunden und den Durchsatz in Ausgabetokens pro Sekunde, indem wir die Beschleuniger sättigen. Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Das folgende Beispiel für ein Latenzprofil veranschaulicht den Wendepunkt, an dem der Durchsatz stagniert (grün), den Bereich nach dem Wendepunkt, in dem sich die Latenz verschlechtert (rot), und die ideale Zone (blau) für einen optimalen Durchsatz bei der angestrebten Latenz. Im Schnellstart für die Inferenz finden Sie Leistungsdaten und Konfigurationen für diese ideale Zone.

Latenzprofil mit grüner Markierung für weniger als 2.000 Ausgabetokens pro Sekunde und roter Markierung für mehr als 2.000 Ausgabetokens pro Sekunde

Anhand der Latenzanforderungen einer Inferenzanwendung ermittelt Inference Quickstart geeignete Kombinationen und den optimalen Betriebspunkt auf der Latenz-Durchsatz-Kurve. Dieser Punkt legt den HPA-Schwellenwert (Horizontal Pod Autoscaler) mit einem Puffer fest, um die Latenz beim Hochskalieren zu berücksichtigen. Der Gesamtschwellenwert gibt auch die anfängliche Anzahl der benötigten Replikate an. Der HPA passt diese Anzahl jedoch dynamisch an die Arbeitslast an.

Benchmarking

Die bereitgestellten Konfigurationen und Leistungsdaten basieren auf Benchmarks, bei denen mit dem ShareGPT-Dataset Traffic mit der folgenden Ein- und Ausgabeverteilung gesendet wird.

Eingabetokens						Ausgabetokens
Min.	Medianwert	Durchschnitt	P90	P99	Max.	Min.	Medianwert	Durchschnitt	P90	P99	Max.
4	108	226	635	887	1.024	1	132	195	488	778	1.024

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

Aktivieren Sie die Google Kubernetes Engine API.

Google Kubernetes Engine API aktivieren

Wenn Sie die Google Cloud CLI für diesen Task verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.
Hinweis: Legen Sie für vorhandene Installationen der gcloud CLI das compute/region-Attribut fest. Wenn Sie hauptsächlich zonale Cluster verwenden, legen Sie stattdessen compute/zone fest. Wenn Sie einen standardmäßigen Speicherort festlegen, können Sie in der gcloud CLI Fehler wie diesen vermeiden: One of [--zone, --region] must be supplied: Please specify location. Bei bestimmten Befehlen müssen Sie möglicherweise den Speicherort angeben, wenn er sich von dem von Ihnen festgelegten Standard unterscheidet.

Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Projekt von Google Cloud aus oder erstellen Sie eines.

Hinweis: Wenn Sie die Ressourcen, die Sie in diesem Verfahren erstellen, nicht behalten möchten, erstellen Sie ein Projekt, anstatt ein vorhandenes Projekt auszuwählen. Wenn Sie fertig sind, können Sie das Projekt löschen und dadurch alle mit dem Projekt verknüpften Ressourcen entfernen.
Die Abrechnung für Ihr Google Cloud Projekt muss aktiviert sein.
Prüfen Sie, ob Ihr Projekt über genügend Beschleunigerkapazität verfügt:
- Wenn Sie GPUs verwenden: Prüfen Sie die Seite „Kontingente“.
- Wenn Sie TPUs verwenden, lesen Sie den Abschnitt Kontingent für TPUs und andere GKE-Ressourcen sicherstellen.
Generieren Sie ein Hugging Face-Zugriffstoken und ein entsprechendes Kubernetes-Secret, falls Sie noch keines haben. Führen Sie den folgenden Befehl aus, um ein Kubernetes-Secret zu erstellen, das das Hugging Face-Token enthält:
```
kubectl create secret generic hf-secret \
    --from-literal=hf_api_token=HUGGING_FACE_TOKEN \
    --namespace=NAMESPACE
```
Ersetzen Sie die folgenden Werte:
- HUGGING_FACE_TOKEN: Das Hugging Face-Token, das Sie zuvor erstellt haben.
- NAMESPACE: der Kubernetes-Namespace, in dem Sie Ihren Modellserver bereitstellen möchten.
Bei einigen Modellen müssen Sie möglicherweise auch die Lizenzvereinbarung für die Einwilligung akzeptieren und unterzeichnen.

Vorbereitung für die Verwendung der GKE AI/ML-Benutzeroberfläche

Wenn Sie die Google Cloud -Konsole verwenden, müssen Sie auch einen Autopilot-Cluster erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen.

Vorbereiten der Verwendung der Befehlszeile

Wenn Sie die gcloud CLI zum Ausführen der Kurzanleitung für die Inferenz verwenden, müssen Sie auch die folgenden zusätzlichen Befehle ausführen:

Aktivieren Sie die gkerecommender.googleapis.com API:

gcloud services enable gkerecommender.googleapis.com

Legen Sie das Abrechnungskontingentprojekt fest, das Sie für API-Aufrufe verwenden:
```
gcloud config set billing/quota_project PROJECT_ID
```
Prüfen Sie, ob Ihre gcloud CLI-Version mindestens 526.0.0 ist. Die Versionen 530.0.0 und 531.0.0 werden nicht unterstützt. Wenn ein Update erforderlich ist, führen Sie den folgenden Befehl aus:
```
gcloud components update
```

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie mit der Kurzanleitung für die Inferenz beginnen:

Bei der Bereitstellung von Modellen über dieGoogle Cloud -Konsole werden nur Autopilot-Cluster unterstützt.
Die Inference Quickstart-Anleitung enthält keine Profile für alle Modelle, die von einem bestimmten Modellserver unterstützt werden.
Wenn Sie die Umgebungsvariable HF_HOME nicht festlegen, wenn Sie ein generiertes Manifest für ein großes Modell (90 GiB oder mehr) von Hugging Face verwenden, müssen Sie entweder einen Cluster mit Bootlaufwerken verwenden, die größer als die Standardlaufwerke sind, oder das Manifest ändern, um HF_HOME auf /dev/shm/hf_cache festzulegen. Dadurch wird RAM für den Cache anstelle des Bootlaufwerks des Knotens verwendet. Weitere Informationen finden Sie im Abschnitt Fehlerbehebung.

Optimierte Konfigurationen für die Modellinferenz ansehen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen über die Google Cloud -Konsole oder die Befehlszeile generieren und ansehen.

Console

Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.
Klicken Sie auf Modelle bereitstellen.
Wählen Sie ein Modell aus, das Sie ansehen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.
- Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
- Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.
Auf der Seite zur Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger vorab ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.
Klicken Sie auf YAML aufrufen, um das Manifest mit der empfohlenen Konfiguration aufzurufen.

gcloud

Mit dem Befehl gcloud alpha container ai profiles können Sie optimierte Kombinationen aus Modell, Modellserver, Modellserverversion und Beschleunigern untersuchen und ansehen:

Modelle

Wenn Sie ein Modell auswählen möchten, verwenden Sie die Option models.

  gcloud alpha container ai profiles models list

Modellserver

Wenn Sie empfohlene Modellserver für das gewünschte Modell aufrufen möchten, verwenden Sie die Option model-servers. Beispiel:

  gcloud alpha container ai profiles model-servers list \
      --model=meta-llama/Meta-Llama-3-8B

Die Ausgabe sieht dann ungefähr so aus:

  Supported model servers:
  -  vllm

Serverversionen

Optional können Sie die Option model-server-versions verwenden, um die unterstützten Versionen des Modellservers zu ermitteln, an dem Sie interessiert sind. Wenn Sie diesen Schritt überspringen, wird in der Inference Quickstart standardmäßig die neueste Version verwendet. Beispiel:

  gcloud alpha container ai profiles model-server-versions list \
      --model=meta-llama/Meta-Llama-3-8B \
      --model-server=vllm

Die Ausgabe sieht dann ungefähr so aus:

  Supported model server versions:
  -  e92694b6fe264a85371317295bca6643508034ef
  -  v0.7.2

Beschleuniger

Wenn Sie empfohlene Beschleuniger für die gewünschte Kombination aus Modell und Modellserver sehen möchten, verwenden Sie die Option accelerators. Beispiel:

  gcloud alpha container ai profiles accelerators list \
      --model=deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
      --model-server-version=v0.7.2

Die Ausgabe sieht dann ungefähr so aus:

  Supported accelerators:
  accelerator          | model                                   | model server | model server version                     | accelerator count | output tokens per second | ntpot ms
  ---------------------|-----------------------------------------|--------------|------------------------------------------|-------------------|--------------------------|---------
  nvidia-tesla-a100    | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 3357                     | 72
  nvidia-h100-80gb     | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 6934                     | 30

  For more details on each accelerator, use --format=yaml

Die Ausgabe gibt eine Liste von Beschleunigertypen und die folgenden Messwerte zurück:

Durchsatz in Ausgabetokens pro Sekunde
Normalisierte Zeit pro Ausgabetoken (NTPOT) in Millisekunden

Die Werte stellen die Leistung dar, die an dem Punkt beobachtet wurde, an dem der Durchsatz nicht mehr zunimmt und die Latenz für ein bestimmtes Profil mit diesem Beschleunigertyp drastisch ansteigt (d. h. der Wendepunkt oder Sättigungspunkt). Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.

Nachdem Sie ein Modell, einen Modellserver, eine Modellserverversion und einen Beschleuniger ausgewählt haben, können Sie ein Bereitstellungsmanifest erstellen.

Empfohlene Konfigurationen bereitstellen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen mit der Google Cloud -Konsole oder der Befehlszeile generieren und bereitstellen.

Console

Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.
Klicken Sie auf Modelle bereitstellen.
Wählen Sie ein Modell aus, das Sie bereitstellen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.
- Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
- Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.
Auf der Seite zur Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger vorab ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.
Optional: Wenn Sie das Manifest mit der empfohlenen Konfiguration aufrufen möchten, klicken Sie auf YAML aufrufen.
Klicken Sie auf Bereitstellen, um das Manifest mit der empfohlenen Konfiguration bereitzustellen. Es kann einige Minuten dauern, bis der Bereitstellungsvorgang abgeschlossen ist.

Hinweis :Vor der Bereitstellung prüft GKE die ausgewählte Umgebung auf potenzielle Probleme wie Namens- oder Labelkonflikte. Wir empfehlen, für jede Modellbereitstellung einen neuen Namespace zu verwenden.

Rufen Sie die Seite Kubernetes Engine > Arbeitslasten auf, um sich Ihr Deployment anzusehen.

gcloud

Manifeste generieren: Verwenden Sie im Terminal die Option manifests, um Manifeste für Bereitstellung, Dienst und PodMonitoring zu generieren:
```
gcloud alpha container ai profiles manifests create
```
Verwenden Sie die erforderlichen Parameter --model, --model-server und --accelerator-type, um das Manifest anzupassen.

Optional können Sie die folgenden Parameter festlegen:
- --target-ntpot-milliseconds: Legen Sie diesen Parameter fest, um den HPA-Schwellenwert anzugeben. Mit diesem Parameter können Sie einen Skalierungsschwellenwert definieren, um die P50-Latenz für die normalisierte Zeit pro Ausgabetoken (Normalized Time Per Output Token, NTPOT) unter dem angegebenen Wert zu halten. Die P50-Latenz wird am 50. Quartil gemessen. Wählen Sie einen Wert aus, der über der Mindestlatenz Ihres Accelerators liegt. Die HPA ist für maximalen Durchsatz konfiguriert, wenn Sie einen NTPOT-Wert über der maximalen Latenz Ihres Beschleunigers angeben. Beispiel:
```
gcloud alpha container ai profiles manifests create \
    --model=google/gemma-2-27b-it \
    --model-server=vllm \
    --model-server-version=v0.7.2 \
    --accelerator-type=nvidia-l4 \
    --target-ntpot-milliseconds=200
```
- --model-server-version: Die Modellserverversion. Wenn keine Angabe erfolgt, wird standardmäßig die aktuelle Version verwendet.
- --namespace: Der Namespace, in dem die Manifeste bereitgestellt werden sollen. Der Standard-Namespace ist „default“.
- --output: Gültige Werte sind manifest, comments und all. Standardmäßig ist dieser Parameter auf all eingestellt. Sie können festlegen, dass nur das Manifest für die Bereitstellung von Arbeitslasten ausgegeben wird, oder nur die Kommentare, wenn Sie Anleitungen zum Aktivieren von Funktionen sehen möchten.
- --output-path: Wenn angegeben, wird die Ausgabe im angegebenen Pfad gespeichert, anstatt im Terminal ausgegeben. So können Sie die Ausgabe vor der Bereitstellung bearbeiten. Sie können diese Option beispielsweise mit --output=manifest verwenden, wenn Sie Ihr Manifest in einer YAML-Datei speichern möchten. Beispiel:
```
gcloud alpha container ai profiles manifests create \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --model-server vllm \
    --accelerator-type=nvidia-tesla-a100 \
    --output=manifest \
    --output-path  /tmp/manifests.yaml
```
Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.

Hinweis :Modellgewichte stammen in der Regel aus öffentlichen Repositories wie Hugging Face. Wenn Sie ein Modell aus Cloud Storage laden möchten, empfehlen wir, den Cloud Storage FUSE CSI-Treiber zu verwenden und diese Empfehlungen zur Leistungsoptimierung zu befolgen.
Infrastruktur bereitstellen: Sorgen Sie dafür, dass Ihre Infrastruktur für die Modellbereitstellung, das Monitoring und die Skalierung korrekt eingerichtet ist. Folgen Sie dazu dieser Anleitung.
Manifeste bereitstellen: Führen Sie den Befehl kubectl apply aus und übergeben Sie die YAML-Datei für Ihre Manifeste. Beispiel:
```
kubectl apply -f ./manifests.yaml
```

Infrastruktur bereitstellen

Führen Sie die folgenden Schritte aus, um sicherzustellen, dass Ihre Infrastruktur für die Bereitstellung, das Monitoring und die Skalierung von Modellen richtig eingerichtet ist:

Cluster erstellen: Sie können Ihr Modell in GKE Autopilot- oder Standardclustern bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

Wenn Sie noch keinen Cluster haben, gehen Sie so vor:
Autopilot
Folgen Sie dieser Anleitung, um einen Autopilot-Cluster zu erstellen. GKE stellt die Knoten mit GPU- oder TPU-Kapazität basierend auf den Bereitstellungsmanifesten bereit, sofern Sie das erforderliche Kontingent in Ihrem Projekt haben.
Standard
1. Erstellen Sie einen zonalen oder regionalen Cluster.
2. Erstellen Sie einen Knotenpool mit den entsprechenden Beschleunigern. Führen Sie je nach ausgewähltem Beschleunigertyp die folgenden Schritte aus:
  - GPUs: Prüfen Sie zuerst auf der Seite „Kontingente“ in der Google Cloud -Konsole, ob Sie genügend GPU-Kapazität haben. Folgen Sie dann der Anleitung unter GPU-Knotenpool erstellen.
  - TPUs: Prüfen Sie zuerst, ob Sie genügend TPUs haben. Folgen Sie dazu der Anleitung unter Kontingent für TPUs und andere GKE-Ressourcen bereitstellen. Erstellen Sie dann einen TPU-Knotenpool.
(Optional, aber empfohlen) Observability-Funktionen aktivieren: Im Kommentarbereich des generierten Manifests finden Sie zusätzliche Befehle zum Aktivieren der vorgeschlagenen Observability-Funktionen. Wenn Sie diese Funktionen aktivieren, erhalten Sie mehr Statistiken, mit denen Sie die Leistung und den Status von Arbeitslasten und der zugrunde liegenden Infrastruktur überwachen können.

Hier sehen Sie ein Beispiel für einen Befehl zum Aktivieren von Observability-Funktionen:
```
gcloud beta container clusters update $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --location=$LOCATION \
    --enable-managed-prometheus \
    --logging=SYSTEM,WORKLOAD \
    --monitoring=SYSTEM,DEPLOYMENT,HPA,POD,DCGM \
    --auto-monitoring-scope=ALL
```
Weitere Informationen finden Sie unter Inferenzarbeitslasten überwachen.
(Nur HPA) Messwertadapter bereitstellen: Ein Messwertadapter, z. B. der Stackdriver-Adapter für benutzerdefinierte Messwerte, ist erforderlich, wenn HPA-Ressourcen in den Bereitstellungsmanifesten generiert wurden. Der Messwertadapter ermöglicht dem HPA den Zugriff auf Modellservermesswerte, die die kube external metrics API verwenden. Informationen zum Bereitstellen des Adapters finden Sie in der Adapterdokumentation auf GitHub.

Bereitstellungsendpunkte testen

Wenn Sie das Manifest über die Befehlszeile bereitgestellt haben, wird der bereitgestellte Dienst über den folgenden Endpunkt verfügbar gemacht:

http://model-model_server-service:port/

Testen Sie Ihren Service. Richten Sie in einem separaten Terminal die Portweiterleitung mit dem folgenden Befehl ein:

kubectl port-forward service/model-model_server-service 8000:8000

Beispiele für das Erstellen und Senden einer Anfrage an Ihren Endpunkt finden Sie in der vLLM.

Inferenzarbeitslasten überwachen

Wenn Sie Ihre bereitgestellten Inferenzarbeitslasten überwachen möchten, rufen Sie den Metrics Explorer in der Google Cloud Console auf.

Automatisches Monitoring aktivieren

GKE bietet eine automatische Monitoring-Funktion, die Teil der umfassenderen Observability-Funktionen ist. Mit dieser Funktion wird der Cluster nach Arbeitslasten durchsucht, die auf unterstützten Modellservern ausgeführt werden, und die PodMonitoring-Ressourcen werden bereitgestellt, damit diese Arbeitslastmesswerte in Cloud Monitoring sichtbar sind. Weitere Informationen zum Aktivieren und Konfigurieren der automatischen Überwachung finden Sie unter Automatische Anwendungsüberwachung für Arbeitslasten konfigurieren.

Nachdem Sie die Funktion aktiviert haben, installiert GKE vorgefertigte Dashboards zum Monitoring von Anwendungen für unterstützte Arbeitslasten.

Wenn Sie die Bereitstellung über die Seite „GKE AI/ML“ in der Google Cloud Console vornehmen, werden PodMonitoring- und HPA-Ressourcen automatisch anhand der targetNtpot-Konfiguration für Sie erstellt.

Fehlerbehebung

Wenn Sie die Latenz zu niedrig festlegen, wird im Inference Quickstart möglicherweise keine Empfehlung generiert. Um dieses Problem zu beheben, wählen Sie ein Latenzziel zwischen der minimalen und der maximalen Latenz aus, die für die ausgewählten Beschleuniger beobachtet wurde.
Die Kurzanleitung für die Inferenz ist unabhängig von GKE-Komponenten. Ihre Clusterversion ist daher für die Verwendung des Dienstes nicht direkt relevant. Wir empfehlen jedoch, einen neuen oder aktuellen Cluster zu verwenden, um Leistungsabweichungen zu vermeiden.
Wenn Sie für gkerecommender.googleapis.com-Befehle den Fehler PERMISSION_DENIED erhalten, der besagt, dass ein Kontingentprojekt fehlt, müssen Sie es manuell festlegen. Führen Sie gcloud config set billing/quota_project PROJECT_ID aus, um das Problem zu beheben.

Pod wurde aufgrund von zu wenig flüchtigem Speicher entfernt

Wenn Sie ein großes Modell (90 GiB oder mehr) von Hugging Face bereitstellen, wird Ihr Pod möglicherweise mit einer Fehlermeldung wie dieser entfernt:

Fails because inference server consumes too much ephemeral storage, and gets evicted low resources:  Warning  Evicted              3m24s                   kubelet                                The node was low on resource: ephemeral-storage. Threshold quantity: 10120387530, available: 303108Ki. Container inference-server was using 92343412Ki, request is 0, has larger consumption of ephemeral-storage..,

Dieser Fehler tritt auf, weil das Modell auf dem Bootlaufwerk des Knotens zwischengespeichert wird, einer Form von flüchtigem Speicher. Das Bootlaufwerk wird für sitzungsspezifischen Speicher verwendet, wenn im Bereitstellungsmanifest die Umgebungsvariable HF_HOME nicht auf ein Verzeichnis im RAM des Knotens festgelegt ist.

Standardmäßig haben GKE-Knoten ein 100 GiB großes Bootlaufwerk.
GKE reserviert 10% des Bootlaufwerks für den System-Overhead, sodass 90 GiB für Ihre Arbeitslasten verbleiben.
Wenn die Modellgröße mindestens 90 GiB beträgt und das Modell auf einem Bootlaufwerk mit Standardgröße ausgeführt wird, entfernt kubelet den Pod, um temporären Speicherplatz freizugeben.

Wählen Sie eine der folgenden Optionen, um dieses Problem zu beheben:

RAM für das Zwischenspeichern von Modellen verwenden: Legen Sie in Ihrem Bereitstellungsmanifest die Umgebungsvariable HF_HOME auf /dev/shm/hf_cache fest. Dabei wird der RAM des Knotens verwendet, um das Modell zu cachen, anstatt das Bootlaufwerk.
Größe des Bootlaufwerks erhöhen:
- GKE Standard: Erhöhen Sie die Größe des Bootlaufwerks, wenn Sie einen Cluster erstellen, einen Knotenpool erstellen oder einen Knotenpool aktualisieren.
- Autopilot: Wenn Sie ein größeres Bootlaufwerk anfordern möchten, erstellen Sie eine benutzerdefinierte Compute-Klasse und legen Sie das Feld bootDiskSize in der Regel machineType fest.

Nächste Schritte

Im Portal zur KI-/ML-Orchestrierung in GKE finden Sie offizielle Anleitungen, Tutorials und Anwendungsfälle für die Ausführung von KI-/ML-Arbeitslasten in GKE.
Weitere Informationen zur Optimierung der Bereitstellung von Modellen finden Sie unter Best Practices für die Optimierung der Inferenz großer Sprachmodelle mit GPUs. Darin werden Best Practices für die Bereitstellung von LLMs mit GPUs in GKE behandelt, z. B. Quantisierung, Tensorparallelismus und Arbeitsspeicherverwaltung.
Weitere Informationen zu Best Practices für das Autoscaling finden Sie in den folgenden Anleitungen:
- Best Practices für das Autoscaling von Inferenzen für LLM-Arbeitslasten (Large Language Model) mit GPUs
- Best Practices für das Autoscaling von Inferenzen für LLM-Arbeitslasten (Large Language Model) mit TPUs
In GKE AI Labs finden Sie experimentelle Beispiele dafür, wie Sie GKE nutzen können, um Ihre KI-/ML-Initiativen zu beschleunigen.

Best Practices für die Inferenz mit GKE Inference Quickstart-Rezepten ausführen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Kurzanleitung für die Inferenz verwenden

Vorteile

Anwendungsfälle

Funktionsweise

So werden maßgeschneiderte Best Practices generiert

Benchmarking

Hinweise

Vorbereitung für die Verwendung der GKE AI/ML-Benutzeroberfläche

Vorbereiten der Verwendung der Befehlszeile

Beschränkungen

Optimierte Konfigurationen für die Modellinferenz ansehen

Console

gcloud

Modelle

Modellserver

Serverversionen

Beschleuniger

Empfohlene Konfigurationen bereitstellen

Console

gcloud

Infrastruktur bereitstellen

Autopilot

Standard

Bereitstellungsendpunkte testen

Inferenzarbeitslasten überwachen

Automatisches Monitoring aktivieren

Fehlerbehebung

Pod wurde aufgrund von zu wenig flüchtigem Speicher entfernt

Nächste Schritte

Best Practices für die Inferenz mit GKE Inference Quickstart-Rezepten ausführen