Dokumentation zur KI/ML-Orchestrierung in GKE

Optimierte KI-/ML-Arbeitslasten mit den Funktionen der Google Kubernetes Engine (GKE)-Plattformorchestrierung ausführen. Mit der GKE lässt sich eine zuverlässige, produktionsreife KI‑/ML-Plattform mit allen Vorteilen von verwaltetem Kubernetes und den folgenden Funktionen implementieren:

  • Infrastrukturorchestrierung, die GPUs und TPUs zum Trainieren und Bereitstellen einer großen Anzahl von Arbeitslasten unterstützt.
  • Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks
  • Unterstützung mehrerer Teams in derselben Infrastruktur zur Maximierung der Auslastung von Ressourcen
Auf dieser Seite erhalten Sie einen Überblick über die KI-/ML-Funktionen von GKE und erfahren, wie Sie optimierte KI-/ML-Arbeitslasten in GKE mit GPUs, TPUs und Frameworks wie Hugging Face TGI, vLLM und JetStream ausführen.
  • Zugriff auf Gemini 2.0 Flash Thinking erhalten
  • Kostenlose monatliche Nutzung beliebter Produkte wie KI-APIs und BigQuery
  • Keine automatischen Abbuchungen, keine Verpflichtung

Mehr als 20 Produkte immer kostenlos nutzen

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Dokumentationsressourcen

Finden Sie Kurzanleitungen und Leitfäden, prüfen Sie wichtige Referenzen und erhalten Sie Hilfe bei häufigen Problemen.
Entdecken Sie Schulungen von Google Cloud Skills Boost, Anwendungsfälle, Referenzarchitekturen und Codebeispiele mit Details zur Verwendung und Verbindung von Google Cloud -Diensten.
Training
Schulungen und Tutorials

Informationen zum Bereitstellen von LLMs mit Tensor Processing Units (TPUs) in GKE mit dem Optimum TPU-Bereitstellungs-Framework von Hugging Face.

Tutorial AI/ML Inference TPU

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie Speicherplatz mit vollständig verwalteten Parallelstore-Instanzen erstellen und als Volumes darauf zugreifen. Der CSI-Treiber ist für KI/ML-Trainingsarbeitslasten mit kleineren Dateigrößen und zufälligen Lesevorgängen optimiert.

Tutorial AI/ML Data Loading

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie mit Hyperdisk ML das Laden von KI-/ML-Modellgewichtungen in GKE vereinfachen und beschleunigen.

Tutorial AI/ML Data Loading

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie ein Large Language Model (LLM) mit Tensor Processing Units (TPUs) in GKE mit JetStream über PyTorch bereitstellen.

Tutorial KI/ML-Inferenz TPUs

Training
Schulungen und Tutorials

Hier finden Sie Best Practices für die Optimierung der LLM-Inferenzleistung mit GPUs in GKE mit den Serving-Frameworks vLLM und Text Generation Inference (TGI).

Tutorial KI-/ML-Inferenz GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wann Sie den NVIDIA GPU-Operator verwenden sollten und wie Sie den NVIDIA GPU-Operator in GKE aktivieren.

Anleitung GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit JetStream mit einem einzelnen Host bereitzustellen.

Anleitung TPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie das Gemma-LLM mit GPUs in GKE mit der Hugging Face Transformers-Bibliothek optimieren.

Tutorial KI-/ML-Inferenz GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie ein Stable Diffusion-Modell mit TPUs, Ray Serve und dem Ray Operator-Add-on in GKE bereitstellen und ausführen.

Tutorial KI/ML-Inferenz Ray TPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit dem Serving-Framework der Hugging Face Text Generation Interface (TGI) bereitzustellen.

Anleitung GPUs

Training
Schulungen und Tutorials

Informationen zum Ausführen einer containerbasierten Megatron-LM-PyTorch-Arbeitslast auf A3 Mega

Tutorial KI-/ML-Training GPUs

Training
Schulungen und Tutorials

Hardwarebeschleuniger (GPUs) in GKE Autopilot-Arbeitslasten anfordern

Anleitung GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie Llama 2 70B oder Falcon 40B mit mehreren NVIDIA L4-GPUs in GKE bereitstellen.

Tutorial KI-/ML-Inferenz GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie Ray in GKE ganz einfach verwenden können, indem Sie eine Arbeitslast in einem Ray-Cluster ausführen.

Anleitung Ray

Training
Schulungen und Tutorials

Erfahren Sie, wie Sie Falcon 7b, Llama2 7b, Falcon 40b oder Llama2 70b mit dem Ray-Framework in GKE bereitstellen.

Tutorial AI/ML Inference Ray GPUs

Training
Schulungen und Tutorials

Hier erfahren Sie, wie Sie eine Jax-Arbeitslast auf mehreren TPU-Slices in GKE mit JobSet und Kueue orchestrieren.

Anleitung TPUs

Training
Schulungen und Tutorials

Erfahren Sie, wie Sie mit NVIDIA Data Center GPU Manager (DCGM) GPU-Arbeitslasten in GKE beobachten.

Tutorial AI/ML Observability GPUs

Training
Schulungen und Tutorials

In dieser Kurzanleitung wird gezeigt, wie Sie ein Trainingsmodell mit GPUs in GKE bereitstellen und die Vorhersagen in Cloud Storage speichern.

Tutorial KI-/ML-Training GPUs

Training
Schulungen und Tutorials

In diesem Video wird gezeigt, wie sich mit der GKE häufige Probleme beim Trainieren umfangreicher KI-Modelle lösen lassen, und Sie lernen Best Practices für das Trainieren und Bereitstellen von umfangreichen ML-Modellen in der GKE kennen.

Video KI-/ML-Training KI-/ML-Inferenz

Training
Schulungen und Tutorials

In diesem Blogpost finden Sie eine detaillierte Anleitung zum Erstellen, Ausführen und Bereinigen eines Tensorflow-fähigen Jupiter-Notebooks.

Blog KI-/ML-Training KI-/ML-Inferenz GPUs

Training
Schulungen und Tutorials

In dieser Anleitung wird mit Kueue gezeigt, wie Sie ein Jobwarteschlangensystem implementieren und die Freigabe von Arbeitslastressourcen und Kontingenten zwischen verschiedenen Namespaces in GKE konfigurieren.

Tutorial AI/ML Batch

Training
Schulungen und Tutorials

In dieser Anleitung erfahren Sie, wie Sie eine Large Language Model-Anwendung, die auf einer retrieval-augmented generation basiert, in PDF-Dateien einbinden, die Sie in einen Cloud Storage-Bucket hochladen.

Tutorial AI/ML Data Loading

Training
Schulungen und Tutorials

In dieser Anleitung erfahren Sie, wie Sie große Datasets in GKE analysieren. Dazu nutzen Sie BigQuery für die Datenspeicherung und -verarbeitung, Cloud Run für die Verarbeitung von Anfragen und ein Gemma-LLM für die Datenanalyse und Vorhersagen.

Tutorial AI/ML Data Loading

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie Sie GKE und Ray nutzen können, um große Datasets für maschinelles Lernen effizient vorzuverarbeiten.

MLOps Training Ray

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie Sie die Datenladezeiten für Ihre Anwendungen für maschinelles Lernen in Google Kubernetes Engine beschleunigen können.

Inferenz Hyperdisk ML Cloud Storage FUSE

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie Sie die Kosten für GPU-Inferenz optimieren können, indem Sie das horizontale Pod-Autoscaling von GKE für maximale Effizienz optimieren.

Inferenz GPU HPA

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie Sie modernste NVIDIA NIM-Mikrodienste ganz einfach in GKE bereitstellen und Ihre KI-Arbeitslasten beschleunigen können.

KI NVIDIA NIM

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie der Ray Operator in GKE Ihre KI-/ML-Produktionsbereitstellungen vereinfacht und die Leistung und Skalierbarkeit steigert.

KI TPU Ray

Anwendungsfall
Anwendungsfälle

Hier erfahren Sie, wie Sie den Durchsatz für die Bereitstellung von Large Language Models (LLMs) für GPUs in GKE maximieren können. Dazu gehören Infrastrukturentscheidungen und Optimierungen des Modellservers.

LLM GPU NVIDIA

Anwendungsfall
Anwendungsfälle

So erstellen Sie mit Google Cloud, Vertex AI Agent Builder, Vertex AI Search und GKE eine Suchmaschine.

Suche Agent Vertex AI

Anwendungsfall
Anwendungsfälle

So nutzt LiveX AI GKE, um KI-Agents zu entwickeln, die die Kundenzufriedenheit steigern und die Kosten senken.

GenAI NVIDIA GPU

Anwendungsfall
Anwendungsfälle

Referenzarchitektur für die Ausführung einer generativen KI-Anwendung mit Retrieval Augmented Generation (RAG) unter Verwendung von GKE, Cloud SQL, Ray, Hugging Face und LangChain

GenAI RAG Ray

Anwendungsfall
Anwendungsfälle

Wie IPRally GKE und Ray nutzt, um eine skalierbare, effiziente ML-Plattform für schnellere Patentsuchen mit höherer Genauigkeit zu entwickeln.

KI Ray GPU

Anwendungsfall
Anwendungsfälle

Nutzen Sie Gemma auf Cloud-GPUs und Cloud TPUs für effiziente Inferenz und effizientes Training in GKE.

KI Gemma Leistung

Anwendungsfall
Anwendungsfälle

Mit den erstklassigen offenen Gemma-Modellen können Sie portable, anpassbare KI-Anwendungen erstellen und in GKE bereitstellen.

KI Gemma Leistung

Anwendungsfall
Anwendungsfälle

Ray-Anwendungen in GKE mit KubeRay und Kueue orchestrieren.

Kueue Ray KubeRay

Anwendungsfall
Anwendungsfälle

Sicherheitserkenntnisse und Härtungstechniken zum Trainieren von KI/ML-Arbeitslasten mit Ray on GKE anwenden.

KI Ray Security

Anwendungsfall
Anwendungsfälle

Wählen Sie die beste Kombination von Speicheroptionen für KI- und ML-Arbeitslasten in Google Cloud aus.

KI ML Speicher

Anwendungsfall
Anwendungsfälle

Nvidia-GPU-Treiber automatisch in GKE installieren.

GPU NVIDIA Installation

Anwendungsfall
Anwendungsfälle

Trainieren Sie generative KI-Modelle mit dem GKE- und NVIDIA NeMo-Framework.

GenAI NVIDIA NeMo

Anwendungsfall
Anwendungsfälle

Verbessern Sie mit GKE für Ray-Arbeitslasten Skalierbarkeit, Kosteneffizienz, Fehlertoleranz, Isolation und Übertragbarkeit.

KI Ray Skalierung

Anwendungsfall
Anwendungsfälle

Profitieren Sie mit GKE Autopilot von verbessertem GPU-Support, Leistung und niedrigeren Preisen für KI/ML-Arbeitslasten.

GPU Autopilot Leistung

Anwendungsfall
Anwendungsfälle

Start-up skaliert die personalisierte Videoausgabe mit GKE.

GPU Skalieren Container

Anwendungsfall
Anwendungsfälle

So transformiert Ray die ML-Entwicklung bei Spotify.

ML Ray Container

Anwendungsfall
Anwendungsfälle

Ordaos Bio, einer der führenden KI-Beschleuniger für die biomedizinische Forschung und Entdeckung, sucht nach Lösungen für neue Impfstoffe in der Onkologie und bei chronischen Entzündungen.

Leistung TPU Kostenoptimierung

Anwendungsfall
Anwendungsfälle

Moloco, ein Start-up-Unternehmen aus dem Silicon Valley, nutzte die Möglichkeiten von GKE und Tensor Flow Enterprise, um seine ML-Infrastruktur zu optimieren.

ML Skalieren Kostenoptimierung

Codebeispiel
Codebeispiele

Beispielanwendungen ansehen, die in offiziellen GKE-Produktanleitungen verwendet werden.

Codebeispiel
Codebeispiele

Sehen Sie sich experimentelle Beispiele für die Nutzung von GKE an, um Ihre KI/ML-Initiativen zu beschleunigen.

Ähnliche Videos