Dokumentation zur KI/ML-Orchestrierung in GKE
Optimierte KI-/ML-Arbeitslasten mit den Funktionen der Google Kubernetes Engine (GKE)-Plattformorchestrierung ausführen. Mit der GKE lässt sich eine zuverlässige, produktionsreife KI‑/ML-Plattform mit allen Vorteilen von verwaltetem Kubernetes und den folgenden Funktionen implementieren:
- Infrastrukturorchestrierung, die GPUs und TPUs zum Trainieren und Bereitstellen einer großen Anzahl von Arbeitslasten unterstützt.
- Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks
- Unterstützung mehrerer Teams in derselben Infrastruktur zur Maximierung der Auslastung von Ressourcen
Proof of Concept mit einem Guthaben in Höhe von 300 $starten
- Zugriff auf Gemini 2.0 Flash Thinking erhalten
- Kostenlose monatliche Nutzung beliebter Produkte wie KI-APIs und BigQuery
- Keine automatischen Abbuchungen, keine Verpflichtung
Mehr als 20 Produkte immer kostenlos nutzen
Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.
Dokumentationsressourcen
Offene Modelle mit GKE Gen AI-Funktionen bereitstellen
- Neu!
- Neu!
- Neu!
- Tutorial
- Tutorial
- Tutorial
TPUs und GPUs in großem Umfang orchestrieren
- Neu!
- Neu!
- Video
- Video
- Video
- Blog
Kostenoptimierung und Joborchestrierung
- Tutorial
- Best Practice
- Best Practice
- Blog
- Blog
- Best Practice
- Best Practice
- Best Practice
Weitere Informationen
Open-Source-Modelle mit TPUs in GKE mit Optimum TPU bereitstellen
Informationen zum Bereitstellen von LLMs mit Tensor Processing Units (TPUs) in GKE mit dem Optimum TPU-Bereitstellungs-Framework von Hugging Face.
Volume erstellen und verwenden, das von einer Parallelstore-Instanz in GKE unterstützt wird
Hier erfahren Sie, wie Sie Speicherplatz mit vollständig verwalteten Parallelstore-Instanzen erstellen und als Volumes darauf zugreifen. Der CSI-Treiber ist für KI/ML-Trainingsarbeitslasten mit kleineren Dateigrößen und zufälligen Lesevorgängen optimiert.
KI/ML-Datenladen mit Hyperdisk ML beschleunigen
Hier erfahren Sie, wie Sie mit Hyperdisk ML das Laden von KI-/ML-Modellgewichtungen in GKE vereinfachen und beschleunigen.
LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen
Hier erfahren Sie, wie Sie ein Large Language Model (LLM) mit Tensor Processing Units (TPUs) in GKE mit JetStream über PyTorch bereitstellen.
Best Practices zum Optimieren der LLM-Inferenz mit GPUs in GKE
Hier finden Sie Best Practices für die Optimierung der LLM-Inferenzleistung mit GPUs in GKE mit den Serving-Frameworks vLLM und Text Generation Inference (TGI).
GPU-Stack mit dem NVIDIA GPU-Operator in GKE verwalten
Hier erfahren Sie, wann Sie den NVIDIA GPU-Operator verwenden sollten und wie Sie den NVIDIA GPU-Operator in GKE aktivieren.
Autoscaling für LLM-Arbeitslasten auf TPUs konfigurieren
Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit JetStream mit einem einzelnen Host bereitzustellen.
Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren
Hier erfahren Sie, wie Sie das Gemma-LLM mit GPUs in GKE mit der Hugging Face Transformers-Bibliothek optimieren.
Ray Serve-Anwendung mit einem Stable Diffusion-Modell in GKE mit TPUs bereitstellen
Hier erfahren Sie, wie Sie ein Stable Diffusion-Modell mit TPUs, Ray Serve und dem Ray Operator-Add-on in GKE bereitstellen und ausführen.
Autoscaling für LLM-Arbeitslasten auf GPUs mit GKE konfigurieren
Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit dem Serving-Framework der Hugging Face Text Generation Interface (TGI) bereitzustellen.
Llama2 mit Megatron-LM auf virtuellen A3-Mega-Maschinen trainieren
Informationen zum Ausführen einer containerbasierten Megatron-LM-PyTorch-Arbeitslast auf A3 Mega
GPU-Arbeitslasten in Autopilot bereitstellen
Hardwarebeschleuniger (GPUs) in GKE Autopilot-Arbeitslasten anfordern
LLM mit mehreren GPUs in GKE bereitstellen
Hier erfahren Sie, wie Sie Llama 2 70B oder Falcon 40B mit mehreren NVIDIA L4-GPUs in GKE bereitstellen.
Erste Schritte mit Ray in GKE
Hier erfahren Sie, wie Sie Ray in GKE ganz einfach verwenden können, indem Sie eine Arbeitslast in einem Ray-Cluster ausführen.
LLM auf L4-GPUs mit Ray bereitstellen
Erfahren Sie, wie Sie Falcon 7b, Llama2 7b, Falcon 40b oder Llama2 70b mit dem Ray-Framework in GKE bereitstellen.
TPU-Multislice-Arbeitslasten mit JobSet und Kueue orchestrieren
Hier erfahren Sie, wie Sie eine Jax-Arbeitslast auf mehreren TPU-Slices in GKE mit JobSet und Kueue orchestrieren.
GPU-Arbeitslasten in GKE mit NVIDIA Data Center GPU Manager (DCGM) überwachen
Erfahren Sie, wie Sie mit NVIDIA Data Center GPU Manager (DCGM) GPU-Arbeitslasten in GKE beobachten.
Kurzanleitung: Modell mit GPUs in GKE Standard-Clustern trainieren
In dieser Kurzanleitung wird gezeigt, wie Sie ein Trainingsmodell mit GPUs in GKE bereitstellen und die Vorhersagen in Cloud Storage speichern.
Umfangreiches maschinelles Lernen in GKE ausführen
In diesem Video wird gezeigt, wie sich mit der GKE häufige Probleme beim Trainieren umfangreicher KI-Modelle lösen lassen, und Sie lernen Best Practices für das Trainieren und Bereitstellen von umfangreichen ML-Modellen in der GKE kennen.
TensorFlow in GKE Autopilot mit GPU-Beschleunigung
In diesem Blogpost finden Sie eine detaillierte Anleitung zum Erstellen, Ausführen und Bereinigen eines Tensorflow-fähigen Jupiter-Notebooks.
Jobwarteschlangensystem mit Kontingentfreigabe zwischen Namespaces in GKE implementieren
In dieser Anleitung wird mit Kueue gezeigt, wie Sie ein Jobwarteschlangensystem implementieren und die Freigabe von Arbeitslastressourcen und Kontingenten zwischen verschiedenen Namespaces in GKE konfigurieren.
RAG-Chatbot mit GKE und Cloud Storage erstellen
In dieser Anleitung erfahren Sie, wie Sie eine Large Language Model-Anwendung, die auf einer retrieval-augmented generation basiert, in PDF-Dateien einbinden, die Sie in einen Cloud Storage-Bucket hochladen.
Daten in GKE mit BigQuery, Cloud Run und Gemma analysieren
In dieser Anleitung erfahren Sie, wie Sie große Datasets in GKE analysieren. Dazu nutzen Sie BigQuery für die Datenspeicherung und -verarbeitung, Cloud Run für die Verarbeitung von Anfragen und ein Gemma-LLM für die Datenanalyse und Vorhersagen.
Verteilte Datenvorverarbeitung mit GKE und Ray: Skalierung für Unternehmen
Hier erfahren Sie, wie Sie GKE und Ray nutzen können, um große Datasets für maschinelles Lernen effizient vorzuverarbeiten.
Best Practices für das Laden von Daten für KI-/ML-Inferenz in GKE
Hier erfahren Sie, wie Sie die Datenladezeiten für Ihre Anwendungen für maschinelles Lernen in Google Kubernetes Engine beschleunigen können.
GPU-Kosten senken: Intelligenteres Autoscaling für Ihre GKE-Inferenzarbeitslasten
Hier erfahren Sie, wie Sie die Kosten für GPU-Inferenz optimieren können, indem Sie das horizontale Pod-Autoscaling von GKE für maximale Effizienz optimieren.
Optimierte KI-Modelle mit NVIDIA NIM-Mikrodiensten in GKE effizient bereitstellen
Hier erfahren Sie, wie Sie modernste NVIDIA NIM-Mikrodienste ganz einfach in GKE bereitstellen und Ihre KI-Arbeitslasten beschleunigen können.
Ray in der Produktion mit dem neuen Ray-Operator in GKE beschleunigen
Hier erfahren Sie, wie der Ray Operator in GKE Ihre KI-/ML-Produktionsbereitstellungen vereinfacht und die Leistung und Skalierbarkeit steigert.
LLM-Bereitstellungsdurchsatz für GPUs in GKE maximieren – ein praktischer Leitfaden
Hier erfahren Sie, wie Sie den Durchsatz für die Bereitstellung von Large Language Models (LLMs) für GPUs in GKE maximieren können. Dazu gehören Infrastrukturentscheidungen und Optimierungen des Modellservers.
Suchmaschinen ganz einfach erstellen: Low-Code-Ansatz mit GKE und Vertex AI Agent Builder
So erstellen Sie mit Google Cloud, Vertex AI Agent Builder, Vertex AI Search und GKE eine Suchmaschine.
LiveX AI senkt die Kosten für den Kundensupport mit KI-Agents, die auf GKE und NVIDIA AI trainiert und bereitgestellt werden
So nutzt LiveX AI GKE, um KI-Agents zu entwickeln, die die Kundenzufriedenheit steigern und die Kosten senken.
Infrastruktur für eine RAG-fähige generative KI-Anwendung mit GKE und Cloud SQL
Referenzarchitektur für die Ausführung einer generativen KI-Anwendung mit Retrieval Augmented Generation (RAG) unter Verwendung von GKE, Cloud SQL, Ray, Hugging Face und LangChain
Innovation bei der Patentsuche: Wie IPRally KI mit GKE und Ray nutzt
Wie IPRally GKE und Ray nutzt, um eine skalierbare, effiziente ML-Plattform für schnellere Patentsuchen mit höherer Genauigkeit zu entwickeln.
Leistungsanalyse von Gemma in Google Cloud
Nutzen Sie Gemma auf Cloud-GPUs und Cloud TPUs für effiziente Inferenz und effizientes Training in GKE.
Gemma in GKE – Detaillierte Informationen: Neue Innovationen für die Bereitstellung offener generativer KI-Modelle
Mit den erstklassigen offenen Gemma-Modellen können Sie portable, anpassbare KI-Anwendungen erstellen und in GKE bereitstellen.
Erweiterte Planung für KI/ML mit Ray und Kueue
Ray-Anwendungen in GKE mit KubeRay und Kueue orchestrieren.
Ray in Google Kubernetes Engine schützen
Sicherheitserkenntnisse und Härtungstechniken zum Trainieren von KI/ML-Arbeitslasten mit Ray on GKE anwenden.
Speicher für KI- und ML-Arbeitslasten in Google Cloud entwerfen
Wählen Sie die beste Kombination von Speicheroptionen für KI- und ML-Arbeitslasten in Google Cloud aus.
Die automatische Treiberinstallation vereinfacht die Verwendung von NVIDIA-GPUs in GKE
Nvidia-GPU-Treiber automatisch in GKE installieren.
Generative KI mit dem NVIDIA NeMo-Framework in GKE beschleunigen
Trainieren Sie generative KI-Modelle mit dem GKE- und NVIDIA NeMo-Framework.
Vorteile von GKE für Ray KI-Arbeitslasten
Verbessern Sie mit GKE für Ray-Arbeitslasten Skalierbarkeit, Kosteneffizienz, Fehlertoleranz, Isolation und Übertragbarkeit.
Diagramm: KI in vollständig verwaltetem GKE ausführen – jetzt mit neuen Computing-Optionen, Preisen und Ressourcenreservierungen
Profitieren Sie mit GKE Autopilot von verbessertem GPU-Support, Leistung und niedrigeren Preisen für KI/ML-Arbeitslasten.
Wie SEEN die Ausgabe um das 89-Fache skalieren und die GPU-Kosten mithilfe von GKE um 66 % senken konnte
Start-up skaliert die personalisierte Videoausgabe mit GKE.
Wie Spotify gemeinsam mit Ray und GKE ML-Innovationen einsetzt
So transformiert Ray die ML-Entwicklung bei Spotify.
Wie Ordaos Bio Generative AI in GKE nutzt
Ordaos Bio, einer der führenden KI-Beschleuniger für die biomedizinische Forschung und Entdeckung, sucht nach Lösungen für neue Impfstoffe in der Onkologie und bei chronischen Entzündungen.
GKE eines wachsenden Start-ups, das auf ML basiert
Moloco, ein Start-up-Unternehmen aus dem Silicon Valley, nutzte die Möglichkeiten von GKE und Tensor Flow Enterprise, um seine ML-Infrastruktur zu optimieren.
Google Kubernetes Engine (GKE)-Beispiele
Beispielanwendungen ansehen, die in offiziellen GKE-Produktanleitungen verwendet werden.
GKE AI Labs-Beispiele
Sehen Sie sich experimentelle Beispiele für die Nutzung von GKE an, um Ihre KI/ML-Initiativen zu beschleunigen.