Erste Schritte mit der KI-Modellinferenz mit den Gen AI-Funktionen von GKE

Diese Seite wurde von der Cloud Translation API übersetzt.

Dokumentation zur KI/ML-Orchestrierung in GKE

Optimierte KI-/ML-Arbeitslasten mit den Funktionen der Google Kubernetes Engine (GKE)-Plattformorchestrierung ausführen. Mit der GKE lässt sich eine zuverlässige, produktionsreife KI‑/ML-Plattform mit allen Vorteilen von verwaltetem Kubernetes und den folgenden Funktionen implementieren:

Infrastrukturorchestrierung, die GPUs und TPUs zum Trainieren und Bereitstellen einer großen Anzahl von Arbeitslasten unterstützt.
Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks
Unterstützung mehrerer Teams in derselben Infrastruktur zur Maximierung der Auslastung von Ressourcen

Auf dieser Seite erhalten Sie einen Überblick über die KI-/ML-Funktionen von GKE und erfahren, wie Sie optimierte KI-/ML-Arbeitslasten in GKE mit GPUs, TPUs und Frameworks wie Hugging Face TGI, vLLM und JetStream ausführen.

Jetzt kostenlos starten

Proof of Concept mit einem Guthaben in Höhe von 300 $starten

Zugriff auf Gemini 2.0 Flash Thinking erhalten
Kostenlose monatliche Nutzung beliebter Produkte wie KI-APIs und BigQuery
Keine automatischen Abbuchungen, keine Verpflichtung

Angebote für kostenlose Produkte ansehen

Mehr als 20 Produkte immer kostenlos nutzen

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Dokumentationsressourcen

Finden Sie Kurzanleitungen und Leitfäden, prüfen Sie wichtige Referenzen und erhalten Sie Hilfe bei häufigen Problemen.

Offene Modelle mit GKE Gen AI-Funktionen bereitstellen

TPUs und GPUs in großem Umfang orchestrieren

Kostenoptimierung und Joborchestrierung

Tutorial
LLMs in GKE mit einer kostenoptimierten und hochverfügbaren GPU-Bereitstellungsstrategie bereitstellen
Best Practice
Referenzarchitektur für eine Batchverarbeitungsplattform in GKE
Best Practice
GPU-Erreichbarkeit mit dem Flex-Start-Bereitstellungsmodus optimieren
Blog
Leistungsstarker KI/ML-Speicher über lokale SSD-Unterstützung in GKE
Blog
Vereinfachte MLOps mithilfe von Weights und Biases mit der Google Kubernetes Engine
Best Practice
Best Practices zum Ausführen von Batch-Arbeitslasten in GKE
Best Practice
Kostenoptimierte Kubernetes-Anwendungen in GKE ausführen
Best Practice
Verbesserung der Startzeit der stabilen Diffusion in GKE um das Vierfache

Erste Schritte mit der KI-Modellinferenz mit den Gen AI-Funktionen von GKE

Dokumentation zur KI/ML-Orchestrierung in GKE

Proof of Concept mit einem Guthaben in Höhe von 300 $starten

Mehr als 20 Produkte immer kostenlos nutzen

Offene Modelle mit GKE Gen AI-Funktionen bereitstellen

TPUs und GPUs in großem Umfang orchestrieren

Kostenoptimierung und Joborchestrierung

Open-Source-Modelle mit TPUs in GKE mit Optimum TPU bereitstellen

Volume erstellen und verwenden, das von einer Parallelstore-Instanz in GKE unterstützt wird

KI/ML-Datenladen mit Hyperdisk ML beschleunigen

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen

Best Practices zum Optimieren der LLM-Inferenz mit GPUs in GKE

GPU-Stack mit dem NVIDIA GPU-Operator in GKE verwalten

Autoscaling für LLM-Arbeitslasten auf TPUs konfigurieren

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren

Ray Serve-Anwendung mit einem Stable Diffusion-Modell in GKE mit TPUs bereitstellen

Autoscaling für LLM-Arbeitslasten auf GPUs mit GKE konfigurieren

Llama2 mit Megatron-LM auf virtuellen A3-Mega-Maschinen trainieren

GPU-Arbeitslasten in Autopilot bereitstellen

LLM mit mehreren GPUs in GKE bereitstellen

Erste Schritte mit Ray in GKE

LLM auf L4-GPUs mit Ray bereitstellen

TPU-Multislice-Arbeitslasten mit JobSet und Kueue orchestrieren

GPU-Arbeitslasten in GKE mit NVIDIA Data Center GPU Manager (DCGM) überwachen

Kurzanleitung: Modell mit GPUs in GKE Standard-Clustern trainieren

Umfangreiches maschinelles Lernen in GKE ausführen

TensorFlow in GKE Autopilot mit GPU-Beschleunigung

Jobwarteschlangensystem mit Kontingentfreigabe zwischen Namespaces in GKE implementieren

RAG-Chatbot mit GKE und Cloud Storage erstellen

Daten in GKE mit BigQuery, Cloud Run und Gemma analysieren

Verteilte Datenvorverarbeitung mit GKE und Ray: Skalierung für Unternehmen

Best Practices für das Laden von Daten für KI-/ML-Inferenz in GKE

GPU-Kosten senken: Intelligenteres Autoscaling für Ihre GKE-Inferenzarbeitslasten

Optimierte KI-Modelle mit NVIDIA NIM-Mikrodiensten in GKE effizient bereitstellen

Ray in der Produktion mit dem neuen Ray-Operator in GKE beschleunigen

LLM-Bereitstellungsdurchsatz für GPUs in GKE maximieren – ein praktischer Leitfaden

Suchmaschinen ganz einfach erstellen: Low-Code-Ansatz mit GKE und Vertex AI Agent Builder

LiveX AI senkt die Kosten für den Kundensupport mit KI-Agents, die auf GKE und NVIDIA AI trainiert und bereitgestellt werden

Infrastruktur für eine RAG-fähige generative KI-Anwendung mit GKE und Cloud SQL

Innovation bei der Patentsuche: Wie IPRally KI mit GKE und Ray nutzt

Leistungsanalyse von Gemma in Google Cloud

Gemma in GKE – Detaillierte Informationen: Neue Innovationen für die Bereitstellung offener generativer KI-Modelle

Erweiterte Planung für KI/ML mit Ray und Kueue

Ray in Google Kubernetes Engine schützen

Speicher für KI- und ML-Arbeitslasten in Google Cloud entwerfen

Die automatische Treiberinstallation vereinfacht die Verwendung von NVIDIA-GPUs in GKE

Generative KI mit dem NVIDIA NeMo-Framework in GKE beschleunigen

Vorteile von GKE für Ray KI-Arbeitslasten

Diagramm: KI in vollständig verwaltetem GKE ausführen – jetzt mit neuen Computing-Optionen, Preisen und Ressourcenreservierungen

Wie SEEN die Ausgabe um das 89-Fache skalieren und die GPU-Kosten mithilfe von GKE um 66 % senken konnte

Wie Spotify gemeinsam mit Ray und GKE ML-Innovationen einsetzt

Wie Ordaos Bio Generative AI in GKE nutzt

GKE eines wachsenden Start-ups, das auf ML basiert

Google Kubernetes Engine (GKE)-Beispiele

GKE AI Labs-Beispiele

Ähnliche Videos