Documentazione sull'orchestrazione di AI/ML su GKE
Esegui carichi di lavoro di AI/ML ottimizzati con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Grazie a Google Kubernetes Engine (GKE), puoi implementare una piattaforma di AI/ML affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e queste funzionalità:
- Orchestrazione dell'infrastruttura che supporta GPU e TPU per workload di addestramento ed erogazione su larga scala.
- Integrazione flessibile con framework di elaborazione distribuita e di elaborazione dei dati.
- Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse
Inizia la tua proof of concept con 300 $di credito gratuito
- Accedere a Gemini 2.0 Flash Thinking
- Utilizzo mensile gratuito di prodotti popolari, tra cui le API di AI e BigQuery
- Nessun addebito automatico, nessun impegno
Continua a esplorare con oltre 20 prodotti Always Free
Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Gestire modelli aperti utilizzando le funzionalità di GKE Gen AI
- Novità!
- Novità!
- Novità!
- Tutorial
- Tutorial
- Tutorial
Orchestra TPU e GPU su larga scala
- Novità!
- Novità!
- Video
- Video
- Video
- Blog
Ottimizzazione dei costi e orchestrazione dei job
- Tutorial
- Best practice
- Best practice
- Blog
- Blog
- Best practice
- Best practice
- Best practice
Risorse correlate
Gestisci modelli open source utilizzando le TPU su GKE con Optimum TPU
Scopri come eseguire il deployment di LLM utilizzando le Tensor Processing Unit (TPU) su GKE con il framework di gestione Optimum TPU di Hugging Face.
Crea e utilizza un volume supportato da un'istanza Parallelstore in GKE
Scopri come creare spazio di archiviazione supportato da istanze Parallelstore completamente gestite e come accedervi come volumi. Il driver CSI è ottimizzato per i workload di addestramento AI/ML che coinvolgono file di dimensioni più piccole e letture casuali.
Accelerare il caricamento dei dati AI/ML con Hyperdisk ML
Scopri come semplificare e accelerare il caricamento dei pesi del modello di AI/ML su GKE utilizzando Hyperdisk ML.
Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch
Scopri come gestire un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.
Best practice per l'ottimizzazione dell'inferenza LLM con GPU su GKE
Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di servizio vLLM e Text Generation Inference (TGI).
Gestisci lo stack GPU con l'operatore GPU NVIDIA su GKE
Scopri quando utilizzare l'operatore GPU NVIDIA e come abilitarlo su GKE.
Configurare la scalabilità automatica per i carichi di lavoro LLM sulle TPU
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando lo strumento di scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment del modello Gemma LLM utilizzando JetStream a host singolo.
Ottimizzare i modelli open Gemma utilizzando più GPU su GKE
Scopri come eseguire il fine-tuning del modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.
Esegui il deployment di un'applicazione Ray Serve con un modello Stable Diffusion su GKE con TPU
Scopri come eseguire il deployment e la gestione di un modello Stable Diffusion su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.
Configurare la scalabilità automatica per i carichi di lavoro LLM sulle GPU con GKE
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando GKE Horizontal Pod Autoscaler (HPA) per eseguire il deployment del modello Gemma LLM con il framework di servizio Hugging Face Text Generation Interface (TGI).
Addestra Llama2 con Megatron-LM su macchine virtuali A3 Mega
Scopri come eseguire un carico di lavoro Megatron-LM PyTorch basato su container su A3 Mega.
Esegui il deployment dei carichi di lavoro GPU in Autopilot
Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.
Gestisci un LLM con più GPU in GKE
Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.
Iniziare a utilizzare Ray su GKE
Scopri come iniziare a utilizzare facilmente Ray su GKE eseguendo un carico di lavoro su un cluster Ray.
Gestisci un LLM su GPU L4 con Ray
Scopri come gestire Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.
Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue
Scopri come orchestrare un carico di lavoro Jax su più sezioni TPU su GKE utilizzando JobSet e Kueue.
Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)
Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).
Guida rapida: addestra un modello con GPU sui cluster GKE Standard
Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.
Esecuzione del machine learning su larga scala su GKE
Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.
TensorFlow su GKE Autopilot con accelerazione GPU
Questo post del blog è una guida passo passo per la creazione, l'esecuzione e l'eliminazione di un notebook Jupiter abilitato per TensorFlow.
Implementare un sistema di accodamento dei job con condivisione della quota tra gli spazi dei nomi su GKE
Questo tutorial utilizza Kueue per mostrare come implementare un sistema di accodamento dei job e configurare la condivisione di risorse e quote dei workload tra diversi spazi dei nomi su GKE.
Crea un chatbot RAG con GKE e Cloud Storage
Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione aumentata dal recupero con file PDF che carichi in un bucket Cloud Storage.
Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma
Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un LLM Gemma per l'analisi e le previsioni dei dati.
Preelaborazione distribuita dei dati con GKE e Ray: scalabilità per l'azienda
Scopri come sfruttare GKE e Ray per preelaborare in modo efficiente grandi set di dati per il machine learning.
Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE
Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.
Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE
Scopri come ottimizzare i costi di inferenza della GPU mettendo a punto lo Horizontal Pod Autoscaler di GKE per la massima efficienza.
Gestisci in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE
Scopri come eseguire il deployment dei microservizi NVIDIA NIM all'avanguardia su GKE con facilità e accelerare i carichi di lavoro di AI.
Accelerare Ray in produzione con il nuovo operatore Ray su GKE
Scopri come Ray Operator su GKE semplifica le implementazioni di produzione di AI/ML, migliorando le prestazioni e la scalabilità.
Massimizza il throughput di gestione degli LLM per le GPU su GKE: una guida pratica
Scopri come massimizzare la velocità effettiva di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni relative all'infrastruttura e le ottimizzazioni del server dei modelli.
Motori di ricerca semplificati: un approccio low-code con GKE e Vertex AI Agent Builder
Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.
LiveX AI riduce i costi dell'assistenza clienti con agenti AI addestrati e gestiti su GKE e NVIDIA AI
In che modo LiveX AI utilizza GKE per creare agenti di AI che migliorano la soddisfazione dei clienti e riducono i costi.
Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando GKE e Cloud SQL
Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con generazione aumentata dal recupero (RAG) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Innovare nella ricerca di brevetti: come IPRally sfrutta l'AI con GKE e Ray
Come IPRally utilizza GKE e Ray per creare una piattaforma di ML scalabile ed efficiente per ricerche di brevetti più rapide e accurate.
Analisi approfondita delle prestazioni di Gemma su Google Cloud
Sfrutta Gemma su GPU Cloud e Cloud TPU per un'inferenza e un addestramento efficienti su GKE.
Approfondimento di Gemma su GKE: nuove innovazioni per gestire i modelli aperti di AI generativa
Utilizza i migliori modelli aperti Gemma per creare applicazioni di AI portatili e personalizzabili ed eseguirne il deployment su GKE.
Pianificazione avanzata per AI/ML con Ray e Kueue
Orchestrare le applicazioni Ray in GKE con KubeRay e Kueue.
Come proteggere Ray su Google Kubernetes Engine
Applica tecniche di hardening e approfondimenti sulla sicurezza per l'addestramento di workload AI/ML utilizzando Ray su GKE.
Progettare l'archiviazione per i carichi di lavoro AI e ML in Google Cloud
Seleziona la migliore combinazione di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.
L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE
Installa automaticamente i driver GPU Nvidia in GKE.
Accelera il tuo percorso verso l'AI generativa con il framework NVIDIA NeMo su GKEE
Addestra modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.
Perché GKE per i tuoi workload di AI Ray?
Migliora scalabilità, efficienza in termini di costi, tolleranza agli errori, isolamento e portabilità utilizzando GKE per i carichi di lavoro Ray.
Esecuzione dell'IA su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni di risorse
Ottieni supporto GPU, prestazioni e prezzi migliori per i carichi di lavoro AI/ML con GKE Autopilot.
In che modo SEEN ha aumentato l'output di 89 volte e ridotto i costi delle GPU del 66% utilizzando GKE
La startup ridimensiona l'output video personalizzato con GKE.
In che modo Spotify sta liberando l'innovazione ML con Ray e GKE
In che modo Ray sta trasformando lo sviluppo di ML su Spotify.
In che modo Ordaōs Bio sfrutta l'AI generativa su GKE
Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomedica, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.
GKE da una startup in crescita basata sul machine learning
Come Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per rafforzare la propria infrastruttura di machine learning (ML).
Esempi di Google Kubernetes Engine (GKE)
Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali sui prodotti GKE.
Esempi di GKE AI Labs
Visualizza esempi sperimentali per sfruttare GKE e accelerare le tue iniziative di AI/ML.