Documentazione sull'orchestrazione di AI/ML su GKE

Esegui carichi di lavoro di AI/ML ottimizzati con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Grazie a Google Kubernetes Engine (GKE), puoi implementare una piattaforma di AI/ML affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e queste funzionalità:

  • Orchestrazione dell'infrastruttura che supporta GPU e TPU per workload di addestramento ed erogazione su larga scala.
  • Integrazione flessibile con framework di elaborazione distribuita e di elaborazione dei dati.
  • Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse
Questa pagina fornisce una panoramica delle funzionalità di AI/ML di GKE e di come iniziare a eseguire workload di AI/ML ottimizzati su GKE con GPU, TPU e framework come Hugging Face TGI, vLLM e JetStream.
  • Accedere a Gemini 2.0 Flash Thinking
  • Utilizzo mensile gratuito di prodotti popolari, tra cui le API di AI e BigQuery
  • Nessun addebito automatico, nessun impegno

Continua a esplorare con oltre 20 prodotti Always Free

Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Risorse di documentazione

Trova guide rapide e guide, esamina i riferimenti principali e ricevi assistenza per i problemi comuni.
Esplora la formazione autonoma di Google Cloud Skills Boost, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi di come utilizzare e connettere i servizi Google Cloud .
Formazione
Formazione e tutorial

Scopri come eseguire il deployment di LLM utilizzando le Tensor Processing Unit (TPU) su GKE con il framework di gestione Optimum TPU di Hugging Face.

Tutorial Inferenza AI/ML TPU

Formazione
Formazione e tutorial

Scopri come creare spazio di archiviazione supportato da istanze Parallelstore completamente gestite e come accedervi come volumi. Il driver CSI è ottimizzato per i workload di addestramento AI/ML che coinvolgono file di dimensioni più piccole e letture casuali.

Tutorial Caricamento dei dati AI/ML

Formazione
Formazione e tutorial

Scopri come semplificare e accelerare il caricamento dei pesi del modello di AI/ML su GKE utilizzando Hyperdisk ML.

Tutorial Caricamento dei dati AI/ML

Formazione
Formazione e tutorial

Scopri come gestire un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.

Tutorial Inferenza AI/ML TPU

Formazione
Formazione e tutorial

Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di servizio vLLM e Text Generation Inference (TGI).

Tutorial Inferenza AI/ML GPU

Formazione
Formazione e tutorial

Scopri quando utilizzare l'operatore GPU NVIDIA e come abilitarlo su GKE.

Tutorial GPU

Formazione
Formazione e tutorial

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando lo strumento di scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment del modello Gemma LLM utilizzando JetStream a host singolo.

Tutorial TPU

Formazione
Formazione e tutorial

Scopri come eseguire il fine-tuning del modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.

Tutorial Inferenza AI/ML GPU

Formazione
Formazione e tutorial

Scopri come eseguire il deployment e la gestione di un modello Stable Diffusion su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.

Tutorial Inferenza AI/ML Ray TPU

Formazione
Formazione e tutorial

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando GKE Horizontal Pod Autoscaler (HPA) per eseguire il deployment del modello Gemma LLM con il framework di servizio Hugging Face Text Generation Interface (TGI).

Tutorial GPU

Formazione
Formazione e tutorial

Scopri come eseguire un carico di lavoro Megatron-LM PyTorch basato su container su A3 Mega.

Tutorial Addestramento AI/ML GPU

Formazione
Formazione e tutorial

Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.

Tutorial GPU

Formazione
Formazione e tutorial

Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.

Tutorial Inferenza AI/ML GPU

Formazione
Formazione e tutorial

Scopri come iniziare a utilizzare facilmente Ray su GKE eseguendo un carico di lavoro su un cluster Ray.

Tutorial Ray

Formazione
Formazione e tutorial

Scopri come gestire Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.

Tutorial Inferenza AI/ML Ray GPU

Formazione
Formazione e tutorial

Scopri come orchestrare un carico di lavoro Jax su più sezioni TPU su GKE utilizzando JobSet e Kueue.

Tutorial TPU

Formazione
Formazione e tutorial

Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).

Tutorial Osservabilità AI/ML GPU

Formazione
Formazione e tutorial

Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.

Tutorial Addestramento AI/ML GPU

Formazione
Formazione e tutorial

Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.

Video Addestramento AI/ML Inferenza AI/ML

Formazione
Formazione e tutorial

Questo post del blog è una guida passo passo per la creazione, l'esecuzione e l'eliminazione di un notebook Jupiter abilitato per TensorFlow.

Blog AI/ML Training AI ML Inference GPU

Formazione
Formazione e tutorial

Questo tutorial utilizza Kueue per mostrare come implementare un sistema di accodamento dei job e configurare la condivisione di risorse e quote dei workload tra diversi spazi dei nomi su GKE.

Tutorial AI/ML Batch

Formazione
Formazione e tutorial

Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione aumentata dal recupero con file PDF che carichi in un bucket Cloud Storage.

Tutorial Caricamento dei dati AI/ML

Formazione
Formazione e tutorial

Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un LLM Gemma per l'analisi e le previsioni dei dati.

Tutorial Caricamento dei dati AI/ML

Caso d'uso
Casi d'uso

Scopri come sfruttare GKE e Ray per preelaborare in modo efficiente grandi set di dati per il machine learning.

MLOps Training Ray

Caso d'uso
Casi d'uso

Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.

Inferenza Hyperdisk ML Cloud Storage FUSE

Caso d'uso
Casi d'uso

Scopri come ottimizzare i costi di inferenza della GPU mettendo a punto lo Horizontal Pod Autoscaler di GKE per la massima efficienza.

Inferenza GPU HPA

Caso d'uso
Casi d'uso

Scopri come eseguire il deployment dei microservizi NVIDIA NIM all'avanguardia su GKE con facilità e accelerare i carichi di lavoro di AI.

AI NVIDIA NIM

Caso d'uso
Casi d'uso

Scopri come Ray Operator su GKE semplifica le implementazioni di produzione di AI/ML, migliorando le prestazioni e la scalabilità.

AI TPU Ray

Caso d'uso
Casi d'uso

Scopri come massimizzare la velocità effettiva di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni relative all'infrastruttura e le ottimizzazioni del server dei modelli.

LLM GPU NVIDIA

Caso d'uso
Casi d'uso

Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.

Ricerca Agente Vertex AI

Caso d'uso
Casi d'uso

In che modo LiveX AI utilizza GKE per creare agenti di AI che migliorano la soddisfazione dei clienti e riducono i costi.

GenAI NVIDIA GPU

Caso d'uso
Casi d'uso

Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con generazione aumentata dal recupero (RAG) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.

GenAI RAG Ray

Caso d'uso
Casi d'uso

Come IPRally utilizza GKE e Ray per creare una piattaforma di ML scalabile ed efficiente per ricerche di brevetti più rapide e accurate.

AI Ray GPU

Caso d'uso
Casi d'uso

Sfrutta Gemma su GPU Cloud e Cloud TPU per un'inferenza e un addestramento efficienti su GKE.

AI Gemma Prestazioni

Caso d'uso
Casi d'uso

Utilizza i migliori modelli aperti Gemma per creare applicazioni di AI portatili e personalizzabili ed eseguirne il deployment su GKE.

AI Gemma Prestazioni

Caso d'uso
Casi d'uso

Orchestrare le applicazioni Ray in GKE con KubeRay e Kueue.

Kueue Ray KubeRay

Caso d'uso
Casi d'uso

Applica tecniche di hardening e approfondimenti sulla sicurezza per l'addestramento di workload AI/ML utilizzando Ray su GKE.

AI Ray Security

Caso d'uso
Casi d'uso

Seleziona la migliore combinazione di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.

AI ML Storage

Caso d'uso
Casi d'uso

Installa automaticamente i driver GPU Nvidia in GKE.

GPU NVIDIA Installazione

Caso d'uso
Casi d'uso

Addestra modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Caso d'uso
Casi d'uso

Migliora scalabilità, efficienza in termini di costi, tolleranza agli errori, isolamento e portabilità utilizzando GKE per i carichi di lavoro Ray.

AI Ray Scale

Caso d'uso
Casi d'uso

Ottieni supporto GPU, prestazioni e prezzi migliori per i carichi di lavoro AI/ML con GKE Autopilot.

GPU Autopilot Rendimento

Caso d'uso
Casi d'uso

La startup ridimensiona l'output video personalizzato con GKE.

GPU Scalabilità Contenitori

Caso d'uso
Casi d'uso

In che modo Ray sta trasformando lo sviluppo di ML su Spotify.

ML Ray Container

Caso d'uso
Casi d'uso

Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomedica, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.

Prestazioni TPU Ottimizzazione dei costi

Caso d'uso
Casi d'uso

Come Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per rafforzare la propria infrastruttura di machine learning (ML).

ML Scalabilità Ottimizzazione dei costi

Esempio di codice
Esempi di codice

Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali sui prodotti GKE.

Esempio di codice
Esempi di codice

Visualizza esempi sperimentali per sfruttare GKE e accelerare le tue iniziative di AI/ML.

Video correlati