Orkestrasi AI/ML di dokumentasi GKE

Jalankan workload AI/ML yang dioptimalkan dengan kemampuan orkestrasi platform Google Kubernetes Engine (GKE). Dengan Google Kubernetes Engine (GKE), Anda dapat menerapkan platform AI/ML yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola dan kemampuan berikut:

  • Orkestrasi infrastruktur yang mendukung GPU dan TPU untuk pelatihan dan inferensi workload dalam skala besar.
  • Integrasi yang fleksibel dengan framework komputasi dan pemrosesan data terdistribusi.
  • Dukungan untuk beberapa tim pada infrastruktur yang sama untuk memaksimalkan penggunaan resource
Halaman ini memberikan ringkasan kemampuan AI/ML GKE dan cara mulai menjalankan beban kerja AI/ML yang dioptimalkan di GKE dengan GPU, TPU, dan framework seperti Hugging Face TGI, vLLM, dan JetStream.
  • Mendapatkan akses ke Gemini 2.0 Flash Thinking
  • Penggunaan bulanan gratis untuk produk populer, termasuk AI API dan BigQuery
  • Tidak ada biaya otomatis, tanpa komitmen

Terus jelajahi dengan lebih dari 20 produk yang selalu gratis

Akses 20+ produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan lainnya.

Referensi dokumentasi

Temukan panduan memulai dan panduan, tinjau referensi utama, dan dapatkan bantuan terkait masalah umum.
Pelajari pelatihan mandiri dari Google Cloud Skills Boost, kasus penggunaan, arsitektur referensi, dan contoh kode dengan contoh cara menggunakan dan menghubungkan layanan Google Cloud .
Pelatihan
Pelatihan dan tutorial

Pelajari cara men-deploy LLM menggunakan Tensor Processing Unit (TPU) di GKE dengan framework penayangan TPU Optimum dari Hugging Face.

Tutorial Inferensi AI/ML TPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara membuat penyimpanan yang didukung oleh instance Parallelstore yang terkelola sepenuhnya, dan mengaksesnya sebagai volume. Driver CSI dioptimalkan untuk workload pelatihan AI/ML yang melibatkan ukuran file yang lebih kecil dan pembacaan acak.

Tutorial Pemuatan Data AI/ML

Pelatihan
Pelatihan dan tutorial

Pelajari cara menyederhanakan dan mempercepat pemuatan bobot model AI/ML di GKE menggunakan Hyperdisk ML.

Tutorial Pemuatan Data AI/ML

Pelatihan
Pelatihan dan tutorial

Pelajari cara menyajikan LLM menggunakan Tensor Processing Unit (TPU) di GKE dengan JetStream melalui PyTorch.

Tutorial Inferensi AI/ML TPU

Pelatihan
Pelatihan dan tutorial

Pelajari praktik terbaik untuk mengoptimalkan performa inferensi LLM dengan GPU di GKE menggunakan framework penayangan vLLM dan Text Generation Inference (TGI).

Tutorial Inferensi AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Pelajari kapan harus menggunakan operator GPU NVIDIA dan cara mengaktifkan Operator GPU NVIDIA di GKE.

Tutorial GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara menyiapkan infrastruktur penskalaan otomatis dengan menggunakan Penskalaan Otomatis Pod Horizontal (HPA) GKE untuk men-deploy LLM Gemma menggunakan JetStream host tunggal.

Tutorial TPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara melakukan fine-tuning LLM Gemma menggunakan GPU di GKE dengan library Hugging Face Transformers.

Tutorial Inferensi AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara men-deploy dan menyajikan model Stable Diffusion di GKE menggunakan TPU, Ray Serve, dan add-on Ray Operator.

Tutorial Inferensi AI/ML Ray TPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara menyiapkan infrastruktur penskalaan otomatis dengan menggunakan Penskalaan Otomatis Pod Horizontal (HPA) GKE untuk men-deploy LLM Gemma dengan framework penayangan Hugging Face Text Generation Interface (TGI).

Tutorial GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara menjalankan workload PyTorch Megatron-LM berbasis container di A3 Mega.

Tutorial Pelatihan AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara meminta akselerator hardware (GPU) di workload Autopilot GKE Anda

Tutorial GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara menyajikan Llama 2 70B atau Falcon 40B menggunakan beberapa GPU NVIDIA L4 dengan GKE.

Tutorial Inferensi AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara mudah menggunakan Ray di GKE dengan menjalankan workload di cluster Ray.

Tutorial Ray

Pelatihan
Pelatihan dan tutorial

Pelajari cara menayangkan Falcon 7b, Llama2 7b, Falcon 40b, atau Llama2 70b menggunakan framework Ray di GKE.

Tutorial Inferensi AI/ML Ray GPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara mengorkestrasi workload Jax di beberapa slice TPU di GKE menggunakan JobSet dan Kueue.

Tutorial TPU

Pelatihan
Pelatihan dan tutorial

Pelajari cara mengamati workload GPU di GKE dengan NVIDIA Data Center GPU Manager (DCGM).

Tutorial Kemampuan Observasi AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Panduan memulai ini menunjukkan cara men-deploy model pelatihan dengan GPU di GKE dan menyimpan prediksi di Cloud Storage.

Tutorial Pelatihan AI/ML GPU

Pelatihan
Pelatihan dan tutorial

Video ini menunjukkan cara GKE membantu memecahkan tantangan umum dalam melatih model AI besar dalam skala besar, dan praktik terbaik untuk melatih dan menyediakan model machine learning berskala besar di GKE.

Video Pelatihan AI/ML Inferensi AI/ML

Pelatihan
Pelatihan dan tutorial

Postingan blog ini adalah panduan langkah demi langkah untuk pembuatan, eksekusi, dan pembongkaran notebook Jupiter dengan dukungan Tensorflow.

Blog Pelatihan AI/ML Inferensi ML AI GPU

Pelatihan
Pelatihan dan tutorial

Tutorial ini menggunakan Kueue untuk menunjukkan cara menerapkan sistem antrean Tugas, serta mengonfigurasi resource workload dan pembagian kuota antar-namespace yang berbeda di GKE.

Tutorial Batch AI/ML

Pelatihan
Pelatihan dan tutorial

Tutorial ini menunjukkan cara mengintegrasikan aplikasi Model Bahasa Besar berdasarkan pembuatan yang didukung pengambilan dengan file PDF yang Anda upload ke bucket Cloud Storage.

Tutorial Pemuatan Data AI/ML

Pelatihan
Pelatihan dan tutorial

Tutorial ini menunjukkan cara menganalisis set data besar di GKE dengan memanfaatkan BigQuery untuk penyimpanan dan pemrosesan data, Cloud Run untuk penanganan permintaan, dan LLM Gemma untuk analisis dan prediksi data.

Tutorial Pemuatan Data AI/ML

Kasus penggunaan
Kasus penggunaan

Pelajari cara memanfaatkan GKE dan Ray untuk melakukan pra-pemrosesan set data besar secara efisien untuk machine learning.

MLOps Pelatihan Ray

Kasus penggunaan
Kasus penggunaan

Pelajari cara mempercepat waktu pemuatan data untuk aplikasi machine learning Anda di Google Kubernetes Engine.

Inferensi Hyperdisk ML Cloud Storage FUSE

Kasus penggunaan
Kasus penggunaan

Pelajari cara mengoptimalkan biaya inferensi GPU dengan menyesuaikan Penskalaan Otomatis Pod Horizontal GKE untuk efisiensi maksimum.

Inferensi GPU HPA

Kasus penggunaan
Kasus penggunaan

Pelajari cara men-deploy microservice NVIDIA NIM canggih di GKE dengan mudah dan mempercepat workload AI Anda.

AI NVIDIA NIM

Kasus penggunaan
Kasus penggunaan

Pelajari cara Ray Operator di GKE menyederhanakan deployment produksi AI/ML Anda, sehingga meningkatkan performa dan skalabilitas.

AI TPU Ray

Kasus penggunaan
Kasus penggunaan

Pelajari cara memaksimalkan throughput inferensi model bahasa besar (LLM) untuk GPU di GKE, termasuk keputusan infrastruktur dan pengoptimalan server model.

LLM GPU NVIDIA

Kasus penggunaan
Kasus penggunaan

Cara membangun mesin telusur dengan Google Cloud, menggunakan Vertex AI Agent Builder, Vertex AI Search, dan GKE.

Search Agent Vertex AI

Kasus penggunaan
Kasus penggunaan

Cara LiveX AI menggunakan GKE untuk membangun agen AI yang meningkatkan kepuasan pelanggan dan mengurangi biaya.

GenAI NVIDIA GPU

Kasus penggunaan
Kasus penggunaan

Arsitektur referensi untuk menjalankan aplikasi AI generatif dengan retrieval-augmented generation (RAG) menggunakan GKE, Cloud SQL, Ray, Hugging Face, dan LangChain.

GenAI RAG Ray

Kasus penggunaan
Kasus penggunaan

Cara IPRally menggunakan GKE dan Ray untuk membangun platform ML yang skalabel dan efisien untuk penelusuran paten yang lebih cepat dengan akurasi yang lebih baik.

AI Ray GPU

Kasus penggunaan
Kasus penggunaan

Manfaatkan Gemma di Cloud GPU dan Cloud TPU untuk efisiensi inferensi dan pelatihan di GKE.

AI Gemma Performa

Kasus penggunaan
Kasus penggunaan

Gunakan model terbuka Gemma terbaik untuk membangun aplikasi AI yang portabel dan dapat disesuaikan, lalu men-deploy-nya di GKE.

AI Gemma Performa

Kasus penggunaan
Kasus penggunaan

Mengorkestrasi aplikasi Ray di GKE dengan KubeRay dan Kueue.

Kueue Ray KubeRay

Kasus penggunaan
Kasus penggunaan

Terapkan insight keamanan dan teknik penguatan untuk melatih workload AI/ML menggunakan Ray di GKE.

AI Ray Security

Kasus penggunaan
Kasus penggunaan

Pilih kombinasi terbaik opsi penyimpanan untuk workload AI dan ML di Google Cloud.

AI ML Storage

Kasus penggunaan
Kasus penggunaan

Menginstal driver GPU Nvidia secara otomatis di GKE.

GPU NVIDIA Penginstalan

Kasus penggunaan
Kasus penggunaan

Latih model AI generatif menggunakan GKE dan framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Kasus penggunaan
Kasus penggunaan

Tingkatkan skalabilitas, efisiensi biaya, fault tolerance, isolasi, dan portabilitas dengan menggunakan GKE untuk workload Ray.

AI Ray Scale

Kasus penggunaan
Kasus penggunaan

Dapatkan dukungan GPU, performa, dan harga yang lebih rendah untuk workload AI/ML yang lebih baik dengan GKE Autopilot.

GPU Autopilot Performa

Kasus penggunaan
Kasus penggunaan

Startup menskalakan output video yang dipersonalisasi dengan GKE.

GPU Skala Container

Kasus penggunaan
Kasus penggunaan

Cara Ray mengubah pengembangan ML di Spotify.

ML Ray Container

Kasus penggunaan
Kasus penggunaan

Ordaōs Bio, salah satu akselerator AI terkemuka untuk penelitian dan penemuan biomedis, sedang mencari solusi terhadap imunoterapi baru untuk onkologi dan penyakit inflamasi kronis.

Performa TPU Pengoptimalan biaya

Kasus penggunaan
Kasus penggunaan

Cara Moloco, sebuah startup Silicon Valley, memanfaatkan kecanggihan GKE dan Tensor Flow Enterprise untuk meningkatkan infrastruktur machine learning (ML)-nya.

ML Skala Pengoptimalan biaya

Contoh kode
Contoh Kode

Lihat aplikasi contoh yang digunakan dalam tutorial produk GKE resmi.

Contoh kode
Contoh Kode

Lihat contoh eksperimental untuk memanfaatkan GKE dalam mempercepat inisiatif AI/ML Anda.

Video terkait