Halaman ini menjelaskan konfigurasi GPU untuk layanan Cloud Run Anda. GPU berfungsi dengan baik untuk workload inferensi AI, seperti model bahasa besar (LLM) atau kasus penggunaan non-AI intensif komputasi lainnya seperti transcoding video dan rendering 3D. Google menyediakan GPU NVIDIA L4 dengan memori GPU (VRAM) sebesar 24 GB, yang terpisah dari memori instance.
GPU di Cloud Run dikelola sepenuhnya, tanpa memerlukan driver atau library tambahan. Fitur GPU menawarkan ketersediaan on-demand tanpa perlu reservasi, mirip dengan cara kerja CPU on-demand dan memori on-demand di Cloud Run. Instance layanan Cloud Run yang telah dikonfigurasi untuk menggunakan GPU dapat diskalakan ke nol untuk menghemat biaya saat tidak digunakan.
Instance Cloud Run dengan GPU L4 yang terpasang dan driver yang telah diinstal sebelumnya dimulai dalam waktu sekitar 5 detik, dan pada saat itu proses yang berjalan di container Anda dapat mulai menggunakan GPU.
Anda dapat mengonfigurasi satu GPU per instance Cloud Run. Jika Anda menggunakan container sidecar, perhatikan bahwa GPU hanya dapat dilampirkan ke satu container.
Region yang didukung
asia-southeast1
(Singapura)asia-south1
(Mumbai) . Region ini hanya tersedia berdasarkan undangan. Hubungi tim Akun Google Anda jika Anda tertarik dengan wilayah ini.europe-west1
(Belgia)CO2 Rendah
europe-west4
(Belanda)CO2 Rendah
us-central1
(Iowa)CO2 Rendah
us-east4
(North Virginia)
Jenis GPU yang didukung
Anda dapat menggunakan satu GPU L4 per instance Cloud Run. GPU L4 memiliki driver yang telah diinstal sebelumnya berikut:
- Versi driver NVIDIA saat ini: 535.216.03 (CUDA 12.2)
Dampak harga
Lihat Harga Cloud Run untuk mengetahui detail harga GPU. Perhatikan persyaratan dan pertimbangan berikut:
- Tidak ada biaya per permintaan. Anda harus menggunakan penagihan berbasis instance untuk menggunakan fitur GPU. Instance minimum dikenai biaya penuh meskipun saat tidak ada aktivitas.
- Ada perbedaan biaya antara redundansi zona GPU dan redundansi non-zona. Lihat Harga Cloud Run untuk mengetahui detail harga GPU.
- Anda harus menggunakan minimal 4 CPU dan memori 16 GiB.
- GPU ditagih selama seluruh durasi siklus proses instance.
Opsi redundansi zona GPU
Secara default, Cloud Run men-deploy layanan Anda di beberapa zona dalam suatu region. Arsitektur ini memberikan ketahanan yang inheren: jika suatu zona mengalami pemadaman layanan, Cloud Run akan otomatis merutekan traffic dari zona yang terpengaruh ke zona yang sehat dalam region yang sama.
Saat menggunakan resource GPU, perlu diingat bahwa resource GPU memiliki batasan kapasitas tertentu. Selama gangguan zona, mekanisme failover standar untuk beban kerja GPU mengandalkan kapasitas GPU yang tidak digunakan dan memadai yang tersedia di zona responsif yang tersisa. Karena sifat GPU yang terbatas, kapasitas ini mungkin tidak selalu tersedia.
Untuk meningkatkan ketersediaan layanan yang dipercepat GPU selama gangguan zona, Anda dapat mengonfigurasi redundansi zona khusus untuk GPU:
Redundansi Zona Diaktifkan (default): Cloud Run mencadangkan kapasitas GPU untuk layanan Anda di beberapa zona. Hal ini secara signifikan meningkatkan probabilitas layanan Anda dapat berhasil menangani traffic yang dialihkan dari zona yang terpengaruh, sehingga menawarkan keandalan yang lebih tinggi selama kegagalan zona dengan biaya tambahan per detik GPU.
Redundansi Zonal Dinonaktifkan: Cloud Run mencoba failover untuk workload GPU dengan upaya terbaik. Traffic hanya dirutekan ke zona lain jika kapasitas GPU yang memadai tersedia pada saat itu. Opsi ini tidak menjamin kapasitas yang dicadangkan untuk skenario failover, tetapi menghasilkan biaya per detik GPU yang lebih rendah.
SLA
SLA untuk GPU Cloud Run bergantung pada apakah layanan menggunakan opsi redundansi zona atau non-redundansi zona. Lihat halaman SLA untuk mengetahui detailnya.
Meminta penambahan kuota
Project yang menggunakan GPU nvidia-l4
Cloud Run di suatu region untuk pertama kalinya akan otomatis diberi kuota 3 GPU (redundansi zona nonaktif) saat deployment pertama dibuat.
Jika Anda memerlukan GPU Cloud Run tambahan, Anda harus meminta penambahan kuota untuk layanan Cloud Run Anda. Gunakan link yang disediakan di tombol berikut untuk meminta kuota yang Anda butuhkan.
Kuota diperlukan | Link kuota |
---|---|
GPU dengan redundansi zona dinonaktifkan (harga lebih rendah) | Meminta kuota GPU tanpa redundansi zona |
GPU dengan redundansi zona diaktifkan (harga lebih tinggi) | Meminta kuota GPU dengan redundansi zona |
Untuk mengetahui informasi selengkapnya tentang cara meminta penambahan kuota, lihat Cara menambah kuota.
Sebelum memulai
Daftar berikut menjelaskan persyaratan dan batasan saat menggunakan GPU di Cloud Run:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Run API.
- Minta kuota yang diperlukan.
- Lihat Praktik terbaik: Inferensi AI di Cloud Run dengan GPU untuk mendapatkan rekomendasi tentang cara membuat image container dan memuat model besar.
- Pastikan layanan Cloud Run Anda memiliki konfigurasi berikut:
- Konfigurasi setelan penagihan ke penagihan berbasis instance. Perhatikan bahwa layanan yang ditetapkan ke penagihan berbasis instance masih dapat diskalakan ke nol.
- Konfigurasi minimal 4 CPU untuk layanan Anda, dengan 8 CPU yang direkomendasikan.
- Konfigurasi minimal 16 GiB memori, dengan 32 GiB yang direkomendasikan.
- Tentukan dan tetapkan konkurensi maksimum yang optimal untuk penggunaan GPU Anda.
- Instance maksimum harus ditetapkan ke angka yang berada di bawah kuota per project per region yang diizinkan untuk GPU. Lihat Tentang GPU dan instance maksimum.
-
Cloud Run Developer (
roles/run.developer
) - layanan Cloud Run -
Pengguna Akun Layanan (
roles/iam.serviceAccountUser
) - identitas layanan Di konsol Google Cloud , buka Cloud Run:
Pilih Services dari menu, lalu klik Deploy container untuk mengonfigurasi layanan baru. Jika Anda mengonfigurasi layanan yang sudah ada, klik layanan tersebut, lalu klik Edit dan deploy revisi baru.
Jika Anda mengonfigurasi layanan baru, isi halaman setelan layanan awal, lalu klik Container, Volume, Jaringan, Keamanan untuk meluaskan halaman konfigurasi layanan.
Klik tab Container.
- Konfigurasi CPU, memori, serentak, lingkungan eksekusi, dan pemeriksaan startup dengan mengikuti rekomendasi di Sebelum memulai.
- Centang kotak GPU, lalu pilih jenis GPU dari menu GPU type, dan jumlah GPU dari menu Number of GPUs.
- Secara default untuk layanan baru, redundansi zonal diaktifkan. Untuk mengubah setelan saat ini, centang kotak GPU untuk menampilkan opsi Redundansi GPU.
- Pilih Tidak ada redundansi zona untuk menonaktifkan redundansi zona
- Pilih Zonal redundancy untuk mengaktifkan redundansi zona.
Klik Buat atau Deploy.
- SERVICE dengan nama layanan Cloud Run Anda.
- IMAGE_URL dengan referensi ke image container,
misalnya,
us-docker.pkg.dev/cloudrun/container/hello:latest
. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentukLOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
. - SERVICE dengan nama layanan Cloud Run Anda.
- IMAGE_URL dengan referensi ke image container,
misalnya,
us-docker.pkg.dev/cloudrun/container/hello:latest
. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentukLOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
. - CPU dengan jumlah CPU. Anda harus menentukan minimal
4
CPU. - MEMORY dengan jumlah memori. Anda harus menentukan setidaknya
16Gi
(16 GiB). - GPU_NUMBER dengan nilai
1
(satu). Jika tidak ditentukan, tetapi GPU_TYPE ada, defaultnya adalah1
. - GPU_TYPE dengan jenis GPU. Jika tidak ditentukan, tetapi GPU_NUMBER ada, defaultnya adalah
nvidia-l4
(nvidiaL
4 huruf kecil L, bukan nilai numerik empat belas). - MAX_INSTANCE dengan jumlah maksimum instance. Jumlah ini tidak boleh melebihi kuota GPU yang dialokasikan untuk project Anda.
- GPU_ZONAL_REDUNDANCY dengan
no-gpu-zonal-redundancy
untuk menonaktifkan redundansi zonal, ataugpu-zonal-redundancy
untuk mengaktifkan redundansi zonal. Jika Anda membuat layanan baru, lewati langkah ini. Jika Anda mengupdate layanan yang sudah ada, download konfigurasi YAML-nya:
gcloud run services describe SERVICE --format export > service.yaml
Perbarui atribut
nvidia.com/gpu:
dannodeSelector:
:
run.googleapis.com/accelerator:apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE spec: template: metadata: annotations: autoscaling.knative.dev/maxScale: 'MAX_INSTANCE' run.googleapis.com/cpu-throttling: 'false' run.googleapis.com/gpu-zonal-redundancy-disabled: 'GPU_ZONAL_REDUNDANCY' spec: containers: - image: IMAGE_URL ports: - containerPort: CONTAINER_PORT name: http1 resources: limits: cpu: 'CPU' memory: 'MEMORY' nvidia.com/gpu: '1' # Optional: use a longer startup probe to allow long starting containers startupProbe: failureThreshold: 1800 periodSeconds: 1 tcpSocket: port: CONTAINER_PORT timeoutSeconds: 1 nodeSelector: run.googleapis.com/accelerator: GPU_TYPE
Ganti:
- SERVICE dengan nama layanan Cloud Run Anda.
- IMAGE_URL dengan referensi ke image container,
misalnya,
us-docker.pkg.dev/cloudrun/container/hello:latest
. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentukLOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
- CONTAINER_PORT dengan port container yang ditetapkan untuk layanan Anda.
- CPU dengan jumlah CPU. Anda harus menentukan minimal
4
CPU. - MEMORY dengan jumlah memori. Anda harus menentukan setidaknya
16Gi
(16 GiB). - GPU_TYPE dengan nilai
nvidia-l4
(nvidia-L
4 huruf kecil L, bukan nilai numerik empat belas). - MAX_INSTANCE dengan jumlah maksimum instance. Jumlah ini tidak boleh melebihi kuota GPU yang dialokasikan untuk project Anda.
- GPU_ZONAL_REDUNDANCY dengan
false
untuk mengaktifkan redundansi per zona GPU, atautrue
untuk menonaktifkannya.
Buat atau perbarui layanan menggunakan perintah berikut:
gcloud run services replace service.yaml
- SERVICE dengan nama layanan Cloud Run Anda.
- GPU_ZONAL_REDUNDANCY dengan
false
untuk mengaktifkan redundansi per zona GPU, atautrue
untuk menonaktifkannya. - IMAGE_URL dengan referensi ke image container,
misalnya,
us-docker.pkg.dev/cloudrun/container/hello:latest
. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentukLOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
- CPU dengan jumlah CPU. Anda harus menentukan minimal
4
CPU. - MEMORY dengan jumlah memori. Anda harus menentukan setidaknya
16Gi
(16 GiB). - GPU_TYPE dengan nilai
nvidia-l4
(nvidia-L
4 huruf kecil L, bukan nilai numerik empat belas). Di konsol Google Cloud , buka Cloud Run:
Klik layanan yang Anda minati untuk membuka halaman Detail layanan.
Klik tab Revisi.
Di panel detail di sebelah kanan, setelan GPU dicantumkan di bagian tab Container.
Gunakan perintah berikut:
gcloud run services describe SERVICE
Temukan setelan GPU dalam konfigurasi yang ditampilkan.
Di konsol Google Cloud , buka Cloud Run:
Pilih Services dari menu, lalu klik Deploy container untuk mengonfigurasi layanan baru. Jika Anda mengonfigurasi layanan yang sudah ada, klik layanan tersebut, lalu klik Edit dan deploy revisi baru.
Jika Anda mengonfigurasi layanan baru, isi halaman setelan layanan awal, lalu klik Container, Volume, Jaringan, Keamanan untuk meluaskan halaman konfigurasi layanan.
Klik tab Container.
- Hapus centang pada kotak GPU.
Klik Buat atau Deploy.
Jika Anda membuat layanan baru, lewati langkah ini. Jika Anda mengupdate layanan yang sudah ada, download konfigurasi YAML-nya:
gcloud run services describe SERVICE --format export > service.yaml
Hapus baris
nvidia.com/gpu:
dannodeSelector: run.googleapis.com/accelerator: nvidia-l4
.Buat atau perbarui layanan menggunakan perintah berikut:
gcloud run services replace service.yaml
- Setelan Instance maksimum membatasi jumlah instance per layanan. Nilai ini tidak boleh lebih tinggi dari kuota GPU per project per region untuk GPU.
- Kuota GPU yang diizinkan per project per region. Hal ini membatasi jumlah instance di seluruh layanan di region yang sama.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk mengonfigurasi dan men-deploy layanan Cloud Run, minta administrator untuk memberi Anda peran IAM berikut pada layanan:
Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika layanan Cloud Run Anda berinteraksi dengan Google Cloud API, seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.
Mengonfigurasi layanan Cloud Run dengan GPU
Setiap perubahan konfigurasi akan menghasilkan revisi baru. Revisi selanjutnya juga akan otomatis mendapatkan setelan konfigurasi ini, kecuali jika Anda melakukan pembaruan eksplisit untuk mengubahnya.
Anda dapat menggunakan Google Cloud konsol, Google Cloud CLI, atau YAML untuk mengonfigurasi GPU.
Konsol
gcloud
Untuk membuat layanan dengan GPU yang diaktifkan, gunakan perintah gcloud run deploy:
gcloud run deploy SERVICE \ --image IMAGE_URL \ --gpu 1
Ganti:
Untuk mengupdate konfigurasi GPU layanan, gunakan perintah gcloud run services update:
gcloud run services update SERVICE \ --image IMAGE_URL \ --cpu CPU \ --memory MEMORY \ --no-cpu-throttling \ --gpu GPU_NUMBER \ --gpu-type GPU_TYPE \ --max-instances MAX_INSTANCE --GPU_ZONAL_REDUNDANCY
Ganti:
YAML
Terraform
Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.
Tambahkan kode berikut ke resourcegoogle_cloud_run_v2_service
di konfigurasi Terraform Anda:resource "google_cloud_run_v2_service" "default" {
provider = google-beta
name = "SERVICE"
location = "europe-west1"
template {
gpu_zonal_redundancy_disabled = "GPU_ZONAL_REDUNDANCY"
containers {
image = "IMAGE_URL"
resources {
limits = {
"cpu" = "CPU"
"memory" = "MEMORY"
"nvidia.com/gpu" = "1"
}
}
}
node_selector {
accelerator = "GPU_TYPE"
}
}
}
Ganti:
Melihat setelan GPU
Untuk melihat setelan GPU saat ini untuk layanan Cloud Run Anda:
Konsol
gcloud
Menghapus GPU
Anda dapat menghapus GPU menggunakan Google Cloud konsol, Google Cloud CLI, atau YAML.
Konsol
gcloud
Untuk menghapus GPU, tetapkan jumlah GPU ke 0
menggunakan perintah
gcloud run services update:
gcloud run services update SERVICE --gpu 0
Ganti SERVICE dengan nama layanan Cloud Run Anda.
YAML
Library
Secara default, semua library driver NVIDIA L4 di-mount di bawah
/usr/local/nvidia/lib64
. Cloud Run secara otomatis menambahkan jalur ini ke
variabel lingkungan LD_LIBRARY_PATH
(yaitu ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64
)
dari container dengan GPU. Hal ini memungkinkan linker dinamis menemukan library driver NVIDIA. Linker menelusuri dan menyelesaikan jalur
dalam urutan yang Anda cantumkan dalam variabel lingkungan LD_LIBRARY_PATH
. Nilai
yang Anda tentukan dalam variabel ini diprioritaskan daripada jalur library driver Cloud Run
default /usr/local/nvidia/lib64
.
Jika Anda ingin menggunakan versi CUDA yang lebih tinggi dari 12.2,
cara termudah adalah dengan mengandalkan image dasar NVIDIA yang lebih baru
dengan paket kompatibilitas ke depan yang sudah diinstal. Opsi lainnya adalah
menginstal paket kompatibilitas penerusan NVIDIA secara manual
dan menambahkannya ke LD_LIBRARY_PATH
. Lihat matriks kompatibilitas NVIDIA
untuk menentukan versi CUDA mana yang kompatibel ke depan dengan versi driver NVIDIA yang diberikan (535.216.03).
Tentang GPU dan instance maksimum
Jumlah instance dengan GPU dibatasi dalam dua cara: