Mengenkripsi data workload GPU yang sedang digunakan dengan Confidential GKE Node


Halaman ini menunjukkan cara mengenkripsi data workload GPU yang sedang digunakan dengan menjalankan workload di Confidential Google Kubernetes Engine Nodes yang dienkripsi. Anda juga akan mempelajari batasan dan pertimbangan yang berlaku untuk workload GPU yang berjalan di node terenkripsi ini.

Halaman ini ditujukan untuk Engineer dan Operator Keamanan yang menginginkan peningkatan keamanan untuk data dalam workload yang dipercepat, seperti tugas AI/ML. Sebelum membaca halaman ini, pastikan Anda memahami konsep berikut:

Sebelum memulai

Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:

  • Aktifkan Google Kubernetes Engine API.
  • Aktifkan Google Kubernetes Engine API
  • Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan gcloud components update.

Ketersediaan

Untuk menggunakan Confidential GKE Nodes guna menjalankan workload GPU, Anda harus memenuhi semua kondisi berikut:

  • Anda harus menggunakan cluster mode GKE Standard.
  • Cluster dan node harus menjalankan GKE versi 1.32.2-gke.1297000 atau yang lebih baru.
  • Node harus berada di zona yang mendukung NVIDIA Confidential Computing. Untuk mengetahui informasi selengkapnya, lihat Melihat zona yang didukung.
  • Node harus menggunakan Spot VM, preemptible VM, atau flex-start dengan penyediaan dalam antrean.
  • Untuk menggunakan mulai fleksibel dengan penyediaan dalam antrean, cluster harus menjalankan GKE versi 1.32.2-gke.1652000 atau yang lebih baru.
  • Node harus menggunakan hanya satu GPU NVIDIA H100 80 GB dan jenis mesin a3-highgpu-1g.
  • Node harus menggunakan teknologi Confidential Computing TDX Intel.
  • Anda harus memiliki kuota untuk GPU H100 80 yang dapat diakhiri (compute.googleapis.com/preemptible_nvidia_h100_gpus) di lokasi node Anda. Untuk mengetahui informasi selengkapnya tentang cara mengelola kuota, lihat Melihat dan mengelola kuota

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk membuat Node GKE Rahasia, minta administrator Anda untuk memberi Anda peran IAM berikut pada Google Cloud project:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Batasan

  • Cluster mode Autopilot tidak didukung.
  • Fitur berbagi GPU, seperti GPU berbagi waktu atau multi-instance, tidak didukung.

Mengaktifkan Confidential GKE Node dalam mode Standard

Anda dapat menjalankan workload GPU di Confidential GKE Node dalam cluster atau node pool mode Standard. Confidential GKE Node harus menggunakan teknologi Confidential Computing Intel TDX.

Mengaktifkan Confidential GKE Node di cluster Standard baru

Saat membuat cluster mode Standar baru yang menggunakan Node GKE Rahasia, pastikan Anda menentukan setelan cluster berikut:

  • Lokasi: region atau zona yang mendukung NVIDIA Confidential Computing. Untuk mengetahui informasi selengkapnya, lihat Melihat zona yang didukung.
  • Teknologi Confidential Computing: Intel TDX
  • Versi cluster: 1.32.2-gke.1297000 atau yang lebih baru

Untuk mendapatkan petunjuk, lihat Mengaktifkan Confidential GKE Node di cluster Standard.

Mengaktifkan Confidential GKE Node di node pool Standard baru

Anda dapat mengaktifkan Confidential GKE Node di node pool baru jika cluster tidak mengaktifkan Confidential GKE Node di tingkat cluster. Cluster harus memenuhi persyaratan di bagian Ketersediaan.

Untuk membuat node pool GPU baru yang menggunakan Confidential GKE Node, pilih salah satu opsi berikut:

Konsol

  1. Buka cluster Kubernetes

  2. Klik nama cluster mode Standar yang akan diubah.
  3. Klik Add node pool. Halaman Tambahkan node pool akan terbuka.
  4. Di panel Node pool details, lakukan tindakan berikut:
    1. Pilih Tentukan lokasi node.
    2. Pilih hanya zona yang didukung dan tercantum di bagian Ketersediaan.
    3. Pastikan versi bidang kontrol adalah 1.32.2-gke.1297000 atau yang lebih baru.
  5. Di menu navigasi, klik Node.
  6. Di panel Configure node settings, lakukan tindakan berikut:
    1. Di bagian Konfigurasi mesin, klik GPU.
    2. Di menu GPU type, pilih NVIDIA H100 80GB.
    3. Di menu Number of GPUs, pilih 1.
    4. Pastikan Enable GPU sharing tidak dipilih.
    5. Di bagian Penginstalan Driver GPU, pilih Dikelola pengguna.
    6. Di bagian Machine type, pastikan jenis mesinnya adalah a3-highgpu-1g.
    7. Pilih Aktifkan node di Spot VM.
  7. Jika Anda siap membuat node pool, klik Buat.

gcloud

Anda dapat membuat node pool GPU yang menjalankan Confidential GKE Node di Spot VM atau dengan menggunakan flex-start dengan penyediaan dalam antrean (Pratinjau).

  • Buat node pool GPU yang menjalankan Confidential GKE Nodes di Spot VM:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Ganti kode berikut:

    • NODE_POOL_NAME: nama untuk node pool baru Anda.
    • CLUSTER_NAME: nama cluster yang ada.
    • LOCATION: lokasi untuk node pool baru. Lokasi harus mendukung penggunaan GPU di Confidential GKE Node.
    • NODE_LOCATION1,NODE_LOCATION2,...: daftar zona yang dipisahkan koma untuk menjalankan node. Zona ini harus mendukung penggunaan NVIDIA Confidential Computing. Untuk mengetahui informasi selengkapnya, lihat Melihat zona yang didukung.
  • Buat node pool GPU yang menjalankan Confidential GKE Node menggunakan flex-start dengan penyediaan dalam antrean (Pratinjau):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Ganti TOTAL_MAX_NODES dengan jumlah maksimum node yang dapat diskalakan secara otomatis oleh node pool.

    Untuk mengetahui informasi selengkapnya tentang opsi konfigurasi di flex-start dengan penyediaan dalam antrean, lihat Menjalankan beban kerja skala besar dengan flex-start dengan penyediaan dalam antrean.

Mengaktifkan Confidential GKE Node di node pool Standard yang ada

Anda dapat mengupdate node pool Standard yang ada untuk menggunakan Mulai fleksibel jika cluster tidak mengaktifkan Confidential GKE Node di tingkat cluster. Pastikan cluster dan kumpulan node yang ada memenuhi persyaratan yang tercantum di bagian Ketersediaan.

Untuk mengupdate node pool Anda agar menggunakan teknologi Intel TDX Confidential Computing, lihat Mengupdate node pool yang sudah ada.

Instal driver GPU yang mendukung Confidential GKE Node

Setelah mengaktifkan Confidential GKE Node di node pool GPU, Anda harus menginstal driver yang mendukung menjalankan workload GPU di node ini.

Perubahan ini memerlukan pembuatan ulang node, yang dapat menyebabkan gangguan pada workload yang sedang berjalan. Untuk mengetahui detail tentang perubahan khusus ini, temukan baris yang sesuai dalam tabel perubahan manual yang membuat ulang node menggunakan strategi upgrade node tanpa mematuhi kebijakan pemeliharaan. Untuk mempelajari lebih lanjut update node, lihat Merencanakan gangguan update node.

Untuk mendapatkan petunjuk, lihat tab "COS" di Menginstal driver GPU NVIDIA secara manual.

Memecahkan masalah

Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah GPU di GKE.

Langkah berikutnya