Penjadwalan pengumpulan TPU untuk beban kerja inferensi

Trillium (v6e) menyertakan fitur yang disebut "penjadwalan pengumpulan" yang memungkinkan Anda mengelompokkan sekumpulan slice TPU, satu atau multi-host, yang dimaksudkan untuk menayangkan replika model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan GKE.

Dokumen ini membahas penggunaan penjadwalan pengumpulan dengan Cloud TPU API. Lihat dokumentasi GKE untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan pengumpulan dengan GKE.

Dengan membuat koleksi untuk beban kerja inferensi, Google Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Hal ini berguna untuk workload inferensi dengan ketersediaan tinggi sebagai masalah. Google Cloud memastikan ketersediaan tinggi untuk pengumpulan guna mengelola traffic masuk. Sebagian slice dalam koleksi selalu tersedia untuk menangani traffic masuk.

Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.

Membuat koleksi dari Cloud TPU API

Saat meminta resource yang diantrekan menggunakan Cloud TPU API, Anda menggunakan flag --workload-type=AVAILABILITY-OPTIMIZED untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa infrastruktur tersebut dimaksudkan untuk digunakan untuk workload yang berfokus pada ketersediaan.

Perintah berikut menyediakan koleksi menggunakan Cloud TPU API:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Flag --node-count menentukan jumlah slice yang Anda inginkan dalam resource yang diantrekan. Tindakan ini akan membuat kumpulan slice TPU.

Opsional: Flag --node-prefix menentukan awalan untuk nama slice.