Meminta Cloud TPU menggunakan Flex-start

Mulai fleksibel untuk Cloud TPU, yang didukung oleh Dynamic Workload Scheduler, memberikan cara yang fleksibel dan hemat biaya untuk mengakses resource TPU bagi workload AI. Dengan mulai fleksibel, Anda dapat mem-provisioning TPU secara dinamis sesuai kebutuhan, hingga 7 hari, tanpa reservasi jangka panjang atau pengelolaan kuota yang rumit. Dengan Flex-start, Anda mengirimkan permintaan penyediaan TPU yang tetap ada hingga kapasitas tersedia. Setelah tersedia, penyediaan mulai fleksibel akan menyediakan VM TPU untuk berjalan selama durasi yang Anda tentukan dalam permintaan.

Mulai fleksibel cocok untuk eksperimen cepat, pengujian skala kecil, penyediaan TPU dinamis untuk workload inferensi, penyesuaian model, dan menjalankan workload yang membutuhkan waktu kurang dari 7 hari. Untuk mengetahui informasi selengkapnya tentang opsi pemakaian TPU lainnya, lihat Opsi pemakaian Cloud TPU.

Anda dapat menghapus resource TPU kapan saja untuk menghentikan penagihan. Untuk mengetahui informasi selengkapnya tentang harga TPU, lihat Harga Cloud TPU.

Batasan

Cloud TPU dengan mulai fleksibel memiliki batasan berikut:

  • Anda dapat meminta sumber daya Mulai fleksibel untuk durasi hingga 7 hari.
  • Mulai fleksibel mendukung versi dan zona Cloud TPU berikut:
  • Anda harus menggunakan API resource yang diantrekan untuk menggunakan Mulai fleksibel dengan Cloud TPU.

Sebelum memulai

Sebelum meminta TPU mulai fleksibel, Anda harus:

  • Menginstal Google Cloud CLI.
  • Buat Google Cloud project
  • Aktifkan Cloud TPU API

Untuk mengetahui informasi selengkapnya, lihat Menyiapkan lingkungan Cloud TPU.

Anda juga harus memastikan bahwa Anda memiliki kuota yang cukup untuk instance yang dapat di-preempt guna menggunakan Mulai fleksibel. Jika Anda memerlukan lebih banyak core TPU daripada jumlah yang diberikan oleh kuota default, Anda harus meminta alokasi kuota yang lebih tinggi. Untuk mengetahui informasi selengkapnya tentang nilai default dan cara meminta kuota tambahan, lihat kuota Cloud TPU.

Meminta TPU mulai fleksibel

Mulai fleksibel menggunakan TPU Queued Resources API untuk meminta resource TPU secara berurutan. Saat resource yang diminta tersedia, resource tersebut akan ditetapkan ke project Google Cloud Anda untuk penggunaan eksklusif Anda secara langsung. Setelah durasi berjalan yang diminta, VM TPU akan dihapus dan resource yang diantrekan akan berpindah ke status SUSPENDED. Untuk mengetahui informasi selengkapnya tentang resource dalam antrean, lihat Mengelola resource dalam antrean.

Untuk meminta TPU mulai fleksibel, gunakan perintah gcloud alpha compute tpus queued-resources create dengan flag --provisioning-model yang ditetapkan ke flex-start dan flag --max-run-duration yang ditetapkan ke durasi yang Anda inginkan untuk menjalankan TPU.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Ganti placeholder berikut:

  • QUEUED_RESOURCE_ID: ID yang ditetapkan pengguna untuk permintaan resource yang diantrekan.
  • ZONE: Zona tempat membuat TPU VM.
  • ACCELERATOR_TYPE: Menentukan versi dan ukuran Cloud TPU yang akan dibuat. Untuk mengetahui informasi selengkapnya tentang jenis akselerator yang didukung untuk setiap versi TPU, lihat Versi TPU.
  • RUNTIME_VERSION: Versi software Cloud TPU.
  • NODE_ID: ID yang ditetapkan pengguna untuk TPU yang dibuat saat permintaan resource dalam antrean dialokasikan.
  • RUN_DURATION: Durasi TPU harus berjalan. Format durasi sebagai jumlah hari, jam, menit, dan detik, diikuti dengan d, h, m, dan s. Misalnya, tentukan 72h untuk durasi 72 jam, atau tentukan 1d2h3m4s untuk durasi 1 hari, 2 jam, 3 menit, dan 4 detik. Durasi maksimumnya adalah 7 hari.

Anda dapat menyesuaikan lebih lanjut permintaan resource dalam antrean untuk dijalankan pada waktu tertentu dengan flag tambahan:

  • --valid-after-duration: Durasi sebelum TPU tidak boleh disediakan.
  • --valid-after-time: Waktu sebelum TPU tidak boleh disediakan.
  • --valid-until-duration: Durasi validitas permintaan. Jika permintaan belum dipenuhi dalam durasi ini, permintaan akan berakhir dan berpindah ke status FAILED.
  • --valid-until-time: Waktu permintaan berlaku. Jika permintaan belum dipenuhi hingga saat ini, permintaan akan berakhir dan berpindah ke status FAILED.

Untuk mengetahui informasi selengkapnya tentang flag opsional, lihat dokumentasi gcloud alpha compute tpus queued-resources create.

Mendapatkan status permintaan Mulai fleksibel

Untuk memantau status permintaan Mulai fleksibel, gunakan API resource dalam antrean untuk mendapatkan status permintaan resource dalam antrean menggunakan perintah gcloud alpha compute tpus queued-resources describe:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Resource dalam antrean dapat berada dalam salah satu status berikut:

  • WAITING_FOR_RESOURCES: Permintaan telah lulus validasi awal dan telah ditambahkan ke antrean.
  • PROVISIONING: Permintaan telah dipilih dari antrean, dan VM TPU sedang dibuat.
  • ACTIVE: Permintaan telah dipenuhi, dan VM TPU sudah siap.
  • FAILED: Permintaan tidak dapat diselesaikan. Gunakan perintah describe untuk detail selengkapnya.
  • SUSPENDING: Resource yang terkait dengan permintaan sedang dihapus.
  • SUSPENDED: Resource yang terkait dengan permintaan telah dihapus.

Untuk mengetahui informasi selengkapnya, lihat Mengambil informasi status dan diagnostik tentang permintaan resource yang diantrekan.

Memantau waktu berjalan TPU mulai fleksibel

Anda dapat memantau waktu berjalan TPU Flex-start dengan memeriksa stempel waktu penghentian TPU:

  1. Dapatkan detail permintaan resource yang diantrekan.
  2. Pilih salah satu opsi berikut, bergantung pada apakah TPU Anda telah dibuat:

    • Jika resource dalam antrean sedang menunggu resource: Di output, lihat kolom maxRunDuration. Kolom ini menentukan berapa lama TPU akan berjalan setelah dibuat.

    • Jika TPU yang terkait dengan resource dalam antrean telah dibuat: Di output, lihat kolom terminationTimestamp yang tercantum untuk setiap node di resource dalam antrean. Kolom ini menentukan kapan TPU akan dihentikan.

Menghapus resource yang diantrekan

Anda dapat menghapus permintaan resource dalam antrean dan TPU yang terkait dengan permintaan tersebut dengan menghapus permintaan resource dalam antrean dan meneruskan tanda --force ke perintah queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Jika Anda menghapus TPU secara langsung menggunakan perintah gcloud compute tpus tpu-vm delete, Anda juga perlu menghapus resource yang diantrekan, seperti yang ditunjukkan dalam contoh berikut. Saat Anda menghapus TPU, permintaan resource yang diantrekan akan bertransisi ke status SUSPENDED, setelah itu Anda dapat menghapus permintaan resource yang diantrekan.

Untuk menghapus TPU, gunakan perintah gcloud compute tpus tpu-vm delete:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Kemudian, untuk menghapus resource yang diantrekan, gunakan perintah gcloud alpha compute tpus queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Untuk mengetahui informasi selengkapnya, lihat Menghapus permintaan resource dalam antrean.