Meminta Cloud TPU menggunakan Flex-start
Flex-start untuk Cloud TPU, yang didukung oleh Dynamic Workload Scheduler, menyediakan cara yang fleksibel dan hemat biaya untuk mengakses resource TPU untuk workload AI. Flex-start memungkinkan Anda menyediakan TPU secara dinamis sesuai kebutuhan, maksimal 7 hari, tanpa reservasi jangka panjang atau pengelolaan kuota yang rumit. Dengan Flex-start, Anda mengirimkan permintaan penyediaan TPU yang tetap ada hingga kapasitas tersedia. Setelah tersedia, Flex-start akan menyediakan VM TPU untuk dijalankan selama durasi yang Anda tentukan dalam permintaan.
Flex-start cocok untuk eksperimen cepat, pengujian skala kecil, penyediaan dinamis TPU untuk beban kerja inferensi, penyesuaian model, dan pengoperasian beban kerja yang memerlukan waktu kurang dari 7 hari. Untuk mengetahui informasi selengkapnya tentang opsi penggunaan TPU lainnya, lihat Opsi penggunaan Cloud TPU.
Anda dapat menghapus resource TPU kapan saja untuk menghentikan penagihan. Untuk mengetahui informasi selengkapnya tentang harga TPU, lihat Harga Cloud TPU.
Batasan
Cloud TPU dengan mulai fleksibel memiliki batasan berikut:
- Anda dapat meminta resource dengan mulai fleksibel selama durasi maksimal 7 hari.
- Anda hanya dapat meminta TPU v6e dan v5e dengan mulai fleksibel di zona yang ditentukan:
- Anda harus menggunakan API resource yang diantrekan untuk menggunakan Flex-start dengan Cloud TPU.
Sebelum memulai
Sebelum meminta TPU dengan mulai fleksibel, Anda harus:
- Menginstal Google Cloud CLI.
- Membuat Google Cloud project
- Mengaktifkan Cloud TPU API
Untuk mengetahui informasi selengkapnya, lihat Menyiapkan lingkungan Cloud TPU.
Anda juga harus memastikan bahwa Anda memiliki kuota yang dapat di-preempt yang memadai untuk menggunakan Flex-start. Jika Anda memerlukan lebih banyak core TPU daripada jumlah yang diberikan oleh kuota default, Anda harus meminta alokasi kuota yang lebih tinggi. Untuk mengetahui informasi selengkapnya tentang setelan default dan meminta kuota lebih banyak, lihat Kuota Cloud TPU.
Meminta TPU dengan mulai fleksibel
Flex-start menggunakan API resource dalam antrean TPU untuk meminta resource TPU dengan cara
antrean. Saat tersedia, resource yang diminta akan ditetapkan ke
project Google Cloud Anda untuk penggunaan eksklusif dan langsung. Setelah durasi eksekusi yang diminta, VM TPU akan dihapus dan resource yang diantrekan akan berpindah ke status SUSPENDED
. Untuk mengetahui informasi selengkapnya tentang resource dalam antrean, lihat Mengelola
resource dalam antrean.
Untuk meminta TPU dengan Flex-start, gunakan perintah gcloud alpha compute tpus queued-resources
create
dengan flag --provisioning-model
ditetapkan ke flex-start
dan
flag --max-run-duration
ditetapkan ke durasi yang Anda inginkan untuk dijalankan TPU.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Ganti placeholder berikut:
- QUEUED_RESOURCE_ID: ID yang ditetapkan pengguna untuk permintaan resource yang diantrekan.
- ZONE: Zona tempat membuat VM TPU.
- ACCELERATOR_TYPE: Menentukan versi dan ukuran Cloud TPU yang akan dibuat. Untuk mengetahui informasi selengkapnya tentang jenis akselerator yang didukung untuk setiap versi TPU, lihat versi TPU.
- RUNTIME_VERSION: Versi software Cloud TPU.
- NODE_ID: ID yang ditetapkan pengguna untuk TPU yang dibuat saat permintaan resource yang diantrekan dialokasikan.
- RUN_DURATION: Durasi TPU harus berjalan. Format durasi
sebagai jumlah hari, jam, menit, dan detik, masing-masing diikuti dengan
d
,h
,m
, dans
. Misalnya, tentukan72h
untuk durasi 72 jam, atau tentukan1d2h3m4s
untuk durasi 1 hari, 2 jam, 3 menit, dan 4 detik. Durasi maksimumnya adalah 7 hari.
Anda dapat menyesuaikan lebih lanjut permintaan resource yang diantrekan untuk dijalankan pada waktu tertentu dengan flag tambahan:
--valid-after-duration
: Durasi sebelum TPU tidak boleh disediakan.--valid-after-time
: Waktu sebelum TPU tidak boleh disediakan.--valid-until-duration
: Durasi validitas permintaan. Jika permintaan belum terpenuhi dalam durasi ini, masa berlaku permintaan akan berakhir dan berpindah ke statusFAILED
.--valid-until-time
: Waktu permintaan valid. Jika permintaan belum terpenuhi pada saat ini, permintaan akan berakhir masa berlakunya dan beralih ke statusFAILED
.
Untuk mengetahui informasi selengkapnya tentang flag opsional, lihat
dokumentasi gcloud alpha compute tpus queued-resources
create
.
Mendapatkan status permintaan Flex-start
Untuk memantau status permintaan Flex-start, gunakan API resource dalam antrean
untuk mendapatkan status permintaan resource dalam antrean menggunakan perintah
gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Resource yang diantrekan dapat berada dalam salah satu status berikut:
WAITING_FOR_RESOURCES
: Permintaan telah lulus validasi awal dan telah ditambahkan ke antrean.PROVISIONING
: Permintaan telah dipilih dari antrean, dan VM TPU sedang dibuat.ACTIVE
: Permintaan telah dipenuhi, dan VM TPU siap.FAILED
: Permintaan tidak dapat diselesaikan. Gunakan perintahdescribe
untuk mengetahui detail selengkapnya.SUSPENDING
: Resource yang terkait dengan permintaan sedang dihapus.SUSPENDED
: Resource yang terkait dengan permintaan telah dihapus.
Untuk informasi selengkapnya, lihat Mengambil status dan informasi diagnostik tentang permintaan resource yang diantrekan.
Memantau waktu proses TPU Flex-start
Anda dapat memantau waktu proses TPU Flex-start dengan memeriksa stempel waktu penghentian TPU:
- Dapatkan detail permintaan resource yang diantrekan.
Pilih salah satu opsi berikut, bergantung pada apakah TPU Anda telah dibuat:
Jika resource yang diantrean sedang menunggu resource: Pada output, lihat kolom
maxRunDuration
. Kolom ini menentukan berapa lama TPU akan berjalan setelah dibuat.Jika TPU yang terkait dengan resource dalam antrean telah dibuat: Dalam output, lihat kolom
terminationTimestamp
yang tercantum untuk setiap node dalam resource dalam antrean. Kolom ini menentukan kapan TPU akan dihentikan.
Menghapus resource yang diantrekan
Anda dapat menghapus permintaan resource yang diantrekan dan TPU yang terkait dengan permintaan tersebut dengan menghapus permintaan resource yang diantrekan dan meneruskan tanda --force
ke perintah queued-resources
delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Jika Anda menghapus TPU secara langsung menggunakan perintah gcloud compute tpus tpu-vm delete
, Anda juga perlu menghapus resource yang diantrekan, seperti yang ditunjukkan dalam contoh berikut.
Saat Anda menghapus TPU, permintaan resource yang diantrean akan bertransisi ke
status SUSPENDED
, setelah itu Anda dapat menghapus permintaan resource yang diantrean.
Untuk menghapus TPU, gunakan perintah gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Kemudian, untuk menghapus resource yang diantrekan, gunakan perintah
gcloud alpha compute tpus queued-resources delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Untuk mengetahui informasi selengkapnya, lihat Menghapus permintaan resource yang diantrekan.