Panduan ini menjelaskan manfaat dan batasan penggunaan VM mulai fleksibel dengan inferensi Vertex AI. Panduan ini juga menjelaskan cara men-deploy model yang menggunakan VM mulai fleksibel.
Ringkasan
Anda dapat mengurangi biaya menjalankan tugas inferensi dengan menggunakan VM mulai fleksibel, yang didukung oleh Dynamic Workload Scheduler. VM mulai fleksibel menawarkan diskon yang signifikan dan sangat cocok untuk workload berdurasi singkat.
Anda dapat menentukan berapa lama Anda memerlukan VM mulai fleksibel, untuk durasi apa pun hingga tujuh hari. Setelah waktu yang diminta berakhir, model yang di-deploy akan otomatis di-un-deploy. Anda juga dapat membatalkan deployment model secara manual sebelum waktu berakhir.
Pembatalan deployment otomatis
Jika Anda meminta VM mulai fleksibel untuk durasi tertentu, model Anda akan otomatis di-undeploy setelah jangka waktu tersebut. Misalnya, jika Anda meminta VM mulai fleksibel selama lima jam, model akan otomatis di-un-deploy lima jam setelah pengiriman. Anda hanya dikenai biaya untuk durasi waktu beban kerja Anda berjalan.
Batasan dan persyaratan
Pertimbangkan batasan dan persyaratan berikut saat Anda menggunakan VM mulai fleksibel:
- Durasi maksimum: VM mulai fleksibel memiliki durasi penggunaan maksimum tujuh hari. Setiap permintaan penayangan dengan durasi yang lebih lama akan ditolak.
- Dukungan TPU: Penggunaan VM mulai fleksibel dengan Pod TPU tidak didukung.
- Kuota: Pastikan Anda memiliki kuota preemptible Vertex AI yang cukup sebelum meluncurkan tugas. Untuk mempelajari lebih lanjut, lihat Kuota.
- Penyediaan dalam antrean: Penggunaan VM mulai fleksibel dengan penyediaan dalam antrean tidak didukung.
- Daur ulang node: Daur ulang node tidak didukung.
Penagihan
Jika workload Anda berjalan kurang dari tujuh hari, penggunaan VM mulai fleksibel dapat mengurangi biaya Anda.
Saat menggunakan VM mulai fleksibel, Anda akan ditagih berdasarkan durasi tugas dan jenis mesin yang Anda pilih. Anda hanya dikenai biaya untuk waktu saat beban kerja Anda berjalan aktif. Anda tidak membayar waktu saat tugas berada dalam antrean atau waktu setelah durasi yang diminta berakhir.
Penagihan didistribusikan di dua SKU:
SKU Compute Engine, dengan label
vertex-ai-online-prediction
. Lihat harga Dynamic Workload Scheduler.SKU biaya pengelolaan Vertex AI. Lihat harga Vertex AI.
Mendapatkan inferensi menggunakan VM flex-start
Untuk menggunakan VM mulai fleksibel saat men-deploy model untuk mendapatkan inferensi, Anda dapat menggunakan REST API.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
- PROJECT_ID: Project ID Anda.
- ENDPOINT_ID: ID untuk endpoint tersebut.
- MODEL_ID: ID untuk model yang akan di-deploy.
-
DEPLOYED_MODEL_NAME: Nama untuk
DeployedModel
. Anda juga dapat menggunakan nama tampilanModel
untukDeployedModel
. -
MACHINE_TYPE: Opsional. Resource mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah
n1-standard-2
. Pelajari jenis-jenis mesin lebih lanjut. - ACCELERATOR_TYPE: Opsional. Jenis akselerator yang akan dipasang ke mesin. Pelajari lebih lanjut.
- ACCELERATOR_COUNT: Opsional. Jumlah akselerator untuk setiap replika yang akan digunakan.
-
MAX_RUNTIME_DURATION: Durasi maksimum untuk deployment mulai fleksibel.
Model yang di-deploy akan otomatis di-undeploy setelah durasi ini. Tentukan durasi
dalam detik, yang diakhiri dengan
s
. Misalnya,3600s
untuk satu jam. Nilai maksimumnya adalah604800s
(7 hari). - PROJECT_NUMBER: Nomor project yang dibuat secara otomatis untuk project Anda.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel
Meminta isi JSON:
{ "deployedModel": { "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID", "displayName": "DEPLOYED_MODEL_NAME", "enableContainerLogging": true, "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACCELERATOR_TYPE", "acceleratorCount": ACCELERATOR_COUNT }, "flexStart": { "maxRuntimeDuration": "MAX_RUNTIME_DURATION" }, "minReplicaCount": 2, "maxReplicaCount": 2 }, }, }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata", "genericMetadata": { "createTime": "2020-10-19T17:53:16.502088Z", "updateTime": "2020-10-19T17:53:16.502088Z" } } }