Menggunakan VM mulai fleksibel DWS dengan inferensi

Panduan ini menjelaskan manfaat dan batasan penggunaan VM mulai fleksibel dengan inferensi Vertex AI. Panduan ini juga menjelaskan cara men-deploy model yang menggunakan VM mulai fleksibel.

Ringkasan

Anda dapat mengurangi biaya menjalankan tugas inferensi dengan menggunakan VM mulai fleksibel, yang didukung oleh Dynamic Workload Scheduler. VM mulai fleksibel menawarkan diskon yang signifikan dan sangat cocok untuk workload berdurasi singkat.

Anda dapat menentukan berapa lama Anda memerlukan VM mulai fleksibel, untuk durasi apa pun hingga tujuh hari. Setelah waktu yang diminta berakhir, model yang di-deploy akan otomatis di-un-deploy. Anda juga dapat membatalkan deployment model secara manual sebelum waktu berakhir.

Pembatalan deployment otomatis

Jika Anda meminta VM mulai fleksibel untuk durasi tertentu, model Anda akan otomatis di-undeploy setelah jangka waktu tersebut. Misalnya, jika Anda meminta VM mulai fleksibel selama lima jam, model akan otomatis di-un-deploy lima jam setelah pengiriman. Anda hanya dikenai biaya untuk durasi waktu beban kerja Anda berjalan.

Batasan dan persyaratan

Pertimbangkan batasan dan persyaratan berikut saat Anda menggunakan VM mulai fleksibel:

  • Durasi maksimum: VM mulai fleksibel memiliki durasi penggunaan maksimum tujuh hari. Setiap permintaan penayangan dengan durasi yang lebih lama akan ditolak.
  • Dukungan TPU: Penggunaan VM mulai fleksibel dengan Pod TPU tidak didukung.
  • Kuota: Pastikan Anda memiliki kuota preemptible Vertex AI yang cukup sebelum meluncurkan tugas. Untuk mempelajari lebih lanjut, lihat Kuota.
  • Penyediaan dalam antrean: Penggunaan VM mulai fleksibel dengan penyediaan dalam antrean tidak didukung.
  • Daur ulang node: Daur ulang node tidak didukung.

Penagihan

Jika workload Anda berjalan kurang dari tujuh hari, penggunaan VM mulai fleksibel dapat mengurangi biaya Anda.

Saat menggunakan VM mulai fleksibel, Anda akan ditagih berdasarkan durasi tugas dan jenis mesin yang Anda pilih. Anda hanya dikenai biaya untuk waktu saat beban kerja Anda berjalan aktif. Anda tidak membayar waktu saat tugas berada dalam antrean atau waktu setelah durasi yang diminta berakhir.

Penagihan didistribusikan di dua SKU:

Mendapatkan inferensi menggunakan VM flex-start

Untuk menggunakan VM mulai fleksibel saat men-deploy model untuk mendapatkan inferensi, Anda dapat menggunakan REST API.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
  • PROJECT_ID: Project ID Anda.
  • ENDPOINT_ID: ID untuk endpoint tersebut.
  • MODEL_ID: ID untuk model yang akan di-deploy.
  • DEPLOYED_MODEL_NAME: Nama untuk DeployedModel. Anda juga dapat menggunakan nama tampilan Model untuk DeployedModel.
  • MACHINE_TYPE: Opsional. Resource mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah n1-standard-2. Pelajari jenis-jenis mesin lebih lanjut.
  • ACCELERATOR_TYPE: Opsional. Jenis akselerator yang akan dipasang ke mesin. Pelajari lebih lanjut.
  • ACCELERATOR_COUNT: Opsional. Jumlah akselerator untuk setiap replika yang akan digunakan.
  • MAX_RUNTIME_DURATION: Durasi maksimum untuk deployment mulai fleksibel. Model yang di-deploy akan otomatis di-undeploy setelah durasi ini. Tentukan durasi dalam detik, yang diakhiri dengan s. Misalnya, 3600s untuk satu jam. Nilai maksimumnya adalah 604800s (7 hari).
  • PROJECT_NUMBER: Nomor project yang dibuat secara otomatis untuk project Anda.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

Meminta isi JSON:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Langkah berikutnya