Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan VM mulai fleksibel dengan inferensi

Panduan ini menjelaskan manfaat dan batasan penggunaan VM mulai fleksibel dengan inferensi Vertex AI. Panduan ini juga menjelaskan cara men-deploy model yang menggunakan VM mulai fleksibel.

Ringkasan

Anda dapat mengurangi biaya menjalankan tugas inferensi dengan menggunakan VM Mulai Fleksibel, yang didukung oleh Dynamic Workload Scheduler. VM dengan mulai fleksibel menawarkan diskon yang signifikan dan sangat cocok untuk workload berdurasi singkat.

Anda dapat menentukan berapa lama Anda memerlukan VM Mulai fleksibel, untuk durasi apa pun hingga tujuh hari. Setelah waktu yang diminta berakhir, model yang di-deploy akan otomatis di-un-deploy. Anda juga dapat membatalkan deployment model secara manual sebelum waktu berakhir.

Pembatalan deployment otomatis

Jika Anda meminta VM mulai fleksibel untuk durasi tertentu, model Anda akan otomatis di-un-deploy setelah jangka waktu tersebut. Misalnya, jika Anda meminta VM mulai fleksibel selama lima jam, model akan otomatis di-un-deploy lima jam setelah pengiriman. Anda hanya dikenai biaya untuk jangka waktu beban kerja Anda berjalan.

Batasan dan persyaratan

Pertimbangkan batasan dan persyaratan berikut saat Anda menggunakan VM mulai fleksibel:

Durasi maksimum: VM mulai fleksibel memiliki durasi penggunaan maksimum tujuh hari. Setiap permintaan penayangan untuk durasi yang lebih lama akan ditolak.
Dukungan TPU: Penggunaan VM mulai fleksibel dengan Pod TPU tidak didukung.
Kuota: Pastikan Anda memiliki kuota preemptible Vertex AI yang cukup sebelum meluncurkan tugas. Untuk mempelajari lebih lanjut, lihat Kuota kapasitas.
Penyediaan dalam antrean: Penggunaan VM mulai fleksibel dengan penyediaan dalam antrean tidak didukung.
Daur ulang node: Daur ulang node tidak didukung.

Penagihan

Jika workload Anda berjalan kurang dari tujuh hari, penggunaan VM Mulai Fleksibel dapat mengurangi biaya Anda.

Saat menggunakan VM Mulai Fleksibel, Anda akan ditagih berdasarkan durasi tugas dan jenis mesin yang Anda pilih. Anda hanya akan ditagih untuk waktu saat beban kerja Anda berjalan secara aktif. Anda tidak membayar waktu saat tugas berada dalam antrean atau waktu setelah durasi yang diminta berakhir.

Penagihan didistribusikan di dua SKU:

SKU Compute Engine, dengan label vertex-ai-online-prediction. Lihat harga Dynamic Workload Scheduler.
SKU biaya pengelolaan Vertex AI. Lihat harga Vertex AI.

Mendapatkan inferensi menggunakan VM mulai fleksibel

Untuk menggunakan VM mulai fleksibel saat men-deploy model untuk mendapatkan inferensi, Anda dapat menggunakan REST API.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
PROJECT_ID: Project ID Anda.
ENDPOINT_ID: ID untuk endpoint tersebut.
MODEL_ID: ID untuk model yang akan di-deploy.
DEPLOYED_MODEL_NAME: Nama untuk DeployedModel. Anda juga dapat menggunakan nama tampilan Model untuk DeployedModel.
MACHINE_TYPE: Opsional. Resource mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah n1-standard-2. Pelajari jenis-jenis mesin lebih lanjut.
ACCELERATOR_TYPE: Opsional. Jenis akselerator yang akan dipasang ke mesin. Pelajari lebih lanjut.
ACCELERATOR_COUNT: Opsional. Jumlah akselerator untuk setiap replika yang akan digunakan.
MAX_RUNTIME_DURATION: Durasi maksimum untuk deployment mulai fleksibel. Model yang di-deploy akan otomatis di-undeploy setelah durasi ini. Tentukan durasi dalam detik, yang diakhiri dengan s. Misalnya, 3600s untuk satu jam. Nilai maksimumnya adalah 604800s (7 hari).
PROJECT_NUMBER: Nomor project yang dibuat secara otomatis untuk project Anda.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

Meminta isi JSON:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Menggunakan VM mulai fleksibel dengan inferensi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Ringkasan

Pembatalan deployment otomatis

Batasan dan persyaratan

Penagihan

Mendapatkan inferensi menggunakan VM mulai fleksibel

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

Langkah berikutnya

Menggunakan VM mulai fleksibel dengan inferensi