Temukan, uji, sesuaikan, dan deploy model menggunakan Model Garden di konsolGoogle Cloud . Anda juga dapat men-deploy model Model Garden menggunakan Google Cloud CLI.
Mengirim perintah pengujian
Di Google Cloud console, buka halaman Model Garden.
Temukan model yang didukung yang ingin Anda uji, lalu klik Lihat detail.
Klik Open perintah design.
Anda akan diarahkan ke halaman Prompt design.
Di Prompt, masukkan perintah yang ingin diuji.
Opsional: Konfigurasikan parameter model.
Klik Submit.
Menyesuaikan model
Di Google Cloud console, buka halaman Model Garden.
Di Search models, masukkan BERT atau T5-FLAN, lalu klik kaca pembesar untuk melakukan penelusuran.
Klik Lihat detail pada kartu model T5-FLAN atau BERT.
Klik Open fine-tuning pipeline.
Anda akan diarahkan ke halaman pipeline Vertex AI.
Untuk memulai penyesuaian, klik Create run.
Menyesuaikan di notebook
Kartu model untuk sebagian besar model dasar open source dan model yang dapat disesuaikan mendukung penyesuaian di notebook.
Di Google Cloud console, buka halaman Model Garden.
Temukan model yang didukung yang ingin Anda sesuaikan, lalu buka kartu modelnya.
Klik Open notebook.
Men-deploy model terbuka
Anda dapat men-deploy model menggunakan kartu modelnya di konsol Google Cloud atau secara terprogram.
Untuk mengetahui informasi selengkapnya tentang cara menyiapkan Google Gen AI SDK atau Google Cloud CLI, baca ringkasan Google Gen AI SDK atau Menginstal Google Cloud CLI.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Buat daftar model yang dapat Anda deploy dan catat ID model yang akan di-deploy. Secara opsional, Anda dapat mencantumkan model Hugging Face yang didukung di Model Garden dan bahkan memfilternya berdasarkan nama model. Output tidak menyertakan model yang dioptimalkan.
Lihat spesifikasi deployment untuk model menggunakan ID model dari langkah sebelumnya. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang telah diverifikasi Model Garden untuk model tertentu.
Men-deploy model ke endpoint. Model Garden menggunakan konfigurasi deployment default, kecuali jika Anda menentukan argumen dan nilai tambahan.
gcloud
Sebelum memulai, tentukan project kuota untuk menjalankan perintah berikut. Perintah yang Anda jalankan akan mengurangi kuota untuk project tersebut. Untuk mengetahui informasi selengkapnya, lihat Menetapkan project kuota.
Cantumkan model yang dapat Anda deploy dengan menjalankan perintah
gcloud beta ai model-garden models list
. Perintah ini mencantumkan semua ID model dan ID yang dapat Anda deploy sendiri.gcloud beta ai model-garden models list
Dalam output, temukan ID model yang akan di-deploy. Contoh berikut menunjukkan output singkat.
MODEL_ID SUPPORTS_DEPLOYMENT google/gemma2@gemma-2-27b Yes google/gemma2@gemma-2-27b-it Yes google/gemma2@gemma-2-2b Yes google/gemma2@gemma-2-2b-it Yes google/gemma2@gemma-2-9b Yes google/gemma2@gemma-2-9b-it Yes google/gemma@gemma-1.1-2b-it Yes google/gemma@gemma-1.1-2b-it-gg-hf Yes google/gemma@gemma-1.1-7b-it Yes google/gemma@gemma-1.1-7b-it-gg-hf Yes google/gemma@gemma-2b Yes google/gemma@gemma-2b-gg-hf Yes google/gemma@gemma-2b-it Yes google/gemma@gemma-2b-it-gg-hf Yes google/gemma@gemma-7b Yes google/gemma@gemma-7b-gg-hf Yes google/gemma@gemma-7b-it Yes google/gemma@gemma-7b-it-gg-hf Yes
Output tidak menyertakan model yang disetel atau model Hugging Face. Untuk melihat model Hugging Face yang didukung, tambahkan flag
--list-supported-hugging-face-models
.Untuk melihat spesifikasi deployment model, jalankan perintah
gcloud beta ai model-garden models list-deployment-config
. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang didukung Model Garden untuk model tertentu.gcloud beta ai model-garden models list-deployment-config \ --model=MODEL_ID
Ganti MODEL_ID dengan ID model dari perintah daftar sebelumnya, seperti
google/gemma@gemma-2b
ataustabilityai/stable-diffusion-xl-base-1.0
.Deploy model ke endpoint dengan menjalankan perintah
gcloud beta ai model-garden models deploy
. Model Garden menghasilkan nama tampilan untuk endpoint Anda dan menggunakan konfigurasi deployment default, kecuali jika Anda menentukan argumen dan nilai tambahan.Untuk menjalankan perintah secara asinkron, sertakan flag
--asynchronous
.gcloud beta ai model-garden models deploy \ --model=MODEL_ID \ [--machine-type=MACHINE_TYPE] \ [--accelerator-type=ACCELERATOR_TYPE] \ [--endpoint-display-name=ENDPOINT_NAME] \ [--hugging-face-access-token=HF_ACCESS_TOKEN] \ [--reservation-affinity reservation-affinity-type=any-reservation] \ [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \ [--asynchronous]
Ganti placeholder berikut:
- MODEL_ID: ID model dari perintah daftar sebelumnya. Untuk
model Hugging Face, gunakan format URL model Hugging Face, seperti
stabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk
model Anda, seperti
g2-standard-4
. - ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja intensif, seperti
NVIDIA_L4
. - ENDPOINT_NAME: Nama untuk endpoint Vertex AI yang di-deploy.
- HF_ACCESS_TOKEN: Untuk model Hugging Face, jika model tersebut dibatasi, berikan token akses.
- RESERVATION_RESOURCE_NAME: Untuk menggunakan pemesanan Compute Engine tertentu, tentukan nama pemesanan Anda. Jika menentukan reservasi tertentu, Anda tidak dapat menentukan
any-reservation
.
Output-nya mencakup konfigurasi deployment yang digunakan Model Garden, ID endpoint, dan ID operasi deployment, yang dapat Anda gunakan untuk memeriksa status deployment.
Using the default deployment configuration: Machine type: g2-standard-12 Accelerator type: NVIDIA_L4 Accelerator count: 1 The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28. Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods: 1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console 2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
- MODEL_ID: ID model dari perintah daftar sebelumnya. Untuk
model Hugging Face, gunakan format URL model Hugging Face, seperti
Untuk melihat detail tentang deployment Anda, jalankan perintah
gcloud beta ai endpoints list --list-model-garden-endpoints-only
:gcloud beta ai endpoints list --list-model-garden-endpoints-only \ --region=LOCATION_ID
Ganti LOCATION_ID dengan region tempat Anda men-deploy model.
Outputnya mencakup semua endpoint yang dibuat dari Model Garden dan menyertakan informasi seperti ID endpoint, nama endpoint, dan apakah endpoint dikaitkan dengan model yang di-deploy. Untuk menemukan deployment, cari nama endpoint yang ditampilkan dari perintah sebelumnya.
REST
Cantumkan semua model yang dapat di-deploy, lalu dapatkan ID model yang akan di-deploy. Kemudian, Anda dapat men-deploy model dengan konfigurasi dan endpoint default-nya. Atau, Anda dapat memilih untuk menyesuaikan deployment, seperti menetapkan jenis mesin tertentu atau menggunakan endpoint khusus.
1. Mencantumkan model yang dapat Anda deploy
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Anda.
- QUERY_PARAMETERS: Untuk mencantumkan model
Model Garden, tambahkan parameter kueri berikut
listAllVersions=True&filter=is_deployable(true)
. Untuk mencantumkan model Hugging Face, tetapkan filter kealt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True
.
Metode HTTP dan URL:
GET https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Jalankan perintah berikut:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
"https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS"
PowerShell
Jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content
Anda akan menerima respons JSON yang mirip dengan yang berikut ini.
{ "publisherModels": [ { "name": "publishers/google/models/gemma3", "versionId": "gemma-3-1b-it", "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT", "supportedActions": { "openNotebook": { "references": { "us-central1": { "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb" } }, "resourceTitle": "Notebook", "resourceUseCase": "Chat Completion Playground", "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI." }, "deploy": { "modelDisplayName": "gemma-3-1b-it", "containerSpec": { "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01", "args": [ "python", "-m", "vllm.entrypoints.api_server", "--host=0.0.0.0", "--port=8080", "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it", "--tensor-parallel-size=1", "--swap-space=16", "--gpu-memory-utilization=0.95", "--disable-log-stats" ], "env": [ { "name": "MODEL_ID", "value": "google/gemma-3-1b-it" }, { "name": "DEPLOY_SOURCE", "value": "UI_NATIVE_MODEL" } ], "ports": [ { "containerPort": 8080 } ], "predictRoute": "/generate", "healthRoute": "/ping" }, "dedicatedResources": { "machineSpec": { "machineType": "g2-standard-12", "acceleratorType": "NVIDIA_L4", "acceleratorCount": 1 } }, "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz", "deployTaskName": "vLLM 128K context", "deployMetadata": { "sampleRequest": "{\n \"instances\": [\n {\n \"@requestFormat\": \"chatCompletions\",\n \"messages\": [\n {\n \"role\": \"user\",\n \"content\": \"What is machine learning?\"\n }\n ],\n \"max_tokens\": 100\n }\n ]\n}\n" } }, ...
2. Men-deploy model
Deploy model dari Model Garden atau model dari Hugging Face. Anda juga dapat menyesuaikan deployment dengan menentukan kolom JSON tambahan.
Men-deploy model dengan konfigurasi defaultnya.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region tempat model di-deploy.
- PROJECT_ID: Project ID Anda.
- MODEL_ID: ID model yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID ini menggunakan format berikut: penayang/PUBLISHER_NAME/model/MODEL_NAME@MODEL_VERSION.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy
Isi JSON permintaan:
{ "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } EOF
Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
@' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Anda akan menerima respons JSON yang mirip dengan yang berikut ini.
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Men-deploy model Hugging Face
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region tempat model di-deploy.
- PROJECT_ID: Project ID Anda.
- MODEL_ID: ID model Hugging Face yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: PUBLISHER_NAME/MODEL_NAME.
- ACCESS_TOKEN: Jika model dibatasi, berikan token akses.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy
Isi JSON permintaan:
{ "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
cat > request.json << 'EOF' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } EOF
Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
@' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Anda akan menerima respons JSON yang mirip dengan yang berikut ini.
{ "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Men-deploy model dengan penyesuaian
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region tempat model di-deploy.
- PROJECT_ID: Project ID Anda.
- MODEL_ID: ID model yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID
menggunakan format berikut: penayang/PUBLISHER_NAME/model/
MODEL_NAME@MODEL_VERSION, seperti
google/gemma@gemma-2b
ataustabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti
g2-standard-4
. - ACCELERATOR_TYPE:
Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa
saat menangani beban kerja yang intensif, seperti
NVIDIA_L4
- ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan dalam deployment Anda.
reservation_affinity_type
: Untuk menggunakan pemesanan Compute Engine yang ada untuk deployment Anda, tentukan pemesanan apa pun atau pemesanan tertentu. Jika Anda menentukan nilai ini, jangan tentukanspot
.spot
: Apakah akan menggunakan VM spot untuk deployment Anda.- IMAGE_URI: Lokasi
image container yang akan digunakan, seperti
us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
- CONTAINER_ARGS: Argumen yang akan diteruskan ke penampung selama deployment.
- CONTAINER_PORT: Nomor port untuk penampung Anda.
fast_tryout_enabled
: Saat menguji model, Anda dapat memilih untuk menggunakan deployment yang lebih cepat. Opsi ini hanya tersedia untuk model yang sangat digunakan dengan jenis mesin tertentu. Jika diaktifkan, Anda tidak dapat menentukan konfigurasi model atau deployment.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy
Isi JSON permintaan:
{ "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } EOF
Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Simpan isi permintaan dalam file bernama request.json
.
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
@' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } '@ | Out-File -FilePath request.json -Encoding utf8
Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Anda akan menerima respons JSON yang mirip dengan yang berikut ini.
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Konsol
Di Google Cloud console, buka halaman Model Garden.
Temukan model yang didukung yang ingin Anda deploy, lalu klik kartu modelnya.
Klik Deploy untuk membuka panel Deploy model.
Di panel Deploy model, tentukan detail untuk deployment Anda.
- Gunakan atau ubah nama model dan endpoint yang dihasilkan.
- Pilih lokasi untuk membuat endpoint model Anda.
- Pilih jenis mesin yang akan digunakan untuk setiap node deployment Anda.
Untuk menggunakan reservasi Compute Engine, di bagian Deployment settings, pilih Advanced.
Untuk kolom Reservation type, pilih jenis reservasi. Reservasi harus sesuai dengan spesifikasi komputer yang Anda tentukan.
- Automatically use created reservation: Vertex AI otomatis memilih reservasi yang diizinkan dengan properti yang cocok. Jika tidak ada kapasitas dalam pemesanan yang dipilih secara otomatis, Vertex AI akan menggunakan kumpulan resource Google Cloudumum.
- Select specific reservations: Vertex AI menggunakan pemesanan tertentu. Jika tidak ada kapasitas untuk reservasi yang Anda pilih, error akan ditampilkan.
- Jangan gunakan (default): Vertex AI menggunakan kumpulan resourceGoogle Cloud umum. Nilai ini memiliki efek yang sama dengan tidak menentukan reservasi.
Klik Deploy.
Men-deploy model partner dan membuat permintaan prediksi
Sebelum memulai, Anda harus memiliki perjanjian dengan partner. Perjanjian ini mencakup menyetujui persyaratan dan persyaratan pemberian lisensi serta harga khusus partner. Untuk informasi selengkapnya atau memulai kontak dengan partner, lihat dokumentasi partner di kartu model Model Garden mereka, lalu klik Hubungi bagian penjualan.
Anda harus men-deploy pada jenis mesin yang diperlukan partner, seperti yang dijelaskan di bagian "Recommended hardware configuration" pada kartu model Model Garden mereka. Saat di-deploy, resource penayangan model berada di project terkelola Google yang aman.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Dalam kode Anda, ganti placeholder berikut:
- LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
- PROJECT_ID: Project ID Anda.
- DISPLAY_NAME: Nama deskriptif untuk resource terkait.
- PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
- PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
- MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk
model Anda, seperti
g2-standard-4
. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner. - ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda
untuk membantu meningkatkan performa saat menangani beban kerja yang intensif, seperti
NVIDIA_L4
. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner. - ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus cocok dengan salah satu konfigurasi yang diberikan oleh partner.
- REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# Upload a model
model = aiplatform.Model.upload(
display_name="DISPLAY_NAME_MODEL",
model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)
# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")
# Deploy model
MACHINE_TYPE = "MACHINE_TYPE" # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}
model.deploy(
endpoint=my_endpoint,
deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
traffic_split={"0": 100},
machine_type=MACHINE_TYPE,
accelerator_type=ACCELERATOR_TYPE,
accelerator_count=ACCELERATOR_COUNT,
min_replica_count=1,
max_replica_count=1,
)
# Unary call for predictions
PAYLOAD = {
REQUEST_PAYLOAD
}
request = json.dumps(PAYLOAD)
response = my_endpoint.raw_predict(
body = request,
headers = {'Content-Type':'application/json'}
)
print(response)
# Streaming call for predictions
PAYLOAD = {
REQUEST_PAYLOAD
}
request = json.dumps(PAYLOAD)
for stream_response in my_endpoint.stream_raw_predict(
body = request,
headers = {'Content-Type':'application/json'}
):
print(stream_response)
REST
Cantumkan semua model yang dapat di-deploy, lalu dapatkan ID model yang akan di-deploy. Kemudian, Anda dapat men-deploy model dengan konfigurasi dan endpoint default-nya. Atau, Anda dapat memilih untuk menyesuaikan deployment, seperti menetapkan jenis mesin tertentu atau menggunakan endpoint khusus.
Dalam contoh perintah curl, ganti placeholder berikut:
- LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
- PROJECT_ID: Project ID Anda.
- DISPLAY_NAME: Nama deskriptif untuk resource terkait.
- PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
- PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
- ENDPOINT_ID: ID endpoint.
- MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk
model Anda, seperti
g2-standard-4
. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner. - ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda
untuk membantu meningkatkan performa saat menangani beban kerja yang intensif, seperti
NVIDIA_L4
. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner. - ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus cocok dengan salah satu konfigurasi yang diberikan oleh partner.
- REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.
Upload model untuk menambahkannya ke Model Registry Anda.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \ -d '{ "model": { "displayName": "DISPLAY_NAME_MODEL", "baseModelSource": { "modelGardenSource": { "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME", } } } }'
Buat endpoint
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \ -d '{ "displayName": "DISPLAY_NAME_ENDPOINT" }'
Deploy model yang diupload ke endpoint.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \ -d '{ "deployedModel": { "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "displayName": "DISPLAY_NAME_DEPLOYED_MODEL", "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACCELERATOR_TYPE", "acceleratorCount":"ACCELERATOR_COUNT", }, "minReplicaCount": 1, "maxReplicaCount": 1 }, }, "trafficSplit": { "0": 100 } }'
Setelah model di-deploy, Anda dapat melakukan panggilan unary atau streaming untuk prediksi. Lihat kartu model Model Garden partner untuk melihat metode API yang didukung.
- Contoh panggilan unary:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \ -d 'REQUEST_PAYLOAD'
- Contoh panggilan streaming:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \ -d 'REQUEST_PAYLOAD'
Konsol
Di Google Cloud console, buka halaman Model Garden.
Untuk menemukan model tertentu, masukkan namanya di kotak penelusuran Model Garden.
Untuk melihat semua model yang dapat Anda deploy sendiri, di bagian Koleksi model di panel filter, pilih Model partner deploy mandiri. Daftar yang dihasilkan mencakup semua model partner yang dapat di-deploy sendiri.
Klik nama model yang akan di-deploy, yang akan membuka kartu modelnya.
Klik Opsi deploy.
Di panel Deploy on Vertex AI, konfigurasikan deployment Anda seperti lokasi dan jenis mesin.
Klik Deploy.
Setelah deployment selesai, Anda dapat meminta prediksi menggunakan SDK atau API. Petunjuk tambahan tersedia di bagian "Dokumentasi" di kartu model.
Melihat atau mengelola endpoint
Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI.
Vertex AI mencantumkan semua endpoint dalam project Anda untuk region tertentu. Klik endpoint untuk melihat detailnya seperti model yang di-deploy ke endpoint.
Membatalkan deployment model dan menghapus resource
Untuk menghentikan model yang di-deploy agar tidak menggunakan resource dalam project Anda, batalkan deployment model dari endpoint-nya. Anda harus membatalkan deployment model sebelum dapat menghapus endpoint dan model.
Membatalkan deploy model
Batalkan deployment model dari endpoint-nya.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Dalam kode Anda, ganti:
- PROJECT_ID dengan project ID Anda
- LOCATION dengan region Anda, misalnya, "us-central1"
- ENDPOINT_ID dengan ID endpoint Anda
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()
endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()
gcloud
Dalam perintah ini, ganti:
- PROJECT_ID dengan nama project Anda
- LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
- ENDPOINT_ID dengan ID endpoint
- MODEL_ID dengan ID model dari perintah list model
- DEPLOYED_MODEL_ID dengan ID model yang di-deploy
Temukan ID endpoint yang terkait dengan deployment Anda dengan menjalankan perintah
gcloud ai endpoints list
.gcloud ai endpoints list \ --project=PROJECT_ID \ --region=LOCATION_ID
Temukan ID model dengan menjalankan perintah
gcloud ai models list
.gcloud ai models list \ --project=PROJECT_ID \ --region=LOCATION_ID
Gunakan ID model dari perintah sebelumnya untuk mendapatkan ID model yang di-deploy dengan menjalankan perintah
gcloud ai models describe
.gcloud ai models describe MODEL_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Output singkat terlihat seperti contoh berikut. Dalam output, ID disebut
deployedModelId
.Using endpoint [https://us-central1-aiplatform.googleapis.com/] artifactUri: [URI removed] baseModelSource: modelGardenSource: publicModelName: publishers/google/models/gemma2 ... deployedModels: - deployedModelId: '1234567891234567891' endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345 displayName: gemma2-2b-it-12345678912345 etag: [ETag removed] modelSourceInfo: sourceType: MODEL_GARDEN name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345 ...
Jalankan perintah
gcloud ai endpoints undeploy-model
untuk membatalkan deployment model dari endpoint menggunakan ID endpoint dan ID model yang di-deploy dari perintah sebelumnya.gcloud ai endpoints undeploy-model ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID \ --deployed-model-id=DEPLOYED_MODEL_ID
Perintah ini tidak menghasilkan output.
Konsol
Di Google Cloud console, buka tab Endpoints di halaman Online prediction.
Di menu drop-down Region, pilih region tempat endpoint Anda berada.
Klik nama endpoint untuk membuka halaman detail.
Di baris untuk model, klik
Tindakan, lalu pilih Batalkan deployment model dari endpoint.Pada dialog Batalkan deployment model dari endpoint, klik Batalkan deployment.
Menghapus endpoint
Hapus endpoint Vertex AI yang terkait dengan deployment model Anda.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Dalam kode Anda, ganti:
- PROJECT_ID dengan project ID Anda
- LOCATION dengan region Anda, misalnya, "us-central1"
- ENDPOINT_ID dengan ID endpoint Anda
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()
endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()
gcloud
Dalam perintah ini, ganti:- PROJECT_ID dengan nama project Anda
- LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
- ENDPOINT_ID dengan ID endpoint
Dapatkan ID endpoint yang akan dihapus dengan menjalankan perintah
gcloud ai endpoints list
. Perintah ini mencantumkan ID endpoint untuk semua endpoint dalam project Anda.gcloud ai endpoints list \ --project=PROJECT_ID \ --region=LOCATION_ID
Jalankan perintah
gcloud ai endpoints delete
untuk menghapus endpoint.gcloud ai endpoints delete ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Jika diminta, ketik
y
untuk mengonfirmasi. Perintah ini tidak menghasilkan output.
Konsol
Di Google Cloud console, buka tab Endpoints di halaman Online prediction.
Di menu drop-down Region, pilih region tempat endpoint Anda berada.
Di akhir baris endpoint, klik
Tindakan, lalu pilih Hapus endpoint.Pada perintah konfirmasi, klik Konfirmasi.
Menghapus model
Hapus resource model yang terkait dengan deployment model Anda.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Dalam kode Anda, ganti:
- PROJECT_ID dengan project ID Anda
- LOCATION dengan region Anda, misalnya, "us-central1"
- MODEL_ID dengan ID model Anda
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()
model = aiplatform.Model(MODEL_ID)
model.delete()
gcloud
Dalam perintah ini, ganti:- PROJECT_ID dengan nama project Anda
- LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
- MODEL_ID dengan ID model dari perintah list model
Temukan ID model yang akan dihapus dengan menjalankan perintah
gcloud ai models list
.gcloud ai models list \ --project=PROJECT_ID \ --region=LOCATION_ID
Jalankan perintah
gcloud ai models delete
untuk menghapus model dengan memberikan ID model dan lokasi model.gcloud ai models delete MODEL_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Konsol
Buka halaman Model Registry dari bagian Vertex AI di konsol Google Cloud .
Di menu drop-down Region, pilih region tempat Anda men-deploy model.
Pada baris model Anda, klik
Tindakan, lalu pilih Hapus model.Saat Anda menghapus model, semua versi dan evaluasi model terkait akan dihapus dari project Google Cloud Anda.
Pada perintah konfirmasi, klik Hapus.
Lihat contoh kode
Sebagian besar kartu model untuk model solusi khusus tugas berisi contoh kode yang dapat Anda salin dan uji.
Di Google Cloud console, buka halaman Model Garden.
Temukan model yang didukung yang ingin Anda lihat contoh kodenya, lalu klik tab Documentation.
Halaman akan men-scroll ke bagian dokumentasi dengan kode contoh yang disematkan.
Membuat aplikasi vision
Kartu model untuk model computer vision yang berlaku mendukung pembuatan aplikasi vision.
Di Google Cloud console, buka halaman Model Garden.
Temukan model vision di bagian solusi khusus Tugas yang ingin Anda gunakan untuk membuat aplikasi vision, lalu klik View details.
Klik Build app.
Anda akan diarahkan ke Vertex AI Vision.
Di Application name, masukkan nama untuk aplikasi Anda, lalu klik Continue.
Pilih paket penagihan, lalu klik Create.
Anda akan diarahkan ke Vertex AI Vision Studio tempat Anda dapat melanjutkan pembuatan aplikasi computer vision.