Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan model di Model Garden

Temukan, uji, sesuaikan, dan deploy model menggunakan Model Garden di konsol Google Cloud . Anda juga dapat men-deploy model Model Garden menggunakan Google Cloud CLI.

Mengirim perintah pengujian

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Temukan model yang didukung yang ingin Anda uji, lalu klik Lihat detail.
Klik Open perintah design.

Anda akan diarahkan ke halaman Prompt design.
Di Prompt, masukkan perintah yang ingin diuji.
Opsional: Konfigurasikan parameter model.
Klik Submit.

Menyesuaikan model

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Di Search models, masukkan BERT atau T5-FLAN, lalu klik kaca pembesar untuk melakukan penelusuran.
Klik Lihat detail pada kartu model T5-FLAN atau BERT.
Klik Open fine-tuning pipeline.

Anda akan diarahkan ke halaman pipeline Vertex AI.
Untuk memulai penyesuaian, klik Create run.

Menyesuaikan di notebook

Kartu model untuk sebagian besar model dasar open source dan model yang dapat disesuaikan mendukung penyesuaian di notebook.

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Temukan model yang didukung yang ingin Anda sesuaikan, lalu buka kartu modelnya.
Klik Open notebook.

Men-deploy model terbuka

Anda dapat men-deploy model dengan menggunakan kartu modelnya di konsol Google Cloud atau secara terprogram.

Untuk mengetahui informasi selengkapnya tentang cara menyiapkan Google Gen AI SDK atau Google Cloud CLI, lihat ringkasan Google Gen AI SDK atau Menginstal Google Cloud CLI.

Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Python.

Buat daftar model yang dapat Anda deploy dan catat ID model yang akan di-deploy. Anda dapat mencantumkan model Hugging Face yang didukung di Model Garden dan bahkan memfilternya berdasarkan nama model. Output tidak menyertakan model yang di-tuning.


import vertexai
from vertexai.preview import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

# List deployable models, optionally list Hugging Face models only or filter by model name.
deployable_models = model_garden.list_deployable_models(list_hf_models=False, model_filter="gemma")
print(deployable_models)
# Example response:
# ['google/gemma2@gemma-2-27b','google/gemma2@gemma-2-27b-it', ...]

Lihat spesifikasi deployment untuk model menggunakan ID model dari langkah sebelumnya. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang telah diverifikasi Model Garden untuk model tertentu.


import vertexai
from vertexai.preview import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
# model = "google/gemma3@gemma-3-1b-it"
vertexai.init(project=PROJECT_ID, location="us-central1")

# For Hugging Face modelsm the format is the Hugging Face model name, as in
# "meta-llama/Llama-3.3-70B-Instruct".
# Go to https://console.cloud.google.com/vertex-ai/model-garden to find all deployable
# model names.

model = model_garden.OpenModel(model)
deploy_options = model.list_deploy_options()
print(deploy_options)
# Example response:
# [
#   dedicated_resources {
#     machine_spec {
#       machine_type: "g2-standard-12"
#       accelerator_type: NVIDIA_L4
#       accelerator_count: 1
#     }
#   }
#   container_spec {
#     ...
#   }
#   ...
# ]

Men-deploy model ke endpoint. Model Garden menggunakan konfigurasi deployment default kecuali jika Anda menentukan argumen dan nilai tambahan.


import vertexai
from vertexai.preview import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

open_model = model_garden.OpenModel("google/gemma3@gemma-3-12b-it")
endpoint = open_model.deploy(
    machine_type="g2-standard-48",
    accelerator_type="NVIDIA_L4",
    accelerator_count=4,
    accept_eula=True,
)

# Optional. Run predictions on the deployed endoint.
# endpoint.predict(instances=[{"prompt": "What is Generative AI?"}])

gcloud

Sebelum memulai, tentukan project kuota untuk menjalankan perintah berikut. Perintah yang Anda jalankan akan dihitung dalam kuota untuk project tersebut. Untuk mengetahui informasi selengkapnya, lihat Menetapkan project kuota.

Buat daftar model yang dapat Anda deploy dengan menjalankan perintah gcloud ai model-garden models list. Perintah ini mencantumkan semua ID model dan ID model yang dapat Anda deploy sendiri.

gcloud ai model-garden models list

Di output, temukan ID model yang akan di-deploy. Contoh berikut menunjukkan output yang disingkat.

MODEL_ID                                                                SUPPORTS_DEPLOYMENT
google/gemma2@gemma-2-27b                                               Yes
google/gemma2@gemma-2-27b-it                                            Yes
google/gemma2@gemma-2-2b                                                Yes
google/gemma2@gemma-2-2b-it                                             Yes
google/gemma2@gemma-2-9b                                                Yes
google/gemma2@gemma-2-9b-it                                             Yes
google/gemma@gemma-1.1-2b-it                                            Yes
google/gemma@gemma-1.1-2b-it-gg-hf                                      Yes
google/gemma@gemma-1.1-7b-it                                            Yes
google/gemma@gemma-1.1-7b-it-gg-hf                                      Yes
google/gemma@gemma-2b                                                   Yes
google/gemma@gemma-2b-gg-hf                                             Yes
google/gemma@gemma-2b-it                                                Yes
google/gemma@gemma-2b-it-gg-hf                                          Yes
google/gemma@gemma-7b                                                   Yes
google/gemma@gemma-7b-gg-hf                                             Yes
google/gemma@gemma-7b-it                                                Yes
google/gemma@gemma-7b-it-gg-hf                                          Yes

Output tidak menyertakan model yang di-tune atau model Hugging Face. Untuk melihat model Hugging Face yang didukung, tambahkan tanda --can-deploy-hugging-face-models.

Untuk melihat spesifikasi deployment model, jalankan perintah gcloud ai model-garden models list-deployment-config. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang didukung Model Garden untuk model tertentu.
```
gcloud ai model-garden models list-deployment-config \
    --model=MODEL_ID
```
Ganti MODEL_ID dengan ID model dari perintah daftar sebelumnya, seperti google/gemma@gemma-2b atau stabilityai/stable-diffusion-xl-base-1.0.
Deploy model ke endpoint dengan menjalankan perintah gcloud ai model-garden models deploy. Model Garden membuat nama tampilan untuk endpoint Anda dan menggunakan konfigurasi deployment default, kecuali jika Anda menentukan argumen dan nilai tambahan.

Untuk menjalankan perintah secara asinkron, sertakan tanda --asynchronous.
```
gcloud ai model-garden models deploy \
    --model=MODEL_ID \
    [--machine-type=MACHINE_TYPE] \
    [--accelerator-type=ACCELERATOR_TYPE] \
    [--endpoint-display-name=ENDPOINT_NAME] \
    [--hugging-face-access-token=HF_ACCESS_TOKEN] \
    [--reservation-affinity reservation-affinity-type=any-reservation] \
    [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \
    [--asynchronous]
```
Ganti placeholder berikut:
- MODEL_ID: ID model dari perintah daftar sebelumnya. Untuk model Hugging Face, gunakan format URL model Hugging Face, seperti stabilityai/stable-diffusion-xl-base-1.0.
- MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4.
- ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat bekerja dengan beban kerja berat, seperti NVIDIA_L4.
- ENDPOINT_NAME: Nama untuk endpoint Vertex AI yang di-deploy.
- HF_ACCESS_TOKEN: Untuk model Hugging Face, jika model dibatasi, berikan token akses.
- RESERVATION_RESOURCE_NAME: Untuk menggunakan pemesanan Compute Engine tertentu, tentukan nama pemesanan Anda. Jika menentukan pemesanan tertentu, Anda tidak dapat menentukan any-reservation.
Output mencakup konfigurasi deployment yang digunakan Model Garden, ID endpoint, dan ID operasi deployment, yang dapat Anda gunakan untuk memeriksa status deployment.
```
Using the default deployment configuration:
 Machine type: g2-standard-12
 Accelerator type: NVIDIA_L4
 Accelerator count: 1

The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28.

Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods:
1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console
2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
```
Untuk melihat detail tentang deployment Anda, jalankan perintah gcloud ai endpoints list --list-model-garden-endpoints-only:
```
gcloud ai endpoints list --list-model-garden-endpoints-only \
    --region=LOCATION_ID
```
Ganti LOCATION_ID dengan region tempat Anda men-deploy model.

Output mencakup semua endpoint yang dibuat dari Model Garden dan mencakup informasi seperti ID endpoint, nama endpoint, dan apakah endpoint dikaitkan dengan model yang di-deploy. Untuk menemukan deployment Anda, cari nama endpoint yang ditampilkan dari perintah sebelumnya.

REST

Mencantumkan semua model yang dapat di-deploy, lalu mendapatkan ID model yang akan di-deploy. Kemudian, Anda dapat men-deploy model dengan konfigurasi dan endpoint default-nya. Atau, Anda dapat memilih untuk menyesuaikan deployment, seperti menyetel jenis mesin tertentu atau menggunakan endpoint khusus.

1. Mencantumkan model yang dapat Anda deploy

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Project ID Anda.
QUERY_PARAMETERS: Untuk mencantumkan model Model Garden, tambahkan parameter kueri berikut listAllVersions=True&filter=is_deployable(true). Untuk mencantumkan model Hugging Face, tetapkan filter ke alt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True.

Metode HTTP dan URL:

GET https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Jalankan perintah berikut:

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "publisherModels": [
    {
      "name": "publishers/google/models/gemma3",
      "versionId": "gemma-3-1b-it",
      "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT",
      "supportedActions": {
        "openNotebook": {
          "references": {
            "us-central1": {
              "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb"
            }
          },
          "resourceTitle": "Notebook",
          "resourceUseCase": "Chat Completion Playground",
          "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI."
        },
        "deploy": {
          "modelDisplayName": "gemma-3-1b-it",
          "containerSpec": {
            "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01",
            "args": [
              "python",
              "-m",
              "vllm.entrypoints.api_server",
              "--host=0.0.0.0",
              "--port=8080",
              "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it",
              "--tensor-parallel-size=1",
              "--swap-space=16",
              "--gpu-memory-utilization=0.95",
              "--disable-log-stats"
            ],
            "env": [
              {
                "name": "MODEL_ID",
                "value": "google/gemma-3-1b-it"
              },
              {
                "name": "DEPLOY_SOURCE",
                "value": "UI_NATIVE_MODEL"
              }
            ],
            "ports": [
              {
                "containerPort": 8080
              }
            ],
            "predictRoute": "/generate",
            "healthRoute": "/ping"
          },
          "dedicatedResources": {
            "machineSpec": {
              "machineType": "g2-standard-12",
              "acceleratorType": "NVIDIA_L4",
              "acceleratorCount": 1
            }
          },
          "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz",
          "deployTaskName": "vLLM 128K context",
          "deployMetadata": {
            "sampleRequest": "{\n    \"instances\": [\n        {\n          \"@requestFormat\": \"chatCompletions\",\n          \"messages\": [\n              {\n                  \"role\": \"user\",\n                  \"content\": \"What is machine learning?\"\n              }\n          ],\n          \"max_tokens\": 100\n        }\n    ]\n}\n"
          }
        },
        ...

2. Men-deploy model

Deploy model dari Model Garden atau model dari Hugging Face. Anda juga dapat menyesuaikan deployment dengan menentukan kolom JSON tambahan.

Men-deploy model dengan konfigurasi defaultnya.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region tempat model di-deploy.
PROJECT_ID: Project ID Anda.
MODEL_ID: ID model yang akan di-deploy, yang bisa Anda dapatkan dari mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: publishers/PUBLISHER_NAME/models/ MODEL_NAME@MODEL_VERSION.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Men-deploy model Hugging Face

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region tempat model di-deploy.
PROJECT_ID: Project ID Anda.
MODEL_ID: ID model Hugging Face yang akan di-deploy, yang bisa Anda dapatkan dari mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: PUBLISHER_NAME/MODEL_NAME.
ACCESS_TOKEN: Jika model dibatasi, berikan token akses.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Men-deploy model dengan penyesuaian

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region tempat model di-deploy.
PROJECT_ID: Project ID Anda.
MODEL_ID: ID model yang akan di-deploy, yang bisa Anda dapatkan dari mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: publishers/PUBLISHER_NAME/models/ MODEL_NAME@MODEL_VERSION, seperti google/gemma@gemma-2b atau stabilityai/stable-diffusion-xl-base-1.0.
MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4.
ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja berat, seperti NVIDIA_L4
ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan dalam deployment Anda.
reservation_affinity_type: Untuk menggunakan reservasi Compute Engine yang ada untuk deployment Anda, tentukan reservasi apa pun atau reservasi tertentu. Jika Anda menentukan nilai ini, jangan tentukan spot.
spot: Apakah akan menggunakan VM spot untuk deployment Anda.
IMAGE_URI: Lokasi image container yang akan digunakan, seperti us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
CONTAINER_ARGS: Argumen yang akan diteruskan ke container selama deployment.
CONTAINER_PORT: Nomor port untuk container Anda.
fast_tryout_enabled: Saat menguji model, Anda dapat memilih untuk menggunakan deployment yang lebih cepat. Opsi ini hanya tersedia untuk model yang sering digunakan dengan jenis mesin tertentu. Jika diaktifkan, Anda tidak dapat menentukan model atau konfigurasi deployment.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Konsol

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Temukan model yang didukung yang ingin Anda deploy, lalu klik kartu modelnya.
Klik Deploy untuk membuka panel Deploy model.
Di panel Deploy model, tentukan detail untuk deployment Anda.
1. Gunakan atau ubah nama model dan endpoint yang dihasilkan.
2. Pilih lokasi untuk membuat endpoint model Anda.
3. Pilih jenis mesin yang akan digunakan untuk setiap node deployment Anda.
4. Untuk menggunakan pemesanan Compute Engine, di bagian Setelan deployment, pilih Lanjutan.
  
  Untuk kolom Jenis reservasi, pilih jenis reservasi. Reservasi harus sesuai dengan spesifikasi mesin yang Anda tentukan.
  - Gunakan reservasi yang dibuat secara otomatis: Vertex AI secara otomatis memilih reservasi yang diizinkan dengan properti yang cocok. Jika tidak ada kapasitas dalam reservasi yang dipilih secara otomatis, Vertex AI akan menggunakan kumpulan resource umum Google Cloud.
  - Pilih reservasi tertentu: Vertex AI menggunakan reservasi tertentu. Jika tidak ada kapasitas untuk reservasi yang Anda pilih, akan terjadi error.
  - Jangan gunakan (default): Vertex AI menggunakan kumpulan resource Google Cloud umum. Nilai ini memiliki efek yang sama dengan tidak menentukan reservasi.
Klik Deploy.

Men-deploy model partner dan membuat permintaan prediksi

Sebelum memulai, Anda harus memiliki perjanjian dengan partner. Perjanjian ini mencakup persetujuan terhadap persyaratan dan persyaratan pemberian lisensi serta harga khusus partner. Untuk mengetahui informasi selengkapnya atau memulai kontak dengan partner, lihat dokumentasi partner di kartu model Model Garden mereka dan klik Hubungi bagian penjualan.

Anda harus men-deploy pada jenis mesin yang diperlukan partner, seperti yang dijelaskan di bagian "Konfigurasi hardware yang direkomendasikan" pada kartu model Model Garden mereka. Saat di-deploy, resource penayangan model berada di project terkelola Google yang aman.

Google Cloud

Python

Dalam kode Anda, ganti placeholder berikut:

LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
PROJECT_ID: Project ID Anda.
DISPLAY_NAME: Nama deskriptif untuk resource terkait.
PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4. Anda harus mencocokkan salah satu konfigurasi yang diberikan oleh partner.
ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja berat, seperti NVIDIA_L4. Anda harus mencocokkan salah satu konfigurasi yang disediakan oleh partner.
ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus mencocokkan salah satu konfigurasi yang disediakan oleh partner.
REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# Upload a model
model = aiplatform.Model.upload(
    display_name="DISPLAY_NAME_MODEL",
    model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)

# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")

# Deploy model
MACHINE_TYPE = "MACHINE_TYPE"  # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}

model.deploy(
    endpoint=my_endpoint,
    deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
    traffic_split={"0": 100},
    machine_type=MACHINE_TYPE,
    accelerator_type=ACCELERATOR_TYPE,
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=1,
    max_replica_count=1,
)

# Unary call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

response = my_endpoint.raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
)

print(response)

# Streaming call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

for stream_response in my_endpoint.stream_raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
):
    print(stream_response)

REST

Dalam contoh perintah curl, ganti placeholder berikut:

LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
PROJECT_ID: Project ID Anda.
DISPLAY_NAME: Nama deskriptif untuk resource terkait.
PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
ENDPOINT_ID: ID endpoint.
MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4. Anda harus mencocokkan salah satu konfigurasi yang diberikan oleh partner.
ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja berat, seperti NVIDIA_L4. Anda harus mencocokkan salah satu konfigurasi yang disediakan oleh partner.
ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus mencocokkan salah satu konfigurasi yang disediakan oleh partner.
REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.

Upload model untuk menambahkannya ke Model Registry Anda.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \
-d '{
  "model": {
    "displayName": "DISPLAY_NAME_MODEL",
    "baseModelSource": {
      "modelGardenSource": {
        "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
      }
    }
  }
}'

Buat endpoint

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \
-d '{
  "displayName": "DISPLAY_NAME_ENDPOINT"
}'

Deploy model yang diupload ke endpoint.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \
-d '{
  "deployedModel": {
    "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
    "displayName": "DISPLAY_NAME_DEPLOYED_MODEL",
    "dedicatedResources": {
     "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount":"ACCELERATOR_COUNT",
     },
     "minReplicaCount": 1,
     "maxReplicaCount": 1
    },
  },
  "trafficSplit": {
    "0": 100
  }
}'

Setelah model di-deploy, Anda dapat melakukan panggilan unary atau streaming untuk prediksi. Lihat kartu model Model Garden partner untuk melihat metode API yang didukung.

Contoh panggilan unary:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \
-d 'REQUEST_PAYLOAD'

Contoh panggilan streaming:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \
-d 'REQUEST_PAYLOAD'

Konsol

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Untuk menemukan model tertentu, masukkan namanya di kotak penelusuran Model Garden.
Untuk melihat semua model yang dapat Anda deploy sendiri, di bagian Koleksi model di panel filter, pilih Model partner yang dapat di-deploy sendiri. Daftar yang dihasilkan mencakup semua model partner yang dapat di-deploy sendiri.
Klik nama model yang akan di-deploy, yang akan membuka kartu modelnya.
Klik Opsi deployment.
Di panel Deploy di Vertex AI, konfigurasikan deployment Anda seperti lokasi dan jenis mesin.
Klik Deploy.

Setelah deployment selesai, Anda dapat meminta prediksi menggunakan SDK atau API. Petunjuk tambahan tersedia di bagian "Dokumentasi" pada kartu model.

Melihat atau mengelola endpoint

Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI.

Buka Prediksi online

Vertex AI mencantumkan semua endpoint di project Anda untuk region tertentu. Klik endpoint untuk melihat detailnya, seperti model yang di-deploy ke endpoint.

Membatalkan deployment model dan menghapus resource

Untuk menghentikan penggunaan resource dalam project oleh model yang di-deploy, batalkan deployment model dari endpointnya. Anda harus membatalkan deployment model sebelum dapat menghapus endpoint dan model.

Membatalkan deploy model

Membatalkan deployment model dari endpointnya.

Python

Dalam kode Anda, ganti:

PROJECT_ID dengan project ID Anda
LOCATION dengan region Anda, misalnya, "us-central1"
ENDPOINT_ID dengan ID endpoint Anda

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()

gcloud

Dalam perintah ini, ganti:

PROJECT_ID dengan nama project Anda
LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
ENDPOINT_ID dengan ID endpoint
MODEL_ID dengan ID model dari perintah model daftar
DEPLOYED_MODEL_ID dengan ID model yang di-deploy

Temukan ID endpoint yang terkait dengan deployment Anda dengan menjalankan perintah gcloud ai endpoints list.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

Temukan ID model dengan menjalankan perintah gcloud ai models list.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Gunakan ID model dari perintah sebelumnya untuk mendapatkan ID model yang di-deploy dengan menjalankan perintah gcloud ai models describe.

gcloud ai models describe MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Output yang disingkat akan terlihat seperti contoh berikut. Dalam output, ID tersebut disebut deployedModelId.

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
artifactUri: [URI removed]
baseModelSource:
  modelGardenSource:
    publicModelName: publishers/google/models/gemma2
...
deployedModels:
- deployedModelId: '1234567891234567891'
  endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345
displayName: gemma2-2b-it-12345678912345
etag: [ETag removed]
modelSourceInfo:
  sourceType: MODEL_GARDEN
name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345
...

Jalankan perintah gcloud ai endpoints undeploy-model untuk membatalkan deployment model dari endpoint menggunakan ID endpoint dan ID model yang di-deploy dari perintah sebelumnya.
```
gcloud ai endpoints undeploy-model ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID \
    --deployed-model-id=DEPLOYED_MODEL_ID
```
Perintah ini tidak menghasilkan output.

Konsol

Di konsol Google Cloud , buka tab Endpoints di halaman Online prediction.

Buka Endpoint
Di menu drop-down Region, pilih region tempat endpoint Anda berada.
Klik nama endpoint untuk membuka halaman detail.
Di baris untuk model, klik Tindakan, lalu pilih Batalkan deployment model dari endpoint.
Pada dialog Batalkan deployment model dari endpoint, klik Batalkan deployment.

Menghapus endpoint

Hapus endpoint Vertex AI yang terkait dengan deployment model Anda.

Python

Dalam kode Anda, ganti:

PROJECT_ID dengan project ID Anda
LOCATION dengan region Anda, misalnya, "us-central1"
ENDPOINT_ID dengan ID endpoint Anda

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()

gcloud

Dalam perintah ini, ganti:

PROJECT_ID dengan nama project Anda
LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
ENDPOINT_ID dengan ID endpoint

Dapatkan ID endpoint yang akan dihapus dengan menjalankan perintah gcloud ai endpoints list. Perintah ini mencantumkan ID endpoint untuk semua endpoint dalam project Anda.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
Jalankan perintah gcloud ai endpoints delete untuk menghapus endpoint.
```
gcloud ai endpoints delete ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
Jika diminta, ketik y untuk mengonfirmasi. Perintah ini tidak menghasilkan output.

Konsol

Di konsol Google Cloud , buka tab Endpoints di halaman Online prediction.

Buka Endpoint
Di menu drop-down Region, pilih region tempat endpoint Anda berada.
Di akhir baris endpoint, klik Tindakan , lalu pilih Hapus endpoint.
Di perintah konfirmasi, klik Konfirmasi.

Menghapus model

Hapus resource model yang terkait dengan deployment model Anda.

Python

Dalam kode Anda, ganti:

PROJECT_ID dengan project ID Anda
LOCATION dengan region Anda, misalnya, "us-central1"
MODEL_ID dengan ID model Anda

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()

model = aiplatform.Model(MODEL_ID)
model.delete()

gcloud

Dalam perintah ini, ganti:

PROJECT_ID dengan nama project Anda
LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
MODEL_ID dengan ID model dari perintah model daftar

Temukan ID model yang akan dihapus dengan menjalankan perintah gcloud ai models list.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Jalankan perintah gcloud ai models delete untuk menghapus model dengan memberikan ID model dan lokasi model.
```
gcloud ai models delete MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

Konsol

Buka halaman Model Registry dari bagian Vertex AI di konsol Google Cloud .

Buka halaman Model Registry
Di menu drop-down Region, pilih region tempat Anda men-deploy model.
Di baris untuk model Anda, klik Tindakan, lalu pilih Hapus model.

Saat Anda menghapus model, semua versi dan evaluasi model terkait akan dihapus dari Google Cloud project Anda.
Pada perintah konfirmasi, klik Hapus.

Lihat contoh kode

Sebagian besar kartu model untuk model solusi khusus tugas berisi contoh kode yang dapat Anda salin dan uji.

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Temukan model yang didukung yang ingin Anda lihat contoh kodenya, lalu klik tab Documentation.
Halaman akan men-scroll ke bagian dokumentasi dengan kode contoh yang disematkan.

Membuat aplikasi vision

Kartu model untuk model computer vision yang berlaku mendukung pembuatan aplikasi vision.

Di konsol Google Cloud , buka halaman Model Garden.

Buka Model Garden
Temukan model vision di bagian solusi khusus Tugas yang ingin Anda gunakan untuk membuat aplikasi vision, lalu klik View details.
Klik Build app.

Anda akan diarahkan ke Vertex AI Vision.
Di Application name, masukkan nama untuk aplikasi Anda, lalu klik Continue.
Pilih paket penagihan, lalu klik Create.

Anda akan diarahkan ke Vertex AI Vision Studio tempat Anda dapat melanjutkan pembuatan aplikasi computer vision.

Menggunakan model di Model Garden Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Mengirim perintah pengujian

Menyesuaikan model

Menyesuaikan di notebook

Men-deploy model terbuka

Python

gcloud

REST

1. Mencantumkan model yang dapat Anda deploy

curl

PowerShell

2. Men-deploy model

Men-deploy model dengan konfigurasi defaultnya.

curl

PowerShell

Men-deploy model Hugging Face

curl

PowerShell

Men-deploy model dengan penyesuaian

curl

PowerShell

Konsol

Men-deploy model partner dan membuat permintaan prediksi

Python

REST

Konsol

Melihat atau mengelola endpoint

Membatalkan deployment model dan menghapus resource

Membatalkan deploy model

Python

gcloud

Konsol

Menghapus endpoint

Python

gcloud

Konsol

Menghapus model

Python

gcloud

Konsol

Lihat contoh kode

Membuat aplikasi vision

Menggunakan model di Model Garden