Menggunakan model di Model Garden

Temukan, uji, sesuaikan, dan deploy model menggunakan Model Garden di konsolGoogle Cloud . Anda juga dapat men-deploy model Model Garden menggunakan Google Cloud CLI.

Mengirim perintah pengujian

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Temukan model yang didukung yang ingin Anda uji, lalu klik Lihat detail.

  3. Klik Open perintah design.

    Anda akan diarahkan ke halaman Prompt design.

  4. Di Prompt, masukkan perintah yang ingin diuji.

  5. Opsional: Konfigurasikan parameter model.

  6. Klik Submit.

Menyesuaikan model

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Di Search models, masukkan BERT atau T5-FLAN, lalu klik kaca pembesar untuk melakukan penelusuran.

  3. Klik Lihat detail pada kartu model T5-FLAN atau BERT.

  4. Klik Open fine-tuning pipeline.

    Anda akan diarahkan ke halaman pipeline Vertex AI.

  5. Untuk memulai penyesuaian, klik Create run.

Menyesuaikan di notebook

Kartu model untuk sebagian besar model dasar open source dan model yang dapat disesuaikan mendukung penyesuaian di notebook.

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Temukan model yang didukung yang ingin Anda sesuaikan, lalu buka kartu modelnya.

  3. Klik Open notebook.

Men-deploy model terbuka

Anda dapat men-deploy model menggunakan kartu modelnya di konsol Google Cloud atau secara terprogram.

Untuk mengetahui informasi selengkapnya tentang cara menyiapkan Google Gen AI SDK atau Google Cloud CLI, baca ringkasan Google Gen AI SDK atau Menginstal Google Cloud CLI.

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

  1. Buat daftar model yang dapat Anda deploy dan catat ID model yang akan di-deploy. Secara opsional, Anda dapat mencantumkan model Hugging Face yang didukung di Model Garden dan bahkan memfilternya berdasarkan nama model. Output tidak menyertakan model yang dioptimalkan.

    
    import vertexai
    from vertexai.preview import model_garden
    
    # TODO(developer): Update and un-comment below lines
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    # List deployable models, optionally list Hugging Face models only or filter by model name.
    deployable_models = model_garden.list_deployable_models(list_hf_models=False, model_filter="gemma")
    print(deployable_models)
    # Example response:
    # ['google/gemma2@gemma-2-27b','google/gemma2@gemma-2-27b-it', ...]
    
  2. Lihat spesifikasi deployment untuk model menggunakan ID model dari langkah sebelumnya. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang telah diverifikasi Model Garden untuk model tertentu.

    
    import vertexai
    from vertexai.preview import model_garden
    
    # TODO(developer): Update and un-comment below lines
    # PROJECT_ID = "your-project-id"
    # model = "google/gemma3@gemma-3-1b-it"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    # For Hugging Face modelsm the format is the Hugging Face model name, as in
    # "meta-llama/Llama-3.3-70B-Instruct".
    # Go to https://console.cloud.google.com/vertex-ai/model-garden to find all deployable
    # model names.
    
    model = model_garden.OpenModel(model)
    deploy_options = model.list_deploy_options()
    print(deploy_options)
    # Example response:
    # [
    #   dedicated_resources {
    #     machine_spec {
    #       machine_type: "g2-standard-12"
    #       accelerator_type: NVIDIA_L4
    #       accelerator_count: 1
    #     }
    #   }
    #   container_spec {
    #     ...
    #   }
    #   ...
    # ]
    
  3. Men-deploy model ke endpoint. Model Garden menggunakan konfigurasi deployment default, kecuali jika Anda menentukan argumen dan nilai tambahan.

    
    import vertexai
    from vertexai.preview import model_garden
    
    # TODO(developer): Update and un-comment below lines
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    open_model = model_garden.OpenModel("google/gemma3@gemma-3-12b-it")
    endpoint = open_model.deploy(
        machine_type="g2-standard-48",
        accelerator_type="NVIDIA_L4",
        accelerator_count=4,
        accept_eula=True,
    )
    
    # Optional. Run predictions on the deployed endoint.
    # endpoint.predict(instances=[{"prompt": "What is Generative AI?"}])
    

gcloud

Sebelum memulai, tentukan project kuota untuk menjalankan perintah berikut. Perintah yang Anda jalankan akan mengurangi kuota untuk project tersebut. Untuk mengetahui informasi selengkapnya, lihat Menetapkan project kuota.

  1. Cantumkan model yang dapat Anda deploy dengan menjalankan perintah gcloud beta ai model-garden models list. Perintah ini mencantumkan semua ID model dan ID yang dapat Anda deploy sendiri.

    gcloud beta ai model-garden models list
    

    Dalam output, temukan ID model yang akan di-deploy. Contoh berikut menunjukkan output singkat.

    MODEL_ID                                                                SUPPORTS_DEPLOYMENT
    google/gemma2@gemma-2-27b                                               Yes
    google/gemma2@gemma-2-27b-it                                            Yes
    google/gemma2@gemma-2-2b                                                Yes
    google/gemma2@gemma-2-2b-it                                             Yes
    google/gemma2@gemma-2-9b                                                Yes
    google/gemma2@gemma-2-9b-it                                             Yes
    google/gemma@gemma-1.1-2b-it                                            Yes
    google/gemma@gemma-1.1-2b-it-gg-hf                                      Yes
    google/gemma@gemma-1.1-7b-it                                            Yes
    google/gemma@gemma-1.1-7b-it-gg-hf                                      Yes
    google/gemma@gemma-2b                                                   Yes
    google/gemma@gemma-2b-gg-hf                                             Yes
    google/gemma@gemma-2b-it                                                Yes
    google/gemma@gemma-2b-it-gg-hf                                          Yes
    google/gemma@gemma-7b                                                   Yes
    google/gemma@gemma-7b-gg-hf                                             Yes
    google/gemma@gemma-7b-it                                                Yes
    google/gemma@gemma-7b-it-gg-hf                                          Yes
    

    Output tidak menyertakan model yang disetel atau model Hugging Face. Untuk melihat model Hugging Face yang didukung, tambahkan flag --list-supported-hugging-face-models.

  2. Untuk melihat spesifikasi deployment model, jalankan perintah gcloud beta ai model-garden models list-deployment-config. Anda dapat melihat jenis mesin, jenis akselerator, dan URI image container yang didukung Model Garden untuk model tertentu.

    gcloud beta ai model-garden models list-deployment-config \
        --model=MODEL_ID
    

    Ganti MODEL_ID dengan ID model dari perintah daftar sebelumnya, seperti google/gemma@gemma-2b atau stabilityai/stable-diffusion-xl-base-1.0.

  3. Deploy model ke endpoint dengan menjalankan perintah gcloud beta ai model-garden models deploy. Model Garden menghasilkan nama tampilan untuk endpoint Anda dan menggunakan konfigurasi deployment default, kecuali jika Anda menentukan argumen dan nilai tambahan.

    Untuk menjalankan perintah secara asinkron, sertakan flag --asynchronous.

    gcloud beta ai model-garden models deploy \
        --model=MODEL_ID \
        [--machine-type=MACHINE_TYPE] \
        [--accelerator-type=ACCELERATOR_TYPE] \
        [--endpoint-display-name=ENDPOINT_NAME] \
        [--hugging-face-access-token=HF_ACCESS_TOKEN] \
        [--reservation-affinity reservation-affinity-type=any-reservation] \
        [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \
        [--asynchronous]
    

    Ganti placeholder berikut:

    • MODEL_ID: ID model dari perintah daftar sebelumnya. Untuk model Hugging Face, gunakan format URL model Hugging Face, seperti stabilityai/stable-diffusion-xl-base-1.0.
    • MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4.
    • ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja intensif, seperti NVIDIA_L4.
    • ENDPOINT_NAME: Nama untuk endpoint Vertex AI yang di-deploy.
    • HF_ACCESS_TOKEN: Untuk model Hugging Face, jika model tersebut dibatasi, berikan token akses.
    • RESERVATION_RESOURCE_NAME: Untuk menggunakan pemesanan Compute Engine tertentu, tentukan nama pemesanan Anda. Jika menentukan reservasi tertentu, Anda tidak dapat menentukan any-reservation.

    Output-nya mencakup konfigurasi deployment yang digunakan Model Garden, ID endpoint, dan ID operasi deployment, yang dapat Anda gunakan untuk memeriksa status deployment.

    Using the default deployment configuration:
     Machine type: g2-standard-12
     Accelerator type: NVIDIA_L4
     Accelerator count: 1
    
    The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28.
    
    Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods:
    1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console
    2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
    
  4. Untuk melihat detail tentang deployment Anda, jalankan perintah gcloud beta ai endpoints list --list-model-garden-endpoints-only:

    gcloud beta ai endpoints list --list-model-garden-endpoints-only \
        --region=LOCATION_ID
    

    Ganti LOCATION_ID dengan region tempat Anda men-deploy model.

    Outputnya mencakup semua endpoint yang dibuat dari Model Garden dan menyertakan informasi seperti ID endpoint, nama endpoint, dan apakah endpoint dikaitkan dengan model yang di-deploy. Untuk menemukan deployment, cari nama endpoint yang ditampilkan dari perintah sebelumnya.

REST

Cantumkan semua model yang dapat di-deploy, lalu dapatkan ID model yang akan di-deploy. Kemudian, Anda dapat men-deploy model dengan konfigurasi dan endpoint default-nya. Atau, Anda dapat memilih untuk menyesuaikan deployment, seperti menetapkan jenis mesin tertentu atau menggunakan endpoint khusus.

1. Mencantumkan model yang dapat Anda deploy

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Anda.
  • QUERY_PARAMETERS: Untuk mencantumkan model Model Garden, tambahkan parameter kueri berikut listAllVersions=True&filter=is_deployable(true). Untuk mencantumkan model Hugging Face, tetapkan filter ke alt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True.

Metode HTTP dan URL:

GET https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Jalankan perintah berikut:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
"https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS"

PowerShell

Jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://us-central1-aiplatform.googleapis.com/v1beta1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "publisherModels": [
    {
      "name": "publishers/google/models/gemma3",
      "versionId": "gemma-3-1b-it",
      "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT",
      "supportedActions": {
        "openNotebook": {
          "references": {
            "us-central1": {
              "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb"
            }
          },
          "resourceTitle": "Notebook",
          "resourceUseCase": "Chat Completion Playground",
          "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI."
        },
        "deploy": {
          "modelDisplayName": "gemma-3-1b-it",
          "containerSpec": {
            "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01",
            "args": [
              "python",
              "-m",
              "vllm.entrypoints.api_server",
              "--host=0.0.0.0",
              "--port=8080",
              "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it",
              "--tensor-parallel-size=1",
              "--swap-space=16",
              "--gpu-memory-utilization=0.95",
              "--disable-log-stats"
            ],
            "env": [
              {
                "name": "MODEL_ID",
                "value": "google/gemma-3-1b-it"
              },
              {
                "name": "DEPLOY_SOURCE",
                "value": "UI_NATIVE_MODEL"
              }
            ],
            "ports": [
              {
                "containerPort": 8080
              }
            ],
            "predictRoute": "/generate",
            "healthRoute": "/ping"
          },
          "dedicatedResources": {
            "machineSpec": {
              "machineType": "g2-standard-12",
              "acceleratorType": "NVIDIA_L4",
              "acceleratorCount": 1
            }
          },
          "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz",
          "deployTaskName": "vLLM 128K context",
          "deployMetadata": {
            "sampleRequest": "{\n    \"instances\": [\n        {\n          \"@requestFormat\": \"chatCompletions\",\n          \"messages\": [\n              {\n                  \"role\": \"user\",\n                  \"content\": \"What is machine learning?\"\n              }\n          ],\n          \"max_tokens\": 100\n        }\n    ]\n}\n"
          }
        },
        ...

2. Men-deploy model

Deploy model dari Model Garden atau model dari Hugging Face. Anda juga dapat menyesuaikan deployment dengan menentukan kolom JSON tambahan.

Men-deploy model dengan konfigurasi defaultnya.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Region tempat model di-deploy.
  • PROJECT_ID: Project ID Anda.
  • MODEL_ID: ID model yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID ini menggunakan format berikut: penayang/PUBLISHER_NAME/model/MODEL_NAME@MODEL_VERSION.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Men-deploy model Hugging Face

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Region tempat model di-deploy.
  • PROJECT_ID: Project ID Anda.
  • MODEL_ID: ID model Hugging Face yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: PUBLISHER_NAME/MODEL_NAME.
  • ACCESS_TOKEN: Jika model dibatasi, berikan token akses.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Men-deploy model dengan penyesuaian

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Region tempat model di-deploy.
  • PROJECT_ID: Project ID Anda.
  • MODEL_ID: ID model yang akan di-deploy, yang dapat Anda dapatkan dengan mencantumkan semua model yang dapat di-deploy. ID menggunakan format berikut: penayang/PUBLISHER_NAME/model/ MODEL_NAME@MODEL_VERSION, seperti google/gemma@gemma-2b atau stabilityai/stable-diffusion-xl-base-1.0.
  • MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4.
  • ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja yang intensif, seperti NVIDIA_L4
  • ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan dalam deployment Anda.
  • reservation_affinity_type: Untuk menggunakan pemesanan Compute Engine yang ada untuk deployment Anda, tentukan pemesanan apa pun atau pemesanan tertentu. Jika Anda menentukan nilai ini, jangan tentukan spot.
  • spot: Apakah akan menggunakan VM spot untuk deployment Anda.
  • IMAGE_URI: Lokasi image container yang akan digunakan, seperti us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
  • CONTAINER_ARGS: Argumen yang akan diteruskan ke penampung selama deployment.
  • CONTAINER_PORT: Nomor port untuk penampung Anda.
  • fast_tryout_enabled: Saat menguji model, Anda dapat memilih untuk menggunakan deployment yang lebih cepat. Opsi ini hanya tersedia untuk model yang sangat digunakan dengan jenis mesin tertentu. Jika diaktifkan, Anda tidak dapat menentukan konfigurasi model atau deployment.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy

Isi JSON permintaan:

{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Konsol

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Temukan model yang didukung yang ingin Anda deploy, lalu klik kartu modelnya.

  3. Klik Deploy untuk membuka panel Deploy model.

  4. Di panel Deploy model, tentukan detail untuk deployment Anda.

    1. Gunakan atau ubah nama model dan endpoint yang dihasilkan.
    2. Pilih lokasi untuk membuat endpoint model Anda.
    3. Pilih jenis mesin yang akan digunakan untuk setiap node deployment Anda.
    4. Untuk menggunakan reservasi Compute Engine, di bagian Deployment settings, pilih Advanced.

      Untuk kolom Reservation type, pilih jenis reservasi. Reservasi harus sesuai dengan spesifikasi komputer yang Anda tentukan.

      • Automatically use created reservation: Vertex AI otomatis memilih reservasi yang diizinkan dengan properti yang cocok. Jika tidak ada kapasitas dalam pemesanan yang dipilih secara otomatis, Vertex AI akan menggunakan kumpulan resource Google Cloudumum.
      • Select specific reservations: Vertex AI menggunakan pemesanan tertentu. Jika tidak ada kapasitas untuk reservasi yang Anda pilih, error akan ditampilkan.
      • Jangan gunakan (default): Vertex AI menggunakan kumpulan resourceGoogle Cloud umum. Nilai ini memiliki efek yang sama dengan tidak menentukan reservasi.
  5. Klik Deploy.

Men-deploy model partner dan membuat permintaan prediksi

Sebelum memulai, Anda harus memiliki perjanjian dengan partner. Perjanjian ini mencakup menyetujui persyaratan dan persyaratan pemberian lisensi serta harga khusus partner. Untuk informasi selengkapnya atau memulai kontak dengan partner, lihat dokumentasi partner di kartu model Model Garden mereka, lalu klik Hubungi bagian penjualan.

Anda harus men-deploy pada jenis mesin yang diperlukan partner, seperti yang dijelaskan di bagian "Recommended hardware configuration" pada kartu model Model Garden mereka. Saat di-deploy, resource penayangan model berada di project terkelola Google yang aman.

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

Dalam kode Anda, ganti placeholder berikut:

  • LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
  • PROJECT_ID: Project ID Anda.
  • DISPLAY_NAME: Nama deskriptif untuk resource terkait.
  • PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
  • PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
  • MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner.
  • ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja yang intensif, seperti NVIDIA_L4. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner.
  • ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus cocok dengan salah satu konfigurasi yang diberikan oleh partner.
  • REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.
from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# Upload a model
model = aiplatform.Model.upload(
    display_name="DISPLAY_NAME_MODEL",
    model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)

# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")

# Deploy model
MACHINE_TYPE = "MACHINE_TYPE"  # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}

model.deploy(
    endpoint=my_endpoint,
    deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
    traffic_split={"0": 100},
    machine_type=MACHINE_TYPE,
    accelerator_type=ACCELERATOR_TYPE,
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=1,
    max_replica_count=1,
)

# Unary call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

response = my_endpoint.raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
)

print(response)

# Streaming call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

for stream_response in my_endpoint.stream_raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
):
    print(stream_response)

REST

Cantumkan semua model yang dapat di-deploy, lalu dapatkan ID model yang akan di-deploy. Kemudian, Anda dapat men-deploy model dengan konfigurasi dan endpoint default-nya. Atau, Anda dapat memilih untuk menyesuaikan deployment, seperti menetapkan jenis mesin tertentu atau menggunakan endpoint khusus.

Dalam contoh perintah curl, ganti placeholder berikut:

  • LOCATION: Region tempat Anda berencana men-deploy model dan endpoint.
  • PROJECT_ID: Project ID Anda.
  • DISPLAY_NAME: Nama deskriptif untuk resource terkait.
  • PUBLISHER_NAME: Nama partner yang menyediakan model untuk diupload atau di-deploy.
  • PUBLISHER_MODEL_NAME: Nama model yang akan diupload.
  • ENDPOINT_ID: ID endpoint.
  • MACHINE_TYPE: Menentukan kumpulan resource yang akan di-deploy untuk model Anda, seperti g2-standard-4. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner.
  • ACCELERATOR_TYPE: Menentukan akselerator yang akan ditambahkan ke deployment Anda untuk membantu meningkatkan performa saat menangani beban kerja yang intensif, seperti NVIDIA_L4. Anda harus cocok dengan salah satu konfigurasi yang disediakan oleh partner.
  • ACCELERATOR_COUNT: Jumlah akselerator yang akan digunakan. Anda harus cocok dengan salah satu konfigurasi yang diberikan oleh partner.
  • REQUEST_PAYLOAD: Kolom dan nilai yang akan disertakan dalam permintaan prediksi Anda. Lihat kartu model Model Garden partner untuk melihat kolom yang tersedia.
  1. Upload model untuk menambahkannya ke Model Registry Anda.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://LOCATION-aiplatform.googleapi.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \
    -d '{
      "model": {
        "displayName": "DISPLAY_NAME_MODEL",
        "baseModelSource": {
          "modelGardenSource": {
            "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
          }
        }
      }
    }'
    
  2. Buat endpoint

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \
    -d '{
      "displayName": "DISPLAY_NAME_ENDPOINT"
    }'
    
  3. Deploy model yang diupload ke endpoint.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \
    -d '{
      "deployedModel": {
        "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
        "displayName": "DISPLAY_NAME_DEPLOYED_MODEL",
        "dedicatedResources": {
         "machineSpec": {
            "machineType": "MACHINE_TYPE",
            "acceleratorType": "ACCELERATOR_TYPE",
            "acceleratorCount":"ACCELERATOR_COUNT",
         },
         "minReplicaCount": 1,
         "maxReplicaCount": 1
        },
      },
      "trafficSplit": {
        "0": 100
      }
    }'
    
  4. Setelah model di-deploy, Anda dapat melakukan panggilan unary atau streaming untuk prediksi. Lihat kartu model Model Garden partner untuk melihat metode API yang didukung.

    • Contoh panggilan unary:
    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \
    -d 'REQUEST_PAYLOAD'
    
    • Contoh panggilan streaming:
    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \
    -d 'REQUEST_PAYLOAD'
    

Konsol

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Untuk menemukan model tertentu, masukkan namanya di kotak penelusuran Model Garden.

  3. Untuk melihat semua model yang dapat Anda deploy sendiri, di bagian Koleksi model di panel filter, pilih Model partner deploy mandiri. Daftar yang dihasilkan mencakup semua model partner yang dapat di-deploy sendiri.

  4. Klik nama model yang akan di-deploy, yang akan membuka kartu modelnya.

  5. Klik Opsi deploy.

  6. Di panel Deploy on Vertex AI, konfigurasikan deployment Anda seperti lokasi dan jenis mesin.

  7. Klik Deploy.

Setelah deployment selesai, Anda dapat meminta prediksi menggunakan SDK atau API. Petunjuk tambahan tersedia di bagian "Dokumentasi" di kartu model.

Melihat atau mengelola endpoint

Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI.

Buka Prediksi online

Vertex AI mencantumkan semua endpoint dalam project Anda untuk region tertentu. Klik endpoint untuk melihat detailnya seperti model yang di-deploy ke endpoint.

Membatalkan deployment model dan menghapus resource

Untuk menghentikan model yang di-deploy agar tidak menggunakan resource dalam project Anda, batalkan deployment model dari endpoint-nya. Anda harus membatalkan deployment model sebelum dapat menghapus endpoint dan model.

Membatalkan deploy model

Batalkan deployment model dari endpoint-nya.

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

Dalam kode Anda, ganti:

  • PROJECT_ID dengan project ID Anda
  • LOCATION dengan region Anda, misalnya, "us-central1"
  • ENDPOINT_ID dengan ID endpoint Anda
from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()

gcloud

Dalam perintah ini, ganti:

  • PROJECT_ID dengan nama project Anda
  • LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
  • ENDPOINT_ID dengan ID endpoint
  • MODEL_ID dengan ID model dari perintah list model
  • DEPLOYED_MODEL_ID dengan ID model yang di-deploy
  1. Temukan ID endpoint yang terkait dengan deployment Anda dengan menjalankan perintah gcloud ai endpoints list.

    gcloud ai endpoints list \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    
  2. Temukan ID model dengan menjalankan perintah gcloud ai models list.

    gcloud ai models list \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    
  3. Gunakan ID model dari perintah sebelumnya untuk mendapatkan ID model yang di-deploy dengan menjalankan perintah gcloud ai models describe.

    gcloud ai models describe MODEL_ID \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    

    Output singkat terlihat seperti contoh berikut. Dalam output, ID disebut deployedModelId.

    Using endpoint [https://us-central1-aiplatform.googleapis.com/]
    artifactUri: [URI removed]
    baseModelSource:
      modelGardenSource:
        publicModelName: publishers/google/models/gemma2
    ...
    deployedModels:
    - deployedModelId: '1234567891234567891'
      endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345
    displayName: gemma2-2b-it-12345678912345
    etag: [ETag removed]
    modelSourceInfo:
      sourceType: MODEL_GARDEN
    name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345
    ...
    
  4. Jalankan perintah gcloud ai endpoints undeploy-model untuk membatalkan deployment model dari endpoint menggunakan ID endpoint dan ID model yang di-deploy dari perintah sebelumnya.

    gcloud ai endpoints undeploy-model ENDPOINT_ID \
        --project=PROJECT_ID \
        --region=LOCATION_ID \
        --deployed-model-id=DEPLOYED_MODEL_ID
    

    Perintah ini tidak menghasilkan output.

Konsol

  1. Di Google Cloud console, buka tab Endpoints di halaman Online prediction.

    Buka Endpoint

  2. Di menu drop-down Region, pilih region tempat endpoint Anda berada.

  3. Klik nama endpoint untuk membuka halaman detail.

  4. Di baris untuk model, klik Tindakan, lalu pilih Batalkan deployment model dari endpoint.

  5. Pada dialog Batalkan deployment model dari endpoint, klik Batalkan deployment.

Menghapus endpoint

Hapus endpoint Vertex AI yang terkait dengan deployment model Anda.

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

Dalam kode Anda, ganti:

  • PROJECT_ID dengan project ID Anda
  • LOCATION dengan region Anda, misalnya, "us-central1"
  • ENDPOINT_ID dengan ID endpoint Anda
from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()

gcloud

Dalam perintah ini, ganti:

  • PROJECT_ID dengan nama project Anda
  • LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
  • ENDPOINT_ID dengan ID endpoint
  1. Dapatkan ID endpoint yang akan dihapus dengan menjalankan perintah gcloud ai endpoints list. Perintah ini mencantumkan ID endpoint untuk semua endpoint dalam project Anda.

    gcloud ai endpoints list \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    
  2. Jalankan perintah gcloud ai endpoints delete untuk menghapus endpoint.

    gcloud ai endpoints delete ENDPOINT_ID \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    

    Jika diminta, ketik y untuk mengonfirmasi. Perintah ini tidak menghasilkan output.

Konsol

  1. Di Google Cloud console, buka tab Endpoints di halaman Online prediction.

    Buka Endpoint

  2. Di menu drop-down Region, pilih region tempat endpoint Anda berada.

  3. Di akhir baris endpoint, klik Tindakan, lalu pilih Hapus endpoint.

  4. Pada perintah konfirmasi, klik Konfirmasi.

Menghapus model

Hapus resource model yang terkait dengan deployment model Anda.

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

Dalam kode Anda, ganti:

  • PROJECT_ID dengan project ID Anda
  • LOCATION dengan region Anda, misalnya, "us-central1"
  • MODEL_ID dengan ID model Anda
from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()

model = aiplatform.Model(MODEL_ID)
model.delete()

gcloud

Dalam perintah ini, ganti:

  • PROJECT_ID dengan nama project Anda
  • LOCATION_ID dengan region tempat Anda men-deploy model dan endpoint
  • MODEL_ID dengan ID model dari perintah list model
  1. Temukan ID model yang akan dihapus dengan menjalankan perintah gcloud ai models list.

    gcloud ai models list \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    
  2. Jalankan perintah gcloud ai models delete untuk menghapus model dengan memberikan ID model dan lokasi model.

    gcloud ai models delete MODEL_ID \
        --project=PROJECT_ID \
        --region=LOCATION_ID
    

Konsol

  1. Buka halaman Model Registry dari bagian Vertex AI di konsol Google Cloud .

    Buka halaman Model Registry

  2. Di menu drop-down Region, pilih region tempat Anda men-deploy model.

  3. Pada baris model Anda, klik Tindakan, lalu pilih Hapus model.

    Saat Anda menghapus model, semua versi dan evaluasi model terkait akan dihapus dari project Google Cloud Anda.

  4. Pada perintah konfirmasi, klik Hapus.

Lihat contoh kode

Sebagian besar kartu model untuk model solusi khusus tugas berisi contoh kode yang dapat Anda salin dan uji.

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Temukan model yang didukung yang ingin Anda lihat contoh kodenya, lalu klik tab Documentation.

  3. Halaman akan men-scroll ke bagian dokumentasi dengan kode contoh yang disematkan.

Membuat aplikasi vision

Kartu model untuk model computer vision yang berlaku mendukung pembuatan aplikasi vision.

  1. Di Google Cloud console, buka halaman Model Garden.

    Buka Model Garden

  2. Temukan model vision di bagian solusi khusus Tugas yang ingin Anda gunakan untuk membuat aplikasi vision, lalu klik View details.

  3. Klik Build app.

    Anda akan diarahkan ke Vertex AI Vision.

  4. Di Application name, masukkan nama untuk aplikasi Anda, lalu klik Continue.

  5. Pilih paket penagihan, lalu klik Create.

    Anda akan diarahkan ke Vertex AI Vision Studio tempat Anda dapat melanjutkan pembuatan aplikasi computer vision.