Diese Seite wurde von der Cloud Translation API übersetzt.

Modelle in Model Garden verwenden

Mit Model Garden in derGoogle Cloud -Konsole können Sie Modelle entdecken, testen, abstimmen und bereitstellen. Sie können Model Garden-Modelle auch mit der Google Cloud CLI bereitstellen.

Test-Prompts senden

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie nach einem unterstützten Modell, das Sie testen möchten, und klicken Sie auf Details ansehen.
Klicken Sie auf Eingabeaufforderung-Design öffnen.

Sie werden zur Seite Eingabeaufforderungsdesign weitergeleitet.
Geben Sie in das Feld Eingabeaufforderung die Eingabeaufforderung ein, die Sie testen möchten.
Optional: Konfigurieren Sie die Modellparameter.
Klicken Sie auf Senden.

Modell abstimmen

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Geben Sie in Modelle suchen die Namen BERT oder T5-FLAN ein und klicken Sie dann auf die Lupe, um zu suchen.
Klicken Sie auf der T5-FLAN-Modellkarte oder auf der BERT-Modellkarte auf Details ansehen.
Klicken Sie auf Pipeline zur Feinabstimmung öffnen.

Sie werden zur Seite "Vertex AI Pipelines" weitergeleitet.
Klicken Sie auf Ausführung erstellen, um die Feinabstimmung zu starten.

In einem Notebook anhören

Die Modellkarten für die meisten Open-Source-Modellionsmodelle und feinabstimmungbare Modelle unterstützen die Feinabstimmung in einem Notebook.

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie nach einem unterstützten Modell, das Sie optimieren möchten, und rufen Sie die zugehörige Modellkarte auf.
Klicken Sie auf Notebook öffnen.

Offenes Modell bereitstellen

Sie können ein Modell mithilfe seiner Modellkarte in der Google Cloud Console oder programmatisch bereitstellen.

Weitere Informationen zum Einrichten des Google Gen AI SDK oder der Google Cloud CLI finden Sie in der Übersicht über das Google Gen AI SDK oder unter Google Cloud CLI installieren.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Listen Sie die Modelle auf, die Sie bereitstellen können, und notieren Sie die Modell-ID, die Sie bereitstellen möchten. Optional können Sie die unterstützten Hugging Face-Modelle in Model Garden auflisten und sogar nach Modellnamen filtern. Die Ausgabe enthält keine abgestimmten Modelle.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

# List deployable models, optionally list Hugging Face models only or filter by model name.
deployable_models = model_garden.list_deployable_models(list_hf_models=False, model_filter="gemma")
print(deployable_models)
# Example response:
# ['google/gemma2@gemma-2-27b','google/gemma2@gemma-2-27b-it', ...]

Sie können die Bereitstellungsspezifikationen für ein Modell mit der Modell-ID aus dem vorherigen Schritt aufrufen. Sie können den Maschinentyp, den Beschleunigertyp und den Container-Image-URI ansehen, die Model Garden für ein bestimmtes Modell überprüft hat.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
# model = "google/gemma3@gemma-3-1b-it"
vertexai.init(project=PROJECT_ID, location="us-central1")

# For Hugging Face modelsm the format is the Hugging Face model name, as in
# "meta-llama/Llama-3.3-70B-Instruct".
# Go to https://console.cloud.google.com/vertex-ai/model-garden to find all deployable
# model names.

model = model_garden.OpenModel(model)
deploy_options = model.list_deploy_options()
print(deploy_options)
# Example response:
# [
#   dedicated_resources {
#     machine_spec {
#       machine_type: "g2-standard-12"
#       accelerator_type: NVIDIA_L4
#       accelerator_count: 1
#     }
#   }
#   container_spec {
#     ...
#   }
#   ...
# ]

Stellen Sie ein Modell auf einem Endpunkt bereit. Im Model Garden wird die Standardkonfiguration für die Bereitstellung verwendet, sofern Sie keine zusätzlichen Argumente und Werte angeben.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

open_model = model_garden.OpenModel("google/gemma3@gemma-3-12b-it")
endpoint = open_model.deploy(
    machine_type="g2-standard-48",
    accelerator_type="NVIDIA_L4",
    accelerator_count=4,
    accept_eula=True,
)

# Optional. Run predictions on the deployed endoint.
# endpoint.predict(instances=[{"prompt": "What is Generative AI?"}])

gcloud

Bevor Sie beginnen, geben Sie ein Kontingentprojekt an, in dem die folgenden Befehle ausgeführt werden sollen. Die ausgeführten Befehle werden auf die Kontingente für dieses Projekt angerechnet. Weitere Informationen finden Sie unter Kontingentprojekt festlegen.

Mit dem Befehl gcloud ai model-garden models list können Sie die Modelle auflisten, die Sie bereitstellen können. Mit diesem Befehl werden alle Modell-IDs und die Modelle aufgelistet, die Sie selbst bereitstellen können.

gcloud ai model-garden models list

Suchen Sie in der Ausgabe nach der Modell-ID, die bereitgestellt werden soll. Das folgende Beispiel zeigt eine gekürzte Ausgabe.

MODEL_ID                                      CAN_DEPLOY  CAN_PREDICT
google/gemma2@gemma-2-27b                     Yes         No
google/gemma2@gemma-2-27b-it                  Yes         No
google/gemma2@gemma-2-2b                      Yes         No
google/gemma2@gemma-2-2b-it                   Yes         No
google/gemma2@gemma-2-9b                      Yes         No
google/gemma2@gemma-2-9b-it                   Yes         No
google/gemma3@gemma-3-12b-it                  Yes         No
google/gemma3@gemma-3-12b-pt                  Yes         No
google/gemma3@gemma-3-1b-it                   Yes         No
google/gemma3@gemma-3-1b-pt                   Yes         No
google/gemma3@gemma-3-27b-it                  Yes         No
google/gemma3@gemma-3-27b-pt                  Yes         No
google/gemma3@gemma-3-4b-it                   Yes         No
google/gemma3@gemma-3-4b-pt                   Yes         No
google/gemma3n@gemma-3n-e2b                   Yes         No
google/gemma3n@gemma-3n-e2b-it                Yes         No
google/gemma3n@gemma-3n-e4b                   Yes         No
google/gemma3n@gemma-3n-e4b-it                Yes         No
google/gemma@gemma-1.1-2b-it                  Yes         No
google/gemma@gemma-1.1-2b-it-gg-hf            Yes         No
google/gemma@gemma-1.1-7b-it                  Yes         No
google/gemma@gemma-1.1-7b-it-gg-hf            Yes         No
google/gemma@gemma-2b                         Yes         No
google/gemma@gemma-2b-gg-hf                   Yes         No
google/gemma@gemma-2b-it                      Yes         No
google/gemma@gemma-2b-it-gg-hf                Yes         No
google/gemma@gemma-7b                         Yes         No
google/gemma@gemma-7b-gg-hf                   Yes         No
google/gemma@gemma-7b-it                      Yes         No
google/gemma@gemma-7b-it-gg-hf                Yes         No

Die Ausgabe enthält keine angepassten Modelle oder Hugging Face-Modelle. Wenn Sie sehen möchten, welche Hugging Face-Modelle unterstützt werden, fügen Sie das Flag --can-deploy-hugging-face-models hinzu.

Führen Sie den Befehl gcloud ai model-garden models list-deployment-config aus, um die Bereitstellungsspezifikationen für ein Modell aufzurufen. Sie können den Maschinentyp, den Beschleunigertyp und den Container-Image-URI ansehen, die Model Garden für ein bestimmtes Modell unterstützt.
```
gcloud ai model-garden models list-deployment-config \
    --model=MODEL_ID
```
Ersetzen Sie MODEL_ID durch die Modell-ID aus dem vorherigen Listenbefehl, z. B. google/gemma@gemma-2b oder stabilityai/stable-diffusion-xl-base-1.0.
Stellen Sie ein Modell auf einem Endpunkt bereit, indem Sie den Befehl gcloud ai model-garden models deploy ausführen. Im Model Garden wird ein Anzeigename für Ihren Endpunkt generiert und die Standardbereitstellungskonfiguration verwendet, sofern Sie keine zusätzlichen Argumente und Werte angeben.

Wenn Sie den Befehl asynchron ausführen möchten, fügen Sie das Flag --asynchronous ein.
```
gcloud ai model-garden models deploy \
    --model=MODEL_ID \
    [--machine-type=MACHINE_TYPE] \
    [--accelerator-type=ACCELERATOR_TYPE] \
    [--endpoint-display-name=ENDPOINT_NAME] \
    [--hugging-face-access-token=HF_ACCESS_TOKEN] \
    [--reservation-affinity reservation-affinity-type=any-reservation] \
    [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \
    [--asynchronous]
```
Ersetzen Sie die folgenden Platzhalter:
- MODEL_ID: Die Modell-ID aus dem vorherigen Befehl zum Auflisten. Verwenden Sie für Hugging Face-Modelle das Hugging Face-Modell-URL-Format, z. B. stabilityai/stable-diffusion-xl-base-1.0.
- MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B. g2-standard-4.
- ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie NVIDIA_L4 zu verbessern.
- ENDPOINT_NAME: Ein Name für den bereitgestellten Vertex AI-Endpunkt.
- HF_ACCESS_TOKEN: Geben Sie für Hugging Face-Modelle ein Zugriffstoken an, wenn das Modell eingeschränkt ist.
- RESERVATION_RESOURCE_NAME: Wenn Sie eine bestimmte Compute Engine-Reservierung verwenden möchten, geben Sie den Namen der Reservierung an. Wenn Sie eine bestimmte Reservierung angeben, können Sie any-reservation nicht angeben.
Die Ausgabe enthält die Bereitstellungskonfiguration, die Model Garden verwendet hat, die Endpunkt-ID und die Bereitstellungsvorgangs-ID, mit der Sie den Bereitstellungsstatus prüfen können.
```
Using the default deployment configuration:
 Machine type: g2-standard-12
 Accelerator type: NVIDIA_L4
 Accelerator count: 1

The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28.

Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods:
1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console
2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
```
Führen Sie den Befehl gcloud ai endpoints list --list-model-garden-endpoints-only aus, um Details zu Ihrem Deployment aufzurufen:
```
gcloud ai endpoints list --list-model-garden-endpoints-only \
    --region=LOCATION_ID
```
Ersetzen Sie LOCATION_ID durch die Region, in der Sie das Modell bereitgestellt haben.

Die Ausgabe enthält alle Endpunkte, die aus Model Garden erstellt wurden, sowie Informationen wie die Endpunkt-ID, den Endpunktnamen und ob der Endpunkt einem bereitgestellten Modell zugeordnet ist. Suchen Sie nach dem Endpunktnamen, der vom vorherigen Befehl zurückgegeben wurde, um Ihre Bereitstellung zu finden.

REST

Listen Sie alle bereitstellbaren Modelle auf und rufen Sie dann die ID des bereitzustellenden Modells ab. Anschließend können Sie das Modell mit der Standardkonfiguration und dem Standardendpunkt bereitstellen. Alternativ können Sie Ihr Deployment anpassen, z. B. einen bestimmten Maschinentyp festlegen oder einen dedizierten Endpunkt verwenden.

1. Bereitstellbare Modelle auflisten

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre Google Cloud Projekt-ID
QUERY_PARAMETERS: Wenn Sie Model Garden-Modelle auflisten möchten, fügen Sie die folgenden Abfrageparameter listAllVersions=True&filter=can_deploy(true) hinzu. Wenn Sie Hugging Face-Modelle auflisten möchten, legen Sie den Filter auf alt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True fest.

HTTP-Methode und URL:

GET https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS

Senden Sie die Anfrage mithilfe einer der folgenden Optionen:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Führen Sie folgenden Befehl aus:

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Führen Sie folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content

Sie erhalten eine JSON-Antwort ähnlich der folgenden.

{
  "publisherModels": [
    {
      "name": "publishers/google/models/gemma3",
      "versionId": "gemma-3-1b-it",
      "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT",
      "supportedActions": {
        "openNotebook": {
          "references": {
            "us-central1": {
              "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb"
            }
          },
          "resourceTitle": "Notebook",
          "resourceUseCase": "Chat Completion Playground",
          "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI."
        },
        "deploy": {
          "modelDisplayName": "gemma-3-1b-it",
          "containerSpec": {
            "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01",
            "args": [
              "python",
              "-m",
              "vllm.entrypoints.api_server",
              "--host=0.0.0.0",
              "--port=8080",
              "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it",
              "--tensor-parallel-size=1",
              "--swap-space=16",
              "--gpu-memory-utilization=0.95",
              "--disable-log-stats"
            ],
            "env": [
              {
                "name": "MODEL_ID",
                "value": "google/gemma-3-1b-it"
              },
              {
                "name": "DEPLOY_SOURCE",
                "value": "UI_NATIVE_MODEL"
              }
            ],
            "ports": [
              {
                "containerPort": 8080
              }
            ],
            "predictRoute": "/generate",
            "healthRoute": "/ping"
          },
          "dedicatedResources": {
            "machineSpec": {
              "machineType": "g2-standard-12",
              "acceleratorType": "NVIDIA_L4",
              "acceleratorCount": 1
            }
          },
          "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz",
          "deployTaskName": "vLLM 128K context",
          "deployMetadata": {
            "sampleRequest": "{\n    \"instances\": [\n        {\n          \"@requestFormat\": \"chatCompletions\",\n          \"messages\": [\n              {\n                  \"role\": \"user\",\n                  \"content\": \"What is machine learning?\"\n              }\n          ],\n          \"max_tokens\": 100\n        }\n    ]\n}\n"
          }
        },
        ...

2. Modell bereitstellen

Stellen Sie ein Modell aus Model Garden oder ein Modell von Hugging Face bereit. Sie können die Bereitstellung auch anpassen, indem Sie zusätzliche JSON-Felder angeben.

Modell mit der Standardkonfiguration bereitstellen

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, in der das Modell bereitgestellt wird.
PROJECT_ID: Ihre Google Cloud Projekt-ID
MODEL_ID: Die ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: publishers/PUBLISHER_NAME/models/ MODEL_NAME@MODEL_VERSION.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON-Text der Anfrage:

{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

@'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Sie erhalten eine JSON-Antwort ähnlich der folgenden.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Hugging Face-Modell bereitstellen

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, in der das Modell bereitgestellt wird.
PROJECT_ID: Ihre Google Cloud Projekt-ID
MODEL_ID: Die Hugging Face-Modell-ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: PUBLISHER_NAME/MODEL_NAME.
ACCESS_TOKEN: Wenn das Modell eingeschränkt ist, geben Sie ein Zugriffstoken an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON-Text der Anfrage:

{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat > request.json << 'EOF'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

@'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Sie erhalten eine JSON-Antwort ähnlich der folgenden.

{
  "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Modell mit Anpassungen bereitstellen

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, in der das Modell bereitgestellt wird.
PROJECT_ID: Ihre Google Cloud Projekt-ID
MODEL_ID: Die ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: publishers/PUBLISHER_NAME/models/ MODEL_NAME@MODEL_VERSION, z. B. google/gemma@gemma-2b oder stabilityai/stable-diffusion-xl-base-1.0.
MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B. g2-standard-4.
ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrem Deployment hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie NVIDIA_L4 zu verbessern.
ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die in Ihrem Deployment verwendet werden sollen.
reservation_affinity_type: Wenn Sie eine vorhandene Compute Engine-Reservierung für Ihre Bereitstellung verwenden möchten, geben Sie eine beliebige oder eine bestimmte Reservierung an. Wenn Sie diesen Wert angeben, geben Sie keinen Wert für spot an.
spot: Gibt an, ob Spot-VMs für die Bereitstellung verwendet werden sollen.
IMAGE_URI: Der Speicherort des zu verwendenden Container-Images, z. B. us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
CONTAINER_ARGS: Argumente, die während des Deployments an den Container übergeben werden sollen.
CONTAINER_PORT: Eine Portnummer für Ihren Container.
fast_tryout_enabled: Wenn Sie ein Modell testen, können Sie eine schnellere Bereitstellung verwenden. Diese Option ist nur für die häufig verwendeten Modelle mit bestimmten Maschinentypen verfügbar. Wenn diese Option aktiviert ist, können Sie keine Modell- oder Bereitstellungskonfigurationen angeben.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON-Text der Anfrage:

{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

@'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
'@  | Out-File -FilePath request.json -Encoding utf8

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

Sie erhalten eine JSON-Antwort ähnlich der folgenden.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Console

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie ein unterstütztes Modell, das Sie bereitstellen möchten, und klicken Sie auf die zugehörige Modellkarte.
Klicken Sie auf Bereitstellen, um den Bereich Modell bereitstellen zu öffnen.
Geben Sie im Bereich Modell bereitstellen Details für die Bereitstellung an.
1. Verwenden oder ändern Sie die generierten Modell- und Endpunktnamen.
2. Wählen Sie einen Standort aus, an dem der Modellendpunkt erstellt werden soll.
3. Wählen Sie einen Maschinentyp für jeden Knoten Ihrer Bereitstellung aus.
4. Wenn Sie eine Compute Engine-Reservierung verwenden möchten, wählen Sie im Abschnitt Bereitstellungseinstellungen die Option Erweitert aus.
Wählen Sie im Feld Reservierungstyp einen Reservierungstyp aus. Die Reservierung muss mit den von Ihnen angegebenen Maschinenspezifikationen übereinstimmen.
- Erstellte Reservierung automatisch verwenden: Vertex AI wählt automatisch eine zulässige Reservierung mit übereinstimmenden Attributen aus. Wenn in der automatisch ausgewählten Reservierung keine Kapazität vorhanden ist, verwendet Vertex AI den allgemeinen Google Cloud Ressourcenpool.
- Spezifische Reservierungen auswählen: Vertex AI verwendet eine bestimmte Reservierung. Wenn für die ausgewählte Reservierung keine Kapazität vorhanden ist, wird ein Fehler ausgegeben.
- Nicht verwenden (Standard): Vertex AI verwendet den allgemeinenGoogle Cloud -Ressourcenpool. Dieser Wert hat denselben Effekt wie das Weglassen einer Reservierung.
Klicken Sie auf Bereitstellen.

Terraform

Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle. Weitere Informationen finden Sie in der Anbieterreferenzdokumentation zu Terraform.

Modell bereitstellen

Im folgenden Beispiel wird das Modell gemma-3-1b-it mit Standardkonfigurationen auf einem neuen Vertex AI-Endpunkt in us-central1 bereitgestellt.

terraform {
  required_providers {
    google = {
      source = "hashicorp/google"
      version = "6.45.0"
    }
  }
}

provider "google" {
  region  = "us-central1"
}

resource "google_vertex_ai_endpoint_with_model_garden_deployment" "gemma_deployment" {
  publisher_model_name = "publishers/google/models/gemma3@gemma-3-1b-it"
  location = "us-central1"
  model_config {
    accept_eula = True
  }
}

Informationen zum Bereitstellen eines Modells mit Anpassung finden Sie unter Vertex AI-Endpunkt mit Model Garden-Bereitstellung.

Konfiguration anwenden

terraform init
terraform plan
terraform apply

Nachdem Sie die Konfiguration angewendet haben, stellt Terraform einen neuen Vertex AI-Endpunkt bereit und stellt das angegebene offene Modell bereit.

Bereinigen

Führen Sie den folgenden Befehl aus, um den Endpunkt und die Modellbereitstellung zu löschen:

terraform destroy

Partnermodell bereitstellen und Vorhersageanfragen stellen

Rufen Sie in der Google Cloud Console die Seite Model Garden auf und verwenden Sie den Filter Modellsammlungen, um die Partner-Modelle zur Selbstbereitstellung aufzurufen. Wählen Sie ein Partnermodell aus der Liste der selbst bereitstellenden Partner aus und kaufen Sie das Modell, indem Sie auf Aktivieren klicken.

Sie müssen die Bereitstellung auf den vom Partner geforderten Maschinentypen vornehmen, wie im Abschnitt „Empfohlene Hardwarekonfiguration“ auf der Modellkarte im Model Garden beschrieben. Nach der Bereitstellung befinden sich die Ressourcen für die Bereitstellung des Modells in einem sicheren, von Google verwalteten Projekt.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Ersetzen Sie in Ihrem Code die folgenden Platzhalter:

LOCATION: Die Region, in der Sie das Modell und den Endpunkt bereitstellen möchten.
PROJECT_ID: Ihre Projekt-ID.
DISPLAY_NAME: Ein aussagekräftiger Name für die zugehörige Ressource.
PUBLISHER_NAME: Der Name des Partners, der das Modell zum Hochladen oder Bereitstellen bereitstellt.
PUBLISHER_MODEL_NAME: Der Name des Modells, das hochgeladen werden soll.
MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B. g2-standard-4. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen.
ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie NVIDIA_L4 zu verbessern. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen.
ACCELERATOR_COUNT: Die Anzahl der zu verwendenden Beschleuniger. Sie müssen eine der vom Partner bereitgestellten Konfigurationen verwenden.
REQUEST_PAYLOAD: Die Felder und Werte, die in Ihre Vorhersageanfrage aufgenommen werden sollen. Sehen Sie sich die Modellkarte des Partners in Model Garden an, um die verfügbaren Felder zu sehen.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# Upload a model
model = aiplatform.Model.upload(
    display_name="DISPLAY_NAME_MODEL",
    model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)

# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")

# Deploy model
MACHINE_TYPE = "MACHINE_TYPE"  # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}

model.deploy(
    endpoint=my_endpoint,
    deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
    traffic_split={"0": 100},
    machine_type=MACHINE_TYPE,
    accelerator_type=ACCELERATOR_TYPE,
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=1,
    max_replica_count=1,
)

# Unary call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

response = my_endpoint.raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
)

print(response)

# Streaming call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

for stream_response in my_endpoint.stream_raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
):
    print(stream_response)

REST

Ersetzen Sie in den Beispiel-curl-Befehlen die folgenden Platzhalter:

LOCATION: Die Region, in der Sie das Modell und den Endpunkt bereitstellen möchten.
PROJECT_ID: Ihre Projekt-ID.
DISPLAY_NAME: Ein aussagekräftiger Name für die zugehörige Ressource.
PUBLISHER_NAME: Der Name des Partners, der das Modell zum Hochladen oder Bereitstellen bereitstellt.
PUBLISHER_MODEL_NAME: Der Name des Modells, das hochgeladen werden soll.
ENDPOINT_ID: Die ID des Endpunkts.
MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B. g2-standard-4. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen.
ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie NVIDIA_L4 zu verbessern. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen.
ACCELERATOR_COUNT: Die Anzahl der zu verwendenden Beschleuniger. Sie müssen eine der vom Partner bereitgestellten Konfigurationen verwenden.
REQUEST_PAYLOAD: Die Felder und Werte, die in Ihre Vorhersageanfrage aufgenommen werden sollen. Sehen Sie sich die Modellkarte des Partners in Model Garden an, um die verfügbaren Felder zu sehen.

Laden Sie ein Modell hoch, um es Ihrer Model Registry hinzuzufügen.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \
-d '{
"model": {
  "displayName": "DISPLAY_NAME_MODEL",
  "baseModelSource": {
    "modelGardenSource": {
      "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
    }
  }
}
}'

Erstellen Sie einen Endpunkt.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \
-d '{
"displayName": "DISPLAY_NAME_ENDPOINT"
}'

Stellen Sie das hochgeladene Modell für den Endpunkt bereit.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \
-d '{
"deployedModel": {
  "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "displayName": "DISPLAY_NAME_DEPLOYED_MODEL",
  "dedicatedResources": {
   "machineSpec": {
      "machineType": "MACHINE_TYPE",
      "acceleratorType": "ACCELERATOR_TYPE",
      "acceleratorCount":"ACCELERATOR_COUNT",
   },
   "minReplicaCount": 1,
   "maxReplicaCount": 1
  },
},
"trafficSplit": {
  "0": 100
}
}'

Nachdem das Modell bereitgestellt wurde, können Sie einen unären oder Streaming-Aufruf für Vorhersagen durchführen. Auf der Modellkarte des Partners in Model Garden können Sie sehen, welche API-Methoden unterstützt werden.

Beispiel für einen unären Aufruf:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \
-d 'REQUEST_PAYLOAD'

Beispiel für einen Streaming-Aufruf:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \
-d 'REQUEST_PAYLOAD'

Console

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Wenn Sie ein bestimmtes Modell suchen möchten, geben Sie den Namen in das Suchfeld von Model Garden ein.
Wenn Sie alle Modelle sehen möchten, die Sie selbst bereitstellen können, wählen Sie im Filterbereich im Abschnitt Modellsammlungen die Option Partnermodelle mit Selbstbereitstellung aus. Die resultierende Liste enthält alle selbst bereitstellbaren Partnermodelle.
Klicken Sie auf den Namen des Modells, das Sie bereitstellen möchten. Dadurch wird die Modellkarte geöffnet.
Klicken Sie auf Bereitstellungsoptionen.
Konfigurieren Sie im Bereich In Vertex AI bereitstellen die Bereitstellung, z. B. den Standort und den Maschinentyp.
Klicken Sie auf Bereitstellen.

Nach Abschluss der Bereitstellung können Sie Vorhersagen über das SDK oder die API anfordern. Weitere Anleitungen finden Sie auf der Modellkarte im Abschnitt „Dokumentation“.

Modell für einen privaten Endpunkt bereitstellen

Sie können Modelle aus Model Garden an einem Private Service Connect-Endpunkt (PSC) bereitstellen, um eine sichere und private Verbindung zu Ihrem Modell herzustellen. Diese Einrichtung kann auch in einen internen und externen regionalen Application Load Balancer integriert werden, wenn sie mit einer PSC-Netzwerk-Endpunktgruppe bereitgestellt wird. Führen Sie die folgenden Schritte aus, um einen PSC-Endpunkt für Ihr Modell zu konfigurieren und so eine private Verbindung zu gewährleisten.

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie nach einem Modell, das Sie bereitstellen möchten, und klicken Sie auf die entsprechende Modellkarte.
Klicken Sie auf Modell bereitstellen. Im Bereich Modell bereitstellen basieren die vordefinierten Bereitstellungseinstellungen auf einem öffentlichen dedizierten Endpunkt.
Wählen Sie Einstellung bearbeiten aus, um weitere Bereitstellungsoptionen wie den privaten Zugriff zu aktivieren.
Konfigurieren Sie die Bereitstellungseinstellungen.
- Wählen Sie einen Standort aus, an dem der Modellendpunkt erstellt werden soll.
- Akzeptieren oder ändern Sie den generierten Modell- und Endpunktnamen.
- Die Auswahl eines Maschinentyps für die Bereitstellung ist optional, da die empfohlene Konfiguration bereits für Sie ausgewählt wurde.
- Wählen Sie im Feld Reservierungstyp einen Reservierungstyp aus. Die Reservierung muss mit den von Ihnen angegebenen Maschinenspezifikationen übereinstimmen.
  - Erstellte Reservierung automatisch verwenden: Vertex AI wählt eine verfügbare Reservierung mit übereinstimmenden Attributen aus. Wenn in der ausgewählten Reservierung keine Kapazität verfügbar ist, verwendet Vertex AI den allgemeinen Google Cloud-Ressourcenpool.
  - Spezifische Reservierungen auswählen: Vertex AI verwendet eine bestimmte Reservierung. Wenn in der ausgewählten Reservierung keine Kapazität verfügbar ist, schlägt die Bereitstellung fehl.
  - Keine Reservierung (Standard): Vertex AI verwendet den allgemeinen Google Cloud-Ressourcenpool.
- Verfügbarkeitsrichtlinien konfigurieren
  - Standard: Ideal für die meisten Arbeitslasten.
  - Spot: Ideal für fehlertolerante Arbeitslasten.
  - Flex-Start: Verwendet Dynamic Workload Scheduling (DWS), um Ressourcenzuweisungsanfragen zu verwalten und zu priorisieren
Konfigurieren Sie den Endpunktzugriff für private Netzwerke.
- Wählen Sie Privat (Private Service Connect) aus.
- Wählen Sie Projekt-IDs aus. Wenn Sie Zugriff auf andere Projekte gewähren möchten, geben Sie hier die entsprechenden Projekt-IDs ein. Wenn Sie dieses Feld leer lassen, kann auf den Endpunkt nur innerhalb des aktuellen Projekts zugegriffen werden.
Klicken Sie auf Bereitstellen.
Rufen Sie die Seite Model Garden auf und wählen Sie Meine Endpunkte und Modelle ansehen aus, um die Bereitstellung im Bereich Meine Endpunkte aufzurufen. Achten Sie darauf, dass Sie die richtige Region ausgewählt haben, damit Ihr Endpunkt sichtbar ist. Wählen Sie den Endpunkt aus. Der Status wird als Wird bereitgestellt angezeigt und ändert sich nach Abschluss in Bereit.

Rufen Sie die Endpunkt-ID ab, öffnen Sie Cloud Shell und führen Sie die folgenden Schritte aus, um den URI des privaten Dienstanhangs abzurufen:

gcloud ai endpoints describe ENDPOINT_ID --region=REGION  | grep -i serviceAttachment:

Ein Beispiel dafür sehen Sie unten:

user@cloudshell:$ gcloud ai endpoints describe 2124795225560842240 --region=europe-west4 | grep -i serviceAttachment:
Using endpoint [https://europe-west4-aiplatform.googleapis.com/]
    serviceAttachment: projects/o9457b320a852208e-tp/regions/europe-west4/serviceAttachments/gkedpm-52065579567eaf39bfe24f25f7981d

Nachdem Sie die Dienstanhänge erhalten haben, haben Sie folgende Möglichkeiten, auf das Modell zuzugreifen:

Stellen Sie einen PSC-Endpunkt in derselben VPC wie das gewährte Projekt bereit. Dieser Ansatz ermöglicht die Erreichbarkeit über Hybridnetzwerke und innerhalb derselben VPC. PSC-Endpunkte sind nicht über VPC-Peering erreichbar.
Wenn Sie eine Private Service Connect (PSC)-Netzwerk-Endpunktgruppe (NEG) bereitstellen, können Sie dies in derselben VPC wie das zulässige Projekt tun. So können Sie das Modell über einen internen oder externen Load-Balancer bereitstellen, was mehrere Vorteile bietet:
- Zugriff über VPC-Peering: Auf den Load Balancer kann über Peering-VPC-Netzwerke zugegriffen werden.
- Sicherheitsfunktionen: Sie erhalten Unterstützung für Cloud Armor und Model Armor, um Ihren Endpunkt zu schützen.
- Trafficverwaltung: Ermöglicht erweitertes Traffic-Routing, z. B. das Umschreiben von Host und Pfad.
- Zentralisierter Zugriff: Ein einzelner Application Load Balancer kann verwendet werden, um Traffic mithilfe von Pfadregeln an das Modell weiterzuleiten.

Endpunkt ansehen oder verwalten

Wenn Sie Ihren Endpunkt aufrufen und verwalten möchten, rufen Sie die Vertex AI-Seite Onlinevorhersage auf.

Zur Onlinevorhersage

Vertex AI listet alle Endpunkte in Ihrem Projekt für eine bestimmte Region auf. Klicken Sie auf einen Endpunkt, um die zugehörigen Details aufzurufen, z. B. welche Modelle auf dem Endpunkt bereitgestellt sind.

Bereitstellung von Modellen aufheben und Ressourcen löschen

Wenn Sie verhindern möchten, dass ein bereitgestelltes Modell Ressourcen in Ihrem Projekt verwendet, heben Sie die Bereitstellung des Modells von seinem Endpunkt auf. Sie müssen die Bereitstellung eines Modells aufheben, bevor Sie den Endpunkt und das Modell löschen können.

Modellbereitstellung rückgängig machen

Heben Sie die Bereitstellung eines Modells an seinem Endpunkt auf.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Ersetzen Sie in Ihrem Code Folgendes:

PROJECT_ID durch Ihre Projekt-ID
LOCATION durch Ihre Region, z. B. „us-central1“
ENDPOINT_ID durch Ihre Endpunkt-ID

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()

gcloud

Ersetzen Sie in diesen Befehlen Folgendes:

PROJECT_ID durch Ihren Projektnamen.
LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
ENDPOINT_ID durch die Endpunkt-ID
MODEL_ID mit der Modell-ID aus dem Befehl „list model“
DEPLOYED_MODEL_ID durch die ID des bereitgestellten Modells

Suchen Sie die Endpunkt-ID, die mit Ihrer Bereitstellung verknüpft ist, indem Sie den Befehl gcloud ai endpoints list ausführen.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

Rufen Sie die Modell-ID mit dem Befehl gcloud ai models list ab.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Verwenden Sie die Modell-ID aus dem vorherigen Befehl, um die ID des bereitgestellten Modells abzurufen, indem Sie den Befehl gcloud ai models describe ausführen.

gcloud ai models describe MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Die gekürzte Ausgabe sieht so aus: In der Ausgabe wird die ID als deployedModelId bezeichnet.

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
artifactUri: [URI removed]
baseModelSource:
  modelGardenSource:
    publicModelName: publishers/google/models/gemma2
...
deployedModels:
-   deployedModelId: '1234567891234567891'
  endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345
displayName: gemma2-2b-it-12345678912345
etag: [ETag removed]
modelSourceInfo:
  sourceType: MODEL_GARDEN
name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345
...

Führen Sie den Befehl gcloud ai endpoints undeploy-model aus, um die Bereitstellung des Modells am Endpunkt mit der Endpunkt-ID und der ID des bereitgestellten Modells aus den vorherigen Befehlen aufzuheben.
```
gcloud ai endpoints undeploy-model ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID \
    --deployed-model-id=DEPLOYED_MODEL_ID
```
Dieser Befehl erzeugt keine Ausgabe.

Console

Rufen Sie in der Google Cloud Console auf der Seite Onlinevorhersage den Tab Endpunkte auf.

Endpunkte aufrufen
Wählen Sie in der Drop-down-Liste Region die Region aus, in der sich Ihr Endpunkt befindet.
Klicken Sie auf den Endpunktnamen, um die Detailseite zu öffnen.
Klicken Sie in der Zeile für das Modell auf Aktionen und wählen Sie dann Bereitstellung des Modells am Endpunkt aufheben aus.
Klicken Sie im Dialogfeld Bereitstellung des Endpunkts aufheben auf Bereitstellung aufheben.

Endpunkte löschen

Löschen Sie den Vertex AI-Endpunkt, der mit der Modellbereitstellung verknüpft war.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Ersetzen Sie in Ihrem Code Folgendes:

PROJECT_ID durch Ihre Projekt-ID
LOCATION durch Ihre Region, z. B. „us-central1“
ENDPOINT_ID durch Ihre Endpunkt-ID

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()

gcloud

Ersetzen Sie in diesen Befehlen Folgendes:

PROJECT_ID durch Ihren Projektnamen.
LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
ENDPOINT_ID durch die Endpunkt-ID

Rufen Sie die zu löschende Endpunkt-ID mit dem Befehl gcloud ai endpoints list ab. Mit diesem Befehl werden die Endpunkt-IDs für alle Endpunkte in Ihrem Projekt aufgelistet.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
Führen Sie den Befehl gcloud ai endpoints delete aus, um den Endpunkt zu löschen.
```
gcloud ai endpoints delete ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
Geben Sie bei Aufforderung zur Bestätigung y ein. Dieser Befehl erzeugt keine Ausgabe.

Console

Rufen Sie in der Google Cloud Console auf der Seite Onlinevorhersage den Tab Endpunkte auf.

Endpunkte aufrufen
Wählen Sie in der Drop-down-Liste Region die Region aus, in der sich Ihr Endpunkt befindet.
Klicken Sie am Ende der Zeile des Endpunkts auf Aktionen und wählen Sie dann Endpunkt löschen aus.
Klicken Sie in der Bestätigungsaufforderung auf Bestätigen.

Modelle löschen

Löschen Sie die Modellressource, die mit Ihrer Modellbereitstellung verknüpft war.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Ersetzen Sie in Ihrem Code Folgendes:

PROJECT_ID durch Ihre Projekt-ID
LOCATION durch Ihre Region, z. B. „us-central1“
MODEL_ID durch Ihre Modell-ID

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()

model = aiplatform.Model(MODEL_ID)
model.delete()

gcloud

Ersetzen Sie in diesen Befehlen Folgendes:

PROJECT_ID durch Ihren Projektnamen.
LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
MODEL_ID mit der Modell-ID aus dem Befehl „list model“

Führen Sie den Befehl gcloud ai models list aus, um die zu löschende Modell-ID zu ermitteln.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Führen Sie den Befehl gcloud ai models delete aus, um das Modell zu löschen. Geben Sie dazu die Modell-ID und den Speicherort des Modells an.
```
gcloud ai models delete MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

Console

Rufen Sie in der Google Cloud Console im Bereich „Vertex AI“ die Seite Model Registry auf.

Zur Seite Model Registry
Wählen Sie in der Drop-down-Liste Region die Region aus, in der Sie Ihr Modell bereitgestellt haben.
Klicken Sie in der Zeile für Ihr Modell auf Aktionen und wählen Sie dann Modell löschen aus.

Wenn Sie das Modell löschen, werden alle zugehörigen Modellversionen und -bewertungen aus Ihrem Google Cloud -Projekt gelöscht.
Klicken Sie in der Bestätigungsaufforderung auf Löschen.

Codebeispiele ansehen

Die meisten Modellkarten für aufgabenspezifische Lösungsmodelle enthalten Codebeispiele, die Sie kopieren und testen können.

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie nach einem unterstützten Modell, für das Sie Codebeispiele aufrufen möchten, und klicken Sie auf den Tab Dokumentation.
Auf der Seite wird zum Abschnitt „Dokumentation“ mit eingebettetem Beispielcode gescrollt.

Vision-App erstellen

Die Modellkarten für anwendbare Modelle für Computer Vision unterstützen die Erstellung einer Vision-Anwendung.

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Suchen Sie im Abschnitt „Aufgabenspezifische Lösungen“ nach einem Vision-Modell, das Sie zum Erstellen einer Vision-Anwendung verwenden möchten, und klicken Sie auf Details ansehen.
Klicken Sie auf App erstellen.

Sie werden zu Vertex AI Vision weitergeleitet.
Geben Sie unter Anwendungsname einen Namen für Ihre Anwendung ein und klicken Sie auf Weiter.
Wählen Sie einen Abrechnungstarif aus und klicken Sie auf Erstellen.

Sie werden zu Vertex AI Vision Studio weitergeleitet, wo Sie die Anwendung für Computer Vision weiter erstellen können.

Modelle in Model Garden verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Test-Prompts senden

Modell abstimmen

In einem Notebook anhören

Offenes Modell bereitstellen

Python

gcloud

REST

1. Bereitstellbare Modelle auflisten

curl

PowerShell

2. Modell bereitstellen

Modell mit der Standardkonfiguration bereitstellen

curl

PowerShell

Hugging Face-Modell bereitstellen

curl

PowerShell

Modell mit Anpassungen bereitstellen

curl

PowerShell

Console

Terraform

Modell bereitstellen

Konfiguration anwenden

Bereinigen

Partnermodell bereitstellen und Vorhersageanfragen stellen

Python

REST

Console

Modell für einen privaten Endpunkt bereitstellen

Endpunkt ansehen oder verwalten

Bereitstellung von Modellen aufheben und Ressourcen löschen

Modellbereitstellung rückgängig machen

Python

gcloud

Console

Endpunkte löschen

Python

gcloud

Console

Modelle löschen

Python

gcloud

Console

Codebeispiele ansehen

Vision-App erstellen

Modelle in Model Garden verwenden