Mit Model Garden in derGoogle Cloud -Konsole können Sie Modelle entdecken, testen, abstimmen und bereitstellen. Sie können Model Garden-Modelle auch mit der Google Cloud CLI bereitstellen.
Test-Prompts senden
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Suchen Sie nach einem unterstützten Modell, das Sie testen möchten, und klicken Sie auf Details ansehen.
Klicken Sie auf Eingabeaufforderung-Design öffnen.
Sie werden zur Seite Eingabeaufforderungsdesign weitergeleitet.
Geben Sie in das Feld Eingabeaufforderung die Eingabeaufforderung ein, die Sie testen möchten.
Optional: Konfigurieren Sie die Modellparameter.
Klicken Sie auf Senden.
Modell abstimmen
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Geben Sie in Modelle suchen die Namen BERT oder T5-FLAN ein und klicken Sie dann auf die Lupe, um zu suchen.
Klicken Sie auf der T5-FLAN-Modellkarte oder auf der BERT-Modellkarte auf Details ansehen.
Klicken Sie auf Pipeline zur Feinabstimmung öffnen.
Sie werden zur Seite "Vertex AI Pipelines" weitergeleitet.
Klicken Sie auf Ausführung erstellen, um die Feinabstimmung zu starten.
In einem Notebook anhören
Die Modellkarten für die meisten Open-Source-Modellionsmodelle und feinabstimmungbare Modelle unterstützen die Feinabstimmung in einem Notebook.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Suchen Sie nach einem unterstützten Modell, das Sie optimieren möchten, und rufen Sie die zugehörige Modellkarte auf.
Klicken Sie auf Notebook öffnen.
Offenes Modell bereitstellen
Sie können ein Modell mithilfe seiner Modellkarte in der Google Cloud Console oder programmatisch bereitstellen.
Weitere Informationen zum Einrichten des Google Gen AI SDK oder der Google Cloud CLI finden Sie in der Übersicht über das Google Gen AI SDK oder unter Google Cloud CLI installieren.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Listen Sie die Modelle auf, die Sie bereitstellen können, und notieren Sie die Modell-ID, die Sie bereitstellen möchten. Optional können Sie die unterstützten Hugging Face-Modelle in Model Garden auflisten und sogar nach Modellnamen filtern. Die Ausgabe enthält keine abgestimmten Modelle.
Sehen Sie sich die Bereitstellungsspezifikationen für ein Modell mit der Modell-ID aus dem vorherigen Schritt an. Sie können den Maschinentyp, den Beschleunigertyp und den Container-Image-URI ansehen, die Model Garden für ein bestimmtes Modell überprüft hat.
Stellen Sie ein Modell auf einem Endpunkt bereit. Im Model Garden wird die Standardkonfiguration für die Bereitstellung verwendet, sofern Sie keine zusätzlichen Argumente und Werte angeben.
gcloud
Bevor Sie beginnen, geben Sie ein Kontingentprojekt an, in dem die folgenden Befehle ausgeführt werden sollen. Die ausgeführten Befehle werden auf die Kontingente für dieses Projekt angerechnet. Weitere Informationen finden Sie unter Kontingentprojekt festlegen.
Mit dem Befehl
gcloud ai model-garden models list
können Sie die Modelle auflisten, die Sie bereitstellen können. Mit diesem Befehl werden alle Modell-IDs und die Modelle aufgelistet, die Sie selbst bereitstellen können.gcloud ai model-garden models list
Suchen Sie in der Ausgabe nach der Modell-ID, die Sie bereitstellen möchten. Das folgende Beispiel zeigt eine gekürzte Ausgabe.
MODEL_ID SUPPORTS_DEPLOYMENT google/gemma2@gemma-2-27b Yes google/gemma2@gemma-2-27b-it Yes google/gemma2@gemma-2-2b Yes google/gemma2@gemma-2-2b-it Yes google/gemma2@gemma-2-9b Yes google/gemma2@gemma-2-9b-it Yes google/gemma@gemma-1.1-2b-it Yes google/gemma@gemma-1.1-2b-it-gg-hf Yes google/gemma@gemma-1.1-7b-it Yes google/gemma@gemma-1.1-7b-it-gg-hf Yes google/gemma@gemma-2b Yes google/gemma@gemma-2b-gg-hf Yes google/gemma@gemma-2b-it Yes google/gemma@gemma-2b-it-gg-hf Yes google/gemma@gemma-7b Yes google/gemma@gemma-7b-gg-hf Yes google/gemma@gemma-7b-it Yes google/gemma@gemma-7b-it-gg-hf Yes
Die Ausgabe enthält keine angepassten Modelle oder Hugging Face-Modelle. Wenn Sie sehen möchten, welche Hugging Face-Modelle unterstützt werden, fügen Sie das Flag
--can-deploy-hugging-face-models
hinzu.Führen Sie den Befehl
gcloud ai model-garden models list-deployment-config
aus, um die Bereitstellungsspezifikationen für ein Modell aufzurufen. Sie können den Maschinentyp, den Beschleunigertyp und den Container-Image-URI ansehen, die Model Garden für ein bestimmtes Modell unterstützt.gcloud ai model-garden models list-deployment-config \ --model=MODEL_ID
Ersetzen Sie MODEL_ID durch die Modell-ID aus dem vorherigen Listenbefehl, z. B.
google/gemma@gemma-2b
oderstabilityai/stable-diffusion-xl-base-1.0
.Stellen Sie ein Modell auf einem Endpunkt bereit, indem Sie den Befehl
gcloud ai model-garden models deploy
ausführen. Model Garden generiert einen Anzeigenamen für Ihren Endpunkt und verwendet die Standardbereitstellungskonfiguration, sofern Sie keine zusätzlichen Argumente und Werte angeben.Wenn Sie den Befehl asynchron ausführen möchten, fügen Sie das Flag
--asynchronous
ein.gcloud ai model-garden models deploy \ --model=MODEL_ID \ [--machine-type=MACHINE_TYPE] \ [--accelerator-type=ACCELERATOR_TYPE] \ [--endpoint-display-name=ENDPOINT_NAME] \ [--hugging-face-access-token=HF_ACCESS_TOKEN] \ [--reservation-affinity reservation-affinity-type=any-reservation] \ [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \ [--asynchronous]
Ersetzen Sie die folgenden Platzhalter:
- MODEL_ID: Die Modell-ID aus dem vorherigen Befehl zum Auflisten. Verwenden Sie für Hugging Face-Modelle das Hugging Face-Modell-URL-Format, z. B.
stabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B.
g2-standard-4
. - ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie
NVIDIA_L4
zu verbessern. - ENDPOINT_NAME: Ein Name für den bereitgestellten Vertex AI-Endpunkt.
- HF_ACCESS_TOKEN: Geben Sie für Hugging Face-Modelle, falls das Modell eingeschränkt ist, ein Zugriffstoken an.
- RESERVATION_RESOURCE_NAME: Wenn Sie eine bestimmte Compute Engine-Reservierung verwenden möchten, geben Sie den Namen der Reservierung an. Wenn Sie eine bestimmte Reservierung angeben, können Sie
any-reservation
nicht angeben.
Die Ausgabe enthält die Bereitstellungskonfiguration, die von Model Garden verwendet wurde, die Endpunkt-ID und die Bereitstellungsvorgangs-ID, mit der Sie den Bereitstellungsstatus prüfen können.
Using the default deployment configuration: Machine type: g2-standard-12 Accelerator type: NVIDIA_L4 Accelerator count: 1 The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28. Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods: 1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console 2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
- MODEL_ID: Die Modell-ID aus dem vorherigen Befehl zum Auflisten. Verwenden Sie für Hugging Face-Modelle das Hugging Face-Modell-URL-Format, z. B.
Führen Sie den Befehl
gcloud ai endpoints list --list-model-garden-endpoints-only
aus, um Details zu Ihrem Deployment aufzurufen:gcloud ai endpoints list --list-model-garden-endpoints-only \ --region=LOCATION_ID
Ersetzen Sie LOCATION_ID durch die Region, in der Sie das Modell bereitgestellt haben.
Die Ausgabe enthält alle Endpunkte, die aus Model Garden erstellt wurden, sowie Informationen wie die Endpunkt-ID, den Endpunktnamen und ob der Endpunkt einem bereitgestellten Modell zugeordnet ist. Suchen Sie nach dem Endpunktnamen, der vom vorherigen Befehl zurückgegeben wurde, um Ihre Bereitstellung zu finden.
REST
Listen Sie alle bereitstellbaren Modelle auf und rufen Sie dann die ID des bereitzustellenden Modells ab. Anschließend können Sie das Modell mit der Standardkonfiguration und dem Standardendpunkt bereitstellen. Alternativ können Sie Ihr Deployment anpassen, z. B. einen bestimmten Maschinentyp festlegen oder einen dedizierten Endpunkt verwenden.
1. Bereitstellbare Modelle auflisten
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Projekt-ID.
- QUERY_PARAMETERS: Wenn Sie Model Garden-Modelle auflisten möchten, fügen Sie die folgenden Abfrageparameter
listAllVersions=True&filter=is_deployable(true)
hinzu. Wenn Sie Hugging Face-Modelle auflisten möchten, legen Sie den Filter aufalt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True
fest.
HTTP-Methode und URL:
GET https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS
Senden Sie die Anfrage mithilfe einer der folgenden Optionen:
curl
Führen Sie folgenden Befehl aus:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
"https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS"
PowerShell
Führen Sie folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content
Sie erhalten eine JSON-Antwort ähnlich der folgenden.
{ "publisherModels": [ { "name": "publishers/google/models/gemma3", "versionId": "gemma-3-1b-it", "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT", "supportedActions": { "openNotebook": { "references": { "us-central1": { "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb" } }, "resourceTitle": "Notebook", "resourceUseCase": "Chat Completion Playground", "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI." }, "deploy": { "modelDisplayName": "gemma-3-1b-it", "containerSpec": { "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01", "args": [ "python", "-m", "vllm.entrypoints.api_server", "--host=0.0.0.0", "--port=8080", "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it", "--tensor-parallel-size=1", "--swap-space=16", "--gpu-memory-utilization=0.95", "--disable-log-stats" ], "env": [ { "name": "MODEL_ID", "value": "google/gemma-3-1b-it" }, { "name": "DEPLOY_SOURCE", "value": "UI_NATIVE_MODEL" } ], "ports": [ { "containerPort": 8080 } ], "predictRoute": "/generate", "healthRoute": "/ping" }, "dedicatedResources": { "machineSpec": { "machineType": "g2-standard-12", "acceleratorType": "NVIDIA_L4", "acceleratorCount": 1 } }, "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz", "deployTaskName": "vLLM 128K context", "deployMetadata": { "sampleRequest": "{\n \"instances\": [\n {\n \"@requestFormat\": \"chatCompletions\",\n \"messages\": [\n {\n \"role\": \"user\",\n \"content\": \"What is machine learning?\"\n }\n ],\n \"max_tokens\": 100\n }\n ]\n}\n" } }, ...
2. Modell bereitstellen
Stellen Sie ein Modell aus Model Garden oder ein Modell von Hugging Face bereit. Sie können die Bereitstellung auch anpassen, indem Sie zusätzliche JSON-Felder angeben.
Modell mit der Standardkonfiguration bereitstellen
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Eine Region, in der das Modell bereitgestellt wird.
- PROJECT_ID: Ihre Projekt-ID.
- MODEL_ID: Die ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: publishers/PUBLISHER_NAME/models/ MODEL_NAME@MODEL_VERSION.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
JSON-Text der Anfrage:
{ "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } EOF
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
@' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Sie erhalten eine JSON-Antwort ähnlich der folgenden.
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Hugging Face-Modell bereitstellen
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Eine Region, in der das Modell bereitgestellt wird.
- PROJECT_ID: Ihre Projekt-ID.
- MODEL_ID: Die Hugging Face-Modell-ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: PUBLISHER_NAME/MODEL_NAME.
- ACCESS_TOKEN: Wenn das Modell eingeschränkt ist, geben Sie ein Zugriffstoken an.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
JSON-Text der Anfrage:
{ "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
cat > request.json << 'EOF' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } EOF
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
@' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Sie erhalten eine JSON-Antwort ähnlich der folgenden.
{ "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Modell mit Anpassungen bereitstellen
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Eine Region, in der das Modell bereitgestellt wird.
- PROJECT_ID: Ihre Projekt-ID.
- MODEL_ID: Die ID des bereitzustellenden Modells. Sie können sie abrufen, indem Sie alle bereitstellbaren Modelle auflisten. Die ID hat das folgende Format: publishers/PUBLISHER_NAME/models/
MODEL_NAME@MODEL_VERSION, z. B.
google/gemma@gemma-2b
oderstabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B.
g2-standard-4
. - ACCELERATOR_TYPE:
Gibt Beschleuniger an, die Ihrem Deployment hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie
NVIDIA_L4
zu verbessern. - ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die in Ihrem Deployment verwendet werden sollen.
reservation_affinity_type
: Wenn Sie eine vorhandene Compute Engine-Reservierung für Ihre Bereitstellung verwenden möchten, geben Sie eine beliebige oder eine bestimmte Reservierung an. Wenn Sie diesen Wert angeben, geben Siespot
nicht an.spot
: Gibt an, ob Spot-VMs für die Bereitstellung verwendet werden sollen.- IMAGE_URI: Der Speicherort des zu verwendenden Container-Images, z. B.
us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
- CONTAINER_ARGS: Argumente, die während des Deployments an den Container übergeben werden sollen.
- CONTAINER_PORT: Eine Portnummer für Ihren Container.
fast_tryout_enabled
: Wenn Sie ein Modell testen, können Sie eine schnellere Bereitstellung verwenden. Diese Option ist nur für die häufig verwendeten Modelle mit bestimmten Maschinentypen verfügbar. Wenn diese Option aktiviert ist, können Sie keine Modell- oder Bereitstellungskonfigurationen angeben.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
JSON-Text der Anfrage:
{ "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } EOF
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
.
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
@' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } '@ | Out-File -FilePath request.json -Encoding utf8
Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Sie erhalten eine JSON-Antwort ähnlich der folgenden.
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Console
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Suchen Sie ein unterstütztes Modell, das Sie bereitstellen möchten, und klicken Sie auf die zugehörige Modellkarte.
Klicken Sie auf Bereitstellen, um den Bereich Modell bereitstellen zu öffnen.
Geben Sie im Bereich Modell bereitstellen Details für die Bereitstellung an.
- Verwenden oder ändern Sie die generierten Modell- und Endpunktnamen.
- Wählen Sie einen Standort aus, an dem der Modellendpunkt erstellt werden soll.
- Wählen Sie einen Maschinentyp für jeden Knoten Ihrer Bereitstellung aus.
Wenn Sie eine Compute Engine-Reservierung verwenden möchten, wählen Sie im Abschnitt Bereitstellungseinstellungen die Option Erweitert aus.
Wählen Sie im Feld Reservierungstyp einen Reservierungstyp aus. Die Reservierung muss mit den von Ihnen angegebenen Maschinenspezifikationen übereinstimmen.
- Erstellte Reservierung automatisch verwenden: Vertex AI wählt automatisch eine zulässige Reservierung mit übereinstimmenden Attributen aus. Wenn in der automatisch ausgewählten Reservierung keine Kapazität vorhanden ist, verwendet Vertex AI den allgemeinen Google Cloud-Ressourcenpool.
- Spezifische Reservierungen auswählen: Vertex AI verwendet eine bestimmte Reservierung. Wenn für die ausgewählte Reservierung keine Kapazität vorhanden ist, wird ein Fehler ausgegeben.
- Nicht verwenden (Standard): Vertex AI verwendet den allgemeinenGoogle Cloud -Ressourcenpool. Dieser Wert hat denselben Effekt wie das Weglassen einer Reservierung.
Klicken Sie auf Bereitstellen.
Partnermodell bereitstellen und Vorhersageanfragen stellen
Bevor Sie beginnen, müssen Sie eine Vereinbarung mit dem Partner getroffen haben. Diese Vereinbarung umfasst die Zustimmung zu allen partnerspezifischen Bedingungen, Lizenzanforderungen und Preisen. Weitere Informationen oder die Kontaktaufnahme mit einem Partner finden Sie in der Partnerdokumentation auf der Modellkarte des jeweiligen Partners in Model Garden. Klicken Sie dort auf Vertrieb kontaktieren.
Sie müssen die Bereitstellung auf den vom Partner geforderten Maschinentypen vornehmen, wie im Abschnitt „Empfohlene Hardwarekonfiguration“ auf der Modellkarte im Model Garden beschrieben. Nach der Bereitstellung befinden sich die Ressourcen für die Bereitstellung des Modells in einem sicheren, von Google verwalteten Projekt.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Ersetzen Sie in Ihrem Code die folgenden Platzhalter:
- LOCATION: Die Region, in der Sie das Modell und den Endpunkt bereitstellen möchten.
- PROJECT_ID: Ihre Projekt-ID.
- DISPLAY_NAME: Ein aussagekräftiger Name für die zugehörige Ressource.
- PUBLISHER_NAME: Der Name des Partners, der das Modell zum Hochladen oder Bereitstellen bereitstellt.
- PUBLISHER_MODEL_NAME: Der Name des Modells, das hochgeladen werden soll.
- MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B.
g2-standard-4
. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen. - ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie
NVIDIA_L4
zu verbessern. Sie müssen mit einer der vom Partner bereitgestellten Konfigurationen übereinstimmen. - ACCELERATOR_COUNT: Die Anzahl der zu verwendenden Beschleuniger. Sie müssen eine der vom Partner bereitgestellten Konfigurationen verwenden.
- REQUEST_PAYLOAD: Die Felder und Werte, die in Ihre Vorhersageanfrage aufgenommen werden sollen. Sehen Sie sich die Modellkarte des Partners in Model Garden an, um die verfügbaren Felder zu sehen.
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# Upload a model
model = aiplatform.Model.upload(
display_name="DISPLAY_NAME_MODEL",
model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)
# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")
# Deploy model
MACHINE_TYPE = "MACHINE_TYPE" # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}
model.deploy(
endpoint=my_endpoint,
deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
traffic_split={"0": 100},
machine_type=MACHINE_TYPE,
accelerator_type=ACCELERATOR_TYPE,
accelerator_count=ACCELERATOR_COUNT,
min_replica_count=1,
max_replica_count=1,
)
# Unary call for predictions
PAYLOAD = {
REQUEST_PAYLOAD
}
request = json.dumps(PAYLOAD)
response = my_endpoint.raw_predict(
body = request,
headers = {'Content-Type':'application/json'}
)
print(response)
# Streaming call for predictions
PAYLOAD = {
REQUEST_PAYLOAD
}
request = json.dumps(PAYLOAD)
for stream_response in my_endpoint.stream_raw_predict(
body = request,
headers = {'Content-Type':'application/json'}
):
print(stream_response)
REST
Listen Sie alle bereitstellbaren Modelle auf und rufen Sie dann die ID des bereitzustellenden Modells ab. Anschließend können Sie das Modell mit der Standardkonfiguration und dem Standardendpunkt bereitstellen. Alternativ können Sie Ihr Deployment anpassen, z. B. einen bestimmten Maschinentyp festlegen oder einen dedizierten Endpunkt verwenden.
Ersetzen Sie in den Beispiel-curl-Befehlen die folgenden Platzhalter:
- LOCATION: Die Region, in der Sie das Modell und den Endpunkt bereitstellen möchten.
- PROJECT_ID: Ihre Projekt-ID.
- DISPLAY_NAME: Ein aussagekräftiger Name für die zugehörige Ressource.
- PUBLISHER_NAME: Der Name des Partners, der das Modell zum Hochladen oder Bereitstellen bereitstellt.
- PUBLISHER_MODEL_NAME: Der Name des Modells, das hochgeladen werden soll.
- ENDPOINT_ID: Die ID des Endpunkts.
- MACHINE_TYPE: Definiert die Gruppe von Ressourcen, die für Ihr Modell bereitgestellt werden sollen, z. B.
g2-standard-4
. Sie müssen einer der vom Partner bereitgestellten Konfigurationen entsprechen. - ACCELERATOR_TYPE: Gibt Beschleuniger an, die Ihrer Bereitstellung hinzugefügt werden sollen, um die Leistung bei intensiven Arbeitslasten wie
NVIDIA_L4
zu verbessern. Sie müssen mit einer der vom Partner bereitgestellten Konfigurationen übereinstimmen. - ACCELERATOR_COUNT: Die Anzahl der zu verwendenden Beschleuniger. Sie müssen eine der vom Partner bereitgestellten Konfigurationen verwenden.
- REQUEST_PAYLOAD: Die Felder und Werte, die in Ihre Vorhersageanfrage aufgenommen werden sollen. Sehen Sie sich die Modellkarte des Partners in Model Garden an, um die verfügbaren Felder zu sehen.
Laden Sie ein Modell hoch, um es Ihrer Model Registry hinzuzufügen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \ -d '{ "model": { "displayName": "DISPLAY_NAME_MODEL", "baseModelSource": { "modelGardenSource": { "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME", } } } }'
Erstellen Sie einen Endpunkt.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \ -d '{ "displayName": "DISPLAY_NAME_ENDPOINT" }'
Stellen Sie das hochgeladene Modell für den Endpunkt bereit.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \ -d '{ "deployedModel": { "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "displayName": "DISPLAY_NAME_DEPLOYED_MODEL", "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACCELERATOR_TYPE", "acceleratorCount":"ACCELERATOR_COUNT", }, "minReplicaCount": 1, "maxReplicaCount": 1 }, }, "trafficSplit": { "0": 100 } }'
Nachdem das Modell bereitgestellt wurde, können Sie einen unären oder Streaming-Aufruf für Vorhersagen durchführen. Auf der Modellkarte des Partners im Model Garden können Sie sehen, welche API-Methoden unterstützt werden.
- Beispiel für einen unären Aufruf:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \ -d 'REQUEST_PAYLOAD'
- Beispiel für einen Streaming-Aufruf:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://LOCATION-aiplatform.googleapi.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \ -d 'REQUEST_PAYLOAD'
Console
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Wenn Sie ein bestimmtes Modell suchen möchten, geben Sie den Namen in das Suchfeld von Model Garden ein.
Wenn Sie alle Modelle sehen möchten, die Sie selbst bereitstellen können, wählen Sie im Filterbereich im Abschnitt Modellsammlungen die Option Partnermodelle mit Selbstbereitstellung aus. Die resultierende Liste enthält alle selbst bereitstellbaren Partnermodelle.
Klicken Sie auf den Namen des Modells, das Sie bereitstellen möchten. Dadurch wird die Modellkarte geöffnet.
Klicken Sie auf Bereitstellungsoptionen.
Konfigurieren Sie im Bereich In Vertex AI bereitstellen die Bereitstellung, z. B. den Standort und den Maschinentyp.
Klicken Sie auf Bereitstellen.
Nach Abschluss der Bereitstellung können Sie Vorhersagen über das SDK oder die API anfordern. Weitere Anleitungen finden Sie auf der Modellkarte im Bereich „Dokumentation“.
Endpunkt ansehen oder verwalten
Wenn Sie Ihren Endpunkt aufrufen und verwalten möchten, rufen Sie die Vertex AI-Seite Onlinevorhersage auf.
Vertex AI listet alle Endpunkte in Ihrem Projekt für eine bestimmte Region auf. Klicken Sie auf einen Endpunkt, um die zugehörigen Details aufzurufen, z. B. welche Modelle auf dem Endpunkt bereitgestellt werden.
Bereitstellung von Modellen aufheben und Ressourcen löschen
Wenn Sie verhindern möchten, dass ein bereitgestelltes Modell Ressourcen in Ihrem Projekt verwendet, heben Sie die Bereitstellung des Modells von seinem Endpunkt auf. Sie müssen die Bereitstellung eines Modells aufheben, bevor Sie den Endpunkt und das Modell löschen können.
Modellbereitstellung rückgängig machen
Heben Sie die Bereitstellung eines Modells an seinem Endpunkt auf.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Ersetzen Sie in Ihrem Code Folgendes:
- PROJECT_ID durch Ihre Projekt-ID
- LOCATION durch Ihre Region, z. B. „us-central1“
- ENDPOINT_ID durch Ihre Endpunkt-ID
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()
endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()
gcloud
Ersetzen Sie in diesen Befehlen Folgendes:
- PROJECT_ID durch Ihren Projektnamen.
- LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
- ENDPOINT_ID durch die Endpunkt-ID
- MODEL_ID mit der Modell-ID aus dem Befehl „list model“
- DEPLOYED_MODEL_ID durch die ID des bereitgestellten Modells
Suchen Sie die Endpunkt-ID, die mit Ihrer Bereitstellung verknüpft ist, indem Sie den Befehl
gcloud ai endpoints list
ausführen.gcloud ai endpoints list \ --project=PROJECT_ID \ --region=LOCATION_ID
Rufen Sie die Modell-ID mit dem Befehl
gcloud ai models list
ab.gcloud ai models list \ --project=PROJECT_ID \ --region=LOCATION_ID
Verwenden Sie die Modell-ID aus dem vorherigen Befehl, um die ID des bereitgestellten Modells abzurufen, indem Sie den Befehl
gcloud ai models describe
ausführen.gcloud ai models describe MODEL_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Die gekürzte Ausgabe sieht so aus: In der Ausgabe wird die ID als
deployedModelId
bezeichnet.Using endpoint [https://us-central1-aiplatform.googleapis.com/] artifactUri: [URI removed] baseModelSource: modelGardenSource: publicModelName: publishers/google/models/gemma2 ... deployedModels: - deployedModelId: '1234567891234567891' endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345 displayName: gemma2-2b-it-12345678912345 etag: [ETag removed] modelSourceInfo: sourceType: MODEL_GARDEN name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345 ...
Führen Sie den Befehl
gcloud ai endpoints undeploy-model
aus, um die Bereitstellung des Modells am Endpunkt mit der Endpunkt-ID und der ID des bereitgestellten Modells aus den vorherigen Befehlen aufzuheben.gcloud ai endpoints undeploy-model ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID \ --deployed-model-id=DEPLOYED_MODEL_ID
Dieser Befehl erzeugt keine Ausgabe.
Console
Rufen Sie in der Google Cloud Console auf der Seite Onlinevorhersage den Tab Endpunkte auf.
Wählen Sie in der Drop-down-Liste Region die Region aus, in der sich Ihr Endpunkt befindet.
Klicken Sie auf den Endpunktnamen, um die Detailseite zu öffnen.
Klicken Sie in der Zeile für das Modell auf
Aktionen und wählen Sie dann Bereitstellung des Modells am Endpunkt aufheben aus.Klicken Sie im Dialogfeld Bereitstellung des Endpunkts aufheben auf Bereitstellung aufheben.
Endpunkte löschen
Löschen Sie den Vertex AI-Endpunkt, der mit der Modellbereitstellung verknüpft war.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Ersetzen Sie in Ihrem Code Folgendes:
- PROJECT_ID durch Ihre Projekt-ID
- LOCATION durch Ihre Region, z. B. „us-central1“
- ENDPOINT_ID durch Ihre Endpunkt-ID
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()
endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()
gcloud
Ersetzen Sie in diesen Befehlen Folgendes:- PROJECT_ID durch Ihren Projektnamen.
- LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
- ENDPOINT_ID durch die Endpunkt-ID
Rufen Sie die Endpunkt-ID ab, die Sie löschen möchten, indem Sie den Befehl
gcloud ai endpoints list
ausführen. Mit diesem Befehl werden die Endpunkt-IDs für alle Endpunkte in Ihrem Projekt aufgeführt.gcloud ai endpoints list \ --project=PROJECT_ID \ --region=LOCATION_ID
Führen Sie den Befehl
gcloud ai endpoints delete
aus, um den Endpunkt zu löschen.gcloud ai endpoints delete ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Geben Sie bei Aufforderung zur Bestätigung
y
ein. Dieser Befehl erzeugt keine Ausgabe.
Console
Rufen Sie in der Google Cloud Console auf der Seite Onlinevorhersage den Tab Endpunkte auf.
Wählen Sie in der Drop-down-Liste Region die Region aus, in der sich Ihr Endpunkt befindet.
Klicken Sie am Ende der Zeile des Endpunkts auf
Aktionen und wählen Sie dann Endpunkt löschen aus.Klicken Sie in der Bestätigungsaufforderung auf Bestätigen.
Modelle löschen
Löschen Sie die Modellressource, die mit Ihrer Modellbereitstellung verknüpft war.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Ersetzen Sie in Ihrem Code Folgendes:
- PROJECT_ID durch Ihre Projekt-ID
- LOCATION durch Ihre Region, z. B. „us-central1“
- MODEL_ID durch Ihre Modell-ID
from google.cloud import aiplatform
aiplatform.init(project=PROJECT_ID, location=LOCATION)
# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()
model = aiplatform.Model(MODEL_ID)
model.delete()
gcloud
Ersetzen Sie in diesen Befehlen Folgendes:- PROJECT_ID durch Ihren Projektnamen.
- LOCATION_ID durch die Region, in der Sie das Modell und den Endpunkt bereitgestellt haben.
- MODEL_ID mit der Modell-ID aus dem Befehl „list model“
Führen Sie den Befehl
gcloud ai models list
aus, um die zu löschende Modell-ID zu ermitteln.gcloud ai models list \ --project=PROJECT_ID \ --region=LOCATION_ID
Führen Sie den Befehl
gcloud ai models delete
aus, um das Modell zu löschen. Geben Sie dazu die Modell-ID und den Speicherort des Modells an.gcloud ai models delete MODEL_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
Console
Rufen Sie in der Google Cloud Console im Bereich „Vertex AI“ die Seite Model Registry auf.
Wählen Sie in der Drop-down-Liste Region die Region aus, in der Sie Ihr Modell bereitgestellt haben.
Klicken Sie in der Zeile für Ihr Modell auf
Aktionen und wählen Sie dann Modell löschen aus.Wenn Sie das Modell löschen, werden alle zugehörigen Modellversionen und ‑bewertungen aus Ihrem Google Cloud Projekt gelöscht.
Klicken Sie in der Bestätigungsaufforderung auf Löschen.
Codebeispiele ansehen
Die meisten Modellkarten für aufgabenspezifische Lösungsmodelle enthalten Codebeispiele, die Sie kopieren und testen können.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Suchen Sie nach einem unterstützten Modell, für das Sie Codebeispiele aufrufen möchten, und klicken Sie auf den Tab Dokumentation.
Auf der Seite wird zum Abschnitt „Dokumentation“ mit eingebettetem Beispielcode gescrollt.
Vision-App erstellen
Die Modellkarten für anwendbare Modelle für Computer Vision unterstützen die Erstellung einer Vision-Anwendung.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Suchen Sie im Abschnitt „Aufgabenspezifische Lösungen“ nach einem Vision-Modell, das Sie zum Erstellen einer Vision-Anwendung verwenden möchten, und klicken Sie auf Details ansehen.
Klicken Sie auf App erstellen.
Sie werden zu Vertex AI Vision weitergeleitet.
Geben Sie unter Anwendungsname einen Namen für Ihre Anwendung ein und klicken Sie auf Weiter.
Wählen Sie einen Abrechnungstarif aus und klicken Sie auf Erstellen.
Sie werden zu Vertex AI Vision Studio weitergeleitet, wo Sie die Anwendung für Computer Vision weiter erstellen können.