Diese Seite wurde von der Cloud Translation API übersetzt.

Modell mit der Google Cloud-Console bereitstellen

In der Google Cloud Console können Sie einen öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen.

Modelle können über die Seite „Online-Vorhersage“ oder die Seite „Modellregister“ bereitgestellt werden.

Modell über die Seite „Onlinevorhersage“ bereitstellen

Auf der Seite „Onlinevorhersage“ können Sie einen Endpunkt erstellen und ein oder mehrere Modelle darauf bereitstellen. Gehen Sie dazu so vor:

Rufen Sie in der Google Cloud Console unter „Vertex AI“ die Seite Onlinevorhersage auf.

Zur Seite „Onlinevorhersage“
Klicken Sie auf Erstellen.
Im Bereich Neuer Endpunkt:
1. Geben Sie den Endpunktnamen ein.
2. Wählen Sie als Zugriffstyp Standard aus.
3. Wenn Sie einen dedizierten (nicht freigegebenen) öffentlichen Endpunkt erstellen möchten, klicken Sie auf das Kästchen Dedizierten DNS aktivieren.
4. Klicken Sie auf Weiter.
Im Bereich Modelleinstellungen:
1. Wählen Sie in der Drop-down-Liste Ihr Modell aus.
2. Wählen Sie in der Drop-down-Liste die Modellversion aus.
3. Geben Sie den Prozentsatz für die Trafficaufteilung für das Modell ein.
4. Klicken Sie auf Fertig.
5. Wiederholen Sie diese Schritte für alle weiteren Modelle, die bereitgestellt werden sollen.

Modell über die Seite „Model Registry“ bereitstellen

Auf der Seite „Model Registry“ können Sie ein Modell auf einem oder mehreren neuen oder vorhandenen Endpunkten bereitstellen. Gehen Sie dazu so vor:

Rufen Sie in der Google Cloud Console im Bereich „Vertex AI“ die Seite Modelle auf.

Zur Seite "Modelle"
Klicken Sie auf den Namen und die Versions-ID des Modells, das Sie bereitstellen möchten, um die Detailseite zu öffnen.
Wählen Sie den Tab Deploy & Test (Bereitstellen und testen) aus.

Wenn Ihr Modell bereits für Endpunkte bereitgestellt ist, werden diese im Abschnitt Modell bereitstellen aufgeführt.
Klicken Sie auf In Endpunkt bereitstellen.
So stellen Sie Ihr Modell auf einem neuen Endpunkt bereit:
1. Wählen Sie Neuen Endpunkt erstellen aus.
2. Geben Sie einen Namen für den neuen Endpunkt ein.
3. Wenn Sie einen dedizierten (nicht freigegebenen) öffentlichen Endpunkt erstellen möchten, klicken Sie auf das Kästchen Dedizierten DNS aktivieren.
4. Klicken Sie auf Weiter.
So stellen Sie Ihr Modell auf einem vorhandenen Endpunkt bereit:
1. Wählen Sie Add to existing endpoint (Zu vorhandenem Endpunkt hinzufügen) aus.
2. Wählen Sie den Endpunkt aus der Drop-down-Liste aus.
3. Klicken Sie auf Weiter.
Sie können mehrere Modelle auf einem Endpunkt oder dasselbe Modell auf mehreren Endpunkten bereitstellen.
Wenn Sie das Modell auf einem vorhandenen Endpunkt bereitstellen, auf dem ein oder mehrere Modelle bereitgestellt werden, müssen Sie den Prozentsatz für die Trafficaufteilung für das bereitzustellende Modell und die bereits bereitgestellten Modelle aktualisieren, sodass alle Prozentwerte zusammengenommen 100 % ergeben.
Wenn Sie Ihr Modell auf einem neuen Endpunkt bereitstellen, akzeptieren Sie für die Trafficaufteilung 100. Andernfalls passen Sie die Werte der Trafficaufteilung für alle Modelle auf dem Endpunkt an, sodass sie 100 ergeben.
Geben Sie die Mindestanzahl von Computing-Knoten ein, die Sie für das Modell bereitstellen möchten.

Dies ist die Anzahl der Knoten, die für das Modell jederzeit verfügbar sein müssen.

Unabhängig davon, ob die Inferenzlast oder ein Standby-Knoten verarbeitet wird, werden Ihnen die Kosten für die verwendeten Knoten in Rechnung gestellt – auch ohne Inferenztraffic. Weitere Informationen finden Sie auf der Preisseite.

Die Anzahl der Computing-Knoten kann erhöht werden, wenn dies zur Verarbeitung des Inferenztraffics erforderlich ist. Sie übersteigt jedoch nie die maximale Knotenanzahl.
Geben Sie für die Verwendung von Autoscaling die maximale Anzahl von Rechenknoten ein, auf die Vertex AI hochskaliert werden soll.
Wählen Sie den Maschinentyp aus.

Größere Maschinenressourcen erhöhen die Inferenzleistung und erhöhen die Kosten. Verfügbare Maschinentypen vergleichen
Wählen Sie einen Beschleunigertyp und eine Anzahl der Beschleuniger aus.

Wenn Sie den Beschleuniger beim Importieren oder beim Erstellen des Modells aktiviert haben, wird diese Option angezeigt.

Die Anzahl der Beschleuniger finden Sie in der GPU-Tabelle, die die gültige Anzahl von GPUs angibt, die Sie mit jedem Maschinentyp verwenden können. Die Anzahl der Beschleuniger bezieht sich auf die Anzahl der Beschleuniger pro Knoten, nicht auf die Gesamtzahl der Beschleuniger in Ihrer Bereitstellung.
Wenn Sie ein benutzerdefiniertes Dienstkonto für die Bereitstellung verwenden möchten, wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto aus.
Informationen zum Ändern der Standardeinstellungen für das Inferenz-Logging
Klicken Sie für Ihr Modell auf Fertig. Wenn alle Prozentsätze für Trafficaufteilung korrekt sind, klicken Sie auf Weiter.
Die Region, in der Ihr bereitgestelltes Modell angezeigt wird. Dies muss die Region sein, in der Sie Ihr Modell erstellt haben.
Klicken Sie auf Deploy, um Ihr Modell auf dem Endpunkt bereitzustellen.

Modell mit der Google Cloud-Console bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Modell über die Seite „Onlinevorhersage“ bereitstellen

Modell über die Seite „Model Registry“ bereitstellen

Nächste Schritte

Modell mit der Google Cloud-Console bereitstellen