Diese Seite wurde von der Cloud Translation API übersetzt.

Rechenressourcen für die Inferenz konfigurieren

Vertex AI weist Knoten für die Verarbeitung von Online- und Batchinferenzen zu. Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein AutoML-Modell für eine Endpoint-Ressource bereitstellen, um Onlineinferenzen bereitzustellen, oder wenn Sie Batchinferenzen anfordern, können Sie den Typ der virtuellen Maschine anpassen, die der Inferenzdienst für diese Knoten verwendet. Sie können Inferenzknoten optional für die Verwendung von GPUs konfigurieren.

Maschinentypen unterscheiden sich in verschiedener Hinsicht:

Anzahl der virtuellen CPUs (vCPUs) pro Knoten
Speichermenge pro Knoten
Preise

Wenn Sie einen Maschinentyp mit mehr Rechenressourcen auswählen, können Sie Inferenzanfragen mit geringerer Latenz bereitstellen oder mehr Inferenzanfragen gleichzeitig verarbeiten.

Kosten und Verfügbarkeit verwalten

Vertex AI bietet folgende Funktionen, um die Kosten zu kontrollieren und die Verfügbarkeit von VM-Ressourcen zu gewährleisten:

Um sicherzustellen, dass VM-Ressourcen verfügbar sind, wenn Ihre Inferenzjobs sie benötigen, können Sie Compute Engine-Reservierungen verwenden. Reservierungen bieten ein hohes Maß an Sicherheit beim Beschaffen von Kapazitäten für Ressourcen von Compute Engine. Weitere Informationen finden Sie unter Reservierungen mit Inferenz verwenden.
Mit Spot-VMs können Sie die Kosten für die Ausführung Ihrer Inferenzjobs senken. Spot-VMs sind VM-Instanzen, die überschüssige Compute Engine-Kapazität darstellen. Für Spot-VMs gibt es erhebliche Rabatte. Compute Engine kann jedoch Spot-VMs jederzeit vorzeitig beenden oder löschen, um die Kapazität zurückzugewinnen. Weitere Informationen finden Sie unter Spot-VMs für die Inferenz verwenden.

Hier geben Sie Rechenressourcen an

Onlineinferenz

Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein tabellarisches AutoML-Modell für Onlineinferenzen verwenden möchten, müssen Sie einen Maschinentyp angeben, wenn Sie die Model-Ressource als ein DeployedModel an einem Endpoint bereitstellen. Bei anderen Typen von AutoML-Modellen konfiguriert Vertex AI die Maschinentypen automatisch.

Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von DeployedModel an.

Hier können Sie nachlesen, wie Sie die einzelnen Modelltypen bereitstellen:

Batch-Inferenz

Wenn Sie Batchinferenzen von einem benutzerdefinierten Modell oder einem AutoML-Tabellenmodell erhalten möchten, müssen Sie beim Erstellen einer BatchPredictionJob-Ressource einen Maschinentyp angeben. Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von BatchPredictionJob an.

Maschinentypen

In der folgenden Tabelle werden die verfügbaren Maschinentypen für die Bereitstellung von Inferenzanfragen aus benutzerdefinierten Modellen und AutoML-Tabellenmodellen verglichen:

E2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

N1-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n1-standard-2`	2	7,5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3,6
`n1-highcpu-8`	8	7,2
`n1-highcpu-16`	16	14,4
`n1-highcpu-32`	32	28,8

N2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

N2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

C2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

C2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

C3-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

A2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA A100)
`a2-highgpu-1g`	12	85	1 (A100 40GB)
`a2-highgpu-2g`	24	170	2 (A100 40GB)
`a2-highgpu-4g`	48	340	4 (A100 40GB)
`a2-highgpu-8g`	96	680	8 (A100 40GB)
`a2-megagpu-16g`	96	1360	16 (A100 40GB)
`a2-ultragpu-1g`	12	170	1 (A100 80GB)
`a2-ultragpu-2g`	24	340	2 (A100 80GB)
`a2-ultragpu-4g`	48	680	4 (A100 80GB)
`a2-ultragpu-8g`	96	1360	8 (A100 80GB)

A3-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA H100 oder H200)
`a3-highgpu-1g`	26	234	1 (H100 80GB)
`a3-highgpu-2g`	52	468	2 (H100 80GB)
`a3-highgpu-4g`	104	936	4 (H100 80GB)
`a3-highgpu-8g`	208	1872	8 (H100 80GB)
`a3-edgegpu-8g`	208	1872	8 (H100 80GB)
`a3-ultragpu-8g`	224	2952	8 (H200 141GB)

G2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

Weitere Informationen zu den Preisen für jeden Maschinentyp Weitere Informationen zu den genauen Spezifikationen dieser Maschinentypen finden Sie in der Compute Engine-Dokumentation zu Maschinentypen.

Idealen Maschinentyp ermitteln

Onlineinferenz

Um den idealen Maschinentyp für Ihren Anwendungsfall zu ermitteln, sollten Sie Ihr Modell auf mehreren Maschinentypen laden und Merkmale wie Latenz, Kosten, Gleichzeitigkeit und Durchsatz messen.

Eine Möglichkeit besteht darin, dieses Notebook auf mehreren Maschinentypen auszuführen und die Ergebnisse zu vergleichen, um die für Sie beste Option zu bestimmen.

Vertex AI reserviert auf jedem Replikat ca. 1 vCPU für die Ausführung von Systemprozessen. Dies bedeutet, dass das Ausführen des Notebooks auf einem Maschinentyp mit einem Kern mit der Verwendung eines Maschinentyps mit zwei Kernen für die Bereitstellung von Inferenzen vergleichbar ist.

Wenn Sie die Kosten für die Inferenz bestimmen sollten Sie bedenken, dass größere Maschinen, obwohl sie mehr kosten, die Gesamtkosten senken können, da weniger Replikate erforderlich sind, um dieselbe Arbeitslast zu verarbeiten. Dies ist besonders bei GPUs sichtbar, die in der Regel mehr pro Stunde kosten, aber sowohl niedrigere Latenzen als auch geringere Gesamtkosten bieten können.

Batch-Inferenz

Weitere Informationen finden Sie unter Maschinentyp und Anzahl der Replikate auswählen.

Optionale GPU-Beschleuniger

Einige Konfigurationen haben eine integrierte Anzahl an GPUs, darunter die Serien A2 und G2.

Bei anderen Konfigurationen wie der N1-Serie können Sie GPUs hinzufügen, um jeden Inferenzknoten zu beschleunigen.

Beim Hinzufügen optionaler GPU-Beschleuniger müssen Sie mehrere Anforderungen berücksichtigen:

Sie können GPUs nur verwenden, wenn Ihre Model-Ressource auf einem TensorFlow SavedModel oder auf einem benutzerdefinierten Container basiert, der wurde entwickelt, um GPUs zu nutzen. GPUs können nicht für scikit-learn- oder XGBoost-Modelle verwendet werden.
Die Verfügbarkeit der einzelnen GPU-Typen hängt davon ab, welche Region Sie für Ihr Modell verwenden. Verfügbare GPU-Typen in jeweiligen Regionen
Sie können nur einen GPU-Typ für Ihre DeployedModel-Ressource oder BatchPredictionJob verwenden. Je nach genutztem Maschinentyp gibt es allerdings Einschränkungen für die Anzahl der GPUs, die sich hinzufügen lassen. In der folgenden Tabelle werden diese Einschränkungen beschrieben.

In der folgenden Tabelle sehen Sie die optionalen GPUs, die für die Onlineinferenz verfügbar sind, und Sie erfahren, wie viele GPUs der einzelnen Typen Sie mit jedem Compute Engine-Maschinentyp verwenden können:

Gültige GPU-Anzahl für Maschinentypen
Maschinentyp	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-32`	2, 4	4, 8	2, 4	2, 4
`n1-highmem-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-32`	2, 4	4, 8	2, 4	2, 4
`n1-highcpu-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-32`	2, 4	4, 8	2, 4	2, 4

Für optionale GPUs fallen zusätzliche Kosten an.

Rechenressourcen für die Inferenz konfigurieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Kosten und Verfügbarkeit verwalten

Hier geben Sie Rechenressourcen an

Onlineinferenz

Batch-Inferenz

Maschinentypen

E2-Serie

N1-Serie

N2-Serie

N2D-Serie

C2-Serie

C2D-Serie

C3-Serie

A2-Serie

A3-Serie

G2-Serie

Idealen Maschinentyp ermitteln

Onlineinferenz

Batch-Inferenz

Optionale GPU-Beschleuniger

Nächste Schritte

Rechenressourcen für die Inferenz konfigurieren