Rechenressourcen für Vorhersagen konfigurieren

Vertex AI weist Knoten für die Verarbeitung von Online- und Batchvorhersagen zu. Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein AutoML-Modell für eine Endpoint-Ressource bereitstellen, um Onlinevorhersagen bereitzustellen, oder wenn Sie Batchvorhersagen anfordern, können Sie den Typ der virtuellen Maschine anpassen, die der Vorhersagedienst für diese Knoten verwendet. Sie können Vorhersageknoten optional für die Verwendung von GPUs konfigurieren.

Maschinentypen unterscheiden sich in verschiedener Hinsicht:

  • Anzahl der virtuellen CPUs (vCPUs) pro Knoten
  • Speichermenge pro Knoten
  • Preise

Wenn Sie einen Maschinentyp mit mehr Rechenressourcen auswählen, können Sie Vorhersagen mit geringerer Latenz bereitstellen oder mehr Vorhersageanfragen gleichzeitig verarbeiten.

Kosten und Verfügbarkeit verwalten

Vertex AI bietet folgende Funktionen, um die Kosten zu kontrollieren und die Verfügbarkeit von VM-Ressourcen zu gewährleisten:

  • Um sicherzustellen, dass VM-Ressourcen verfügbar sind, wenn Ihre Vorhersagejobs sie benötigen, können Sie Compute Engine-Reservierungen verwenden. Reservierungen bieten ein hohes Maß an Sicherheit beim Beschaffen von Kapazitäten für Ressourcen von Compute Engine. Weitere Informationen finden Sie unter Reservierungen mit Vorhersage verwenden.

  • Mit Spot-VMs können Sie die Kosten für die Ausführung Ihrer Vorhersagejobs senken. Spot-VMs sind VM-Instanzen, die überschüssige Compute Engine-Kapazität darstellen. Für Spot-VMs gibt es erhebliche Rabatte. Compute Engine kann jedoch Spot-VMs jederzeit vorzeitig beenden oder löschen, um die Kapazität zurückzugewinnen. Weitere Informationen finden Sie unter Spot-VMs mit Vorhersage verwenden.

Hier geben Sie Rechenressourcen an

Onlinevorhersage

Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein tabellarisches AutoML-Modell für Onlinevorhersagen verwenden möchten, müssen Sie einen Maschinentyp angeben, wenn Sie die Model-Ressource als ein DeployedModel an einem Endpoint bereitstellen. Bei anderen Typen von AutoML-Modellen konfiguriert Vertex AI die Maschinentypen automatisch.

Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von DeployedModel an.

Hier können Sie nachlesen, wie Sie die einzelnen Modelltypen bereitstellen:

Batchvorhersage

Wenn Sie Batchvorhersagen von einem benutzerdefinierten Modell oder einem AutoML-Tabellenmodell erhalten möchten, müssen Sie beim Erstellen einer BatchPredictionJob-Ressource einen Maschinentyp angeben. Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von BatchPredictionJob an.

Maschinentypen

In der folgenden Tabelle werden die verfügbaren Maschinentypen für die Bereitstellung von Vorhersagen aus benutzerdefinierten Modellen und AutoML-Tabellenmodellen verglichen:

E2-Serie

Name vCPUs Arbeitsspeicher (GB)
e2-standard-2 2 8
e2-standard-4 4 16
e2-standard-8 8 32
e2-standard-16 16 64
e2-standard-32 32 128
e2-highmem-2 2 16
e2-highmem-4 4 32
e2-highmem-8 8 64
e2-highmem-16 16 128
e2-highcpu-2 2 2
e2-highcpu-4 4 4
e2-highcpu-8 8 8
e2-highcpu-16 16 16
e2-highcpu-32 32 32

N1-Serie

Name vCPUs Arbeitsspeicher (GB)
n1-standard-2 2 7,5
n1-standard-4 4 15
n1-standard-8 8 30
n1-standard-16 16 60
n1-standard-32 32 120
n1-highmem-2 2 13
n1-highmem-4 4 26
n1-highmem-8 8 52
n1-highmem-16 16 104
n1-highmem-32 32 208
n1-highcpu-4 4 3,6
n1-highcpu-8 8 7,2
n1-highcpu-16 16 14,4
n1-highcpu-32 32 28,8

N2-Serie

Name vCPUs Arbeitsspeicher (GB)
n2-standard-2 2 8
n2-standard-4 4 16
n2-standard-8 8 32
n2-standard-16 16 64
n2-standard-32 32 128
n2-standard-48 48 192
n2-standard-64 64 256
n2-standard-80 80 320
n2-standard-96 96 384
n2-standard-128 128 512
n2-highmem-2 2 16
n2-highmem-4 4 32
n2-highmem-8 8 64
n2-highmem-16 16 128
n2-highmem-32 32 256
n2-highmem-48 48 384
n2-highmem-64 64 512
n2-highmem-80 80 640
n2-highmem-96 96 768
n2-highmem-128 128 864
n2-highcpu-2 2 2
n2-highcpu-4 4 4
n2-highcpu-8 8 8
n2-highcpu-16 16 16
n2-highcpu-32 32 32
n2-highcpu-48 48 48
n2-highcpu-64 64 64
n2-highcpu-80 80 80
n2-highcpu-96 96 96

N2D-Serie

Name vCPUs Arbeitsspeicher (GB)
n2d-standard-2 2 8
n2d-standard-4 4 16
n2d-standard-8 8 32
n2d-standard-16 16 64
n2d-standard-32 32 128
n2d-standard-48 48 192
n2d-standard-64 64 256
n2d-standard-80 80 320
n2d-standard-96 96 384
n2d-standard-128 128 512
n2d-standard-224 224 896
n2d-highmem-2 2 16
n2d-highmem-4 4 32
n2d-highmem-8 8 64
n2d-highmem-16 16 128
n2d-highmem-32 32 256
n2d-highmem-48 48 384
n2d-highmem-64 64 512
n2d-highmem-80 80 640
n2d-highmem-96 96 768
n2d-highcpu-2 2 2
n2d-highcpu-4 4 4
n2d-highcpu-8 8 8
n2d-highcpu-16 16 16
n2d-highcpu-32 32 32
n2d-highcpu-48 48 48
n2d-highcpu-64 64 64
n2d-highcpu-80 80 80
n2d-highcpu-96 96 96
n2d-highcpu-128 128 128
n2d-highcpu-224 224 224

C2-Serie

Name vCPUs Arbeitsspeicher (GB)
c2-standard-4 4 16
c2-standard-8 8 32
c2-standard-16 16 64
c2-standard-30 30 120
c2-standard-60 60 240

C2D-Serie

Name vCPUs Arbeitsspeicher (GB)
c2d-standard-2 2 8
c2d-standard-4 4 16
c2d-standard-8 8 32
c2d-standard-16 16 64
c2d-standard-32 32 128
c2d-standard-56 56 224
c2d-standard-112 112 448
c2d-highcpu-2 2 4
c2d-highcpu-4 4 8
c2d-highcpu-8 8 16
c2d-highcpu-16 16 32
c2d-highcpu-32 32 64
c2d-highcpu-56 56 112
c2d-highcpu-112 112 224
c2d-highmem-2 2 16
c2d-highmem-4 4 32
c2d-highmem-8 8 64
c2d-highmem-16 16 128
c2d-highmem-32 32 256
c2d-highmem-56 56 448
c2d-highmem-112 112 896

C3-Serie

Name vCPUs Arbeitsspeicher (GB)
c3-highcpu-4 4 8
c3-highcpu-8 8 16
c3-highcpu-22 22 44
c3-highcpu-44 44 88
c3-highcpu-88 88 176
c3-highcpu-176 176 352

A2-Serie

Name vCPUs Arbeitsspeicher (GB) GPUs (NVIDIA A100)
a2-highgpu-1g 12 85 1 (A100 40GB)
a2-highgpu-2g 24 170 2 (A100 40GB)
a2-highgpu-4g 48 340 4 (A100 40GB)
a2-highgpu-8g 96 680 8 (A100 40GB)
a2-megagpu-16g 96 1360 16 (A100 40GB)
a2-ultragpu-1g 12 170 1 (A100 80GB)
a2-ultragpu-2g 24 340 2 (A100 80GB)
a2-ultragpu-4g 48 680 4 (A100 80GB)
a2-ultragpu-8g 96 1360 8 (A100 80GB)

A3-Serie

Name vCPUs Arbeitsspeicher (GB) GPUs (NVIDIA H100)
a3-highgpu-8g 208 1872 8 (H100 80GB)

G2-Serie

Name vCPUs Arbeitsspeicher (GB) GPUs (NVIDIA L4)
g2-standard-4 4 16 1
g2-standard-8 8 32 1
g2-standard-12 12 48 1
g2-standard-16 16 64 1
g2-standard-24 24 96 2
g2-standard-32 32 128 1
g2-standard-48 48 192 4
g2-standard-96 96 384 8

Weitere Informationen zu den Preisen für jeden Maschinentyp Weitere Informationen zu den genauen Spezifikationen dieser Maschinentypen finden Sie in der Compute Engine-Dokumentation zu Maschinentypen.

Idealen Maschinentyp ermitteln

Onlinevorhersage

Um den idealen Maschinentyp für Ihren Anwendungsfall zu ermitteln, sollten Sie Ihr Modell auf mehreren Maschinentypen laden und Merkmale wie Latenz, Kosten, Gleichzeitigkeit und Durchsatz messen.

Eine Möglichkeit besteht darin, dieses Notebook auf mehreren Maschinentypen auszuführen und die Ergebnisse zu vergleichen, um die für Sie beste Option zu bestimmen.

Vertex AI reserviert auf jedem Replikat ca. 1 vCPU für die Ausführung von Systemprozessen. Dies bedeutet, dass das Ausführen des Notebooks auf einem Maschinentyp mit einem Kern mit der Verwendung eines Maschinentyps mit zwei Kernen für die Bereitstellung von Vorhersagen vergleichbar ist.

Wenn Sie die Kosten für die Vorhersage bestimmen sollten Sie bedenken, dass größere Maschinen, obwohl sie mehr kosten, die Gesamtkosten senken können, da weniger Replikate erforderlich sind, um dieselbe Arbeitslast zu verarbeiten. Dies ist besonders bei GPUs sichtbar, die in der Regel mehr pro Stunde kosten, aber sowohl niedrigere Latenzen als auch geringere Gesamtkosten bieten können.

Batchvorhersage

Weitere Informationen finden Sie unter Maschinentyp und Anzahl der Replikate wählen.

Optionale GPU-Beschleuniger

Einige Konfigurationen haben eine integrierte Anzahl an GPUs, darunter die Serien A2 und G2.

Bei anderen Konfigurationen wie der N1-Serie können Sie GPUs hinzufügen, um jeden Vorhersageknoten zu beschleunigen.

Beim Hinzufügen optionaler GPU-Beschleuniger müssen Sie mehrere Anforderungen berücksichtigen:

  • Sie können GPUs nur verwenden, wenn Ihre Model-Ressource auf einem TensorFlow SavedModel oder auf einem benutzerdefinierten Container basiert, der wurde entwickelt, um GPUs zu nutzen. GPUs können nicht für scikit-learn- oder XGBoost-Modelle verwendet werden.
  • Die Verfügbarkeit der einzelnen GPU-Typen hängt davon ab, welche Region Sie für Ihr Modell verwenden. Verfügbare GPU-Typen in jeweiligen Regionen
  • Sie können nur einen GPU-Typ für Ihre DeployedModel-Ressource oder BatchPredictionJob verwenden. Je nach genutztem Maschinentyp gibt es allerdings Einschränkungen für die Anzahl der GPUs, die sich hinzufügen lassen. In der folgenden Tabelle werden diese Einschränkungen beschrieben.

In der folgenden Tabelle sehen Sie die optionalen GPUs, die für die Onlinevorhersage verfügbar sind, und Sie erfahren, wie viele GPUs der einzelnen Typen Sie mit jedem Compute Engine-Maschinentyp verwenden können:

Gültige GPU-Anzahl für Maschinentypen
Maschinentyp NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA Tesla P4 NVIDIA Tesla T4
n1-standard-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-32 2, 4 4, 8 2, 4 2, 4
n1-highmem-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-32 2, 4 4, 8 2, 4 2, 4
n1-highcpu-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-32 2, 4 4, 8 2, 4 2, 4

Für optionale GPUs fallen zusätzliche Kosten an.

Nächste Schritte