GPU-Zonenredundanz für Dienste

Auf dieser Seite wird beschrieben, wie Sie Optionen für die zonale Redundanz für GPUs für Ihren Cloud Run-Dienst festlegen. Standardmäßig ist die zonale Redundanz für GPUs aktiviert, sodass Daten und Traffic automatisch auf Zonen innerhalb einer Region verteilt werden. Bei einem Ausfall in einer bestimmten Zone wird der Traffic automatisch an andere Zonen weitergeleitet.

Wenn Sie stattdessen die bestmögliche Zuverlässigkeit zu einem niedrigeren Kosten pro GPU und Sekunde nutzen möchten, deaktivieren Sie die zonale Redundanz für die GPU.

Unterstützte Regionen

  • us-central1 (Iowa) Blattsymbol Niedriger CO2
  • asia-southeast1 (Singapur)
  • europe-west1 (Belgien) Blattsymbol Niedriger CO2
  • europe-west4 (Niederlande) Blattsymbol Niedriger CO2
  • asia-south1 (Mumbai)
    • Hinweis:Diese Region ist nur auf Einladung verfügbar. Wenden Sie sich an Ihr Google Konten-Team, wenn Sie an dieser Region interessiert sind.

Auswirkungen auf die Kosten

Weitere Informationen zu den Kosten für die zonale Redundanz finden Sie unter Cloud Run-Preise.

Anfragekontingent

Standardmäßig gibt es kein Kontingent für zonale Redundanz. Sie müssen ein Kontingent anfordern. Über die Links in den folgenden Schaltflächen können Sie das benötigte Kontingent anfordern.

Kontingent erforderlich Kontingentverknüpfung
GPU mit aktivierter zonaler Redundanz GPU-Kontingent mit zonaler Redundanz anfordern
GPU mit deaktivierter zonaler Redundanz GPU-Kontingent ohne zonale Redundanz anfordern
Seite mit GPU-Kontingenten (sowohl zonale als auch nicht zonale Redundanz) GPU-Kontingent anfordern

Hinweise

In der folgenden Liste sind die Anforderungen und Einschränkungen für die Verwendung von GPUs in Cloud Run aufgeführt:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Run API.

    Enable the API

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Konfigurieren und Bereitstellen von Cloud Run-Diensten benötigen:

Eine Liste der IAM-Rollen und -Berechtigungen im Zusammenhang mit Cloud Run finden Sie unter IAM-Rollen für Cloud Run und IAM-Berechtigungen für Cloud Run. Wenn Ihr Cloud Run-Dienst mitGoogle Cloud APIs wie Cloud-Clientbibliotheken verknüpft ist, lesen Sie die Konfigurationsanleitung für Dienstidentitäten. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Bereitstellungsberechtigungen und Zugriff verwalten.

Zonenredundante Bereitstellung für einen Cloud Run-Dienst mit GPU konfigurieren

Jede Konfigurationsänderung führt zur Erstellung einer neuen Überarbeitung. Für nachfolgende Überarbeitungen gilt automatisch dieselbe Konfigurationseinstellung, sofern Sie sie nicht explizit aktualisieren.

Sie können die Google Cloud Console, die Google Cloud CLI oder YAML verwenden, um die GPU zu konfigurieren.

Console

  1. Rufen Sie in der Google Cloud Console Cloud Run auf:

    Zu Cloud Run

  2. Klicken Sie auf Container bereitstellen und wählen Sie Dienst aus, um einen neuen Dienst zu konfigurieren. Wenn Sie einen vorhandenen Dienst konfigurieren möchten, klicken Sie auf den Dienst und dann auf Neue Überarbeitung bearbeiten und bereitstellen.

  3. Wenn Sie einen neuen Dienst konfigurieren, füllen Sie die Seite mit den anfänglichen Diensteinstellungen aus und klicken Sie dann auf Container, Volumes, Netzwerk, Sicherheit, um die Seite zur Dienstkonfiguration zu maximieren.

  4. Klicken Sie auf den Tab Container.

    Image

    • Aktivieren Sie das Kästchen für die GPU, um die Optionen für die GPU-Redundanz zu sehen.
      • Wählen Sie Keine zonale Redundanz aus, um die zonale Redundanz zu deaktivieren.
      • Wählen Sie Zonale Redundanz aus, um die zonale Redundanz zu aktivieren.
  5. Klicken Sie auf Erstellen oder Bereitstellen.

gcloud

Die GPU-Zonenredundanz ist standardmäßig aktiviert. Verwenden Sie den Befehl gcloud beta run services update, um die Konfiguration der GPU-zonären Redundanz für einen Dienst zu deaktivieren oder wieder zu aktivieren, falls Sie die zonare Redundanz zuvor deaktiviert haben:

  gcloud beta run services update SERVICE \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --no-cpu-throttling \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --max-instances MAX_INSTANCE
    --GPU_ZONAL_REDUNDANCY
    

Ersetzen Sie:

  • SERVICE durch den Namen Ihres Cloud Run-Dienstes.
  • IMAGE_URL durch einen Verweis auf das Container-Image, z. B. us-docker.pkg.dev/cloudrun/container/hello:latest. Wenn Sie Artifact Registry verwenden, muss das Repository REPO_NAME bereits erstellt sein. Die URL hat die Form LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.
  • CPU durch die Anzahl der CPUs. Sie müssen mindestens 4 CPUs angeben.
  • MEMORY durch die Größe des Arbeitsspeichers. Sie müssen mindestens 16Gi (16 GiB) angeben.
  • GPU_NUMBER durch den Wert 1 (eins). Wenn dieser Wert nicht angegeben ist, aber ein GPU_TYPE vorhanden ist, ist der Standardwert 1.
  • GPU_TYPE durch den GPU-Typ. Wenn dieser Wert nicht angegeben ist, aber eine GPU_NUMBER vorhanden ist, ist der Standardwert nvidia-l4 (nvidia L4 Kleinbuchstabe L, nicht numerischer Wert vierzehn).
  • MAX_INSTANCE durch die maximale Anzahl von Instanzen. Diese Zahl darf das für Ihr Projekt zugewiesene GPU-Kontingent nicht überschreiten.
  • GPU_ZONAL_REDUNDANCY mit no-gpu-zonal-redundancy, um die zonale Redundanz zu deaktivieren, oder gpu-zonal-redundancy, um die zonale Redundanz zu aktivieren.

YAML

  1. Wenn Sie einen neuen Dienst erstellen, überspringen Sie diesen Schritt. Wenn Sie einen vorhandenen Dienst aktualisieren, laden Sie die zugehörige YAML-Konfiguration herunter:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Aktualisieren Sie die Annotation run.googleapis.com/gpu-zonal-redundancy-disabled:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
        run.googleapis.com/launch-stage: BETA
    spec:
      template:
        metadata:
          annotations:
            run.googleapis.com/gpu-zonal-redundancy-disabled: GPU_ZONAL_REDUNDANCY
            

    Ersetzen Sie:

    • SERVICE durch den Namen Ihres Cloud Run-Dienstes.
    • GPU_ZONAL_REDUNDANCY mit false, um die GPU-Zonenredundanz zu aktivieren, oder true, um sie zu deaktivieren.
  3. Erstellen oder aktualisieren Sie den Dienst mit dem folgenden Befehl:

    gcloud run services replace service.yaml