Cloud Monitoring-Messwerte für Vertex AI

Vertex AI exportiert Messwerte in Cloud Monitoring. Vertex AI zeigt auch einige dieser Messwerte in der Vertex AI Google Cloud Console an. Sie können Cloud Monitoring verwenden, um Dashboards zu erstellen oder Benachrichtigungen anhand der Messwerte zu konfigurieren. Sie können beispielsweise Benachrichtigungen erhalten, wenn die Vorhersagelatenz eines Modells in Vertex AI zu hoch wird.

In den folgenden Abschnitten werden die in der Vertex AI Google Cloud Console bereitgestellten Messwerte beschrieben. Diese können direkte oder berechnete Messwerte sein, die Vertex AI an Cloud Monitoring sendet.

Eine Liste der meisten Messwerte, die Vertex AI in Cloud Monitoring exportiert, finden Sie im Abschnitt „aiplatform“ auf der Monitoring-Seite Google Cloud-Messwerte. Weitere Informationen zu benutzerdefinierten Trainingsmesswerten finden Sie im Abschnitt zu den Messwerttypen, die mit training im Abschnitt "ml" dieser Seite beginnen.

Monitoring-Messwerte des benutzerdefinierte Trainings

Wenn Sie ein benutzerdefiniertes Training durchführen, können Sie die folgenden Arten von Ressourcennutzung für jeden Trainingsknoten überwachen:

  • CPU- oder GPU-Auslastung jedes Trainingsknotens
  • Arbeitsspeicherauslastung der einzelnen Trainingsknoten
  • Netzwerknutzung (Byte gesendet pro Sekunde und empfangene Byte pro Sekunde)

Wenn Sie die Hyperparameter-Abstimmung verwenden, können Sie die Messwerte für jeden Test anzeigen.

So können Sie sich diese Messwerte ansehen, nachdem Sie das benutzerdefinierte Training gestartet haben:

  1. Rufen Sie in der Google Cloud Console eine der folgenden Seiten auf, je nachdem, ob Sie die Hyperparameter-Abstimmung verwenden:

  2. Klicken Sie auf den Namen Ihrer benutzerdefinierten Trainingsressource.

    Wenn Sie eine benutzerdefinierte TrainingPipeline-Ressource erstellt haben, klicken Sie auf den Namen des Jobs, der von TrainingPipeline erstellt wurde. Beispiel: TRAINING_PIPELINE_NAME-custom-job oder TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Klicken Sie auf den Tab CPU, GPU oder Netzwerk, um Auslastungsdiagramme für den Messwert anzuzeigen, an dem Sie interessiert sind.

    Wenn Sie die Hyperparameter-Abstimmung verwenden, können Sie auf eine Zeile in der Tabelle Hyperparameter-Abstimmungstests klicken, um sich Messwerte für einen bestimmten Test anzusehen.

Verwenden Sie Monitoring, um sich ältere Messwerte anzusehen oder die Anzeige von Messwerten anzupassen. Vertex AI exportiert benutzerdefinierte Trainingsmesswerte als Messwerttypen mit dem Präfix ml.googleapis.com/training in Monitoring. Der Typ der überwachten Ressource ist cloudml_job.

AI Platform Training exportiert Messwerte mit denselben Messwerttypen und demselben Ressourcentyp in Monitoring.

Endpunkt-Monitoring-Messwerte

Nachdem Sie ein Modell auf einem Endpunkt bereitgestellt haben, können Sie den Endpunkt überwachen, um die Leistung und die Ressourcennutzung Ihres Modells zu verstehen. Sie können Messwerte wie Trafficmuster, Fehlerraten, Latenz und Ressourcenauslastung verfolgen, um sicherzustellen, dass Ihr Modell konsistent auf Anfragen reagiert und vorhersehbar vorhersagt. Sie können Ihr Modell beispielsweise mit einem anderen Maschinentyp noch einmal bereitstellen, um die Kosten zu optimieren. Nachdem Sie die Änderung vorgenommen haben, können Sie das Modell überwachen, um zu prüfen, ob Ihre Änderungen die Leistung negativ beeinflusst haben.

In Cloud Monitoring ist der Typ der überwachten Ressource für bereitgestellte Modelle aiplatform.googleapis.com/Endpoint.

Leistungsmesswerte

Mit den Leistungsmesswerten finden Sie Informationen zu Trafficmustern, Fehlern und Latenz des Modells. Sie können die folgenden Leistungsmesswerte in der Google Cloud Console aufrufen.

  • Vorhersagen pro Sekunde: Die Anzahl der Vorhersagen pro Sekunde für Online- und Batchvorhersagen. Wenn Sie mehr als eine Instanz pro Anfrage haben, wird jede Instanz in diesem Diagramm gezählt.
  • Vorhersagefehlerprozentsatz: Die Fehlerrate, die Ihr Modell erzeugt. Eine hohe Fehlerrate weist auf ein Problem mit dem Modell oder den Anfragen an das Modell hin. Sehen Sie sich das Diagramm mit den Antwortcodes an, um festzustellen, welche Fehler auftreten.
  • Modelllatenz (nur für tabellarische und benutzerdefinierte Modelle): Die für die Berechnung benötigte Zeit.
  • Overhead-Latenz (nur für tabellarische und benutzerdefinierte Modelle): Die Gesamtzeit, die für die Verarbeitung einer Anfrage ausgenommen der Berechnung aufgewendet wurde.
  • Gesamtlatenzdauer: Die Gesamtzeit, die eine Anfrage im Dienst verbringt. Dies ist die Modelllatenz plus die Overhead-Latenz.

Ressourcennutzung

Mithilfe von Messwerten zur Ressourcennutzung können Sie die CPU-, Speicher- und Netzwerknutzung Ihres Modells verfolgen. Sie können die folgenden Nutzungsmesswerte in der Google Cloud Console aufrufen.

  • Replikatanzahl: Die Anzahl der aktiven Replikate, die vom bereitgestellten Modell verwendet werden.
  • Replikatziel: Die Anzahl der aktiven Replikate, die für das bereitgestellte Modell erforderlich sind.
  • CPU-Nutzung: Aktuelle CPU-Kernnutzungsrate des bereitgestellten Modellreplikats. 100 % steht für einen vollständig ausgelasteten CPU-Kern. Ein Replikat kann also eine Auslastung von mehr als 100 % erreichen, wenn der Maschinentyp mehrere Kerne hat.
  • Speichernutzung: Der Arbeitsspeicher, der vom bereitgestellten Modellreplikat zugewiesen wurde und derzeit verwendet wird.
  • Vom Netzwerk gesendete Byte: Die Anzahl der Byte, die vom bereitgestellten Modellreplikat über das Netzwerk gesendet wurden.
  • Vom Netzwerk empfangene Byte: Die Anzahl der Byte, die vom bereitgestellten Modellreplikat über das Netzwerk empfangen wurden.
  • Durchschnittlicher Accelerator-Arbeitszyklus: Der durchschnittliche Anteil der Zeit während des letzten Beispielzeitraums, in dem ein oder mehrere Accelerator aktiv verarbeitet wurden.
  • Accelerator-Speichernutzung: Der Arbeitsspeicher, der vom bereitgestellten Modellreplikat zugewiesen wurde.

Messwertdiagramme für das Monitoring von Endpunkten aufrufen

  1. Rufen Sie in der Google Cloud Console die Seite Endpunkte von Vertex AI auf.

    Zur Seite „Endpunkte”

  2. Klicken Sie auf den Namen eines Endpunkts, um dessen Messwerte aufzurufen.

  3. Klicken Sie unter den Diagrammintervallen auf Leistung oder Ressourcennutzung, um die Messwerte zur Leistungs- oder Ressourcennutzung aufzurufen.

    Sie können verschiedene Diagrammintervalle auswählen, um Messwerte über einen bestimmten Zeitraum aufzurufen, z. B. 1 Stunde, 12 Stunden oder 14 Tage.

    Wenn Sie mehrere Modelle für den Endpunkt bereitgestellt haben, können Sie Modelle auswählen oder die Auswahl aufheben, um Messwerte für bestimmte Modelle ein- oder auszublenden. Wenn Sie mehrere Modelle auswählen, gruppiert die Konsole einige Modellmesswerte in einem einzigen Diagramm. Wenn ein Messwert beispielsweise nur einen Wert pro Modell bereitstellt, gruppiert die Konsole die Modellmesswerte in einem einzigen Diagramm, z. B. für die CPU-Nutzung. Für Messwerte, die mehrere Werte pro Modell haben können, enthält die Konsole für jedes Modell ein Diagramm. Beispielsweise zeigt die Konsole für jedes Modell ein Diagramm mit Antwortcodes.

Monitoring-Messwerte für Vertex AI Feature Store

Nachdem Sie einen Feature Store erstellt haben, können Sie dessen Leistung und Ressourcennutzung überwachen, z. B. die Bereitstellungslatenz des Onlinespeichers oder die Anzahl der Onlinespeicherknoten. Sie können beispielsweise die Anzahl der Onlinespeicherknoten eines Feature Stores aktualisieren und dann Änderungen an den Messwerten der Onlinespeicherbereitstellung beobachten.

In Cloud Monitoring ist der überwachte Ressourcentyp für einen Feature Store aiplatform.googleapis.com/Featurestore.

Messwerte

  • Anfragegröße: Die Anfragegröße nach Entitätstyp in Ihrem Feature Store.
  • Offlinespeicher-Schreibvorgang für Streaming-Schreibvorgang: Die Anzahl der für den Offlinespeicher verarbeiteten Streaming-Schreibanfragen.
  • Verzögerung der Streaming-Schreibvorgänge im Offlinespeicher: Die verstrichene Zeit (in Sekunden) zwischen dem Aufruf der Schreib-API und dem Schreiben in den Offlinespeicher.
  • Knotenzahl: Die Anzahl von Onlinebereitstellungsknoten für Ihren Feature Store.
  • Latenz: Die Gesamtzeit, die eine Anfrage für eine Onlinebereitstellung oder Streamingaufnahme im Dienst verbringt.
  • Abfragen pro Sekunde: Die Anzahl der Onlinebereitstellungs- oder Streamingaufnahmeabfragen, die Ihr Feature Store verarbeitet.
  • Fehlerprozentsatz: Der Prozentsatz der Fehler, die Ihr Feature Store erzeugt, wenn er Anfragen für die Onlinebereitstellung oder Streamingaufnahme verarbeitet.
  • CPU-Nutzung: Der Anteil an CPU, der vom Feature Store zugewiesen wurde und derzeit vom Onlinespeicher verwendet wird. Diese Zahl kann 100 % überschreiten, wenn der Onlinebereitstellungs-Speicher überlastet ist. Sie sollten die Anzahl der Online-Bereitstellungsknoten im Feature Store erhöhen, um die CPU-Nutzung zu reduzieren.
  • CPU-Auslastung – am stärksten genutzter Knoten: Die CPU-Last des am stärksten genutzten Knotens im Onlinespeicher des Feature Stores.
  • Offlinespeicher insgesamt: Menge der im Offlinespeicher des Feature Stores gespeicherten Daten.
  • Onlinespeicher insgesamt: Menge der im Onlinespeicher des Feature Stores gespeicherten Daten.
  • Online-Bereitstellungsdurchsatz: Der Durchsatz in MB/s für Online-Bereitstellungsanfragen.

Diagramme zu Feature Store-Monitoring-Messwerten aufrufen

  1. Rufen Sie in der Google Cloud Console die Seite Features von Vertex AI auf.

    Zur Seite „Features“

  2. Klicken Sie in der Spalte Feature Store auf den Namen eines Feature Stores, um sich dessen Messwerte anzeigen zu lassen.

    Sie können verschiedene Diagrammintervalle auswählen, um Messwerte für einen bestimmten Zeitraum aufzurufen, z. B. 1 Stunde, 1 Tag oder 1 Woche.

    Bei einigen Messwerten für Onlinebereitstellungen können Sie Messwerte für eine bestimmte Methode aufrufen, wodurch die Messwerte weiter nach Entitätstyp aufgeschlüsselt werden. Sie können sich beispielsweise die Latenz für die Methode ReadFeatureValues oder die Methode StreamingReadFeatureValues ansehen.