In diesem Dokument werden Quellen für Diagnoseinformationen beschrieben, mit denen Sie Probleme bei der Installation oder Ausführung des Ops-Agents erkennen können.
Agent-Status mit gcpdiag prüfen
Mit gcpdiag können Sie den Status des Ops-Agenten auf einzelnen VMs oder der gesamten VM-Flotte in Ihrem Projekt prüfen und bestätigen, dass der Agent installiert ist und aktiv Logs und Messwerte sendet. Mit gcpdiag können Statusberichte in verschiedenen Formaten erstellt werden, z. B. im CSV- oder JSON-Format.
Im Folgenden sehen Sie einen flottenweiten Statusbericht für Agents im CSV-Format:
🔎 gce/ERR/2024_004: Verify Ops Agent is installed on GCE VMs and is sending logs and metrics.
gce/ERR/2024_004,projects/my-project/zones/my-location/instances/instance-1,failed,Ops Agent not installed on the VM,https://gcpdiag.dev/rules/gce/ERR/2024_004
gce/ERR/2024_004,projects/my-project/zones/my-location/instances/instance-2,skipped,VM Manager is needed for the ops agent detection. Please enable it at: https://cloud.google.com/compute/docs/manage-os#automatic and run this check again.,https://gcpdiag.dev/rules/gce/ERR/2024_004
gce/ERR/2024_004,projects/my-project/zones/my-location/instances/instance-3,skipped,VM Manager is needed for the ops agent detection. Please enable it at: https://cloud.google.com/compute/docs/manage-os#automatic and run this check again.,https://gcpdiag.dev/rules/gce/ERR/2024_004
gce/ERR/2024_004,projects/my-project/zones/my-location/instances/instance-4,ok,"Ops Agent installed on the VM, and is successfully sending logs and metrics.",https://gcpdiag.dev/rules/gce/ERR/2024_004
gce/ERR/2024_004,projects/my-project/zones/my-location/instances/instance-5,ok,"Ops Agent installed on the VM, and is successfully sending logs and metrics.",https://gcpdiag.dev/rules/gce/ERR/2024_004
Das gcpdiag-Tool wurde vom Google Cloud-Support entwickelt, damit Sie häufige Probleme in Ihrem Google Cloud-Projekt selbst diagnostizieren können, einschließlich Problemen mit dem Ops-Agent. gcpdiag ist kein offizielles Google Cloud-Produkt, sondern ein Open-Source-Tool, das vom Google Cloud-Supportteam aktiv entwickelt und gepflegt wird. Sie können auf GitHub Beiträge leisten oder Probleme melden.
Hinweise
gcpdiag ist in Cloud Shell integriert und kann daher ohne Installation ausgeführt werden. Damit Sie gcpdiag ausführen können, müssen die folgenden Voraussetzungen erfüllt sein:
Autorisierung: gcpdiag verwendet Standardanmeldedaten für Anwendungen (ADC) in Cloud Shell zur Authentifizierung.
Die mit gcpdiag verwendeten Anmeldedaten müssen mindestens die folgenden Rollen im Google Cloud-Projekt haben, in dem der Ops-Agent ausgeführt wird:- Betrachter (
roles/viewer
) - Service Usage Consumer (
roles/serviceusage.serviceUsageConsumer
)
- Betrachter (
APIs: Wenn Sie gcpdiag in einem Projekt verwenden möchten, müssen die folgenden APIs aktiviert sein:
- Cloud Resource Manager API:
cloudresourcemanager.googleapis.com
- Identity and Access Management API:
iam.googleapis.com
- Cloud Logging API:
logging.googleapis.com
- Service Usage:
serviceusage.googleapis.com
Aktivieren Sie diese APIs mit folgendem Befehl in Cloud Shell oder einer anderen Befehlszeile:
gcloud --project=PROJECT_ID services enable \ cloudresourcemanager.googleapis.com \ iam.googleapis.com \ logging.googleapis.com \ serviceusage.googleapis.com
- Cloud Resource Manager API:
VM Manager: Aktivieren Sie VM Manager in der kostenlosen Stufe auf Ihrer Instanz. Wenn Sie den Ops-Agent während der VM-Erstellung installiert haben oder die Installation des Ops-Agents auf Ihren VM-Instanzen über eine Agentrichtlinie verwaltet wird, erfüllen Sie bereits die Anforderungen für VM Manager.
gcpdiag ausführen
Der Befehl gcpdiag
für den Einsatz mit dem Ops-Agenten hat die folgende grundlegende Syntax:
gcpdiag lint --project=PROJECT_ID [--name=INSTANCE_NAME] --show-skipped --include=gce/err/2024_004 [--output=[CSV|JSON]]
- PROJECT_ID ist die ID des Google Cloud-Projekts.
- INSTANCE_NAME ist der Name Ihrer Compute Engine-VM.
Verwenden Sie die Option
--name
, um eine bestimmte VM abzufragen. Wenn Sie die gesamte Flotte abfragen möchten, lassen Sie die Option weg. - Verwenden Sie die Option
--output
, um den Bericht in einer CSV- oder JSON-Datei zu speichern. Lassen Sie die Option deaktiviert, wenn Sie keine Ausgabedatei benötigen.
Der Wert der Option --include
gibt eine oder mehrere gcpdiag-Regeln an. gce/ERR/2024-004
ist die Regel für den Ops-Agent.
Weitere Informationen zur Syntax des Befehls „gcpdiag“ finden Sie unter gcpdiag – Diagnose für die Google Cloud Platform.
Wenn Sie beispielsweise einen flottenweiten Bericht für das Projekt „my-project“ generieren möchten, führen Sie den folgenden Befehl aus:
gcpdiag lint --project=my-project --show-skipped --include=gce/ERR/2024_004
Die Ausgabe sollte so aussehen:
🔎 gce/ERR/2024_004: Verify Ops Agent is installed on GCE VMs and is sending logs and metrics.
- my-project/instance-1 [FAIL] Ops Agent not installed on the VM
- my-project/instance-2 [FAIL] Ops Agent not installed on the VM
- my-project/instance-3 [SKIP] Unable to confirm Ops Agent installation
VM Manager is needed for the ops agent detection. Please enable it at: https://cloud.google.com/compute/docs/manage-os#automatic and run this check again.
- my-project/instance-4 [FAIL] Ops Agent is installed, but it's failing to send both logs and metrics to Google Cloud.
Is Ops Agent sending logs? (Yes) Is Ops Agent sending metrics? (No)
- my-project/instance-5 [FAIL] Ops Agent is installed, but it's failing to send both logs and metrics to Google Cloud.
Is Ops Agent sending logs? (No) Is Ops Agent sending metrics? (No)
- my-project/instance-6 [ OK ] Ops Agent installed on the VM, and is successfully sending logs and metrics.
- my-project/instance-7 [ OK ] Ops Agent installed on the VM, and is successfully sending logs and metrics.
Führen Sie den folgenden Befehl aus, um einen Bericht für die Instanz „my-instance“ im Projekt „my-project“ zu generieren:
gcpdiag lint --project=my-project --name=my-instance --show-skipped --include=gce/err/2024_004
Die Ausgabe sollte so aussehen:
🔎 gce/ERR/2024_004: Verify Ops Agent is installed on GCE VMs and is sending logs and metrics.
- my-project/my-instance [ OK ] Ops Agent installed on the VM, and is successfully sending logs and metrics.
Wenn der gcpdiag
-Befehl fehlschlägt und eine Ausgabe ähnlich der folgenden ausgegeben wird, prüfen Sie, ob alle Voraussetzungen für die Ausführung des Tools erfüllt sind.
WARNING:googleapiclient.http:Encountered 403 Forbidden with reason "PERMISSION_DENIED"
[ERROR]:can't access project my-project: Cloud Resource Manager API has not been used in project my-project before or it is disabled. Enable it by visiting https://console.developers.google.com/apis/api/cloudresourcemanager.googleapis.com/overview?project=my-project then retry. If you enabled this API recently, wait a few minutes for the action to propagate to our systems and retry..
[DEBUG]: An Http Error occurred whiles accessing projects.get
HttpError 403 when requesting https://cloudresourcemanager.googleapis.com/v3/projects/my-project?alt=json returned Cloud Resource Manager API has not been used in project my-project before or it is disabled. Enable it by visiting https://console.developers.google.com/apis/api/cloudresourcemanager.googleapis.com/overview?project=my-project then retry. If you enabled this API recently, wait a few minutes for the action to propagate to our systems and retry. Details: ...
[ERROR]:exiting program...
error getting project details
gcpdiag-Ausgabe interpretieren
In diesem Abschnitt finden Sie Informationen zum Verständnis und zur Verwendung der von gcpdiag generierten Berichte.
Der Befehl „gcpdiag“ generiert Berichte mit den folgenden Informationen:
- Ein Indikator für die gcpdiag-Regel, mit der der Befehl aufgerufen wurde.
Für den Ops-Agent sehen diese Informationen so aus:
🔎 gce/ERR/2024_004: Verify Ops Agent is installed on GCE VMs and is sending logs and metrics
- Eine Kennung des Ergebnisses für eine bestimmte VM im Format PROJECT_ID/INSTANCE_ID. Bei einem flottenweiten Bericht enthält die Ausgabe einen Eintrag für jede VM. Bei einem Bericht für eine einzelne VM enthält die Ausgabe einen einzelnen Eintrag.
- Der Status der Prüfung. Der Status hat einen der folgenden Werte:
- Eine Beschreibung des Statuswerts.
In den folgenden Abschnitten finden Sie weitere Informationen zu den Statuswerten und ihrer Bedeutung.
Status: OK
Ein Status von OK
bedeutet, dass der Ops-Agent auf der VM ausgeführt wird und sowohl Logs als auch Messwerte von der VM sendet. Der Bericht enthält die folgende Statusbeschreibung:
Ops Agent installed on the VM, and is successfully sending logs and metrics.
Status: FAIL
Ein Status von FAIL
bedeutet, dass der Ops-Agent nicht installiert ist oder nicht sowohl Logs als auch Messwerte von der VM sendet. Die Statusbeschreibung gibt an, welches Problem erkannt wurde:
- Wenn der Ops-Agent nicht installiert ist, wird die folgende Statusbeschreibung angezeigt:
Ops Agent not installed on the VM
- Wenn der Ops-Agent nicht sowohl Logs als auch Messwerte von der VM sendet, wird eine Statusbeschreibung wie die folgende angezeigt:
Agent is installed, but it's failing to send both logs and metrics to Google Cloud.
Is Ops Agent sending logs? (Yes) Is Ops Agent sending metrics? (No)
Wenn der Ops-Agent nicht installiert ist, installieren Sie ihn. Wenn die Installation fehlschlägt, kann das eine der folgenden Ursachen haben:
- Der VM ist kein Dienstkonto zugeordnet. Um dieses Problem zu beheben, hängen Sie der VM ein Dienstkonto an und versuchen Sie dann noch einmal, den Ops-Agent zu installieren.
- Auf der VM ist einer der Legacy-Agents (Monitoring- oder Logging-Agent) bereits installiert. Deinstallieren Sie die alten Agents und versuchen Sie dann, den Ops-Agent neu zu installieren.
Wenn der Ops-Agent keine Logs oder Messwerte von der VM sendet, verwenden Sie die Agent-Systemdiagnosen für Fehler bei der Startzeit, um das Problem zu ermitteln und zu beheben.
Status: SKIP
Ein Status von SKIP
bedeutet, dass gcpdiag nicht feststellen konnte, ob der Ops-Agent auf der VM installiert ist. Der Bericht enthält die folgende Statusbeschreibung:
Unable to confirm Ops Agent installation
VM Manager is needed for the ops agent detection.
Please enable it at: https://cloud.google.com/compute/docs/manage-os#automatic and run this check again.
Um den Status des Agents zu testen, muss VM Manager auf Ihrer VM ausgeführt werden. Um dieses Problem zu beheben, installieren Sie die kostenlose Version von VM Manager auf Ihrer Instanz. Warten Sie nach der Installation 15 Minuten und führen Sie den Befehl gcpdiag
dann noch einmal aus.
Systemdiagnose für Agent
Version 2.25.1 führt Systemdiagnosen für den Ops-Agent bei Start ein. Beim Starten des Ops-Agent werden eine Reihe von Prüfungen auf Bedingungen durchgeführt, die ein ordnungsgemäßes Ausführen des Agents verhindern. Wenn der Agent eine der Bedingungen erkennt, wird eine Nachricht mit einer Beschreibung des Problems protokolliert. Der Ops-Agent prüft Folgendes:
- Verbindungsprobleme
- Verfügbarkeit der Ports, die der Agent zum Melden von Messwerten über sich selbst verwendet
- Berechtigungsprobleme
- Verfügbarkeit der APIs, die der Agent zum Schreiben von Logs oder Messwerten verwendet
- Ein Problem im Ablauf der Systemdiagnose selbst.
In Version 2.37.0 wurden Laufzeit-Systemdiagnosen für den Ops-Agent eingeführt. Diese Fehler werden an Cloud Logging und Error Reporting gemeldet. Informationen zum Suchen von Laufzeitfehlern finden Sie unter Laufzeitfehler finden.
In Version 2.46.0 wurde der informative LogPingOpsAgent
-Code eingeführt. Dieser Code stellt keinen Fehler dar.
Weitere Informationen finden Sie unter
Erfolgreiche Logerfassung prüfen.
In der folgenden Tabelle sind die Codes der Systemdiagnosen in alphabetischer Reihenfolge aufgeführt und eine Beschreibung ihrer Bedeutung. Codes, die auf den String Err
enden, weisen auf Fehler hin. Andere Codes sind nur zur Information.
Systemdiagnosecode | Kategorie | Bedeutung | Vorschlag |
---|---|---|---|
DLApiConnErr
|
Verbindung |
Anfrage an die Download-Subdomain dl.google.com fehlgeschlagen.
|
Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung. |
FbMetricsPortErr
|
Portverfügbarkeit | Port 20202, das für die Ops-Agent-Self-Messwerte erforderlich ist, ist nicht verfügbar. | Prüfen Sie, ob Port 20202 geöffnet ist. Weitere Informationen finden Sie unter Erforderlicher Port nicht verfügbar. |
HcFailureErr
|
Allgemein | Bei der Systemdiagnose des Ops-Agents ist ein interner Fehler aufgetreten. | Reichen Sie eine Supportanfrage über die Google Cloud Console ein. Weitere Informationen erhalten Sie unter Support. |
LogApiConnErr
|
Verbindung | Die Anfrage an die Logging API ist fehlgeschlagen. | Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung. |
LogApiDisabledErr
|
API | Die Logging API ist im aktuellen Google Cloud-Projekt deaktiviert. | Logging API aktivieren |
LogApiPermissionErr
|
Berechtigung |
Dem Dienstkonto fehlt die Rolle „Log-Autor“ (roles/logging.logWriter ).
|
Weisen Sie dem Dienstkonto die Rolle Logautor zu. Weitere Informationen finden Sie unter Agent fehlen API-Berechtigungen. |
LogApiScopeErr
|
Berechtigung | Der VM fehlt der Zugriffsbereich https://www.googleapis.com/auth/logging.write. | Fügen Sie der VM den Bereich https://www.googleapis.com/auth/logging.write hinzu. Weitere Informationen finden Sie unter Zugriffsbereiche überprüfen. |
LogApiUnauthenticatedErr
|
API | Die aktuelle VM konnte nicht bei der Logging API authentifiziert werden. | Überprüfen Sie, ob Ihre Anmeldedatendateien, VM-Zugriffsbereiche und Berechtigungen korrekt eingerichtet sind. Weitere Informationen finden Sie unter Ops-Agent autorisieren. |
LogPingOpsAgent
|
Eine Informationsnutzlastnachricht, die alle 10 Minuten in den ops-agent-health -Log geschrieben wird. Anhand der resultierenden Logeinträge können Sie prüfen, ob der Agent Logs sendet. Diese Nachricht ist kein Fehler.
|
Diese Meldung wird voraussichtlich alle 10 Minuten angezeigt. Wenn die Nachricht mindestens 20 Minuten lang nicht angezeigt wird, ist möglicherweise ein Problem aufgetreten. Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung beim Ops-Agent. | |
LogParseErr
|
Laufzeit | Der Einsatzmitarbeiter konnte mindestens ein Log nicht parsen. | Prüfen Sie die Konfiguration aller von Ihnen erstellten Logging-Prozessoren. Weitere Informationen finden Sie unter Fehler beim Log-Parsing. |
LogPipeLineErr
|
Laufzeit | Die Logging-Pipeline des Ops-Agents ist fehlgeschlagen. | Prüfen Sie, ob der Agent Zugriff auf die Pufferdateien hat, ob der Datenträger voll ist und ob die Ops-Agent-Konfiguration korrekt ist. Weitere Informationen finden Sie unter Pipelinefehler. |
MetaApiConnErr
|
Verbindung | Die Anfrage an den GCE-Metadatenserver zum Abfragen von VM-Zugriffsbereichen, OAuth-Tokens und Ressourcenlabels ist fehlgeschlagen. | Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung. |
MonApiConnErr
|
Verbindung | Eine Anfrage an die Monitoring API ist fehlgeschlagen. | Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung. |
MonApiDisabledErr
|
API | Die Monitoring API ist im aktuellen Google Cloud-Projekt deaktiviert. | Aktivieren Sie die Monitoring-API. |
MonApiPermissionErr
|
Berechtigung |
Dem Dienstkonto fehlt die Rolle „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter ).
|
Weisen Sie dem Dienstkonto die Rolle „Monitoring-Messwert-Autor“ zu: Weitere Informationen finden Sie unter Agent fehlen API-Berechtigungen. |
MonApiScopeErr
|
Berechtigung | Der VM fehlt der Zugriffsbereich https://www.googleapis.com/auth/monitoring.write. | Fügen Sie der VM den Bereich https://www.googleapis.com/auth/monitoring.write hinzu. Weitere Informationen finden Sie unter Zugriffsbereiche überprüfen. |
MonApiUnauthenticatedErr
|
API | Die aktuelle VM konnte keine Authentifizierung bei der Monitoring API durchführen. | Überprüfen Sie, ob Ihre Anmeldedatendateien, VM-Zugriffsbereiche und Berechtigungen korrekt eingerichtet sind. Weitere Informationen finden Sie unter Ops-Agent autorisieren. |
OtelMetricsPortErr
|
Portverfügbarkeit | Port 20201, erforderlich für die Ops-Agent-Self-Messwerte, ist nicht verfügbar. | Prüfen Sie, ob Port 20201 geöffnet ist. Weitere Informationen finden Sie unter Ein erforderlicher Port ist nicht verfügbar. |
PacApiConnErr
|
Verbindung | Dieser Systemdiagnosecode ist unzuverlässig. Dieser Code ist in der Ops-Agent-Version 2.46.1 deaktiviert. | Aktualisieren Sie auf Version Ops-Agent Version 2.46.1 oder höher. |
Startzeitfehler finden
Ab Version 2.35.0 werden Systemdiagnoseinformationen von der Cloud Logging API in das Log ops-agent-health
geschrieben (Versionen 2.33.0, 2.34.0 verwenden ops-agent-health-checks
).
Dieselben Informationen werden auch so in eine health-checks.log
-Datei geschrieben:
- Linux:
/var/log/google-cloud-ops-agent/health-checks.log
- Windows:
C:\ProgramData\Google\Cloud Operations\Ops Agent\log\health-checks.log
Um Systemdiagnose-Nachrichten aufzurufen, können Sie auch den Status des Ops-Agent-Dienstes so abfragen:
- Führen Sie unter Linux den folgenden Befehl aus:
sudo systemctl status google-cloud-ops-agent"*"
Suchen Sie nach Nachrichten wie „[Ports Check] Ergebnis: PASS“. Weitere Ergebnisse sind „FEHLER“ und „FEHLGESCHLAGEN“.
- Verwenden Sie unter Windows die Ereignisanzeige. Suchen Sie nach Nachrichten vom Typ „Informationen“, „Fehler“ oder „Fehlgeschlagen“ im Zusammenhang mit dem Dienst
google-cloud-ops-agent
.
Nachdem Sie alle Probleme behoben haben, müssen Sie den Agenten neu starten. Die Systemdiagnosen werden beim Starten des Agents ausgeführt. Wenn Sie die Prüfungen noch einmal ausführen möchten, müssen Sie den Agenten neu starten.
Laufzeitfehler finden
Die Systemdiagnosen der Laufzeit werden sowohl an Cloud Logging als auch an Error Reporting gemeldet. Wenn der Agent nicht gestartet werden konnte, aber trotzdem zuvor Fehler melden konnte, werden möglicherweise auch Startzeitfehler gemeldet.
So rufen Sie Laufzeitfehler über den Ops-Agents in Logging auf:
-
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Geben Sie die folgende Abfrage ein und klicken Sie auf Abfrage ausführen:
log_id("ops-agent-health")
So rufen Sie Laufzeitfehler des Ops-Agents in Error Reporting auf:
-
Rufen Sie in der Google Cloud Console die Seite Fehlerberichte auf:
Sie können diese Seite auch über die Suchleiste finden.
- Wenn Sie Fehler des Ops-Agents sehen möchten, filtern Sie die Fehler für
Ops Agent
.
Erfolgreiche Logerfassung prüfen
In Version 2.46.0 des Ops-Agents wurde die informative Systemdiagnose LogPingOpsAgent
eingeführt. Bei dieser Prüfung wird alle 10 Minuten eine Informationsnachricht in ops-agent-health
geschrieben.
Mit diesen Nachrichten können Sie prüfen, ob der Ops-Agent Logs schreibt:
- Suchen Sie in Logs einer bestimmten VM mit dem Log-Explorer nach den Ping-Nachrichten.
- Prüfen Sie den Wert des Messwerts
log_entry_count
für eine bestimmte VM mit dem Metrics Explorer. - Erstellen Sie eine Benachrichtigungsrichtlinie, um Sie zu benachrichtigen, wenn eine bestimmte VM den Messwert
log_entry_count
nicht aktualisiert.
Wenn eine dieser Optionen anzeigt, dass die Lognachrichten nicht aufgenommen werden, können Sie so vorgehen:
- Suchen Sie nach Fehlercodes, die auf Startfehler oder Laufzeitfehler hinweisen.
- Prüfen Sie, ob der Ops-Agent einsatzbereit ist.
- Führen Sie das Agent-Diagnoseskript aus.
Sie benötigen die Instanz-ID der VM, um den Status des Ops-Agents auf einer bestimmten VM zu prüfen. So finden Sie die Instanz-ID:
-
Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf:
Wenn Sie diese Seite über die Suchleiste finden, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Compute Engine lautet.
- Klicken Sie auf den Namen einer VM-Instanz.
- Suchen Sie auf dem Tab Details den Abschnitt Allgemeine Informationen. Die Instanz-ID wird als numerischer String angezeigt. Verwenden Sie diesen String in den nachfolgenden Abschnitten für den Wert INSTANCE_ID.
Agent-Diagnosetool für VMs
Das Agent-Diagnosetool erfasst wichtige lokale Debugging-Informationen von Ihren VMs für alle folgenden Agents: Ops-Agent, Legacy-Logging-Agent und Legacy-Monitoring-Agent. Die Debugging-Informationen umfassen Informationen wie Projektinformationen, VM-Informationen, Agent-Konfiguration, Agent-Logs, Agent-Dienststatus und Informationen, die normalerweise manuell erfasst werden müssen. Das Tool prüft auch die lokale VM-Umgebung, um sicherzustellen, dass sie bestimmte Anforderungen erfüllt, damit die Agents ordnungsgemäß funktionieren, z. B. Netzwerkverbindung und erforderliche Berechtigungen.
Wenn Sie einen Kundenfall für einen Agent auf einer VM einreichen, führen Sie das Agent-Diagnosetool aus und hängen Sie die erfassten Informationen an den Fall an. Durch die Bereitstellung dieser Informationen reduziert sich der Zeitaufwand für die Fehlerbehebung in Ihrem Supportfall. Bevor Sie die Informationen an den Supportfall anhängen, entfernen Sie alle vertraulichen Informationen wie Passwörter.
Das Agent-Diagnosetool muss innerhalb der VM ausgeführt werden. Daher müssen Sie in der Regel zuerst eine SSH-Verbindung zur VM herstellen. Mit dem folgenden Befehl wird das Agent-Diagnosetool abgerufen und ausgeführt:
Linux
curl -sSO https://dl.google.com/cloudagents/diagnose-agents.sh
sudo bash diagnose-agents.sh
Windows
(New-Object Net.WebClient).DownloadFile("https://dl.google.com/cloudagents/diagnose-agents.ps1", "${env:UserProfile}\diagnose-agents.ps1")
Invoke-Expression "${env:UserProfile}\diagnose-agents.ps1"
Folgen Sie der Ausgabe der Skriptausführung, um die Dateien zu finden, die die erfassten Informationen enthalten. In der Regel finden Sie diese im Verzeichnis /var/tmp/google-agents
unter Linux und im Verzeichnis $env:LOCALAPPDATA/Temp
unter Windows, es sei denn, Sie haben das Ausgabeverzeichnis beim Ausführen des Skripts angepasst.
Ausführliche Informationen finden Sie im Skript diagnose-agents.sh
unter Linux oder im Skript diagnose-agents.ps1
unter Windows.
Agent-Diagnosetool für Richtlinien zur automatischen Installation
Wenn der Ops-Agent mithilfe einer Ops-Agent-Betriebssystemrichtlinie fehlschlägt, können Sie das in diesem Abschnitt beschriebene Diagnosescript zum Debugging verwenden. Möglicherweise wird einer der folgenden Fälle angezeigt:
- Die Installation des Ops-Agents schlägt fehl, wenn Sie das Kästchen Ops-Agent für Monitoring und Logging installieren verwendet haben, um den Ops-Agent während der VM-Erstellung zu installieren.
Der Agent-Status im Cloud Monitoring-Dashboard VM-Instanzen oder der Tab Beobachtbarkeit auf einer Compute Engine-VM-Detailseite verbleibt mehr als 10 Minuten im Status Ausstehend. Ein länger andauernder Status Ausstehend kann auf Folgendes hinweisen:
- Beim Anwenden der Richtlinie ist ein Problem aufgetreten.
- Ein Problem bei der Installation des Ops-Agents.
- Ein Verbindungsproblem zwischen der VM und Cloud Monitoring.
Bei einigen dieser Probleme können auch das allgemeine Script „agent-diagnostics“ und die Systemdiagnosen hilfreich sein.
Führen Sie die folgenden Befehle aus, um das Script „policy-diagnostics“ auszuführen:
curl -sSO https://dl.google.com/cloudagents/diagnose-ui-policies.sh bash diagnose-ui-policies.sh VM_NAME VM_ZONE
Dieses Script enthält Informationen zu den betroffenen VMs und zugehörigen Richtlinien für die automatische Installation.
Wenn Sie einen Kundenfall für einen Agent auf einer VM einreichen, führen Sie die Agent-Diagnosetools aus und hängen Sie die erfassten Informationen an den Fall an. Durch die Bereitstellung dieser Informationen reduziert sich der Zeitaufwand für die Fehlerbehebung in Ihrem Supportfall. Bevor Sie die Informationen an den Supportfall anhängen, entfernen Sie alle vertraulichen Informationen wie Passwörter.
Agent-Self-Logs
Wenn der Agent keine Logs in Cloud Logging aufnimmt, müssen Sie möglicherweise die Logs des Agents lokal auf der VM zur Fehlerbehebung prüfen. Sie können auch die Logrotation verwenden, um die selbstbezogenen Logs des Agents zu verwalten.
Linux
Führen Sie den folgenden Befehl aus, um in Journald
geschriebene self-Logs zu prüfen:
journalctl -u google-cloud-ops-agent*
Führen Sie den folgenden Befehl aus, um die Self-logs zu prüfen, die vom Logging-Modul auf das Laufwerk geschrieben werden:
vim -M /var/log/google-cloud-ops-agent/subagents/logging-module.log
Windows
Führen Sie den folgenden Befehl aus, um in Windows Event Logs
geschriebene self-Logs zu prüfen:
Get-WinEvent -FilterHashtable @{ Logname='Application'; ProviderName='google-cloud-ops-agent*' } | Format-Table -AutoSize -Wrap
Führen Sie den folgenden Befehl aus, um die Self-logs zu prüfen, die vom Logging-Modul auf das Laufwerk geschrieben werden:
notepad "C:\ProgramData\Google\Cloud Operations\Ops Agent\log\logging-module.log"
Führen Sie den folgenden Befehl aus, um die Logs des Windows Service Control Manager
für Ops-Agent-Dienste zu prüfen:
Get-WinEvent -FilterHashtable @{ Logname='System'; ProviderName='Service Control Manager' } | Where-Object -Property Message -Match 'Google Cloud Ops Agent' | Format-Table -AutoSize -Wrap
Messwertnutzung und -diagnose in Cloud Monitoring ansehen
Auf der Cloud Monitoring-Seite Messwertverwaltung können Sie den Betrag steuern, den Sie für abrechenbare Messwerte ausgeben, ohne die Beobachtbarkeit zu beeinträchtigen. Die Seite Messwertverwaltung enthält folgende Informationen:
- Aufnahmevolumen für byte- und probenbasierte Abrechnung für Messwertdomains und einzelne Messwerte
- Daten zu Labels und zur Kardinalität von Messwerten
- Anzahl der Lesevorgänge für jeden Messwert.
- Verwenden Messwerten in Benachrichtigungsrichtlinien und benutzerdefinierten Dashboards
- Rate von Messwert-Schreibfehlern
Mit der Messwertverwaltung können Sie auch unnötige Messwerte ausschließen, sodass keine Kosten für die Datenaufnahme anfallen.
So rufen Sie die Seite Messwertverwaltung auf:
-
Rufen Sie in der Google Cloud Console die Seite
Messwertverwaltung auf:Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Wählen Sie in der Symbolleiste das Zeitfenster aus. Standardmäßig werden auf der Seite Messwertverwaltung Informationen zu den Messwerten angezeigt, die am Vortag erfasst wurden.
Weitere Informationen zur Seite Messwertverwaltung finden Sie unter Messwertnutzung ansehen und verwalten.