事件類型

本文說明可在圖表中顯示為註解的事件類型。事件是指會影響系統運作的活動,例如重新啟動或當機。在排解問題時,顯示事件可協助您將來自不同來源的資料建立關聯。

每個事件都會提供參考資料或疑難排解說明文件的連結,以及如何查詢事件的相關資訊。舉例來說,如果系統透過分析記錄來識別事件,就會提供適合搭配 Logs Explorer 或以記錄為基礎的警示政策使用的查詢。

如要在圖表中加入註解,請設定顯示圖表的資訊主頁或分頁。舉例來說,您可以設定 Google Cloud 控制台「資訊主頁」頁面上列出的大部分資訊主頁,以便顯示事件。同樣地,您也可以設定一些服務專屬的可觀察性分頁,例如 Compute Engine 和 Google Kubernetes Engine 專屬分頁,以便顯示事件。如需設定資訊,請參閱「在資訊主頁上顯示事件」。

下圖顯示的圖表,顯示透過分析記錄項目所識別的多個事件,以及一個 Service Health 事件:

顯示警告和資訊事件註解的圖表。

每個註解可列出多個事件。在上一個螢幕截圖中,列出了 GKE 部署作業的事件。

快訊事件類型

本節說明可在資訊主頁上顯示的快訊事件類型。

已開啟警告

開啟警示事件有助於將圖表資料與事件開啟的時間建立關聯。系統會在下列情況下顯示快訊開啟事件:

  • 在資訊主頁指定的時間範圍內,開啟了對應的事件。
  • 對應的事件未關閉。

系統不會顯示在資訊主頁指定時間範圍以外的事件,也沒有為這些事件加上註解。同樣地,如果在資訊主頁指定的時間範圍內,對應的事件已開啟並且關閉,系統就不會顯示快訊開啟事件。

警示開啟事件的工具提示包含以下內容:

  • 警告政策的名稱。
  • 摘要資訊 (如有)。舉例來說,這類資訊可能包括閾值和測量值。
  • 事件的持續時間,以及事件開啟的日期和時間。
  • 指標和資源標籤。工具提示可能不會顯示所有標籤。
  • 「View」按鈕,可開啟事件的「Details」頁面。

Google Kubernetes Engine 事件類型

本節將說明可在資訊主頁上顯示的 Google Kubernetes Engine 事件類型。

已修補或更新的 GKE 工作負載

這類事件可協助您排解 GKE 工作負載部署或 StatefulSet 變更的問題,因為這些事件可能與效能迴歸或其他效能問題相關。建立、更新或刪除工作負載時,系統會顯示這類事件。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(cloudaudit.googleapis.com%2Factivity)
resource.type=k8s_cluster protoPayload.methodName=(
    io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR
    io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR
    io.k8s.apps.v1.statefulsets.create OR io.k8s.apps.v1.statefulsets.patch OR
    io.k8s.apps.v1.statefulsets.update OR io.k8s.apps.v1.statefulsets.delete OR
    io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR
    io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete
)
-protoPayload.authenticationInfo.principalEmail=("system:addon-manager" OR "system:serviceaccount:kube-system:namespace-controller")
-protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system OR istio-system)
-protoPayload.response.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system OR istio-system)
-protoPayload.resourceName=~"namespaces/(kube-system|gmp-system|gmp-public|gke-gmp-system|istio-system)"

如需更多資訊,請參閱「部署工作負載總覽」和「查看可觀察度指標」。

GKE Pod 當機

這個事件類型可協助您找出 GKE Pod 當機的問題並進行疑難排解。Pod 異常終止的原因可能是記憶體用盡或應用程式發生錯誤。發生下列任一情況時,系統就會顯示這個事件類型:

  • Pod 狀態為 CrashLoopBackoff
  • Pod 以非零的結束代碼終止。
  • Pod 會在記憶體不足的情況下終止。
  • Pod 遭到剔除。
  • Readiness/Liveliness 探測失敗。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

(
    log_id(events)
    (
        (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR
        (resource.type=k8s_node jsonPayload.reason=OOMKilling)
    )
    severity=WARNING
) OR (
    log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster
    (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR
        (protoPayload.methodName=io.k8s.core.v1.pods.delete
        protoPayload.response.status.containerStatuses.state.terminated.exitCode:*
        -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0
        )
    )
)

如需疑難排解資訊,請參閱「疑難排解:CrashLoopBackOff」。

無法排定 GKE Pod

這個事件類型可協助您找出並排解無法在節點上排定的 Pod 問題。當 Pod 排程失敗,且原因為下列任一項時,系統會顯示這個事件類型:

  • 節點 CPU 不足。
  • 節點記憶體不足。
  • 沒有用於 taint 或容許條件的節點。
  • 節點的 Pod 數量達到上限。
  • 節點集區達到上限。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

(
    log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling)
) OR (
    log_id(container.googleapis.com/cluster-autoscaler-visibility)
    resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:*
)

如需疑難排解資訊,請參閱「疑難排解:Pod 無法排程」。

無法建立 GKE 容器

這個事件類型有助於找出並排解建立 GKE 容器的失敗問題。無法建立容器可能是因為磁碟區掛接失敗,或是映像檔提取失敗等。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING

如需映像檔拉取作業的疑難排解資訊,請參閱「排解映像檔拉取問題」。

Pod 自動配置器擴充及縮減資源

這項事件可讓您瞭解水平 Pod 自動配置器的重新調整作業,也就是增加或減少工作負載的執行中 Pod 數量。詳情請參閱「水平 Pod 自動調度資源」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=k8s_cluster log_id(events)
jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale

叢集自動配置器向上擴充及縮減

這項事件可讓您瞭解叢集自動配置器何時在叢集的節點集區中,向上或向下調整節點數量。詳情請參閱「關於叢集自動調度」和「檢視叢集自動配置器事件」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility)
jsonPayload.decision:*)

建立及刪除叢集

這類事件會記錄 GKE 叢集的建立和刪除動作。詳情請參閱「建立 Autopilot 叢集」、「建立區域叢集」和「刪除叢集」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
protoPayload.methodName=(
    google.container.v1alpha1.ClusterManager.CreateCluster OR
    google.container.v1beta1.ClusterManager.CreateCluster OR
    google.container.v1.ClusterManager.CreateCluster OR
    google.container.v1alpha1.ClusterManager.DeleteCluster OR
    google.container.v1beta1.ClusterManager.DeleteCluster OR
    google.container.v1.ClusterManager.DeleteCluster
)
operation.first=true

更新叢集

這類事件會記錄 GKE 叢集的更新情形,包括自動控制層版本升級,以及手動升級和叢集設定變更。詳情請參閱「手動升級叢集或節點集區」和「標準叢集升級」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.PatchCluster OR
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.UpdateCluster
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateCluster OR
        google.container.v1.ClusterManager.UpdateCluster
    )
    operation.first=true
)
protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)

更新節點集區

這類事件會記錄 GKE 節點集區的更新情形,包括自動節點集區版本升級,以及手動升級、設定變更和大小調整。詳情請參閱「手動升級叢集或節點集區」和「標準叢集升級」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.RepairNodePool
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateNodePool OR
        google.container.v1.ClusterManager.UpdateNodePool OR
        google.container.v1beta1.ClusterManager.SetNodePoolSize OR
        google.container.v1.ClusterManager.SetNodePoolSize OR
        google.container.v1beta1.ClusterManager.SetNodePoolManagement OR
        google.container.v1.ClusterManager.SetNodePoolManagement OR
        google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR
        google.container.v1.ClusterManager.SetNodePoolAutoscaling
    )
    operation.first=true
)

Cloud Run 事件類型

本節說明可在資訊主頁上顯示的 Cloud Run 事件類型。

Cloud Run 部署作業

這個事件類型可協助您找出 Cloud Run 部署失敗問題並進行疑難排解。部署作業可能會因服務帳戶遭到刪除、權限不正確、容器匯入失敗或容器無法啟動等原因而失敗。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision
protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService

如需疑難排解資訊,請參閱排解 Cloud Run 問題

Cloud SQL 事件類型

本節說明可在資訊主頁上顯示的 Cloud SQL 事件類型。

Cloud SQL 容錯移轉

這個事件類型可協助您找出手動或自動容錯移轉的發生時間。當執行個體或可用區發生故障,且待命執行個體成為新的主要執行個體時,就會發生容錯移轉。在容錯移轉期間,Cloud SQL 會自動切換為從待命執行個體提供資料。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=cloudsql_database
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=cloudsql.instances.failover
        operation.last=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.autoFailover
    )
)

如需更多資訊,請參閱「關於高可用性」。

啟動或停止 Cloud SQL

這類事件可協助您判斷 Cloud SQL 執行個體是否已手動啟動、停止或重新啟動。執行個體停止時,所有連線、開啟的檔案和執行中的作業都會一併停止。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database
protoPayload.methodName=cloudsql.instances.update operation.last=true
protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)

如需更多資訊,請參閱「關於高可用性」和「啟動、停止及重新啟動執行個體」。

Cloud SQL 儲存空間

這個事件類型有助於您找出與 Cloud SQL 儲存空間有關的事件,包括資料庫儲存空間已滿,以及資料庫因儲存空間用盡而關閉的情況。為防止資料損毀,系統可能會關閉儲存空間用盡且未啟用自動儲存空間功能的資料庫。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=cloudsql_database
(
    (
        (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err))
        textPayload=~"No space left on device"
        severity=(ERROR OR EMERGENCY)
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage
    )
)

Compute Engine 事件類型

本節說明可在資訊主頁上顯示的 Compute Engine 事件類型。

虛擬機器終止

這個事件類型可協助您找出虛擬機器 (VM) 終止事件,包括手動觸發的重設和停止作業、客體 OS 終止事件、維護作業終止事件和主機錯誤。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(
            beta.compute.instances.reset OR v1.compute.instances.reset OR
            beta.compute.instances.stop OR v1.compute.instances.stop
        )
        operation.first=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=(
            compute.instances.hostError OR
            compute.instances.guestTerminate OR
            compute.instances.terminateOnHostMaintenance
        )
    )
)

如需更多資訊,請參閱「停止及啟動 VM」和「排解 VM 關機和重新啟動的問題」。

VM 執行個體啟動失敗

這類事件會記錄 Compute Engine VM 執行個體啟動失敗的情形,這類事件會顯示因資源用盡、IP 空間耗盡、超過配額或受防護的 VM 完整性有異狀而無法啟動的情形。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert)
        protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED)
    ) OR (
        log_id(compute.googleapis.com%2Fshielded_vm_integrity)
        severity="ERROR"
    )
)

VM 執行個體訪客 OS 錯誤

這類事件會記錄特定 Compute Engine VM 執行個體訪客 OS 錯誤,相關內容列於序列控制台記錄。會記錄的錯誤包括磁碟空間已滿、檔案系統掛接失敗,以及導致 Linux 緊急模式啟動的開機失敗情況。

如要顯示這些事件,請在 VM 或專案中繼資料設定 serial-port-logging-enable=true,啟用以 Cloud Logging 記錄序列埠輸出內容的功能。詳情請參閱「啟用及停用序列埠輸出記錄」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gce_instance
log_id(serialconsole.googleapis.com%2Fserial_port_1_output)
textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")

代管執行個體群組更新

這個事件類型可協助您找出代管執行個體群組 (MIG) 的更新時間點。例如,新增或移除 VM,或是更新大小限制。詳情請參閱「在 MIG 中自動套用虛擬機器設定更新」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=gce_instance_group_manager
log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true
protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)

如需更多資訊,請參閱「使用代管執行個體」和「排解代管執行個體群組問題」。

代管執行個體群組自動配置器

這類事件會追蹤 MIG 自動配置器的資源調度決策,這些決策可能包括 MIG 建議大小的變更,或是自動配置器本身的狀態異動。詳情請參閱「自動調度執行個體群組資源」。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event)
protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)

Personalized Service Health 事件類型

本節說明可在資訊主頁上顯示的 Personalized Service Health 類型。

Google Cloud 事件

排解問題時,您可能需要區分由您擁有的服務所造成的失敗,以及由您使用的Google Cloud 服務所造成的失敗。在資訊主頁上啟用Personalized Service Health 註解後,您就能查看 Google Cloud 服務的中斷情形或服務健康狀態事件。如需與 Service Health 整合的服務清單,請參閱支援的 Google 產品

與其他事件類型不同, Google Cloud 系統不會透過分析記錄項目來識別事件。如果您想在這些事件發生時收到通知,請建立快訊政策。您可以使用「Service Health 資訊主頁」頁面上的選項,選取預先設定的警示政策。詳情請參閱「快速入門:設定快訊」。

監控系統會向 Service Health API 發出要求,然後篩選與您查看的資料相關的事件,藉此識別 Google Cloud 事件。要求具有下列設定:

  • Relevance 列舉設為 RELATEDIMPACTEDPARTIALLY_RELATED。這項限制可確保資訊主頁只顯示Google Cloud 專案使用的 Google Cloud 服務事件。

  • DetailedState 列舉未設為 FALSE_POSITIVE

系統會顯示 Service Health 註解,其中包含開始時間和時間長度。時間長度會透過變更圖表的背景顏色來顯示。 Google Cloud 事件的工具提示會指出下列資訊:

  • Google Cloud 服務。
  • 事件是否已解決。
  • 活動的日期和開始時間。
  • 顯示受影響產品和地點數量的方塊。如要列出受影響的產品或地點,請將游標移至對應的方塊。
  • 「View」按鈕:選取後會開啟事件的詳細資料頁面。

如要瞭解如何向 Service Health API 發出要求,請參閱「使用 Service Health 檢查服務中斷情形」。

如需疑難排解資訊,請參閱「排解服務健康狀況中的常見問題」。

運作時間檢查事件類型

本節說明可在資訊主頁上顯示的運作時間檢查事件類型。

運作時間檢查失敗

這個事件類型可協助您找出所設區域的運作時間檢查失敗情形。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(monitoring.googleapis.com%2Fuptime_checks)
(
  resource.type=uptime_url OR resource.type=gce_instance OR
  resource.type=gae_app OR resource.type=k8s_service OR
  resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR
  resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer
)
labels.uptime_result_type=UptimeCheckResult
severity=NOTICE

如需疑難排解資訊,請參閱「排解綜合監控器和運作時間檢查問題」。

Agent for SAP 事件類型

本節說明可在資訊主頁上顯示的 Agent for SAP 事件類型。

SAP 可用性

這個事件類型可協助您找出與 Agent for SAP 可用性相關的事件。當 SAP HANA、SAP NetWeaver 或 Pacemaker 叢集可用性發生變動時,就會觸發這些事件。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(google-cloud-sap-agent)
(
  resource.type=generic_node OR resource.type=gce_instance OR
  resource.type=aws_ec2_instance OR resource.type=baremetalsolution.googleapis.com/Instance
)
jsonPayload.metricEvent=true
jsonPayload.metric=(workload.googleapis.com/sap/hana/service OR workload.googleapis.com/sap/hana/availability OR
  workload.googleapis.com/sap/nw/service OR workload.googleapis.com/sap/nw/availability OR
  workload.googleapis.com/sap/cluster/nodes OR workload.googleapis.com/sap/cluster/resources)

SAP Backint

這個事件類型可協助您找出與 Agent for SAP Backint 相關的事件。任何 Backint 備份或復原作業都會寫入事件,詳細說明成功或失敗的情況,以及轉移作業統計資料。系統只會在失敗時顯示記錄備份和復原事件,但不管成功或失敗,都會顯示資料備份和復原事件。

log_id(google-cloud-sap-agent-backint)
(
  resource.type=generic_node OR resource.type=gce_instance OR
  resource.type=aws_ec2_instance OR resource.type=baremetalsolution.googleapis.com/Instance
)
(jsonPayload.fileType=data OR (jsonPayload.fileType=log AND jsonPayload.success=false))
jsonPayload.message=SAP_BACKINT_FILE_TRANSFER

SAP 作業

這個事件類型可協助您找出與 Agent for SAP 作業相關的事件。當 SAP HANA 複製狀態變更時,就會觸發這些事件。

如果您想為此事件類型建立以記錄為依據的快訊政策,請使用下列查詢:

log_id(google-cloud-sap-agent)
(
  resource.type=generic_node OR resource.type=gce_instance OR
  resource.type=aws_ec2_instance OR resource.type=baremetalsolution.googleapis.com/Instance
)
jsonPayload.metricEvent=true
jsonPayload.metric=workload.googleapis.com/sap/hana/ha/replication

後續步驟

如要瞭解如何在資訊主頁上顯示事件,請參閱「在資訊主頁上顯示事件」。