Apache Hadoop

本文件說明如何設定 Google Kubernetes Engine 部署作業,以便使用 Google Cloud Managed Service for Prometheus 收集 Apache Hadoop 的指標。本文件說明如何執行下列操作:

  • 設定 Hadoop 匯出工具以回報指標。
  • 為 Managed Service for Prometheus 設定 PodMonitoring 資源,以便收集匯出的指標。
  • 在 Cloud Monitoring 中存取資訊主頁,查看指標。
  • 設定快訊規則來監控指標。

只有在您將 代管收集作業與 Managed Service for Prometheus 搭配使用時,才適用這些操作說明。如果您使用的是自行部署的集合,請參閱 JMX 匯出工具的來源存放區,瞭解安裝資訊。

這些操作說明僅供參考,應可在大多數 Kubernetes 環境中運作。如果您因安全性限制或機構政策而無法順利安裝應用程式或匯出程式,建議您參閱開放原始碼文件尋求支援。

如要瞭解 Apache Hadoop,請參閱「Apache Hadoop」。

事前準備

如要使用 Managed Service for Prometheus 和代管收集作業收集 Hadoop 指標,部署作業必須符合下列規定:

  • 您的叢集必須執行 Google Kubernetes Engine 1.21.4-gke.300 以上版本。
  • 您必須在啟用代管收集作業的情況下,執行 Managed Service for Prometheus。詳情請參閱「 開始使用代管集合」。

  • 如要使用 Cloud Monitoring 中的資訊主頁,以便整合 Hadoop,您必須使用 jmx-exporter 0.17.0 以上版本。

    如要進一步瞭解可用的資訊主頁,請參閱「查看資訊主頁」。

請確認 portmatchLabels 欄位的值與要監控的 Hadoop Pod 相符。NameNode 和 DataNode 必須設定為接受遠端 JMX 連線。如要完成這項設定,請按照 Hadoop Unix Shell 指南所述,設定 NAMENODE_HDFS_OPTSDATANODE_HDFS_OPTS 環境變數。

安裝 Hadoop 匯出工具

建議您將 Hadoop 匯出工具 jmx-exporter 安裝為 Hadoop 工作負載的附屬工具。如要瞭解如何使用 Sidecar,請參閱「使用多容器 Pod 在 Kubernetes 上擴充應用程式」。

如要將 jmx-exporter 安裝為 Hadoop 的附屬程式,請按照下列範例所示修改 Hadoop 設定:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

+ apiVersion: v1
+ kind: ConfigMap
+ metadata:
+   name: hadoop-exporter
+ data:
+   config.yaml: |
+     hostPort: localhost:1026
+     lowercaseOutputName: true
+     lowercaseOutputLabelNames: true
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: hadoop-hdfs
spec:
  serviceName: hadoop-hdfs
  selector:
    matchLabels:
+     app.kubernetes.io/name: hadoop
  template:
    metadata:
      labels:
+       app.kubernetes.io/name: hadoop
    spec:
      containers:
      - name: hadoop-hdfs
        image: "farberg/apache-hadoop:3.3.2"
+       env:
+         - name: HDFS_NAMENODE_OPTS
+           value: "-Dcom.sun.management.jmxremote=true -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.port=1026"
        command:
        - "/bin/bash"
        - "/tmp/hadoop-config/bootstrap.sh"
        - "-d"
+       ports:
+       - containerPort: 1026
+         name: jmx
+     - name: exporter
+       image: bitnami/jmx-exporter:0.17.0
+       command:
+         - java
+         - -jar
+         - jmx_prometheus_httpserver.jar
+       args:
+         - "9900"
+         - config.yaml
+       ports:
+       - containerPort: 9900
+         name: prometheus
+       volumeMounts:
+       - mountPath: /opt/bitnami/jmx-exporter/config.yaml
+         subPath: config.yaml
+         name: hadoop-exporter
+     volumes:
+     - name: hadoop-exporter
+       configMap:
+         name: hadoop-exporter
+         items:
+         - key: config.yaml
+           path: config.yaml

您必須在設定中加入任何前面有 + 符號的行。

這些操作說明是根據對Helm 圖表所做的變更。您可以下載和修改這些範本。上述範例假設所有內容都位於單一 YAML 檔案中。

如要套用本機檔案中的設定變更,請執行下列指令:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

定義 PodMonitoring 資源

針對目標探索,Managed Service for Prometheus Operator 需要與同一個命名空間中的 JMX 匯出器相對應的 PodMonitoring 資源。

您可以使用下列 PodMonitoring 設定:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: hadoop
  labels:
    app.kubernetes.io/name: hadoop
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: prometheus
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app.kubernetes.io/name: hadoop

請確認標籤選取器和通訊埠與安裝 Hadoop 匯出工具中使用的選取器和通訊埠相符。

如要套用本機檔案中的設定變更,請執行下列指令:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

定義規則和快訊

您可以使用下列 Rules 設定,定義 Hadoop 指標的警示:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: Rules
metadata:
  name: hadoop-rules
  labels:
    app.kubernetes.io/component: rules
    app.kubernetes.io/name: hadoop-rules
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  groups:
  - name: hadoop
    interval: 30s
    rules:
    - alert: HadoopDown
      annotations:
        description: |-
          Hadoop instance is down
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop down (instance {{ $labels.instance }})
      expr: hadoop_namenode_numdeaddatanodes > 0
      for: 5m
      labels:
        severity: critical
    - alert: HadoopLowAvailableCapacity
      annotations:
        description: |-
          Hadoop low available capacity
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop low available capacity (instance {{ $labels.instance }})
      expr: (hadoop_namenode_capacityused/hadoop_namenode_capacitytotal) > 0.8
      for: 5m
      labels:
        severity: critical
    - alert: HadoopVolumeFailure
      annotations:
        description: |-
          Hadoop volume failure
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop volume failure (instance {{ $labels.instance }})
      expr: hadoop_namenode_volumefailurestotal > 0
      for: 5m
      labels:
        severity: critical

如要套用本機檔案中的設定變更,請執行下列指令:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

如要進一步瞭解如何將規則套用至叢集,請參閱「受管理的規則評估和快訊」。

您可以調整警示閾值,以符合應用程式的需要。

驗證設定

您可以使用 Metrics Explorer 確認是否已正確設定 JMX 匯出器。Cloud Monitoring 可能需要一或兩分鐘的時間才能擷取指標。

如要確認已擷取指標,請執行下列操作:

  1. 前往 Google Cloud 控制台的 「Metrics Explorer」頁面:

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在查詢建構工具窗格的工具列中,選取名稱為  MQL PromQL 的按鈕。
  3. 確認「Language」切換鈕中已選取「PromQL」。語言切換鈕位於可讓您設定查詢格式的工具列中。
  4. 輸入並執行以下查詢:
    up{job="hadoop", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

查看資訊主頁

Cloud Monitoring 整合功能包含 Hadoop Prometheus 總覽資訊主頁。設定整合後,系統會自動安裝資訊主頁。您也可以不必安裝整合功能,直接查看資訊主頁的靜態預覽畫面。

如要查看已安裝的資訊主頁,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「Dashboards」(資訊主頁) 頁面:

    前往「Dashboards」(資訊主頁)

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 選取「資訊主頁清單」分頁標籤。
  3. 選擇「整合」類別。
  4. 按一下資訊主頁名稱,例如「Hadoop Prometheus 總覽」

如要查看資訊主頁的靜態預覽畫面,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「Integrations」(整合) 頁面:

    前往「Integrations」

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 按一下「Kubernetes Engine」部署平台篩選器。
  3. 找出 Apache Hadoop 整合,然後按一下「查看詳細資料」
  4. 選取「資訊主頁」分頁標籤。

疑難排解

如要瞭解如何排解指標攝入問題,請參閱「 排解攝入端問題」一文中的「 從匯出工具收集資料時發生的問題」。