Afficher les données de diagnostic du cluster Dataproc

"Afficher les données de diagnostic des clusters Dataproc"

Dataproc collecte les données de diagnostic de cluster suivantes pour vous aider à résoudre les problèmes liés aux clusters et aux tâches :

Données de point de contrôle

Lorsque la fonctionnalité de données de point de contrôle est activée, Dataproc collecte des données de diagnostic lors des opérations de création de cluster, de mise à jour de cluster et de l'API Jobs de Dataproc. Dataproc enregistre les données du cluster temp bucket dans Cloud Storage, qui dispose d'une période de conservation TTL de 90 jours. Les données sont supprimées à la fin de la période de conservation.

Activer les propriétés de collecte de données : vous pouvez inclure les propriétés de cluster facultatives suivantes lorsque vous créez un cluster. Elles n'affectent que la collecte des données de diagnostic des points de contrôle sur le cluster créé.

  • Activez la collecte de données : la définition de la propriété dataproc:diagnostic.capture.enabled=true permet de collecter des données de diagnostic de point de contrôle sur le cluster.
  • Partager les données de diagnostic : la définition de la propriété dataproc:diagnostic.capture.access=GOOGLE_DATAPROC_DIAGNOSE partage les données de diagnostic des points de contrôle collectées avec l'assistanceGoogle Cloud .
    • Une fois le cluster créé, vous pouvez partager les données de diagnostic avec l'assistance Google Cloud en accordant un accès en lecture aux données au compte de service utilisé par l'assistance Google Cloud , comme suit :
      gcloud storage objects update \
          gs://TEMP_BUCKET/google-cloud-dataproc-diagnostic/CLUSTER_UUID \
          --add-acl-grant=entity=user-cloud-diagnose@cloud-dataproc.iam.gserviceaccount.com,role=READER --recursive \
      

Données de diagnostic

Les données de diagnostic se composent des données suivantes écrites dans gs://TEMP_BUCKET/google-cloud-dataproc-diagnostic/CLUSTER_UUID/ dans Cloud Storage. Dans cette section, cet emplacement est appelé dossier de données de diagnostic.

  • Journaux détaillés des nœuds de cluster : Dataproc exécute les commandes suivantes pour collecter et écrire les informations YARN et HDFS dans les emplacements suivants du dossier de données de diagnostic dans Cloud Storage.

    Commande exécutée Emplacement dans le dossier de diagnostic
    yarn node -list -all .../nodes/timestamp/yarn-nodes.log
    hdfs dfsadmin -report -live -decommissioning .../nodes/timestamp/hdfs-nodes.log

  • Détails du job : Dataproc enregistre les informations sur les jobs MapReduce et les journaux des jobs Spark pour les jobs utilisant l'API Dataproc Jobs. Ces données de job sont collectées pour chaque job MR et Spark envoyé.

    • job.xml MapReduce : fichier contenant les paramètres de configuration du job, enregistré sous .../jobs/JOB_UUID/mapreduce/job.xml.
    • Journaux d'événements Spark : détails d'exécution des jobs utiles pour le débogage, enregistrés dans .../jobs/JOB_UUID/spark/application-id.
  • Informations sur le système Linux : Dataproc exécute les commandes suivantes pour collecter et enregistrer les informations système aux emplacements suivants dans le dossier de données de diagnostic de Cloud Storage.

    Commande Emplacement dans le dossier de diagnostic
    sysctl -a .../system/sysctl.log
    cat /proc/sys/fs/file-nr .../system/fs-file-nr.log
    ping -c 1 .../system/cluster-ping.log
    cp /etc/hosts .../system/hosts_entries.log
    cp /etc/resolv.conf .../system/resolv.conf
  • Fichiers de configuration : Dataproc enregistre les fichiers de configuration suivants aux emplacements suivants dans le dossier de données de diagnostic de Cloud Storage.

    Élément(s) inclus Emplacement dans le dossier de diagnostic
    Propriétés Dataproc .../configs/dataproc/dataproc.properties
    Tous les fichiers de
    `/etc/google-dataproc/`
    .../configs/dataproc/
    Tous les fichiers de
    `/etc/hadoop/conf/`
    .../configs/hadoop/
    Tous les fichiers de `/etc/hive/conf/` .../configs/hive/
    Tous les fichiers de
    `/etc/hive-hcatalog/conf/`
    .../configs/hive-hcatalog/
    Tous les fichiers de `/etc/knox/conf/` .../configs/knox/
    Tous les fichiers de `/etc/pig/conf/` .../configs/pig/
    Tous les fichiers de
    `/etc/presto/conf/`
    .../configs/presto/
    Tous les fichiers de
    `/etc/spark/conf/`
    .../configs/spark/
    Tous les fichiers de `/etc/tez/conf/` .../configs/tez/
    Tous les fichiers de
    `/etc/zookeeper/conf/`
    .../configs/zookeeper/

Données d'instantané

Vous pouvez exécuter la commande gcloud dataproc clusters diagnose suivante pour collecter un instantané des données de diagnostic à partir d'un cluster en cours d'exécution. Les données sont écrites sous forme de fichier d'archive (tar) dans le bucket intermédiaire Dataproc de Cloud Storage.

gcloud dataproc clusters diagnose CLUSTER_NAME \
    --region=REGION \
    --tarball-access=GOOGLE_DATAPROC_DIAGNOSE

Remarques :

  • CLUSTER_NAME : nom du cluster à diagnostiquer.
  • REGION : région du cluster (par exemple, us-central1).
  • --tarball-access=GOOGLE_DATAPROC_DIAGNOSE Ce flag permet d'accéder au fichier tar de diagnostic pour l'assistanceGoogle Cloud . Fournissez l'assistance Google Cloud avec le chemin d'accès Cloud Storage du fichier tar de diagnostic.

  • Additional flags :

    • --start-time avec --end-time : utilisez les deux indicateurs pour spécifier une plage horaire au format %Y-%m-%dT%H:%M:%S.%fZ pour la collecte des données de diagnostic. Spécifier une plage de temps permet également de collecter les journaux d'autoscaling Dataproc pendant cette période (par défaut, les journaux d'autoscaling Dataproc ne sont pas collectés dans les données de l'instantané de diagnostic).

    • Vous pouvez utiliser l'un ou l'autre des indicateurs suivants pour collecter des journaux de sortie spécifiques au pilote de job, aux événements Spark, aux applications YARN et à Sparklens :

      • --job-ids : liste d'ID de jobs séparés par une virgule
      • --yarn-application-ids : liste d'ID d'application YARN séparés par une virgule.

        • L'agrégation des journaux YARN doit être activée (yarn.log-aggregation-enable=true) pour la collecte des journaux d'application YARN.
        • Pour les tâches MapReduce, seuls les journaux d'application YARN sont collectés.

Exécuter le script de diagnostic (si nécessaire)

La commande gcloud dataproc clusters diagnose peut échouer ou expirer si un cluster se trouve en état d'erreur et ne peut pas accepter les tâches de diagnostic du serveur Dataproc. Au lieu d'exécuter la commande diagnose, vous pouvez utiliser SSH pour vous connecter au nœud maître du cluster, télécharger le script de diagnostic, puis l'exécuter localement sur le nœud maître.

gcloud compute ssh HOSTNAME
gcloud storage cp gs://dataproc-diagnostic-scripts/diagnostic-script.sh .
sudo bash diagnostic-script.sh

Le fichier tar de l'archive de diagnostic est enregistré dans un répertoire local. La sortie de la commande liste l'emplacement du fichier tar et fournit des instructions sur la façon d'importer le fichier tar dans un bucket Cloud Storage.

Données d'instantané de diagnostic

Les données d'instantané du cluster incluent un récapitulatif des diagnostics et plusieurs sections d'archives.

Résumé du diagnostic : le fichier d'archive inclut summary.txt à la racine de l'archive. Il fournit une vue d'ensemble de l'état du cluster, y compris l'état de YARN, HDFS, du disque et du réseau. Il inclut des avertissements pour vous avertir des problèmes potentiels.

Sections de l'archive : le fichier d'archive inclut les informations suivantes, qui sont écrites aux emplacements suivants.

  • Informations sur les services et daemons

    Commande exécutée Emplacement dans l'archive
    yarn node -list -all /system/yarn-nodes.log
    hdfs dfsadmin -report -live -decommissioning /system/hdfs-nodes.log
    hdfs dfs -du -h /system/hdfs-du.log
    service --status-all /system/service.log
    systemctl --type service /system/systemd-services.log
    curl "http://${HOSTNAME}:8088/jmx" /metrics/resource_manager_jmx
    curl "http://${HOSTNAME}:8088/ws/v1/cluster/apps" /metrics/yarn_app_info
    curl "http://${HOSTNAME}:8088/ws/v1/cluster/nodes" /metrics/yarn_node_info
    curl "http://${HOSTNAME}:9870/jmx" /metrics/namenode_jmx

  • Informations sur la JVM

    Commande exécutée Emplacement dans l'archive
    jstack -l "${DATAPROC_AGENTPID}" jstack/agent${DATAPROC_AGENT_PID}.jstack
    jstack -l "${PRESTOPID}" jstack/agent${PRESTO_PID}.jstack
    jstack -l "${JOB_DRIVERPID}" jstack/driver${JOB_DRIVER_PID}.jstack
    jinfo "${DATAPROC_AGENTPID}" jinfo/agent${DATAPROC_AGENT_PID}.jstack
    jinfo "${PRESTOPID}" jinfo/agent${PRESTO_PID}.jstack
    jinfo "${JOB_DRIVERPID}" jinfo/agent${JOB_DRIVER_PID}.jstack

  • Informations sur le système Linux

    Commande exécutée Emplacement dans l'archive
    df -h /system/df.log
    ps aux /system/ps.log
    free -m /system/free.log
    netstat -anp /system/netstat.log
    sysctl -a /system/sysctl.log
    uptime /system/uptime.log
    cat /proc/sys/fs/file-nr /system/fs-file-nr.log
    ping -c 1 /system/cluster-ping.log

  • Fichiers journaux

    Élément inclus Emplacement dans l'archive
    Tous les journaux de /var/log avec les préfixes suivants dans leur nom de fichier :
    cloud-sql-proxy
    dataproc
    druid
    gcdp
    google
    hadoop
    hdfs
    hive
    knox
    presto
    spark
    syslog
    yarn
    zookeeper
    Les fichiers sont placés dans le dossier d'archive logs et conservent leur nom d'origine.
    Journaux de démarrage de nœuds Dataproc pour chaque nœud (maîtres et de calcul) de votre cluster. Les fichiers sont placés dans le dossier d'archive node_startup, qui contient des sous-dossiers distincts pour chaque machine du cluster.
    Journaux de la passerelle des composants filtrés par la commande journalctl -u google-dataproc-component-gateway /logs/google-dataproc-component-gateway.log

  • Fichiers de configuration

    Élément(s) inclus Emplacement dans l'archive
    Métadonnées de la VM /conf/dataproc/metadata
    Variables d'environnement de /etc/environment /conf/dataproc/environment
    Propriétés Dataproc /conf/dataproc/dataproc.properties
    Tous les fichiers de /etc/google-dataproc/ /conf/dataproc/
    Tous les fichiers de /etc/hadoop/conf/ /conf/hadoop/
    Tous les fichiers de /etc/hive/conf/ /conf/hive/
    Tous les fichiers de /etc/hive-hcatalog/conf/ /conf/hive-hcatalog/
    Tous les fichiers de /etc/knox/conf/ /conf/knox/
    Tous les fichiers de /etc/pig/conf/ /conf/pig/
    Tous les fichiers de /etc/presto/conf/ /conf/presto/
    Tous les fichiers de /etc/spark/conf/ /conf/spark/
    Tous les fichiers de /etc/tez/conf/ /conf/tez/
    Tous les fichiers de /etc/zookeeper/conf/ /conf/zookeeper/

Partager le fichier d'archive

Vous pouvez partager le fichier d'archive avec l'assistance Google Cloud ou les utilisateurs pour obtenir de l'aide afin de résoudre les problèmes liés aux clusters ou aux jobs.

Pour partager le fichier d'archive :

  • Copiez le fichier d'archive depuis Cloud Storage, puis partagez l'archive téléchargée.
  • Modifiez les autorisations sur l'archive pour autoriser d'autres utilisateurs ou projets Google Cloud à accéder au fichier.

    Exemple : La commande suivante accorde des autorisations en lecture à l'archive aux propriétaires du projet test-project :

    gcloud storage objects update PATH_TO_ARCHIVE} --add-acl-grant=entity=project-owners-test-project,role=READER