Servizi Dataproc

Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi google-dataproc-agent tutte Riceve job da Dataproc e avvia i relativi driver
google-fluentd tutte Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutte Esegue il checkpoint del NameNode
hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni mapreduce
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutte Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni dell'immagine < 1.5) o mysql (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
mariadb < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive
nfs-kernel-server < 1,3 NFS è il Network File System.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i lavoratori hadoop-yarn-nodemanager tutte Avvia e gestisce i container YARN
Solo worker principali hadoop-hdfs-datanode tutte Memorizza i blocchi HDFS

Cluster HA

Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti gli schemi hadoop-hdfs-journalnode tutte Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, il NameNode di riserva legge il log delle modifiche e prende il controllo dal NameNode attivo.
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hive-metastore tutte Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni dell'immagine < 1.5) o mysql (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
zookeeper-server tutte Per la coordinazione distribuita viene utilizzato un quorum ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per la selezione del leader di NameNode HDFS e dei Resource Manager YARN.
Solo master 0 e 1 hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-zkfc tutte ZKFC è il processo ZKFailoverController, che viene eseguito con il NameNode HDFS. Monitora lo stato di NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0 hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni mapreduce
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
mariadb < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive
nfs-kernel-server < 1,3 NFS è il Network File System.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark