Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | google-dataproc-agent | tutte | Riceve job da Dataproc e avvia i relativi driver |
google-fluentd | tutte | Raccoglie e invia i log a Logging |
Cluster standard
I seguenti servizi vengono eseguiti su cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-secondarynamenode | tutte | Esegue il checkpoint del NameNode | |
hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni mapreduce | |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni dell'immagine < 1.5) o
mysql (versioni dell'immagine 1.5 e successive)
sul nodo principale come archivio dei metadati delle tabelle Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come
database del metastore Hive (in ordine di raccomandazione):
|
|
hive-server2 | tutte | Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive | |
mariadb | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5 | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive | |
nfs-kernel-server | < 1,3 | NFS è il Network File System. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark | |
Tutti i lavoratori | hadoop-yarn-nodemanager | tutte | Avvia e gestisce i container YARN |
Solo worker principali | hadoop-hdfs-datanode | tutte | Memorizza i blocchi HDFS |
Cluster HA
Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti gli schemi | hadoop-hdfs-journalnode | tutte | Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, il NameNode di riserva legge il log delle modifiche e prende il controllo dal NameNode attivo. |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni dell'immagine < 1.5) o
mysql (versioni dell'immagine 1.5 e successive)
sul nodo principale come archivio dei metadati delle tabelle Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come
database del metastore Hive (in ordine di raccomandazione):
|
|
hive-server2 | tutte | Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive | |
zookeeper-server | tutte | Per la coordinazione distribuita viene utilizzato un quorum ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per la selezione del leader di NameNode HDFS e dei Resource Manager YARN. | |
Solo master 0 e 1 | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-zkfc | tutte | ZKFC è il processo ZKFailoverController , che viene eseguito con il NameNode HDFS. Monitora lo stato di NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover. |
|
Solo master 0 | hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni mapreduce |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
mariadb | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5 | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive | |
nfs-kernel-server | < 1,3 | NFS è il Network File System. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark |