Questa pagina è stata tradotta dall'API Cloud Translation.

Servizi Dataproc

Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	google-dataproc-agent	tutte	Riceve job da Dataproc e avvia i relativi driver
Tutti i nodi	google-fluentd	tutte	Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
	hadoop-hdfs-secondarynamenode	tutte	Esegue il checkpoint del NameNode
	hadoop-mapreduce-historyserver	tutte	Fornisce informazioni sulla cronologia delle applicazioni mapreduce
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni dell'immagine < 1.5) o `mysql` (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
	mariadb	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
	mysql	Più di 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive
	nfs-kernel-server	< 1,3	NFS è il Network File System.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i lavoratori	hadoop-yarn-nodemanager	tutte	Avvia e gestisce i container YARN
Solo worker principali	hadoop-hdfs-datanode	tutte	Memorizza i blocchi HDFS

Cluster HA

Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti gli schemi	hadoop-hdfs-journalnode	tutte	Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, il NameNode di riserva legge il log delle modifiche e prende il controllo dal NameNode attivo.
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni dell'immagine < 1.5) o `mysql` (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
	zookeeper-server	tutte	Per la coordinazione distribuita viene utilizzato un quorum ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per la selezione del leader di NameNode HDFS e dei Resource Manager YARN.
Solo master 0 e 1	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
Solo master 0 e 1	hadoop-hdfs-zkfc	tutte	ZKFC è il processo `ZKFailoverController`, che viene eseguito con il NameNode HDFS. Monitora lo stato di NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0	hadoop-mapreduce-historyserver	tutte	Fornisce informazioni sulla cronologia delle applicazioni mapreduce
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	mariadb	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
	mysql	Più di 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e successive
	nfs-kernel-server	< 1,3	NFS è il Network File System.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark