Entità Dataproc

Quando utilizzi il servizio Dataproc per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni Dataproc necessari nel tuo progetto per accedere e utilizzare le risorse Google Cloud necessarie per svolgere queste attività. Tuttavia, se esegui attività tra progetti, ad esempio per accedere ai dati di un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.

Per aiutarti a eseguire correttamente il lavoro tra progetti, questo documento elenca le diverse entità che utilizzano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per consentire a queste entità di accedere e utilizzare le risorse Google Cloud.

Esistono tre entità (identità) che accedono e utilizzano Dataproc:

  1. Identità utente
  2. Identità del control plane
  3. Identità piano dati

Utente API Dataproc (identità utente)

Esempio: username@example.com

Si tratta dell'utente che chiama il servizio Dataproc per creare cluster, inviare job ed effettuare altre richieste al servizio. L'utente solitamente è una persona fisica, ma può anche essere un account di servizio se Dataproc viene invocato tramite un client API o da un altro servizio Google Cloud come Compute Engine, le funzioni Cloud Run o Cloud Composer.

Ruoli correlati

Note

  • I job inviati tramite l'API Dataproc vengono eseguiti come root su Linux.
  • I cluster Dataproc ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non siano bloccati esplicitamente impostando --metadata=block-project-ssh-keys=true quando crei il cluster (consulta Metadati del cluster).

  • Le directory utente HDFS vengono create per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (dopo il deployment) non viene assegnata una directory HDFS sui cluster esistenti.

Dataproc Service Agent (identità del control plane)

Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Il service account Agente di servizio Dataproc Dataproc viene utilizzato per eseguire un'ampia gamma di operazioni di sistema sulle risorse situate nel progetto in cui viene creato un cluster Dataproc, tra cui:

  • Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanze
  • Operazioni get e list per confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Dataproc e bucket Cloud Storage
  • Creazione automatica dei bucket temporanei e di gestione temporanea di Dataproc se il bucket temporaneo o di gestione temporanea non è specificato dall'utente
  • Scrittura dei metadati di configurazione del cluster nel bucket di staging
  • Accedere alle reti VPC in un progetto host

Ruoli correlati

Account di servizio VM Dataproc (identità del piano dati)

Esempio: project-number-compute@developer.gserviceaccount.com

Il codice dell'applicazione viene eseguito come account di servizio VM sulle VM Dataproc. Ai job utente vengono assegnati i ruoli (con le relative autorizzazioni) di questo account di servizio.

L'account di servizio della VM:

Ruoli correlati

Per ulteriori informazioni