Halaman ini diterjemahkan oleh Cloud Translation API.

Entity utama Dataproc

Saat Anda menggunakan layanan Dataproc untuk membuat cluster dan menjalankan tugas di cluster, layanan ini akan menyiapkan peran dan izin Dataproc yang diperlukan di project Anda untuk mengakses dan menggunakan resource yang diperlukan untuk menyelesaikan tugas ini. Google Cloud Namun, jika Anda melakukan pekerjaan lintas project, misalnya untuk mengakses data di project lain, Anda harus menyiapkan peran dan izin yang diperlukan untuk mengakses resource lintas project.

Untuk membantu Anda melakukan pekerjaan lintas project dengan sukses, dokumen ini mencantumkan berbagai akun utama yang menggunakan layanan Dataproc dan peran yang berisi izin yang diperlukan agar akun utama tersebut dapat mengakses dan menggunakan resource Google Cloud .

Ada tiga prinsipal (identitas) yang mengakses dan menggunakan Dataproc:

Identitas Pengguna
Identitas Bidang Kontrol
Identitas Bidang Data

Pengguna Dataproc API (Identitas pengguna)

Contoh: username@example.com

Pengguna ini adalah pengguna yang memanggil layanan Dataproc untuk membuat cluster, mengirimkan tugas, dan membuat permintaan lain ke layanan. Pengguna biasanya adalah individu, tetapi juga dapat berupa akun layanan jika Dataproc dipanggil melalui klien API atau dari Google Cloud layanan lain seperti Compute Engine, fungsi Cloud Run, atau Cloud Composer.

Peran terkait

Peran Dataproc, Peran project

Catatan

Tugas yang dikirimkan melalui Dataproc API dijalankan sebagai root di Linux.
Cluster Dataproc mewarisi metadata SSH Compute Engine di seluruh project, kecuali jika diblokir secara eksplisit dengan menyetel --metadata=block-project-ssh-keys=true saat Anda membuat cluster (lihat Metadata cluster).
Direktori pengguna HDFS dibuat untuk setiap pengguna SSH tingkat project. Direktori HDFS ini dibuat pada saat deployment cluster, dan pengguna SSH baru (setelah deployment) tidak diberi direktori HDFS di cluster yang ada.

Dataproc Service Agent (Identitas Control Plane)

Contoh: service-project-number@dataproc-accounts.

Akun layanan Agen Layanan Dataproc digunakan untuk melakukan serangkaian operasi sistem yang luas pada resource yang berada di project tempat cluster Dataproc dibuat, termasuk:

Pembuatan resource Compute Engine, termasuk instance VM, grup instance, dan template instance
Operasi get dan list untuk mengonfirmasi konfigurasi resource seperti image, firewall, tindakan inisialisasi Dataproc, dan bucket Cloud Storage
Pembuatan otomatis bucket penahapan dan sementara Dataproc jika bucket penahapan atau sementara tidak ditentukan oleh pengguna
Menulis metadata konfigurasi cluster ke bucket penyiapan
Mengakses jaringan VPC di project host

Peran terkait

Dataproc Service Agent

Akun layanan VM Dataproc (identitas Data Plane)

Contoh: project-number-compute@

Kode aplikasi Anda berjalan sebagai akun layanan VM di VM Dataproc. Tugas pengguna diberi peran (dengan izin terkaitnya) akun layanan ini.

Akun layanan VM melakukan hal berikut:

Berkomunikasi dengan bidang kontrol Dataproc.
Membaca dan menulis data dari dan ke bucket sementara dan staging Dataproc.
Sesuai kebutuhan tugas Dataproc Anda, membaca dan menulis data dari dan ke Cloud Storage, BigQuery, Cloud Logging, dan resource Google Cloud lainnya.

Peran terkait

Langkah berikutnya

Pelajari lebih lanjut peran dan izin Dataproc.
Pelajari lebih lanjut akun layanan Dataproc.
Lihat Kontrol Akses BigQuery.
Lihat opsi Kontrol Akses Cloud Storage.

Entity utama Dataproc Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Pengguna Dataproc API (Identitas pengguna)

Dataproc Service Agent (Identitas Control Plane)

Akun layanan VM Dataproc (identitas Data Plane)

Langkah berikutnya

Entity utama Dataproc