Diese Seite wurde von der Cloud Translation API übersetzt.

Verwaltete Notebookinstanz in einem Dataproc-Cluster ausführen

Auf dieser Seite wird beschrieben, wie Sie die Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster ausführen.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Dataproc APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Dataproc APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren, damit das Dienstkonto die erforderlichen Berechtigungen zum Ausführen einer Notebook-Datei auf einem Serverless for Apache Spark-Cluster hat:

Dataproc-Worker (roles/dataproc.worker) für Ihr Projekt
Dataproc-Bearbeiter (roles/dataproc.editor) im Cluster für die Berechtigung dataproc.clusters.use

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen einer Notebook-Datei auf einem Serverless for Apache Spark-Cluster erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um eine Notebook-Datei auf einem Serverless for Apache Spark-Cluster auszuführen:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

Ihr Administrator kann dem Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Dataproc-Cluster erstellen

Zum Ausführen der Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster muss Ihr Cluster die folgenden Kriterien erfüllen:

Das Komponenten-Gateway des Clusters muss aktiviert sein.
Der Cluster muss die Jupyter-Komponente haben.
Der Cluster muss sich in derselben Region wie die verwaltete Notebookinstanz befinden.

Geben Sie zum Erstellen Ihres Dataproc-Clusters den folgenden Befehl entweder in Cloud Shell oder einer Umgebung ein, in der das Google Cloud CLI installiert ist.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Ersetzen Sie Folgendes:

REGION: Der Google Cloud Standort Ihrer verwalteten Notebookinstanz
CLUSTER_NAME: Name des neuen Clusters.

Nach einigen Minuten ist Ihr Dataproc-Cluster verfügbar. Dataproc-Cluster erstellen

JupyterLab öffnen

Rufen Sie in der Google Cloud Console die Seite Verwaltete Notebooks auf.

Zu "Verwaltete Notebooks"
Klicken Sie neben dem Namen der verwalteten Notebookinstanz auf JupyterLab öffnen.

Notebookdatei in Ihrem Dataproc-Cluster ausführen

Sie können eine Notebookdatei in Ihrem Dataproc-Cluster über jede verwaltete Notebookinstanz im selben Projekt und in derselben Region ausführen.

Neue Notebookdatei ausführen

Wählen Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebookinstanz Folgendes aus: Datei>Neu >Notebook.
Die verfügbaren Kernel Ihres Dataproc-Clusters werden im Menü Kernel auswählen angezeigt. Wählen Sie den gewünschten Kernel aus und klicken Sie auf Auswählen.

Ihre neue Notebookdatei wird geöffnet.
Fügen Sie der neuen Notebookdatei Code hinzu und führen Sie den Code aus.

Informationen zum Ändern des Kernels, den Sie nach dem Erstellen Ihrer Notebookdatei verwenden möchten, finden Sie im folgenden Abschnitt.

Vorhandene Notebookdatei ausführen

Klicken Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebook-Instanz auf die Schaltfläche Dateibrowser, wechseln Sie zur Notebookdatei, die Sie ausführen möchten, und öffnen Sie sie.
Klicken Sie zum Öffnen des Dialogfelds Kernel auswählen auf den Kernelnamen Ihrer Notebookdatei, z. B. Python (lokal).
Wählen Sie einen Kernel-Namen aus, der Ihren Clusternamen am Ende enthält, um einen Kernel aus Ihrem Dataproc-Cluster auszuwählen. Ein PySpark-Kernel in einem Dataproc-Cluster mit dem Namen mycluster heißt beispielsweise PySpark on mycluster.
Klicken Sie auf Auswählen, um das Dialogfeld zu schließen.

Sie können den Code Ihrer Notebookdatei jetzt im Dataproc-Cluster ausführen.

Nächste Schritte

Weitere Informationen zu Dataproc