Installer et exécuter un notebook Jupyter sur un cluster Dataproc


Objectifs

Ce tutoriel vous montre comment installer le composant Jupyter de Dataproc sur un nouveau cluster, puis vous connecter à l'interface utilisateur du notebook Jupyter s'exécutant sur le cluster à partir du navigateur local en utilisant la passerelle des composants Dataproc.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Si ce n'est pas déjà fait, créez un projet Google Cloud et un bucket Cloud Storage.

  1. Configurez votre projet

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Créez un bucket Cloud Storage dans votre projet pour stocker les notebooks que vous créez dans ce tutoriel.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. Vos notebooks seront enregistrés dans Cloud Storage sous gs://bucket-name/notebooks/jupyter.

Créer un cluster et installer le composant Jupyter

Créez un cluster avec le composant Jupyter installé.

Ouvrir les interfaces utilisateur Jupyter et JupyterLab

Cliquez sur les liens de la passerelle des composants Google Cloud Console dans la console Google Cloud pour ouvrir les interfaces utilisateur du notebook Jupyter ou JupyterLab exécutées sur le nœud maître de votre cluster.

Le répertoire de niveau supérieur affiché par votre instance Jupyter est un répertoire virtuel qui vous permet de voir le contenu de votre bucket Cloud Storage ou de votre système de fichiers local. Vous pouvez choisir l'emplacement en cliquant sur le lien GCS pour Cloud Storage ou sur Local Disk (Disque local) pour le système de fichiers local du nœud maître de votre cluster.

  1. Cliquez sur le lien GCS. L'interface Web du notebook Jupyter affiche les notebooks stockés dans votre bucket Cloud Storage, y compris les notebooks que vous créez dans ce tutoriel.

Effectuer un nettoyage

Une fois le tutoriel terminé, vous pouvez procéder au nettoyage des ressources que vous avez créées afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer le cluster

  • Pour supprimer le cluster :
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Supprimer le bucket

  • Pour supprimer le bucket Cloud Storage créé à l'étape 2 Avant de commencer, y compris les notebooks stockés dans le bucket :
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

Étape suivante