Instala y ejecuta un notebook de Jupyter en un clúster de Dataproc


Objetivos

En este instructivo, se muestra cómo instalar Dataproc Componente de Jupyter en un clúster nuevo y, luego, te conectarás a la IU del notebook de Jupyter que se ejecuta en clúster desde tu navegador local con Dataproc Puerta de enlace del componente.

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

Si aún no lo hiciste, crea un proyecto de Google Cloud bucket de Cloud Storage.

  1. Configura el proyecto

    1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Crea un bucket de Cloud Storage en tu proyecto para almacenar los notebooks que crees en este instructivo.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. Tus notebooks se almacenarán en Cloud Storage en gs://bucket-name/notebooks/jupyter.

Crea un clúster e instala el componente Jupyter

Crea un clúster con el componente de Jupyter instalado.

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de la puerta de enlace de componentes de la consola de Google Cloud en la consola de Google Cloud para abrir el notebook de Jupyter o las IU de JupyterLab que se ejecutan en el nodo principal de tu clúster.

El directorio de nivel superior que muestra tu instancia de Jupyter es un directorio virtual que te permite ver el contenido de tu bucket de Cloud Storage o de tu sistema de archivos local. Puedes elegir la ubicación si haces clic en el vínculo GCS de Cloud Storage o Disco local para el sistema de archivos local del nodo principal de tu clúster.

  1. Haz clic en el vínculo de GCS. La IU web del notebook de Jupyter muestra notebooks almacenados en tu bucket de Cloud Storage, incluidos los notebooks que crees en este instructivo.

Limpia

Una vez que completes el instructivo, puedes limpiar los recursos que creaste para que dejen de usar la cuota y generar cargos. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra el clúster

  • Para borrar tu clúster, realiza los siguientes pasos:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Borra el bucket

  • Para borrar el bucket de Cloud Storage que creaste en la sección Antes de comenzar, paso 2, incluye los notebooks almacenados en el bucket.
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

¿Qué sigue?