Organiza trabajos mediante la ejecución de canalizaciones de dsub en Batch


En este instructivo, se explica cómo ejecutar un Canalización dsub en Batch. Específicamente, la canalización dsub de ejemplo procesa datos de secuenciación de ADN en un Archivo del mapa de alineación binaria (BAM) para crear un archivo de índice BAM (BAI).

Este instructivo está dirigido a los usuarios de Batch que deseen dsub con Batch. dsub es un programador de trabajos de código abierto para organizar flujos de trabajo de procesamiento por lotes en Google Cloud. Para obtener más información sobre cómo usar Batch con dsub, consulta la documentación de dsub para Batch.

Objetivos

  • Ejecuta una canalización dsub en Batch que lea y escriba archivos en buckets de Cloud Storage.
  • Ver los archivos de salida en un bucket de Cloud Storage

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Batch
  • Cloud Storage

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Los recursos creados en este instructivo suelen costar menos de un dólar, suponiendo que completes todos los pasos, incluida la limpieza, de manera oportuna.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. Install the Google Cloud CLI.
  3. To initialize the gcloud CLI, run the following command:

    gcloud init
  4. Create or select a Google Cloud project.

    • Create a Google Cloud project:

      gcloud projects create PROJECT_ID

      Replace PROJECT_ID with a name for the Google Cloud project you are creating.

    • Select the Google Cloud project that you created:

      gcloud config set project PROJECT_ID

      Replace PROJECT_ID with your Google Cloud project name.

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:

    gcloud services enable batch.googleapis.com compute.googleapis.com logging.googleapis.com storage.googleapis.com
  7. Install the Google Cloud CLI.
  8. To initialize the gcloud CLI, run the following command:

    gcloud init
  9. Create or select a Google Cloud project.

    • Create a Google Cloud project:

      gcloud projects create PROJECT_ID

      Replace PROJECT_ID with a name for the Google Cloud project you are creating.

    • Select the Google Cloud project that you created:

      gcloud config set project PROJECT_ID

      Replace PROJECT_ID with your Google Cloud project name.

  10. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  11. Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:

    gcloud services enable batch.googleapis.com compute.googleapis.com logging.googleapis.com storage.googleapis.com
  12. Asegúrate de que tu proyecto tenga al menos una cuenta de servicio con el los permisos necesarios para este instructivo.

    Cada trabajo requiere una cuenta de servicio que permita Agente de servicio por lotes para crear y acceder a los recursos necesarias para ejecutar el trabajo. En este instructivo, la cuenta de servicio del trabajo es el Cuenta de servicio predeterminada de Compute Engine.

    Para asegurarte de que la cuenta de servicio predeterminada de Compute Engine tenga permisos para permitir que el agente de servicio de Batch cree recursos y acceda a ellos para trabajos de Batch solicita a tu administrador que otorgue a la cuenta de servicio predeterminada de Compute Engine el los siguientes roles de IAM:

    Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

    Es posible que tu administrador también pueda otorgar los permisos necesarios a la cuenta de servicio predeterminada de Compute Engine a través de roles personalizados o con otros roles predefinidos.

  13. Asegúrate de tener los permisos necesarios para este instructivo.

    A fin de obtener los permisos que necesitas para completar este instructivo, haz lo siguiente: solicita a tu administrador que te otorgue el los siguientes roles de IAM:

  14. Instala dsub y sus dependencias. Para obtener más información, consulta la Documentación de instalación de dsub.

    1. Asegúrate de tener instaladas las versiones de Python y pip. compatibles con la versión más reciente de dsub. Para ver las versiones instaladas actualmente, ejecuta el siguiente comando:

      pip --version
      

      Si necesitas instalar o actualizar pip o Python, sigue los pasos para instalar Python.

    2. Opción recomendada: Para evitar errores de conflicto de dependencias cuando instales dsub, crea y activa un entorno virtual de Python:

      python -m venv dsub_libs && source dsub_libs/bin/activate
      
    3. Clona el repositorio de GitHub de dsub con git y ábrelo:

      git clone https://github.com/databiosphere/dsub.git && cd dsub
      
    4. Instala dsub y sus dependencias:

      python -m pip install .
      

      El resultado es similar a este:

      ...
      Successfully installed cachetools-5.3.1 certifi-2023.7.22 charset-normalizer-3.3.1 dsub-0.4.9 funcsigs-1.0.2 google-api-core-2.11.0 google-api-python-client-2.85.0 google-auth-2.17.3 google-auth-httplib2-0.1.0 google-cloud-batch-0.10.0 googleapis-common-protos-1.61.0 grpcio-1.59.0 grpcio-status-1.59.0 httplib2-0.22.0 idna-3.4 mock-4.0.3 parameterized-0.8.1 proto-plus-1.22.3 protobuf-4.24.4 pyasn1-0.4.8 pyasn1-modules-0.2.8 pyparsing-3.1.1 python-dateutil-2.8.2 pytz-2023.3 pyyaml-6.0 requests-2.31.0 rsa-4.9 six-1.16.0 tabulate-0.9.0 tenacity-8.2.2 uritemplate-4.1.1 urllib3-2.0.7
      

Cree un bucket de Cloud Storage

Crear un bucket de Cloud Storage para almacenar los archivos de salida del canalización de muestra dsub con gcloud CLI, ejecuta Comando gcloud storage buckets create:

gcloud storage buckets create gs://BUCKET_NAME \
    --project PROJECT_ID

Reemplaza lo siguiente:

El resultado es similar a este:

Creating gs://BUCKET_NAME/...

Ejecuta la canalización dsub

La canalización dsub de muestra indexa un archivo BAM del Proyecto 1,000 Genomes y envía los resultados a un bucket de Cloud Storage.

Para ejecutar la canalización de dsub de ejemplo, ejecuta el siguiente comando dsub:

dsub \
    --provider google-batch \
    --project PROJECT_ID \
    --logging gs://BUCKET_NAME/WORK_DIRECTORY/logs \
    --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
    --output BAI=gs://BUCKET_NAME/WORK_DIRECTORY/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
    --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
    --command 'samtools index ${BAM} ${BAI}' \
    --wait

Reemplaza lo siguiente:

  • PROJECT_ID: el ID del proyecto de tu proyecto de Google Cloud.

  • BUCKET_NAME: Es el nombre de Cloud Storage. bucket que creaste.

  • WORK_DIRECTORY: Es el nombre de un elemento nuevo. que la canalización puede usar para almacenar registros y resultados. Por ejemplo, ingresa workDir.

La canalización dsub ejecuta un Trabajo por lotes que escribe el archivo BAI y registros en el directorio especificado de tu bucket de Cloud Storage. Específicamente, el repositorio dsub contiene un Docker compilado previamente imagen que usa samtools para indexar archivo BAM que especificaste en la marca --input.

El comando no finaliza hasta que se termina de ejecutar la canalización de dsub, que puede variar según el momento en que se programe el trabajo por lotes. Por lo general, este proceso tarda alrededor de 10 minutos; por lo general, el lote comienza y ejecutar el trabajo en pocos minutos y su tiempo de ejecución es de unos 8 minutos.

Al principio, el comando sigue ejecutándose y el resultado es similar al siguiente:

Job properties:
  job-id: JOB_NAME
  job-name: samtools
  user-id: USERNAME
Provider internal-id (operation): projects/PROJECT_ID/locations/us-central1/jobs/JOB_NAME
Launched job-id: JOB_NAME
To check the status, run:
  dstat --provider google-batch --project PROJECT_ID --location us-central1 --jobs 'JOB_NAME' --users 'USERNAME' --status '*'
To cancel the job, run:
  ddel --provider google-batch --project PROJECT_ID --location us-central1 --jobs 'JOB_NAME' --users 'USERNAME'
Waiting for job to complete...
Waiting for: JOB_NAME.

Después de que el trabajo se completa con éxito, el comando finaliza y la salida es similar a lo siguiente:

  JOB_NAME: SUCCESS
JOB_NAME

En esta salida, se incluyen los siguientes valores:

  • JOB_NAME: Es el nombre del trabajo.

  • USERNAME: Es tu nombre de usuario de Google Cloud.

  • PROJECT_ID: el ID del proyecto de tu proyecto de Google Cloud.

Cómo ver los archivos de salida

Para ver los archivos de salida que creó la canalización dsub de muestra mediante la en gcloud CLI, ejecuta Comando gcloud storage ls:

gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY \
    --project PROJECT_ID

Reemplaza lo siguiente:

  • BUCKET_NAME: Es el nombre de Cloud Storage. bucket que creaste.

  • WORK_DIRECTORY: El directorio que especificaste en el comando dsub.

  • PROJECT_ID: el ID del proyecto de tu proyecto de Google Cloud.

El resultado es similar a este:

gs://BUCKET_NAME/WORK_DIRECTORY/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
gs://BUCKET_NAME/WORK_DIRECTORY/logs/

En este resultado, se incluye el archivo BAI y un directorio que contiene los registros del trabajo.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto actual.

    Borra un proyecto de Google Cloud:

    gcloud projects delete PROJECT_ID

Borra los recursos individuales

Si quieres seguir usando el proyecto actual, borra el proyecto recursos que se usan en este instructivo.

Borra el bucket

Cuando la canalización termina de ejecutarse, crea y almacena archivos de salida en la Directorio WORK_DIRECTORY de tu Cloud Storage bucket.

Para reducir los cargos de Cloud Storage en la cuenta de Google Cloud actual, haz una de las siguientes acciones:

  • Si ya no necesitas el bucket que usaste en este instructivo, usa el comando gcloud storage rm con la marca --recursive para borrar el bucket y todo su contenido:

    gcloud storage rm gs://BUCKET_NAME \
        --recursive \
        --project PROJECT_ID
    

    Reemplaza lo siguiente:

    • BUCKET_NAME: Es el nombre de Cloud Storage. bucket que creaste.

    • PROJECT_ID: El ID del proyecto de tu proyecto de Google Cloud.

  • De lo contrario, si aún necesitas el bucket, usa el El comando gcloud storage rm con el --recursive para borrar solo el Directorio WORK_DIRECTORY y todo su contenido:

    gcloud storage rm gs://BUCKET_NAME/WORK_DIRECTORY \
        --recursive \
        --project PROJECT_ID
    

    Reemplaza lo siguiente:

    • BUCKET_NAME: Es el nombre de Cloud Storage. bucket que creaste.

    • WORK_DIRECTORY: El directorio que especificadas en el comando dsub.

    • PROJECT_ID: El ID del proyecto de tu proyecto de Google Cloud.

Borra el trabajo

Para borrar un trabajo con gcloud CLI, ejecuta el comando Comando gcloud batch jobs delete

gcloud batch jobs delete JOB_NAME \
    --location us-central1 \
    --project PROJECT_ID

Reemplaza lo siguiente:

  • JOB_NAME: Es el nombre del trabajo.
  • PROJECT_ID: el ID del proyecto de tu proyecto de Google Cloud.

¿Qué sigue?