Processar dados genômicos usando o Cloud Life Sciences
Nesta página, explicamos como executar um pipeline genômico que usa a API Cloud Life Sciences para criar um arquivo de índice (BAI) com base em um arquivo binário contendo sequências de DNA (arquivo BAM).
Os arquivos BAM geralmente são grandes e podem levar muito tempo para serem lidos com um leitor de genoma. Use um arquivo BAI para localizar as partes do arquivo BAM que contêm a posição do genoma em que você tem interesse.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
- Instale o Python 3.8
Se você está usando o Windows e marcou a caixa de seleção pertinente quando instalou a CLI do Google Cloud, isso foi feito automaticamente.
Como alternativa, use o Cloud Shell, que já vem com a CLI gcloud instalada.
Executar o pipeline
Para executar o pipeline, conclua as seguintes etapas:
Crie um bucket para armazenar o arquivo BAI. buckets são os contêineres básicos que armazenam dados no Cloud Storage. Para criar um bucket chamado
PROJECT_ID-life-sciences
, execute o comandogcloud storage buckets create
:gcloud storage buckets create gs://PROJECT_ID-life-sciences
Substitua PROJECT_ID pelo ID do projeto do Google Cloud. Use um nome de bucket globalmente exclusivo.
Se o procedimento for bem-sucedido, o comando retornará:
Creating gs://PROJECT_ID-life-sciences
Para iniciar o pipeline, execute o comando
gcloud beta lifesciences pipelines run
:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Se o procedimento for bem-sucedido, o comando retornará:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Observe o OPERATION_ID, que será usado na próxima etapa.
Para rastrear o status do pipeline, execute o comando
gcloud beta lifesciences operations wait
. Substitua OPERATION_ID pelo valor mostrado na etapa anterior. O pipeline leva alguns minutos para ser concluído.gcloud beta lifesciences operations wait OPERATION_ID
Depois que a operação for concluída, ela retornará a seguinte mensagem:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Para verificar se o arquivo BAI foi gerado, execute o comando
gcloud storage ls
:gcloud storage ls gs://PROJECT_ID-life-sciences
Se o procedimento for bem-sucedido, o comando retornará:
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Você acabou de executar um pipeline usando a API Cloud Life Sciences para criar um arquivo BAI
com base em um arquivo BAM. Use um leitor de genoma para examinar o arquivo BAM NA12878.chr20.sample.bam
usando o arquivo de índice NA12878.chr20.sample.bam.bai
.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Excluir o arquivo BAI
Para excluir o arquivo BAI gerado, mas manter o projeto e o bucket criados,
execute o comando gcloud storage rm
:
gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Excluir o bucket
Se você criou o bucket especificamente para esse guia de início rápido e não
precisa mais dele, mas quer manter seu projeto, exclua o bucket usando o
comando gcloud storage rm
. Excluir o
também exclui o arquivo BAI gerado.
gcloud storage rm gs://PROJECT_ID-life-sciences --recursive
Exclua o projeto
Se você tiver criado o projeto especificamente para este guia de início rápido e não precisar mais dele, exclua-o. A exclusão do projeto também exclui o arquivo BAI e o bucket do Cloud Storage.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Como foi?
A seguir
- Saiba mais sobre os conjuntos de dados públicos da API Cloud Life Sciences.
- Saiba como carregar dados de variantes no Cloud Storage ou no BigQuery.
- Saiba como analisar variantes com o BigQuery.