Elaborare i dati genomici utilizzando Cloud Life Sciences
Questa pagina spiega come eseguire una pipeline di genomica che utilizza l'API Cloud Life Sciences per creare un file indice (file BAI) da un file binario contenente sequenze di DNA (file BAM).
I file BAM sono in genere di grandi dimensioni e la lettura può richiedere molto tempo utilizzando un visualizzatore del genoma. Utilizzi un file BAI per individuare le parti del file BAM che contengono la posizione del genoma che ti interessa.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
-
Install the Google Cloud CLI.
-
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
-
Install the Google Cloud CLI.
-
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
To initialize the gcloud CLI, run the following command:
gcloud init
- Installa Python 3.8.
Se utilizzi Windows e hai lasciato selezionata la casella di controllo pertinente durante l'installazione di Google Cloud CLI, questa operazione è stata eseguita automaticamente.
In alternativa, puoi utilizzare Cloud Shell, in cui è già installata gcloud CLI.
esegui la pipeline.
Per eseguire la pipeline, completa i seguenti passaggi:
Crea un bucket in cui archiviare il file BAI. I bucket sono i container di base di Cloud Storage in cui vengono archiviati i dati. Per creare un bucket denominato
PROJECT_ID-life-sciences
, esegui il comandogcloud storage buckets create
:gcloud storage buckets create gs://PROJECT_ID-life-sciences
Sostituisci PROJECT_ID con l'ID del tuo progetto Google Cloud . Devi utilizzare un nome bucket univoco a livello globale.
In caso di esito positivo, il comando restituisce quanto segue:
Creating gs://PROJECT_ID-life-sciences
Per avviare la pipeline, esegui il comando
gcloud beta lifesciences pipelines run
:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
In caso di esito positivo, il comando restituisce quanto segue:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Prendi nota di OPERATION_ID, che utilizzerai nel passaggio successivo.
Per monitorare lo stato della pipeline, esegui il comando
gcloud beta lifesciences operations wait
. Sostituisci OPERATION_ID con il valore stampato nel passaggio precedente. Il completamento della pipeline richiede alcuni minuti.gcloud beta lifesciences operations wait OPERATION_ID
Al termine dell'operazione, viene restituito il seguente messaggio:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Per verificare che il file BAI sia stato generato, esegui il comando
gcloud storage ls
:gcloud storage ls gs://PROJECT_ID-life-sciences
In caso di esito positivo, il comando restituisce quanto segue:
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Hai eseguito una pipeline utilizzando l'API Cloud Life Sciences per creare un file BAI da un file BAM. Utilizza un visualizzatore del genoma per esaminare il file BAM utilizzando il file indice NA12878.chr20.sample.bam.bai
.NA12878.chr20.sample.bam
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Eliminare il file BAI
Per eliminare il file BAI generato, ma conservare il progetto e il bucket che hai creato,
esegui il comando gcloud storage rm
:
gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Elimina il bucket
Se hai creato il bucket appositamente per questa guida rapida e non ti serve più, ma vuoi conservare il progetto, elimina il bucket utilizzando il comando gcloud storage rm
. L'eliminazione del bucket elimina anche il file BAI generato.
gcloud storage rm gs://PROJECT_ID-life-sciences --recursive
Elimina il progetto
Se hai creato il progetto appositamente per questa guida rapida e non ti serve più, puoi eliminarlo. L'eliminazione del progetto comporta anche l'eliminazione del file BAI e del bucket Cloud Storage.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Com'è andata?
Passaggi successivi
- Scopri di più sui set di dati pubblici dell'API Cloud Life Sciences.
- Scopri come caricare i dati delle varianti in Cloud Storage o BigQuery.
- Scopri come analizzare le varianti con BigQuery.