Genomische Daten mit Cloud Life Sciences verarbeiten

Auf dieser Seite wird erläutert, wie Sie eine Genomics-Pipeline ausführen, die mit der Cloud Life Sciences API aus einer Binärdatei mit DNA-Sequenzen (BAM-Datei) eine Indexdatei (BAI-Datei) erstellt.

BAM-Dateien sind in der Regel sehr groß und können beim Lesen mit einem Genombetrachter viel Zeit in Anspruch nehmen. Sie verwenden eine BAI-Datei, um die Teile der BAM-Datei zu finden, die die gewünschte Genomposition enthalten.

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init
  12. Alternativ können Sie auch Cloud Shell verwenden, in der die gcloud CLI bereits installiert ist.

  13. Installieren Sie Python 3.8.

    Wenn Sie Windows verwenden und bei der Installation der Google Cloud CLI das entsprechende Kästchen ausgewählt haben, wurde die Installation automatisch durchgeführt.

Pipeline ausführen

Führen Sie die folgenden Schritte aus, um die Pipeline auszuführen:

  1. Erstellen Sie einen Bucket, in dem Sie die BAI-Datei speichern. Buckets sind die grundlegenden Container für Ihre Daten in Cloud Storage. Führen Sie den Befehl gcloud storage buckets create aus, um einen Bucket mit dem Namen PROJECT_ID-life-sciences zu erstellen:

    gcloud storage buckets create gs://PROJECT_ID-life-sciences

    Ersetzen Sie PROJECT_ID durch Ihre Google Cloud-Projekt-ID. Verwenden Sie einen global eindeutigen Bucket-Namen.

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    Creating gs://PROJECT_ID-life-sciences
  2. Führen Sie den Befehl gcloud beta lifesciences pipelines run aus, um die Pipeline zu starten:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]

    Notieren Sie sich die OPERATION_ID, die Sie im nächsten Schritt verwenden.

  3. Führen Sie den Befehl gcloud beta lifesciences operations wait aus, um den Status der Pipeline zu verfolgen. Ersetzen Sie OPERATION_ID durch den im vorherigen Schritt ausgegebenen Wert. Es kann mehrere Minuten dauern, bis die Pipeline abgeschlossen ist.

    gcloud beta lifesciences operations wait OPERATION_ID

    Nachdem der Vorgang abgeschlossen ist, wird die folgende Meldung zurückgegeben:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
  4. Prüfen Sie mit dem Befehl gcloud storage ls, ob die BAI-Datei generiert wurde:

    gcloud storage ls gs://PROJECT_ID-life-sciences

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Sie haben eine Pipeline mit der Cloud Life Sciences API ausgeführt, um eine BAI-Datei aus einer BAM-Datei zu erstellen. Verwenden Sie einen Genom-Viewer, um die BAM-Datei NA12878.chr20.sample.bam anhand der Indexdatei NA12878.chr20.sample.bam.bai zu untersuchen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

BAI-Datei löschen

Führen Sie den Befehl gcloud storage rm aus, um die generierte BAI-Datei zu löschen, aber das von Ihnen erstellte Projekt und den Bucket beizubehalten:

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Bucket löschen

Wenn Sie den Bucket speziell für diese Kurzanleitung erstellt haben und ihn nicht mehr benötigen, aber das Projekt behalten möchten, löschen Sie den Bucket mit dem Befehl gcloud storage rm. Durch das Löschen des Buckets wird auch die generierte BAI-Datei gelöscht.

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

Projekt löschen

Wenn Sie das Projekt speziell für diesen Schnellstart erstellt haben und es nicht mehr benötigen, können Sie das Projekt löschen. Dabei werden auch die BAI-Datei und der Cloud Storage-Bucket gelöscht.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Wie ist es gelaufen?

Nächste Schritte