Diese Seite wurde von der Cloud Translation API übersetzt.

Aufträge mit Nextflow-Pipelines in Batch orchestrieren

In dieser Anleitung wird erläutert, wie Sie eine Nextflow-Pipeline in Batch ausführen. In dieser Anleitung wird die Beispiel-Life Sciences-Pipeline rnaseq-nf von Nextflow ausgeführt, mit der genomische Merkmale aus Short-Read-Daten mit RNA-Seq quantifiziert werden.

Diese Anleitung richtet sich an Batch-Nutzer, die Nextflow mit Batch verwenden möchten.

Nextflow ist eine Open-Source-Software zum Orchestrieren von Bioinformatik-Workflows.

Ziele

In dieser Anleitung lernen Sie Folgendes:

Installieren Sie Nextflow in Cloud Shell.
Cloud Storage-Bucket erstellen
Nextflow-Pipeline konfigurieren.
Beispielpipeline mit Nextflow in Batch ausführen.
Sehen Sie sich die Ausgaben der Pipeline an.
Führen Sie einen der folgenden Schritte aus, um eine Bereinigung durchzuführen und zusätzliche Gebühren zu vermeiden:
- Projekt löschen
- Einzelne Ressourcen löschen

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Batch
Cloud Storage

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Google Cloud Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Die in dieser Anleitung erstellten Ressourcen kosten in der Regel weniger als einen Dollar, vorausgesetzt, Sie führen alle Schritte, einschließlich der Bereinigung, zeitnah aus.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Install the Google Cloud CLI.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Verify that billing is enabled for your Google Cloud project.

Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:

gcloud services enable batch.googleapis.com compute.googleapis.com logging.googleapis.com storage.googleapis.com

Install the Google Cloud CLI.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Verify that billing is enabled for your Google Cloud project.

Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:

gcloud services enable batch.googleapis.com compute.googleapis.com logging.googleapis.com storage.googleapis.com

Ihr Projekt muss ein VPC-Netzwerk (Virtual Private Cloud) mit einer gültigen Netzwerkkonfiguration für dieses Tutorial haben.

Hinweis:Für diesen Schritt ist keine Aktion erforderlich, es sei denn, Ihre Organisation deaktiviert die Erstellung von default-Netzwerken durch Aktivieren der Richtlinieneinschränkung compute.skipDefaultNetworkCreation oder in Ihrem Projekt wurde das default-Netzwerk geändert.

In dieser Anleitung wird davon ausgegangen, dass Sie das default-Netzwerk verwenden. Standardmäßig verwenden Google Cloud -Ressourcen das default-Netzwerk, das den für diese Anleitung erforderlichen Netzwerkzugriff bietet.

Ziel:Wenn ein Batch-Job für eine Nextflow-Pipeline ein anderes Netzwerk verwenden soll, können Sie optional die Datei nextflow.config in diesem Tutorial ändern, um auch das Netzwerk und das Subnetz des Jobs mit den Nextflow-Feldern google.batch.network bzw. google.batch.subnetwork zu definieren. Sie müssen jedoch auch dafür sorgen, dass das Netzwerk und das Subnetz für Ihre Arbeitslast richtig konfiguriert sind. Weitere Informationen finden Sie unter Batch-Netzwerke – Übersicht.

Achten Sie darauf, dass Ihr Projekt mindestens ein Dienstkonto mit den Berechtigungen hat, die zum Ausführen des Batch-Jobs in diesem Tutorial erforderlich sind.

Standardmäßig verwenden Jobs das Compute Engine-Standarddienstkonto, dem automatisch die IAM-Rolle „Editor“ (roles/editor) zugewiesen wird und das bereits alle für dieses Tutorial erforderlichen Berechtigungen hat.

Hinweis:Für diesen Schritt ist keine Aktion erforderlich, es sei denn, Ihre Organisation deaktiviert automatische Berechtigungen für Standarddienstkonten, indem sie die iam.automaticIamGrantsForDefaultServiceAccounts-Richtlinieneinschränkung aktiviert, das Compute Engine-Standarddienstkonto Ihres Projekts wurde geändert oder Sie möchten ein anderes Dienstkonto verwenden.

Damit das Dienstkonto des Jobs die erforderlichen Berechtigungen hat, damit der Batch-Dienst-Agent Ressourcen für Batch-Jobs erstellen und darauf zugreifen kann, bitten Sie Ihren Administrator, dem Dienstkonto des Jobs die folgenden IAM-Rollen zu erteilen:

Wichtig:Sie müssen diese Rollen dem Dienstkonto des Jobs und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rollen nicht dem richtigen Hauptkonto zugewiesen werden, können Berechtigungsfehler auftreten.
- Batch-Agent-Melder (roles/batch.agentReporter) für das Projekt
- Storage-Administrator (roles/storage.admin) für das Projekt
- (Empfohlen) Jobs Logs in Cloud Logging generieren lassen: Log-Autor (roles/logging.logWriter) für das Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Ihr Administrator kann dem Dienstkonto des Jobs möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.

Prüfen Sie, ob Sie die für diese Anleitung erforderlichen Berechtigungen haben.

Hinweis:Wenn Sie das Projekt erstellt haben, das Sie für diese Anleitung verwenden möchten, ist für diesen Schritt keine Aktion erforderlich. Als Projektersteller erhalten Sie automatisch die IAM-Rolle „Inhaber“ (roles/owner), die bereits alle für dieses Tutorial erforderlichen Berechtigungen enthält.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen dieser Anleitung benötigen:
- Batch-Job-Editor (roles/batch.jobsEditor) für das Projekt
- Dienstkontonutzer (roles/iam.serviceAccountUser) für das Dienstkonto des Jobs
- Storage-Objekt-Administrator (roles/storage.objectAdmin) für das Projekt

Installieren Sie Nextflow:

curl -s -L https://github.com/nextflow-io/nextflow/releases/download/v23.04.1/nextflow | bash

Die Ausgabe sollte in etwa so aussehen:

N E X T F L O W
version 23.04.1 build 5866
created 15-04-2023 06:51 UTC
cite doi:10.1038/nbt.3820
http://nextflow.io

Nextflow installation completed. Please note:
- the executable file `nextflow` has been created in the folder: ...
- you may complete the installation by moving it to a directory in your $PATH

Cloud Storage-Bucket erstellen

Verwenden Sie die Google Cloud Console oder die Befehlszeile, um einen Cloud Storage-Bucket zum Speichern temporärer Arbeits- und Ausgabedateien aus der Nextflow-Pipeline zu erstellen.

Konsole

So erstellen Sie einen Cloud Storage-Bucket mit der Google Cloud Console:

Rufen Sie in der Google Cloud Console die Seite Buckets auf.

Buckets aufrufen
Klicken Sie auf Erstellen.
Geben Sie auf der Seite Bucket erstellen einen weltweit eindeutigen Namen für den Bucket ein.
Klicken Sie auf Erstellen.
Klicken Sie im Fenster Öffentlicher Zugriff wird verhindert auf Bestätigen.

gcloud

Verwenden Sie den gcloud storage buckets create-Befehl, um mit der Google Cloud CLI einen Cloud Storage-Bucket zu erstellen.

gcloud storage buckets create gs://BUCKET_NAME

Ersetzen Sie BUCKET_NAME durch einen global eindeutigen Namen für Ihren Bucket.

Wenn die Anfrage erfolgreich ist, sollte die Ausgabe in etwa so aussehen:

Creating gs://BUCKET_NAME/...
   ```

Nextflow konfigurieren

So konfigurieren Sie die Nextflow-Pipeline für die Ausführung in Batch:

Klonen Sie das Beispiel-Pipeline-Repository:

git clone https://github.com/nextflow-io/rnaseq-nf.git

Wechseln Sie zum Ordner rnaseq-nf:
```
cd rnaseq-nf
```

Öffnen Sie die Datei nextflow.config.

nano nextflow.config

Die Datei sollte den folgenden gcb-Abschnitt enthalten:

gcb {
  params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa'
  params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq'
  params.multiqc = 'gs://rnaseq-nf/multiqc'
  process.executor = 'google-batch'
  process.container = 'quay.io/nextflow/rnaseq-nf:v1.1'
  workDir = 'gs://BUCKET_NAME/WORK_DIRECTORY'
  google.region  = 'REGION'
}

Führen Sie im Abschnitt gcb folgende Schritte aus:
1. Ersetzen Sie BUCKET_NAME durch den Namen des Cloud Storage-Bucket, den Sie in den vorherigen Schritten erstellt haben.
2. Ersetzen Sie WORK_DIRECTORY durch den Namen eines neuen Ordners, in dem die Pipeline Protokolle und Ausgaben speichern kann.
  
  Geben Sie beispielsweise workDir ein.
3. Ersetzen Sie REGION durch die zu verwendende Region.
  
  Geben Sie beispielsweise us-central1 ein.
4. Fügen Sie nach dem Feld google.region die folgenden Felder ein:
  1. Fügen Sie das Feld google.project hinzu:
```
google.project = 'PROJECT_ID'
```
    Ersetzen Sie PROJECT_ID durch die Projekt-ID des aktuellen Google Cloud Projekts.
  2. Wenn Sie nicht das Compute Engine-Standarddienstkonto als Dienstkonto des Jobs verwenden, fügen Sie das Feld google.batch.serviceAccountEmail hinzu:
```
google.batch.serviceAccountEmail = 'SERVICE_ACCOUNT_EMAIL'
```
    Ersetzen Sie SERVICE_ACCOUNT_EMAIL durch die E-Mail-Adresse des Dienstkontos des Jobs, das Sie für dieses Tutorial vorbereitet haben.
  Ziel :Informationen zu allen Feldern, die Sie zum Konfigurieren des Batch-Jobs für eine Nextflow-Pipeline angeben können, finden Sie in der Nextflow-Dokumentation zum Batch-Konfigurationsbereich.
So speichern Sie Ihre Änderungen:
1. Drücken Sie Control+S.
2. Geben Sie Y ein.
3. Drücken Sie Enter.

Pipeline ausführen

Führen Sie die Nextflow-Beispielpipeline über die Befehlszeile aus:

../nextflow run nextflow-io/rnaseq-nf -profile gcb

Die Pipeline wird mit einem kleinen Dataset und den Einstellungen ausgeführt, die Sie in den vorherigen Schritten angegeben haben. Dieser Vorgang kann bis zu 10 Minuten dauern.

Nachdem die Pipeline ausgeführt wurde, sollte die Ausgabe in etwa so aussehen:

N E X T F L O W  ~  version 23.04.1
Launching `https://github.com/nextflow-io/rnaseq-nf` [crazy_curry] DSL2 - revision: 88b8ef803a [master]
 R N A S E Q - N F   P I P E L I N E
 ===================================
 transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
 reads        : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
 outdir       : results

Uploading local `bin` scripts folder to gs://example-bucket/workdir/tmp/53/2847f2b832456a88a8e4cd44eec00a/bin
executor >  google-batch (4)
[67/71b856] process > RNASEQ:INDEX (transcript)     [100%] 1 of 1 ✔
[0c/2c79c6] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[a9/571723] process > RNASEQ:QUANT (gut)            [100%] 1 of 1 ✔
[9a/1f0dd4] process > MULTIQC                       [100%] 1 of 1 ✔

Done! Open the following report in your browser --> results/multiqc_report.html

Completed at: 20-Apr-2023 15:44:55
Duration    : 10m 13s
CPU hours   : (a few seconds)
Succeeded   : 4

Ausgaben der Pipeline ansehen

Nach Abschluss der Pipeline werden Ausgabedateien, Logs, Fehler oder temporäre Dateien in der Datei results/qc_report.html im Ordner WORK_DIRECTORY Ihres Cloud Storage-Buckets gespeichert.

Wenn Sie die Ausgabedateien der Pipeline im Ordner WORK_DIRECTORY Ihres Cloud Storage-Buckets prüfen möchten, können Sie die Google Cloud -Konsole oder die Befehlszeile verwenden.

Konsole

So prüfen Sie die Ausgabedateien der Pipeline mit der Google Cloud Console:

Rufen Sie in der Google Cloud Console die Seite Buckets auf.

Buckets aufrufen
Klicken Sie in der Spalte Name auf den Namen des Buckets, den Sie in den vorherigen Schritten erstellt haben.
Öffnen Sie auf der Seite Bucket-Details den Ordner WORK_DIRECTORY.

Für jede Aufgabe, die im Workflow ausgeführt wird, gibt es einen Ordner. Jeder Ordner enthält die ausgeführten Befehle, die Ausgabedateien und die temporären Dateien, die von der Pipeline erstellt wurden.

gcloud

Wenn Sie die Ausgabedateien der Pipeline mit der gcloud CLI prüfen möchten, verwenden Sie den Befehl gcloud storage ls.

gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY

Ersetzen Sie Folgendes:

BUCKET_NAME: der Name des Buckets, den Sie in den vorherigen Schritten erstellt haben.
WORK_DIRECTORY: Das Verzeichnis, das Sie in der Datei nextflow.config angegeben haben.

In der Ausgabe wird für jede einzelne Aufgabe, die in der Pipeline ausgeführt wurde, ein Ordner aufgeführt. Jeder Ordner enthält die ausgeführten Befehle, die Ausgabedateien und die temporären Dateien, die von der Pipeline erstellt wurden.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das aktuelle Projekt löschen.

Verwenden Sie zum Löschen des aktuellen Projekts die Google Cloud Console oder die gcloud CLI.

Konsole

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Delete a Google Cloud project:

gcloud projects delete PROJECT_ID

gcloud

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Delete a Google Cloud project:

gcloud projects delete PROJECT_ID

Einzelne Ressourcen löschen

Wenn Sie das aktuelle Projekt weiterhin verwenden möchten, löschen Sie die einzelnen Ressourcen, die in dieser Anleitung verwendet werden.

Bucket löschen

Wenn Sie den in dieser Anleitung verwendeten Bucket nicht mehr benötigen, löschen Sie ihn.

Ausgabedateien im Bucket löschen

Nach Abschluss der Pipeline werden Ausgabedateien im Ordner WORK_DIRECTORY Ihres Cloud Storage-Buckets erstellt und gespeichert.

Wenn Sie die Cloud Storage-Gebühren für das aktuelleGoogle Cloud -Konto senken möchten, können Sie den Ordner mit den Ausgabedateien der Pipeline über die Google Cloud -Konsole oder die Befehlszeile löschen.

Konsole

So löschen Sie den Ordner WORK_DIRECTORY und alle Ausgabedateien aus Ihrem Cloud Storage-Bucket über dieGoogle Cloud Console:

Rufen Sie in der Google Cloud Console die Seite Buckets auf.

Buckets aufrufen
Klicken Sie in der Spalte Name auf den Namen des Buckets, den Sie in den vorherigen Schritten erstellt haben.
Wählen Sie auf der Seite Bucket-Details die Zeile mit dem Ordner WORK_DIRECTORY aus und gehen Sie dann so vor:
1. Klicken Sie auf Löschen.
2. Geben Sie zur Bestätigung DELETE ein und klicken Sie dann auf Löschen.

gcloud

Wenn Sie den Ordner WORK_DIRECTORY und alle Ausgabedateien aus Ihrem Cloud Storage-Bucket mit der gcloud CLI löschen möchten, verwenden Sie den Befehl gcloud storage rm mit dem Flag --recursive.

gcloud storage rm gs://BUCKET_NAME/WORK_DIRECTORY \
      --recursive

Ersetzen Sie Folgendes:

BUCKET_NAME: Der Name des Buckets, den Sie in den vorherigen Schritten angegeben haben.
WORK_DIRECTORY: Das Verzeichnis zum Speichern der Pipeline-Ausgabedateien, die Sie in den vorherigen Schritten angegeben haben.

Nächste Schritte

Weitere Informationen zum Bereitstellen von Nextflow-Workflows finden Sie im Nextflow GitHub-Repository.
Weitere Informationen zu Nextflow-Prozessen, ‑Scripting und ‑Konfigurationsoptionen finden Sie in der Nextflow-Dokumentation.

Aufträge mit Nextflow-Pipelines in Batch orchestrieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Ziele

Kosten

Hinweise

Cloud Storage-Bucket erstellen

Konsole

gcloud

Nextflow konfigurieren

Pipeline ausführen

Ausgaben der Pipeline ansehen

Konsole

gcloud

Bereinigen

Projekt löschen

Konsole

gcloud

Einzelne Ressourcen löschen

Bucket löschen

Ausgabedateien im Bucket löschen

Konsole

gcloud

Nächste Schritte

Aufträge mit Nextflow-Pipelines in Batch orchestrieren