Halaman ini diterjemahkan oleh Cloud Translation API.

Menjalankan Sentieon® DNASeq®

Halaman ini menjelaskan cara menjalankan Sentieon® DNASeq® sebagai Google Cloud pipeline untuk analisis genom sekunder. Pipeline ini cocok dengan hasil berikut dari Genome Analysis Toolkit (GATK) Best Practices versi 3.7:

Perataan
Pengurutan
Penghapusan duplikat
Kalibrasi ulang skor kualitas dasar (BQSR)
Penentuan varian

Format input mencakup hal berikut:

File fastq
File BAM yang disejajarkan dan diurutkan

Tujuan

Setelah menyelesaikan tutorial ini, Anda akan mengetahui cara:

Menjalankan pipeline di Google Cloud menggunakan Sentieon® DNASeq®
Menulis file konfigurasi untuk berbagai kasus penggunaan DNASeq® Sentieon®

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Compute Engine
Cloud Storage

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

Instal Python 2.7+. Untuk mengetahui informasi selengkapnya tentang cara menyiapkan lingkungan pengembangan Python, seperti menginstal pip di sistem Anda, lihat Panduan Penyiapan Lingkungan Pengembangan Python.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Enable the APIs

Install the Google Cloud CLI.
Konfigurasi gcloud CLI untuk menggunakan identitas gabungan Anda.

Untuk mengetahui informasi selengkapnya, lihat Login ke gcloud CLI dengan identitas gabungan Anda.
Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:
```
gcloud init
```
Setelah melakukan inisialisasi gcloud CLI, update dan instal komponen yang diperlukan:
```
gcloud components update
gcloud components install beta
```
Instal git untuk mendownload file yang diperlukan.
Download git
Secara default, Compute Engine memiliki kuota resource untuk mencegah penggunaan yang tidak disengaja. Dengan meningkatkan kuota, Anda dapat meluncurkan lebih banyak mesin virtual secara bersamaan, sehingga meningkatkan throughput dan mengurangi waktu penyelesaian.
Untuk mendapatkan hasil terbaik dalam tutorial ini, Anda harus meminta kuota tambahan di atas default project Anda. Rekomendasi untuk penambahan kuota diberikan dalam daftar berikut bersama dengan kuota minimum yang diperlukan untuk menjalankan tutorial. Buat permintaan kuota Anda di region us-central1:
- CPU: 64
- Persistent Disk Standard (GB): 375
Anda dapat mengosongkan kolom permintaan kuota lainnya untuk mempertahankan kuota saat ini.

Lisensi evaluasi Sentieon®

Saat menggunakan pipeline ini, Sentieon® secara otomatis memberi Anda lisensi evaluasi gratis selama dua minggu untuk software-nya agar dapat digunakan dengan Google Cloud. Untuk menerima lisensi, masukkan alamat email Anda di kolom EMAIL saat mengonfigurasi pipeline. Lihat Memahami format input untuk mengetahui informasi tentang cara menyetel kolom ini.

Untuk terus menggunakan Sentieon® setelah masa berlaku lisensi evaluasi berakhir, hubungi support@sentieon.com.

Menyiapkan lingkungan lokal dan menginstal prasyarat

Jika Anda tidak memiliki virtualenv, jalankan perintah berikut untuk menginstalnya menggunakan pip:
```
pip install virtualenv
```

Jalankan perintah berikut untuk membuat lingkungan Python yang terisolasi dan menginstal dependensi:

virtualenv env
source env/bin/activate
pip install --upgrade \
    pyyaml \
    google-api-python-client \
    google-auth \
    google-cloud-storage \
    google-auth-httplib2

Mendownload skrip pipeline

Jalankan perintah berikut untuk mendownload file contoh dan menetapkan direktori Anda saat ini:

git clone https://github.com/sentieon/sentieon-google-genomics.git
cd sentieon-google-genomics

Memahami format input

Pipeline menggunakan parameter yang ditentukan dalam file JSON sebagai inputnya.

Di repositori yang Anda download, ada file examples/example.json dengan konten berikut:

{
  "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
  "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID"
  "REQUESTER_PROJECT": "PROJECT_ID",
  "EMAIL": "YOUR_EMAIL_HERE"
}

Tabel berikut menjelaskan kunci JSON dalam file:

Kunci JSON	Deskripsi
`FQ1`	Pasangan bacaan pertama dalam file fastq input.
`FQ2`	Pasangan bacaan kedua dalam file fastq input.
`BAM`	File BAM input, jika ada.
`REF`	Genom referensi. Jika disetel, file indeks fastq/BAM diasumsikan ada.
`OUTPUT_BUCKET`	Bucket dan direktori yang digunakan untuk menyimpan output data dari pipeline.
`ZONES`	Daftar zona Google Cloud yang dipisahkan koma untuk digunakan pada node pekerja.
`PROJECT_ID`	ID project Google Cloud Anda.
`REQUESTER_PROJECT`	Project yang akan ditagih saat mentransfer data dari bucket Requester Pays.
`EMAIL`	Alamat email Anda.

Menjalankan pipeline

Di direktori sentieon-google-genomics, edit file examples/example.json, dengan mengganti variabel BUCKET, REQUESTER_PROJECT, EMAIL, dan PROJECT_ID dengan resource yang relevan dari project Google Cloud Anda:

{
  "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
  "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID",
  "REQUESTER_PROJECT": "PROJECT_ID",
  "EMAIL": "EMAIL_ADDRESS"
}

Tetapkan variabel PROJECT_ID di lingkungan Anda:
```
export PROJECT_ID=PROJECT_ID
```
Jalankan perintah berikut untuk menjalankan pipeline DNASeq® pada set data pengujian kecil yang diidentifikasi oleh input dalam file konfigurasi. Secara default, skrip memverifikasi bahwa file input ada di bucket Cloud Storage Anda sebelum memulai pipeline.
```
python runner/sentieon_runner.py --requester_project $PROJECT_ID examples/example.json
```

Jika Anda menentukan beberapa percobaan preemptible, pipeline akan dimulai ulang setiap kali instance-nya di-preempt. Setelah pipeline selesai, pipeline akan menampilkan pesan ke konsol yang menyatakan apakah pipeline berhasil atau gagal.

Konfigurasi yang direkomendasikan

Untuk sebagian besar situasi, Anda dapat mengoptimalkan waktu penyelesaian dan biaya menggunakan konfigurasi berikut. Konfigurasi ini menjalankan genom manusia 30x dengan biaya sekitar $1,25 dan memerlukan waktu sekitar 2 jam. Seluruh ekson manusia berbiaya sekitar $0,35 dan memerlukan waktu sekitar 45 menit. Kedua perkiraan ini didasarkan pada instance pipeline yang tidak di-preempt.

{
  "FQ1": "gs://my-bucket/sample1_1.fastq.gz",
  "FQ2": "gs://my-bucket/sample1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "BQSR_SITES": "gs://sentieon-test/pipeline_test/reference/Mills_and_1000G_gold_standard.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/1000G_phase1.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz",
  "DBSNP": "gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz",
  "PREEMPTIBLE_TRIES": "2",
  "NONPREEMPTIBLE_TRY": true,
  "STREAM_INPUT": "True",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID",
  "EMAIL": "EMAIL_ADDRESS"
}

Opsi tambahan

Anda dapat menyesuaikan pipeline menggunakan opsi tambahan berikut.

Opsi file input

Pipeline ini mendukung beberapa file fastq yang dipisahkan koma sebagai input, seperti yang ditunjukkan oleh konfigurasi berikut:

"FQ1": "gs://my-bucket/s1_prep1_1.fastq.gz,gs://my-bucket/s1_prep2_1.fastq.gz",
"FQ2": "gs://my-bucket/s1_prep1_2.fastq.gz,gs://my-bucket/s1_prep2_2.fastq.gz",

Pipeline menerima file BAM yang dipisahkan koma sebagai input menggunakan kunci JSON BAM. Pembacaan dalam file BAM tidak disejajarkan dengan genom referensi. Sebagai gantinya, mereka memulai di tahap penghapusan duplikat data dalam pipeline. Contoh berikut menunjukkan konfigurasi yang menggunakan dua file BAM sebagai input:

"BAM": "gs://my-bucket/s1_prep1.bam,gs://my-bucket/s1_prep2.bam"

Konfigurasi data whole-exome atau set data besar

Setelan dalam konfigurasi yang direkomendasikan dioptimalkan untuk sampel seluruh genom manusia yang diurutkan hingga cakupan rata-rata 30x. Untuk file yang jauh lebih kecil atau lebih besar daripada set data genom utuh standar, Anda dapat menambah atau mengurangi resource yang tersedia untuk instance. Untuk hasil terbaik dengan set data besar, gunakan setelan berikut:

{
  "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
  "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID",
  "EMAIL": "EMAIL_ADDRESS",
  "DISK_SIZE": 600,
  "MACHINE_TYPE": "n1-highcpu-64",
  "CPU_PLATFORM": "Intel Broadwell"
}