參照基因體,如 GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 與 b37,皆可在 Google Cloud上取得。
資料集存取權
Cloud Storage 資料夾
您可在 genomics-public-data
Cloud Storage 值區中找到下列檔案:
關於資料集
資料集來源:
GRCh37:人類基因組序列第 37 版 (Genome Reference Consortium Human Build 37) 包含來自以下檔案的資料:
如要進一步瞭解 GRCh37 資料,請參閱 GRCh37 NCBI 文件和 FTP README。
GRCh37lite:GRCh37lite 是完整 GRCh37 參考集的子集,加上人類粒線體基因體參考序列的單一檔案:
如要進一步瞭解 GRCh37lite 資料,請參閱 FTP README。
GRCh38:人類基因組序列第 38 版 (Genome Reference Consortium Human Build 38) 包含來自以下檔案的資料:
如要進一步瞭解 GRCh38 資料,請參閱 GRCh38 NCBI 文件和 FTP README。
Verily 的 GRCh38:Verily 的 GRCh38 參考基因體與常染色體中的任何 b38 基因體完全相容。其具有以下特徵:
- 排除所有修補序列
- 省略替代的單倍型染色體
- 包含誘餌序列
- 遮蓋中節區域的重複版本
基礎組合為 GRCh38_no_alt_plus_hs38d1,專為分析所建立。其基本原理和確切的基因修改記錄在其 README 檔案中。
Verily 將以下修改應用於基本組合:
參考區隔名稱的前置字串為
chr
。許多其他資料檔案是由 GENCODE 提供,使用命名慣例「chr」。根據 VCF 4.3 規格的建議,所有 74 個擴充 IUPAC 碼都被轉換為以第一個相符字母為基礎的配對。
該基因體參考版本命名為
GRCh38_Verily_v1
。
hg19:與 GRCh37 類似,這是 2009 年 2 月的人類基因體組合,具有不同的粒線體序列和其他單倍型組合。hg19 資料是由 UCSC FTP 網站託管。
如要進一步瞭解 hg19 資料,請參閱 FTP README。
hs37d5:包括來自 GRCh37 的 rCRS 粒線體序列、人類皰疹病毒 4 第 1 型及串聯誘餌序列。資料位於 hs37d5.fa.gz 檔案中,在 EBI FTP 網站託管。
如要進一步瞭解 hs37d5 資料,請參閱 FTP README。
b37:GATK 軟體的部分版本包含了 b37 參考基因體,同時也包含 GRCh37 資料、rCRS 粒線體序列與人類皰疹病毒 4 第 1 型。b37 資料集在 Broad Institute FTP 網站託管。
如要進一步瞭解 b37,請參閱 GATK FAQs。
使用:這些資料集開放給任何人使用,但使用者必須遵循資料集來源提供的條款 (https://www.ncbi.nlm.nih.gov/、https://cse.ucsc.edu/、http://www.internationalgenome.org/data、https://www.broadinstitute.org/),且資料集內容是按「原樣」提供,Google 並不提供任何明示或暗示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。