參考基因體

參照基因體,如 GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 與 b37,皆可在 Google Cloud上取得。

資料集存取權

Cloud Storage 資料夾

您可在 genomics-public-data Cloud Storage 值區中找到下列檔案:

關於資料集

資料集來源

  • GRCh37:人類基因組序列第 37 版 (Genome Reference Consortium Human Build 37) 包含來自以下檔案的資料:

    如要進一步瞭解 GRCh37 資料,請參閱 GRCh37 NCBI 文件FTP README

  • GRCh37lite:GRCh37lite 是完整 GRCh37 參考集的子集,加上人類粒線體基因體參考序列的單一檔案:

    如要進一步瞭解 GRCh37lite 資料,請參閱 FTP README

  • GRCh38:人類基因組序列第 38 版 (Genome Reference Consortium Human Build 38) 包含來自以下檔案的資料:

    如要進一步瞭解 GRCh38 資料,請參閱 GRCh38 NCBI 文件FTP README

  • Verily 的 GRCh38:Verily 的 GRCh38 參考基因體與常染色體中的任何 b38 基因體完全相容。其具有以下特徵:

    • 排除所有修補序列
    • 省略替代的單倍型染色體
    • 包含誘餌序列
    • 遮蓋中節區域的重複版本

    基礎組合為 GRCh38_no_alt_plus_hs38d1,專為分析所建立。其基本原理和確切的基因修改記錄在其 README 檔案中。

    Verily 將以下修改應用於基本組合:

    • 參考區隔名稱的前置字串為 chr。許多其他資料檔案是由 GENCODE 提供,使用命名慣例「chr」。

    • 根據 VCF 4.3 規格的建議,所有 74 個擴充 IUPAC 碼都被轉換為以第一個相符字母為基礎的配對。

    • 該基因體參考版本命名為 GRCh38_Verily_v1

  • hg19:與 GRCh37 類似,這是 2009 年 2 月的人類基因體組合,具有不同的粒線體序列和其他單倍型組合。hg19 資料是由 UCSC FTP 網站託管。

    如要進一步瞭解 hg19 資料,請參閱 FTP README

  • hs37d5:包括來自 GRCh37 的 rCRS 粒線體序列、人類皰疹病毒 4 第 1 型及串聯誘餌序列。資料位於 hs37d5.fa.gz 檔案中,在 EBI FTP 網站託管。

    如要進一步瞭解 hs37d5 資料,請參閱 FTP README

  • b37:GATK 軟體的部分版本包含了 b37 參考基因體,同時也包含 GRCh37 資料、rCRS 粒線體序列與人類皰疹病毒 4 第 1 型。b37 資料集Broad Institute FTP 網站託管。

    如要進一步瞭解 b37,請參閱 GATK FAQs

使用:這些資料集開放給任何人使用,但使用者必須遵循資料集來源提供的條款 (https://www.ncbi.nlm.nih.gov/https://cse.ucsc.edu/http://www.internationalgenome.org/datahttps://www.broadinstitute.org/),且資料集內容是按「原樣」提供,Google 並不提供任何明示或暗示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。