基因體匯總資料庫

Genome Aggregation Database (gnomAD) 由國際研究人員聯盟維護,用於匯總及協調大型定序專案的資料。

這些公開資料集以 VCF 格式提供,可在 Cloud Storage 值區和 BigQuery 中以整數範圍分區表格形式使用。每個資料集都會依染色體分割,也就是說變體會分散在 24 個資料表中 (以「__chr*」字尾表示)。使用分割資料表可大幅降低查詢成本。

我們使用變體轉換工具處理這些 VCF 檔案,並將檔案匯入 BigQuery。我們將 VEP 註解剖析成個別欄,方便使用 Variant Transforms 的註解支援功能進行分析。

資料集存取權

Cloud Storage 資料夾

您可在 gcp-public-data--gnomad Cloud Storage 值區中找到下列檔案:

BigQuery 資料集

您可以在 BigQuery 中存取 gnomAD 資料集,探索及查詢下列資料:

  • 發布 2.1.1 版 exome
  • 發布 2.1.1 基因體
  • 發布 3.0 版基因體

資料集也適用於下列區域:

資料集簡介

在 v2 資料集 (GRCh37/hg19) 中,有 125,748 個外顯子序列和 15,708 個全基因體序列,這些序列來自不同疾病和族群基因研究的非親屬個體。第 3 版資料集 (GRCh38) 涵蓋 71,702 個基因體,與第 2 版相同。

如要進一步瞭解 BigQuery 資料集和範例查詢,請前往 Google Cloud Marketplace

資料集來源

使用:如需資料集的完整使用條款,請參閱 Broad Institute 網站。資料是按「原樣」提供,Google 並不提供任何明示或默示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。