這個資料集由 Simons 基因體多樣性專案 (SGDP) 提供,內含來自 127 個不同人口族群的 279 種基因體,均開放給大眾使用。如需完整詳細資料,請參閱下列出版品:
- 先導出版品:阿爾泰山脈尼安德塔人的完整基因體序列
- 完整資料集出版品:Simons 基因體多樣性專案:來自 142 個不同人口族群的 300 種基因體
資料集存取權
Cloud Storage 資料夾
您可在 genomics-public-data
Cloud Storage 值區中找到下列檔案:
BigQuery 資料集
您可以在 BigQuery 中存取下列資料集,以探索及查詢資料:
- 變體:bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- 範例屬性:bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- 範例中繼資料:bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
關於資料集
完整資料集包含 279 種基因體
SGSP README 中的公開 VCF 檔案已擷取至 Cloud Storage 值區 gs://genomics-public-data/simons-genome-diversity-project。
然後,系統會將檔案匯入至 Cloud Life Sciences,並將變異基因段匯出至 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants。
您可以使用下列指令,將範例中繼資料載入至 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata:
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
範例中繼資料不會使用與 VCF 相同的範例 ID,同時也會少一列。該中繼資料的範例屬性已從 http://www.ebi.ac.uk/ena/data/view/PRJEB9586 下載,並重塑為 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes。這項操作是使用 wrangle-simons-sample-attributes.R
指令碼完成。指令碼會重新對應三個範例,這三個範例在來源 VCF 中的 ID 與在 EBI 中的對應 Illumina ID 屬性不相符。
使用:任何人都可以公開使用這個資料集,但使用者必須遵守資料集來源提供的條款 (https://www.hms.harvard.edu、https://www.simonsfoundation.org/simons-genome-diversity-project/)。該資料集係以「現狀」提供,Google 並不提供任何明示或默示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。