Simons 基因體多樣性專案

這個資料集由 Simons 基因體多樣性專案 (SGDP) 提供,內含來自 127 個不同人口族群的 279 種基因體,均開放給大眾使用。如需完整詳細資料,請參閱下列出版品:

資料集存取權

Cloud Storage 資料夾

您可在 genomics-public-data Cloud Storage 值區中找到下列檔案:

BigQuery 資料集

您可以在 BigQuery 中存取下列資料集,以探索及查詢資料:

關於資料集

完整資料集包含 279 種基因體

SGSP README 中的公開 VCF 檔案已擷取至 Cloud Storage 值區 gs://genomics-public-data/simons-genome-diversity-project

然後,系統會將檔案匯入至 Cloud Life Sciences,並將變異基因段匯出至 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants

您可以使用下列指令,將範例中繼資料載入至 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

範例中繼資料不會使用與 VCF 相同的範例 ID,同時也會少一列。該中繼資料的範例屬性已從 http://www.ebi.ac.uk/ena/data/view/PRJEB9586 下載,並重塑為 BigQuery 資料表 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes。這項操作是使用 wrangle-simons-sample-attributes.R 指令碼完成。指令碼會重新對應三個範例,這三個範例在來源 VCF 中的 ID 與在 EBI 中的對應 Illumina ID 屬性不相符。

使用:任何人都可以公開使用這個資料集,但使用者必須遵守資料集來源提供的條款 (https://www.hms.harvard.eduhttps://www.simonsfoundation.org/simons-genome-diversity-project/)。該資料集係以「現狀」提供,Google 並不提供任何明示或默示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。