Il Genome Aggregation Database (gnomAD) è gestito da una coalizione internazionale di ricercatori per aggregare e armonizzare i dati di progetti di sequenziamento su larga scala.
Questi set di dati pubblici sono disponibili in formato VCF nei bucket Cloud Storage e in BigQuery come tabelle partizionate con intervallo di numeri interi. Ogni set di dati è suddiviso in base al cromosoma, il che significa che le varianti sono distribuite su 24 tabelle (indicate con il suffisso "__chr*"). L'utilizzo delle tabelle suddivise in parti riduce notevolmente i costi delle query.
È stato utilizzato Variant Transforms per elaborare questi file VCF e importarli in BigQuery. Le annotazioni VEP sono state analizzate in colonne separate per facilitare l'analisi utilizzando il supporto delle annotazioni di Variant Transforms.
Accesso a set di dati
Cartelle Cloud Storage
I seguenti file sono disponibili nel bucket Cloud Storage gcp-public-data--gnomad
:
- Dati completi di gnomAD: gs://gcp-public-data--gnomad
- Genomi ed exomi della release 2.1.1: gs://gcp-public-data--gnomad/release/2.1.1
- Genomi della release 3.0: gs://gcp-public-data--gnomad/release/3.0
Set di dati di BigQuery
Puoi accedere al set di dati gnomAD in BigQuery per esplorare i dati ed eseguire query su quanto segue:
- Exomi della release 2.1.1
- Genomi della release 2.1.1
- Genomi della release 3.0
Il set di dati è disponibile anche nelle seguenti regioni:
Informazioni sul set di dati
Il set di dati v2 (GRCh37/hg19) comprende 125.748 sequenze di exomi e 15.708 sequenze di genoma intero di individui non correlati sequenziati nell'ambito di vari studi genetici e specifici per le malattie. Il set di dati della versione 3 (GRCh38) comprende 71.702 genomi, selezionati come nella versione 2.
Ulteriori informazioni sul set di dati BigQuery e sulle query di esempio sono disponibili in Google Cloud Marketplace.
Origine del set di dati:
- gnomAD è ospitato sul sito gnomAD del Broad Institute
Utilizzo: consulta il sito del Broad Institute per i termini di utilizzo completi del set di dati. I dati vengono forniti "COSÌ COM'È" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.