Genome Aggregation Database

La Genome Aggregation Database (gnomAD) se mantiene mediante una coalición internacional de investigadores para agregar y armonizar los datos de proyectos de secuencia a gran escala.

Estos conjuntos de datos públicos están disponibles en formato VCF en los buckets de Cloud Storage y en BigQuery como tablas particionadas con rango de números enteros. Cada conjunto de datos se fragmenta por cromosoma, lo que significa que las variantes se distribuyen en 24 tablas (indicadas con el sufijo “__chr*”). El uso de tablas fragmentadas reduce significativamente los costos de consulta.

Se usó Variant Transforms para procesar estos archivos VCF y, luego, importarlos a BigQuery. Las anotaciones de VEP se analizaron en columnas separadas para facilitar el análisis con la compatibilidad con anotaciones de Variant Transforms.

Acceso al conjunto de datos

Carpetas de Cloud Storage

Los siguientes archivos están disponibles en el depósito gcp-public-data--gnomad de Cloud Storage:

Conjuntos de datos de BigQuery

Puedes acceder al conjunto de datos de gnomAD en BigQuery para explorar y consultar los siguientes datos:

  • Versión 2.1.1 de exomas
  • Versión 2.1.1 de genomas
  • Versión 3.0 de genomas

El conjunto de datos también está disponible en las siguientes regiones:

Acerca del conjunto de datos

El conjunto de datos v2 (GRCh37/hg19) abarca 125,748 secuencias de exoma, y 15,708 secuencias de genoma completo de personas no relacionadas, que forman parte de varios estudios genéticos específicos de la enfermedad y de la población. El conjunto de datos v3 (GRCh38) abarca 71,702 genomas, seleccionados como en v2.

En Google Cloud Marketplace, encontrarás más información sobre el conjunto de datos de BigQuery y las consultas de muestra.

Fuente del conjunto de datos:

Uso: consulta el sitio del Broad Institute para conocer todas las condiciones de uso del conjunto de datos. Los datos se proporcionan “COMO ESTÁN” sin ninguna garantía, expresa o implícita, de Google. Google rehúsa toda responsabilidad por cualquier daño, directo o indirecto, como resultado del uso de estos conjuntos de datos.