Diese Seite wurde von der Cloud Translation API übersetzt.

Intervall-JOINs mit BigQuery ausführen

Sie können BigQuery verwenden, um eine JOIN-Abfrage über Varianten mit Daten durchzuführen, die durch Intervalle in Genomregionen – sogenannte Überlappungen (Overlaps) – beschrieben werden. Auf dieser Seite wird gezeigt, wie Sie mithilfe einer komplexen JOIN-Abfrage anhand einer Liste mit Genbezeichnungen

die seltenen SNPs überlappenden Gene finden,
über alle DNA-Proben hinweg 100.000 Basenpaare auf jeder Seite eines Gens finden.

In diesem Leitfaden finden Sie Beispiele für drei Abfragen. Jede Abfrage zeigt, wie BigQuery für verschiedene Mengen von genomischen Daten skaliert:

Inline-Tabelle abfragen
Abfrage einer materialisierten Tabelle mit bestimmten Genen
Abfrage einer materialisierten Tabelle mit 250 zufälligen Genen

Die Daten stammen aus der fast neun Milliarden Zeilen umfassenden Tute Genomics Annotation-Tabelle und dem Illumina Platinum Genomes-Dataset. Weitere Informationen zu diesen Datasets finden Sie hier:

Exploring genetic variation with Google Genomics and Tute im Google Cloud Blog
Illumina Platinum Genomes im Abschnitt zu öffentlichen Datasets

Inline-Tabelle abfragen

In diesem Beispiel wird die in der Abfrage definierte Intervalltabelle intervals verwendet. Es wird gezeigt, wie Sie für eine Tabelle, die Varianten aus Illumina Platinum Genomes enthält, eine JOIN-Abfrage ausführen:

Rufen Sie in der Console die Seite „BigQuery“ auf. Google Cloud

Zur Seite "BigQuery"
Klicken Sie auf Abfrage erstellen.

Führen Sie im Feld Neue Abfrage die folgende Abfrage aus:

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- Define an inline table that uses five rows
  -- selected from silver-wall-555.TuteTable.hg19.
  intervals AS (
    SELECT * FROM UNNEST ([
    STRUCT<Gene STRING, Chr STRING, gene_start INT64, gene_end INT64, region_start INT64, region_end INT64>
    ('PRCC', '1', 156736274, 156771607, 156636274, 156871607),
    ('NTRK1', '1', 156785541, 156852640, 156685541, 156952640),
    ('PAX8', '2', 113972574, 114037496, 113872574, 114137496),
    ('FHIT', '3', 59734036, 61238131, 59634036, 61338131),
    ('PPARG', '3', 12328349, 12476853, 12228349, 12576853)
  ])),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

Klicken Sie auf Abfrage ausführen. Die Abfrage dauert ca. zehn Sekunden. Dabei werden rund 334 GB an Daten verarbeitet. Die Abfrage liefert als Ergebnis seltene Varianten innerhalb der Kohorte, die mit den betrachteten Regionen überlappen.

Maximieren Sie den folgenden Abschnitt, um die Ergebnisse der Abfrage zu sehen:

Abfrageergebnisse

Chr	Start	Ref	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	156699757	T	C	Intron	RRNAD1	0,002		2	4
1	156705390	C	T	Intron	RRNAD1	8,0E-4		0	2
1	156714207	T	C	Intron	HDGF	0,003		0	6
1	156714440	A	C	Intron	HDGF	0,0068		0	12
1	156723870	C	T	intergenisch	HDGF,PRCC	0,006		1	2
1	156724456	C	T	intergenisch	HDGF,PRCC	0,002		2	4
1	156733988	C	T	intergenisch	HDGF,PRCC	0,001		1	2
1	156742258	T	G	Intron	PRCC	0,001		2	4
1	156744826	T	G	Intron	PRCC	0,002		0	8
1	156779764	G	A	Intron	SH2D2A	0,001		2	4
1	156783454	A	C	Intron	SH2D2A	0,0014		1	2
1	156786144	C	T	Intron	NTRK1,SH2D2A	0,0031		2	4
1	156790510	A	T	Intron	NTRK1	0,002		1	2
1	156815332	A	C	Intron	INSRR,NTRK1	0,003		0	2
1	156830778	G	A	exonic	NTRK1	0,0067	Missense-Mutation	2	4
1	156842064	C	T	Intron	NTRK1	0,0014		1	2
1	156843438	C	A	exonic	NTRK1	0,0032	Missense-Mutation	1	2
1	156845773	C	T	Intron	NTRK1	0,001		2	4
1	156873318	T	C	Intron	PEAR1	0,01		4	8
1	156922740	G	A	Intron	ARHGEF11	0,007		1	2
1	156930100	C	T	Intron	ARHGEF11	0,001		2	4
2	113901230	G	A	intergenisch	IL1RN,PSD4	0,0082		1	2
2	113953418	C	A	Intron	PSD4	0,001		2	4
2	113967621	G	C	intergenisch	PSD4,PAX8	0,002		0	6
2	113967624	T	C	intergenisch	PSD4,PAX8	0,002		0	2
2	113980967	G	A	Intron	PAX8	0,002		2	4
2	113994010	A	C	ncRNA_exonic	PAX8-AS1	0,001		0	4
2	113997745	C	A	ncRNA_exonic	PAX8-AS1	0,001		2	4
2	114061327	T	C	intergenisch	PAX8,CBWD2	0,001		2	4
2	114084018	A	C	intergenisch	PAX8,CBWD2	0.0045		0	4
2	114099037	G	A	intergenisch	PAX8,CBWD2	0,0051		1	2
2	114105670	A	T	intergenisch	PAX8,CBWD2	0,001		1	2
2	114111325	G	T	intergenisch	PAX8,CBWD2	0,001		1	2
3	12265797	C	T	intergenisch	SYN2,PPARG	0,0089		2	4
3	12277958	A	G	intergenisch	SYN2,PPARG	0,002		1	2
3	12296019	G	A	intergenisch	SYN2,PPARG	0,002		2	4
3	12316549	G	C	intergenisch	SYN2,PPARG	0,002		1	2
3	12335681	T	G	Intron	PPARG	0,0092		2	4
3	12348795	T	C	Intron	PPARG	0,0014		1	2
3	12353106	T	C	Intron	PPARG	0,001		2	4
3	12403825	G	A	Intron	PPARG	0,0051		2	4
3	12404394	G	A	Intron	PPARG	0,001		1	2
3	12410289	G	A	Intron	PPARG	0,008		2	4
3	12431381	C	T	Intron	PPARG	0,0061		2	4
3	12447267	G	A	Intron	PPARG	0,0089		2	4
3	12449379	C	T	Intron	PPARG	0,0092		2	4
3	12450848	C	A	Intron	PPARG	0,0092		2	4
3	12462847	T	C	Intron	PPARG	0,002		1	2
3	12492797	G	A	intergenisch	PPARG,TSEN2	0,01		1	2
3	12503201	G	A	intergenisch	PPARG,TSEN2	0,0099		2	4
3	12530460	A	G	Intron	TSEN2	0,0092		2	4
3	12531167	A	G	Intron	TSEN2	0,0099		2	4
3	12557737	A	G	Intron	TSEN2	0,001		2	4
3	59636143	A	G	intergenisch	C3orf67,FHIT	0,003		3	6
3	59645934	A	C	intergenisch	C3orf67,FHIT	0,004		1	2
3	59646893	G	A	intergenisch	C3orf67,FHIT	0,002		1	2
3	59697024	A	G	intergenisch	C3orf67,FHIT	0,0072		1	2
3	59701013	G	A	intergenisch	C3orf67,FHIT	0,004		2	4
3	59733945	A	G	intergenisch	C3orf67,FHIT	0,001		2	4
3	59747482	C	T	Intron	FHIT	0,001		2	4
3	59750635	A	G	Intron	FHIT	0,003		1	2
3	59757776	C	T	Intron	FHIT	0,001		2	4
3	59770612	G	A	Intron	FHIT	0,001		2	4
3	59804444	G	C	Intron	FHIT	0,001		2	4
3	59819769	T	C	Intron	FHIT	0,001		2	4
3	59884396	C	T	Intron	FHIT	0,001		2	4
3	59960728	A	C	Intron	FHIT	0,01		1	2
3	59970345	G	A	Intron	FHIT	0,002		1	2
3	59972417	T	A	Intron	FHIT	0,0072		0	2
3	60104328	C	A	Intron	FHIT	0,01		2	4
3	60139062	G	A	Intron	FHIT	0,01		0	2
3	60158066	C	T	Intron	FHIT	0,001		1	2
3	60169285	C	T	Intron	FHIT	0,005		1	2
3	60216185	T	C	Intron	FHIT	0,002		1	2
3	60226380	G	A	Intron	FHIT	0,007		2	4
3	60234539	C	A	Intron	FHIT	0,002		1	2
3	60247464	A	C	Intron	FHIT	0,004		2	4
3	60269926	A	G	Intron	FHIT	0,007		2	4
3	60271228	G	T	Intron	FHIT	0,007		2	4
3	60286972	T	C	Intron	FHIT	0,001		2	4
3	60301412	C	G	Intron	FHIT	0,001		1	2
3	60312251	C	T	Intron	FHIT	0,0099		1	2
3	60317682	A	G	Intron	FHIT	0,008		1	2
3	60328557	C	G	Intron	FHIT	0,0043		2	4
3	60342562	C	T	Intron	FHIT	0,006		1	2
3	60400033	G	A	Intron	FHIT	0,004		2	4
3	60435819	C	T	Intron	FHIT	0,006		2	4
3	60435820	G	T	Intron	FHIT	0,004		1	2
3	60441288	T	C	Intron	FHIT	0,006		2	4
3	60444465	C	A	Intron	FHIT	0,01		1	2
3	60444575	C	T	Intron	FHIT	0,001		1	2
3	60450581	T	C	Intron	FHIT	0,01		1	2
3	60456571	G	A	Intron	FHIT	0,001		2	4
3	60473568	C	G	Intron	FHIT	0,001		1	2
3	60487557	T	C	Intron	FHIT	0,001		1	2
3	60559705	A	G	Intron	FHIT	0,002		2	4
3	60570764	T	C	Intron	FHIT	0,008		2	4
3	60582100	C	T	Intron	FHIT	0,001		1	2
3	60587192	G	A	Intron	FHIT	0,004		1	2
3	60599869	G	A	Intron	FHIT	0,0086		2	4
3	60603091	C	T	Intron	FHIT	0,001		2	4
3	60603250	A	T	Intron	FHIT	0,0099		1	2
3	60609831	T	G	Intron	FHIT	0,001		2	4
3	60619756	G	T	Intron	FHIT	0,0015		2	4
3	60680758	C	T	Intron	FHIT	0,0089		2	4
3	60702243	G	C	Intron	FHIT	0,001		2	4
3	60702532	A	G	Intron	FHIT	0,001		1	2
3	60714328	A	T	Intron	FHIT	0,004		1	2
3	60725297	G	A	Intron	FHIT	0,001		1	2
3	60726640	G	A	Intron	FHIT	0,01		2	4
3	60795144	A	G	Intron	FHIT	0,001		2	4
3	60807171	A	G	Intron	FHIT	0,001		1	2
3	60813868	T	C	Intron	FHIT	0,001		1	2
3	60826546	C	G	Intron	FHIT	0,0023		1	2
3	60837392	C	T	Intron	FHIT	0,001		1	2
3	60846310	A	G	Intron	FHIT	0,01		0	2
3	60850985	C	T	Intron	FHIT	0,004		1	2
3	60852559	T	C	Intron	FHIT	0,008		1	2
3	60871759	T	C	Intron	FHIT	0,004		1	2
3	60884396	C	T	Intron	FHIT	0,002		2	4
3	60897092	C	A	Intron	FHIT	0,001		2	4
3	60940759	C	T	Intron	FHIT	0,0089		1	2
3	60982595	A	G	Intron	FHIT	0,003		2	4
3	60999283	G	A	Intron	FHIT	0,001		1	2
3	61042977	A	G	Intron	FHIT	0,001		2	4
3	61043349	T	C	Intron	FHIT	0,001		2	4
3	61044789	A	C	Intron	FHIT	0,001		2	4
3	61141621	G	A	Intron	FHIT	0,003		1	2
3	61148655	G	C	Intron	FHIT	0,001		2	4
3	61170747	C	T	Intron	FHIT	0,003		1	2
3	61189473	C	G	Intron	FHIT	0,0099		1	2
3	61190425	C	T	Intron	FHIT	0,0023		2	4
3	61193853	C	T	Intron	FHIT	0,0099		0	2
3	61194793	C	T	Intron	FHIT	0,007		0	2
3	61194840	A	G	Intron	FHIT	0,0099		0	2
3	61194886	T	A	Intron	FHIT	0,0099		0	2
3	61201777	C	T	Intron	FHIT	0,001		2	4
3	61202292	T	C	Intron	FHIT	0,007		1	2
3	61232806	G	C	Intron	FHIT	0,0099		1	2
3	61232910	C	T	Intron	FHIT	0,0099		1	2
3	61235824	A	T	Intron	FHIT	0,001		2	4
3	61283810	A	C	intergenisch	FHIT,PTPRG	0,0089		1	2
3	61293731	T	A	intergenisch	FHIT,PTPRG	0,0089		2	4
3	61296730	C	T	intergenisch	FHIT,PTPRG	0,001		1	2
3	61326341	C	T	intergenisch	FHIT,PTPRG	0,004		2	4
3	61326620	T	C	intergenisch	FHIT,PTPRG	0,01		1	2
3	61327649	G	C	intergenisch	FHIT,PTPRG	0,001		2	4
3	61330545	G	C	intergenisch	FHIT,PTPRG	0,001		2	4
3	61335803	G	A	intergenisch	FHIT,PTPRG	0,001		2	4

Eine ähnliche Abfrage mit Daten aus 1000 Genomes Phase 3 dauert etwa 90 Sekunden, wobei rund 3,38 TB an Daten verarbeitet werden.

Materialisierte Tabelle verwenden

Wenn Sie mit sehr großen Big-Data-Datasets arbeiten, können Sie eine Intervalltabelle materialisieren und eine JOIN-Abfrage über die neue Tabelle ausführen. Bevor Sie mit dem Rest dieses Abschnitts fortfahren, erstellen Sie ein Dataset. Gehen Sie dazu so vor:

Öffnen Sie in der Console die Seite „BigQuery“. Google Cloud

Zur Seite "BigQuery"
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.

Hinweis: Die Standardeinstellung ist die Vorschau der Cloud Console. Wenn Sie auf Vorschaufunktionen ausblenden geklickt haben, um die allgemein verfügbare Cloud Console aufzurufen, führen Sie stattdessen den folgenden Schritt aus: Wählen Sie im Navigationsbereich im Abschnitt Ressourcen das Projekt aus.
Maximieren Sie die Option Aktionen und klicken Sie auf Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
1. Geben Sie unter Dataset-ID genomics ein.
2. Lassen Sie die anderen Standardeinstellungen unverändert.
3. Klicken Sie auf Dataset erstellen.

Materialisierte Tabelle mit bestimmten Genen abfragen

In den folgenden Schritten wird beschrieben, wie Sie eine neue Intervalltabelle materialisieren, die eine Liste bestimmter Gene aus der Tabelle silver-wall-555:TuteTable.hg19 enthält.

So erstellen Sie die Intervalltabelle:

Öffnen Sie in der Console die Seite „BigQuery“. Google Cloud

Zur Seite "BigQuery"
Klicken Sie auf Abfrage erstellen.

Führen Sie im Feld Neue Abfrage die folgende Abfrage aus. Mit der Abfrage wird ein Teil der Tabelle „silver-wall-555:TuteTable.hg19“ in der neuen Intervalltabelle „genomics.myIntervalTable“ materialisiert.

#standardSQL
CREATE TABLE `genomics.myIntervalTable` AS (
SELECT
  Gene,
  Chr,
  MIN(Start) AS gene_start,
  MAX(`End`) AS gene_end,
  MIN(Start)-100000 AS region_start,
  MAX(`End`)+100000 AS region_end
FROM
  `silver-wall-555.TuteTable.hg19`
WHERE
  Gene IN ('APC', 'ATM', 'BMPR1A', 'BRCA1', 'BRCA2', 'CDK4',
  'CDKN2A', 'CREBBP', 'EGFR', 'EP300', 'ETV6', 'FHIT', 'FLT3',
  'HRAS', 'KIT', 'MET', 'MLH1', 'NTRK1', 'PAX8', 'PDGFRA',
  'PPARG', 'PRCC', 'PRKAR1A', 'PTEN', 'RET', 'STK11',
  'TFE3', 'TGFB1', 'TGFBR2', 'TP53', 'WWOX')
GROUP BY
  Chr,
  Gene );

Klicken Sie auf Abfrage ausführen. Die Abfrage gibt das folgende Ergebnis zurück:

This statement created a new table named PROJECT_ID:genomics.myIntervalTable.

Führen Sie im Feld Neue Abfrage die folgende Abfrage aus:

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    `genomics.myIntervalTable` AS intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

Maximieren Sie den folgenden Abschnitt, um die Ergebnisse der Abfrage zu sehen:

Abfrageergebnisse

Chr	Start	Ref	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	156699757	T	C	Intron	RRNAD1	0,002		2	4
1	156705390	C	T	Intron	RRNAD1	8,0E-4		0	2
1	156714207	T	C	Intron	HDGF	0,003		0	6
1	156714440	A	C	Intron	HDGF	0,0068		0	12
1	156723870	C	T	intergenisch	HDGF,PRCC	0,006		1	2
1	156724456	C	T	intergenisch	HDGF,PRCC	0,002		2	4
1	156733988	C	T	intergenisch	HDGF,PRCC	0,001		1	2
1	156742258	T	G	Intron	PRCC	0,001		2	4
1	156744826	T	G	Intron	PRCC	0,002		0	8
1	156779764	G	A	Intron	SH2D2A	0,001		2	4
1	156783454	A	C	Intron	SH2D2A	0,0014		1	2
1	156786144	C	T	Intron	NTRK1,SH2D2A	0,0031		2	4
1	156790510	A	T	Intron	NTRK1	0,002		1	2
1	156815332	A	C	Intron	INSRR,NTRK1	0,003		0	2
1	156830778	G	A	exonic	NTRK1	0,0067	Missense-Mutation	2	4
1	156842064	C	T	Intron	NTRK1	0,0014		1	2
1	156843438	C	A	exonic	NTRK1	0,0032	Missense-Mutation	1	2
1	156845773	C	T	Intron	NTRK1	0,001		2	4
1	156873318	T	C	Intron	PEAR1	0,01		4	8
1	156922740	G	A	Intron	ARHGEF11	0,007		1	2
1	156930100	C	T	Intron	ARHGEF11	0,001		2	4
2	113901230	G	A	intergenisch	IL1RN,PSD4	0,0082		1	2
2	113953418	C	A	Intron	PSD4	0,001		2	4
2	113967621	G	C	intergenisch	PSD4,PAX8	0,002		0	6
2	113967624	T	C	intergenisch	PSD4,PAX8	0,002		0	2
2	113980967	G	A	Intron	PAX8	0,002		2	4
2	113994010	A	C	ncRNA_exonic	PAX8-AS1	0,001		0	4
2	113997745	C	A	ncRNA_exonic	PAX8-AS1	0,001		2	4
2	114061327	T	C	intergenisch	PAX8,CBWD2	0,001		2	4
2	114084018	A	C	intergenisch	PAX8,CBWD2	0.0045		0	4
2	114099037	G	A	intergenisch	PAX8,CBWD2	0,0051		1	2
2	114105670	A	T	intergenisch	PAX8,CBWD2	0,001		1	2
2	114111325	G	T	intergenisch	PAX8,CBWD2	0,001		1	2
3	12265797	C	T	intergenisch	SYN2,PPARG	0,0089		2	4
3	12277958	A	G	intergenisch	SYN2,PPARG	0,002		1	2
3	12296019	G	A	intergenisch	SYN2,PPARG	0,002		2	4
3	12316549	G	C	intergenisch	SYN2,PPARG	0,002		1	2
3	12335681	T	G	Intron	PPARG	0,0092		2	4
3	12348795	T	C	Intron	PPARG	0,0014		1	2
3	12353106	T	C	Intron	PPARG	0,001		2	4
3	12403825	G	A	Intron	PPARG	0,0051		2	4
3	12404394	G	A	Intron	PPARG	0,001		1	2
3	12410289	G	A	Intron	PPARG	0,008		2	4
3	12431381	C	T	Intron	PPARG	0,0061		2	4
3	12447267	G	A	Intron	PPARG	0,0089		2	4
3	12449379	C	T	Intron	PPARG	0,0092		2	4
3	12450848	C	A	Intron	PPARG	0,0092		2	4
3	12462847	T	C	Intron	PPARG	0,002		1	2
3	12492797	G	A	intergenisch	PPARG,TSEN2	0,01		1	2
3	12503201	G	A	intergenisch	PPARG,TSEN2	0,0099		2	4
3	12530460	A	G	Intron	TSEN2	0,0092		2	4
3	12531167	A	G	Intron	TSEN2	0,0099		2	4
3	12557737	A	G	Intron	TSEN2	0,001		2	4
3	59636143	A	G	intergenisch	C3orf67,FHIT	0,003		3	6
3	59645934	A	C	intergenisch	C3orf67,FHIT	0,004		1	2
3	59646893	G	A	intergenisch	C3orf67,FHIT	0,002		1	2
3	59697024	A	G	intergenisch	C3orf67,FHIT	0,0072		1	2
3	59701013	G	A	intergenisch	C3orf67,FHIT	0,004		2	4
3	59733945	A	G	intergenisch	C3orf67,FHIT	0,001		2	4
3	59747482	C	T	Intron	FHIT	0,001		2	4
3	59750635	A	G	Intron	FHIT	0,003		1	2
3	59757776	C	T	Intron	FHIT	0,001		2	4
3	59770612	G	A	Intron	FHIT	0,001		2	4
3	59804444	G	C	Intron	FHIT	0,001		2	4
3	59819769	T	C	Intron	FHIT	0,001		2	4
3	59884396	C	T	Intron	FHIT	0,001		2	4
3	59960728	A	C	Intron	FHIT	0,01		1	2
3	59970345	G	A	Intron	FHIT	0,002		1	2
3	59972417	T	A	Intron	FHIT	0,0072		0	2
3	60104328	C	A	Intron	FHIT	0,01		2	4
3	60139062	G	A	Intron	FHIT	0,01		0	2
3	60158066	C	T	Intron	FHIT	0,001		1	2
3	60169285	C	T	Intron	FHIT	0,005		1	2
3	60216185	T	C	Intron	FHIT	0,002		1	2
3	60226380	G	A	Intron	FHIT	0,007		2	4
3	60234539	C	A	Intron	FHIT	0,002		1	2
3	60247464	A	C	Intron	FHIT	0,004		2	4
3	60269926	A	G	Intron	FHIT	0,007		2	4
3	60271228	G	T	Intron	FHIT	0,007		2	4
3	60286972	T	C	Intron	FHIT	0,001		2	4
3	60301412	C	G	Intron	FHIT	0,001		1	2
3	60312251	C	T	Intron	FHIT	0,0099		1	2
3	60317682	A	G	Intron	FHIT	0,008		1	2
3	60328557	C	G	Intron	FHIT	0,0043		2	4
3	60342562	C	T	Intron	FHIT	0,006		1	2
3	60400033	G	A	Intron	FHIT	0,004		2	4
3	60435819	C	T	Intron	FHIT	0,006		2	4
3	60435820	G	T	Intron	FHIT	0,004		1	2
3	60441288	T	C	Intron	FHIT	0,006		2	4
3	60444465	C	A	Intron	FHIT	0,01		1	2
3	60444575	C	T	Intron	FHIT	0,001		1	2
3	60450581	T	C	Intron	FHIT	0,01		1	2
3	60456571	G	A	Intron	FHIT	0,001		2	4
3	60473568	C	G	Intron	FHIT	0,001		1	2
3	60487557	T	C	Intron	FHIT	0,001		1	2
3	60559705	A	G	Intron	FHIT	0,002		2	4
3	60570764	T	C	Intron	FHIT	0,008		2	4
3	60582100	C	T	Intron	FHIT	0,001		1	2
3	60587192	G	A	Intron	FHIT	0,004		1	2
3	60599869	G	A	Intron	FHIT	0,0086		2	4
3	60603091	C	T	Intron	FHIT	0,001		2	4
3	60603250	A	T	Intron	FHIT	0,0099		1	2
3	60609831	T	G	Intron	FHIT	0,001		2	4
3	60619756	G	T	Intron	FHIT	0,0015		2	4
3	60680758	C	T	Intron	FHIT	0,0089		2	4
3	60702243	G	C	Intron	FHIT	0,001		2	4
3	60702532	A	G	Intron	FHIT	0,001		1	2
3	60714328	A	T	Intron	FHIT	0,004		1	2
3	60725297	G	A	Intron	FHIT	0,001		1	2
3	60726640	G	A	Intron	FHIT	0,01		2	4
3	60795144	A	G	Intron	FHIT	0,001		2	4
3	60807171	A	G	Intron	FHIT	0,001		1	2
3	60813868	T	C	Intron	FHIT	0,001		1	2
3	60826546	C	G	Intron	FHIT	0,0023		1	2
3	60837392	C	T	Intron	FHIT	0,001		1	2
3	60846310	A	G	Intron	FHIT	0,01		0	2
3	60850985	C	T	Intron	FHIT	0,004		1	2
3	60852559	T	C	Intron	FHIT	0,008		1	2
3	60871759	T	C	Intron	FHIT	0,004		1	2
3	60884396	C	T	Intron	FHIT	0,002		2	4
3	60897092	C	A	Intron	FHIT	0,001		2	4
3	60940759	C	T	Intron	FHIT	0,0089		1	2
3	60982595	A	G	Intron	FHIT	0,003		2	4
3	60999283	G	A	Intron	FHIT	0,001		1	2
3	61042977	A	G	Intron	FHIT	0,001		2	4
3	61043349	T	C	Intron	FHIT	0,001		2	4
3	61044789	A	C	Intron	FHIT	0,001		2	4
3	61141621	G	A	Intron	FHIT	0,003		1	2
3	61148655	G	C	Intron	FHIT	0,001		2	4
3	61170747	C	T	Intron	FHIT	0,003		1	2
3	61189473	C	G	Intron	FHIT	0,0099		1	2
3	61190425	C	T	Intron	FHIT	0,0023		2	4
3	61193853	C	T	Intron	FHIT	0,0099		0	2
3	61194793	C	T	Intron	FHIT	0,007		0	2
3	61194840	A	G	Intron	FHIT	0,0099		0	2
3	61194886	T	A	Intron	FHIT	0,0099		0	2
3	61201777	C	T	Intron	FHIT	0,001		2	4
3	61202292	T	C	Intron	FHIT	0,007		1	2
3	61232806	G	C	Intron	FHIT	0,0099		1	2
3	61232910	C	T	Intron	FHIT	0,0099		1	2
3	61235824	A	T	Intron	FHIT	0,001		2	4
3	61283810	A	C	intergenisch	FHIT,PTPRG	0,0089		1	2
3	61293731	T	A	intergenisch	FHIT,PTPRG	0,0089		2	4
3	61296730	C	T	intergenisch	FHIT,PTPRG	0,001		1	2
3	61326341	C	T	intergenisch	FHIT,PTPRG	0,004		2	4
3	61326620	T	C	intergenisch	FHIT,PTPRG	0,01		1	2
3	61327649	G	C	intergenisch	FHIT,PTPRG	0,001		2	4
3	61330545	G	C	intergenisch	FHIT,PTPRG	0,001		2	4
3	61335803	G	A	intergenisch	FHIT,PTPRG	0,001		2	4

Eine ähnliche Abfrage mit Daten aus 1000 Genomes Phase 3 dauert etwa 90 Sekunden, wobei rund 3,38 TB an Daten verarbeitet werden.

Abfrage einer materialisierten Tabelle mit 250 zufälligen Genen

Im folgenden Beispiel wird ein Intervall-JOIN über eine materialisierte Tabelle ausgeführt, die 250 zufällig aus der Tabelle silver-wall-555:TuteTable.hg19 ausgewählte Gene enthält:

So erstellen Sie die Intervalltabelle:

Öffnen Sie in der Console die Seite „BigQuery“. Google Cloud

Zur Seite "BigQuery"
Klicken Sie auf Abfrage erstellen.

Führen Sie im Feld Neue Abfrage die folgende Abfrage aus. Damit wird ein Ausschnitt der Tabelle „silver-wall-555:TuteTable.hg19“ in der neuen Intervalltabelle genomics.randomGenesIntervalTable materialisiert.

#standardSQL
CREATE TABLE `genomics.randomGenesIntervalTable` AS (
SELECT
  Gene,
  Chr,
  MIN(Start) AS gene_start,
  MAX(`End`) AS gene_end,
  MIN(Start) - 100000 AS region_start,
  MAX(`End`) + 100000 AS region_end
FROM
  `silver-wall-555.TuteTable.hg19`
WHERE
  Gene IN (SELECT Gene FROM `silver-wall-555.TuteTable.hg19` GROUP BY Gene LIMIT 250)
GROUP BY
  Chr,
  Gene );

Klicken Sie auf Abfrage ausführen. Die Abfrage gibt das folgende Ergebnis zurück:

This statement created a new table named PROJECT_ID:genomics.randomGenesIntervalTable.

Führen Sie im Feld Neue Abfrage die folgende Abfrage aus:

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    `genomics.randomGenesIntervalTable` AS intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

Maximieren Sie den folgenden Abschnitt, um die gekürzten Ergebnisse der Abfrage zu sehen:

Abfrageergebnisse

Chr	Start	Ref	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	2925355	C	A	intergenisch	TTC34,ACTRT2	0,001		2	4
1	2933170	G	A	intergenisch	TTC34,ACTRT2	0,0083		0	4
1	2944477	G	A	intergenisch	ACTRT2,LINC00982	0,003		4	6
1	2967591	A	T	intergenisch	ACTRT2,LINC00982	0,0092		1	2
1	2975255	T	C	Downstream	LINC00982	0,0082		1	2
1	2977223	C	T	ncRNA_intronic	LINC00982	0,0072		1	2
1	2978803	G	C	ncRNA_exonic	LINC00982	0,002		4	6
1	3006466	G	A	Intron	PRDM16	0,0098		1	2
1	3011333	G	T	Intron	PRDM16	0,004		1	2
1	3019659	C	T	Intron	PRDM16	0,0031		1	2
1	3036896	G	A	Intron	PRDM16	0,001		1	2
1	3037388	G	A	Intron	PRDM16	0,002		2	4
1	3041250	T	G	Intron	PRDM16	0,006		2	4
1	3042502	A	T	Intron	PRDM16	0,003		4	6
1	3053713	A	C	Intron	PRDM16	0,002		1	2
1	3063109	C	T	Intron	PRDM16	0,002		0	2
1	3063593	T	C	Intron	PRDM16	0,003		1	2
1	3076439	C	T	Intron	PRDM16	0,001		2	4
1	3078960	G	A	Intron	PRDM16	0,007		2	4
1	3084268	A	C	Intron	PRDM16	0,005		0	2
1	3084492	T	C	Intron	PRDM16	0,0015		0	2
1	3084786	T	C	Intron	PRDM16	0,0015		0	4
1	3111119	G	A	Intron	PRDM16	0,003		1	2
1	3111643	C	T	Intron	PRDM16	0,0041		1	2
1	3114807	G	A	Intron	PRDM16	0,0041		1	2
1	3165530	C	T	Intron	PRDM16	0,0089		1	2
1	3169325	G	A	Intron	PRDM16	0,008		2	4
1	3179623	C	T	Intron	PRDM16	0,003		2	4
1	3181097	C	T	Intron	PRDM16	0,001		2	4
1	3194000	G	C	Intron	PRDM16	0,005		2	4
1	3195769	T	C	Intron	PRDM16	0,002		1	2
1	3197351	C	T	Intron	PRDM16	0,0061		1	2
1	3224100	C	A	Intron	PRDM16	0,003		2	4
1	3228644	G	T	Intron	PRDM16	0,001		2	4
1	3234045	G	A	Intron	PRDM16	0,002		1	2
1	3235971	G	A	Intron	PRDM16	0,0089		1	2
1	3274115	C	T	Intron	PRDM16	0,001		2	4
1	3291388	G	A	Intron	PRDM16	0,002		2	4
1	3295658	A	C	Intron	PRDM16	0,0068		0	6
1	3295937	A	C	Intron	PRDM16	0,0068		0	2
1	3296205	T	C	Intron	PRDM16	0,0083		0	2
1	3315690	G	A	Intron	PRDM16	0,001		2	4
1	3329212	G	A	exonic	PRDM16	0,0031	Missense-Mutation	1	2
1	3331787	C	T	Intron	PRDM16	0,0099		1	2
1	3370316	G	C	Upstream	ARHGEF16	0,001		2	4
1	3379560	A	G	Intron	ARHGEF16	0,0051		0	6
1	3391174	C	T	Intron	ARHGEF16	0,006		1	2
1	3413873	G	A	exonic	MEGF6	0,003	Missense-Mutation	1	2
1	3416272	C	T	exonic	MEGF6	0,0072	Lautlos	2	4
1	3417122	G	A	Intron	MEGF6	0,0038		2	4
1	3436219	G	A	Intron	MEGF6	0,0046		2	4
1	12907456	A	G	exonic	HNRNPCL1,LOC649330	0,006	Missense-Mutation	0	10
1	12907518	C	A	exonic	HNRNPCL1,LOC649330	1,0E-4	Missense-Mutation	0	10
1	12908499	G	C	Intron	HNRNPCL1	0,0031		0	8
1	12931660	G	C	intergenisch	PRAMEF2,PRAMEF4	0,004		1	2
1	12937721	G	T	intergenisch	PRAMEF2,PRAMEF4	0,0038		0	2
1	12940827	G	T	Intron	PRAMEF4	0,007		2	4
1	12942759	T	G	Intron	PRAMEF4	0,0076		0	10
1	12942805	T	G	Intron	PRAMEF4	0,0061		0	12
1	12942812	G	A	Intron	PRAMEF4	0,0061		0	12
1	12942875	A	G	Intron	PRAMEF4	0,0068		0	6
1	12942912	G	C	Intron	PRAMEF4	2,0E-4		0	2
1	12942937	A	T	exonic	PRAMEF4	0,0029	Missense-Mutation	0	2
1	12942940	T	G	exonic	PRAMEF4	0,0038	Missense-Mutation	0	2
1	12943940	T	C	Intron	PRAMEF4	0,0015		0	12
1	12944138	A	G	Intron	PRAMEF4	8,0E-4		0	12
1	12944234	G	A	Intron	PRAMEF4	0,0015		0	12
1	12944589	T	G	Intron	PRAMEF4	0,003		0	4
1	12944845	A	C	Intron	PRAMEF4	0,0014		0	6
1	12946439	T	C	Upstream	PRAMEF4	0,0029		0	10
1	12946833	G	A	Upstream	PRAMEF4	0,001		0	8
1	12946835	T	A	Upstream	PRAMEF4	0,004		0	12
1	12995204	G	T	intergenisch	PRAMEF8,PRAMEF6	0,003		1	4
1	12997638	T	C	Downstream	PRAMEF6,PRAMEF9	0,003		2	4
1	13007841	G	C	Upstream	PRAMEF6	0,0043		0	8
1	13019228	T	A	intergenisch	PRAMEF6,LOC391003	0,0015		0	10
1	13038503	G	A	UTR3	LOC391003	0,0072		1	2
1	13051650	C	T	intergenisch	LOC391003,PRAMEF5	0,002		2	4
1	15706063	G	A	Intron	FHAD1	0,0029		1	2
1	15713292	C	T	Intron	FHAD1	0,001		1	2
1	15766541	G	C	Intron	CTRC	0,001		1	2
1	15782601	T	C	Upstream	CELA2A	0,0038		1	2
1	15828125	G	A	Intron	CASP9	0,0014		2	4
1	15831037	G	A	Intron	CASP9	0,0099		1	2
1	15840513	T	G	Intron	CASP9	0,0043		2	4
1	15868742	G	A	Intron	DNAJC16	0,001		1	2
1	15876704	G	A	Intron	DNAJC16	0,001		1	2
1	15900342	C	A	Intron	AGMAT	0,001		1	2
1	15906257	T	C	Intron	AGMAT	8,0E-4		1	2
1	15911897	A	G	Upstream	AGMAT	0,0043		2	4
1	22764178	C	T	intergenisch	WNT4,ZBTB40	0,001		2	4
1	22791939	C	T	Intron	ZBTB40	0,0089		2	4
1	22874394	C	G	intergenisch	ZBTB40,EPHA8	0,007		1	2
1	22875103	C	G	intergenisch	ZBTB40,EPHA8	0,007		1	2
1	22906403	C	T	Intron	EPHA8	0,008		2	4
1	22912956	G	A	Intron	EPHA8	0,001		1	2
1	22917007	C	T	Intron	EPHA8	0,001		2	4
1	22927240	G	A	exonic	EPHA8	0,0013	Missense-Mutation	2	4
1	22932265	G	A	intergenisch	EPHA8,MIR6127	0,0089		2	4
1	22944057	C	T	intergenisch	EPHA8,MIR6127	0,0089		2	4
1	22978799	A	G	Upstream	C1QB	0,0099		2	4
1	35170588	C	T	intergenisch	C1orf94,GJB5	0,01		1	2
1	35172426	C	T	intergenisch	C1orf94,GJB5	0,008		1	2
1	35172447	G	A	intergenisch	C1orf94,GJB5	0,001		1	2
1	35175302	C	T	intergenisch	C1orf94,GJB5	0,008		1	2
1	35177410	A	T	intergenisch	C1orf94,GJB5	0,001		1	2
1	35178768	C	T	intergenisch	C1orf94,GJB5	0,0014		2	4
1	35179362	G	A	intergenisch	C1orf94,GJB5	0,0014		2	4
1	35186166	G	A	intergenisch	C1orf94,GJB5	0,0099		2	4
1	35186520	A	C	intergenisch	C1orf94,GJB5	0,002		2	4
1	35196361	G	A	intergenisch	C1orf94,GJB5	0,0099		2	4
1	35223545	C	T	exonic	GJB5	0,001	Lautlos	1	2
1	35224029	G	A	UTR3	GJB5	0,003		1	2
1	35227895	T	C	UTR3	GJB4	5,0E-4		1	2
1	35230455	G	T	intergenisch	GJB4,GJB3	0,0043		1	2
1	35232954	T	C	intergenisch	GJB4,GJB3	0,003		1	2
1	35237986	G	A	intergenisch	GJB4,GJB3	0,0014		1	2
1	35245522	C	T	intergenisch	GJB4,GJB3	0,001		1	2
1	35256979	C	T	intergenisch	GJB3,GJA4	0,002		2	4
1	35263872	C	T	intergenisch	GJA4,SMIM12	5,0E-4		2	4
1	35323895	A	C	Intron	SMIM12	0,0027		2	4
1	35369676	G	A	Intron	DLGAP3	0,007		2	4
1	35371634	T	A	Upstream	DLGAP3	0,0015		0	4
1	39253519	G	A	intergenisch	LINC01343,RRAGC	0,005		1	2
1	39288829	G	A	intergenisch	LINC01343,RRAGC	0,0051		1	2
1	39289832	A	C	intergenisch	LINC01343,RRAGC	0,002		0	2
1	39312638	G	A	Intron	RRAGC	0,0038		2	4
1	39361372	G	A	Intron	RHBDL2	0,005		1	2
1	39363826	T	G	Intron	RHBDL2	0,0029		1	2
1	39367555	T	C	Intron	RHBDL2	0,007		2	4
1	39369531	T	C	Intron	RHBDL2	0,001		2	4
1	39370202	T	C	Intron	RHBDL2	0,01		1	2
1	39449101	A	G	intergenisch	RHBDL2,AKIRIN1	0,001		2	4
1	39475057	G	A	intergenisch	AKIRIN1,NDUFS5	0,01		1	2
1	39485016	C	T	intergenisch	AKIRIN1,NDUFS5	0,001		2	4
1	39488137	A	G	intergenisch	AKIRIN1,NDUFS5	0,001		2	4
1	39499212	A	C	Intron	NDUFS5	0,001		0	2
1	39500605	C	G	Downstream	NDUFS5	0,002		0	10
1	46813814	T	C	Intron	NSUN4	0,0014		1	2
1	46817258	A	G	Intron	NSUN4	0,005		0	2
1	46843158	T	C	intergenisch	NSUN4,FAAH	0,001		1	2
1	46933509	A	G	intergenisch	LINC01398,DMBX1	0,002		1	2
1	46935021	G	A	intergenisch	LINC01398,DMBX1	0,004		2	4
1	46939253	T	A	intergenisch	LINC01398,DMBX1	0,004		2	4
1	46951788	C	A	intergenisch	LINC01398,DMBX1	0,002		2	4
1	46980864	G	C	Downstream	DMBX1	0,003		1	2
1	46989657	T	C	intergenisch	DMBX1,MKNK1-AS1	0,007		1	2
1	46994678	C	T	intergenisch	DMBX1,MKNK1-AS1	0,002		1	2
1	46999438	T	C	intergenisch	DMBX1,MKNK1-AS1	0,002		1	2
1	92761505	A	G	Intron	GLMN	0,001		2	4
1	92764270	G	C	Intron	GLMN	0,001		2	4
1	92802210	G	A	Intron	RPAP2	0,0072		1	2
1	92820663	T	A	Intron	RPAP2	0,0058		1	2
1	92820664	G	T	Intron	RPAP2	0,0058		1	2
1	92820953	G	A	Intron	RPAP2	0,007		2	4
1	92824766	A	G	Intron	RPAP2	0,0058		1	2
1	92849183	C	A	Intron	RPAP2	0,01		2	4
1	92850696	C	G	Intron	RPAP2	0,0023		1	2
1	92861357	T	C	intergenisch	RPAP2,GFI1	0,01		2	4
1	92877460	C	G	intergenisch	RPAP2,GFI1	0,002		1	2
1	92880643	A	G	intergenisch	RPAP2,GFI1	0,001		2	4
1	92911540	G	A	intergenisch	RPAP2,GFI1	0,004		2	4
1	92911721	A	C	intergenisch	RPAP2,GFI1	0,0031		0	8
1	92918277	C	T	intergenisch	RPAP2,GFI1	0,001		2	4
1	92950920	G	A	Intron	GFI1	0,008		2	4
1	92964788	G	A	intergenisch	GFI1,EVI5	0,0023		1	2
1	92977480	C	T	UTR3	EVI5	0,002		1	2
1	92985213	C	T	Intron	EVI5	0,001		2	4
1	92988342	C	T	Intron	EVI5	0,008		2	4
1	92992283	G	A	Intron	EVI5	0,01		2	4
1	92999760	C	T	Intron	EVI5	0,003		1	2
1	93005149	G	C	Intron	EVI5	0,003		0	4
1	93018543	A	T	Intron	EVI5	0,01		2	4
1	93033744	C	T	Intron	EVI5	0,001		2	4
1	111400296	G	A	intergenisch	KCNA3,CD53	0,0014		2	4
1	111411924	C	T	intergenisch	KCNA3,CD53	0,003		1	2
1	111441850	C	G	UTR3	CD53	0,003		2	4
1	111451527	C	T	intergenisch	CD53,LRIF1	0,008		2	4
1	111454082	C	A	intergenisch	CD53,LRIF1	0,001		2	4
1	111466506	A	G	intergenisch	CD53,LRIF1	0,001		2	4
1	111525974	G	A	intergenisch	LRIF1,DRAM2	0,002		2	4
1	111574573	G	T	intergenisch	LRIF1,DRAM2	0,0072		2	4
1	111574594	T	A	intergenisch	LRIF1,DRAM2	0,005		1	2
1	111574647	G	A	intergenisch	LRIF1,DRAM2	0,005		1	2
1	111591746	T	A	intergenisch	LRIF1,DRAM2	0,005		1	2
1	111601459	A	G	intergenisch	LRIF1,DRAM2	0,005		1	2
1	111604748	G	C	intergenisch	LRIF1,DRAM2	0,005		1	2
1	112191526	T	G	Intron	RAP1A	0,001		2	4
1	112206765	A	G	Intron	RAP1A	0,0043		1	2
1	112226517	G	A	Intron	RAP1A	0,001		0	2
1	112263324	G	T	intergenisch	RAP1A,FAM212B	0,003		2	4
1	112264843	G	A	UTR3	FAM212B	0,001		1	2
1	112285810	C	T	ncRNA_intronic	FAM212B-AS1	0,004		1	2
1	112304285	T	C	Intron	DDX20	0,0043		1	2
1	112307213	A	C	Intron	DDX20	0,0043		1	2
1	112309436	G	T	exonic	DDX20	0,0	Missense-Mutation	1	2
1	112317384	T	C	intergenisch	DDX20,KCND3	0,0014		1	2
1	112381367	C	T	Intron	KCND3	0,002		1	2
1	112396571	G	T	ncRNA_exonic	KCND3-IT1	0,001		1	2
1	113520038	G	A	intergenisch	SLC16A1-AS1,LOC100996251	0,0023		1	2

Eine ähnliche Abfrage mit Daten aus 1000 Genomes Phase 3 dauert etwa 90 Sekunden, wobei rund 3,38 TB an Daten verarbeitet werden.

Intervall-JOINs mit BigQuery ausführen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Inline-Tabelle abfragen

Abfrageergebnisse

Materialisierte Tabelle verwenden

Materialisierte Tabelle mit bestimmten Genen abfragen

Abfrageergebnisse

Abfrage einer materialisierten Tabelle mit 250 zufälligen Genen

Abfrageergebnisse

Intervall-JOINs mit BigQuery ausführen