癌症基因體圖譜資料

癌症基因體圖譜 (TCGA) 計畫是一項全面且協調一致的努力,旨在透過應用基因體分析技術 (包括大規模基因體定序),加快瞭解癌症的分子基礎。該計畫產生的資料,是透過分子特徵化超過 20,000 個原發性癌症和配對的正常樣本,涵蓋 33 種不同的癌症類型。

Institute for Systems Biology Cancer Gateway in the Cloud (ISB-CGC) 可讓您存取 BigQuery 資料表中的 TCGA 資料和中繼資料,方便存取及分析。這些資料表會將散布在數萬個 XML 和表格式開放存取 TCGA 資料中的資訊,依資料類型 (例如臨床、生物檢體、基因表現和突變) 整合成可查詢的格式,方便存取及分析。

同樣地,ISB-CGC 也為其他癌症計畫建立了 BigQuery 資料表,請參閱 ISB-CGC 計畫說明文件

ISB-CGC 也提供 R 和 Python 的筆記本範例,範例涵蓋使用 ISB-CGC BigQuery 資料表建立和分析查詢的簡單到複雜的範例:

資料集存取權

Cloud Storage 資料夾

ISB-CGC 會在 BigQuery 資料集 isb-cgc-bq.GDC_case_file_metadata 中,儲存美國國家癌症研究所 Genomic Data Commons 託管的 TCGA 資料的雲端儲存空間路徑。請參閱 ISB-CGC TCGA 說明文件,瞭解如何存取這些檔案位置。

BigQuery 資料集

您可以在 BigQuery 中存取下列 TCGA 資料集,以探索及查詢資料:

如要探索其他 ISB-CGC 癌症資料集,請使用 ISB-CGC BigQuery 搜尋工具。您可以在 Google BigQuery 的 isb-cgc-bq 專案中找到這項資料。如要進一步瞭解 ISB-CGC 及其資料,請參閱 ISB-CGC 說明文件

關於資料

使用:所有人都可以公開使用這個資料集,但必須遵守資料集來源提供的條款 (https://cancergenome.nih.gov/),且資料集內容是按「原樣」提供,Google 並不提供任何明示或暗示擔保。對於因使用資料集而導致的任何直接或間接損害,Google 均不負任何責任。