The Cancer Genome Atlas (TCGA) 计划是一项全面而协调的研究,旨在通过应用基因组分析技术(包括大规模基因组测序)加快对癌症分子基础的理解。该计划生成的分子特征数据超过 20000 个原发癌,并匹配 33 种不同类型的癌症的正常样本。
系统生物学癌症云网关研究所 (ISB-CGC) 提供对 BigQuery 表中的 TCGA 数据和元数据的访问权限,以便于访问和分析。这些表将分散在数万个 XML 和表格型开放访问的 TCGA 数据中的信息按数据类型(例如临床、生物标本、基因表达、突变)整合为一个可查询的格式,以便于访问和分析。
同样,ISB-CGC 还为其他癌症计划创建了 BigQuery 表。请参阅 ISB-CGC 计划文档。
ISB-CGC 还提供了 R 和 Python 中的笔记本示例,这些示例范围包括使用 ISB-CGC BigQuery 表进行简单到复杂查询构建和分析:
数据集访问
Cloud Storage 文件夹
ISB-CGC 在 BigQuery 数据集 isb-cgc-bq.GDC_case_file_metadata 中存储由美国国家癌症研究所的基因组数据共享平台托管的 TCGA 数据的 Cloud Storage 路径。请参阅 ISB-CGC TCGA 文档,了解如何访问这些文件位置。
BigQuery 数据集
您可以访问 BigQuery 中的以下 TCGA 数据集以进行数据探索和查询:
如需浏览其他 ISB-CGC 癌症数据集,请使用 ISB-CGC BigQuery 搜索工具。 您可以在 Google BigQuery 中的 isb-cgc-bq 项目中找到此数据。如需详细了解 ISB-CGC 及其数据,请参阅 ISB-CGC 文档。
关于数据
使用:此数据集公开提供给所有人使用,但使用者需遵循数据集来源 (https://cancergenome.nih.gov/) 规定的条款;Google“按原样”提供数据集,对此不作任何明示或暗示的保证。 对于因使用数据集而导致的任何直接或间接损害,Google 不承担任何责任。