您好,登录后才能下订单哦!
这篇文章主要介绍“如何使用GDC在线查看TCGA数据”,在日常操作中,相信很多人在如何使用GDC在线查看TCGA数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用GDC在线查看TCGA数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
GDC是Genomic Data Commons
的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括TCGA
在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享,网址如下
https://portal.gdc.cancer.gov/
数据来源于以下多个大型癌症研究组织和项目
Foundation Medicine(FM)
Clinical Proteomic Tumor Analysis Consortium(CPTAC)
THe Cancer Genome Atlas(TCGA)
Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
Human Cancer Model Initiative (HCMI)
以上只是部分来源信息,而且还在陆续更新,以后也会有新的来源数据整合到GDC
中。当然,到目前为止,该数据库中最大的数据依然是来自TCGA
的数据。
为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示
最高层级为program
,对应不同的数据来源,如TCGA
, TARGET
等;第二层为project
, 代表一系列患者对应的;第三层为case
,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是case
和sample
是一对多的关系,一个患者可以取多份样本;最后一层是每个case
相关的数据,即Files
, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。
以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。数据库的首页提供了以下多个导航栏
可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示
primary site
表示样本对应的组织,program
表示数据来源,disease type
表示肿瘤类型,data category
表示数据类型,比如序列,SNV, CNV等等,experimental Strategy
表示实验类型,比如转录组,WGS, 甲基化芯片等。
表格形式的结果示意如下
第一列的project id由program加上肿瘤对应编码构成,肿瘤名称和编码的对应关系部分展示如下
点击project id可以查看summary信息,以TCGA-BRCA
为例,示意如下
这部分支持从以下3个方面来查看和筛选数据
Cases
Genes
Mutations
Cases相关的属性如下
Genes相关的属性如下
Mutations相关的属性如下所示
以Cases
为例,结果示意如下
点击第一列的case id,可以查看summary信息。除此之外,还提供了OncoGrid
功能,对top50个突变基因的SNV, CNV在top200个cases中的分布进行可视化,示意如下
这部分对于筛选出的数据进行以下两种分析
venn analysis
survival analysis
结果示意如下
这部分包含了所有可用下载的数据,可以从Files
和Cases
两个方面来查看和筛选数据,Files
相关的属性如下
以Files
为例,结果示意如下
通过点击购物车图标,可以将筛选好的数据集加入到到购物车,然后进行下载。对于感兴趣的单个数据集,直接点击网页上的下载按钮就可以下载了,但是对于数据量较大的数据集,就需要通过官方提供的客户端软件来下载。
到此,关于“如何使用GDC在线查看TCGA数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。