如何采用DESeq2对表达量进行PCA和聚类分析

发布时间:2021-11-23 15:39:36 作者:柒染
来源:亿速云 阅读:612

如何采用DESeq2对表达量进行PCA和聚类分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

得到基因/转录本的表达量之后,通常会通过以下三种类型的图表来检验和分析生物学样本和实验设计间关系。

1.  样本的聚类树

利用所有样本的表达量数据,对样本进行聚类。理论上如果样本和实验操作都没有问题,那么属于同一组的生物学重复样本会聚到一起。示意图如下

如何采用DESeq2对表达量进行PCA和聚类分析

上图中,样本的名称用组别代替,可以看到,同一条件的样本聚在了一起。

2. PCA图

通过主成分分析进行降维,在二维或者三维平面上展示样本点的分布,根据点的位置,也可以看出属于同一组的样本是否在一起,不同组之间的样本有没有明显分开,示意如下

如何采用DESeq2对表达量进行PCA和聚类分析
从图中可以看到,不同条件的样本区分的很明显,而生物学重复之间距离较近,表明生物学重复的一致性和不同分组的差异性较好。

3.  热图

相比样本的聚类树,热图包含了更多的信息,比如可以直观的展示不同分组间表达量的差异,也是常见的可视化手段之一,示意如下

如何采用DESeq2对表达量进行PCA和聚类分析

只要有样本的表达量矩阵,DESeq2可以轻松的画出以上3种图表。但是我们应该选择原始的表达量矩阵,还是归一化之后的表达量矩阵来画呢?或者有没有其他的选择呢?

输入的矩阵不同,得出的结论也会不同。由于基因的表达水平在不同样本间本身就存在一定的差异,所以无论是采用原始的还是归一化之后的表达量矩阵,效果都不理想。针对这一问题,DESeq2提出了两种count值的转换算法,rlogVST转换。

1. rlog 转换

rlog 转换的用法如下

rld <- rlog(dds)
2. VST 转换

用法如下

vsd <- vst(dds)

两种转换本质上是在降低生物学重复之间的差异,使得样本聚类和PCA分析的效果更好。转换之后的表达量数据可以采用assay函数进行提取,代码如下

> head(assay(rld)[, 1:2])
       sample1   sample2
gene1 2.049029 1.6828707
gene2 8.151262 6.8552583
gene3 0.818971 0.2964686
gene4 5.340361 4.4766682
gene5 6.316175 6.8345783
gene6 2.157821 1.9264385

对于raw count定量表格,建议采用rlog或者VST转换之后的数据去进行PCA和聚类分析,效果会更好。

利用DESeq2提供的示例数据pasilla,分别用原始的count, 归一化之后的count, rlog, vst 转换的count 进行PCA分析,代码如下

dds <- estimateSizeFactors(dds)
raw <- SummarizedExperiment(counts(dds, normalized=FALSE),
                                colData=colData(dds))
nor <- SummarizedExperiment(counts(dds, normalized=TRUE),
                                colData=colData(dds))
vsd <- vst(dds)
rld <- rlog(dds)
pdf("PCA.pdf")
plotPCA( DESeqTransform(raw), intgroup=c("condition", "type") )
plotPCA( DESeqTransform(nor), intgroup=c("condition", "type") )
plotPCA(vsd, intgroup=c("condition", "type"))
plotPCA(rld, intgroup=c("condition", "type"))
dev.off()

raw count 的结果如下

如何采用DESeq2对表达量进行PCA和聚类分析
归一化之后count结果如下

如何采用DESeq2对表达量进行PCA和聚类分析

VST转换之后的结果如下

如何采用DESeq2对表达量进行PCA和聚类分析

rlog转换之后的结果如下

如何采用DESeq2对表达量进行PCA和聚类分析

可以很明显看出,原始的count和归一化之后的count, 其PCA图是杂乱无序的,没什么明显规律,而VST和rlog转换之后,生物学重复之间更佳的接近,不同分组也区分的较为明显。

看完上述内容,你们掌握如何采用DESeq2对表达量进行PCA和聚类分析的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!

推荐阅读:
  1. 采用mydumper对MySQL部分数据库进行热备
  2. 使用正则表达怎么对IP进行排序

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

pca deseq2

上一篇:如何理解基因富集分析的在线工具webgestalt

下一篇:c语言怎么实现含递归清场版扫雷游戏

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》