您好,登录后才能下订单哦!
这期内容当中小编将会给大家带来有关宏基因组binning的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
在宏基因组中分离单基因组,可利用序列特征或序列组装信息,常见的可用信息主要有以下几种:
a.根据核酸使用频率(通常是四核苷酸频率)、GC含量和必需的单拷贝基因等基因组特征;
b.根据contig序列的覆盖度coverage信息;
c.根据测序数据的kmer丰度信息;
d.根据序列在不同样品的共出现规律(co-abundance patternsacross multiple samples);
e.将序列map到数据库的参考序列所获得的注释信息,也即物种binning。
根据所使用的序列数据不同,binning策略可分为三种:基于组装前的clean reads,基于组装后的contigs,基于注释的基因genes。
⑴基于reads binning
环境样本中微生物的丰度不同,其基因组kmer的期望深度也不同,根据kmer丰度可以直接对reads进行聚类,将属于不同基因组的reads分离开来。其优势是可以聚类出宏基因组中丰度非常低的物种,而且可以分离系统发育关系很近的物种。考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种的reads没有被没有被组装出来,没有体现在contig中而被浪费,因此基于reads binning才有可能得到低丰度的物种基因组的的测序数据,在实际研究中基于reads binning的LSA(Latent Strain Analysis)方法可以聚类出丰度低到0.00001%的物种,并且对同一物种中的不同菌株的敏感性很强[2]。
⑵基于genes binning
在宏基因组做完序列组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。利用这种策略进行binning得到的bins可称为CAG(co-abundance genegroups),包含有700个以上的gene的CAG称为MGS(metagenomic species),CAG可用进行关联分析,MGS可用进行后续的单菌组装[3]。当然根据具体的聚类算法和相关性系数的不同,对genes binning得到的bins的叫法也不同,除以上外还有MLG(metagenomic linkage groups)、MGC(metagenomic clusters)和MetaOTUs(metagenomic operational taxonomicunits)等,同时,MLG, MGC, MGS和MetaOTUs物种注释的标准也是不一样的。
目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning[4]。这种方法的优势是基于genes丰度变化模式进行binning可操作性比较强,过程比较简单,可复制性强,对计算机资源消耗比较低。
⑶基于contigs binning
在宏基因组做完序列组装之后,将所有reads序列map到contigs上获得contig覆盖率,再综合GC含量、核算组成等信息对contig进行聚类,将属于不同基因组的contig序列分开。contig binning目前应用十分广泛,最常用的就是用于组装单物种基因组,目前已经有多种基于contig binning的软件[1],对于丰度较高的物种contigs binning效果较好,但是目前也有些缺陷或者说还有很多可提升的空间,例如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合。
上述就是小编为大家分享的宏基因组binning的原理是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。