您好,登录后才能下订单哦!
小编给大家分享一下motif中PWM矩阵的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!
通过一致性序列和sequence logo可以直观的表示某个motif的情况,但是在预测motif结合的位点时,只根据这些信息无法准确的判断查询序列上存在对应的motif。 预测输入序列上是否存在特定motif的位点的分析,称之为motif scanning, 示意如下
就是在输入序列上查找特定motif出现的位置。为了满足motif scanning分析的要求,对于motif而言,我们必须提供一个有效的能够代表motif又能够用于序列查找的一个信息,基于这样的出发点,提出了PWM矩阵的概念。
PWM矩阵在不同文章中有不同的叫法,以下3种矩阵其实都是PWM矩阵
position weight matrix(PWM)
position-specific weight matirx(PSWM)
position-specific scoring matrix(PSSM)
PWM矩阵是在PFM矩阵的基础上发展而来,以下图所示PFM矩阵为例
根据碱基频数分布矩阵首先计算出碱基频率分布矩阵,称之为position probability matrixa, 简写为PPM矩阵,示意如下
在PPM矩阵中,碱基的频率被当做概率来使用,不同位置之间可以看做是一个独立事件。根据PPM矩阵,可以计算某个motif序列的概率。根据上述PPM矩阵,GAGGTAAAC
出现的概率为
在PPM矩阵基础上,用背景序列的碱基分布频率来校正对应的值,就可以得到PWM矩阵,公式如下
就是将PPM矩阵中对应的值除了背景序列中对应碱基的频率,然后在取log2对数值。大多数情况下,我们认为在基因组上A,T,C,G这4种碱基的含量是相等的,所以每个碱基的背景频率就是0.25。以PPM矩阵第一行的0.3
为例,首先将0.3除以背景序列中A碱基的频率0.25,然后在取log2对数,最终的取值越为0.26。
通过这种方式就构建出了如下所示的PWM矩阵
需要注意的是,背景序列中碱基的概率不是都为0.25, 在某些GC含量偏高或者偏低的物种中,4种碱基的分布频率是不相等的,此时就要根据真实的碱基分布来确定背景序列中的碱基频率。
根据PWM矩阵,可以对序列进行打分,以最终的得分值来判断是否为一个潜在的motif。根据上述PWM矩阵,GAGGTAAAC
出现的得分值为
score >= 0, 说明这个序列是一个潜在的功能位点,score < 0, 说明是一个随机序列。根据PWM矩阵,可以有效的判断在输入序列中是否存在真实的motif位点。
看完了这篇文章,相信你对“motif中PWM矩阵的示例分析”有了一定的了解,如果想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。