如何分析KEGG Genes 数据库

发布时间:2021-12-23 17:56:21 作者:柒染
来源:亿速云 阅读:232

这篇文章将为大家详细讲解有关如何分析KEGG Genes 数据库,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

kegg  genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。

对于每个基因,除了给出对应的物种,染色体位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,还会给出这个基因对应的KO, module, pathway 等注释信息。

其中KO 注释是核心,kegg  提供了两种工具,用于基因的KO 注释

  1. 对于单个物种的基因组,使用BlastKOALA 工具;

  2. 对于环境微生物,使用GhostKOALA 工具进行注释;


截止到2018年3月7号,所有基因的注释情况如下:

http://www.kegg.jp/kegg/docs/genes_statistics.html
如何分析KEGG Genes 数据库

基因从功能上分成了两大类,编码蛋白基因和非编码蛋白基因。从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。

我们来想详细看下human 基因的注释情况

如何分析KEGG Genes 数据库
目前共收录了20380个蛋白编码基因,其中13226 个基因有KO 注释;19172 个非编码基因,其中 315个有KO 注释;有pathway 注释的只有 7376 个基因,而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个,这个数字值得我们重点关注。

对于转录组分析而言,KEGG的富集分析是常用的功能分析手段,而20380个蛋白编码基因中,只有30%左右的基因有pathway 信息,剩下的没有pathway 相关信息的基因,在富集分析时 ,会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。

这里我列出了人,小鼠,大鼠基因的pathway 注释情况

orgproteinpathway
hsa20,3807376
mmu22,1038197
rno23,5038436

总体来看,有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的 ,随着研究的不断深入和进行,pathway 数据库也会越来越大, 也会有更多的基因有pathway 相关的信息。现阶段,由于我们对基因功能认知的局限,只能对那些有pathway 信息的基因去研究。所以在富集分析时,我们需要综合多个数据库的结果, 比如 GO, Reatcome 等数据库。

  1. kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。

  2. 对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。

  3. 由于我们现阶段对基因功能认知的局限性,有pathway注释信息的基因比例较低,在进行功能富集分析时,建议综合多个数据库的结果。

关于如何分析KEGG Genes 数据库就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

推荐阅读:
  1. 如何分析KEGG Brite数据库
  2. 如何分析KEGG Enzyme 数据库

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

kegg 数据库

上一篇:基于akka和data-sketch技术的实时数据统计服务是怎么样的

下一篇:linux中如何删除用户组

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》