R语言中如何进行GO注释和富集分析

发布时间：2021-11-22 14:54:01 作者：柒染
来源：亿速云阅读：1162

# R语言中如何进行GO注释和富集分析

## 引言

基因本体论（Gene Ontology, GO）注释和富集分析是生物信息学中解析高通量数据（如转录组、蛋白质组）功能特征的核心方法。R语言凭借其丰富的生物信息学工具包（如`clusterProfiler`、`topGO`等），成为实现这一分析的理想平台。本文将详细介绍从数据准备到可视化分析的完整流程。

---

## 一、准备工作

### 1.1 安装必要R包
```r
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install(c("clusterProfiler", "org.Hs.eg.db", "enrichplot", "DOSE"))

1.2 加载包与示例数据

library(clusterProfiler)
library(org.Hs.eg.db)  # 人类基因数据库（其他物种需替换）
library(ggplot2)

# 示例基因列表（Entrez ID格式）
gene_list <- c("7157", "2353", "5970", "351", "8835", "4609")

二、GO注释分析

2.1 基因ID转换

将基因ID统一为Entrez ID（若原始数据为Symbol或其他格式）：

gene_symbols <- c("TP53", "FOS", "BRCA1", "MYC", "EGFR")
gene_entrez <- mapIds(org.Hs.eg.db, 
                      keys = gene_symbols, 
                      keytype = "SYMBOL", 
                      column = "ENTREZID")

2.2 GO注释获取

使用enrichGO获取基因的GO注释：

go_annotation <- enrichGO(
  gene          = gene_list,
  OrgDb         = org.Hs.eg.db,
  keyType       = "ENTREZID",
  ont           = "ALL",  # 可选"BP","MF","CC"
  pAdjustMethod = "BH",
  pvalueCutoff  = 0.05,
  qvalueCutoff  = 0.2
)

三、GO富集分析

3.1 富集分析实现

ego <- enrichGO(
  gene          = gene_list,
  OrgDb         = org.Hs.eg.db,
  keyType       = "ENTREZID",
  ont           = "BP",  # 生物过程
  pAdjustMethod = "BH",
  pvalueCutoff  = 0.01,
  qvalueCutoff  = 0.05
)

3.2 结果解读

查看富集结果：

head(ego@result)

关键列说明： - ID: GO term编号 - Description: 功能描述 - p.adjust: 校正后的p值 - Count: 富集基因数

四、结果可视化

4.1 条形图

barplot(ego, showCategory = 15, title = "GO Biological Process")

4.2 气泡图

dotplot(ego, font.size = 8)

4.3 GO有向无环图（DAG）

goplot(ego)

4.4 网络图

cnetplot(ego, categorySize = "pvalue", foldChange = gene_list)

五、高级分析技巧

5.1 KEGG通路富集

kk <- enrichKEGG(
  gene         = gene_list,
  organism     = "hsa",  # 人类代码
  pvalueCutoff = 0.05
)

5.2 GSEA分析

适用于全基因组表达数据：

gsea_result <- gseGO(
  geneList     = ranked_gene_list,  # 需排序的基因列表
  OrgDb        = org.Hs.eg.db,
  ont          = "BP",
  minGSSize    = 100,
  maxGSSize    = 500
)

5.3 多组比较

使用compareCluster：

ck <- compareCluster(
  geneCluster = list(Group1 = genes1, Group2 = genes2), 
  fun = "enrichGO"
)
dotplot(ck)

六、常见问题与解决方案

ID转换失败
- 检查keyType参数是否匹配输入ID类型
- 使用bitr函数进行多步转换
富集结果为空
- 放宽pvalueCutoff或qvalueCutoff
- 检查基因ID是否与数据库匹配
可视化优化
- 调整showCategory参数控制显示条目数
- 使用ggplot2主题自定义颜色和字体

七、结论

通过R语言的clusterProfiler等工具包，研究者能够高效完成GO注释和富集分析的全流程。本文介绍的方法不仅适用于转录组数据，还可扩展至蛋白质组、代谢组等多组学数据分析。建议结合最新数据库（如GO定期更新版本）和可视化技巧提升分析质量。

延伸阅读
- Yu G, et al. (2012) clusterProfiler: an R package for comparing biological themes among gene clusters. OMICS. - GO Consortium (2023) The Gene Ontology knowledgebase.

”`