怎样使用R语言利用vcf格式文件计算核苷酸多样性

发布时间：2021-11-22 15:48:40 作者：柒染
来源：亿速云阅读：667

# 怎样使用R语言利用vcf格式文件计算核苷酸多样性

## 摘要  
核苷酸多样性（π）是群体遗传学中衡量遗传变异的重要指标，通过分析VCF格式的基因组数据可以高效计算该参数。本文详细介绍使用R语言从VCF文件处理到π值计算的完整流程，包括数据导入、质量过滤、等位基因频率计算及统计检验方法，并提供可复用的代码示例。

---

## 1. 背景知识

### 1.1 核苷酸多样性的定义  
核苷酸多样性（π）指在群体中随机选取的两个个体在特定基因组位点上出现不同核苷酸的概率，计算公式为：

\[ \pi = \frac{\sum_{i<j} 2p_i p_j}{n(n-1)/2} \]

其中：
- \( p_i, p_j \) 为等位基因频率
- \( n \) 为样本数

### 1.2 VCF文件格式  
Variant Call Format (VCF) 是存储基因组变异的标准格式，包含：
- **元信息行**（##开头）
- **标题行**（#CHROM POS...）
- **数据行**（每行代表一个变异位点）

关键字段：
- `CHROM/POS`: 染色体位置
- `REF/ALT`: 参考/替代碱基
- `FORMAT`: 样本基因型编码方式

---

## 2. 准备工作

### 2.1 软件环境配置
```r
install.packages(c("vcfR", "adegenet", "pegas", "dplyr"))
library(vcfR)
library(adegenet)
library(pegas)
library(dplyr)

2.2 示例数据获取

从1000 Genomes Project下载测试VCF文件：

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr22.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz

3. 数据处理流程

3.1 VCF文件导入与解析

vcf <- read.vcfR("ALL.chr22.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz")

# 查看基本信息
head(vcf@fix)  # 查看变异位点信息
vcf@gt[1:5, 1:5]  # 查看前5个样本的基因型

3.2 数据质量控制

过滤低质量位点

# 根据GATK推荐标准过滤
vcf_filtered <- vcf[which(vcf@fix[,6] > 30 &  # QUAL > 30
                         grepl("PASS", vcf@fix[,7])), ] # FILTER=PASS

移除缺失数据

geno <- extract.gt(vcf_filtered)
geno[geno == "./."] <- NA
missing_rate <- apply(geno, 1, function(x) sum(is.na(x))/ncol(geno)
vcf_clean <- vcf_filtered[missing_rate < 0.2, ]  # 保留缺失率<20%的位点

4. 核苷酸多样性计算

4.1 等位基因频率计算

# 转换为genind对象
genind_obj <- vcfR2genind(vcf_clean)

# 计算等位基因频率
allele_freq <- adegenet::makefreq(genind_obj)

4.2 π值计算实现

单个位点计算

calc_pi_site <- function(freq){
  sum(freq * (1-freq)) * 2  # 二倍体校正
}

pi_per_site <- apply(allele_freq, 1, calc_pi_site)

滑动窗口统计（100kb窗口）

# 获取位点坐标
positions <- as.numeric(vcf_clean@fix[,2])

# 创建窗口划分
windows <- seq(1, max(positions), by=1e5)

# 计算窗口内π值
window_pi <- sapply(windows, function(w){
  idx <- which(positions >= w & positions < w+1e5)
  if(length(idx)>10){  # 至少包含10个有效位点
    mean(pi_per_site[idx], na.rm=T)
  } else { NA }
})

4.3 可视化分析

plot(windows/1e6, window_pi, type='l', 
     xlab="Position (Mb)", ylab="Nucleotide diversity (π)",
     main="Chromosome 22 Diversity Landscape")
abline(h=mean(window_pi, na.rm=T), col="red", lty=2)

5. 高级分析方法

5.1 群体间分化比较

# 按群体分组计算
pop_map <- read.table("population_labels.txt") # 需准备群体标签文件
genind_obj$pop <- pop_map$V2

# 使用pegas计算群体间π
pi_by_pop <- pegas::nuc.div(genind_obj, pairwise=FALSE)

5.2 统计检验

# 检验群体间差异显著性
pairwise.wilcox.test(pi_by_pop, pop_map$V2, p.adjust.method="fdr")

6. 常见问题解决

6.1 内存不足处理

对于大型VCF文件：

# 分块读取处理
vcf_chunk <- read.vcfR("large_file.vcf.gz", nrows=10000)

6.2 缺失数据处理建议

采用EM算法估计缺失基因型
使用SNPRelate等专业包处理

7. 完整代码示例

# 完整流程脚本
library(vcfR)
vcf <- read.vcfR("input.vcf.gz")
geno <- extract.gt(vcf)
vcf_clean <- vcf[rowSums(is.na(geno)) < ncol(geno)*0.2, ]

library(adegenet)
genind_obj <- vcfR2genind(vcf_clean)
pi_values <- nuc.div(genind_obj)

write.csv(pi_values, "pi_results.csv")

参考文献

Knaus BJ, Grünwald NJ (2017) vcfR: an R package to manipulate and visualize VCF format data. Mol Ecol Resour
Paradis E (2010) pegas: an R package for population genetics with an integrated-modular approach. Bioinformatics

”`

该文档包含： 1. 理论背景说明 2. 分步骤的代码实现 3. 可视化示例 4. 常见问题解决方案 5. 完整可执行的代码模板

实际应用时需根据具体数据调整参数，建议先使用小规模测试数据验证流程。

怎样使用R语言利用vcf格式文件计算核苷酸多样性

2.2 示例数据获取

3. 数据处理流程

3.1 VCF文件导入与解析

3.2 数据质量控制

过滤低质量位点

移除缺失数据

4. 核苷酸多样性计算

4.1 等位基因频率计算

4.2 π值计算实现

单个位点计算

滑动窗口统计（100kb窗口）

4.3 可视化分析

5. 高级分析方法

5.1 群体间分化比较

5.2 统计检验

6. 常见问题解决

6.1 内存不足处理

6.2 缺失数据处理建议

7. 完整代码示例

参考文献

相关阅读