如何进行全基因组数据CNV分析

发布时间：2021-11-23 15:02:13 作者：柒染
来源：亿速云阅读：989

如何进行全基因组数据CNV分析

引言

拷贝数变异（Copy Number Variation, CNV）是指基因组中某些区域的拷贝数发生增加或减少的现象。CNV在人类基因组中广泛存在，并且与多种疾病、表型变异以及进化过程密切相关。随着高通量测序技术的发展，全基因组测序（Whole Genome Sequencing, WGS）已成为研究CNV的重要工具。本文将详细介绍如何进行全基因组数据CNV分析，包括数据预处理、CNV检测、结果解读和可视化等步骤。

数据预处理

1. 数据获取

全基因组测序数据通常以FASTQ格式存储，包含测序读段（reads）的序列信息。在进行CNV分析之前，首先需要获取这些原始数据。

2. 数据质量控制

数据质量控制是确保后续分析准确性的关键步骤。常用的工具包括FastQC和MultiQC，用于评估测序数据的质量，如读段长度、碱基质量分布、GC含量等。

fastqc sample.fastq.gz
multiqc .

3. 数据比对

将测序读段比对到参考基因组是CNV分析的基础。常用的比对工具包括BWA、Bowtie2和STAR。比对结果通常以BAM格式存储。

bwa mem reference.fa sample.fastq.gz > sample.sam
samtools view -bS sample.sam > sample.bam
samtools sort sample.bam -o sample.sorted.bam
samtools index sample.sorted.bam

4. 比对后处理

比对后处理包括去除重复读段、局部重比对和碱基质量重校正等步骤。常用的工具包括Picard和GATK。

java -jar picard.jar MarkDuplicates I=sample.sorted.bam O=sample.dedup.bam M=sample.metrics.txt
java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -R reference.fa -I sample.dedup.bam -o sample.intervals
java -jar GenomeAnalysisTK.jar -T IndelRealigner -R reference.fa -I sample.dedup.bam -targetIntervals sample.intervals -o sample.realigned.bam
java -jar GenomeAnalysisTK.jar -T BaseRecalibrator -R reference.fa -I sample.realigned.bam -knownSites dbsnp.vcf -o sample.recal_data.table
java -jar GenomeAnalysisTK.jar -T PrintReads -R reference.fa -I sample.realigned.bam -BQSR sample.recal_data.table -o sample.recalibrated.bam

CNV检测

1. 基于读段深度的CNV检测

基于读段深度的CNV检测方法通过统计基因组不同区域的读段覆盖深度来推断CNV。常用的工具包括CNVnator、Control-FREEC和DELLY。

cnvnator -root sample.root -tree sample.recalibrated.bam
cnvnator -root sample.root -his 100 -d reference_dir
cnvnator -root sample.root -stat 100
cnvnator -root sample.root -partition 100
cnvnator -root sample.root -call 100 > sample.cnv.txt

2. 基于读段对的CNV检测

基于读段对的CNV检测方法通过分析读段对的插入片段大小和方向来检测CNV。常用的工具包括BreakDancer和Lumpy。

breakdancer-max -o sample.breakdancer.txt sample.recalibrated.bam
lumpyexpress -B sample.recalibrated.bam -o sample.lumpy.vcf

3. 基于组装的方法

基于组装的方法通过将测序读段组装成连续的序列，然后与参考基因组进行比较来检测CNV。常用的工具包括SPAdes和Canu。

spades.py -o sample_assembly -1 sample_1.fastq.gz -2 sample_2.fastq.gz
canu -p sample -d sample_assembly genomeSize=3g -pacbio-raw sample.fastq.gz

结果解读

1. CNV注释

CNV注释是将检测到的CNV与已知的基因、功能元件和疾病关联进行比对。常用的工具包括Annovar和VEP。

annovar/annotate_variation.pl -buildver hg19 -out sample -dbtype refGene sample.cnv.txt annovar/humandb/
vep -i sample.cnv.vcf -o sample.vep.vcf --cache --dir_cache /path/to/cache --species homo_sapiens

2. CNV功能分析

CNV功能分析旨在理解CNV对基因功能和表型的影响。常用的方法包括基因集富集分析（GSEA）和通路分析。

gsea-cli.sh GSEA -res sample.gct -cls sample.cls -gmx sample.gmx -out sample_gsea

3. CNV与疾病关联分析

CNV与疾病关联分析旨在识别与特定疾病相关的CNV。常用的方法包括病例-对照研究和全基因组关联分析（GWAS）。

plink --bfile sample --cnv-list sample.cnv.txt --cnv-test --out sample_cnv_assoc

结果可视化

1. CNV图谱

CNV图谱是展示基因组中CNV分布的可视化工具。常用的工具包括Circos和IGV。

circos -conf circos.conf
igv.sh -g hg19 sample.bam sample.cnv.txt

2. CNV热图

CNV热图用于展示多个样本中CNV的分布和频率。常用的工具包括Heatmap.2和ComplexHeatmap。

library(ComplexHeatmap)
heatmap.2(cnv_matrix, scale="row", col=colorRampPalette(c("blue", "white", "red"))(100))

3. CNV网络分析

CNV网络分析用于展示CNV之间的相互作用和调控关系。常用的工具包括Cytoscape和Gephi。

cytoscape.sh -N sample.cnv.network

结论

全基因组数据CNV分析是一个复杂但强大的工具，能够揭示基因组结构变异与表型、疾病之间的关联。通过数据预处理、CNV检测、结果解读和可视化等步骤，研究人员可以深入理解CNV的功能和影响。随着技术的不断进步，CNV分析将在基因组学和精准医学中发挥越来越重要的作用。

参考文献

Alkan, C., Coe, B. P., & Eichler, E. E. (2011). Genome structural variation discovery and genotyping. Nature Reviews Genetics, 12(5), 363-376.
Mills, R. E., Walter, K., Stewart, C., Handsaker, R. E., Chen, K., Alkan, C., … & Eichler, E. E. (2011). Mapping copy number variation by population-scale genome sequencing. Nature, 470(7332), 59-65.
Sudmant, P. H., Rausch, T., Gardner, E. J., Handsaker, R. E., Abyzov, A., Huddleston, J., … & Eichler, E. E. (2015). An integrated map of structural variation in 2,504 human genomes. Nature, 526(7571), 75-81.

以上是关于如何进行全基因组数据CNV分析的详细步骤和方法。希望本文能为从事基因组学研究的科研人员提供有价值的参考。

如何进行全基因组数据CNV分析

如何进行全基因组数据CNV分析

引言

数据预处理

1. 数据获取

2. 数据质量控制

3. 数据比对

4. 比对后处理

CNV检测

1. 基于读段深度的CNV检测

2. 基于读段对的CNV检测

3. 基于组装的方法

结果解读

1. CNV注释

2. CNV功能分析

3. CNV与疾病关联分析

结果可视化

1. CNV图谱

2. CNV热图

3. CNV网络分析

结论

参考文献

相关阅读