如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库

发布时间:2021-11-09 17:59:25 作者:柒染
来源:亿速云 阅读:223

如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

首先熟悉 clinvar 数据库

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。

clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载最新版文件,我这里用的是shell命令:

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh47 && cd vcf_GRCh47
mkdir vcf_GRCh48 && cd vcf_GRCh48
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz.tbi
 

这个 ClinVar数据库里面的变异位点记录更新还是蛮快的。

 

然后熟悉SnpSift 软件

SnpSift 软件非常强大,推荐大家仔细阅读它的说明书,http://snpeff.sourceforge.net/protocol.html

如果要使用SnpSift把vcf文件的变异位点注释到clinvar数据库,我们需要使用的命令示例是:

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf
 

一般来说,注释比例并不会太高,因为clinvar数据库记录的位点很有限,如下:

Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%
 

如果选择其它数据库,比如dbSNP、exac、gnomad注释比例会高很多。

 

解读clinvar数据库注释结果

实际上,没办法解读,一般来说, WES数据分析结果有10万个变异位点,其中2万左右在外显子区域,那么就会有2千个左右的位点被clinvar注释到,这个数量级仍然是很可观的。

我们必须要有先验知识,比如知道这个WES数据来源的个体是患有某种疾病的,比如,视网膜变性相关疾病就可以搜索:

"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"
 

如果你发现搜索到的突变,都是Benign,没有Pathogenic,就比较麻烦,就需要根据ACMG指南分类分析,重点看:

如果这样缩小范围仍然是位点很多,可以直接缩小到基因,比如查询 "Retinitis pigmentosa" 这个疾病相关基因就37个,这样位于这些基因的突变就很少了,从这里面挑选那些有害突变,而且人群频率低的。但是其实有一个问题,既然已经局限于具体的疾病相关基因了,那么为什么还有做WES呢,直接上一个panel不就好了吗?见:家系外显子研究最后反正要定位到已知疾病相关基因

关于ACMG指南分类分析,建议看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料与方法部分,主要是很多细致的探索,很有意思。

 

另外推荐clineff软件

主页是:http://www.dnaminer.com/clineff.html

如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库

看完上述内容,你们掌握如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!

推荐阅读:
  1. python如何读取vcf文件的类
  2. 使用RMAN还原数据库到某个时间点

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

vcf

上一篇:如何使用Git和Gitlab管理本科毕业设计

下一篇:Django中的unittest应用是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》