如何理解转录组数据比对工具STAR

发布时间：2021-11-22 19:30:26 作者：柒染
来源：亿速云阅读：312

如何理解转录组数据比对工具STAR，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

STAR是一款RNA_seq数据专用的比对软件，比对速度非常快，最大的优势是灵敏度高，GATK推荐采用STAR比对，然后进行下游的SNP分析。软件的源代码保存在github上，地址如下

https://github.com/alexdobin/STAR

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压缩之后，在bin/Linux_x86_64_static目录下，提供了编译好的可执行文件STAR。和hisat等软件不同，STAR将所有的功能整合在了同一个程序中，通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前，首先需要对基因组建立索引，建立索引对应的runMode为genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \
--runThreadN  20 \
--genomeFastaFiles hg19.fasta \
--genomeDir hg19_STAR_db \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149

建立索引需要基因组的fasta和gtf文件，通过genomeFastaFiles和sjdbGTFfile这两个参数分别指定；STAR构建索引需要指定一个输出目录，这个目录必须事先创建好，在该目录下，会生成许多文件，所以必须有写权限；runThreadN指定线程数；sjdbOverhang的值默认为100，在实际设置时，最佳取值为max(read_length) - 1。

在构建索引时，还支持加入intron的区间信息，通过sjdbFileChrStartEnd指定对应的文件，多个文件用逗号分隔，这种格式的文件是由STAR比对产生的，通常用于2-pass比对模式。

官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。对于human而言，NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh48.p12/GCF_000001405.38_GRCh48.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh48.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件，如果序列文件是压缩之后的，需要用readFilesCommand参数指定文件解压缩的方法，对于gzip压缩的文件而言，有以下两种下写法

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后，会输出许多文件，包含4个类别

log文件
sam文件
bam文件
剪切位点文件

每个文件都有事先定义好的名字，当多个样本同时运行时，为了加以区分，可以通过outFileNamePrefix指定输出文件的前缀。前3种类型的文件都比较容易理解，剪切位点文件实际上是根据mapping情况，估算出来的intron区间的信息，默认的文件名称为SJ.out.tab。

默认输出的比对文件为SAM格式，为了节省磁盘空间，方便下游分析，可以通过outSAMtype参数指定输出bam文件，该参数有两个字段值，第一个值指定文件类型，取值有SAM和BAM两种，第二个值指定是否排序，取值范围包括Unsorted, SortedByCoordinate, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn reads.fq \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR  \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn r1.fq.gz r2.fq.gz \
--readFilesCommand  zcat \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

以上只是基本的比对，STAR官方更推荐使用2-pass比对模式，即比对两次，有以下两种方式

multi-sample 2-pass
第一次比对和上述的用法一致，比对完之后，每个样本会产生一个intron的区间文件SJ.out.tab; 在第二次比对之前，重新构建一次基因组的索引，添加所有样本的SJ.out.tab文件，然后利用新的基因组索引重新比对。这种做法综合了多个样本的intron信息，比对的灵敏度会更高，缺点是操作比较繁琐。
per-sample 2-pass
对于单个样本，在比对时直接添加--twopassMode Basic参数，软件会自动进行两次比对，将第一次比对的SJ.out.tab加入到索引，然后重新比对。这种方法操作简单，适用于单个样本的2-pass 比对。

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注亿速云行业资讯频道，感谢您对亿速云的支持。

如何理解转录组数据比对工具STAR

1. 构建基因组索引

2. 运行比对

相关阅读