STAR-fusion中怎么实现融合基因操作

发布时间：2021-08-12 16:57:13 作者：Leah
来源：亿速云阅读：350

STAR-fusion中怎么实现融合基因操作

引言

融合基因（Fusion Gene）是指两个或多个基因的编码序列在基因组重排或转录过程中发生融合，形成一个新的嵌合基因。融合基因在癌症研究中具有重要意义，因为它们常常与肿瘤的发生、发展和治疗反应密切相关。STAR-fusion 是一个广泛使用的工具，用于从RNA测序数据中检测融合基因。本文将详细介绍如何在STAR-fusion中实现融合基因操作，包括安装、运行、结果解读以及后续分析。

1. STAR-fusion简介

STAR-fusion 是基于STAR（Spliced Transcripts Alignment to a Reference）算法的融合基因检测工具。它能够高效地从RNA测序数据中识别融合基因，并提供详细的注释信息。STAR-fusion的主要特点包括：

高灵敏度：能够检测到低丰度的融合基因。
高特异性：通过多种过滤策略减少假阳性。
丰富的注释：提供融合基因的基因名、转录本、外显子结构等信息。

2. 安装STAR-fusion

在开始使用STAR-fusion之前，首先需要安装STAR-fusion及其依赖项。以下是安装步骤：

2.1 安装依赖项

STAR-fusion依赖于以下几个软件和数据库：

STAR：用于RNA测序数据的比对。
samtools：用于处理BAM文件。
blast：用于序列比对。
perl：用于运行STAR-fusion脚本。
R：用于数据分析和可视化。

可以通过以下命令安装这些依赖项：

# 安装STAR
conda install -c bioconda star

# 安装samtools
conda install -c bioconda samtools

# 安装blast
conda install -c bioconda blast

# 安装perl
conda install -c bioconda perl

# 安装R
conda install -c r r

2.2 下载STAR-fusion

可以从GitHub上下载STAR-fusion的最新版本：

git clone https://github.com/STAR-Fusion/STAR-Fusion.git
cd STAR-Fusion

2.3 下载参考基因组和注释文件

STAR-fusion需要参考基因组和注释文件来运行。可以从GENCODE或Ensembl下载这些文件：

# 下载参考基因组
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/GRCh38.primary_assembly.genome.fa.gz
gunzip GRCh38.primary_assembly.genome.fa.gz

# 下载注释文件
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/gencode.v38.annotation.gtf.gz
gunzip gencode.v38.annotation.gtf.gz

2.4 构建STAR索引

在运行STAR-fusion之前，需要构建STAR索引：

STAR --runThreadN 8 \
     --runMode genomeGenerate \
     --genomeDir /path/to/genomeDir \
     --genomeFastaFiles /path/to/GRCh38.primary_assembly.genome.fa \
     --sjdbGTFfile /path/to/gencode.v38.annotation.gtf \
     --sjdbOverhang 100

3. 运行STAR-fusion

安装和配置完成后，可以开始运行STAR-fusion。以下是运行STAR-fusion的基本步骤：

3.1 准备输入文件

STAR-fusion的输入文件是RNA测序数据的FASTQ文件。假设我们有一对paired-end的FASTQ文件：

sample_R1.fastq.gz
sample_R2.fastq.gz

3.2 运行STAR-fusion

使用以下命令运行STAR-fusion：

STAR-Fusion --genome_lib_dir /path/to/genome_lib_dir \
            --left_fq sample_R1.fastq.gz \
            --right_fq sample_R2.fastq.gz \
            --output_dir /path/to/output_dir

其中，--genome_lib_dir 是STAR索引的目录，--left_fq 和 --right_fq 是输入的FASTQ文件，--output_dir 是输出目录。

3.3 运行参数说明

STAR-fusion提供了多种参数来调整运行过程。以下是一些常用的参数：

--genome_lib_dir：STAR索引的目录。
--left_fq 和 --right_fq：输入的FASTQ文件。
--output_dir：输出目录。
--CPU：使用的CPU核心数。
--min_junction_reads：最小junction reads数，用于过滤低丰度的融合基因。
--min_sum_frags：最小总片段数，用于过滤低丰度的融合基因。

4. 结果解读

STAR-fusion运行完成后，会在输出目录中生成多个文件。以下是主要的结果文件及其解读：

4.1 `star-fusion.fusion_candidates.final`

这是STAR-fusion的主要输出文件，包含了检测到的融合基因及其详细信息。文件格式如下：

#FusionName	JunctionReadCount	SpanningFragCount	SpliceType	LeftGene	LeftBreakpoint	RightGene	RightBreakpoint	LargeAnchorSupport	FFPM	LeftBreakDinuc	LeftBreakEntropy	RightBreakDinuc	RightBreakEntropy	annots

FusionName：融合基因的名称。
JunctionReadCount：支持融合的junction reads数。
SpanningFragCount：支持融合的spanning fragments数。
SpliceType：融合类型（如ONLY_REF_SPLICE、INCL_NON_REF_SPLICE等）。
LeftGene 和 RightGene：融合基因的左右基因。
LeftBreakpoint 和 RightBreakpoint：融合基因的断点位置。
LargeAnchorSupport：是否支持大锚定（YES或NO）。
FFPM：融合基因的表达水平（Fusion Fragments Per Million）。
LeftBreakDinuc 和 RightBreakDinuc：断点处的二核苷酸。
LeftBreakEntropy 和 RightBreakEntropy：断点处的熵值。
annots：融合基因的注释信息。

4.2 `star-fusion.fusion_candidates.final.abridged`

这是star-fusion.fusion_candidates.final的简化版本，只包含融合基因的名称和支持的reads数。

4.3 `star-fusion.fusion_candidates.final.abridged.FFPM`

这是star-fusion.fusion_candidates.final.abridged的进一步简化版本，只包含融合基因的名称和FFPM值。

4.4 `star-fusion.fusion_candidates.final.abridged.FFPM.filtered`

这是经过过滤的融合基因列表，只包含FFPM值大于某个阈值的融合基因。

5. 后续分析

在获得融合基因列表后，可以进行多种后续分析，包括：

5.1 功能注释

使用数据库如DAVID、GO、KEGG等对融合基因进行功能注释，了解其可能参与的生物学过程和通路。

5.2 表达分析

通过RNA测序数据，分析融合基因的表达水平，了解其在样本中的表达模式。

5.3 突变分析

结合DNA测序数据，分析融合基因是否与特定的突变事件相关。

5.4 临床相关性分析

分析融合基因与临床特征（如生存率、治疗反应等）的相关性，评估其作为生物标志物的潜力。

6. 总结

STAR-fusion 是一个强大的工具，能够从RNA测序数据中高效地检测融合基因。通过本文的介绍，读者可以了解如何在STAR-fusion中实现融合基因操作，包括安装、运行、结果解读以及后续分析。希望本文能够帮助读者更好地利用STAR-fusion进行融合基因研究，为癌症等疾病的机制研究和治疗提供新的线索。

STAR-fusion中怎么实现融合基因操作

STAR-fusion中怎么实现融合基因操作

引言

1. STAR-fusion简介

2. 安装STAR-fusion

2.1 安装依赖项

2.2 下载STAR-fusion

2.3 下载参考基因组和注释文件

2.4 构建STAR索引

3. 运行STAR-fusion

3.1 准备输入文件

3.2 运行STAR-fusion

3.3 运行参数说明

4. 结果解读

4.1 star-fusion.fusion_candidates.final

4.2 star-fusion.fusion_candidates.final.abridged

4.3 star-fusion.fusion_candidates.final.abridged.FFPM

4.4 star-fusion.fusion_candidates.final.abridged.FFPM.filtered

5. 后续分析

5.1 功能注释

5.2 表达分析

5.3 突变分析

5.4 临床相关性分析

6. 总结

相关阅读

4.1 `star-fusion.fusion_candidates.final`

4.2 `star-fusion.fusion_candidates.final.abridged`

4.3 `star-fusion.fusion_candidates.final.abridged.FFPM`

4.4 `star-fusion.fusion_candidates.final.abridged.FFPM.filtered`