如何使用cell ranger进行单细胞转录组定量分析

发布时间：2021-11-10 16:41:48 作者：柒染
来源：亿速云阅读：564

如何使用Cell Ranger进行单细胞转录组定量分析

单细胞转录组测序（scRNA-seq）技术能够揭示单个细胞的基因表达谱，为研究细胞异质性、发育轨迹和疾病机制提供了强大的工具。10x Genomics的Chromium平台是目前广泛使用的单细胞测序平台之一，而Cell Ranger是10x Genomics官方提供的用于处理和分析单细胞转录组数据的软件套件。本文将详细介绍如何使用Cell Ranger进行单细胞转录组定量分析。

1. Cell Ranger简介

Cell Ranger是一个专门为10x Genomics单细胞测序数据设计的分析软件套件，主要包括以下几个工具：

cellranger mkfastq: 将原始测序数据（BCL文件）转换为FASTQ文件。
cellranger count: 对单个样本进行基因表达定量分析。
cellranger aggr: 将多个样本的定量结果进行整合。
cellranger reanalyze: 对已有的定量结果进行重新分析。
cellranger vdj: 分析T细胞和B细胞的VDJ序列。

本文将重点介绍cellranger count的使用，这是单细胞转录组定量分析的核心步骤。

2. 环境准备

在开始分析之前，需要确保以下几点：

硬件要求: Cell Ranger对计算资源要求较高，建议在具有足够内存（至少32GB）和多核CPU的服务器上运行。
软件安装: 下载并安装Cell Ranger软件包，确保其可执行文件路径已添加到系统环境变量中。
参考基因组: 下载并准备与实验物种对应的参考基因组和注释文件。

3. 数据准备

3.1 获取原始数据

通常，10x Genomics测序数据以BCL文件的形式提供。首先需要使用cellranger mkfastq将BCL文件转换为FASTQ文件。

cellranger mkfastq --id=sample_name \
                   --run=/path/to/bcl_files \
                   --csv=sample_sheet.csv

其中，sample_sheet.csv是一个CSV文件，指定了样本名称、索引序列等信息。

3.2 准备参考基因组

Cell Ranger需要参考基因组和注释文件来进行比对和定量。可以从10x Genomics官网下载预构建的参考基因组，或者使用cellranger mkref自定义构建。

cellranger mkref --genome=GRCh38 \
                 --fasta=GRCh38.fa \
                 --genes=GRCh38.gtf

4. 运行cellranger count

cellranger count是进行单细胞转录组定量分析的核心步骤。它将FASTQ文件与参考基因组进行比对，生成基因表达矩阵。

4.1 基本命令

cellranger count --id=sample_name \
                 --transcriptome=/path/to/ref_genome \
                 --fastqs=/path/to/fastq_files \
                 --sample=sample_id \
                 --localcores=16 \
                 --localmem=64

--id: 指定输出目录的名称。
--transcriptome: 指定参考基因组的路径。
--fastqs: 指定FASTQ文件所在的目录。
--sample: 指定样本ID，应与FASTQ文件名中的样本ID一致。
--localcores: 指定使用的CPU核心数。
--localmem: 指定使用的内存大小（GB）。

4.2 输出结果

cellranger count运行完成后，会在指定的输出目录中生成以下文件：

outs/raw_feature_bc_matrix.h5: 原始基因表达矩阵（HDF5格式）。
outs/filtered_feature_bc_matrix.h5: 过滤后的基因表达矩阵（HDF5格式）。
outs/cloupe.cloupe: 用于在Loupe Browser中可视化的文件。
outs/web_summary.html: 包含样本质量控制的HTML报告。

5. 数据质量控制

在分析单细胞数据时，质量控制（QC）是非常重要的步骤。cellranger count生成的web_summary.html文件提供了丰富的QC信息，包括：

测序质量: 检查测序读长的质量分布。
细胞数量: 估计的细胞数量。
基因表达: 每个细胞的基因表达量分布。
比对率: 比对到参考基因组的读长比例。

根据QC结果，可以进一步过滤低质量细胞或调整分析参数。

6. 数据整合与重新分析

如果有多个样本需要整合分析，可以使用cellranger aggr将多个cellranger count的输出结果进行整合。

cellranger aggr --id=aggregated_sample \
                --csv=aggregation_csv.csv \
                --normalize=mapped

其中，aggregation_csv.csv是一个CSV文件，列出了每个样本的cellranger count输出路径。

如果需要重新分析已有的定量结果，可以使用cellranger reanalyze。

cellranger reanalyze --id=reanalyzed_sample \
                     --matrix=/path/to/filtered_feature_bc_matrix.h5 \
                     --params=reanalyze_params.csv

7. 下游分析

Cell Ranger生成的基因表达矩阵可以导入到R或Python等编程环境中进行进一步的下游分析，如细胞聚类、差异表达分析、轨迹推断等。常用的单细胞分析工具包括Seurat、Scanpy等。

8. 总结

Cell Ranger是处理10x Genomics单细胞转录组数据的强大工具，能够高效地完成从原始数据到基因表达矩阵的定量分析。通过合理的数据准备、质量控制和下游分析，可以揭示单细胞水平的基因表达特征，为生物学研究提供重要的 insights。

希望本文能够帮助您顺利使用Cell Ranger进行单细胞转录组定量分析。如果您有任何问题或建议，欢迎在评论区留言讨论。