如何使用cell ranger拆分10X单细胞转录组原始数据

发布时间：2021-11-10 16:43:03 作者：柒染
来源：亿速云阅读：294

如何使用Cell Ranger拆分10X单细胞转录组原始数据

引言

10X Genomics单细胞转录组测序技术（Single Cell RNA Sequencing, scRNA-seq）是近年来单细胞研究领域的重要工具之一。它能够对数千个单细胞的基因表达进行高通量分析，为研究细胞异质性、细胞类型鉴定、发育轨迹推断等提供了强大的支持。然而，10X Genomics测序平台生成的原始数据通常包含多个样本的混合数据，因此在使用这些数据之前，首先需要将其拆分为单个样本的数据。Cell Ranger是10X Genomics官方提供的分析工具套件，能够高效地处理10X单细胞数据，包括数据拆分、比对、定量等步骤。本文将详细介绍如何使用Cell Ranger拆分10X单细胞转录组原始数据。

1. 准备工作

1.1 安装Cell Ranger

在开始之前，确保已经安装了Cell Ranger。Cell Ranger可以在Linux系统上运行，并且需要一定的计算资源（如内存和CPU）。安装步骤如下：

访问10X Genomics官方网站，下载适用于您系统的Cell Ranger软件包。
解压下载的软件包：
```
tar -xzvf cellranger-x.y.z.tar.gz
```

将Cell Ranger添加到系统路径中：


export PATH=/path/to/cellranger-x.y.z:$PATH

1.2 准备原始数据

10X Genomics测序平台生成的原始数据通常以FASTQ文件格式存储。这些文件通常包含多个样本的混合数据，文件名中会包含样本标识符。例如：

SampleA_S1_L001_R1_001.fastq.gz
SampleA_S1_L001_R2_001.fastq.gz
SampleB_S2_L001_R1_001.fastq.gz
SampleB_S2_L001_R2_001.fastq.gz

其中，R1和R2分别表示测序读长的两端（Read 1和Read 2），L001表示测序的Lane编号，S1和S2表示样本编号。

1.3 准备样本表

为了拆分数据，您需要准备一个样本表（CSV格式），其中包含每个样本的标识符和对应的FASTQ文件路径。样本表的格式如下：

sample_id,fastq_path
SampleA,/path/to/SampleA_fastqs
SampleB,/path/to/SampleB_fastqs

其中，sample_id是样本的唯一标识符，fastq_path是该样本对应的FASTQ文件所在的目录路径。

2. 使用Cell Ranger拆分数据

2.1 运行`cellranger mkfastq`

cellranger mkfastq是Cell Ranger中用于拆分原始数据的工具。它将根据样本表将混合的FASTQ文件拆分为每个样本的独立FASTQ文件。运行命令如下：

cellranger mkfastq --id=output_dir \
                   --run=/path/to/raw_data \
                   --csv=samplesheet.csv

--id：指定输出目录的名称。
--run：指定包含原始FASTQ文件的目录路径。
--csv：指定样本表的路径。

2.2 检查输出

运行完成后，cellranger mkfastq会在指定的输出目录中生成每个样本的独立FASTQ文件。输出目录结构如下：

output_dir/
├── SampleA/
│   ├── SampleA_S1_L001_R1_001.fastq.gz
│   ├── SampleA_S1_L001_R2_001.fastq.gz
│   └── ...
├── SampleB/
│   ├── SampleB_S2_L001_R1_001.fastq.gz
│   ├── SampleB_S2_L001_R2_001.fastq.gz
│   └── ...
└── Reports/
    ├── web_summary.html
    └── ...

每个样本的FASTQ文件将被放置在独立的子目录中，方便后续分析。

3. 数据质量控制

在拆分数据后，建议对每个样本的FASTQ文件进行质量控制，以确保数据的可靠性。常用的质量控制工具包括FastQC和MultiQC。

3.1 使用FastQC进行质量检查

FastQC是一个常用的工具，用于检查FASTQ文件的质量。运行命令如下：

fastqc /path/to/SampleA/SampleA_S1_L001_R1_001.fastq.gz \
       /path/to/SampleA/SampleA_S1_L001_R2_001.fastq.gz \
       -o /path/to/fastqc_output

3.2 使用MultiQC汇总结果

MultiQC可以将多个FastQC报告汇总为一个综合报告，方便查看多个样本的质量情况。运行命令如下：

multiqc /path/to/fastqc_output -o /path/to/multiqc_output

4. 后续分析

在完成数据拆分和质量控制后，您可以继续使用Cell Ranger进行后续的单细胞转录组数据分析，包括比对、定量、聚类等步骤。常用的Cell Ranger命令包括：

cellranger count：对单个样本进行比对和定量。
cellranger aggr：对多个样本进行整合分析。

4.1 运行`cellranger count`

cellranger count是用于对单个样本进行比对和定量的工具。运行命令如下：

cellranger count --id=SampleA_output \
                 --transcriptome=/path/to/ref_transcriptome \
                 --fastqs=/path/to/SampleA_fastqs \
                 --sample=SampleA

--id：指定输出目录的名称。
--transcriptome：指定参考转录组的路径。
--fastqs：指定样本的FASTQ文件路径。
--sample：指定样本的标识符。

4.2 运行`cellranger aggr`

cellranger aggr是用于对多个样本进行整合分析的工具。运行命令如下：

cellranger aggr --id=aggregated_output \
                --csv=aggregation_csv.csv \
                --normalize=mapped

--id：指定输出目录的名称。
--csv：指定包含样本信息的CSV文件。
--normalize：指定标准化方法。

5. 总结

本文详细介绍了如何使用Cell Ranger拆分10X单细胞转录组原始数据。通过cellranger mkfastq工具，您可以轻松地将混合的FASTQ文件拆分为每个样本的独立文件，并进行后续的质量控制和数据分析。Cell Ranger提供了强大的功能，能够帮助研究人员高效地处理和分析10X单细胞转录组数据，为单细胞研究提供了坚实的基础。

参考文献

10X Genomics. (2023). Cell Ranger User Guide. Retrieved from https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
Andrews, S. (2010). FastQC: A Quality Control Tool for High Throughput Sequence Data. Retrieved from https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ewels, P., Magnusson, M., Lundin, S., & Käller, M. (2016). MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics, 32(19), 3047-3048.