如何通过GDC Legacy Archive下载TCGA原始数据

发布时间:2021-07-24 10:19:16 作者:chen
来源:亿速云 阅读:425

如何通过GDC Legacy Archive下载TCGA原始数据

引言

癌症基因组图谱(The Cancer Genome Atlas, TCGA)是一个由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)共同发起的项目,旨在通过基因组测序和生物信息学分析来全面了解癌症的分子基础。TCGA项目生成了大量的癌症基因组数据,这些数据对于癌症研究具有重要的价值。然而,随着TCGA项目的结束,其数据已经从GDC(Genomic Data Commons)的主站点迁移到了GDC Legacy Archive。本文将详细介绍如何通过GDC Legacy Archive下载TCGA原始数据。

1. 了解GDC Legacy Archive

GDC Legacy Archive是GDC的一个子站点,专门用于存储和提供TCGA项目的旧版本数据。这些数据包括原始的测序数据、临床数据、基因表达数据等。与GDC主站点相比,Legacy Archive中的数据可能没有经过最新的标准化处理,但它们仍然是研究癌症基因组的重要资源。

2. 访问GDC Legacy Archive

要访问GDC Legacy Archive,首先需要访问GDC的官方网站:https://portal.gdc.cancer.gov/。在GDC主页上,点击“Legacy Archive”链接,即可进入GDC Legacy Archive的页面。

3. 搜索和筛选数据

在GDC Legacy Archive页面上,您可以通过多种方式搜索和筛选TCGA数据。以下是一些常用的搜索和筛选方法:

3.1 使用项目名称搜索

在搜索框中输入“TCGA”,然后按下回车键,系统将显示所有与TCGA相关的项目和数据。

3.2 使用数据类别筛选

在左侧的筛选栏中,您可以选择不同的数据类别,如“Clinical”、“Biospecimen”、“Gene Expression”等,以缩小搜索范围。

3.3 使用病例和样本ID搜索

如果您已经知道特定的病例或样本ID,可以直接在搜索框中输入这些ID,系统将显示与之相关的数据。

3.4 使用高级搜索功能

GDC Legacy Archive还提供了高级搜索功能,允许您根据多个条件进行组合搜索。例如,您可以同时筛选数据类别、病例类型、数据格式等。

4. 下载数据

在找到所需的数据后,您可以按照以下步骤下载数据:

4.1 选择数据

在搜索结果页面中,勾选您想要下载的数据文件。您可以选择单个文件或多个文件进行批量下载。

4.2 添加到购物车

点击页面右上角的“购物车”图标,将选中的数据文件添加到购物车中。

4.3 下载购物车中的文件

进入购物车页面后,点击“Download”按钮,系统将生成一个下载清单。您可以选择下载清单中的所有文件,或者选择部分文件进行下载。

4.4 使用GDC Data Transfer Tool

对于较大的数据集,建议使用GDC Data Transfer Tool进行下载。该工具可以加速下载过程,并支持断点续传。您可以在GDC官方网站上下载并安装该工具。

5. 数据格式和预处理

下载的TCGA数据通常以多种格式存储,如BAM、FASTQ、VCF等。在使用这些数据之前,可能需要进行一些预处理步骤,如数据解压缩、格式转换、质量控制等。以下是一些常用的预处理工具和方法:

5.1 数据解压缩

TCGA数据通常以压缩文件(如.tar.gz或.zip)的形式提供。您可以使用常见的解压缩工具(如7-Zip、WinRAR等)来解压这些文件。

5.2 格式转换

如果您需要将BAM文件转换为FASTQ格式,可以使用工具如samtools或Picard。例如,使用samtools将BAM文件转换为FASTQ文件的命令如下:

samtools fastq input.bam > output.fastq

5.3 质量控制

在进行数据分析之前,建议对原始数据进行质量控制。常用的质量控制工具包括FastQC和Trimmomatic。FastQC可以生成数据质量的报告,而Trimmomatic可以用于去除低质量的reads和接头序列。

6. 数据分析和应用

下载并预处理后的TCGA数据可以用于多种癌症研究,如基因表达分析、突变分析、拷贝数变异分析等。以下是一些常见的分析方法和工具:

6.1 基因表达分析

基因表达数据可以用于识别差异表达基因(DEGs),常用的分析工具包括DESeq2和edgeR。这些工具可以帮助您识别在不同样本或条件下显著差异表达的基因。

6.2 突变分析

突变数据可以用于识别癌症中的驱动突变和突变特征。常用的突变分析工具包括MutSigCV和OncodriveCLUST。这些工具可以帮助您识别在癌症中显著突变的基因。

6.3 拷贝数变异分析

拷贝数变异数据可以用于识别癌症中的拷贝数变异区域。常用的分析工具包括GISTIC2和CNVkit。这些工具可以帮助您识别在癌症中显著扩增或缺失的基因组区域。

7. 结论

通过GDC Legacy Archive,研究人员可以方便地访问和下载TCGA项目的原始数据。这些数据为癌症研究提供了宝贵的资源,有助于深入理解癌症的分子机制。通过合理的数据预处理和分析,研究人员可以从这些数据中获得有价值的研究成果。希望本文的介绍能够帮助您顺利下载和使用TCGA数据,推动您的癌症研究项目。

参考文献

  1. National Cancer Institute. (n.d.). The Cancer Genome Atlas (TCGA). Retrieved from https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
  2. Genomic Data Commons. (n.d.). GDC Legacy Archive. Retrieved from https://portal.gdc.cancer.gov/legacy-archive
  3. Broad Institute. (n.d.). Picard Tools. Retrieved from https://broadinstitute.github.io/picard/
  4. Andrews, S. (2010). FastQC: A Quality Control Tool for High Throughput Sequence Data. Retrieved from https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
  5. Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, 15(12), 550. doi:10.1186/s13059-014-0550-8
  6. Lawrence, M. S., Stojanov, P., Polak, P., et al. (2013). Mutational heterogeneity in cancer and the search for new cancer-associated genes. Nature, 499(7457), 214-218. doi:10.1038/nature12213
  7. Mermel, C. H., Schumacher, S. E., Hill, B., et al. (2011). GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Genome Biology, 12(4), R41. doi:10.1186/gb-2011-12-4-r41
推荐阅读:
  1. 通过把docker镜像保存为文件载入到别的服务器
  2. Zabbix通过Orabbix监控Oracle DataGuard

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

gdc

上一篇:Springbean中Spring注入方式有哪些

下一篇:Django应用app及分布式路由的示例分析

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》