摘要:mRNA-seq是通过逆转录过程将细胞产生的RNA转化为DNA (cDNA,互补,并对获得的cDNA进行文库构建)。然后对得到的DNA进行测序,并从观察到的特定DNA丰度中,从中推断细胞中mRNA的原始量。大多数mRNA-seq分析的目标是找到在实验条件下转录水平发生变化的基因或转录本,即差异表达。通过找到这些基因和转录本,我们可以推断出不同条件的功能特征。mRNA-seq通常建议的每种状态最小生物学重复次数为3次,5次更好。如果预期到结果可能差异微妙或者生物变异显着时 (例如对活体动物进行实验),需要更多的重复。所以,一组实验 (对照组和实验组) 意味着会有6~10个样品,产生6~10个或者更多fastq文件。所以能够明确以及流程化分析过程十分重要。
关键词: mRNA-seq analysis, 序列比对, 测序定量, 差异表达
仪器设备
- 服务器 (型号:I620-G20;系统:centos7;CPU:Xeon(R) CPU E5-2620 v4 @2.10GHz,3核),用于运行相关命令
- 普通个人电脑 (需要已经安装好R,能调用个人终端。本教程是使用Mac系统进行操作的。)
软件
- FastQC (v0.11.8)
- mulitiQC (v1.6)
- flexbar (v 3.3.0)
- STAR (STAR_2.6.0a)
- samtools (v1.9)
- HTSeq (0.11.0)
- R (v3.5.1)
实验步骤
注:本教程是基于已经在服务器上和个人电脑上安装好相关软件进行的。如果安装出现问题,请参考以下链接:
FastQC:https://www.bioinformatics.babraham.ac.uk/projects/download.html
mulitiQC:https://multiqc.info/
flexbar:https://github.com/seqan/flexbar
STAR:https://github.com/alexdobin/STAR
Samtools:http://www.htslib.org/download/
HTSeq:https://htseq.readthedocs.io/en/release_0.10.0/
- 数据获得
本教程以我们实验室2018的eLIFE文章 (Epigenetic drift of H3K27me3 in aging links glycolysis to healthy longevity in Drosophila) 中的部分数据作为测试数据(Ma等, 2018)。
注:一般已发表文章所包含的数据可以在NCBI (SRA、GEO等)、EMBL-EBI等相关数据库获得。本文中的原始数据 (raw data) 可以在eLIFE文章 (Ma等, 2018) 中获取。 - 通过FastQC对数据进行质量评估
$ fastqc所在目录/fastqc -t 4 -o 输出文件夹 输入文件
在文件夹可以看到每个输入文件有两个输出结果,一个结果集合压缩包和一个网页型结果。一般通过查看网页结果即可知道基本的测序质量。但是具有多个样品逐一打开过于麻烦,所以可以通过multiQC将所有的结果综合到一起查看,输入命令:
$ multiqc 目标文件夹
输出结果是网页形式,结果如图1所示:
图1. MultiQC输出结果
通过结果得知,测序样品结果稳定,测序质量很高。除了用multiQC查看多个QC结果以外,我们还用名为fastqc_summary.py的一个python脚本看每个样本的reads数量,GC含量,Q20,Q30的比例。脚本如图2所示:
图2. fastqc_summary.py脚本内容
这段脚本的逻辑为:
运行命令为:
$ python3 ./fastqc_summary.py 目标文件
运行后会输出一个txt文本,结果如图3所示:
图3. 测序Q30结果
结果表明Q20指标在1.0,Q30指标在0.97,可以说测序质量非常好了! - 对测序文件进行比对
- 差异表达分析
HTseq的输出文件可以直接与R包DESeq2对接,得到差异表达分析数据。将R的工作环境设置到含有HTseq输出的counts文件下,运行如下脚本 (图5):
图5. DESeq2差异表达分析R脚本
运行脚本后我们可以获得一个差异表达的表格,标准化了的counts表达矩阵,以及一张PCA图 (图6)。
图6. PCA图
- 下游分析
到目前为止,我们已经获得了实验组和对照的差异表达数据集。在这个数据集中包含了差异表达倍数、P值、本底表达量等信息,后面可以基于这组数据进行下游分析。比如对筛选出的差异基因做热图展示、GO分析、KEGG分析等。
参考文献
- Ma, Z., Wang, H., Cai, Y., Wang, H., Niu, K., Wu, X., Ma, H., Yang, Y., Tong, W., Liu, F., Liu, Z., Zhang, Y., Liu, R., Zhu, Z. J. and Liu, N. (2018). Epigenetic drift of H3K27me3 in aging links glycolysis to healthy longevity in Drosophila. Elife 7: e 35368.
- Sahraeian, S. M. E., Mohiyuddin, M., Sebra, R., Tilgner, H., Afshar, P. T., Au, K. F., Bani Asadi, N., Gerstein, M. B., Wong, W. H., Snyder, M. P., Schadt, E. and Lam, H. Y. K. (2017). Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nat Commun 8(1): 59.
Copyright: © 2019 The Authors; exclusive licensee Bio-protocol LLC.