摘要:可变剪接 (Alternative splicing, AS) 和可变多聚腺苷酸化 (Alternative polyadenylation, APA) 是指同一mRNA前体通过不同的剪接方式产生不同转录本异构体的过程。通过AS或APA调控机制,一个基因可在不同时空状态下产生多个结构、功能、细胞定位或稳定性不同的mRNA和蛋白质,进而产生不同的生物学功能和性状,最终驱动环境适应、物种分化和生物多样性等多种生物学过程。近年来高通量测序和生物信息学技术的快速发展为深入研究可变剪接调控机制提供了丰富的转录组数据资源和逐渐完善的分析方法。基于二代测序技术得到的RNA-Seq数据,rMATS软件是目前最常用的分析可变剪接事件的工具,APAtrap软件是常用来分析可变多聚腺苷酸化的工具。这两种方法均可通过对剪接位点的鉴定和定量,得到两组样品比较的差异可变剪接/腺苷酸化位点和基因,进而通过基因功能注释得到可变剪接调控机制在不同生物过程中的作用。本文将介绍利用rMATS和APAtrap软件分别进行差异可变剪接和可变多聚腺苷酸化研究的数据分析流程,以期为今后相关软件的使用提供方法借鉴。
关键词: 可变剪接, 可变多聚腺苷酸化, 转录组, rMATS, APAtrap
研究背景
可变剪接是驱动蛋白质多样性的重要调控机制,在生长发育、环境适应、物种分化等多种生物学过程中发挥重要作用,成为目前基因调控机制研究中的热点 (Bush et al., 2017; Schaefke et al., 2018)。同时,可变多聚腺苷酸化作为一种重要的转录后调控机制,通过选择前体mRNA 3’末端不同的多聚腺苷酸化位点 (PAS),产生具有不同3’UTR长度的转录本,进而影响转录本的稳定性、表达量和翻译效率 (Pereira-Castro and Moreira, 2021),在疾病发生和各种胁迫响应过程中发挥重要作用 (Sadek et al., 2019; Zheng et al., 2018),逐渐成为分子生态研究领域的新兴关注热点。全基因组水平可变剪接事件/基因的鉴定和定量是研究可变剪接调控机制的前提,高通量测序技术为可变剪接相关研究提供了良好的技术平台并积累了大量的数据基础。传统的二代测序以通量高、读长短为特点,难以获得完整的转录本全长序列,而转录本重新拼接易造成转录本结构不完整或拼接错误,因此在可变剪接研究中存在一定的局限性。最新的三代测序技术可获得长达25-30 kb的超长读长序列,能够直接获得完整的转录本,进而更准确地开展转录本多样性研究。例如,利用MinION纳米孔测序仪对非小细胞肺癌组织进行全长转录本测序,成功鉴定到癌细胞中的异常剪接转录本,对评估中肿瘤免疫反应具有重要作用,然而这些异常转录本在之前利用短读长高通量测序的相关研究中则处于被忽视状态 (Oka et al., 2021)。然而,由于三代测序相较于二代测序通量低且成本高的特点,三代测序技术尚未全面开展应用,尤其是在生态进化领域中以群体为研究对象的大样本研究中。因此,基于大量积累的二代转录组测序数据,选择合适的分析工具进行可变剪接研究是目前较为常见且可行性较高的研究手段,例如,基于二代测序转录组分析结果表明可变剪接是北极红点鲑 (Salvelinus alpinus) 快速适应不同栖息环境的重要分子调控机制 (Jacobs and Elmer, 2021),且可变剪接是豌豆蚜虫在不同季节呈现表型多样性的重要分子基础之一 (Grantham and Brisson, 2018)。同样基于二代转录组测序分析结果表明,砷胁迫能够诱导小鼠NIH3T3细胞在全基因组范围内更倾向于选择近端PAS位点造成大量基因3’UTR长度变短,通过逃避RNA降解以保持表达量稳定 (Zheng et al., 2018)。
目前利用RNA-Seq测序数据进行可变剪接分析的软件有很多,总体来讲分为三大类:基于转录本异构体 (transcript isoform) 的软件如Cufflinks (Trapnell et al., 2013),基于外显子为统计单元如DEXSeq (Anders et al., 2012),和利用跨越剪接位点的连接区域 (junction region) 为统计单元的方法如rMATS (Shen et al., 2014) 等。由于二代测序短读长在组装上的劣势造成转录本组装的不准确性,本文选取基于剪接位点的rMATS软件和APAtrap软件分别就其在可变剪接和可变多聚腺苷酸化研究中的常规分析流程进行阐述。
软件版本信息及下载地址
文中所有软件的运行均在Linux操作系统Ubuntu 14环境上进行,数据处理和分析则在个人普通电脑上进行。
-
rMATS v4.1.1 (http://rnaseq-mats.sourceforge.net/rmats4.0.2/; Shen et al., 2014)
-
HISAT2 2.2.1 (https://daehwankimlab.github.io/hisat2/; Kim et al., 2015)
-
Samtools v.1.13 (https://sourceforge.net/projects/samtools/files/samtools/)
-
APAtrap (https://sourceforge.net/projects/apatrap/; Ye et al., 2018)
-
rmats2sashimiplot (https://github.com/Xinglab/rmats2sashimiplot)
-
R v.4.1.0 (https://cran.r-project.org/src/base/R-4/)
实验步骤
一、数据准备
由于本可变剪接数据分析流程重点关注两组样品比较得到的差异可变剪接情况,因此需提前准备两组具有生物学比较意义的、含有生物学重复的RNA-Seq数据。本教程中测试数据集包含两组双端测序数据fastq格式文件:处理组T和对照组C,每组数据包含3个生物学重复,分别命名为T1、T2、T3和C1、C2、C3。
注:原始转录组数据应首先进行质量控制和数据清洗,去处低质量碱基和接头序列,具体流程参考请参考阅读Trimmomatic软件的官方说明进行 (http://www.usadellab.org/cms/index.php?page=trimmomatic),本文不做赘述。
二、rMATS软件进行差异可变剪接分析
-
软件安装
-
输入文件格式准备
rMATS软件支持两种格式文件的输入,一种是fastq序列格式,需要同时安装序列比对软件如STAR并提供比对的索引文件,另一种是序列比对结果bam格式,rMATS软件支持多种比对软件如Tophat或HISAT2软件的输出结果。由于使用fastq格式文件时候比对索引文件较大且软件运行较慢,因此推荐使用HISAT2软件输出的bam格式文件。具体HISAT2比对流程及参数设置请参考HISAT2软件的官方说明进行 (https://daehwankimlab.github.io/hisat2/),本文不做赘述。另外还需准备用于序列比对的基因组注释文件annotation.gtf。
HISAT2软件输出文件为sam格式,利用samtools软件将sam格式转换为bam格式:
samtools sort -@ 8 -o T1.bam T1.sam
注:-@ 设置线程数量,默认为1;-o 设置最终排序后的输出文件名;最后是输入sam格式文件。
然后将需要比较的两组数据信息整理成txt文本格式,文件内以逗号分隔重复样本的bam文件名。例如处理组和对照组三个生物学重复样品的bam格式比对文件分别整理为b1.txt和b2.txt文件:
b1.txt内容:T1.bam, T2.bam, T3.bam
b2.txt内容:C1.bam, C2.bam, C3.bam
-
rMATS软件运行
在rMATS-turbo-Linux-UCS4文件路径下输入:
python rMATS-turbo-Linux-UCS4/rmats.py --b1 b1.txt --b2 b2.txt --gtf annotation.gtf --od AS -t paired --readLength 150 --nthread 10
rMATS软件运行必须设置的参数包括以下几项:
--b1 b1.txt: 文本文件包含处理组各样品bam格式比对文件信息
--b2 b2.txt: 文本文件包含对照组各样品bam格式比对文件信息
--gtf: 基因组的注释文件
--od: 输出文件夹
-t: 序列类型readType,双端测序则readType为paired,单端测序则为single
--readLength: 测序reads的长度
--nthread: 根据CPU处理器设置线程数
-
结果解读与数据整理
运行rMATS后所有的输出文件都在—od参数设置的文件夹中,主要包含以下五种类型的结果文件,下游分析通常仅需考虑第一种文件类型即可:
AS_Event.MATS.JC.txt: 仅考虑跨越剪接位点reads (Junction count) 的最终可变剪接结果;
AS_Event.MATS.JCEC.txt: 不仅考虑跨越剪接位点的reads,同时考虑没有跨域剪接位点的reads (exon counts) 的最终可变剪接结果(图1中条纹区域);
FromGTF.AS_Event.txt: 从GTF注释文件中衍生出的可变剪接事件;
JC.raw.input.AS_Event.txt: 仅考虑跨越剪接位点的剪接事件数;
JCEC.raw.input.AS_Event.txt: 不仅考虑跨越剪接位点的reads,同时考虑没有跨域剪接位点的reads的剪接事件数;
-
关键可变剪接事件的可视化
为了缩短可视化软件运行时间并提高分析针对性,用户可根据rMATS输出结果中IncLevelDifference参数大小、或关键生物学功能过程中的关键基因自行挑选重要的可变剪接事件。将候选可变剪接事件从rMATS输出结果文件中挑选出来,重新形成新的SE.MATS.JC.txt文件。
三、APAtrap软件进行差异可变多聚腺苷酸化分析
近年来研究发现基因在转录过程中存在poly(A) 位点的选择,造成具有不同长度3'UTR序列的转录异构体。虽然APA调控一般情况下不会改变编码区的序列,然而3'UTR常作为miRNA调控的靶区域,同时也会被特定的RNA结合蛋白调控,影响mRNA的稳定性进而影响蛋白质翻译水平。因此研究3'UTR长度调控具有重要的生物学意义,而首要任务是从转录组数据中对加尾信号进行准确的鉴定。APAtrap是一款鉴定APA位点的软件,同时能够检测两组数据中差异APA事件。
-
软件安装
从官方网站下载软件,解压缩,文件夹APAtrap中包含两个由Perl编译的可执行文件"identifyDistal3UTR"和"predctAPA",还包含一个名为"deAPA_1.0.tar.gz"的R包。
打开R程序并进入deAPA_1.0.tar.gz文件所在路径,输入以下命令行安装软件:
>install.packages("deAPA_1.0.tar.gz", repos = NULL, type = "source")
-
数据准备
-
软件使用
软件使用共包括三个步骤:
-
结果解读
最终deAPA输出结果文件中最为重要的三个参数分别为perc_diff、r和p.adajust (Ye et al., 2018):
perc_diff (percentage difference,PD),用来对两组样品间APA位点使用率的差异百分比进行定量,范围为0-1,数值越高代表差异越大;r (Pearson product moment correlation coefficient) 皮尔森积差相关系数,范围为-1到1,正值代表组2相比于组1而言,更倾向于使用远端poly(A)位点或具有更长的3'UTR,负值则代表组2更倾向于使用近端poly(A)位点或具有更短的3'UTR;p.adajust是使用Benjamini-Hochberg方法对P值进行校正得到的结果。首先根据PD ≥ 0.2且p.adjust < 0.05将显著差异APA事件筛选出来,然后再根据r值的正负将两组比较中使用远端、近端的poly(A)位点的APA事件进行区分。例如,Ye et al. (2019)研究表明:水稻在干旱胁迫 (Drought) 下,发生差异APA的基因更倾向于使用远端poly(A)位点,造成更长的3'UTR (Lenghthening);然而温度胁迫 (Heat) 下不同品系的水稻表现出不同的趋势;不同浓度重金属Cd胁迫 (cadmium) 也分别造成不同的APA使用,低浓度Cd胁迫下差异APA基因更倾向于使用近端poly(A)位点 (Shortening),而高浓度Cd胁迫下差异APA基因更倾向于使用远端poly(A)位点 (Lenghthening) (图4)。对于生物胁迫而言,白叶枯病原(Bacterial Blight)和稻瘟病原(Rice Blast)感染后使用远端poly(A)位点的基因数目大于使用近端poly(A)位点的基因数目,即更倾向于造成更长的3’UTR (Lenghthening),而病毒感染后 (Rice Stripe Virus) 则呈现相反趋势(图4)。
图4. 水稻不同胁迫下的差异APA基因 (图片来源于Ye et al., 2019)
致谢
我们的研究受到国家自然科学基金委员会面上项目 (31772449)、国际合作项目 (320611430121) 的资助支持。
竞争性利益声明
作者声明没有利益冲突。
参考文献
-
Anders, S., Reyes, A. and Huber, W. (2012). Detecting differential usage of exons from RNAseq data. Genome Res 22(10): 2008–2017.
-
Bush, S. J., Chen, L., Tovar-Corona, J. M. and Urrutia, A. O. (2017). Alternative splicing and the evolution of phenotypic novelty. Philos Trans R Soc Lond B Biol Sci 372(1713): 20150474.
-
Grantham, M. E. and Brisson, J. A. (2018). Extensive differential splicing underlies phenotypically plastic aphid morphs. Mol Biol Evol 35(8): 1934-1946.
-
Huang, X. and Zhan, A. (2021). Highly dynamic transcriptional reprogramming and shorter isoform shifts under acute stresses during biological invasions. RNA Biol 18(3): 340-353.
-
Jacobs, A. and Elmer, K. R. (2021). Alternative splicing and gene expression play contrasting roles in the parallel phenotypic evolution of a salmonid fish. Mol Ecol 00: 1-15.
-
Kim, D., Langmead, B. and Salzberg, S. L. (2015). HISAT: a fast spliced aligner with low memory requirements. Nat Methods 12: 357-360.
-
Oka, M., Liu, X., Suzuki, T., Yoshikawa, T. and Seki, M. (2021). Aberrant splicing isoforms detected by full-length transcriptome sequencing as transcripts of potential neoantigens in non-small cell lung cancer. Genome Biology 22(1): 9.
-
Park, J. W., Tokheim, C., Shen, S. and Xing, Y. (2013). Identifying differential alternative splicing events from RNA sequencing data using RNASeq-MATS. In: Shomron N. (Ed.). In: Methods in molecular biology: deep sequencing data analysis. Springer, 171-179.
-
Pereira-Castro, I. and Moreira, A. (2021). On the function and relevance of alternative 3'-UTRs in gene expression regulation. Wiley Interdiscip Rev RNA, e1653.
-
Schaefke, B., Sun, W., Li, Y. S., Fang, L. and Chen, W. (2018). The evolution of posttranscriptional regulation. Wiley Interdiscip Rev RNA e1485.
-
Sadek, J., Omer, A., Hall, D., Ashour, K. and Gallouzi, I. E. (2019). Alternative polyadenylation and the stress response. Wiley Interdiscip Rev RNA 10(5): e1540.
-
Shen, S, Park, J. W., Lu, Z. X., Lin, L., Henry, M. D., Wu, Y. N., Zhou, Q. and Xing, Y. (2014).rMATS: robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proc Natl Acad Sci U S A 111: E5593-5601.
-
Trapnell, C., Hendrickson, D. G., Sauvageau, M., Goff, L., Rinn, J. L. and Pachter, L. (2013). Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol 31(1), 46-53.
-
Ye, C., Long, Y., Ji, G., Li, Q. Q. and Wu, X. (2018). APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data. Bioinformatics 34: 1841-1849.
-
Ye, C., Zhou, Q., Wu, X., Ji, G. and Li, Q. Q. (2019). Genome-wide alternative polyadenylation dynamics in response to biotic and abiotic stresses in rice. Ecotoxicol Environ Saf 183: 109485.
-
Zheng, D., Wang, R., Ding, Q., Wang, T., Xie, B., Wei, L.,et al. (2018). Cellular stress alters 3'UTR landscape through alternative polyadenylation and isoform-specific degradation. Nat Commun 9(1), 2268.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:黄雪娜, 战爱斌. (2021). 基于二代转录组数据的可变剪接和可变多聚腺苷酸化分析.
Bio-101: e1010658. DOI:
10.21769/BioProtoc.1010658.
How to cite: Huang, X.N. and Zhan, A.B. (2021). Analysis of Alternative Splicing and Alternative Polyadenylation Patterns Based on Transcriptome Data by Next Generation Sequencing.
Bio-101: e1010658. DOI:
10.21769/BioProtoc.1010658.