数据分析
所得原始测序数据分别用FastQC (Andrews, 2010) 和Trimmomatic (Bolger
et al., 2014) 进行质量评估和低质量数据过滤。设置Trimmomatic参数为:去除掉序列两端质量不高于30 (即测序错误率高于10-3,或准确率低于99.9%) 的位点,以 Illumina 发布的接头序列为参考去除接头序列,最终保留序列长度不低于36 bp的序列,直到最终利用FastQC对过滤后的数据进行检测时,“每位点序列质量”均超过30,“过表达序列”和“接头”中均不包含接头序列。
通过上述流程获得Clean Data后,利用Trinity (Grabherr
et al., 2011)或其他转录组组装软件进行转录组数据从头组装。组装后将测序序列 (Reads) 回溯 (Mapping) 至转录本,并过滤掉平均覆盖度不超过10的转录本序列。过滤后的转录本序列再用Geneious version 7.1.5 (Biomatters,Auckland,New Zealand) 以UniVec Core为参考去除质粒序列,其后输出序列长度超过200 bp的转录本,进行后续分析。
单拷贝同源基因的分配采用Orthograph version 0.6.1 (Petersen
et al., 2017)。Orthograph是可以在参考序列和目标序列间做双向搜索的工具,最终仅输出在双向搜索中匹配度最高的结果。选取已完备测序和注释的参考物种基因组,使用OrthoFinder version 1.1.10 (Emms and Kelly, 2015) 识别出其共享的单拷贝同源基因,并构建单拷贝同源基因数据库,作为Orthograph进行单拷贝同源基因分配的参考数据库。成功进行单拷贝同源基因分配后,使用Orthograph自带的perl脚本(summarize_orthograph_results.pl) 在核苷酸 (nucleotide,NT) 和氨基酸(amino acid,AA) 层面分别汇总各基因序列。利用MAFFT version 7.310 (Katoh and Standley, 2013),采用L-INS-i算法,对汇总后的氨基酸序列进行比对,得到多序列比对序列 (Multiple Sequence Alignments,MSA)。所得的MSA按照 (Petersen
et al., 2017) 中的流程先后进行异常序列筛查、优化、排除后,以比对后的氨基酸序列为模板,利用PAL2NAL (Suyama
et al., 2006) 进行核苷酸序列比对。通过在默认设置条件下运行Aliscore (version 2.2) (Misof and Misof, 2009; Kück
et al., 2010; Meusemann
et al., 2010),本研究识别并移除比对后各氨基酸序列中的歧义位点,随后移除核苷酸序列中相应的位点。
氨基酸和核苷酸序列起始和末端的空位分别以X和N补齐;再利用FASconCAT-G (Kück and Longo, 2014) 将全部氨基酸的MSA串联(Concatenate) 成为超级矩阵;为提高整体系统发育信息,用MARE version 0.1.2-rc (Misof
et al., 2013) 对该矩阵进行“压缩”,得到氨基酸 (AA) 矩阵,再通过FASconCAT-G获得各矩阵组相应的核苷酸矩阵。可分别利用Alistat analysis (version 1.6) (
https://github.com/thomaskf/AliStat)和 symtest (version 2.0.47) 评估了各矩阵的数据完整性 (Completeness) 和异质性(Heterogeneity) 情况。
利用IQ-TREE (Nguyen
et al., 2015) 对全部6个建树矩阵分别进行系统发育构建。先以IQ-TREE自带的ModelFinder (Kalyaanamoorthy
et al., 2017) 按照Akaike's Information Corrected Criterion (AICc) 标准对各数据分区 (Partition) 进行最佳系统发育模型筛选,基于筛选出的模型搜索最优树 (BEST_TREE),再采用标准自举检验 (Standard Bootstrap) 进行100次重建树以评估节点支持率。