摘要:以1970年前后氨基酸序列比对方法的初步建立和碱基替换模型的初步研究为标志,分子系统发育研究已经走过了50余年的历史。20世纪80年代,高级阶元系统发育研究所采用的主要分子标记是核基因rDNA;20世纪90年代,线粒体基因组数据的使用逐渐增多(植物研究中叶绿体基因组比线粒体基因组更常用);进入21世纪之后,在原核生物、原生生物、植物、真菌、动物等各大类群的系统发育研究中都陆续出现了基于基因组和/或转录组等高通量测序数据所做的分析。在后基因组时代分子标记的数量即将达到极限的今天,或许是时候从整体上思考高级阶元分子系统发育研究未来的创新方向了。事实上,相对于在测序平台与技术方面已经发生的升级换代而言,分子系统发育底层方法论的重塑可能还在持续发展的过程中,未来在分类单元选取原则与方式、数据质量、建模方式、算法、化石记录在分歧时间标定中的标准化使用等各方面仍然存在巨大的进步空间。在高级阶元分子系统发育研究本身得到持续完善的时候,其服务于生命科学其他领域研究的能力也将获得更大的提升。
关键词: 高级阶元, 分子系统发育, 创新, 分类单元选取, 模型, 算法, 化石, 形态
研究背景
本文分为两个部分,第一部分是高级阶元分子系统发育分析的流程,从温故而知新的角度考虑,先回顾目前高级阶元分子系统发育分析的一般方法流程,其中包括过去几十年来一些重要创新的持续积累,以此来认识高级阶元分子系统发育方法论体系的基本特点和目前所达到的水平。然后,思考未来如何通过一些关键步骤的优化进一步提升高级阶元分子系统发育分析的表现。第二部分是高级阶元分子系统发育研究的成果如何发挥“生命参照系”的作用,放大到生命科学领域的发展主线,思考高级阶元分子系统发育研究如何更好地为生命科学其他学科领域做出贡献。
- 高级阶元分子系统发育分析的流程本身
Hennig (1966) 的《Phylogenetic Systematics》一书中,有一句话描述生物系统学在当时的生物学整体中所处的弱势及其原因,“If in this struggle for survival biological systematics has recently lost ground to other and, as is often heard, younger and more modern disciplines, this is not so much because of the limited practical or theoretical importance of systematics as because systematists have not correctly understood how to present its importance in the general field of biology, and to establish a unified system of instruction in its problems, tasks, and methods”。五十多年后的今天,当我们思考高级阶元系统发育研究目前的发展水平,虽然整个领域已经取得了巨大进步,但是如何更好地去构建一个全面包含目标类群、科学问题、研究任务和可靠方法的统一系统,仍然还有诸多问题待解。以下,我们先来简要回顾目前高级阶元分子系统发育分析的一般方法流程,然后思考其中存在的问题和未来的任务。
注:biological systematics一词在Hennig (1966)中有广义和狭义的理解,此处可以理解为今天研究者们所说的systematic biology
- 高级阶元分子系统发育的“生命参照系”作用
Hennig (1966) 在《Phylogenetic Systematics》一书中提到,“a phylogenetic system is to be preferred among all conceivable biological systems… by ‘phylogenetic system’ we mean a system that expresses the phylogenetic relationships of organisms… the phylogenetic system as a general reference system for biological systematics”,认为一个基于系统发育关系的生物系统在生物学所有的系统中是最可取的一个作为其它系统(如形态系统、生理系统、生态系统等)参照系的系统。做出这样判断的主要原因在于,相对而言,以系统发育关系作为参照系去关联其它生物系统最为容易、直接。此外,支撑系统发育系统的亲缘关系是可以相对精确量度的,并且通常与形态特征相似性的对应程度较好,因而实用性比较好。事实上,当系统发育基因组学(phylogenomics)这个词最初被提出的时候(Eisen and Fraser 2003),其本意就是试图表明,一方面,基因组数据可以帮助进行系统发育解析,而另一方面,更加可靠的系统发育树的构建也可以从进化角度为基因组比较研究提供强有力的支持,包括基因家族进化,以及从大量报告的可疑的横向基因转移(lateral gene transfer, LGT)事例中鉴别出那些真实的案例,等等。
小结与建议
随着高级阶元分子系统发育研究中所使用的分子标记数量大幅提升、分析流程的标准化逐步完善、非线性分子钟模型在分歧时间推断中的应用,该领域研究成果所给出的树形结构可靠性得到了大幅提升。
但是鉴于目前主要基于二代测序数据的系统发育基因组学研究结果仍然存在不少表现不如预期的情况,未来应该在多个方向进行深度探索,其中包括数据质量(完整性)、多拷贝基因序列信息的充分利用、基因组进化建模、基于深度学习的碱基或氨基酸替换模型改进、系统发育信号的理论研究、分子衍征体系的构建等侧重数据分析的方向,也包括分类单元取样完整程度的提升、高阶分类单元的建立与高阶分类系统修订、现生类群及其与化石类群间的比较形态学研究、化石记录在分歧时间推断分析中的标准化使用等侧重分类学与形态学的传统方向。
未来,随着系统发育基因组学研究结果表现的持续提升,所有依托树形结构开展的后续研究也将得到提升;随着对于系统发育信号的精准解读,系统发育数据分析过程这一黑箱可能被揭开;随着基因组水平分子衍征的全面总结和基因组编辑技术能力的大幅提升,系统发育基因组学研究有望更好地连接起生命科学中生理(广义)、进化、生态三大研究传统,充分发挥“生命参照系”的作用。
建议:由于本文涉及话题比较广泛,并且侧重未来创新思考本身,因此只引用了很少的参考文献,以便聚焦对于未来创新的思考本身,如果某些名词或论述显得未能充分展开,建议读者进一步阅读相关书籍和综述获取更为具体的信息。
致谢
衷心感谢中国科学院植物研究所孔宏智研究员、中山大学生命科学学院施苏华教授和贺雄雷教授、南开大学计算机学院王刚教授和任明明博士对本文初稿的阅读和点评。衷心感谢两位匿名审稿专家提出建设性的修改意见。
参考文献
- Brown, C.T., Hug, L.A., Thomas, B.C., Sharon, I., Castelle, C.J., Singh, A., Wilkins, M., Wrighton, K.C., Williams, K.H. and Banfield, J.F. (2015). Unusual biology across a group comprising more than 15% of domain Bacteria. Nature 523: 208-211,
- Bouckaert, R., Vaughan, T.G., Barido-Sottani, J., Duchêne, S., Fourment, M., et al. (2019). BEAST 2.5: An advanced software platform for Bayesian evolutionary analysis. PLoS computational biology 15: e1006650,
- Bourlat, S.J., Juliusdottir, T., Lowe, C.J., Freeman, R., Aronowicz, J., et al. (2006). Deuterostome phylogeny reveals monophyletic chordates and the new phylum Xenoturbellida. Nature 444: 85-88,
- Crotty, S.M., Minh, B.Q., Bean, N.G., Holland, B.R., Tuke, J., Jermiin, L.S. and Von Haeseler, A. (2020). GHOST: Recovering historical signal from heterotachously evolved sequence alignments. Systematic Biology 69: 249-264.
- Drummond, A.J. and Rambaut, A. (2007). “BEAST: Bayesian evolutionary analysis by sampling trees.” BMC Evolutionary Biology 7: 214.
- Eisen, J.A. and Fraser, C.M. (2003). Phylogenomics: intersection of evolution and genomics. Science 300: 1706-1707.
- Henig, W. (1966). Phylogenetic Systematics, pp. 1-27. Urbana: University of Illinois Press.
- Kapli, P., Yang, Z. and Telford, M.J. (2020). Phylogenetic tree building in the genomic age. Nature Reviews Genetics 21: 428-444,
- Klass, K.D., Zompro, O., Kristensen, N.P. and Adis, J. (2002). Mantophasmatodea: A new insect order with extant members in the afrotropics. Science 296: 1456-1459.
- Lartillot, N. and Philippe, H. (2004). A Bayesian mixture model for across-site heterogeneities in the amino-acid replacement process. Molecular Biology and Evolution 21: 1095-1109,
- Misof, B., Liu, S., Meusemann, K., Peters, R.S., Donath, A., et al. (2014). Phylogenomics resolves the timing and pattern of insect evolution. Science 346: 763-767,
- Nguyen, L. T., Schmidt, H.A., von Haeseler. A. and Minh, B.Q. (2015). IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies. Molecular Biology and Evolution 32: 268-274.
- Spang, A., Saw, J.H., Jørgensen, S.L., Zaremba-Niedzwiedzka, K., Martijn, J., Lind, A.E., van Eijk, R., Schleper, C., Guy, L. and Ettema, T.J.G. (2015). Complex archaea that bridge the gap between prokaryotes and eukaryotes. Nature 521: 173-179,
- Sundberg, K., Clement, M. and Snell, Q. (2010). On the use of cartographic projections in visualizing phylo-genetic tree space. Algorithms for Molecular Biology 5: 26,
- Suvorov, A., Hochuli, J. and Schrider, D.R. (2020). Accurate inference of tree topologies from multiple sequence alignments using deep learning. Systematic Biology 69: 221-233.
- Thomas, G.W.C., Dohmen, E., Hughes, D.S.T, Murali, S.C., Poelchau, M., et al. (2020). Gene content evolution in the arthropods. Genome Biology 21: 15.
- Wang, Y., Engel, M.S., Rafael, J.A., Wu, H., Rédei, D., Xie, Q., Wang, G., Liu, X.G. and Bu, W. (2016). Fossil record of stem groups employed in evaluating the chronogram of insects (Arthropoda: Hexapoda). Scientific Reports 6: 38939.
- Westblad, E. (1949). Xenoturbella bocki n.g, n.sp, a peculiar, primitive turbellarian type. Arkiv Zoologi 1: 3-29.
- Xie, Q., Wang, Y., Lin, J., Qin, Y., Wang, Y., Bu, W. (2012). Potential key bases of ribosomal RNA to kingdom-specific spectra of antibiotic susceptibility and the possible archaeal origin of eukaryotes. PLoS ONE 7: e29468,
- Wu, H.Y., Wang, Y.H., Xie, Q., Ke, Y. L. and Bu, W.J. (2016). Molecular classification based on apomorphic amino acids (Arthropoda, Hexapoda): Integrative taxonomy in the era of phylogenomics. Scientific Reports 6:28308,
- Yang, Z. (2007). PAML 4: Phylogenetic Analysis by Maximum Likelihood. Molecular Biology and Evolution 24: 1586-1591.
- Zhang, C., Huelsenbeck, J. and Ronquist, F. (2020). Using parsimony-guided tree proposals to accelerate convergence in Bayesian phylogenetic inference. Systematic Biology 69: 1016-1032.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:谢强. (2021). 高级阶元分子系统发育研究未来创新的思考.
Bio-101: e1010602. DOI:
10.21769/BioProtoc.1010602.
How to cite: Xie, Q. (2021). Thinking on the Future Innovations in the Molecular Phylogenetics at Higher Category Levels.
Bio-101: e1010602. DOI:
10.21769/BioProtoc.1010602.