摘要:自然选择是生物进化的动力,在分子水平上检测正选择作用,进而识别重要的氨基酸位点,这对于揭示生物适应性进化机制具有重要的意义。在适应性进化分析中,PAML软件包中的CodeML 子程序是应用最为广泛的一款工具,但由于其晦涩难懂的参数配置及命令行式的操作让不少新用户望而却步。本文应用新开发的CodeML可视化分析工具—EasyCodeML对示例数据进行选择压力分析,并给出CodeML分析基本流程,包括格式转换、参数配置、结果解读和绘图等步骤,可为不同物种开展相关分析提供参考。
关键词: 适应性进化, EasyCodeML, 自然选择, 正选择位点, 似然率检验
研究背景
在DNA水平上检测正选择,并找出对应的氨基酸位点是适应性进化分析中不可或缺的一项重要内容。在基于密码子 (Codon-based) 进化模型的生物软件和资源中,PAML包中的CodeML 程序目前使用最为广泛 (Yang, 2007)。根据序列中不同位点或系统发育树中不同分支上ω 值 (非同义替代与同义替换的比值,即dN/dS或Ka/Ks) 不同,CodeML中的密码子模型可以分为枝模型 (Branch model)、位点模型 (Site model)、枝位点模型 (Branch-site model) 和进化枝模型 (Clade model) 四大类(Yang and Nielsen, 1998 and 2002; Forsberg and Christiansen, 2003; Bielawski and Yang, 2004; Zhang et al., 2005)。 位点模型 (Site model) 常用于检测核苷酸序列中位点的正选择 ( ω >1) 作用,该模型假设数据集中不同密码子的选择压不同,而支系 (Lineage) 间的选择压力相同。位点模型中共有8个不同假设的模型 (表1),其中M0和M3、M1a和M2a、M7和M8以及M8a和M8为四对巢式模型 (Nested model),M0、M1a、M7和M8a为零假设模型 (null model),M3、M2a和M8为备选假设模型 (alternative model)。除M0 vs. M3 (不是用于检测正选择) 外,如果备选模型显著优于零假设模型(Likelihood ratio test, p < 0.05),表明存在正选择作用 (Yang et al., 2000)。检测正选择作用的巢式模型中,M7 vs. M8 是检测正选择最为常用的模型对,但由于M8a vs. M8得到的假阳性结果更低,现在也渐渐被使用。当数据中检测到正选择作用后,可以应用贝叶斯经验贝叶斯法 (Bayes empirical Bayes, BEB) 进一步鉴定可能受正选择作用的氨基酸位点 (Yang et al., 2005)。表1. 位点模型 (Site model) 中不同模型的背景假设
软件运行环境及信息
实验步骤
EasyCodeML分析所需要的数据文件准备就绪后,可在Preset Mode (预置模式) 中"Setup"标签下加载对应的数据文件,并配置主要参数 (图3)。图3. EasyCodeML参数配置界面
常见问题及解决方法
在分析过程中,EasyCodeML用户可以会遇到一些如下问题:
小结与建议
EasyCodeML以CodeML为内核,可以实现CodeML分析界面化、自动化操作,生成准发表级的数据表格。应用EasyCodeML进行适应性进化分析,简单易用。但受内核所限,该软件仅适用于中、小型数据集。对于多基因的CodeML分析,推荐使用LMAP软件 (Maldonado et al., 2016);对于基因组级别的数据,则推荐使用软件PosiGene (Sahm et al., 2017) 和GWideCodeML (Macías et al., 2020)。
致谢
EasyCodeML自2015年首次推出测试版,时至目前最新的1.4版,期间历尽无数次的反复调试。在此,特别感谢华南农业大学陈程杰博士的辛勤付出和广大EasyCodeML用户的反馈意见使得程序日臻完善。
竞争性利益声明
作者声明没有利益冲突
参考文献
如果您对本实验方案有任何疑问/意见, 强烈建议您发布在此处。我们将邀请本文作者以及部分用户回答您的问题/意见。为了作者与用户间沟通流畅(作者能准确理解您所遇到的问题并给与正确的建议),我们鼓励用户用图片的形式来说明遇到的问题。