摘要:由于近年来全球水环境的急剧变化,鱼类多样性正受到严重威胁,理解鱼类局部适应环境变化的遗传机制已成为鱼类进化研究的热点。随着高通量测序技术的成熟,群体基因组学快速发展,适应性进化遗传机制的研究也已在野生鱼类群体中广泛开展。FST离群值分析 (outlier analysis, OA) 是检测鱼类群体适应性位点的主要方法之一,可通过多种方法实现。本文以BayeScan软件为例,介绍从获得重测序数据、获得全基因组范围内的高质量SNP (single nucleotide polymorphism, 单核苷酸多态性) 数据集、到利用BayeScan软件进行FST离群值分析、以及结果解读和绘图的完整流程,希望帮助读者开展检测群体基因组水平受选择位点的研究。该流程具有一定的普适性,可应用于鱼类等不同生物类群的适应性进化机制研究。
关键词: 适应性进化, 选择信号, 群体基因组学, FST离群值, BayeScan
研究背景
适应性进化是生物适应环境变化赖以生存的基础。生物能否快速适应环境变化,对于维护生物多样性、人类健康、粮食安全、自然资源的可持续性等均有重要意义 (Carroll et al., 2014)。特别是近年来全球气候和环境正在发生剧烈变化,理解生物适应环境的遗传机制,已成为进化生物学研究的一个核心问题 (Bernatchez, 2016)。鱼类包含约32,000个物种,占据全球现生脊椎动物物种数的一半以上,目前也正面临着水环境的急剧变化,如海面温度的升高、海洋酸化、水体污染等,鱼类多样性正受到严重威胁 (Joseph et al., 2016)。因此,理解鱼类对环境变化的遗传响应,在气候和环境问题凸显的当下,具有重要的科学和现实意义。
近年来,随着高通量测序技术的发展,群体基因组学数据和研究方法逐步应用于鱼类的本地适应 (local adaptation) 研究中 (López et al., 2015; Bernatchez, 2016)。本地适应是指某群体相比于其他群体更适应其所在生境的进化过程 (Savolainen et al., 2013)。基于重测序数据,可以获得来自不同环境鱼类群体的遗传变异,进而检测与环境适应相关的选择信号,从而揭示鱼类的适应性遗传机制。FST离群值分析 (outlier analysis, OA) 是目前检测受选择位点的主流方法之一 (Liberles et al., 2020)。FST离群值分析可识别群体间相对于中性进化模型所预期的、有着显著更高的遗传分化的变异位点,由此推断受到选择压力而发生分化的基因组区域 (Ahrens et al., 2018)。在诸多可进行FST离群值分析的软件中,BayeScan软件使用较为广泛 (图1,摘自Ahrens et al., 2018)。BayeScan的基本原理是,利用贝叶斯模型估算FST,以度量群体间等位基因频率的差异,而后将FST分解为群体特异的 (population-specific, beta) 和位点特异的 (locus-specific, alpha) 两个组分,并从alpha组分中识别偏离中性模型的、受自然选择的位点 (Foll and Gaggiotti, 2008)。本文将以BayeScan软件为例,介绍使用BayeScan进行FST离群值分析的完整流程。该流程主要参考Guo et al. (2015, 2016a) 两篇已发表的工作,该方法也可应用于鱼类以外的其他生物类群 (例如,Guo et al., 2016b和Yadav et al., 2021)。
图1. 2010-2016年使用FST离群值分析各类方法的文献数目 图中横坐标为文献出版年份,纵坐标为该年份使用对应方法的文献数目,不同颜色代表不同的FST离群值分析方法。仅统计使用超过1次的方法。(摘自Ahrens et al., 2018)
仪器设备
- 服务器 (型号:Inspur NF5280M5;操作系统:CentOS Linux release 7.5.1804 (Core);CPU:Intel(R) Xeon(R) Gold 6230 CPU @ 2.10 GHz;80核,512 G内存)
注:本文使用的软件对运行设备内存有较高要求。例如在利用BWA-MEM软件建立参考基因组索引时,要求可用内存有5.37N以上 (N为参考基因组大小,参见BWA使用手册http://bio-bwa.sourceforge.net/bwa.shtml);PGDSpider是基于JAVA的软件,若VCF格式变异文件较大 (几百Mb),在运行中调用内存可达几十Gb。考虑到对内存和运行速度的要求,一般需用同等配置的服务器完成本套分析流程。 - 普通个人电脑 (需要已安装好R)
软件版本信息及下载地址
- BWA-MEM v0.7.17-r1188: https://github.com/lh3/bwa
- SAMtools v1.8: https://github.com/samtools/samtools/releases/tag/1.8
- BCFtools v1.8: https://github.com/samtools/bcftools/releases/tag/1.8
- VCFtools v0.1.13: https://github.com/vcftools/vcftools/releases/tag/v0.1.13
- Java v1.8.0_151: https://java.com/zh-CN/
- PGDSpider 2.1.1.5: http://cmpg.unibe.ch/software/PGDSpider/
- BayeScan 2.1: https://github.com/mfoll/BayeScan
- R v3.6.3: https://www.r-project.org/
- CODA (R package, v0.19-4): https://cran.r-project.org/web/packages/coda/index.html
- ggplot2 (R package, v3.3.3): https://cran.r-project.org/web/packages/ggplot2/index.html
实验步骤
- 产生一个高质量的SNP数据集
利用Illumina二代测序平台,对所研究群体的个体进行重测序。为了获得可靠的SNP数据集,我们建议每个群体对至少10个个体测序,且每个个体测序深度为10x以上,读者也可依据研究目的增加样本量或测序深度 (可参考Fumagalli, 2013)。选取参考基因组 (如所研究物种无自身参考基因组则选择所研究物种近缘种的基因组),使用BWA、SAMtools、BCFtools、VCFtools等软件进行重测序数据的比对、SNP (single nucleotide polymorphism, 单核苷酸多态性) 检测、SNP过滤,以获得高质量的SNP数据集。高质量的SNP数据集的过滤通常考虑:去除插缺突变 (Insertion and Deletion, Indel) 附近的SNPs;,去除多等位基因仅保留双等位基因SNPs;去除覆盖深度过低或过高的SNPs;去除群体中基因型缺失比例过高的SNPs;去除质量低的SNPs;去除次要等位基因频率过低的SNPs等。过滤后的SNP数目视测序质量、测序深度、样本量、群体数目以及所研究的类群而可能有较大波动,以鱼类为例,基于重测序数据获得的高质量SNP数目在几万到几千万不等 (Xu et al., 2019; Wang et al., 2021),而在鸟类中,SNP数目相对更多,一般在1000万个左右 (Dutoit et al., 2017; Weng et al., 2020)。具体分析过程如下: - 格式转换
利用重测序数据获得的SNP变异文件通常为VCF格式,使用PGDSpider软件将VCF格式转为BayeScan软件的输入文件格式GESTE/BayeScan格式。
$ java -jar PGDSpider2-cli.jar -inputfile test.vcf -inputformat VCF -outputfile BayeScan_input.txt -outputformat GESTE_BAYE_SCAN -spid VCF_GESTE_BAYE_SCAN.spid
- 使用BayeScan软件进行离群值分析
$ bayescan_2.1 BayeScan_input.txt -od output -threads 16 -n 5000 -thin 10 -nbp 20 -pilot 5000 -burn 50000 -pr_odds 100 -out_pilot
注: - 评估收敛性
使用R包CODA评估RJ-MCMC链是否收敛。 - 结果分析及绘图
致谢
我们的研究受到国家自然科学基金委员会优秀青年科学基金项目 (32022009)、中国科学院率先行动百人计划项目和第二次青藏高原综合科学考察研究项目 (Grant No. 2019QZKK0501) 的资助支持。
竞争性利益声明
作者声明没有利益冲突。
参考文献
- Ahrens, C. W., Rymer, P. D., Stow, A., Bragg, J., Dillon, S., Umbers, K. D. L. and Dudaniec, R. Y. (2018). The search for loci under selection: trends, biases and progress. Mol Ecol 27(6): 1342-1356.
- Bernatchez, L. (2016). On the maintenance of genetic variation and adaptation to environmental change: considerations from population genomics in fishes. J Fish Biol 89(6): 2519-2556.
- Carroll, S. P., Jorgensen, P. S., Kinnison, M. T., Bergstrom, C. T., Denison, R. F., Gluckman, P., Smith, T. B., Strauss, S. Y. and Tabashnik, B. E. (2014).Applying evolutionary biology to address global challenges. Science 346(6207): 1245993.
- Dutoit, L., Burri, R., Nater, A., Mugal, C. F. and Ellegren, H. (2017). Genomic distribution and estimation of nucleotide diversity in natural populations: perspectives from the collared flycatcher (Ficedula albicollis) genome. Mol Ecol Resour 17: 586-597.
- Foll, M. and Gaggiotti, O. (2008). A genome-scan method to identify selected loci appropriate for both dominant and codominant markers: a Bayesian perspective. Genetics 180(2): 977-993.
- Fumagalli, M. (2013). Assessing the effect of sequencing depth and sample size in population genetics inferences. PLoS ONE 8(11): e79667.
- Guo, B., DeFaveri, J., Sotelo, G., Nair, A. and Merilä, J. (2015). Population genomic evidence for adaptive differentiation in Baltic Sea three-spined sticklebacks. BMC Biol 13(1): 19.
- Guo, B., Li, Z. and Merilä, J. (2016a). Population genomic evidence for adaptive differentiation in the Baltic Sea herring. Mol Ecol 25(12): 2833-2852.
- Guo, B., Lu, D., Liao, W. B. and Merilä, J. (2016b). Genomewide scan for adaptive differentiation along altitudinal gradient in the Andrew's toad Bufo andrewsi. Mol Ecol 25(16): 3884-3900.
- Liberles, D. A., Chang, B., Geiler-Samerotte, K., Goldman, A., Hey, J., Kacar, B., Meyer, M., Murphy, W., Posada, D. and Storfer, A. (2020). Emerging frontiers in the study of molecular evolution. J Mol Evol 88(3): 211-226.
- López, M. E., Neira, R. and Yanez, J. M. (2015). Applications in the search for genomic selection signatures in fish. Front Genet 5: 12.
- Nelson, J., Grande, T. and Wilson, M. (2016). Fishes of the world, fifth edition. Wiley. ISBN: 9781118342336.
- Salvolainen, O., Lascoux, M. and Merilä, J. (2013). Ecological genomics of local adaptation. Nat Rev Genet 14: 807-820.
- Wang, S., Kuang, Y., Liang, L., Sun, B., Zhao, X., Zhang, L. and Chang, Y. (2021). Resequencing and SNP discovery of Amur ide (Leuciscus waleckii) provides insights into local adaptations to extreme environments. Sci Rep 11: 5064.
- Weng, Z., Xu, Y., Li, W., Chen, J., Zhong, M., Zhong, F., Du, B., Zhang, B. and Huang, X. (2020). Genomic variations and signatures of selection in Wuhua yellow chicken. PLoS ONE 15(10): e0241137.
- Xu, S., Zhao, L., Xiao, S. and Gao, T. (2019). Whole genome resequencing data for three rockfish species of Sebastes. Sci Data 6: 97.
- Yadav, S., Stow, A. J. and Dudaniec, R. Y. (2021). Microgeographical adaptation corresponds to elevational distributions of congeneric montane grasshoppers. Mol Ecol 30(2): 481-498.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.