摘要:微卫星序列,又称简单重复序列 (SSR) 或短串联重复序列 (STR) 序列,通常由1-6 bp的碱基重复单元组成,是真核生物基因组中广泛存在的简单重复序列。微卫星标记具有共显性、数量多、多态性好、操作简易、可重复性好等优点,被广泛应用于遗传学和进化生物学研究,是过去40多年应用最广泛的分子标记。随着高通量测序技术和生物信息软件的发展,微卫星标记的开发技术和数据分析方法也得到了快速更新。为便于初学者快速掌握微卫星标记技术,本文详述了目前微卫星标记的开发、数据获取、数据质控和数据分析的可用流程和常见问题。
关键词: 微卫星位点开发, 分子标记, 分析流程
仪器设备
-
Windows系统电脑
软件信息
-
Java: https://www.oracle.com/java/technologies/javase-downloads.html
-
Perl: https://www.activestate.com/products/perl/downloads/
-
R: https://mirrors.tuna.tsinghua.edu.cn/CRAN/
-
Rstudio: https://rstudio.com/products/rstudio/download/
-
GMATA v2.2: https://github.com/XuewenWangUGA/GMATA
-
GenAlEx 6.5: http://biology-assets.anu.edu.au/GenAlEx/Download.html
-
Microsatellite toolkit: https://www.researchgate.net/profile/Benjamin-Barth-2/post/Where-can-I-download-the-excel-micro-satellite-toolkit/attachment/59d635dac49f478072ea3998/AS%3A273668205154304%401442258992481/download/MStools.zip
-
Genepop on the web: https://genepop.curtin.edu.au
-
MicroChecker 2.2: https://micro-checker.software.informer.com/
-
GelQuest: https://www.sequentix.de/gelquest/
-
GeneMarker: https://www.softgenetics.com/GeneMarker.php
实验步骤
-
微卫星标记的开发
对于没有任何参考序列信息的物种,常采用重复序列特异探针 + 磁珠富集的方法,该方法实验过程较为繁琐。随着测序成本的降低,我们可使用高通量测序技术,测定和组装物种基因组的随机片段,来获取微卫星位点。
更常见的情况是,我们可以从已知序列数据集 (例如参考基因组、简化基因组、转录组) 搜索微卫星位点。这里我们以NCBI下载的参考基因组为例,介绍微卫星标记的开发流程。对于其他序列数据集,方法是类似的。
-
微卫星序列的扩增
-
微卫星基因分型
-
微卫星数据格式
-
数据质控
-
微卫星数据载入R语言环境
R语言提供了丰富的工具包,能够执行几乎所有的微卫星数据分析。常见的工具包比如:hierfstat ( Goudet, 2004)——计算各种统计值 (比如等位基因丰富度)、adegenet (Jombart, 2008) 和pegas (Paradis, 2010)——综合性工具包。读者可以参考Kamvar et al. (2016) 的在线教程https://popgen.nescent.org/,去探索R包中丰富的功能。作为引入,这里我们介绍了将微卫星数据读入R环境的方法。
install.packages("adegenet") ; library("adegenet") #安装并载入包
#下面给出三种格式的读取例子,载入后的数据类型均为genind。
#载入genepop格式:
genepopData <- read.genepop("yourdata.gen", # genepop格式文件后缀名应为.gen
ncode= 3L)#数据中等位基因应该是3位数字编码,否则请设置ncode=2L
#载入STRUCTURE格式:
structureData <- read.structure("yourdata.str", n.ind=个体数, n.loc=位点数,
onerowperind=FALSE,#每两行一个个体,否则设置为TRUE
col.lab=1, #个体名字设置在第一列
col.pop=2, #种群名字设置为第二列
ask=FALSE)
#载入fstat格式:
fstatData <- read.fstat("yourdata.dat")
致谢
感谢张润志研究员对手稿的审查和指导,感谢中国科学院战略性先导科技专项 (XDA19050204) 提供支持。
参考文献
-
Avvaru, A. K., Sharma, D., Verma, A., Mishra, R. K. and Sowpati, D. T. (2020). MSDB: a comprehensive, annotated database of microsatellites.Nucleic Acids Res 48(D1): D155-D159.
-
Blacket, M. J., Robin, C., Good, R. T., Lee, S. F. and Miller, A. D. (2012). Universal primers for fluorescent labelling of PCR fragments—an efficient and cost-effective approach to genotyping by fluorescence. Mol Ecol Resour 12(3): 456-463.
-
Goudet, J. (2004). HIERFSTAT, a package for R to compute and test hier-archical F-statistics. Mol Ecol Notes 5(1), 184–186.
-
Holland, M. M. and Parson, W. (2011). GeneMarker® HID: a reliable software tool for the analysis of forensic STR data. J Forensic Sci 56(1): 29-35.
-
Jombart, T. (2008). Adegenet: A R package for the multivariate analysis of genetic markers. Bioinformatics 24(11): 1403-1405.
-
Kamvar, Z. N., López-Uribe, M. M., Coughlan, S., Grünwald, N. J., Lapp, H., & Manel, S. (2016). Developing educational resources for population genetics in R: An open and collaborative approach.Mol Ecol Resour 17(1): 120-128.
-
Lischer, H. E. and Excoffier, L. (2012). PGDSpider: an automated data conversion tool for connecting population genetics and genomics programs. Bioinformatics 28(2): 298-299.
-
Peakall, R. O. D. and Smouse, P. E. (2006). GENALEX 6: genetic analysis in Excel. Population genetic software for teaching and research. Mol Ecol Notes 6(1): 288-295.
-
Paradis, E. (2010). Pegas: an R package for population genetics with an integrated–modular approach. Bioinformatics 26(3): 419-420.
-
Rousset, F. (2008). Genepop'007: a complete re-implementation of the genepop software for Windows and Linux.Mol Ecol Resour 8(1): 103-106.
-
van Oosterhout, C., Hutchinson, W. F., Wills, D. P. and Shipley, P. (2004). MICRO-CHECKER: software for identifying and correcting genotyping errors in microsatellite data. Mol Ecol Notes 4(3): 535-538.
-
Wang, X. and Wang, L. (2016). GMATA: an integrated software package for genome-scale SSR mining, marker development and viewing. Front Plant Sci 7: 1350.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:杨方园, 巫鹏翔. (2021). 微卫星标记的开发和数据分析流程.
Bio-101: e1010608. DOI:
10.21769/BioProtoc.1010608.
How to cite: Yang, F. Y. and Wu, P. Y. (2021). Protocol for Development, Genotyping and Data Analysis of Microsatellite Maker.
Bio-101: e1010608. DOI:
10.21769/BioProtoc.1010608.