摘要:近年来,目标序列捕获技术已经成为了系统发育基因组学获取数据的有效手段。使用PCR产物自制捕获探针,相比于以往的商业合成探针可以极大地降低成本,节约时间,且不需要参考基因组数据,非常适用于非模式生物类群。分子标记的变异程度影响系统发育关系的解析效果,需要根据探针与被捕获样本间的遗传距离进行选择。当研究较高阶元的系统发育关系时 (如解析科间关系),为了保证探针在所有被捕获样本中都有较高的捕获效率,需要根据探针与最远缘的样本间的遗传距离选择分子标记,二者的序列相似度需要大于85%,否则将难以捕获。这就导致可选的分子标记总是非常保守,难以解析系统发育关系。本方法是一种基于混合PCR产物自制探针的目标序列捕获方法,从探针制备策略入手解决上述困难问题。实验的主要流程可以概括为:根据已知的系统发育关系或分类学知识,混合来自多个支系或分类单元的代表物种DNA,以DNA混合液为模板PCR扩增核编码分子标记,再混合所有PCR产物,自制捕获探针,进行目标序列捕获。本方法使用混合DNA捕获探针,相比于只使用单个样本制备的探针,有效地缩小了探针与被捕获样本间的遗传距离,保证在使用变异程度高的分子标记时依然有较高的捕获效率,进而获得具有充足信号的序列来解析系统发育关系。并且,因为捕获目标区域为常用的PCR分子标记,获得的数据与PCR扩增子测序得到的数据十分相似,易于与已有数据整合。且本方法除了可以捕获到目标区域外,还可获得大量的侧翼序列,能为系统发育学研究提供更多的信号。经测试,本方法对于年代久远,DNA质量差的博物馆样本也有较高的捕获效率。推荐使用超过30个核编码分子标记、种级以上阶元的系统发育学研究使用本方法。
关键词: 目标序列捕获, PCR产物自制探针, 混合探针, 核编码分子标记, 系统发育学
研究背景:
目标序列捕获技术 (Target sequence capture) 用于富集目标基因:通过探针与DNA文库杂交,物理的使感兴趣的目标片段结合到探针上,之后洗去未结合的非目标片段,从而实现对目标基因的富集。目标序列捕获技术经济高效,对DNA的质量要求较低,适用于DNA降解较为严重的样本,近年来已经成为了系统发育学获取数据的主流方法。然而,捕获效率会受到探针与被捕获样本间遗传距离的影响,随着遗传距离增大,捕获效率会逐渐降低,当探针与被捕获样本间的序列相似度小于85%时,捕获将十分困难。因此,使用目标序列捕获技术解析高阶元 (如科间及以上水平) 系统发育关系并不容易。
目前已经有学者提出多种策略试图解决上述问题,比如:使用高度保守的基因组区域设计探针,如锚定序列捕获 (anchored enrichment, AHE) 和超保守序列元件捕获技术 (ultraconserved element, UCE),由于目标区域高度保守,探针在远缘类群中也有较高捕获效率,但与此同时,高度保守的目标区域难以为系统发育研究提供充足信号,信号大多来自捕获过程中随机获得的侧翼序列 (flanking sequence)。另一种策略是直接针对保守度较低的外显子区域设计探针,但使用较为宽松的杂交条件,可以在一定程度上提高对远缘类群的捕获效率。最近,又有学者提出了一种新的策略:根据系统发育关系将所研究类群分为多个进化支系,为每一支系设计一套探针,再将多套探针混合起来进行杂交捕获。这种策略能够缩小了探针与被捕获样本间的遗传距离,提高捕获效率。然而,上述所有方法均使用合成探针,需要参考基因组序列用于探针设计,不适用于缺乏基因组资源的非模式生物类群。
近期有学者提出可以使用PCR产物自制捕获探针,该策略将所研究类群已有的分子标记作为捕获的目标基因,很好的解决了合成探针需要参考基因组资源的难题。并且,该方法获得的数据与PCR扩增子测序得到的数据十分相似,易于与NCBI等公共数据库中的数据进行整合。目前针对不同生物类群的通用分子标记集正不断被开发,例如102个脊椎动物通用核基因分子标记集 (Shen et al., 2013),96个蛇类通用分子标记集 (Li et al., 2017),95个甲虫通用核基因分子标记集 (Che et al., 2018),94个鳞翅目通用核基因分子标记集 (Zhang et al., 2019) 等,这些分子标记资源可以保证在使用PCR产物自制捕获探针时具有充足的目标基因数量。然而,由于该策略只使用单一样本进行PCR扩增,探针与被捕获样本间遗传距离大时捕获效率低的问题仍然存在。
本方法在使用PCR产物自制捕获探针的基础上,结合前文提到的混合多套探针集的思路,提出了一种新策略,其核心思想是混合来自不同进化支系的代表物种DNA自制PCR产物捕获探针。以往使用单一样本制备探针,捕获效率受限于探针与其最远缘样本间的遗传距离,而混合不同进化支系的代表物种DNA制备探针,相当于为每一进化支系分别制备了一套探针,捕获效率仅受限于一个进化支系内部的遗传距离。因此,即便是高阶元的系统发育学研究,也可以选择较为高变的分子标记,获得更多的信号。我们在鳞翅目中对这一策略进行测试:基于94个鳞翅目通用核基因分子标记集,对来自7个总科,17个科的43种鳞翅目昆虫样本进行杂交捕获,得到了稳健可靠的系统发育关系。样本中绝大多数为干标本,DNA有一定程度的降解,最终所有样本平均94%的目标区域可以被捕获,除此之外,还得到了大量的核编码侧翼序列,使数据集总长远超预期。此外,该策略不仅仅可以应用于高阶元,由于探针制备过程十分灵活,可以根据所研究类群的系统发育关系、物种跨度自由选择代表物种,经测试,种级以上阶元的研究均适用:解析凤蛾科各属之间的系统发育关系的研究结果已发表于Zhang et al., 2020,解析环蛱蝶属属内种间系统发育关系的研究结果已发表于Ma et al., 2020。
材料和试剂
- 1.5 ml离心管,200 μl离心管,200 μl八联管,96孔板 (BBI Life Sciences)
- 20 μl,200 μl,1 ml移液枪枪头 (BBI Life Sciences)
- 琼脂糖 (Life Technologies)
- 矿物油 (上海生工)
- TransTaq-T DNA Polymerase (5U) (北京全式金生物)
- TransTaq-T buffer (10x) (北京全式金生物)
- dNTPs (10 mM) (上海生工)
- AMPure XP beads (Beckman Coulter Inc.)
- 无水乙醇 (分析纯)
- ATP (100 mM) (上海生工)
- T4 Polynucleotide Kinase (10 U/μl) (Fermentas)
- T4 Polynucleotide Kinase buffer (10x) (Fermentas)
- T4 DNA ligase (5 U/μl) (Fermentas)
- T4 DNA ligase buffer (10x) (Fermentas)
- PEG-4000 (50%) (上海生工)
- NaCl (5 M) (分析纯)
- Tris-HCl, pH 8.0 (1 M) (上海生工)
- EDTA, pH 8.0 (0.5 M) (上海生工)
- dsDNA Fragmentase (New England BioLabs Inc. 与超声波DNA打断仪二选一)
- dsDNA Fragmentase Buffer (10x) (New England BioLabs Inc. 与超声波DNA打断仪二选一)
- NEBNext Ultra DNA Library Prep Kit (New England BioLabs Inc.)
- Human Cot1 (1 µg/µl) (Life Technologies)
- SSPE (20x) (上海生工)
- Denhardt’s (50x) (上海生工)
- SDS (10%) (上海生工)
- SSC (20x) (上海生工)
- Dynabeads MyOne Streptavidin C1 beads (Life Technologies)
- Tween-20 (10%) (上海生工)
- 通用型DNA纯化回收试剂盒 (天根生化科技 (北京) 有限公司)
- 0.1x TE缓冲液 (上海生工)
- 双蒸水 (广州誉维生物科技仪器有限公司Unique超纯水机制)
- 生物素接头 (见溶液配方)
- 磁珠结合缓冲液 (见溶液配方)
- 洗脱缓冲液1 (见溶液配方)
- 洗脱缓冲液2 (见溶液配方)
仪器设备
- 0.2-2 μl, 2-20 μl, 20-200 μl, 100-1000μl移液枪
- PCR仪 (96孔,可进行Touch down PCR,博日BIOER TC-E-96G)
- 涡旋振荡器 (Scientific Industries Vortex-Genie2涡旋振荡器)
- 适配1.5 ml离心管的磁力架 (推荐16孔,Invitrogen)
- 适配1.5 ml离心管的震荡孵育器 (杭州奥盛恒温混匀仪MS-100)
- 适配1.5 ml离心管、200 μl离心管的小型离心机
- NanoDrop 2000 (Thermo)
- 电泳仪
- 服务器 (Linux系统,32G以上的内存,500G的存储)
- 超声波DNA打断仪 (与DNA片段化酶二选一,宁波新芝SCIENTZ18-A)
软件
- Trimmomatic: http://www.usadellab.org/cms/?page=trimmomatic
- SPAdes: https://github.com/ablab/spades/
- CD-HIT: https://github.com/weizhongli/cdhit/
- BLAST: https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/
- Exonerate: https://github.com/nathanweeks/exonerate.git
- Mafft: https://mafft.cbrc.jp/alignment/software/
- Gblocks: http://molevol.cmima.csic.es/castresana/Gblocks.html
- RAxML: https://github.com/stamatak/standard-RAxML
图1. 实验步骤与数据分析总流程图
实验步骤
- 探针制备 (参考图1探针制备部分)
分子标记的选择:推荐分子标记数量大于30个时使用本方法。建议选择长度为500~2000 bp的分子标记,分子标记在所研究类群中的变异程度不宜过低,以保证样本之间序列存在差异,为系统发育学分析提供信号。
用于制备探针的样本的选择、DNA质量及投入量:本方法在不同支系选取代表物种制备混合DNA捕获探针 (参照图1,如不清楚系统发育学关系,可按照分类学选取代表物种。如研究属间关系,可以从每个属选择一个代表物种)。用于制备探针的样本的DNA质量要好:DNA的降解程度低,最好有主带。等量混合代表物种的DNA,使用0.1x TE缓冲液调整DNA混合液浓度,使其终浓度为30 ng/μl。具体每个用于制备探针的样本混合多少DNA,需要根据用于制备探针的样本数量和分子标记数量进行估算。例如,混合10个样本的DNA用于制备探针,共有100个分子标记。每个分子标记的PCR扩增需要30 ng DNA (表1),100个分子标记总共需要3000 ng DNA,那么每个样本就需要3000/10=300 ng DNA。
- Illumina文库构建 (参考图1 DNA文库构建部分)
文库构建的插入片段大小为200-400 bp。DNA质量及投入量:对DNA质量要求低,DNA的平均长度大于200 bp时就能得到较好效果。投入的DNA总量在100 ng~500 ng均可,建议使用500 ng。
- 杂交捕获
推荐将4个带有不同特异性标签的文库混合在一起,进行杂交捕获。一个混合文库的总量为500 ng,每个文库取125 ng。经测试,混合文库的杂交效果很好,可以节约文库和实验成本。
- 混合纯化产物,割胶纯化,高通量测序
根据浓度等量混合每个杂交反应的PCR产物,使用通用型DNA纯化回收试剂盒进行割胶回收,洗脱25 μl。之后进行高通量测序。因胶回收试剂盒回收效率偏低,高通量测序的最低总量要求约为500 ng,根据经验,割胶时投入的纯化PCR产物总量应大于1 μg。
结果与分析 (参考图1生物信息学数据分析部分)
- 数据预处理与组装
命令行:
$ java -jar trimmomatic-0.39.jar PE sample1_R1.fq.gz sample1_R2.fq.gz sample1_R1_paired.fq.gz sample1_R1_unpaired.fq.gz sample1_R2_paired.fq.gz sample1_R2_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:2:keepBothReads LEADING:3 TRAILING:3 MINLEN:36
*sample1_R1.fq.gz和sample1_R2.fq.gz为测序返回的正反向reads。sample1_R1_paired.fq.gz和sample1_R2_paired.fq.gz为软件输出的过滤后的成对reads。
$ spades.py -t 10 --cov-cutoff auto -1 sample1_R1_paired.fq.gz -2 sample1_R2_paired.fq.gz -o sample1_contigs.fasta
*-1 sample1_R1_paired.fq.gz和-2 sample1_R2_paired.fq.gz,为上一步骤输出的过滤后的成对reads。-o为拼接后输出的contigs文件名。
$ cd-hit-est -i sample1_contigs.fasta -o sample1_contigs_cd_hit.fasta -c 0.95
*-i sample1_contigs.fasta为上一步拼接出的contigs。 - 同源序列的鉴定
使用tblastn的方法在各样本的contigs中寻找各分子标记的同源序列:
- 鉴定外显子和内含子的边界
因本方法在获得各核编码分子标记的目标区域的同时,还能额外获得其两端的侧翼序列,这些侧翼序列中可能包含内含子序列,因此需要使用exonerate (v 2.2.0) 软件识别每条contig的外显子和内含子的边界,只使用所有的外显子序列进行后续分析。exonerate的query序列为一个分子标记所在基因的完整蛋白序列,target为该分子标记的同源序列组。根据exonerate的结果,串联每条contig中的外显子序列。
命令行:
$ exonerate --model p2g --query QUERY --target TARGET --showtargetgff T > OUTFILE - 序列比对与数据精制,构建系统发育树
命令行:
$ mafft --auto INPUT_FILE > OUTFILE
*INPUT_FILE为每个分子标记的同源序列组的fasta文件,OUTFILE为输出文件名。
$ Gblocks INPUT_FILE -t=c -b5=h
*INPUT_FILE为上一步mafft输出的比对结果。
$ raxmlHPC-PTHREADS-AVX -f a -x 12345 -T 3 -p 12345 -# 200 -m GTRGAMMA -s INPUT_FILE -q PATITION_FILE
溶液配方
- 生物素接头:
- 磁珠结合缓冲液 (以配制10 ml为例) (表16):
表16. 磁珠结合缓冲液配方
- 洗脱缓冲液1 (以配制10 ml为例) (表17):
表17. 洗脱缓冲液1配方
- 洗脱缓冲液2 (以配制10 ml为例) (表18):
表18. 洗脱缓冲液2配方
致谢
实验方案摘自发表的文章 Zhang, Y., Deng, S., Liang, D., Zhang, P. (2019). Sequence capture across large phylogenetic scales by using pooled PCR-generated baits: A case study of Lepidoptera. Mol Ecol Resour 00:1-15. doi: 10.1111/1755-0998.13026
竞争性利益声明
无经济或非经济性竞争性利益。
参考文献
- Che, L. H., Zhang, S. Q., Li, Y., Liang, D., Pang, H., Ślipiński, A. and Zhang, P. (2017). Genome-wide survey of nuclear protein-coding markers for beetle phylogenetics and their application in resolving both deep and shallow-level divergences. Mol Ecol Resour 17(6): 1342-1358.
- Li, C., Hofreiter, M., Straube, N., Corrigan, S. and Naylor, G. J. (2013). Capturing protein-coding genes across highly divergent species. Biotechniques 54(6): 321-326.
- Li, J. N., He, C., Guo, P., Zhang, P. and Liang, D. (2017). A workflow of massive identification and application of intron markers using snakes as a model. Ecol Evol 7(24): 10042-10055.
- Shen, X. X., Liang, D., Feng, Y. J., Chen, M. Y. and Zhang, P. (2013). A versatile and highly efficient toolkit including 102 nuclear markers for vertebrate phylogenomics, tested by resolving the higher level relationships of the Caudata. Mol Biol Evol 30(10): 2235-2248.
- Peñalba, J. V., Smith, L. L., Tonione, M. A., Sass, C., Hykin, S. M., Skipwith, P. L., McGuire, J. A., Bowie, R.C. and Moritz, C. (2014). Sequence capture using PCR-generated probes: A cost-effective method of targeted high-throughput sequencing for nonmodel organisms. Mol Ecol Resour 14(5): 1000-1010.
- Ma, L., Zhang, Y., Lohman, D. J., Wahlberg, N., Ma, F., Nylin, S., Janz, N., Yago, M., Adu se-poku, K., Peggie, D., Wang, M., Zhang, P. and Wang, H. (2020). A phylogenomic tree inferred with an inexpensive pcr-generated probe kit resolves higher-level relationships among Neptis butterflies (nymphalidae: limenitidinae). Syst Entomol 45(4): 924-934.
- Maricic, T., Whitten, M. and Pääbo, S. (2010). Multiplexed DNA sequence capture of mitochondrial genomes using PCR products. PLoS One 5(11): e14004.
- Zhang, Y., Deng, S., Liang, D. and Zhang, P. (2019). Sequence capture across large phylogenetic scales by using pooled PCR-generated baits: A case study of Lepidoptera. Mol Ecol Resour 00: 1-15.
- Zhang, Y., Huang, S., Liang, D., Wang, H., and Zhang, P.(2020). A multilocus analysis of Epicopeiidae (Lepidoptera, Geometroidea) provides new insights into their relationships and the evolutionary history of mimicry. Mol Phylogenet Evol 149: 106847.
附录
合成序列信息 (5'-3')
Bio-T: biotin-CAAGGACATCCGT
TR: CGGATGTCCTTGC
BO1.P5.F: AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-phosphate
BO3.P7.part1.F: AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC-phosphate
BO5.P7.part2.F: ATCTCGTATGCCGTCTTCTGCTTG-phosphate
P5引物: AATGATACGGCGACCACCGAGATCTA
P7引物: CAAGCAGAAGACGGCATACGAGATTG
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:张 圆, 梁 丹, 张 鹏. (2021). 基于混合PCR产物制备捕获探针的基因组捕获方法.
Bio-101: e1010599. DOI:
10.21769/BioProtoc.1010599.
How to cite: Zhang, Y., Liang, D. and Zhang, P. (2021). Genome Sequence Capture Based on Pooled PCR-generated Baits.
Bio-101: e1010599. DOI:
10.21769/BioProtoc.1010599.