摘要:DNA条形码在分类学、分子生态学等领域中具有显著的应用价值。近年来,利用高通量测序技术批量获取标准参考条形码的方法经历了快速的发展,展现了巨大的发展前景。针对各领域对于动物线粒体COI条形码参考序列的大量常规需求,我们提出并搭建了一系列结合高通量测序 (High throughput sequencing,HTS) 技术和生物信息分析流程的方法,实现了标准COI条形码序列的经济、快速、高效获取。本系列方法简称为HIFI-Barcode方法,包含三个主要部分:(1) 测序前实验:需要对每个样品单独提取DNA,并用96对带有特定长度和特定标签序列的条形码扩增引物进行聚合酶链反应扩增 (Polymerase chain reaction,PCR),后收集并混合扩增产物。(2) 文库构建及测序:首先根据项目需求选择测序平台及技术,并根据待测序技术进行文库的构建与测序;包括Illumina平台和MGISEQ平台的150 bp配对末端读段测序技术 (PE150 sequencing),以及Pacific Biosciences (Pacbio) 平台的长读段单分子实时 (SMRT) 测序和MGI2000平台的单端400 bp测序技术 (SE400) 等。(3) 条形码数据获取:完成测序后,利用本团队研发的软件包进行分析,可以最终一次性获得96个高质量的全长COI条形码。HIFI-Barcode方法可兼容多种测序平台及三种分析流程,为DNA条形码研究提供了可选择的技术流程,拥有高准确性、低成本、多选择等优点,极大的提高了DNA条形码获取研究的效率。
关键词: COI条形码, 高通量测序, 系统发育学
研究背景
在过去十年里,随着高通量测序技术的发展,我们见证了生物多样性研究中方法学和应用的巨大转变,例如采用标准脱氧核醣核酸 (Deoxyribonucleic acid,DNA) 序列用于快速准确地物种鉴定;利用高通量测序技术来分析复杂的环境样品 (如混合样品、环境DNA (eDNA)、无脊椎动物来源的DNA (iDNA) 等)。保存有规范记录信息的DNA条形码参考数据库也在全球科研人员的共同努力下逐渐建立起来。生命条形码数据库BOLD (The Barcode of Life Data systems, http://v4.boldsystems.org/) 已经拥有了大约八百万条条形码序列,覆盖了包含动物、植物、真菌等生物在内的约30万种物种 (2020年2月截止)。丰富的参考条形码数据为物种鉴定、系统进化关系的构建、种间交互作用和群落结构的研究,以及加深对生物多样性的理解提供了坚实的基础。
全球条形码参考数据库已经为多个生态系统的研究提供了重要帮助。早期的生态及生物多样性研究经常利用Sanger测序方法来进行条形码测序,随着高通量测序技术 (High-Throughput Sequencing Technologies,HTS) 的推广,DNA宏条形码和线粒体宏基因组方法也被越来越多的研究者接受并使用。但是当研究某些新的环境样品时,条形码数据库中参考数据的缺乏仍会使得基于HTS的宏条形码组学研究遭遇瓶颈:得到的序列不能被有效分配到具体的物种,从而无法反应真实的生物多样性组成,使研究者难以深入了解环境的生态关系。
以昆虫CO1条形码为例,标准条形码获取成本较十多年前显著降低。在不包括样品收集及处理的成本情况下,传统的Sanger测序的平均生产成本约10美元,如果要构建1亿个样品的条形码数据集,则需要10亿美元。人类基因组在最初构建时,大约花费了30亿美元,但随着高通量技术的发展,目前一个基因组的测序成本已经降低为不到600美元。
先前基于高通量测序技术获取DNA条形码的方法也存在着各自的优缺点 (图1),比如:基于罗氏454测序平台构建单样品条形码的研究可以通过拼接获得CO1全长条形码,但成本较高;测序读长较短的部分Illumina测序平台也逐渐用于条形码数据的获取,有研究者使用长度为313 碱基对 (base pair,bp) 的CO1条形码进行分析,该方法虽然可以一次性测序获得全长序列,但由于条形码长度较短,因此特异性会显著降低;也有研究者利用两次聚合酶链式反应 (polymerase chain reaction,PCR) 增加标签序列和测序引物,继而通过测序来直接获取全长条形码,但相关操作比较繁琐。在基因组领域,短数据可以利用位置关系被拼接为准确的长片段;根据类似的原理,所在项目组已经专门开发过针对条形码的组装算法,可以被用于组装混合样品中的全长条形码。根据当时的研究背景,我们开发了基于Illumina Hiseq平台和PacBio 平台的HIFI-Barcode方法,可以通过编码引物的方法,得到带有特定标签序列的PCR产物,从而实现一次性获得96个样品的DNA条形码的目标。该方法发表于Liu et al., 2017。HIFI-Barcode 方法有很高的准确性和效率,但是涉及到较为复杂的分析过程,所以我们认为基于高通量的条形码技术仍有提升的空间。随着国产测序仪MGISEQ 2000 推出单端400 bp测序的模块,我们进一步在此平台上开发出了HIFI-SE的方法,可以不需要进行打断,在其后的数据分析阶段,只需要进行扩增子两端序列的简单拼接,就可得到完整的COI条形码序列。该方法发表于Yang et al., 2020。
以上三种方法相互独立,测序及分析策略不同,但是在前期样品准备,DNA提取和PCR操作等方面基本一致,所以在此操作手册中,我们将三种方法的实施步骤及相关比较纳入其中,方便研究者选择合适的建库测序平台和后续的分析方法。
图1. 高通量获取标准DNA条形码的策略比较,不同实验方案和测序策略 *代表本研究研制的方法策略。图片修改自Yang et al., 2020。A-E 分别代表的研究为 Meier et al., 2016; Shokralla et al., 2015; Cruaud et al., 2017; Liu et al., 2017; Hebert et al., 2018; Yang et al., 2020。
材料与试剂
-
96孔PCR板 (Axygen,PCR-96M2-HS-C),1.5 ml离心管 (Axygen),2.5 μl,100 μl,200 μl,1 ml枪头 (Axygen Filter Tips)
-
96方孔深孔板 (2 ml,PP MASTERBLOCK®, 96 Well)
-
封口膜 (AxysealTM sealing film)
-
琼脂糖 (NET WEIGHT, REGULAR AGAROSE G-10)
-
exTaq DNA聚合酶 (TaKaRa Ex Taq™)
-
dNTP mix (TaKaRa Ex Taq™)
-
10x primer buffer (TaKaRa Ex Taq™)
-
ddH2O (广州誉维生物科技仪器有限公司Unique超纯水机制)
-
合成引物 (上海生工)
-
昆虫裂解液 Insect Lysis Buffer (见溶液配方)
-
吸附缓冲液Binding Buffer (见溶液配方)
-
洗脱液Wash Buffer (见溶液配方)
-
吸附混合液Binding Mix (见溶液配方)
注:对于DNA提取可根据自身实验室选择合适的方法和试剂主要试剂,本方法主要介绍玻璃纤维板DNA提取法 (Glass Fiber Plate method) 用昆虫腿提取DNA的方法。所用主要试剂见10-13。
仪器设备
-
0.2-2 μl, 2-20 μl, 20-200 μl, 100-1000 μl移液枪 (Eppendrof)
-
台式高速冷冻离心机 (Beckman,AllegraTM 25R Centrifuge)
-
水浴锅 (DK-8D型,上海精宏实验设备有限公司) 或者恒温震荡仪 (MS-100 THERMO-SHAKER),用于组织裂解
-
96孔PCR仪 (Thermo Fisher)
-
电泳仪、电泳槽 (DYY-6C型,北京市六一仪器厂)
-
凝胶成像系统 (BIO-RAD)
软件
-
HIFI-barcode-hiseq,适用于Illumina ,MGISEQ等二代测序平台https://github.com/comery/HIFI-barcode-hiseq。
-
HIFI-barcode-pacbio,适用于Pacbio测序平台https://github.com/comery/HIFI-barcode-pacbio。
-
HIFI-barcode-SE400,适用于MGISEQ 2000 SE400 测序平台https://github.com/comery/HIFI-barcode-SE400。
实验步骤
本实验流程包含了三种高通量条形码获取的流程,三种方法的测序前实验环节方法一致 (对应步骤1至3),测序文库构建、测序及分析环节有差异。在完成PCR产物的混合后,可选择一种平台进行后续的建库测序。流程主要如图1所示,方法1 HIFI-Barcode-Hiseq/MGISEQ可选择平台及测序技术为Hiseq或MGISEQ PE150;方法2 HIFI-Barcode-Pacibio可选择平台 Pacbio;方法3 HIFI-Barcode-SE400可选择MGISEQ SE400。后续根据标签数目的增加,单条形码的测序成本还可以进一步降低。
表1. 三种方法的多维度比较
图2. 实验操作及分析流程图
-
动物全基因组DNA提取
-
条形码序列扩增与检测
-
高通量测序技术选择与测序
得到PCR产物之后,可以根据选择的方法对测序平台进行选择,然后进行相应的标准文库的构建和测序。
测序数据分析
-
简介
针对相同的PCR产物,在不同的平台上进行建库测序,最终根据数据特点的不同,我们设计了对应的三种分析程序来还原DNA条形码序列。
-
基于二代测序数据的条形码获取- HIFI-Barcode-Hiseq/MGISEQ
获取每个PCR板的二代测序数据后,分别对两份数据进行分析。首先进行原始数据的过滤,再进行条形码数据的组装与分析;条形码组装的详细流程见图3。为了方便使用,已将流程打包为软件包HIFI-barcode (https://github.com/comery/HIFI-barcode-hiseq)。
图3. HIFI-Barcode方法条形码组装流程 HIFI-Barcode程序包含数据过滤和拆分、排序和聚类、双端拼接、间隙填充等步骤。
-
基于三代测序数据的条形码获取- HIFI-Barcode-PacBio
三代测序技术具有较长的读长,可以直接获得全长条形码序列,但由于三代测序技术的错误率较二代测序更高,因此需要对数据进行比较过滤后再获取全长条形码数据。分析方法如下:
-
基于SE400测序数据的条形码获取-HIFI-Barcode-SE400
SE400 平台是数据可以应用Python包HIFI-SE 来完成分析。
图5. HIFI-SE 数据分析流程
溶液配方
表3. DNA提取试剂、材料
试剂名/材料名
|
中文名
|
缩写
|
Disodium ethylenediamine tetraacetate • 2H2O
|
乙二胺四乙酸二水
|
EDTA
|
Ethyl alcohol (anhydrous)
|
无水乙醇
|
EtOH 96%
|
Guanidine thiocyanate
|
异硫氰酸胍
|
GuSCN
|
Molecular biology grade water
|
分子生物等级用水
|
ddH2O
|
Polyethylene glycol sorbitan monolaurate
|
吐温-20
|
Tween-20
|
Proteinase K
|
蛋白酶K
|
|
Sodium chloride
|
氯化钠
|
NaCl
|
Sodium dodecyl sulfate
|
十二烷基硫酸钠
|
SDS
|
Sodium hydroxide
|
氢氧化钠
|
NaOH
|
t-Octylphenoxypolyethoxyethanol
|
叔辛基苯氧基聚乙烯乙氧基乙醇
|
Triton X-100
|
Tris(hydroxymethyl)aminometane
|
三 (羟甲基) 氨基甲苯
|
Trizma base
|
Tris(hydroxymethyl)aminometane hydrochloride
|
三 (羟甲基) 氨基甲烷盐酸 分
|
Trizma HCl
|
AcroPrepTM 96 1 ml filter plate with 3.0 μm Glass Fiber media over 0.2 μm Bio-Inert membrane, natural housing
|
PALL AcroPrep 96孔滤板,1 ml,3.0 μm,玻璃纤维/0,2Bio-Inert膜
|
PALL
|
AxysealTM sealing film
|
封膜
|
self-adhering cover
|
Eppendorf® twin.tec 96-well microplates
|
96孔板
|
microplate
|
PP MASTERBLOCK®, 96 Well, 2 ml
|
96孔方孔盒
|
square-well block
|
SBS Receiver Plate Collar
|
PALL 离心适配圈
|
PALL collar
|
Others
|
其它常规仪器或材料:移液器和枪头、离心机、一次性手套等
|
|
表4. 预备液配置表
预备液名称
|
主要成分
|
含量
|
体积 (加ddH2O)
|
1 M Tris-HCI
|
Trizma® base
|
26.5 g
|
500 ml
|
Trizma® HCl
|
44.4 g
|
1 M Tris-HCI
|
Trizma® base
|
9.7 g
|
500 ml
|
Trizma® HCl
|
66.1 g
|
0.1 M Tris-HCI
|
Trizma® base
|
6.06 g
|
500 ml
|
1 M NaCl
|
NaCl
|
29.22 g
|
500 ml
|
0.5 M EDTA
|
EDTA
|
186.1 g
|
1000 ml
|
NaOH
|
20.0 g
|
Proteinase K (20 mg/ml)
|
Proteinase K
|
100 mg
|
5 ml
|
表5. DNA提取试剂
混合液名称
|
成分
|
添加量
|
体积 (加ddH2O后)
|
昆虫裂解液 Insect Lysis Buffer
|
GuSCN
|
16.5 g
|
200 ml
|
0.5 M EDTA, pH 8.0
|
12 ml
|
1 M Tris-HCl, pH 8.0
|
6 ml
|
Triton X-100
|
1 ml
|
Tween-20
|
10 ml
|
吸附缓冲液Binding Buffer
|
GuSCN
|
354.6 g
|
500 ml
|
0.5 M EDTA, pH 8.0
|
20 ml
|
0.1 M Tris-HCl, pH 6.4
|
50 ml
|
Triton X-100
|
20 ml
|
洗脱液
Wash Buffer
|
EtOH 96%
|
300 ml
|
475 ml
|
1 M NaCl
|
23.75 ml
|
1 M Tris-HCl, pH 7.4
|
4.75 ml
|
0.5 M EDTA, pH 8.0
|
0.475 ml
|
吸附混合液Binding Mix
|
Binding Buffer
|
50 ml
|
100 ml
|
EtOH 96%
|
50 ml
|
蛋白洗脱液
|
100 ml
|
Binding Buffer
|
26 ml
|
EtOH 96%
|
70 ml
|
致谢
本研究获得科技部科技基础资源调查专项《中国东部传粉昆虫资源调查与评估》 (2018FY100403) 以及深圳市科创委基金 (NO. JCYJ20170817150755701) 的资助
竞争性利益声明
无经济或非经济性竞争性利益。
参考文献
-
Ivanova, N. V., Dewaard, J. R. and Hebert, P. D. N. (2006). An inexpensive, automation‐friendly protocol for recovering high‐quality DNA. Mol Ecol Notes 6(4): 998-1002.
-
Liu, S., Li, Y., Lu, J., Su, X., Tang, M., Zhang, R., Zhou, L., Zhou, C., Yang, Q., Ji, Y., Yu, D. W. and Zhou, X. (2013). SOAPBarcode: revealing arthropod biodiversity through assembly of Illumina shotgun sequences of PCR amplicons. Methods Ecol Evol 4(12): 1142-1150.
-
Liu, S., Yang, C., Zhou, C. and Zhou, X. (2017). Filling reference gaps via assembling DNA barcodes using high-throughput sequencing—moving toward barcoding the world. GigaScience 6(12): gix104.
-
Yang, C., Zheng, Y., Tan, S., Meng, G., Rao, W., Yang, C., Bourne, D. G., O’Brien, P. A., Xu, J., Liao,, S., Chen, A., Chen, X., Jia, X., Zhang, A. and Liu, S. (2020). Efficient COI barcoding using high throughput single-end 400 bp sequencing. BMC Genomics 21(1): 1-10.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:杨琛涛, 周程冉, 刘山林, 周欣. (2021). 基于高通量测序的全长DNA条形码获取方法.
Bio-101: e1010640. DOI:
10.21769/BioProtoc.1010640.
How to cite: Yang, C. T., Zhou, C. R., Liu, S. L. and Zhou, X. (2021). Methods for Obtaining Full-length DNA Barcodes Using High-throughput Sequencing.
Bio-101: e1010640. DOI:
10.21769/BioProtoc.1010640.