超级保守元件 (UCE) 的捕获及分析流程

摘要:高通量测序技术的快速发展极大地促进了基于基因组水平分子数据的系统发育基因组学研究。超级保守元件 (UCE) 杂交富集作为系统发育基因组学研究中比较常用的方法,具有测序价格相对较低、不依赖于新鲜标本、可快速获得大量分子数据等特点。目前已有多套UCE探针可用于不同类群的研究,亦可运用生信方法从目标类群代表种类基因组数据中筛选保守区域设计新的UCE探针。UCE杂交富集实验的主要流程包括:对各样本DNA进行提取,用物理或酶切方法打断DNA,并加上特异性标签 (barcode) 和接头 (adapter) 构建适用于二代测序平台的文库,将样品混合后加入探针进行UCE的捕获和富集,然后进行高通量测序。UCE测序结果的数据分析主要包含原始数据的质控与筛选、数据组装、UCE序列的识别和提取、序列比对和数据集质控以及系统发育分析。本文比较详细地介绍了UCE探针设计、杂交捕获和数据分析的具体流程,以帮助大家在短时间内了解和掌握这一系统发育基因组学方法。

关键词: 超级保守元件, 探针, 杂交捕获, 高通量测序, 系统发育基因组学, 数据分析

UCE方法简介

超级保守元件 (Ultra-Conserved Elements, UCE) 是指研究类群基因组中高度保守的区域 (具有 ≥ 80% 的序列相似性,长度 ≥ 100 bp)。基于杂交富集测序技术的超级保守元件 (UCE) 方法,首先通过对比研究类群代表种类的基因组序列筛选上千个超级保守元件,并根据其序列设计探针,然后通过设计的探针对研究类群不同种类中的超级保守元件进行靶向富集,运用高通量测序方法获得大量同源基因位点用于构建研究类群的系统发育树 (具体方法见图1;Faircloth et al., 2012)。UCE序列的高度保守性使其容易在不同种类的基因组中被识别和富集并进行序列比对,而其侧翼 (flanking) 序列的保守性显著降低,往往具有很多系统发育信息位点用于解析类群间的演化关系,因此超级保守元件是系统发育研究的理想目标 (Faircloth et al., 2012)。


1. 超级保守元件 (UCE) 杂交富集方法简介 (引自Faircloth et al., 2012)

        与其它常见的系统发育基因组学方法 (如全基因组测序及转录组测序方法) 相比,超级保守元件 (UCE) 杂交富集方法具有测序价格相对较低、不必依赖于新鲜标本、可快速获得大量分子数据等特点 (Zhang and Lai, 2020),在很多类群的研究中被广泛应用,如哺乳动物的胎盘类 (McCormack et al., 2012)、爬行动物的蛇类 (Streicher and Wiens, 2016)、两栖动物的蛙类 (Pie et al., 2019)、辐鳍鱼类和鲶鱼类 (Faircloth et al., 2013; Ochoa et al., 2020)、鸟类 (McCormack et al., 2013) 及其中的夜鸟类 (White et al., 2019)、蛛形纲动物 (Starrett et al., 2017) 及其中的原蛛类 (Hedin et al., 2019) 和跳蛛类 (Maddison et al., 2020)、以及昆虫的弹尾纲 (Sun et al., 2020)、膜翅目 (Faircloth et al., 2015; Branstetter et al., 2017; Cruaud et al., 2020) 和半翅目 (Forthman et al., 2019) 等。研究表明UCE方法不仅适用于较高阶元 (如目、科) 间的系统发育研究 (McCormack et al., 2012; Hedin et al., 2019),也能成功解决低级阶元 (如近缘种和种群) 间的演化关系 (Ješovnik et al., 2017; Branstetter and Longino, 2019)。此外,近年还在长期保存 (~150年前) 的博物馆标本 (70%-80%乙醇) 中成功获得UCE数据进行系统发育分析,并从UCE测序结果中成功组装出线粒体基因组 (Derkarabetian et al., 2019)。为了解决系统发育基因组学中数据分析的难题,Faircloth, B. C. 针对UCE数据开发了PHYLUCE软件包 (Faircloth, 2016),并提供了在线指南详细说明UCE数据的分析流程和方法 (https://phyluce.readthedocs.io/en/latest/)。
本文从超级保守元件 (UCE) 的探针设计、杂交富集实验和数据分析三个方面详细介绍了UCE方法的主要流程,以帮助大家了解和掌握这一方法。针对小型节肢动物 (如小蜂类) 优化的UCE方法请参考 (Cruaud et al., 2018)。此外,系统发育基因组学数据分析需要一定的生信基础,建议大家熟悉一些比较常用的编程语言 (如bash、python等) 的基本操作。

第一部分 UCE探针设计

探针为生物合成的核苷酸序列,用于捕获样品DNA中的目标片段,是基于杂交富集原理的系统发育基因组学研究的关键。目前学者已针对不同动物类群设计了多套UCE探针 (表1),可根据需要直接从公司 (如Arbor Biosciences;中国独家代理为蓝景科信 (北京) 技术有限公司) 订购适合的myBaits UCE试剂盒进行杂交富集 (https://arborbiosci.com/genomics/targeted-sequencing/mybaits/mybaits-expert/mybaits-expert-uce/)。

1. 目前已有UCE探针汇总

        有些课题也许需要设计新的UCE探针,在此我们简要介绍UCE探针设计的主要流程,详细方法请参考PHYLUCE的在线教程 (Tutorial IV;Faircloth, 2016)。设计的最终探针序列可提供给生物公司进行合成,并制备相应的探针试剂盒。

软件

  1. Conda
    https://anaconda.org/anaconda/conda
  2. PHYLUCE version 1.6 (Faircloth, 2016)
    https://phyluce.readthedocs.io/en/latest/
  3. Python version 2.7
    https://www.python.org/download/releases/2.7/
  4. FaToTwoBit
    http://hgdownload.soe.ucsc.edu/admin/exe/
  5. Art_illumina version 2.5.1 (Huang et al., 2012)
    https://www.niehs.nih.gov/research/resources/software/biostatistics/art/
  6. Stampy version 1.0.32 (Lunter and Goodson, 2011)
    https://www.well.ox.ac.uk/research/research-groups/lunter-group/lunter-group/stampy
  7. SAMtools version 1.10 (Li et al., 2009)
    http://samtools.sourceforge.net/
  8. BEDtools version 2.28.0 (Quinlan and Hall, 2010)
    https://bedtools.readthedocs.io/en/latest/index.html

实验步骤

一、确定参考物种 (base taxon) 和代表物种 (exemplar taxa) 及原始数据准备

  1. 确定一个参考物种和少数代表物种进行探针设计,需注意以下几个方面:首先,为确保探针在研究类群的大多数物种中具有较高的杂交富集成功率,所选取的用于设计探针的种类要具有代表性并尽量涵盖各主要分支,而应避免所选种类都局限于研究类群的某一分支;其次,尽量选取已有基因组数据以及基因组数据质量较高的物种;最后,代表物种的数量要适当 (一般3-7种),数量过多或过少都会影响捕获的UCE和探针的数量,往往需根据研究类群的多样性具体分析。
  2. 获得参考物种和代表物种的基因组序列 (一般为fasta格式),保存于同一目录 (~/UCEprobes/genomes) 各自的子目录 (子目录与其内基因组文件命名相同,如~/UCEprobes/genomes/BT/BT.fasta) 中,用FaToTwoBit将所有fasta文件转化为2 bit格式:
    $ for i in *; do faToTwoBit $i/$i.fasta $i/${i%.*}.2bit; done
    使用Art_illumina version 2.5.1 (Huang et al., 2012) 针对每个基因组 (fasta格式) 模拟reads数据 (双向、测序长度100 bp、测序深度为2x、插入片段大小为200 bp、插入片段标准差为150) 存入目录 (~/UCEprobes/reads),以便在各基因组中快速定位UCE序列。以BT.fasta为例:
    $ cd ~/UCEprobes && mkdir reads && cd reads
    $ art_illumina \
            --paired \
            --in ../genomes/BT/BT.fasta \
            --out BT-pe100-reads \
            --len 100 --fcov 2 --mflen 200 --sdev 150 -ir 0.0 -ir2 0.0 -dr 0.0 -dr2 0.0 -qs 100 -qs2 100 -na

二、代表基因组 (exemplar genomes) 与参考基因组 (base genome) 比对

  1. 在设计探针的过程中需要将各代表基因组与参考基因组进行比对,以确定UCE并设计探针,因此参考物种最好位于研究类群系统发育树的中部而不是两端,而且其基因组质量 (完整性和测序深度) 要比较高。
  2. 运用Stampy version 1.0.32 (Lunter and Goodson, 2011) 首先生成参考物种基因组序列 (./base/BT.fasta) 的index 文件 (.stidx") 和hash table 文件 (.sthash):
    $ cd ~/UCEprobes && mkdir base && cd base
    $ ~/stampy-1.0.32/stampy.py --species="BT" --assembly="BT" -G BT BT.fasta
    $ ~/stampy-1.0.32/stampy.py -g BT -H BT
  3. 将每个代表物种 (如ET1、ET2、ET3、ET4) 的reads与参考物种 (BT) 的基因组序列进行比对,以确定种类间的同源序列,并将bam格式的结果存入目录 (~/UCEprobes/alignments):
    $ cd ~/UCEprobes && mkdir alignments
    $ export cores=10
       export base=BT
       export base_dir=~/UCEprobes/alignments
       for i in ET1 ET2 ET3 ET4;
           do
                export reads=$i-pe100-reads.fq.gz;
                mkdir -p $base_dir/$i;
                cd $base_dir/$i;
                python ~/stampy-1.0.32/stampy.py \
                --maxbasequal 93 -g ~/UCEprobes/base/$base -h ~/UCEprobes/base /$base \
                --substitutionrate=0.05 -t$cores --insertsize=200 -M \
                ../../reads/$reads | samtools view -Sb - > $i-to-$base.bam;
            done;
  4. 使用SAMtools version 1.10 (Li et al., 2009) 删除不能匹配上的 reads,仅保存能匹配的结果:
    $ cd ~/UCEprobes/alignments && mkdir all
    $ for i in ET1 ET2 ET3 ET4;
         do
               samtools view -h -F 4 -b $i/$i-to-BT.bam > $i/$i-to-BT-MAPPING.bam;
               ln -s ../$i/$i-to-BT-MAPPING.bam all/$i-to-BT-MAPPING.bam;
         done;

三、保守序列的识别

根据各物种基因组的比对结果,识别保守区域 (序列间差异低于5%),并筛选在各物种中共有的高度保守序列。

  1. 通过BEDtools version 2.28.0 (Quinlan and Hall, 2010) 将每个bam文件转换为bed格式,按照chromosome/scaffold/contig的位置对其中的每一行数据进行排序,并将重叠或邻近的保守区域 (conserved intervals) 合并在一起:
    $ cd ~/UCEprobes/alignments && mkdir bed && cd bed
    $ for i in ../alignments/all/*.bam; do echo $i; bedtools bamtobed -i $i -bed12 > `basename $i`.bed; done;
    $ for i in *.bed; do echo $i; bedtools sort -i $i > ${i%.*}.sort.bed; done
    $ for i in *.bam.sort.bed; do echo $i; bedtools merge -i $i > ${i%.*}.merge.bed; done
  2. 用PHYLUCE中的脚本"phyluce_probe_strip_masked_loci_from_set"删除保守序列中长度过短 (如 < 80 bp)、含有大量重复碱基 (> 25%) 或不确定碱基 (N) 的序列:
    $ cd ~/UCEprobes/bed
    $ for i in *.sort.merge.bed;
         do
               phyluce_probe_strip_masked_loci_from_set \
                      --bed $i \
                      --twobit ../genomes/BT/BT.2bit \
                      --output ${i%.*}.strip.bed \
                      --filter-mask 0.25 \
                      --min-length 80
          done;
  3. 用"phyluce_probe_get_multi_merge_table"将各代表物种与参考物种共有的保守序列生成SQLite数据库:
    $ phyluce_probe_get_multi_merge_table \
          --conf bed-files.conf \
          --base-taxon BT \
          --output UCE-to-BT.sqlite
    注:其中bed-files.conf文件中列出物种及其对应的bed文件,如:
    [beds]
    ET1:ET1-to-BT-MAPPING.bam.sort.merge.strip.bed
    ET2:ET2-to-BT-MAPPING.bam.sort.merge.strip.bed
    ET3:ET3-to-BT-MAPPING.bam.sort.merge.strip.bed
    ET4:ET4-to-BT-MAPPING.bam.sort.merge.strip.bed
  4. 使用"phyluce_probe_query_multi_merge_table"统计参考物种与不同数量的代表物种共有的保守序列,选取其中一组数量适宜的 (与所有或部分参考物种共有的) 保守序列以bed格式输出,用于后续保守序列的验证和探针设计。以选取参考物种 (BT) 与所有4个代表物种 (如ET1、ET2、ET3、ET4) 共有的保守序列为例:
    $ phyluce_probe_query_multi_merge_table \
                 --db UCE-to-BT.sqlite \
                 --base-taxon BT
    $ phyluce_probe_query_multi_merge_table \
                 --db UCE-to-BT.sqlite \
                 --base-taxon BT \
                 --output BT+4.bed \
                 --specific-counts 4

四、保守序列的验证

在进行最终探针设计之前需要对上述识别的保守序列进一步验证。

  1. 首先使用"phyluce_probe_get_genome_sequences_from_bed"从参考物种 (如BT) 的基因组中提取上述识别的共有保守序列 (fasta格式,长度160 bp):
    phyluce_probe_get_genome_sequences_from_bed \
                  --bed BT+7.bed \
                  --twobit ~/UCEprobes/genomes/BT/BT.2bit \
                  --buffer-to 160 \
                  --output BT+4.fasta
  2. 根据这些提取的保守序列,用"phyluce_probe_get_tiled_probes"设计一组临时的双向探针 (3x density tile),并删除其中含有大量重复碱基 (超过25%)、GC含量过高或过低 (小于30%或大于70%) 的探针:
    $ phyluce_probe_get_tiled_probes \
          --input BT+4.fasta \
          --probe-prefix "uce-" --design Probe-v1 --designer JXZ \
          --tiling-density 3 --two-probes --overlap middle \
          --masking 0.25 --remove-gc \
          --output BT+4.temp.probes
  3. 用"phyluce_probe_easy_lastz"对所有探针序列进行比对,其中含有高度相似序列的探针被视为疑似重复探针而被删除 ("phyluce_probe_remove_duplicate_hits_ from_probes_using_lastz"):
    $ phyluce_probe_easy_lastz \
          --target BT+4.temp.probes --query BT+4.temp.probes \
          --identity 50 --coverage 50 \
          --output BT+4.temp.probes-TO-SELF-PROBES.lastz
    注:identitycoverage阈值的设置可能需要根据具体情况进行调整。
    $ phyluce_probe_remove_duplicate_hits_from_probes_using_lastz \
          --fasta BT+4.temp.probes \
          --lastz BT+4.temp.temp.probes-TO-SELF-PROBES.lastz \
          --probe-prefix=uce-
  4. 用"phyluce_probe_run_multiple_lastzs_sqlite"脚本将这组临时探针分别与各基因组序列进行比对,以确定这些保守序列在各基因组中的位置,并用"phyluce_probe_slice_sequence_from_genome"提取这些保守序列 (fasta格式),如果探针匹配到基因组不同区域,该保守序列将被删除。
    $ cd ~/UCEprobes/ && mkdir probe-design && cd probe-design && mkdir UCE-genome-latsz
    $ phyluce_probe_run_multiple_lastzs_sqlite \
          --probefile ../bed/BT+4.temp-DUPE-SCREENED.probes \
          --scaffoldlist BT ET1 ET2 ET3 ET4 \
          --genome-base-path ../genomes \
          --identity 50 --cores 8 \
          --db BT+4.sqlite \
          --output UCE-genome-lastz
    $ phyluce_probe_slice_sequence_from_genomes \
          --conf UCE-genome.conf \
          --lastz UCE-genome-lastz \
          --probes 180 \
          --name-pattern "BT+4.temp-DUPE-SCREENED.probes_v_{}.lastz.clean" \
          --output UCE-genome-fasta
    注:其中UCE-genome.conf文件中列出每个物种及其对应的2 bit文件 (含路径),如:
    [scaffolds]
    BT: ~/UCEprobes/genomes/BT/BT.2bit
    ET1: ~/UCEprobes/genomes/ET1/ET1.2bit
    ET2: ~/UCEprobes/genomes/ET2/ET2.2bit
    ET3: ~/UCEprobes/genomes/ET3/ET3.2bit
    ET4: ~/UCEprobes/genomes/ET4/ET4.2bit
  5. 统计这组临时探针从各基因组中提取保守序列的情况并建立数据库 ("phyluce_probe_get_multi_fasta_table"),计算不同数量的物种所共有的保守序列的数量,选取其中合适的一组从所有 (包括代表和基本) 基因组中提取相应的保守序列 ("phyluce_probe_query_multi_fasta_table"),用于最终探针设计。
    $ cd ~/UCEprobes/probe-design
    $ phyluce_probe_get_multi_fasta_table \
          --fastas ~/UCEprobes/probe-design/UCE-genome-fasta \
          --output multifastas.sqlite \
          --base-taxon BT
    $ phyluce_probe_query_multi_fasta_table \
          --db multifastas.sqlite \
          --base-taxon BT
    $ phyluce_probe_query_multi_fasta_table \
          --db multifastas.sqlite \
          --base-taxon BT \
          --output BT+4-back-to-5.conf \
          --specific-counts 5

五、最终探针设计

  1. 根据从所有 (包括代表和基本) 基因组中提取的保守序列 (fasta格式) 设计最终探针 ("phyluce_probe_get_tiled_probe_from_multiple_inputs")。与设计临时探针的过程相似,删除含有大量重复碱基 (超过25%)、GC含量过高或过低 (小于30%或大于70%) 的探针 (3x density tile、middle overlap、双向):
    phyluce_probe_get_tiled_probe_from_multiple_inputs \
           --fastas ~/UCEprobes/probe-design/UCE-genome-fasta \
           --multi-fasta-output BT+4-back-to-5.conf \
           --probe-prefix "uce-" --designer JXZ --design UCE-v1 \
           --tiling-density 3 --two-probes --overlap middle \
           --masking 0.25 --remove-gc \
           --output UCE-v1-master-probe-list.fasta
  2. 与设计临时探针的过程相似,用" phyluce_probe_easy_lastz"将所有探针序列进行比对,并删除其中含有高度相似序列的重复探针 ("phyluce_probe_remove_duplicate_hits_from_probes_using_lastz"):
    $ phyluce_probe_easy_lastz \
          --target UCE-v1-master-probe-list.fasta --query UCE-v1-master-probe-list.fasta \
          --identity 50 --coverage 50 \
          --output UCE-v1-master-probe-list-TO-SELF-PROBES.lastz
    $ phyluce_probe_remove_duplicate_hits_from_probes_using_lastz \
          --fasta UCEA-v1-master-probe-list.fasta \
          --lastz UCE-v1-master-probe-list-TO-SELF-PROBES.lastz \
          --probe-prefix=uce-

第二部分 UCE杂交捕获实验

UCE的杂交捕获主要包含以下几个主要步骤:DNA提取、DNA片段化、文库构建、杂交捕获富集和测序。目前国内少数生物公司 (如蓝景科信河北生物科技有限公司) 可直接接收样品,进行UCE的捕获和测序 (需购买相应的UCE探针试剂盒)。

材料与试剂

  1. 200 μl,500 μl和1.5 ml离心管 (柏丞科技有限公司)
  2. 八连排管和96孔板 (柏丞科技有限公司)
  3. 10 μl,200 μl,1000 μl枪头 (柏丞科技有限公司)
  4. Qiagen DNeasy 血液/组织基因组DNA提取试剂盒 (凯杰生物科技有限公司,catalog number: 69504)
  5. myBaits® version 4.01 (Arbor Biosciences Corp.)
  6. MICHTM TLX DNA-Seq kit (Mich Scientific, catalog number: NGS 0602)
  7. GeneTech 1x ds DNA HS working Solution (GeneTech, catalog number: GM190630,4 °C避光储存)
  8. 2x NEXTflexTM Primer Mix (BIOO Scientific, catalog number: 4019702)
  9. 2x Kapa HiFi PCR Mix (Kapa Biosystems, catalog number: KK2601)
  10. DNA Marker分子标准 (500,2,000,15,000;宝日医生物技术 (北京) 有限公司)
  11. RNase A (Solarbio, catalog number: R8021)
  12. 100x SYBR染料 (-20 °C避光储存)
  13. UltraPureTM琼脂糖 (Thermo Fisher Scientific, catalog number: 16500100)
  14. Nuclease-free water (Thermo Fisher Scientific, catalog number: AM9932)
  15. 100%乙醇和80%乙醇 (室温)
  16. 去离子水 (天根生化科技 (北京) 有限公司,catalog number: RT121)
  17. Mich DNA Clean Beads (Mich Scientific, catalog number: NGS-0201-100)
  18. TWEEN®-20 solution (Sigma, catalog number: P9416)
  19. 6x Loading Buffer上样缓冲液 (天根生化科技 (北京) 有限公司,catalog number: RT201)
  20. Tris-HCl缓冲液 (南京生航生物技术有限公司,catalog number: BC-B-241)

仪器设备

  1. ProFlexTm PCR扩增仪 (Life Technologies, catalog number: 4483636)
  2. 0.1-2.5 μl,2-20 μl,10-100 μl,20-200 μl,100-1000 μl移液器 (Eppendorf Research® plus系列)
  3. 旋涡混合器 (Scientific Industries,vortex-genie2,catalog number: G560E)
  4. 电泳仪 (北京六一仪器厂,catalog number: DYY-6C)
  5. 电泳槽 (北京六一仪器厂,catalog number: DYCP-31A)
  6. 台式离心机 (Eppendorf,catalog number: Centrifuge 5430R)
  7. 高压蒸汽灭菌器 (日本松下健康医疗器械株式会社,catalog number: MLS-3751L-PC)
  8. Qubit 4.0 (Thermo Fisher Scientific,catalog number: Q33226)
  9. 实验型真空冷冻干燥机 (北京亚星仪科科技发展有限公司,catalog number: LGJ-10N)
  10. 磁力架 (Mich Scientific,catalog number: Magpow-24)
  11. 恒温震荡金属浴 (杭州博日科技股份有限公司,catalog number: MB-102)

实验步骤

一、DNA提取
高通量测序的文库构建一般需要高质量的DNA样品。我们通常用Qiagen DNeasy血液/组织基因组DNA提取试剂盒 (凯杰生物科技有限公司),按照其使用说明进行DNA提取。在DNA提取过程中,我们一般将样品用液氮快速冷冻后进行充分研磨,以提高组织的消化率进而提高DNA的提取量;此外会加入少量 (1-2 μl) RNase A进行短时间消化 (如室温静置2 min),以去除RNA污染对后续建库的影响 (尤其针对新鲜标本)。对于一些长期保存于低浓度 (75%-80%) 乙醇或干制的博物馆标本,可尝试其它DNA提取方法 (如酚氯仿法) 以提高DNA的产量和质量。对所提取的DNA用Qubit检测浓度,并用凝胶电泳查看DNA降解情况 (可为下一步DNA片段化提供参考)。一般来讲,较高质量和总量 (> 200 ng) 的DNA可提高后续建库和杂交捕获的成功率,但我们也曾在20-50 ng的DNA样品中成功捕获上百个UCE。提取的DNA存放在-20 °C长期保存。

二、DNA片段化
目前有两种方法对DNA进行打断,以获得一定长度范围的DNA片段在Illumina平台进行测序:酶处理和物理打断 (如超声处理)。这两种打断方法在UCE实验流程中均有应用,但是否其中一种更有利于后续的UCE杂交富集实验尚有待研究。

  1. 酶处理方法 (以Mich试剂盒中所用酶处理试剂及方法为例):
    1)
    所需试剂解冻后颠倒混匀,短暂离心 (1-2 s) 后置于冰上备用。
    2)
    于无菌PCR管中配制如表2所示反应体系 (所需试剂均包含在Mich试剂盒中):

    2. 酶切处理反应体系


    3)
    吹打或振荡混匀,并短暂离心 (1-2 s) 将反应液离心至管底。
    4)
    按照表3设置反应程序 (热盖设置为82 °C),将PCR管置于PCR仪中。注:酶处理时间需要根据初始DNA的降解浓度进行调整。

    3. 酶切处理的程序设定


  2. 物理打断DNA需要使用超声装置,如Bioruptor或Covaris。以用Covaris M220超声仪打断500 ng左右 (溶于130 μl AE缓冲液) DNA样品为例,可使用如下参数设置进行处理:
    峰值功率 (Peak incident power) = 50
    工作系数 (Duty factor) = 10%
    每次打断的循环数 (Cycles per burst) = 200
    处理时间 (Treatment time) = 60-65 s
    温度 (Temperature) = 20 °C
    样品量 (Sample volume) = 130 μl
    一般高质量的DNA打断时间可设置为65 s,对降解的DNA样品需视情况适当降低打断时间。

不管用酶处理还是物理打断,片段化后的DNA要用凝胶电泳 (点样2 μl) 查看条带分布情况,片段化后的DNA长度集中在200-600 bp为宜。片段化后的DNA可存放在-20 °C冰箱过夜保存。

三、文库构建

文库构建是指在片段化的DNA上修复末端,加上样本特异性标签 (barcode) 以便混样测序后分拣不同样本的数据,以及适用于高通量测序平台的接头 (adapter) 序列。可选择适用于测序平台的试剂盒进行文库构建,以Mich试剂盒为例,具体步骤如下 (详见MICHTM TLX DNA-Seq kit使用指南;注:Mich试剂盒的末端修复已合并在酶切步骤同时进行,在此不再赘述;物理打断的末端修复方法可参考相关建库试剂盒的使用说明)

  1. 接头连接 (Adapter Ligation)
    1)
    将所需试剂解冻后颠倒混匀,置于冰上备用。
    2)
    如表4所示配制反应体系。

    4. 接头连接反应体系


    3)
    吹打或振荡混匀,并短暂离心 (1-2 s) 将反应液离心至管底。
    4)
    将上述PCR管置于PCR仪中20 °C,孵育60 min。
    注:当DNA量较低时,可尝试将连接时间延长。
  2. 连接产物磁珠纯化 (Post Ligation Clean Up)
    1)
    将Mich DNA Clean Beads置于室温平衡30 min,并配制新鲜的80%乙醇。
    2)
    吸取1x 体积的磁珠 (1x,磁珠:DNA = 1:1) 至接头连接产物中,涡旋或移液器吹打混匀,室温孵育5 min。
    3)
    短暂离心 (1-2 s) 并置于磁力架上,待溶液澄清后弃上清。
    4)
    加入200 μl新鲜配制的80%乙醇漂洗磁珠。室温孵育30 s,弃上清。
    5)
    重复步骤4)。
    6)
    开盖干燥磁珠至刚出现龟裂后从磁力架上取下带有磁珠的离心管。
  3. 文库扩增 (Library Amplification)
    1)
    将所需试剂解冻后颠倒混匀,置于冰上备用。
    2)
    如表5所示配制反应体系。

    5. 文库扩增反应体系


    3)
    上述反应体系吹打或振荡混匀,并短暂离心 (1-2 s)。
    4)
    按照表6设置反应程序,将PCR管置于PCR仪中。

    6. 文库扩增PCR设定程序


  4. 产物磁珠纯化
    同步骤2。
  5. 文库质量控制
    构建好的样本文库可以通过浓度检测 (Qubit检测) 和长度分布检测 (电泳条带检测) 来进行质量评价。

四、杂交捕获富集

UCE杂交捕获富集使用myBaits试剂盒 (Arbor Biosciences Corp.)。以myBaits version 4.01试剂盒为例,具体操作流程如下 (详见https://arborbiosci.com/wp-content/uploads/2018/04/myBaits-Manual-v4.pdf):
注:2018年4月–2020年9月购买的为myBaits version 4;2020年9月之后购买的为myBaits version 5.01。使用不同版本的试剂盒具体操作流程稍有区别,请注意参考相应的使用说明。

  1. 根据Qubit测量的每个样本文库的浓度对多个样品进行混合 (一个反应控制在8-10个样品),混合后的总体积为7 μl (如需要可加无菌水补足体积;每个样品的DNA量相当,约含100-200 ng DNA)。如有必要 (文库浓度过低),可用真空离心机或冷冻干燥机对样品进行适当浓缩,并重新用Qubit测量其浓度。
  2. 杂交
    1)
    按照表7配制HYBS混合体系 (一个反应)。

    7. 配置杂交反应体系


    1. 体系配好后吹打混匀并短暂离心 (1-2 s),60 °C孵育10 min,期间混匀离心2次。
    2. 室温放置5 min,取18.5 μl用于下步反应。
    2)
    按照表8配制LIBS混合体系 (一个反应)。

    8. Blockers混合体系
         

    1. 体系配好后吹打混匀并短暂离心 (1-2 s),将制备好的7 μl文库加入其中。
    2. 将混匀的样本置于PCR仪中,95 °C 5 min (盖子设置68-70 °C)。
    3. 之后将PCR仪降温至65 °C后,加入上步已于室温放置5 min的HYBS 混合体系18.5 μl,过夜 (16 h)。
  3. 结合和洗涤
    1)
    按照表9配制Wash Buffer X,配好后65 °C孵育至少30 min。
    注:配置好的Washer Buffer X4 °C保存一个月,每次使用之前置于65 °C 30 min进行预热。

    9. 配置Washer Buffer X


    2)
    准备 myBaits 磁珠
    1. 将myBaits 磁珠充分混匀,室温静置30 min以上,吸取30 μl处理好的磁珠至200 μl微量离心管中。
    2. 将离心管置于磁力架上,澄清后弃上清。
    3. 加入200 μl Binding Buffer,涡旋或移液器吹打混匀后置于磁力架上,待溶液澄清后弃上清。
    4. 重复步骤c,用Binding Buffer洗涤3次,每次都从磁力架上取下,混匀后放回。
    5. 加70 μl Binding Buffer,涡旋或移液器吹打混匀。
    3)
    结合
    1. 上步洗涤后产物65 °C孵育至少2 min。
    2. 对上述杂交步骤2) c 中经65 °C过夜 (16 h) 处理后的杂交文库进行涡旋或用移液器吹打混匀、离心。
    3. 将a与b混合后吹打混匀并短暂离心 (1-2 s),65 °C孵育5 min,期间混匀离心1次。
    4)
    洗涤
    1. 上步结合体系置于磁力架上,弃上清。
    2. 加入180 μl 预热的Wash Buffer X。
    3. 从磁力架上取下,吹打混匀并短暂离心 (1-2 s)。
    4. 65 °C孵育5 min,期间混匀离心1次,然后置于磁力架上,待溶液澄清后弃上清。
    5. 上述b-d步骤重复进行4次。
  4. 重悬和扩增
    1)
    重悬:取30 μl Tris-HCl + Tween混合液 (pH = 8.0-8.5) 加入到上步洗涤后的磁珠中,将磁珠洗脱下来,分装15 μl用于下步扩增体系。
    2)
    按照表10配制扩增反应体系和PCR反应程序。

    10. 捕获后的文库扩增反应体系


    3)
    按照表11设置反应程序,将PCR管置于PCR仪中,盖子设置105 °C。注:在满足测序平台所需样本浓度的前提下尽可能减少循环数。

    11. 捕获后的文库扩增PCR设定程序


    4)
    纯化:参考建库步骤中的磁珠纯化流程,用1.5x的磁珠进行纯化回收。

五、捕获文库质量检测和测序

捕获后的产物可以通过浓度检测 (Qubit检测) 和长度分布检测 (电泳条带检测) 和qPCR检测来进行质量评价,保证用于后续测序的样本质量。若浓度不理想可进行一次重复扩增。
将质检后的文库送测序公司进行测序 (150 bp双向测序),并同时提交每个样本的barcode序列,以便公司对混样的测序结果进行分拣。

第三部分 UCE数据分析

从测序公司得到UCE文库测序结果以后,需要用一些生信方法获得UCE同源序列,形成数据集进行系统发育分析。主要流程包含原始数据质控与筛选、数据组装、UCE序列的识别和提取、序列比对和数据集质控、系统发育分析 (图1)。目前用于系统发育基因组学分析的软件很多,在此仅对我们比较常用的方法进行简单介绍。

软件

  1. Conda
    https://anaconda.org/anaconda/conda
  2. Python version 2.7 (注:除特别说明外均使用Python version 2.7)
    https://www.python.org/download/releases/2.7/
  3. Python version 3
    https://www.python.org/download/releases/3.0/
  4. PHYLUCE version 1.6 (Faircloth, 2016)
    https://phyluce.readthedocs.io/en/latest/
  5. Illumiprocessor (Faircloth, 2013)
    https://github.com/faircloth-lab/illumiprocessor/
  6. BBTools (Bushnell, 2014)
    https://www.bbtools.net/
  7. SPAdes version 3.14.1 (Prjibelski et al., 2020)
    http://cab.spbu.ru/software/spades/
  8. Mafft version 7.313 (Katoh and Standley, 2013)
    https://mafft.cbrc.jp/alignment/software/
  9. RAxML version 8.2.12 (Stamatakis, 2014)
    https://cme.h-its.org/exelixis/web/software/raxml/
  10. Spruceup version 2020.2.19 (Borowiec, 2019)
    https://pypi.org/project/spruceup/
  11. PASTA (Seqtools) (Mirarab et al., 2014b)
    https://github.com/smirarab/pasta
  12. AMAS version 1.0 (Borowiec, 2016)
    https://github.com/marekborowiec/AMAS
  13. FASconCAT version 1.0 (Kück and Meusemann, 2010)
    https://www.zfmk.de/en/research/research-centres-and-groups/fasconcat
  14. IQ-TREE version 2.0.6 (Nguyen et al., 2015)
    http://www.iqtree.org/
  15. Newick Utils version 1.6 (Junier and Zdobnov, 2010)
    http://cegg.unige.ch/newick_utils
  16. ASTRAL version 5.6.1 (Mirarab et al., 2014a)
    https://github.com/smirarab/ASTRAL

实验步骤

一、原始数据质控与筛选

测序完成后,公司会根据我们提供的barcode序列将混合样品的测序结果恢复为每个样品的数据 (reads),一般会以压缩的fastq格式返回我们。首先需要对这些数据进行质控,删除其中低质量的reads以及接头 (adapter) 序列。很多生信方法都可以完成原始数据的质控和筛选,如Trimmomatic (Bolger et al., 2014) 和BBTools (Bushnell, 2014)。我们一般用PHYLUCE (Faircloth, 2016) 中包含的Illumiprocessor (Faircloth, 2013),同时对多个样本的原始数据进行质控。Illumiprocessor (Faircloth, 2013) 需要首先建立一个config文件,其中记录测序平台的接头序列、各样品的barcode序列以及种名信息 (见附录)。
        以处理含双端barcode的测序结果为例,将所有待处理的原始数据文件 (.fastq.gz) 放在同一目录 (./RawFastq) 中,处理后的数据存入指定目录 (./CleanFastq),config文件为illumiprocessor.conf,存放在当前目录 (./),与RawFastq和CleanFastq并列,计算核数为10:
$ illumiprocessor \
    --input RawFastq \
    --output CleanFastq \
    --config illumiprocessor.conf \
    --cores 10

二、数据组装

很多软件均可用于UCE数据的组装,不同软件组装的结果对获取UCE序列的影响尚有待进一步研究。PHYLUCE (Faircloth, 2016) 针对常用的组装软件Velvet (Zerbino and Birney, 2008)、Abyss (Jackman et al., 2017) 和Trinity (Grabherr et al., 2011),开发了相应的脚本用于批量组装多个样本的数据,详见PHYLUCE (Faircloth, 2016) 网上教程。
        我们一般用SPAdes version 3.14.1 (Prjibelski et al., 2020) 对每个样本质控和筛选后的数据进行组装。以样本"JXZ001_sp1"为例:
        $ /home/pc/install/SPAdes-3.14.1/bin/spades.py -o JXZ001_sp1_spades.out -1 JXZ001_sp1-READ1.fastq.gz -2 JXZ001_sp1-READ2.fastq.gz -s JXZ001_sp1-READ-singleton.fastq.gz -t 10 --memory 100
        注:JXZ001_sp1-READ1.fastq.gz为正向序列,JXZ001_sp1-READ2.fastq.gz为反向序列。
        将组装结果生成的"scaffolds.fasta"重新用样本名称命名 (JXZ001_sp1.fasta)。注:文件名中不要包含中文和特殊字符。

三、UCE序列的识别

UCE序列的识别使用PHYLUCE (Faircloth, 2016) 中的脚本。

  1. 将各样本的组装结果 (.fasta) 存入同一目录 (./spades-assemblies),指定结果输出目录 (./uce-search-results),并将探针序列文件 (probes.fasta) 放在当前目录 (./)。
  2. 用"phyluce_assembly_match_contigs_to_probes"脚本,将探针序列与各物种组装的序列进行比对,以识别其中同源的UCE片段并生成SQLite数据库:
    $ phyluce_assembly_match_contigs_to_probes \
          --contigs spades-assemblies \
          --probes probes.fasta \
          --output uce-search-results \
          --min-coverage 65 \
          --min-identity 65
    注:min-coveragemin-identity阈值的设置往往需要根据具体情况进行调整,较高阈值虽然可以保证序列的同源性,但往往会大大减少识别出的UCE

四、UCE序列的提取

  1. 根据上述识别结果确定要包含在数据集中的样本,有些样本能够识别出的UCE非常少,往往不包含在最终数据集中。将确定的样本名称列入文本文件 (taxon-set.conf) 并存放在当前目录 (./)。以illumiprocessor.conf中包含的4个样本为例,该文本文件如下:
    [all]
    JXZ001: JXZ001_sp1
    JXZ002: JXZ002_sp2
    JXZ003: JXZ002_sp3
    JXZ004: JXZ002_sp4
  2. 在当前目录 (与目录"RawFastq"和"CleanFastq"并列) 中建立目录"taxon-set"及其子目录"all",然后根据识别的UCE数据库 (./uce-search-results/probe.matche s.sqlite) 用"phyluce_assembly_get_match_counts"脚本建立数据集的控制文件,并输出到指定目录 (./taxon-set/all/all-taxa-incomplete.conf)。
    $ mkdir -p taxon-set/all
    $ phyluce_assembly_get_match_counts \
          --locus-db uce-search-results/probe.matches.sqlite \
          --taxon-list-config taxon-set.conf \
          --taxon-group 'all' \
          --incomplete-matrix \
          --output taxon-set/all/all-taxa-incomplete.conf
  3. 根据上述生成的数据集控制文件提取所有样本的UCE序列输出到一个fasta文件 (all-taxa.fasta),存入当前目录 (./taxon-set/all)。
    $ cd taxon-set/all
    $ mkdir log
    $ phyluce_assembly_get_fastas_from_match_counts \
          --contigs ../../spades-assemblies \
          --locus-db ../../uce-search-results/probe.matches.sqlite \
          --match-count-output all-taxa-incomplete.conf \
          --output all-taxa.fasta \
          --incomplete-matrix all-taxa-incomplete.incomplete \
          --log-path log
  4. 用"phyluce_assembly_explode_get_fastas_file"脚本将混合在同一个文件 (all-taxa.fasta) 中的序列按照UCE片段进行分拣 (每个UCE片段一个fasta文件),存入指定目录 (./taxon-set/all/UCE-fasta_locus),以便随后进行序列比对。
    $ phyluce_assembly_explode_get_fastas_file \
          --alignments all-taxa.fasta \
          --output UCE-fasta_locus \

五、序列比对和数据集质控

  1. 用Mafft version 7.313软件 (Katoh and Standley, 2013) 对每个UCE的同源序列进行比对。以使用E-INS-i方法对序列uce-100.fasta进行比对为例:
    $ mafft --maxiterate 1000 --genafpair uce-100.fasta > uce-100.mafft.fasta
    可对所有保存在目录 (. /UCE-fasta_locus) 的UCE进行批量比对,并存入指定目录 (. /UCE-mafft):
    $ for i in ./UCE-fasta_locus/*.fasta; do mafft --maxiterate 1000 --genafpair
      $i > ./UCE-mafft/$i.mafft.fas; done
  2. 采用"gene tree and alignment"方法 (Zhang et al., 2020) 检查数据集中的污染序列和长枝序列。首先针对每个UCE alignment用RAxML version 8.2.12 (Stamatakis, 2014) 构建单基因树:
    $ for i in *.fas; do raxmlHPC-PTHREADS-SSE3 -T 10 -f d -p 33567 -s $i -n $i.out -m GTRGAMMA; done
    再用编写的Python脚本 (ScanGeneTree.py) 查看基因树中的长枝和污染序列,并从alignments中删除。该脚本可从Dryad (doi:10.5061/dryad.4f4qrfj7h) 下载。
  3. 在系统建树分析之前,还需要对序列比对结果进行修剪 (alignment trimming),以去除比对较差的区域,并减少数据集中的缺失数据。常见的序列比对修剪软件有Gblocks (Castresana, 2000)、Spruceup (Borowiec, 2019)、PASTA (Seqtools) (Mirarab et al., 2014b) 等。PHYLUCE (Faircloth, 2016) 中有两种方法进行序列比对修剪:边缘修剪 (edge Trimming) 一般用于样本的分化时间比较接近时 (< 30-50 MYA),而内部修剪 (internal Trimming) 常用于样本分化时间相隔较远时 (> 50 MYA) (Faircloth, 2016)。不同的序列比对修剪方法以及参数设置可能适用于不同的研究数据集,往往需要一些摸索。
            我们通常先用Spruceup version 2020.2.19 (Borowiec, 2019) 检查比对结果中每一条序列里比对很差的区域并将其转化为gap,然后再用Seqtools (Mirarab et al., 2014b) 删除Spruceup处理后的比对结果中含有很多缺失数据的位点。在用Spruceup处理前先用AMAS version 1.0 (Borowiec, 2016) 合并每个UCE alignment形成串联数据集 (concatenate.fasta),并生成相应的分区文件 (partition.txt):
    $ python AMAS.py concat -f fasta -d dna -i *.fasta -t concatenate.fasta
    注:AMAS需要Python version 3
            然后使用Spruceup version 2020.2.19 (Borowiec, 2019) 将串联数据中明显比对不上的小段序列变成gap:
    $ python -m spruceup concatenate_spruceup.conf
    注:Spruceup需要Python version 3concatenate_spruceup.confSpruceup控制文件,其中包含输入和输出文件名称以及参数设置等。详细信息请参考https://github.com/marekborowiec/spruceup
            再使用AMAS version 1.0 (Borowiec, 2016) 将Spruceup处理后的串联序列拆分为单个UCE alignment:
    $ python AMAS.py split -i concatenate.fasta -f fasta -d dna -l partition.txt
    注:AMAS需要Python version 3
    最后通过Seqtools (Mirarab et al., 2014b) 删除所有alignments中gap含量很高的位点:
    $ for i in *.fasta; do run_seqtools.py -infile $i -informat FASTA -outfile $i.seqtools -outformat FASTA -masksites 40 -filterfragments 30; done
    注:masksitesfilterfragments阈值的设置需要根据数据集进行调整。
  4. 用AMAS version 1.0 (Borowiec, 2016) 统计每个UCE alignment的基本信息,如包含的分类单元数量、长度、缺失位点比例、系统发育信息位点比例等,并将结果合并为一个文件便于检查和筛选。以存于当前目录 (./) 中的所有序列比对文件 (./*.fasta) 为例:
    $ for i in ./*.fasta; do python ./AMAS.py summary -f fasta -d dna -i $i -o ./$i.summary.txt; done
    $ cat *summary.txt >> AMAS_summary.txt
    注:AMAS需要Python version 3
    根据统计结果,去除含有样本数量很少 (如 < 75%) 或长度很短 (如 < 200 bp) 的UCE,剩余高质量的UCE形成最终数据集用于系统发育分析。

六、系统发育分析

  1. 用串联方法 (concatenation method) 进行系统发育分析时,先用FASconCAT version 1.0 (Kück and Meusemann, 2010) 或AMAS version 1.0 (Borowiec, 2016) 将筛选的UCE序列进行串联,并形成相应的分区文件。再用IQ-TREE version 2.0.6 (Nguyen et al., 2015) 对数据集的分区和模型进行优化 (partition and model optimization):
    $ iqtree2 -T 20 -st DNA -s concatenate.fas -p partition.txt -m MF+MERGE --prefix concatenate.MFM -cptime 60 -safe --no-terrace
            然后根据优化后的分区设置和模型构建最大似然 (ML) 树并进行bootstrap分析:
    $ iqtree2 -T 20 -st DNA -seed 10415 -s concatenate.fas -p concatenate.MFM.best_scheme.nex -b 100 -wbt --prefix concatenate.ML -cptime 60 -safe --no-terrace
  2. 运用溯组方法 (coalescent method) 构建物种树时,首先用IQ-TREE version 2.0.6 (Nguyen et al., 2015) 对每个UCE alignment构建单基因树并进行bootstrap分析:
    $ for i in *.fas; do iqtree2 -T 20 -s $i -m MFP -b 100 -wbt --prefix $i -cptime 60 -safe --no-terrace; done
    用Newick Utils version 1.6 (Junier and Zdobnov, 2010) 针对单基因树中bootstrap support很低 (如 < 30%) 的分支进行删除,以减小其对估算物种树的影响:
    $ for i in *.tre; do nw_ed $i 'i & b<=30' o > $i-BS30.tre; done
    使用ASTRAL version 5.6.1 (Mirarab et al., 2014a) 构建物种树。
    $ java -jar astral.5.6.1.jar -i GeneTrees-BS30.tre -o Astral.GeneTrees-BS30.tre 2 > Astral.GeneTrees-BS30.log

致谢

感谢美国哈佛大学比较动物学博物馆Shahan Derkarabetian博士分享其UCE实验流程。资助项目:国家自然科学基金项目 (张俊霞,No. 32070422) 和河北大学高层次人才科研启动项目 (张俊霞,No. 521000981324)。

竞争性利益声明

作者声明没有利益冲突。

参考文献

  1. Alfaro, M. E., Faircloth, B. C., Harrington, R. C., Sorenson, L., Friedman, M., Thacker, C. E., Oliveros, C. H., Černý, D. and Near, T. J. (2018). Explosive diversification of marine fishes at the Cretaceous-Palaeogene boundary. Nat Ecol Evol 2(4): 688-696.
  2. Bolger, A. M., Lohse, M. and Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30(15): 7.
  3. Borowiec, M. L. (2016). AMAS: a fast tool for alignment manipulation and computing of summary statistics. PeerJ 4: e1660.
  4. Borowiec, M. L. (2019). Spruceup: fast and flexible identification, visualization, and removal of outliers from large multiple sequence alignments. J Open Source Software 4(42): 1635.
  5. Branstetter, M. G. and Longino, J. T. (2019). Ultra-Conserved element phylogenomics of new world Ponera (Hymenoptera: Formicidae) illuminates the origin and phylogeographic history of the endemic exotic ant Ponera exotica. Insect Syst Divers 3(2) : 1-13.
  6. Branstetter, M. G., Longino, J. T., Ward, P. S. and Faircloth, B. C. (2017). Enriching the ant tree of life: enhanced UCE bait set for genome-scale phylogenetics of ants and other Hymenoptera. Methods Ecol Evol 8(6): 768-776.
  7. Bushnell, B. (2014). BBtools. Retrieved from https://sourceforge.net/projects/bbmap/.
  8. Castresana, J. (2000). Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Mol Biol Evol 17(4): 540-552.
  9. Cruaud, A., Delvare, G., Nidelet, L., Sauné, L., Ratnasingham, S., Chartois, M., Blaimer, B. B., Gates, M., Brady, S. G., Faure, S., van Noort, S., Rossi, J. P. and Rasplus, J. Y. (2020). Ultra-Conserved Elements and morphology reciprocally illuminate conflicting phylogenetic hypotheses in Chalcididae (Hymenoptera, Chalcidoidea). Cladistics 37(1): 1-35.
  10. Cruaud, A., Nidelet, S., Arnal, P., Weber, A., Fusu, L., Gumovsky, A., Huber, J., Polaszek, A. and Rasplus, J. Y. (2018). Optimised DNA extraction and library preparation for minute arthropods: application to target enrichment in chalcid wasps used for biocontrol. Mol Ecol Resour 19(3): 702-710.
  11. Derkarabetian, S., Benavides, L. R. and Giribet, G. (2019). Sequence capture phylogenomics of historical ethanol-preserved museum specimens: unlocking the rest of the vault. Mol Ecol Resour 19(6): 1531-1544.
  12. Faircloth, B. C. (2013). Illumiprocessor: a trimmomatic wrapper for parallel adapter and quality trimming.
  13. Faircloth, B. C. (2016). PHYLUCE is a software package for the analysis of conserved genomic loci. Bioinformatics 32(5): 786-788.
  14. Faircloth, B. C. (2017). Identifying conserved genomic elements and designing universal bait sets to enrich them. Methods Ecol Evol 8(9): 1103-1112.
  15. Faircloth, B. C., Alda, F., Hoekzema, K., Burns, M. D., Albert, J. S., Melo, B. F., Ochoa, L. E., Roxo, F. F., Chakrabarty, P., Sidlauskas, B. L. and Alfaro, M. E. (2018). A target enrichment bait set for studying relationships among ostariophysan Fishes. Copeia 108(1): 47-60.
  16. Faircloth, B. C., Branstetter, M. G., White, N. D. and Brady, S. G. (2015). Target enrichment of ultraconserved elements from arthropods provides a genomic perspective on relationships among Hymenoptera. Mol Ecol Resour 15(3): 489-501.
  17. Faircloth, B. C., McCormack, J. E., Crawford, N. G., Harvey, M. G., Brumfield, R. T. and Glenn, T. C. (2012). Ultraconserved elements anchor thousands of genetic markers spanning multiple evolutionary timescales. Syst Biol 61(5): 717-726.
  18. Faircloth, B. C., Sorenson, L., Santini, F. and Alfaro, M. E. (2013). Phylogenomic perspective on the radiation of ray-finned fishes based upon targeted sequencing of ultraconserved elements (UCEs). PLoS One 8(6): 192-211.
  19. Forthman, M., Miller, C. W. and Kimball, R. T. (2019). Phylogenomic analysis suggests Coreidae and Alydidae (Hemiptera: Heteroptera) are not monophyletic. Zool Scr 48(4): 520-534.
  20. Grabherr, M. G., Haas, B. J., Yassour, M., Levin, J. Z., Thompson, D. A., Amit, I., Adiconis, X., Fan, L., Raychowdhury, R., Zeng, Q., Chen, Z., Mauceli, E., Hacohen, N., Gnirke, A., Rhind, N., di Palma, F., Birren, B. W., Nusbaum, C., Lindblad-Toh, K., Friedman, N. and Regev, A. (2011). Full-length transcriptome assembly from RNA-seq data without a reference genome. Nat Biotechnol 29(7): 644-652.
  21. Hedin, M., Derkarabetian, S., Alfaro, A., Ramírez, M. J. and Bond, J. E. (2019). Phylogenomic analysis and revised classification of atypoid mygalomorph spiders (Araneae, Mygalomorphae), with notes on arachnid ultraconserved element loci. PeerJ 7(6): e6864.
  22. Huang, W., Li, L., Myers, J. R. and Marth, J. T. (2012). ART: a next-generation sequencing read simulator. Bioinformatics 28(4): 593-594.
  23. Jackman, S. D., Vandervalk, B. P., Mohamadi, H., Chu, J., Yeo, S., Hammond, S. A., Jahesh, G., Khan, H., Coombe, L., Warren, R. L. and Birol, I. (2017). ABySS 2.0: resource-efficient assembly of large genomes using a Bloom filter. Genome Res 27(5): 768-777.
  24. Ješovnik, A., Sosa-Calvo, J., Lloyd, M. W., Branstetter, M. G., Fernández, F. and Schultz, T. R. (2017). Phylogenomic species delimitation and host-symbiont coevolution in the fungus-farming ant genus Sericomyrmex Mayr (Hymenoptera: Formicidae): Ultraconserved elements (UCEs) resolve a recent radiation. Syst Entomol 42(3): 523-542.
  25. Junier, T. and Zdobnov, E. M. (2010). The Newick utilities: high-throughput phylogenetic tree processing in the UNIX shell. Bioinformatics 26(13): 1669-1670.
  26. Katoh, K. and Standley, D. M. (2013). MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Mol Biol Evol 30(4): 772-780.
  27. Kulkarni, S., Wood, H., Lloyd, M. and Hormiga, G. (2020). Spider-specific probe set for ultraconserved elements offers new perspectives on the evolutionary history of spiders (Arachnida, Araneae). Mol Ecol Resour 20(1): 185-203.
  28. Kück, P. and Meusemann, K. (2010). FASconCAT: convenient handling of data matrices. Mol Phylogenet Evol 56(3): 1115-1118.
  29. Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G. and Durbin, R. (2009). The sequence alignment/map (SAM) format and SAMtools. Bioinformatics 25(16): 2078-2079.
  30. Lunter, G. and Goodson, M. (2011). Stampy: a statistical algorithm for sensitive and fast mapping of Illumina sequence reads. Genome Res 21(6): 936-939.
  31. Maddison, W. P., Maddison, D. R., Derkarabetia, S. and Hedin, M. (2020). Sitticine jumping spiders: phylogeny, classification, and chromosomes (Araneae, Salticidae, Sitticini). ZooKeys 925(1): 1-54.
  32. McCormack, J. E., Faircloth, B. C., Crawford, N. G., Gowaty, P. A., Brumfield, R. T. and Glenn, T. C. (2012). Ultraconserved elements are novel phylogenomic markers that resolve placental mammal phylogeny when combined with species-tree analysis. Genome Res 22(4): 746-754.
  33. McCormack, J. E., Harvey, M. J. and Faircloth, B. C. (2013). A phylogeny of birds based on over 1,500 loci collected by target enrichment and high-throughput sequencing. PLoS One 8(1): 51-67.
  34. Mirarab, S., Nguyen, N. and Warnow, T. (2014b). PASTA: ultra-large multiple sequence alignment. In: Sharan, R. (Ed.). In: Lecture Notes in Computer Science. Springer, 177-191.
  35. Mirarab, S., Reaz, R., Bayzid, M. S., Zimmermann, T. S., Swenson, M. and Warnow, T. (2014a). ASTRAL: genome-scale coalescent-based species tree estimation. Bioinformatics 30: 541-548.
  36. Nguyen, L. T., Schmidt, H. A., von Haeseler, A. and Minh, B. Q. (2015). IQ-TREE: a fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies. Mol Biol Evol 32(1): 268-274.
  37. Ochoa, L. E., Datovo, A., DoNascimiento, C., Roxo, F. F., Sabaj, M. H., Chang, J., Melo, B. F., Silva, G. S. C., Foresti, F., Alfaro, M. and Oliveira, C. (2020). Phylogenomic analysis of trichomycterid catfishes (Teleostei: Siluriformes) inferred from ultraconserved elements. Sci Rep 10(1): 1-15.
  38. Pie, M. R., Bornschein, M. R., Ribeiro, L. F., Faircloth, B. C. and McCormac, J. E. (2019). Phylogenomic species delimitation in microendemic frogs of the Brazilian Atlantic forest. Mol Phylogenet Evol 141: 106627.
  39. Prjibelski, A., Antipov, D., Meleshko, D., Lapidus, A. and Korobeynikov, A. (2020). Using SPAdes de novo assembler. Curr Protoc Bioinf 70: e102.
  40. Quinlan, A. R. and Hall, I. M. (2010). BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26(6): 841-842.
  41. Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics 30(9): 1312-1313.
  42. Starrett, J., Derkarabetian, S., Hedin, M., Bryson, R. W., McCormack, J. E. and Faircloth, B. C. (2017). High phylogenetic utility of an ultraconserved element probe set designed for Arachnida. Mol Ecol Resour 17(4): 812-823.
  43. Streicher, J. W. and Wiens, J. J. (2016). Phylogenomic analyses reveal novel relationships among snake families. Mol Phylogenet Evol 100: 160-169.
  44. Sun, X., Ding, Y., Orr, M. C. and Zhang, F. (2020). Streamlining universal single-copy orthologue and ultraconserved element design: a case study in Collembola. Mol Ecol Resour 20(3): 706-717.
  45. White, N. D. and Braun, M. J. (2019). Extracting phylogenetic signal from phylogenomic data: higher-level relationships of the nightbirds (Strisores). Mol Phylogenet Evol 141(S6): 1-15.
  46. Zerbino, D. R. and Birney, E. (2008). Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18(5): 821-829.
  47. Zhang, J. and Lai, J. (2020). Phylogenomic approaches in systematic studies. Zoological Systematics 45(3): 151-162.
  48. Zhang, J., Lindsey, A. R. I., Peters, R. S., Heraty, J. M., Hopper, K. R., Werren, J. H., Martinson, E. O., Woolley, J. B., Yoder, M. J. and Krogmann, L. (2020). Conflicting signal in transcriptomic markers leads to a poorly resolved backbone phylogeny of chalcidoid wasps. Syst Entomol 45(4): 783-802.

附录 Illumiprocessor config文件

[adapters]
i7:AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC*ATCTCGTATGCCGTCTTCTGCTTG
i5:AATGATACGGCGACCACCGAGATCTACAC*ACACTCTTTCCCTACACGACGCTCTTCCGATC

[tag sequences]
i5-CATGTACG:CATGTACG
i5-TGACAGTC:TGACAGTC
i5-GTGACTGA:GTGACTGA
i5-ACCTGCAT:ACCTGCAT
i7-CAGTCTGC:CAGTCTGC
i7-TGCAGCAC:TGCAGCAC
i7-AGATCAGC:AGATCAGC
i7-CGACACGT:CGACACGT

[tag map]
JXZ001:i5-CATGTACG,i7-CAGTCTGC
JXZ002:i5-TGACAGTC,i7-TGCAGCAC
JXZ003:i5-GTGACTGA,i7-AGATCAGC
JXZ004:i5-ACCTGCAT,i7-CGACACGT

[names]
JXZ001: JXZ001_sp1
JXZ002: JXZ002_sp2
JXZ003: JXZ002_sp3
JXZ004: JXZ002_sp4

登录/注册账号可免费阅读全文
登录 | 注册
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:梁雅迪, 赖佳星, 高晓荣, 王耀卓, 张俊霞. (2021). 超级保守元件 (UCE) 的捕获及分析流程. Bio-101: e1010612. DOI: 10.21769/BioProtoc.1010612.
How to cite: Liang, Y. D., Lai, J. X., Gao, X. R., Wang, Y. Z. and Zhang, J. X. (2021). Protocols of UCE Capture and Data Analysis. Bio-101: e1010612. DOI: 10.21769/BioProtoc.1010612.