基于ASV分析算法
测序错误使得生物真实的核苷酸序列及测序错误的人工序列在分析中难以区分,降低了结果的准确性,为解决这一问题,通常以97%为特定阈值,将序列聚类到OTU (Schloss
et al., 2009; Caporaso
et al., 2010)。这一阈值为1994年提出,随着测序技术的进步,Robert指出要得到更准确的结果,对于全长序列的最佳同一性阈值需在~99%,V4高变区的最佳同一性阈值为~100%(Stackebrandt and Goebel 1994; Edgar, 2018)。而且OTU这种方法不能检测到物种或菌株之间的细微差异,错过了真实的生物学序列变异 (Qian
et al., 2020)。近几年已经开发出以扩增子序列变体 (amplicon sequence variant, ASV)为载体的新方法。ASV方法对原始数据进行去噪 (denoise),无需设定阈值,相当于100%聚类(Tikhonov
et al., 2015)。相对于OTU方法有更好的特异性和敏感性,并且能够更好的区分生态模式(Callahan
et al., 2017)。目前基于ASV方法使用最广泛的3个包为DADA2,UNOISE3和Deblur(Nearing
et al., 2018)。
DADA2、UNOISE2、UNOISE3和Deblur使用了不同的算法处理相同的概念,都能更接近真实的生物序列,但之间仍存在差异。在稳定性方面,Deblur优于DADA2;在运行速度上,UNOISE2最快,Deblur次之,DADA2最慢,之间均相差一个数量级 (Amir
et al., 2017)。由于低丰度序列更可能为错误序列,故而被舍弃:UNOISE2默认去掉丰度小于4的序列;UNOISE3默认去掉小于8的序列;DADA2默认去掉singletons;Deblur默认去掉所有样本中和小于10的序列以及每个样本中的singletons。Jacob T. Nearing等人采用模拟群落、土壤和宿主相关的群落对这三种去噪算法进行了评估,结果表明这三种算法在每个样本的组成上分析一致;对于真实土壤数据和其他两个与宿主相关的数据集,DADA2与其他两个去噪方法相比可以发现更多的ASVs,表明它在发现稀有生物方面可能更好,但可能有假阳性;运行速度上同样UNOISE3比DADA2和Deblur分别快1200倍和15倍以上(Nearing
et al., 2018)。Andrei Prodan等人对模拟群落和荷兰阿姆斯特丹六个民族的成年个体粪便样本,同样使用DADA2, Qiime2-Deblur和USEARCH-UNOISE3进行了比较研究,结果表明DADA2敏感性最好,但特异性降低;UNOISE3显示了分辨率和特异性之间的最佳平衡(Prodan
et al., 2020)。