摘要:微生物组的功能谱 (functional profile) 在宿主疾病诊断、生态健康检测等方面具有重要的研究和应用价值。目前功能谱可通过鸟枪法宏基因组测序 (Shotgun Metagenomic Whole Genome Sequencing;以下简称WGS) 数据直接解析;或基于16S rRNA基因扩增子 (以下简称16S扩增子) 测序数据,根据其参照基因组的关联进行预测。16S扩增子测序在实验和计算上的成本比WGS低得多,因此PICRUSt2等工具已广泛用于基于16S来预测微生物组的功能谱。然而,由于扩增子测序的PCR偏好性和16S rRNA基因-全基因组关联信息的不足,同一微生物组样本基于16S扩增子的功能谱与WGS产生的结果之间会存在偏差,从而导致相左的结论。为了解决以上问题,我们提出了Meta-Apo (Metagenomic Apochromat),它可以极大地减少甚至消除这种偏差。我们对来自4个身体部位超过5,000例人体微生物组的16S 扩增子样本进行测试发现,Meta-Apo仅使用15个WGS:16S扩增子的配对样本来进行训练,就可以显著降低两种测序之间功能解析的差异。因此,利用Meta-Apo,可以让低成本的16S扩增子测序产生与WGS相近的、可靠的、高分辨率的微生物组功能图谱。Meta-Apo可以在https://github.com/qibebt-bioinfo/meta-apo下载。它以少数WGS:16S扩增子配对样本 (例如,约15对配对样本) 的功能谱作为训练集,可以对大量16S扩增子样本的功能信息进行校正。
关键词: 微生物组, 宏基因组, 扩增子, 功能预测, 功能校正
仪器设备
Meta-Apo仅需要具有约1GB内存的标准计算机即可支持其安装与执行。目前Linux (如Ubuntu、CentOS、RedHat等)、Mac OS或Windows 10内置Linux子系统等操作系统均能够支持Meta-Apo。
软件
Meta-Apo软件最新版本为1.01。该软件主要由C++语言开发编写,所以软件的安装需要C++编译器 (例如g++)。对于Linux操作系统,大多版本已经在系统中安装了g++。对于Mac OS,建议从App Store安装Xcode应用程序,即可完成编译器的安装与配置。
实验步骤
- 安装Meta-Apo
我们建议选择步骤 1.1 中自动安装的方式来配置Meta-Apo软件。但如果自动安装程序失败,可以按照步骤 1.2 中的步骤手动安装Meta-Apo软件。
- Meta-Apo校正原理
图3. 通过对少量成对的WGS:16S扩增子样本进行训练来校正微生物组扩增子样本的预测功能图谱
前期工作中,通过比较WGS和16S扩增子测序方法得出的功能谱,两种方法得到的WGS与16S扩增子之间距离高度相关 (Jing et al., 2021)。Meta-Apo仅使用少量的WGS:16S扩增子配对数据 (即每一个样本都分别进行WGS和16S扩增子测序) 用作训练集 (如,15对训练样本),Meta-Apo就可以为大规模16S扩增子样本 (如,数千例样本) 的功能谱进行校正,使之结果与WGS更加一致 (图3)。Meta-Apo主要包含两个部分:训练和校正。在训练部分中,Meta-Apo使用线性回归建模,利用少量的WGS:16S配对样本来估算等式 (1) 中的f。在校正部分中,将WGS结果视为"黄金标准",使用模型f校正16S扩增子样本的预测功能图谱。
KWGS = f(K16S) (1)
- 样本处理与输入格式
Meta-Apo仅将少量的WGS:16S扩增子配对数据用作训练集。根据前期对来自4个身体部位超过5,000例人体微生物组的16S扩增子样本进行测试发现,Meta-Apo仅使用15个WGS: 16S扩增子配对样本来进行训练,就可以显著降低两种测序之间功能解析的差异 (Jing et al., 2021) (详见"结果与分析")。因此我们建议训练集中包含10-20例WGS:16S扩增子配对数据即可。
训练集中每一个WGS:16S扩增子配对样本都分别进行WGS和16S扩增子测序,其功能谱信息需使用KEGG Orthology (Kanehisa et al., 2011) (KO) 来注释。其中,WGS样本我们建议使用HUMAnN2 (Franzosa et al., 2018) 进行功能分析,16S扩增子样本我们建议使用PICRUSt2 (Douglas et al., 2020) 进行功能预测。同时,待校正的16S扩增子样本,需按照与训练集中16S扩增子完全相同的测序流程和分析流程来处理。以上所有样本的输入文件中包含KO号和KO的丰度两类信息。目前Meta-Apo接受以下两种格式的输入文件格式 (可任选其一)。
- 训练与校正
- Meta-Apo的计算过程
结果与分析
为了验证Meta-Apo对于校准扩增样本功能丰度的可靠性、准确性,本工作采用了5个来自人类微生物组计划HMP (Huttenhower et al., 2012) 的数据集 (表4) 进行验证。
表4. 测试数据集
以上测试中所有的数据集均可在 Meta-Apo 软件下载页面的"Supplementary"部分中下载。
我们首先比较了622例配对的人体微生物组功能谱 (数据集1;来自四个身体部位:肠道,皮肤,口腔和生殖道;表4) 来评估两种测序策略之间的差异程度。每个样本都通过WGS和V3-V5区16S rRNA扩增子进行测序。WGS的功能谱由HUMAnN2 (Franzosa et al., 2018) 分析生成。16S扩增子则使用PICRUSt2 (Douglas et al., 2020) 预测得出,均使用KEGG Orthology (Kanehisa et al., 2011) (KO) 注释。通过比较从两种测序方法得出的功能谱,我们发现配对的WGS:16S扩增子之间差异显著高于WGS的内部差异 (即来自同一部位的WGS样本之间的距离;图4A)。两种策略之间的差异十分显著,β多样性也表现出非常不同的模式 (图5A;PC1 双尾配对Wilcox秩和检验p < 0.01;PC2双尾配对Wilcox秩和检验p < 0.01) 并导致了一些错误的分类。例如,一些皮肤的16S扩增子的功能谱与口腔的WGS的功能谱被错误地分成一类。然而,这两种方法得到的WGS与16S扩增子之间距离高度相关 (图5B;Pearson相关性R = 0.86,p < 0.01),而且其β多样性之间的总体形状相似 (图5A;蒙特卡洛检验p < 0.01)。
为了定量评估Meta-Apo的效果,我们分别从数据集1中随机选择了N = 5、10、15、20、50和100个WGS:16S扩增子配对样本作为训练集,并使用Meta-Apo校正该数据集中其他16S扩增子样本。当使用N = 15个训练对建立模型f时,Meta-Apo校正效果变得稳定,并且在增加更多训练对之后 (最多100个;图4B),校正效果也不会明显增加。在校正后 (即N = 15个训练对),配对的WGS:16S扩增子距离 (0.121 ± 0.055) 显著低于WGS样本的组内距离 (0.136 ± 0.056)。经主坐标分析 (PCoA) 证实,Meta-Apo消除了两种测序策略产生的样本之间的总体功能分布差异 (图5C;PC1双尾配对Wilcox秩和检验p = 0.30,PC2双尾配对Wilcox秩和检验p = 0.29;图5D。与此同时,Meta-Apo对于来自数据集2 (表4) 的V1-V3区16S rRNA序列也同样适用 (图6)。
图4. Meta-Apo显著减少了数据集1中WGS和16S扩增子配对样本之间的功能谱的距离 A. WGS:16S扩增子配对样本之间的Bray-Curtis距离 (未校正,橙色条) 高于WGS体内位点距离 (来自同一部位的WGS样本之间的距离,蓝色条)。B. 仅使用15个训练对,校正的16S扩增子样本与其配对的WGS样本之间的Bray-Curtis距离变得稳定,且显著低于WGS的组内距离。两个图像共用X轴。通过双尾Wilcox秩和检验计算p值,**表示p < 0.05,***表示p < 0.01。
图5. 数据集1的622个WGS:16S扩增子配对样本的beta多样性 A. 16S扩增子和WGS方法的总体功能模式是同构的,但在PC1和PC2分布上存在明显差异。B. 由WGS和16S扩增子计算的Bray-Curtis距离高度相关 (Pearson相关R = 0.86,p < 0.01)。C. Meta-Apo使用15个配对样本进行训练,将16S扩增子样本的预测功能谱与WGS样本的预测功能谱进行比对,从而使校正的功能谱的PC1和PC2比原始的未校正的16S扩增子样品更接近WGS样品。D. WGS:16S扩增子对的ΔPC显著降低。PCoA使用Bray-Curtis距离计算主坐标。通过双尾配对的Wilcox秩和检验计算p值,***表示p < 0.01。
图6. 数据集2的295个WGS:16S扩增子配对样本的beta多样性 A. 16S扩增子和WGS方法的总体功能模式是同构的,但在PC1和PC2分布上存在明显差异。B. 由WGS和16S扩增子计算的Bray-Curtis距离高度相关 (Pearson相关R = 0.90,p < 0.01)。C. Meta-Apo使用15个配对样本进行训练,将16S扩增子样本的预测功能谱与WGS样本的预测功能谱进行比对,从而使校正的功能谱的PC1和PC2比原始的未校正的16S扩增子样品更接近WGS样品。通过双尾配对的Wilcox秩和检验计算p值,***表示p < 0.01。
我们进一步将Meta-Apo样本扩展至5,350 个V3-V5 16S rRNA扩增子样本和与2,354 个WGS样本 (数据集3,同数据集1一样从四个身体部位收集,并使用相同的方法处理序列;表4),从而评估大规模16S扩增子功能图谱的校正性能。该数据集尽管是来自于相同的健康宿主队列,并由同一研究进行测序 (HMP),但WGS和16S扩增子样品并未配对。另外我们发现,无论选择何种测序策略 (Rausch et al., 2019),由WGS和16S扩增子所得出的物种结构组成是一致的,但在功能图谱上则有显著差异 (图7A;PC1双尾Wilcox秩和检验p < 0.01;PC2双尾Wilcox秩和检验p < 0.01)。例如,在功能图谱上,肠道部位的16S扩增子与口腔中WGS聚类在一起,口腔等相同部位的样本会按照不同的测序策略分离,即身体部位在人类微生物组的功能格局中占主导地位 (Turnbaugh et al., 2009; Huttenhower et al., 2012)。之后,我们使用Meta-Apo,利用数据集1的WGS:16S扩增子对做训练样本 (训练样本N = 15) 构建的模型,对所有扩增子样本的预测功能图谱进行校正。经β多样性的分析证明,Meta-Apo校正后的16S扩增子和WGS样本之间功能谱的偏差大大降低 (图7B; PC1双尾Wilcox秩和检验p = 0.20;PC2双尾Wilcox秩和检验p = 0.03)。
接下来,为了测试对不同可变区16S数据集的校正效果,我们也将Meta-Apo应用于表4中数据集4的2,186个V1-V3区16S扩增子样本。使用数据集2的WGS:16S扩增子对做训练样本 (训练样本N = 15) 来构建的模型,Meta-Apo也可以有效地提高16S扩增子的功能谱重建的准确性 (图8)。因此,Meta-Apo普遍适用于16S rRNA基因的多个可变区域。
图7. 来自数据集3的2,354个WGS样本和5,350个16S扩增子样本的功能beta多样性 A.16S扩增子和WGS方法获得的功能模式在PC1和PC2分布上有显著差异。B. Meta-Apo使用15个配对样本进行训练,将扩增子样本的预测功能图谱与WGS样本的预测功能图谱进行比较,与原始的未经校正的扩增子样品相比,校正后的扩增子样本的功能谱的PC1和PC2更接近WGS样本。PCoA使用Bray-Curtis距离计算主坐标。通过双尾Wilcox秩和检验计算p值,***表示p <0.01。
图8. 来自数据集4的2,045个WGS样本和2,186个16S扩增子样本的功能beta多样性 A.16S扩增子和WGS方法获得的功能模式在PC1和PC2分布上有显著差异。B. Meta-Apo使用15个配对样本进行训练,将扩增子样本的预测功能图谱与WGS样本的预测功能图进行比较,与原始的未经校正的扩增子样品相比,校正后的扩增子样本的功能谱的PC1和PC2更接近WGS样本。PCoA使用Bray-Curtis距离计算主坐标。通过双尾Wilcox秩和检验计算p值,***表示p <0.01。
失败经验
问题1
安装提示:"make: g++: command not found"
问题原因:没有安装Meta-Apo所需要的g++编译器。
解决方法:根据不同的操作系统,利用相应的命令安装 g++,常见的操作系统:
Ubuntu Linux系统:sudo apt-get install g++
CentOS Linux系统:sudo yum install g++
Mac OS 系统:通过App Store安装Xcode应用程序
问题2
运行提示:"Please set the environment variable MetaApo to the directory"
问题原因:环境变量设置失败。
解决方法:请参考实验步骤 1.2.2 中手动配置环境变量的方法将 Meta-Apo 所需要的环境变量添加到配置文件中。
问题3
运行提示:"meta-apo-train: command not found"
问题原因:环境变量设置失败。
解决方法:请参考实验步骤 1.2.2 中手动配置环境变量的方法将 Meta-Apo 所需要的环境变量添加到配置文件中。
问题4
运行提示:"Error: Cannot open file: XXX"
问题原因:输入了错误的输入/输出文件路径。
解决方案:请检查正确的输入文件路径 (可在输入时用Tab 键自动补全),并确保用户在输出路径下有足够的写权限。
问题5
运行提示:"Argument #X Error : Arguments must start with -"
问题原因:运行命令中所有参数选项名称必须以"-"开头。
解决方法:请检查第 X 个参数并更正。
致谢
本项工作得到了国家自然科学基金31771463、32070086和32000389项目,以及山东省自然科学基ZR201807060158项目的资助。
参考文献
- Douglas, G. M., Maffei, V. J., Zaneveld, J. R., Yurgel, S. N., Brown, J. R., Taylor, C. M., Huttenhower, C. and Langille, M. G. I. (2020). PICRUSt2 for prediction of metagenome functions. Nat Biotechnol 38: 685–688.
- Franzosa, E. A., Mciver, L. J., Rahnavard, G., Thompson, L. R., Schirmer, M., Weingart, G., Lipson, K. S., Knight, R., Caporaso, J. G. and Segata, N. (2018). Species-level functional profiling of metagenomes and metatranscriptomes. Nat Methods 15: 962–968.
- Huttenhower, C., Gevers, D., Knight, R., Abubucker, S. and White, O. (2012). The Human Microbiome Project (HMP) Consortium. Structure, function and diversity of the healthy human microbiome. Nature 486(7402): 207–214.
- Jing, G., Zhang, Y., Cui, W., Liu, L. and Su, X. (2021). Meta-Apo improves accuracy of 16S-amplicon-based prediction of microbiome function. BMC Genomics 22(1): 9.
- Kanehisa, M., Goto, S., Sato, Y., Furumichi, M. and Tanabe, M. (2011). KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 40(D1): D109-D114.
- Rausch, P., Rühlemann, M., Hermes, B. M., Doms, S. and Baines, J. F. (2019). Comparative analysis of amplicon and metagenomic sequencing methods reveals key features in the evolution of animal metaorganisms. Microbiome 7(1): 133.
- Turnbaugh, P. J., Hamady, M., Yatsunenko, T., Cantarel, B. L., Duncan, A., Ley, R. E., Sogin, M. L., Jones, W. J., Roe, B. A. and Affourtit, J. P. (2009). A core gut microbiome in obese and lean twins. Nature 457(7228): 480.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:张明乾, 张文科, 荆功超, 苏晓泉. (2021). 使用Meta-Apo对16S扩增子的微生物组功能信息进行校正. // 微生物组实验手册.
Bio-101: e2104023. DOI:
10.21769/BioProtoc.2104023.
How to cite: Zhang, M. Q., Zhang, W. K., Jing, G. C. and Su, X. Q. (2021). Calibration of 16S-amplicon-based microbiome function by Meta-Apo. // Microbiome Protocols eBook.
Bio-101: e2104023. DOI:
10.21769/BioProtoc.2104023.