摘要:来自不同环境的微生物组样本的数量正在迅速增长,随之而来的问题也不断涌现,例如如何快速的找到具有某种群落结构和功能的数据集,以及通过对比发现新的微生物组与现有样本之间的关联等。Microbiome Search Engine 2 (以下简称MSE 2) 是第二代的微生物组搜索引擎,为解决以上类型的问题提供良好的解决方案。MSE 2可以根据某个微生物组整体的物种结构或功能特征,在全球已有的微生物组数据集中搜索与其高度匹配的样本。MSE 2由以下三部分组成:(i) 不断更新的微生物组数据库。该数据库目前包含来自于819项研究的266,000多个宏基因组和16S rRNA扩增子样本,每一个样本的测序数据和元数据 (metadata) 都进行了统一化处理;(ii) 增强的搜索引擎。实时级快速搜索,能够在0.5秒内,从整个数据库中搜索到与给定的微生物组在整体物种或功能组成上最相似的样本;(iii) 基于Web的图形界面。用户可通过http://mse.ac.cn免费访问MSE 2。该网站提供了简单易用的图形界面,方便用户快速上手样本搜索、数据浏览等操作,同时也为自定义的搜索提供了教程。
关键词: 扩增子, 宏基因组, 微生物组, 在线服务, 搜索引擎
材料与试剂
本研究不涉及传统试剂耗材。
仪器设备
连接互联网的个人电脑。
软件
MSE 2 (Jing et al., 2021) 为web端软件,采用浏览器访问使用。建议使用Firefox、Chrome或Microsoft Edge浏览器。微生物组测序序列数据的预处理,根据测序序列类型和搜索模式,处理软件详见表1。
实验步骤
- 微生物组测序序列数据预处理
MSE 2可以从群落物种组成和功能组成两个角度进行搜索,兼容16S rRNA基因扩增子 (以下简称16S扩增子) 测序数据和鸟枪法宏基因组测序 (Shotgun Metagenomic Whole Genome Sequencing;以下简称WGS) 数据。搜索之前需要将测序序列按照相应的序列类型和搜索类型进行预处理,使之具有与数据库样本相同的分析标准和数据形式。微生物组样本需以OTU (Operational Taxonomy Unit)、物种 (species) 或KO (KEGG Orthology) 功能注释作为搜索输入。不同测序类型、不同搜索角度的输入格式及推荐的处理软件如表1所示:
表1. 不同测序类型、不同搜索角度的输入格式对应关系
测序类型 | 按物种组成搜索 | 按功能组成搜索 |
16S扩增子 | 搜索输入格式: | OTU (表2) | KO (表3) |
推荐的序列处理软件: | Parallel-Meta 3 (Jing et al., 2017) 详见实验步骤1.1 | Parallel-Meta 3 (Jing et al., 2017) 详见实验步骤1.2 |
WGS | 搜索输入格式: | 物种 (表4) | KO (表3) |
推荐的序列处理软件: | MetaPhlAn 2 (Tin et al., 2015) 详见实验步骤1.3 | HUMAnN 2 (Franzosa et al., 2018)详见实验步骤1.4 |
- 数据库搜索
- 数据库浏览与下载
MSE 2网站提供了两种样本浏览方式:
按项目/研究浏览。在项目列表页面,样本按照项目进行排列,所有的项目会按照项目ID进行排序。单击项目ID可以进入项目页面,该页面包含每个项目的统一化元数据 (例如,研究标题、样本数量、发表情况等)、该项目的完整原始元数据,以及访问该数据原始发布页的链接。
按样本浏览。在样本列表页面中,所有的样本会以列表的形式展示并按照样本号进行排序。用户可以对样本列表进行筛选,目前支持的筛选条件有元数据过滤器、环境、序列类型、采样年份等。单击样本ID可以进入样本页面,可以查看其详细的统一化元数据 (例如,来源研究、采样地点、序列类型等) 和由Krona绘制的动态物种组成图。
MSE 2数据库会保持动态更新。在MSE 2网站的"About & Download"页面中,所有样本统一的元数据可以在"Database Information"栏目下载。与此同时,单机版的MSE 2搜索引擎内核软件也可以在"Download"栏目下载,从而实现本地化的数据库构建与搜索。该软件能够以独立软件的形式安装使用,也能够以QIIME2插件的形式使用。
结果与分析
以OTU搜索为例,将预处理中得到的classificatioin.txt文件 (格式见表2) 作为输入。范例该文件可以从实验步骤2.5a中下载。得到输出结果如图2所示:
图2. MSE 2的"Search by OTU"搜索结果 A. 搜索匹配结果列表;B. 搜索样本与匹配结果结构对比图;C. 搜索样本来源环境预测结果
- 搜索匹配结果列表
如图2A所示,其中:第一列为匹配样本的数据库样本ID,点击后可查看详细的元数据;第二列为匹配样本的来源类型;第三列为匹配样本的来源环境;第四列为搜索输入样本与匹配样本的相似度,OTU搜索采用Meta-Storms相似度 (Su et al., 2012),物种搜索采用Dynamic Meta-Storms相似度 (Jing et al., 2020),KO功能搜索采用Bray-Curtis相似度。
- 搜索样本与匹配结果结构对比图
如图2B所示,该柱状图展示了门 (Phylum) 层次上输入样本与匹配样本的相对丰度的差异。点击下方"View the detailed taxonomy"按钮可以查看更多层次上的对比。
- 搜索样本来源环境预测结果
图2C为根据匹配结果的来源环境及相似度 (即图2A中内容) 对搜索样本的环境预测结果以及概率。
- 搜索结果下载
点击图2A中"Download results"链接可下载以上搜索结果的压缩包,其中:
a. query.out,文本文件,包含图2A中匹配样本的ID及相似度。
b. Query_sample.png,png格式的图,为图2B中柱状图。
c. Query_sample.phylum.Abd ,文本文件,为图2B的门层次的丰度信息。
d. Query_sample.OTU.Abd ,文本文件,为图2B所对应的OTU层次的丰度信息。
e. multi-view,文件夹,其中的"taxonomy.html"网页文件为搜索样本和其匹配结果在所有taxonomy分类层次的展示,其他文件为显示辅助文件。
其他类型的搜索结果与OTU搜索基本一致。需要注意的是,KO功能搜索 (Search by function) 的搜索结果中,图2B展示的为KO BRITE Level 2层次上的代谢通路的差异,其结果的下载包中不包含multi-view文件夹。
- 搜索匹配结果的详细信息
搜索匹配结果图2A中,每个样品的ID均链接到其样本页面,可以查看其详细的元数据 (例如,来源研究、采样地点、序列类型等)。此外,在该样本页面点击项目ID可进入项目页面,也可以通过点击"Download raw metadata"链接下载该项目的完整原始元数据。
失败经验
常见问题:No-Hit。
问题原因:输入数据格式错误,或者最低相似度阈值太高。
解决方法:
a. 根据待搜索样本类型和搜索类型,按照表1检查预处理方法和输入格式。
b. 根据实验步骤中2.4b,降低"最低相似度"。
致谢
感谢中国科学院青岛生物能源与过程研究所乔英合工程师对服务器的管理和硬件维护。该工作得到了国家自然科学基金31771463、32070086的资助。
参考文献
- Franzosa, E. A., Mciver, L. J., Rahnavard, G., Thompson, L. R., Schirmer, M., Weingart, G., Lipson, K. S., Knight, R., Caporaso, J. G., Segata, N. and Huttenhower, C. (2018). Species-level functional profiling of metagenomes and metatranscriptomes. Nat Methods 15: 962-968.
- Jing, G., Liu, L., Wang, Z., Zhang, Y., Qian, L., Gao, C., Zhang, M., Li, M., Zhang, Z., Liu, X., Xu, J. and Su, X. (2021). Microbiome search engine 2: a platform for taxonomic and functional search of global microbiomes on the whole-microbiome level. mSystems 6(1): e00943-00920.
- Jing, G., Sun, Z., Wang, H., Gong, Y., Huang, S., Ning, K., Xu, J. and Su, X. (2017). Parallel-META 3: Comprehensive taxonomical and functional analysis platform for efficient comparison of microbial communities. Sci Rep 7: 40371.
- Jing, G., Zhang, Y., Ming, Y., Liu, L., Xu, J. and Su, X. (2020). Dynamic Meta-Storms enables comprehensive taxonomic and phylogenetic comparison of shotgun metagenomes at the species level. Bioinformatics 36: 2308–2310.
- McDonald, D., Price, M. N., Goodrich, J., Nawrocki, E. P., DeSantis, T. Z., Probst, A., Andersen, G. L., Knight, R. and Hugenholtz, P. (2012). An improved Greengenes taxonomy with explicit ranks for ecological and evolutionary analyses of bacteria and archaea. ISME J 6: 610–618.
- Su, X., Xu, J. and Ning, K. (2012). Meta-Storms: efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data. Bioinformatics 28: 2493-2501.
- Truong, T. D., Franzosa, E. A., Tickle, T. L., Scholz, M., Weingart, G., Pasolli, E., Tett, A., Huttenhower, C. and Segata, N. (2015). MetaPhlAn2 for enhanced metagenomic taxonomic profiling. Nat methods 12: 902-903.
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:赵丰洋, 李坚, 荆功超, 苏晓泉. (2021). 全球微生物组整体结构和功能的搜索. // 微生物组实验手册.
Bio-101: e2104024. DOI:
10.21769/BioProtoc.2104024.
How to cite: Zhao, F. Y., Li, J., Jing, G. C. and Su, X. Q. (2021). Taxonomic and Functional Search of Global Microbiomes on the Whole-Microbiome Level. // Microbiome Protocols eBook.
Bio-101: e2104024. DOI:
10.21769/BioProtoc.2104024.