您当前的位置：首页 > 科技

基于肠道微生物组的机器学习分类器对20种疾病的跨队列分类性能

2023-05-08 08:19:48 来源：

　　人体肠道微生物与疾病密切相关，肠道微生物组已越来越多地用作非侵入性疾病预筛查的生物标志物和疾病干预的目标。然而，由于肠道微生物组会受到许多因素的显着影响，因此关于不同队列中肠道菌群失调的可重复性存在争议。

　　近期有国内团队在《Gut Microbes》发表了一项研究，系统地评估了基于肠道微生物组的机器学习分类器对20种疾病的跨队列分类性能。

　　研究人员从GMrepo v2数据库中筛选了总共361项研究，包括16S和宏基因组数据(图1a)。经过筛选，最后，从69项研究中获得83个队列，共包含 5,984 个病例和 3,724 个非疾病对照，这些队列包括 20 种疾病(图1b)：包括肠易激综合症(IBS)、CDI、AD、轻度认知障碍(MCI)、慢性疲劳综合症(CFS)、多发性硬化症(MS)、幼年型关节炎(JA)、非酒精性脂肪肝(NAFLD)，炎症性肠炎(IBD)、肥胖、超重和强直性脊柱炎 (AS) 和腺瘤，克罗恩病 (CD)、结直肠癌 (CRC)、溃疡性结肠炎 (UC)、T2D、帕金森病 (PD)、自闭症(ASD) 和类风湿性关节炎 (RA)。

图1. 研究设计、数据集信息和队列内验证结果

　　对相同疾病和数据类型的数据集用Lasso建模，并且做交叉队列(外部)验证，而相同疾病的模型结果受队列大小(n)的影响。首先，所有 n≥2 的疾病都通过队列内建模(即构建单队列分类器)。其次，仅对 n≥3 的疾病进行留一数据集 (leave-one-dataset out，LODO) 分析。第三，只有 n≥5 的疾病通过队列累积模型 ( cohort-cumulation modeling，CCM) 和样本累积模型 (sample-cumulation modeling，SCM) 分析(通过组合从 LODO 训练数据集中随机选择的越来越多的样本作为训练数据，然后在相同疾病的剩余队列上测试生成的分类器)。

　　首先，为83个队列构建了120个分类器，AUC平均值为0.77。当根据 NCBI MeSH 数据库将疾病分为五类时，观察到五类之间没有显着差异，即肠道、代谢、精神、自身免疫和肝脏疾病(图1d)。然而，肠道疾病显示最高平均队列内验证 AUC 为 0.811，而代谢疾病显示最低(0.692;图1d)。

　　通过队列内建模获得了总共330个外部验证 AUC，并观察到与队列内验证相比，验证性能显着降低，平均 AUC 为 0.64(图1f)，在所有疾病类别中都可以发现下降(图1g)。肠道疾病单队列分类器的交叉队列验证 AUC 明显优于其他四种疾病类别(图 2a)。

图2. 不同疾病类别和数据类型下外部验证与队列内建模的比较

　　肠道疾病中的高外部AUC可能是由于患病部位与肠道微生物群之间的直接相互作用。例如，CRC(大肠癌)、CD(克罗恩病)、IBD(炎症性肠炎)往往与肠道的生理/病理变化相关，会对肠道菌群产生直接而显着的影响。因此，它们主导了对其他生物和技术因素的影响，并促进了跨队列验证。上述结果表明将单队列ML分类器应用于独立队列通常会导致预测性能显着下降。此外，疾病类别是可重现的基于肠道微生物组的疾病分类器的关键决定因素。

　　在单队列分类器的外部验证分析中，观察到基于宏基因组的分类器的性能明显高于基于 16S 的分类器(图2b)。这些结果意味着数据类型也可能是跨队列验证的决定性因素。

　　为了克服单一队列分类器的局限性，通过汇集来自多个队列的样本进行了三个联合队列分析，以进行训练并在独立队列中进行验证(如上所述，图 1a)。结果显示，肠道和非肠道疾病的外部AUC中位数都有所增加，其中，后者增加显著(图4a)。对每种非肠道疾病的仔细检查表明，LODO分析增加了除RA之外的，所有疾病(T2D、AD、PD、ASD 和 NAFLD)的外部验证 AUC 中位数(图4b)。

图4. LODO 和 Cohort-Cumulation建模中外部验证的改进

　　上述结果表明，将来自多个队列的样本组合为训练数据，即联合队列分析，确实提高了外部验证的预测性能，尤其是对于非肠道疾病。

　　为了量化跨队列标记的一致性，作者创建了一个标记物相似性指数 (MSI)，该指数由来自两个队列(方法)的生物标记的线性判别分析 (LDA) 分数之间调整后的欧几里德距离定义。较高(较低)的 MSI 分数表示较高(较低)的跨队列标记一致性。中值MSI分数与疾病的外部验证 AUC 显着正相关(图5a)。与建模分析一致，肠道疾病的MSI显着高于其他三种疾病类别(图5b);此外，物种水平的 MSI 显着高于属水平(图5c)。此外，还观察到在联合队列分析下组织数据集时 MSI 分数显着增加(图 5d，e)。

图5. 外部验证结果与标记相似性指数 (MSI) 结果之间的关联

　　总结在这项研究中，研究人员全面评估了肠道微生物组作为 20 种疾病的 83 个疾病控制队列中的诊断预筛查工具的可重复性。使用肠道微生物的种级和/或属级分类学相对丰度构建了机器学习分类器，并对每种疾病进行了队列内、跨队列和联合队列预测验证。并专注于外部验证，即在独立队列中应用分类器，并确定了三个重要的影响因素(即决定因素)，即疾病类别、数据类型和样本量。首先，除肠道疾病外的所有单队列分类器在交叉队列验证分析中均未能准确预测疾病，平均AUC为0.64(肠道疾病为0.73，非肠道疾病为0.54)。其次，已知比16S扩增子数据提供更高分类分辨率的宏基因组数据可以显着提高外部验证性能，但仅限于肠道疾病。最后，使用更多的样本作为训练数据，例如，通过汇集来自多个队列的样本，可以显着提高所得分类器在外部验证中的预测性能，尤其是对于非肠道疾病。还分析了相同疾病队列中疾病生物标志物的一致性，发现基本相同的趋势(即除肠道疾病外，队列中的标志物一般不一致)和决定因素(即疾病类别和样本量) 。总的来说，这项研究的结果支持使用肠道微生物组作为独立的、跨队列的诊断工具，仅用于少数肠道疾病。

　　参考文献：Li, Min et al. Performance of Gut Microbiome as an Independent Diagnostic Tool for 20 Diseases: Cross-Cohort Validation of Machine-Learning Classifiers. Gut Microbes. vol. 15,1 (2023): 2205386. doi:10.1080/19490976.2023.2205386

1、凡本网注明“来源：中国保健营养网” 的所有作品，版权均属于中国保健营养网，未经本网授权，任何单位及个人不得转载、摘编或以其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：中国保健营养网”。违反上述声明者，本网将追究其相关法律责任。

2、凡本网注明 “来源：XXX（非中国保健营养网）” 的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，相关图文版权归原作者所有。

3、有关作品版权事宜请联系电话：010-64201955 邮箱：cncare2008@126.com。

返回网站首页>>