2月4日,国际学术期刊Biosafety and Health在线发表了中国科学院上海营养与健康研究所生物医学大数据中心张国庆研究员团队与上海交通大学医学院王颖教授团队的合作论文“MTB-ImmunogenKG: An LLM-assisted knowledge graph for antigen selection in tuberculosis vaccine research”。研究团队开发了一种大模型辅助知识图谱系统——MTB-ImmunogenKG,基于PubMed收录的超过7.7万篇结核分枝杆菌相关文献,不仅能够进行基于知识增强的抗原保护效力预测,还可系统构建具有证据溯源能力与矛盾识别功能的抗原全景档案,为新一代结核病疫苗的理性设计与抗原优选提供透明可信的决策支持工具。
结核病(tuberculosis, TB)由结核分枝杆菌感染引起,至今仍是全球负担最重的传染病之一。具有百年历史的BCG疫苗虽能在一定程度上预防婴幼儿重症结核,但对成人肺结核的保护效力有限,攻克结核病仍依赖新一代疫苗的研发。在新疫苗的研发中,核心挑战在于从约4000个结核分枝杆菌蛋白中筛选出真正具有保护性的抗原。然而相关免疫学证据高度碎片化,分散在海量文献中,难以形成系统、可审计的证据基础。现有计算方法多依赖序列或结构特征,难以回答哪些抗原值得优先验证;直接依托大语言模型又面临事实准确性和可追溯性不足的限制。如何在保证可靠与可追溯的前提下,将分散文献证据整合为面向抗原优选的结构化知识体系,成为当前结核疫苗研发亟待解决的关键挑战。
针对这一问题,研究团队构建了抗原中心化知识图谱MTB-ImmunogenKG,通过大模型驱动的信息抽取流程与知识增强推理,将文献证据转化为可计算、可审计的知识结构,实现面向抗原筛选的理性决策支持。利用涵盖逾148万条句子级证据进行评估,MTB-ImmunogenKG在预测抗原保护效力方面显著优于传统的序列分析工具(MCC提升0.19)及单纯大模型基线(MCC提升0.45),并能对抗原的免疫原性证据进行矛盾检测与整合。模型覆盖3,154种MTB蛋白质(约占全基因组注释蛋白的77%),展示了其在抗原全景刻画方面的广度。
在具体应用层面,该系统能够精准解析抗原在不同研究中的免疫反应差异,识别文献中潜在的对立观点,并提示其在不同实验条件下可能产生截然不同的免疫结局。同时,通过基于知识模式的过滤策略,框架可有效聚合抗原协同作用与佐剂搭配信息,揭示不同抗原组合的潜在保护效力。
MTB-ImmunogenKG为结核病疫苗的抗原筛选提供了透明、可信的决策支持工具,也从证据链角度帮助研究人员更直观地理解复杂的免疫反应。而随着生物医学文献的指数级增长与大模型技术的不断发展,“知识图谱+大模型”的方法范式有望把分散在文献中的证据系统整合起来,支持更理性的抗原筛选,从而优化疫苗实验设计流程,为加速新型结核病疫苗研发、应对全球公共卫生挑战提供重要的数据支撑。
中国科学院上海营养与健康研究所生物医学大数据中心张国庆研究员、高级工程师凌鋆超、上海交通大学医学院王颖教授为论文共同通讯作者;营养与健康所博士研究生彭杰龙、庄心昊为论文共同作者。该研究得到了科技部国家重点研发计划、上海市科技创新行动计划、广州国家实验室研发计划等项目的资助。
论文链接:https://doi.org/10.1016/j.bsheal.2026.02.001

图:MTB-ImmunogenKG示意图
推送单元:张国庆研究组、生物医学大数据中心、科技规划与任务处