食品科学 | 公共卫生学院王慧团队发表特约综述“营养大模型的技术架构、应用进展与未来挑战”-上海交通大学医学院-新闻网

浦东校区：上海市半夏路1号　黄浦校区：上海市重庆南路227号
电话：021-63846590

食品科学 | 公共卫生学院王慧团队发表特约综述“营养大模型的技术架构、应用进展与未来挑战”

2026-03-05	浏览（）	来源：公共卫生学院
		撰稿：
		摄影：

营养信息学正由传统基于规则与常规机器学习范式，迈向以大语言模型(large language model，LLM）与多模态大模型（multimodal large language models，MLLM）为核心的新阶段。近日，上海交通大学公共卫生学院王慧团队在中文核心期刊《食品科学》上发表了题为《营养大模型的技术架构、应用进展与未来挑战》的特约综述。本文系统综述了2019–2025年间营养大模型领域的研究进展，归纳了视觉-语言对齐、领域知识注入、检索增强生成（retrieval-augmented generation，RAG）及可解释推理等关键架构与训练技术。在此基础上，本文详细梳理了模型在个性化膳食推荐、营养状态评估、疾病营养管理及膳食自动化记录等典型场景的应用现状。此外，本文总结了Nutrition5k、NutriBench等核心数据集与评测基准的演变历程。最后，针对模型可信度、数据隐私、跨文化泛化及临床循证支持等挑战，本文提出未来研究应深度融合临床证据，构建高质量多模态数据体系，并推进人机协同的精准营养服务落地，以提升临床转化价值。

营养信息学（nutrition informatics，NI）是利用信息技术与数据驱动方法解决营养健康问题的交叉学科领域。在传统范式下，营养研究主要依赖人工饮食记录与实验室生化分析。过去十年，大数据与人工智能（artificial intelligence，AI）技术的飞速发展为营养信息学注入了新的活力。近年来，人工智能领域迎来了以大语言模型（large language model，LLM）为核心的新范式。

本文系统综述了2019–2025年间营养大模型领域的研究进展，涵盖技术架构、应用实践、数据资源及估体系等核心维度。本综述共深度分析了92篇领域内的高质量文献，并做了相应的统计分析。首先，介绍营养信息学的发展背景以及大模型范式兴起的驱动因素，并梳理传统方法与早期深度学习的应用局限；其次，详尽剖析营养大模型的技术架构分类与核心组件，归纳其主流应用场景与典型技术案例；随后，介绍该领域的核心数据集与统一评估基准，并总结模型性能的评价指标体系；最后，针对当前面临的技术瓶颈与伦理挑战进行讨论，并展望未来研究方向。

纵观2019–2025年的相关研究（图1），可以发现一些显著的趋势。首先，研究主题上涵盖了从膳食图像识别、营养成分估算，到个性化营养推荐、慢性病膳食管理等多个方面。图像处理和多模态营养估算始终是核心热点，占据将近一半的文献比例。与此同时，个性化营养（如结合个体基因、代谢信息进行饮食调控）也是重要方向，反映了精准医疗的大趋势。另外，大模型技术自2023年爆发后，其应用迅速渗透到营养领域的各个角落，包括构建营养对话系统、辅助营养教育、优化食谱生成等。

“营养”“膳食”“个性化”“多模态”“LLM”等是近年来文献中高频出现的词汇，体现了研究的关注焦点（图2）。可以预见，随着研究的深入，这些热点主题将继续发展，并产生更多交叉融合的新课题。

营养领域的大模型架构可按技术范式分为三类（图3）：（a）基于计算机视觉的多模态感知模型，即以图像分析为核心，整合文本等多源模态信息的架构；（b）以LLM为核心的智慧系统，侧重于处理营养文本理解、交互式问答与逻辑决策；（c）融合传统机器学习与领域知识的个性化模型，包括利用临床数据、知识图谱构建的混合驱动范式。根据92篇核心文献的统计显示，计算机视觉与多模态感知方向的研究最为活跃（占比46.7%），LLM及其系统集成研究占比29.3%，其余23.9%属于个性化营养与常规机器学习范畴（图3）。这一分布表明，视觉感知能力仍是营养AI的基础，而具备复杂推理能力的LLM正成为前沿趋势。在具体架构层面，研究广泛涵盖了改进型CNN（主要用于图像任务）、视觉与语言协同Transformer（用于序列建模和跨模态对齐）、图神经网络（用于营养知识图谱推理）以融合多种子模块的复杂系统架构。

表1对比了2020–2025年间具有代表性的营养AI系统及其核心特征，并展示了早期以计算机视觉为主的膳食评估模型（goFOOD™、Nutrition5k），以及近期融合LLM、多模态、知识图谱的新型系统（CalorieLLaVA、HealthGenie、RAG-based等）。从中可以看出，不同系统在架构类型、输入模态、主要功能任务等方面各具特色。从表1的对比中还可以发现几个值得关注的共性趋势：其一，目前多数系统尚缺乏严格的临床验证，列举的7个系统更多停留在离线实验、用户研究或技术验证阶段；其二，实时性和多模态能力在新近系统中已成为标配，说明营养AI应用正朝着即时交互和数据多源融合方向发展；其三，可解释性和知识融合逐渐受到重视，2025年的几个系统通过引入知识图谱、RAG等方式提高了模型决策的透明度和可信度。

营养大模型的最终价值在于其落地应用的实际成效。学术界的研究应用主要聚焦于前后协同的四大研究领域：自动化食物识别与记录、膳食成分分析与营养评估、个性化精准营养推荐及临床疾病营养干预。其中，营养评估领域进一步细分为饮食评估与追踪等具体研究方向，而个性化精准营养推荐则包括了食谱与餐食规划等细化的应用场景。图4展示了各应用场景相关研究在该领域的文献占比分布。

对于营养AI模型的性能评估，需要针对不同任务采用相应指标和基准。对于食物分类任务，常用指标为Top-1准确率、Top-5准确率等；对于营养成分回归任务，则采用均方误差（MSE）、平均绝对百分比误差（MAPE）等衡量模型对热量、营养素的预测精度；在膳食模式分析中，则可能使用饮食质量评分（如Healthy Eating Index）或与健康结局的相关性作为评价标准（表2）。不同模型各有所长，目前尚不存在“通吃”所有营养任务的单一模型。这也正是本领域有趣和复杂之处：研究者需要针对具体问题选择或打造最合适的模型，并不断以数据为驱动进行改进迭代。

尽管营养大模型取得了令人瞩目的进展，但要实现其在真实世界的广泛应用，仍有诸多挑战亟待解决，同时也孕育着新的研究机会。首先，营养干预直接关系个体健康结局，因此模型输出的可靠性与可解释性至关重要。其次，个性化营养不可避免地涉及个人的健康数据（如疾病史、基因信息）和日常生活数据（如饮食习惯、地理位置），在收集和利用这些数据训练大模型时，必须严格保护用户隐私。第三，全球饮食文化具有极强的地域特异性与多样性，这要求大模型具备卓越的跨文化泛化能力。这对大模型提出了跨文化适应的要求。第四，目前绝大多数营养大模型研究仍停留在实验室或原型验证阶段，真正进入临床或大众市场的并不多，其中一个原因是缺乏严格的临床验证。最后，面向未来，营养AI有望与更多新技术结合，催生新的研究方向，包括多组学与营养的融合、强化学习在饮食行为干预中的应用、数字孪生与虚拟试验，等等。

展望未来，我们认为营养大模型的研究与应用应着重把握以下几点。首先，以人为本，强化解释。营养干预关系到行为改变和长期依从，模型应能输出让用户易于理解和信服的建议，这需要融合人因研究和提高模型的可解释性。其次，多学科融合，确保安全。营养学、大数据、临床医学、伦理学等领域专家应加强协作，从数据采集、模型训练到结果解读各环节共同把关，确保AI建议科学有效并符合伦理规范。第三，建立标准，验证实效。建议制定营养AI模型的评价标准和指南，开展多中心的临床试验评估其健康效益，以获得监管机构和医疗界的认可。最后，关注弱势与多样群体。应确保模型对不同文化、不同健康状况的人群均适用，避免“算法鸿沟”，真正实现营养干预的普惠。