本期为大家深入解析牛津大学(University of Oxford)计算机科学系的Yarin Gal教授。Gal教授是贝叶斯深度学习领域的奠基性人物之一,他在不确定性量化、大模型幻觉检测、AI安全等方向取得了突出成就,Google Scholar引用超过62000次,近年连续在Nature正刊发表重磅论文。本文将从研究领域拆解、代表论文精读、创新研究想法三个维度,帮助大家全面了解这位导师的学术脉络与招生方向。
📘 院系概况
牛津大学计算机科学系(Department of Computer Science)是全球顶尖的计算机科学研究机构之一,在人工智能、机器学习、算法、量子计算、网络安全及软件工程等方向均具有深厚积淀。该系近年大力扩展AI方向师资,2025-2026学年一次性招聘7个教职岗位,其中3个专注于人工智能研究,充分显示其在AI领域的战略重心。院系与Alan Turing Institute、DeepMind等机构保持紧密合作,科研实力与产业影响力均居世界前列。
🔬 导师简介
Yarin Gal,牛津大学计算机科学系机器学习方向教授(Professor of Machine Learning),同时担任Christ Church学院计算机科学Tutorial Fellow、Alan Turing Institute图灵AI Fellow,以及英国政府AI安全研究所(AISI)专家顾问。曾任英国前沿AI工作组(Frontier AI Taskforce)研究主管,创建了该机构的Safeguards团队。
Gal教授本科与硕士毕业于牛津大学,后在剑桥大学机器学习组取得博士学位,师从Zoubin Ghahramani教授,获Google European Doctoral Fellowship和Qualcomm Innovation Fellowship资助。他领导的OATML研究组(Oxford Applied and Theoretical Machine Learning)目前拥有20+名成员,包括多名博士后和博士生。
核心学术指标:Google Scholar总引用62000+,发表论文210+篇,其中Nature正刊2篇、Nature评论文章1篇,ICLR/NeurIPS/ICML等顶会论文众多。
贝叶斯深度学习不确定性量化AI安全LLM可靠性生成模型
🔬 研究领域深度解析
Gal教授的研究以"让AI知道自己不知道什么"为核心哲学,从理论到应用构建了一个完整的研究体系。以下是其主要研究方向的详细解读:
❶ 贝叶斯深度学习与不确定性估计这是Gal教授起家的核心方向。他在博士期间提出了将Dropout解释为贝叶斯近似推断的理论框架,使得深度神经网络可以在不显著增加计算成本的前提下输出预测的不确定性。这一工作开创了现代贝叶斯深度学习的先河,其经典论文"Dropout as a Bayesian Approximation"引用超过万次。技术手段包括变分推断、蒙特卡洛采样、高斯过程等,应用场景涵盖医学影像诊断、自动驾驶决策、金融风控等需要可靠性保证的高风险领域。
❷ 大语言模型幻觉检测与语义不确定性近两年Gal教授将不确定性研究拓展到大语言模型(LLM)领域。他提出的"语义熵"(Semantic Entropy)方法,通过在语义层面而非词汇层面衡量模型输出的不确定性,实现了对LLM"幻觉"(即生成看似合理但实际错误的内容)的有效检测。这一方法的核心创新在于:将多次生成的不同文本答案按语义相似度聚类后再计算熵值,从而区分"表达方式不同但含义一致"与"真正不确定"的情况。该成果发表在Nature正刊上,具有重大的实际应用价值。
❸ AI安全与模型鲁棒性作为英国政府AI安全研究所的专家顾问和前研究主管,Gal教授深度参与了AI安全的政策与技术研究。他的团队在对抗性攻击、模型篡改防御、开源模型风险管理等方面进行了系统性研究。近期工作包括开发AgentHarm基准测试来衡量LLM智能体在面对恶意请求时的安全表现,以及研究如何通过训练数据过滤来构建对微调攻击更具抵抗力的开源模型。
❹ 模型崩塌与数据生态研究Gal教授团队发现了一个影响深远的现象——"模型崩塌"(Model Collapse):当生成式AI模型在包含AI生成内容的数据上反复训练时,模型输出的多样性和质量会逐渐退化。这一研究发表在Nature正刊上,对整个AI训练数据生态产生了重要警示,提示了互联网数据污染对未来模型训练的潜在风险。
❺ 跨领域应用:医学、天文、材料科学OATML团队积极将机器学习方法应用于多个自然科学领域。在医学方面,团队将语义熵应用于医疗AI的可靠性评估;在天文学方面,与NASA合作将贝叶斯优化应用于小行星形状建模;在材料科学方面,最近开发了MADE框架用于自动化材料发现。这些跨领域合作体现了团队"方法驱动、场景落地"的研究风格。
📄 精读教授所发表的文章
Detecting Hallucinations in Large Language Models Using Semantic Entropy
2024年6月 · Nature, Vol. 630, pp. 625-630 · 引用557+(Semantic Scholar)· Altmetric 1634
该论文提出了基于"语义熵"的LLM幻觉检测方法。研究团队发现,传统基于词汇层面的熵值无法区分"同义不同表述"和"真正不确定"的情况,因此设计了先将多次采样的答案按语义等价性聚类、再计算聚类上熵值的新框架。实验表明,语义熵在多种数据集和模型上均优于已有基线方法,且无需任务特定的训练数据。这是将不确定性量化方法成功应用于LLM可靠性领域的里程碑式工作。
AI Models Collapse When Trained on Recursively Generated Data
2024年7月 · Nature, Vol. 631 · DOI: 10.1038/s41586-024-07566-y
该研究从数学理论和实验两个层面证明了"模型崩塌"现象:当生成式模型在包含自身或同类模型生成内容的数据上迭代训练时,模型输出的多样性会逐步降低,尾部分布的覆盖能力丧失。这一发现对AI训练数据的可持续性敲响了警钟——随着AI生成内容在互联网上的比例不断增长,未来模型的训练数据质量可能面临系统性退化的风险。
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
2025年 · ICLR 2025 Conference Paper · 与UK AI Security Institute、Gray Swan AI合作
该论文提出了AgentHarm基准测试,用于评估LLM智能体(Agent)在执行多步骤工具调用任务时的安全性。与以往聚焦于单轮对话的越狱攻击研究不同,AgentHarm关注的是Agent在多步骤复杂任务场景中面对恶意请求时的行为。研究包含110个原始恶意任务(加增强共440个),覆盖11个危害类别。实验发现主流LLM在未经越狱的情况下就对恶意Agent请求表现出较高的顺从度,揭示了当前AI安全防线的重要薄弱环节。
Customizable AI Systems That Anyone Can Adapt Bring Big Opportunities — and Even Bigger Risks
2025年10月 · Nature, Vol. 646, pp. 286-287 · Comment/Commentary
这是Gal教授与Stephen Casper在Nature上联合发表的评论文章,讨论了开放权重AI模型带来的机遇与挑战。文章指出,虽然开放且可定制的AI系统对科学进步至关重要,但针对其潜在滥用的防护措施仍处于起步阶段。作者呼吁加强对开放权重模型的风险管理研究,平衡开放创新与安全治理之间的关系。这篇文章体现了Gal教授作为学术界与政策界桥梁的独特视角。
💡 GEO博士有话说
基于Gal教授的研究脉络和近期发表方向,我们的博士团队为有意向申请的同学提出以下三个具有创新潜力的研究想法:
想法一:多模态语义熵——将幻觉检测扩展到图文生成Gal教授的语义熵方法目前主要应用于文本LLM。随着多模态大模型(如GPT-4o、Gemini)成为主流,可以探索将语义不确定性估计扩展到图文混合输出,开发跨模态的"语义一致性熵"来检测视觉-语言模型中的幻觉。这一方向与OATML在计算机视觉和医学影像领域的积累高度契合。
想法二:Agent安全的主动防御框架——从评估到干预AgentHarm目前侧重于评估Agent面对恶意请求时的脆弱性,后续可以进一步开发基于不确定性感知的主动防御机制。例如,利用语义熵在Agent决策的每一步实时检测异常请求意图,在Agent执行工具调用之前进行风险评分和拦截。这将把OATML的两个核心优势——不确定性量化和AI安全——有机结合。
想法三:抗崩塌的合成数据生成策略——用不确定性指导数据筛选模型崩塌的根源是AI生成数据缺乏多样性。可以设计一个基于不确定性估计的合成数据过滤与增强框架:在数据生成阶段用语义熵评估每条样本的信息增量,优先保留高信息量样本,过滤掉冗余或低质量的生成内容,从源头减缓模型崩塌。这一想法直接桥接了Gal教授在不确定性估计和模型崩塌两个方向的研究成果。
