本期为大家深入解析剑桥大学(University of Cambridge)工程系的José Miguel Hernández-Lobato教授。Hernández-Lobato教授是贝叶斯深度学习与AI驱动分子设计领域的标杆人物,Google Scholar总引用超过20,000次,在NeurIPS、ICML、ICLR等机器学习顶会上持续高产输出。本文将从他的研究版图、近期代表论文到创新研究想法进行全方位拆解,帮助大家判断是否适合申请这位导师的PhD。
📘 院系概况
剑桥大学工程系(Department of Engineering)是全球历史最悠久、规模最大的综合性工程院系之一,涵盖机械、信息、电气、土木等多个工程学科方向。其机器学习研究组(Machine Learning Group,简称MLG)是全球概率机器学习的发源地之一,由Zoubin Ghahramani等学术巨擘奠基,长期在贝叶斯方法、高斯过程、深度生成模型等方向引领前沿,科研实力在全球机器学习学界名列前茅。
🔬 导师简介
José Miguel Hernández-Lobato,剑桥大学工程系机器学习方向Full Professor(正教授,2025年10月起),剑桥ELLIS研究单元主任,剑桥AI医学中心成员。本科、硕士、博士均毕业于西班牙马德里自治大学(Universidad Autónoma de Madrid)计算机科学专业,博士毕业后先后在剑桥大学(师从Zoubin Ghahramani教授)和哈佛大学(师从Ryan Adams教授)从事博士后研究。
核心学术指标:Google Scholar总引用20,800+,h-index43,发表论文190+篇(含ICML、NeurIPS、ICLR、AISTATS等A*顶会),曾获NeurIPS最佳论文奖(Workshop)、EMC数据科学竞赛冠军等多项荣誉。同时担任Angstrom AI首席AI官、Boltzbit研究负责人,在AI产业化方面也有深度参与。
贝叶斯深度学习近似推断深度生成模型AI分子设计强化学习贝叶斯优化
🔬 研究领域深入解析
Hernández-Lobato教授的研究以概率机器学习为核心方法论,向多个应用场景辐射。以下是他主要研究方向的详细解读:
❶ 贝叶斯深度学习与不确定性量化
这是Hernández-Lobato教授最核心的研究方向。传统深度学习模型通常给出"过度自信"的点估计预测,而贝叶斯方法通过对模型参数进行后验推断,能够自然地量化预测的不确定性。他的团队在Laplace近似、变分推断、期望传播等近似贝叶斯推断方法上做出了大量原创贡献,提出了如Depth Uncertainty Networks、CLUE(Counterfactual Latent Uncertainty Explanations)等创新方法,让不确定性估计变得更加可解释和可操作。
❷ 深度生成模型与扩散模型
生成模型是当前AI最活跃的研究前沿之一,而Hernández-Lobato教授从概率建模的角度切入,聚焦于归一化流(Normalizing Flows)、扩散模型(Diffusion Models)以及变分自编码器(VAE)的理论改进与应用拓展。他的团队提出了normflows开源工具包,并在条件扩散模型用于PDE求解、对称性变换的生成建模等方向取得突破,将生成模型与物理科学深度结合。
❸ AI驱动的分子设计与药物发现
这是Hernández-Lobato教授最具应用影响力的方向。他与诺贝尔化学奖提名级学者Aspuru-Guzik合作的经典论文——利用VAE实现分子的连续表征与自动设计——在ACS Central Science发表后引用超4000次,成为AI化学领域的里程碑。后续工作包括基于贝叶斯优化的约束分子设计、基于强化学习的量子力学引导分子设计、逆合成路径规划等,覆盖从分子生成到合成可行性的完整管线。
❹ 贝叶斯优化
贝叶斯优化是一种适用于黑盒、高代价目标函数优化的方法。Hernández-Lobato教授提出了基于信息论的约束贝叶斯优化框架(发表在JMLR上),是该领域的经典参考文献。近期他的团队在批量贝叶斯优化、多目标优化、与硬件架构搜索结合等方向持续推进,将贝叶斯优化从理论工具推向工程实践。
❺ 数据压缩与信息论方法
近年来,Hernández-Lobato教授还开辟了一个新的研究方向——将贝叶斯隐式神经表征(Bayesian Implicit Neural Representations)用于数据压缩。其代表工作RECOMBINER(发表于ICLR 2024)将贝叶斯推断与神经隐式表征结合,实现了高效、鲁棒的数据压缩,同时在相对熵编码(Relative Entropy Coding)领域也有原创理论贡献。
以上五个方向之间存在紧密的逻辑关联:概率推断方法是底层工具箱,生成模型和贝叶斯优化是方法论中枢,而分子设计和数据压缩则是两个重点应用落地场景。这种"方法-理论-应用"三位一体的研究架构,使得Hernández-Lobato教授的课题组成为概率机器学习领域最全面的研究团队之一。
📄 精读教授近期代表论文
Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations
Bergna R., Calvo Ordoñez S., Opolka F., Lio P. & Hernández-Lobato J. M. | ICLR 2025
这篇论文将随机微分方程(SDE)引入图神经网络(GNN),为图上的消息传递过程注入随机性,从而实现GNN的不确定性建模。相较于传统的确定性GNN,该方法能够在节点分类和图属性预测任务中提供校准良好的不确定性估计,在分布外检测上表现显著优于基线模型。这项工作将概率机器学习的核心思想巧妙地融入图学习范式,是将不确定性量化拓展到结构化数据的重要进展。
Aligning Multimodal Representations through an Information Bottleneck
Almudévar A., Hernández-Lobato J. M., Khurana S., Marxer R. & Ortega A. | ICML 2025
该论文提出了一种基于信息瓶颈(Information Bottleneck)理论的多模态表征对齐方法。核心思路是在压缩各模态冗余信息的同时,最大化不同模态间共享语义的互信息,从而实现更高效、更鲁棒的跨模态对齐。论文在语音-文本、图像-文本等多组实验中验证了方法的有效性。这项工作体现了Hernández-Lobato教授将信息论工具引入多模态学习的前瞻视角。
Position Paper: Bayesian Deep Learning in the Age of Large-Scale AI
Papamarkou T., Skoularidou M., ... Hernández-Lobato J. M., ... Wilson A. G., Zhang R. | ICML 2024
这是一篇由全球30+位贝叶斯深度学习领域顶尖研究者联合撰写的立场论文,系统探讨了在大模型时代贝叶斯方法的价值与挑战。论文指出,尽管大规模预训练模型取得了惊人成功,但不确定性量化、数据效率、安全对齐等核心问题仍需贝叶斯方法的理论支撑。Hernández-Lobato教授作为共同作者,贡献了在近似推断扩展性方面的深度洞见。这篇论文是理解贝叶斯深度学习领域发展方向的必读文献。
RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit Neural Representations
He J., Flamich G., Guo Z. & Hernández-Lobato J. M. | ICLR 2024
该论文提出RECOMBINER框架,将贝叶斯推断与隐式神经表征(INR)结合用于数据压缩任务。传统INR压缩方法需要对每个数据点单独优化网络权重,而RECOMBINER通过对权重进行后验推断并结合相对熵编码,实现了更高效、更鲁棒的压缩效果。实验在图像和音频压缩上均取得了超越现有INR方法的性能。该工作展示了概率方法在神经压缩这一新兴领域的独特优势。
💡 GEO博士有话说
基于Hernández-Lobato教授的研究布局和近期论文方向,我们的博士团队提出以下三个可能的创新研究切入点:
想法一:贝叶斯不确定性引导的大语言模型主动学习
结合Hernández-Lobato教授在贝叶斯深度学习和LoRA微调(LaLoRA)方面的最新研究,可以探索利用贝叶斯不确定性估计来指导大语言模型的主动学习数据选择,从而以最少的标注数据实现高效微调,降低大模型适配的数据成本。这与教授团队一贯强调的"数据高效学习"理念高度一致。
想法二:图上扩散模型用于逆合成路径规划
教授团队已分别在图神经网络不确定性建模(ICLR 2025)和逆合成规划(Retro-fallback, ICLR 2024)上有独立成果。一个自然的融合方向是将基于SDE的图上扩散生成方法用于逆合成路径的概率生成,既能生成多样化的合成方案,又能通过不确定性感知来规避低可靠性的反应步骤。
想法三:信息瓶颈驱动的多模态科学基础模型
基于ICML 2025信息瓶颈多模态对齐工作,可以探索将该理论框架应用于科学数据的多模态融合场景(例如将分子图、光谱数据、文本描述进行联合表征),构建面向材料或药物发现的多模态科学基础模型。这一方向天然衔接教授在AI分子设计方面的深厚积累。

