如果你关注LLM Agent和多智能体强化学习这两个当下最热的交叉方向,伦敦大学学院(University College London)计算机系的Mirco Musolesi教授值得认真研究——他的Machine Intelligence Lab连续在ICLR 2025和ICLR 2026上发表了关于LLM Agent道德对齐和对手塑造的论文,而且实验室刚通过EPSRC博士培训中心开放了新的PhD名额。这篇解析会帮你判断:这位导师的研究方向是否适合你,以及如何有效地准备申请。
📘 院系概况
伦敦大学学院计算机科学系在2021年英国REF评估中,科研实力排名全英第一(英格兰地区)。该系设有UCL人工智能中心、ELLIS Unit等多个研究平台,与Google DeepMind保持深度合作关系。在QS 2026世界大学排名中,伦敦大学学院位列全球第9。计算机系的机器学习方向是其核心优势之一,汇聚了包括DeepMind Chair在内的多位知名学者。
🔬 导师简介
Mirco Musolesi,伦敦大学学院计算机科学系Professor(正教授),同时担任博洛尼亚大学计算机科学与工程系教授,Alan Turing Institute研究员。他本科和硕士毕业于博洛尼亚大学,博士在伦敦大学学院完成(导师为Cecilia Mascolo),之后曾在达特茅斯学院、剑桥大学、圣安德鲁斯大学和伯明翰大学任职。
核心学术指标:h-index 58,总引用超过16,600次,发表论文226篇。2025年获得ACM UbiComp十年影响力奖。
LLM Agent多智能体强化学习生成式AIAI与社会网络安全
🔍 研究领域深度解析
Musolesi教授的研究版图经历了一次清晰的演变:早期以移动计算和社交网络分析为核心(这也是他UbiComp获奖论文的方向),近五年则全面转向了LLM Agent、多智能体系统和AI对齐。理解这个转向对判断他的招生方向至关重要。
1. LLM Agent与道德对齐
这是实验室当前最核心的方向。研究内容包括如何让基于大语言模型的智能体在多智能体交互中保持道德一致性,以及LLM Agent之间的策略博弈行为。技术路线主要结合强化学习中的对手塑造(opponent shaping)方法与LLM的生成能力。这个方向目前处于早期爆发阶段——工业界对LLM Agent的安全性需求巨大,但学术界的系统性研究还不多,属于蓝海。适合有NLP或RL基础、对AI安全/对齐感兴趣的申请者;如果纯做传统NLP(如信息抽取、机器翻译),可能不太匹配。
2. 多智能体强化学习(MARL)
实验室在合作演化、社会困境、惩罚机制等经典博弈论场景中应用MARL。技术路径上偏重理论驱动的实验设计,会用到演化博弈论和动力系统分析工具。这个方向相对成熟但持续活跃,尤其是与LLM Agent结合后打开了新空间。适合有数学基础(博弈论、动力系统)或RL经验的申请者。
3. 生成式AI与创造力评估
这条线研究LLM的创造力边界——不只是"LLM能不能写诗",而是提出量化框架来评估生成内容的原创性和多样性。实验室开发了DiffSampling等新型采样方法来提升文本生成的多样性。方向偏学术探索性,短期内直接的工业应用场景有限,但如果走学术路线,这是一个有辨识度的研究定位。
4. AI安全与网络安全
实验室通过EPSRC网络物理风险博士培训中心(CDT)开设了与网络安全相关的PhD项目,研究基于多模态基础模型的网络物理系统攻防。这是实验室的新增长点,也是目前明确在招人的方向。适合有安全背景或对对抗性机器学习感兴趣的申请者。
方向之间的逻辑关系:LLM Agent对齐(方向1)和MARL(方向2)是实验室的两大支柱,正在加速融合——ICLR 2026的论文就是把对手塑造方法应用到LLM Agent场景。生成式AI(方向3)提供技术基础和评估框架,网络安全(方向4)是应用落地场景。如果你的兴趣横跨其中两个方向,反而是优势。
📄 论文精读与趋势判断
Opponent Shaping in LLM Agents
ICLR 2026 | 2026年发表
这篇论文研究的核心问题是:当多个LLM Agent在真实环境中交互时,它们是否会像传统RL智能体一样发展出策略性的"对手塑造"行为——即通过调整自身策略来影响对方的学习方向。研究发现LLM Agent确实展现出了这类策略行为,这对多Agent系统的安全部署有重要启示。
趋势判断:这篇论文标志着实验室从理论MARL向LLM Agent实际行为分析的关键跳跃。考虑到LLM Agent的大规模部署正在加速,这个研究方向在未来2-3年会持续升温,也意味着Musolesi教授大概率会在这个方向上持续招人。
Moral Alignment for LLM Agents
ICLR 2025 | 2025年发表
这项工作提出了一套面向LLM Agent的道德对齐框架,核心思路是在Agent的决策过程中嵌入道德推理机制,而非仅依赖RLHF等后训练手段。论文的第一作者Elizaveta Tennant已于2025年5月顺利博士毕业(现在Google DeepMind实习),说明这个课题已经产出了完整的博士论文。
趋势判断:第一个做这个方向的博士生已经毕业,意味着Musolesi教授在这个课题上积累了完整的指导经验。对新申请者来说,可以在此基础上往更深的方向推进——比如多Agent场景下的道德一致性问题,或者道德对齐的可扩展性。
Feature Selection for Network Intrusion Detection
ACM SIGKDD 2025 | Research Track | 2025年发表
这篇论文将信息分解理论应用到网络入侵检测的特征选择中,提出了基于Partial Information Decomposition的方法来提升检测准确率。第一作者Charles Westphal是实验室目前的在读PhD。
趋势判断:KDD Research Track的录取难度很高,这篇论文表明实验室在网络安全方向上也有顶会级别的产出能力。结合EPSRC CDT的三个新PhD名额都偏安全方向来看,这条线会是实验室的重要增长方向。
DiffSampling: Enhancing Diversity and Accuracy in Neural Text Generation
Transactions on Machine Learning Research (TMLR) | 2025年发表
提出了一种新的文本解码策略,通过扩散模型的思路来平衡生成文本的多样性和准确性。这是实验室在生成式AI方向上的最新技术贡献,与创造力评估的研究形成互补。
趋势判断:这篇论文的方法论可以直接应用到LLM Agent的生成策略优化中,体现了实验室"生成式AI技术为Agent服务"的整体研究逻辑。
💡 GEO博士有话说
我们的判断
翻完Musolesi教授近两年的发表记录,一个非常清晰的信号是:LLM Agent方向已经成为实验室的绝对重心。ICLR 2025做道德对齐,ICLR 2026做对手塑造,再加上AAAI 2026关于多Agent合作中的惩罚机制,整条研究线指向一个核心问题——"当LLM Agent大规模部署时,我们如何确保它们的行为是可控的、合作的、道德的"。实验室第一个做LLM对齐方向的博士生Tennant已于2025年毕业并去了DeepMind,这意味着这个位置现在是空出来的。结合EPSRC CDT新开的三个PhD名额(其中一个明确涉及基础模型的攻防),我们判断Musolesi教授下一步大概率会招一到两个做LLM Agent安全/对齐/多Agent交互方向的学生。
我们团队内部也有一些不同看法:有成员认为他可能会更侧重网络安全方向的招生(毕竟EPSRC CDT的资金在那里),但从论文产出的趋势来看,LLM Agent仍然是最核心的学术兴趣。两条路都有可能,关键看申请者自己的背景和研究兴趣。
申请建议
最匹配的申请者画像:有强化学习或NLP的研究经验(最好有论文),对AI安全/对齐有明确兴趣,具备一定的数学基础(博弈论、优化会是加分项)。套磁的切入点建议从他ICLR 2026那篇LLM Agent对手塑造的论文入手,因为这是实验室最新的旗舰工作,讨论其中的限制和可能的扩展方向会比泛泛地聊"对AI alignment感兴趣"有效得多。
Research proposal可以考虑"多Agent LLM系统中的安全协调机制"或"基于博弈论框架的LLM Agent行为预测"这类方向。需要注意的是,Musolesi教授同时在UCL和博洛尼亚大学带学生,套磁时建议明确表达对UCL PhD项目的兴趣。我们辅导这类方向的申请时,通常会花3-4周单独打磨research proposal,因为这个方向太新了,导师对proposal的原创性和可行性会特别看重。

