大模型时代,大家都在追模型架构和应用层创新,但真正决定AI下一步能走多远的,其实是底层的优化理论。今天这位导师做的就是这件事——他不造模型,他研究模型为什么能跑起来。
孙若愚(Ruoyu Sun),香港中文大学(深圳)数据科学学院终身副教授。北大数学本科、明尼苏达大学电子工程博士、斯坦福博后、Facebook AI Research(Yann LeCun团队)访问科学家、UIUC助理教授,最后选择来港中深。这条路线本身就是一个信号:大湾区的AI研究生态正在成熟,足以吸引美国顶校的tenure-track教职回流。
这篇我重点拆三件事:这个方向的趋势判断、他的研究布局为什么值得关注、以及读完这个博士你能走哪些路。
一、方向趋势深度拆解:AI优化理论的窗口期
先说结论:深度学习优化理论正处于一个罕见的"供需错配"窗口。
需求端,大模型训练成本指数级上升。一个好的优化算法改进能省下千万美金级的算力开支,OpenAI、Google DeepMind、Meta都在招能做训练效率优化的人。但供给端,全球能做深度学习理论的人远少于做应用的人——门槛是扎实的数学基础,不是会调参。
技术层面看三个趋势。第一,大模型的训练稳定性问题远未解决,Adam优化器为什么有效、什么时候会失效,学术界仍在争论。第二,模型压缩和高效推理从工程问题变成理论问题——如何在数学上保证压缩后性能?第三,生成式AI背后的优化理论才刚起步,扩散模型和流匹配模型的理论框架还是空白地带。
资本端信号更直接:AI基础设施投资持续增长,相当比例流向训练效率优化。政策端,中国"新一代人工智能"规划将基础算法列为重点,大湾区多城市设立AI算法专项基金。做底层优化的人,未来5年不缺资源。
二、导师作为行业风向标:孙若愚的研究布局在押什么?
| 指标 | 数据 |
| Google Scholar引用 | 5,000+ |
| h-index(估算) | 约30(基于公开数据估算) |
| 顶会论文 | 数十篇(NeurIPS/ICML/ICLR/FOCS等,含NeurIPS Oral) |
| 学术任职 | NeurIPS/ICML/ICLR/AISTATS Area Chair |
| 产业经历 | Facebook AI Research(Yann LeCun团队) |
| 兼职 | UIUC兼职副教授、深圳大数据研究院高级研究员、SICIAM副主任 |
他近年的研究重心在三块:深度学习理论(为什么神经网络能训练成功)、生成式模型的数学基础(GAN和扩散模型的全局收敛)、以及大基础模型的优化算法。他那篇关于Adam/RMSprop收敛性的ICLR Spotlight论文在工业界被广泛引用——因为它直接回答了"我们每天用的优化器到底靠不靠谱"这个根本问题。
另一个值得注意的信号:他从UIUC跳到港中深,同时保留了UIUC的Adjunct Associate Professor身份,还兼任深圳大数据研究院高级研究员。他在刻意构建一个"理论+落地"的双轨布局。对学生来说,这意味着你既有机会做高质量的理论工作,又不会完全脱离产业。
三、两个创新idea详解
idea 1:大模型训练的自适应优化器理论框架
当前Adam和AdaGrad家族的优化器虽然实践效果好,但理论上为什么好、什么条件下会失效仍是开放问题。一个可能的博士选题是:为大语言模型训练场景设计可证明收敛的自适应优化算法,特别是在非平稳数据分布和超大参数量下的理论保障。产出预期明确——顶会论文+工业界直接可用的算法改进。适合有扎实数学基础(实分析、概率论、凸优化)的同学。
idea 2:生成式AI的优化理论与可控生成
扩散模型和流匹配模型正在替代GAN成为新的生成范式,但其训练过程的理论理解远远落后于实践。孙若愚团队在GAN的全局损失景观方面已有NeurIPS Oral级别的工作。一个自然延伸是:从优化理论角度理解扩散模型的训练动态,建立收敛速率的理论下界。如果你能从理论上解释为什么某些采样策略更快,你就能设计出更高效的生成算法。对标Research Scientist岗位。
idea 3:Learning to Optimize——用AI优化AI
这是一个交叉方向:用神经网络来学习如何做优化。传统优化算法是人类设计的,如果让AI来设计更好的优化算法呢?一个有深度的博士选题是设计可泛化的元优化器(meta-optimizer),使其在不同任务和架构上自适应调整。兼具理论深度和应用价值,适合既有数学功底又对编程实现有兴趣的同学。工业界对这类人才需求极强。
四、就业出口全景图
这个方向读完博士能去哪?说实话,出路比很多"热门"方向更稳。因为你手里有的是底层能力——数学建模+算法设计+AI理解,这三样组合几乎所有技术密集型行业都需要。
路径一:AI大厂研究科学家。Google DeepMind、Meta FAIR、OpenAI、字节AI Lab、腾讯AI Lab。Research Scientist或Staff Research Scientist,年薪50-120万(国内)或200K-400K美元(美国),核心要求是顶会论文。最对口的出路。
路径二:量化金融算法研究员。Citadel、Two Sigma、幻方量化、九坤投资。优化理论背景在量化策略开发中极其稀缺,年薪100-300万。但竞争激烈,需补金融知识。
路径三:高校教职。大湾区高校、新加坡高校、内地985对AI优化方向招聘需求持续旺盛。港中深平台+导师网络,申请教职有明显优势。
路径四:AI基础设施公司。NVIDIA、华为昇腾、寒武纪等需要懂优化理论的人设计编译器和训练框架。年薪60-150万,增长空间大。
路径五:创业或技术合伙人。把优化理论落地到自动驾驶、药物设计等行业。孙若愚兼任的深圳大数据研究院和SICIAM正好连接产学研资源。
五、什么背景适合
最匹配:数学、统计、电子工程、计算机本硕,有优化或机器学习课程基础,最好有一篇预印本或会议论文。数学系的同学在这个组会被特别认可。
也适合但需要补课:计算机背景偏应用的同学,如果你愿意花半年补凸优化和实分析,这个组的训练体系会帮你完成从"调参侠"到"算法设计者"的转变。
不太适合:对数学推导缺乏耐心、更想做"看得见"的应用的同学。优化理论的节奏是"一个定理可能证三个月",需要坐得住。另外,如果目标是纯工程岗,读偏理论的博士性价比不一定高。
如果你正好在考虑这个方向,可以来问我,我把套磁时重点准备的几个点发你。

