项目重点信息
PointNet 被引超过两万次,但看 Hao Su 近三年的通讯作者论文,重心已经不在纯 3D 形状分类上了。他现在更关心的问题是:三维理解怎么接到机器人操作、场景生成和具身智能上。申请者写 Research Proposal 还停留在"点云分类"或"3D 重建精度提升"这个层面,写出来的题目大概率对不上他现在的问题线。
加州大学圣地亚哥分校(University of California, San Diego)的 CSE 系是北美规模最大的计算机系之一,超过 75 位教师、1000 多名研究生。PhD 项目提供全额资助,学费全免加上每年约 $42,000-48,000 的 RA/TA/Fellowship 补贴。这个资助水平在美国公立大学里属于中上。
导师信息与研究领域
Hao Su 是 UCSD CSE 系副教授,2017 年加入。他在北京航空航天大学读的本科,斯坦福拿的博士。博士期间参与了 ImageNet 的早期工作,后来主导创建了 ShapeNet,一个大规模三维物体知识库。PointNet 那篇论文是他最被广泛引用的成果,提出了直接对点云做深度学习的核心方法,现在几乎是三维深度学习的标准起点。
2025 年他拿到了 Frontiers of Science Award,同年还和 UCSD 校友谢赛宁共同获得 IEEE PAMI 青年研究者奖。这两个奖在计算机视觉圈的分量不低。他同时是 AI 初创公司 Hillbot 的联合创始人,做具身智能方向的产业化。
他的实验室长期保持 8-12 名博士生的规模,和 Contextual Robotics Institute (CRI)、Halicioglu Data Science Institute (HDSI) 等校内研究中心有密切合作。从公开信息看,组内中国学生占比不低。
研究问题与关键思路
我会先看他近两年的通讯作者论文。早期的 PointNet 和 ShapeNet 建立了三维数据的表示基础,但这几年他的问题意识明显在往上走:不只是"怎么理解三维数据",而是"怎么让智能体在三维世界里行动"。
他近期的工作集中在三条线上。第一条是三维生成式 AI:用扩散模型、神经隐式表示来生成三维场景和物体,不只是渲染好看,而是要能被机器人系统调用。第二条是具身智能:让机器人通过视觉和三维理解来完成操作任务,涉及 sim-to-real 迁移、多模态学习。第三条是大规模三维数据基础设施:从 ShapeNet 延续下来的方向,但现在更关注如何用生成模型补充真实三维数据的稀缺性。
这三条线的交叉点是他现在最活跃的区域。做过纯视觉但没碰过机器人的人,需要补 sim-to-real 和控制的基础;做过机器人但三维表示不熟的人,反而可能更容易切入他的问题,因为他组里不缺做视觉的人。
代表论文信号:
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
CVPR 2017 · 被引 20,000+ · 三维深度学习的基础方法论文
3D Generative Models for Spatial Intelligence
近期实验室核心方向 (2024-2025),涉及扩散模型和神经隐式表示
申请材料要点
CV 里不要只写"熟悉 PyTorch"或"做过深度学习项目"。他组里不缺会跑模型的人。更有用的是写清楚:你处理过什么三维数据(点云、mesh、NeRF 场景),用了什么方法(扩散模型、强化学习、sim-to-real),产出了什么结果(重建精度、操作成功率、生成质量指标)。
邮件第一段建议这样组织:先写你做过哪个具体问题(不是"对三维视觉感兴趣",而是"在 XX 项目中处理过 XX 场景的点云数据"),再写你读到他哪一类工作引起了你的思考,最后写你想把题目缩到哪里。他是那种看邮件会看第一段有没有信息量的导师,泛泛写"I am interested in your research"基本没用。
没有三维数据经验但有扎实的机器人操作或强化学习背景的人,也可以试。他近期在招的方向明显需要能做 sim-to-real 的人。但如果你的经历只有图像分类或 NLP,跨度会比较大,需要在邮件里说清楚你打算怎么补。
Research Proposal 创新点
我建议主攻方向放在三维生成与具身智能的交叉上,次要方向放在大规模三维数据增强上。
主方向:基于扩散模型的三维场景生成用于机器人操作训练
对象:室内服务机器人的桌面操作场景。数据:从少量真实扫描场景出发,用条件扩散模型生成大量变体。方法:将生成的三维场景直接接入物理仿真器(如 Isaac Gym)做 RL 训练,测试 sim-to-real 迁移效果。可追问的问题:生成场景的物理合理性怎么保证?和纯随机化域适应(domain randomization)比,生成式方法的优势能量化吗?
次方向:多模态三维表示学习中的文本-形状对齐
对象:工业零件或医疗器械的三维模型。数据:ShapeNet 子集 + 领域专用文本描述。方法:对比学习框架做文本-三维形状的跨模态对齐,测试零样本三维检索性能。这个方向风险稍低,但题目要缩得足够小,不要写成"多模态学习综述"。
避坑提醒:不要写"提升 PointNet 分类精度"这类题目,那是 2018 年的问题了。也不要写太泛的"3D generation",要落到具体的对象、数据来源和评估方式上。
奖学金和学费
UCSD CSE 的 PhD 项目提供全额资助,学费全免。资助来源主要有三类:导师的科研项目经费(RA)、系里的助教名额(TA)和学校层面的 Fellowship。RA 和 TA 的年薪大约在 $42,000-48,000 之间(来源:UCSD 研究生院官网公示的薪资标准,L1级)。入学第一年通常是 TA 或 Fellowship,之后转为导师项目资助的 RA。
Su 的实验室长期有 NSF、DARPA 等联邦基金支持,加上 Hillbot 的产业合作,资助能力比较稳定。但具体到某一年是否有新的 PhD 名额,还是要看他当年的 funding 执行情况和组内毕业节奏。目前没有在官网看到明确的 PhD opening 公告,建议发邮件直接确认。
圣地亚哥的生活成本在加州属于中等偏上,一居室月租大约 $1,800-2,200,加上日常开支,PhD 补贴基本能覆盖但不宽裕。
有三维视觉或机器人操作经历、能在邮件第一段写清楚一个具体问题的人,这个组值得认真准备。方向只是沾边、经历里看不出你处理过什么具体数据的人,先把材料补齐再联系。
