这个组在 GitHub 上拿了七万颗星,但这不是我关注它的主要原因。我先看的是通讯作者论文:Chao Huang 近两年的通讯论文几乎全部集中在大语言模型 Agent 和检索增强生成(RAG)两个方向上,跟他主页列的五六个研究领域相比,重心偏移已经很明显了。做 NLP 和信息检索的人可以认真看这个组;只对推荐系统感兴趣的人,先看完论文再决定。
项目重点信息
港大的 PhD 走研究生院统一申请,计算与数据科学学院下设多个方向。标准学制四年,入学后需要完成课程学分、资格考试和开题答辩。这个学院是港大在数据科学和人工智能方向的主要招生入口,导师项目经费充足的话可以自主招人。申请通道一般每年 12 月截止主轮,HKPFS 单独走香港研究资助局的流程,截止时间更早。了解清楚培养体系和申请节点,才不会在材料准备阶段走弯路。
导师信息与研究领域
Chao Huang(黄超)是香港大学(The University of Hong Kong)计算与数据科学学院的助理教授,同时在港大数据科学研究所任职。博士毕业于美国圣母大学(University of Notre Dame),之后到港大建组。Google Scholar 引用超过 18000 次,h-index 55。对于一个助理教授来说,这个产出节奏非常快,每年引用增量在 4000 以上。
他的实验室叫 Data Intelligence Lab,公开页面上有若干在读 PhD 和研究助理。实验室的特点是几乎所有项目都做了开源,GitHub 累计超过 77000 颗星,其中 LightRAG 单个项目 18500 星。这种开源策略在学术圈不太常见,意味着他的研究方法和代码可以直接验证,对想读代码再联系的申请者来说是个优势。
研究问题与关键思路
他主页上列的方向包括大语言模型、自主 Agent、图机器学习、推荐系统和智慧城市。但近两年通讯作者论文的重心收窄到两条线上,这两条线也是 RP 最该对准的位置。
第一条:检索增强生成(RAG)。LightRAG 是他组最有影响力的工作之一,做的事情是把图结构引入 RAG 流程,让检索不只靠向量相似度,还能利用实体之间的关系。这篇工作发表后被大量工程团队复现和改造,不止是学术贡献,有很强的工程落地价值。MiniRAG 和 VideoRAG 是同一条线上的延伸,分别针对轻量化部署和多模态场景。
第二条:LLM Agent 系统。AutoAgent、AI-Researcher、DeepCode 几个项目都在试同一个问题:能不能让大模型自主完成多步骤任务,包括搜索、分析、写报告、写代码。AI-Researcher 发表在 NeurIPS 2025,这条线的学术认可度也在上升。
两条线的交汇点是"如何让大模型更可靠地使用外部知识"。做过 NLP 实验、写过信息检索 pipeline 或者碰过知识图谱的人,在这个组里接上的概率更高。
近期代表论文
LightRAG: Simple and Fast Retrieval-Augmented Generation
2025 · GitHub 18.5k stars · 将图结构引入RAG,工程落地价值高
AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents
2025 · GitHub 5.6k stars · 零代码Agent构建框架
AI-Researcher: Autonomous Scientific Innovation
NeurIPS 2025 · 自动化科研助手系统
申请材料要点
CV 里最重要的不是论文数量,而是有没有处理过"从数据到系统"的完整链路。这个组发的工作大多涉及系统实现,不是纯理论推导。做过信息检索实验、写过能跑的 NLP pipeline、参与过开源项目的人,在邮件第一段就能写出有信息量的内容。只有课程项目经历的人,邮件第一段不要写太大,先讲清楚具体处理过什么数据、怎么处理的。
邮件第一段建议这样组织:先说做过什么具体的 NLP 或检索项目,处理过什么数据,用了什么模型和工具;然后说读过他哪个项目的代码或论文,看到了什么具体问题或可改进的点;最后说想把博士题目收到哪个方向。他的项目全部开源,所以"我读过你的代码"这句话是可以验证的,不要虚写。
Research Proposal 创新点
主方向:RAG 系统在垂直领域的适配。比如:在法律文本检索场景下,LightRAG 的图结构索引策略能否有效捕捉法规之间的引用关系和层级结构?对象是法律文本语料库,数据来源是公开判决文书或法规数据库,方法是在 LightRAG 框架基础上引入领域知识图谱,评估指标是检索准确率和下游问答效果。这个题目够具体,也能接上他现有的 RAG 工作线。
备选方向可以写多模态 Agent 的可靠性评估,但这个方向从发表论文看组里已经有人在做,新学生需要找更细的切口,比如专注于 Agent 在科学文献综述中的幻觉检测与纠错。我一开始也想推荐推荐系统方向,但翻完近两年的通讯论文,推荐系统的比重已经明显下降了,RP 写传统推荐系统可能和导师现在的兴趣对不上。智慧城市方向也类似,更像早期工作的延续。
奖学金和学费
港大 PhD 标准资助是研究生助学金(Postgraduate Studentship),2025/26 学年约 HK$18,760/月。拿到香港博士研究生奖学金(HKPFS)的话,月薪提升到 HK$28,400,另加每年 HK$14,200 学术旅行补贴。港大还给 HKPFS 获得者额外的 Presidential PhD Scholarship:第一年多发 HK$40,000,后续每年 HK$20,000,学费全免(学费约 HK$44,500-49,500/年)。
导师项目经费方面,Chao Huang 作为助理教授有 start-up package,论文致谢里出现过 RGC 的 funding。从实验室的规模和产出节奏看,经费应该是稳定的,但具体数额和执行期建议邮件确认。实验室主页写了 actively recruiting,这是比较明确的招生信号。生活成本方面,校内宿舍年租约 HK$15,000-25,000(有位的话),校外西环、坚尼地城一带合租约 HK$5,000-8,000/月。
有 NLP、信息检索或知识图谱实验经历的人,可以认真准备这个组,备好能跑的代码样本和项目的具体描述。只有课程项目或纯理论背景的人,先完成一个从数据处理到系统评估的完整实现再联系。
