导师简介
如果你想申请香港中文大学计算机科学系博士,那今天这期文章解析可能对你有用!今天Mason学长为大家详细解析香港中文大学的Prof. Pheng的研究领域和代表文章,同时,我们也推出了新的内容“科研想法&开题立意”,为同学们的科研规划提供一些参考,并且会对如何申请该导师提出实用的建议!方便大家进行套磁!后续我们也将陆续解析其他大学和专业的导师,欢迎大家关注!

Pheng Ann Heng教授现任香港中文大学(CUHK)计算机科学与工程系教授,获授Choh-Ming Li教授头衔。教授的行政经历丰富,2014-2017年任系主任,2005-2008年及2011-2016年两度担任研究生部主任。自1999年起担任香港中文大学虚拟现实、可视化与成像研究中心(Virtual Reality, Visualization and Imaging Research Center)主任,2006年起兼任中国科学院深圳先进技术研究院人机交互中心主任,2007年被教育部聘为长江学者讲座教授。
教授于1985年获新加坡国立大学(NUS)计算机科学学士学位,随后在印第安纳大学分别于1987年获计算机科学硕士学位、1988年获应用数学硕士学位、1992年获计算机科学博士学位,跨学科的教育经历为其研究提供了计算机科学与应用数学的双重理论支撑。
研究分析
- 医疗影像AI研究:将于2026年发表的“Deep model adaptation without target labels on cross-domain medical images”(收录于《Less-supervised Segmentation with CNNs》第177-202页)聚焦跨域医疗影像的无目标标签深度模型适应问题。医疗影像常因设备、模态差异存在域偏移,该研究为少监督场景下的影像分割提供了新方案,突破了传统模型对目标域标签的依赖,对提升临床影像诊断的通用性具有重要意义。
- AI与生物医学交叉:2025年arXiv预印本“Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search”将蛋白质语言模型与树搜索结合,用于提升硅基定向进化效率。该研究拓展了AI在生物工程领域的应用,为蛋白质设计、药物研发等方向提供了高效计算工具,体现了跨学科研究的创新价值。
- 多模态与计算机视觉:2025年另一篇预印本“Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond”在多模态大语言模型(MLLM)兴起的背景下,重新审视面部表情识别任务,提出新的基准与数据集。研究打破了传统单一视觉模态的局限,探索MLLM在情感理解中的潜力,为人机交互中的情感计算提供了新视角。此外,“Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark”则通过MME-CoF基准对视频模型的零样本推理能力进行实证分析,推动了视频理解模型的评估体系完善。
研究想法
- 多模态LLM驱动的VR手术模拟智能反馈系统:结合教授在VR手术模拟与MLLM的研究基础,构建融合手术场景视觉数据、操作力反馈数据及临床知识文本的多模态数据库。通过微调医疗领域MLLM,让系统能实时解析手术操作语义(如器械角度、组织接触力度),并基于临床指南生成动态语音/视觉反馈,解决传统手术模拟中反馈单一、缺乏语义理解的问题,提升培训效果。
- 跨模态医疗数据融合的少样本罕见病诊断模型:基于教授在跨域适应与少监督学习的成果,整合罕见病患者的影像数据(CT/MRI)、基因测序数据及电子病历文本,设计跨模态注意力机制与域适应模块。利用少量标注样本训练模型,实现多源数据的互补信息挖掘,突破罕见病数据稀缺导致的诊断模型性能瓶颈,为临床罕见病早期筛查提供技术支持。
- AR辅助的远程手术协作与培训平台:结合AR技术与人机交互研究,构建支持多地医生实时协作的远程手术培训平台。通过AR眼镜将主刀医生的操作视角、患者影像标注及三维解剖结构叠加显示,配合实时语音交互与操作轨迹回放功能,实现跨地域的手术教学与病例讨论,缓解医疗资源分布不均导致的培训难题。
申请建议
1.学术背景准备:
- 优先修读计算机视觉(如CNN、Transformer)、深度学习、医疗影像处理、VR/AR开发相关课程,掌握基础理论;
- 补充医学常识,了解常见医疗影像模态(DICOM格式)与手术流程,可通过Coursera等平台的“医疗AI”专项课程提升跨领域认知。
2.技能储备细化:
- 编程方面,熟练掌握Python及PyTorch/TensorFlow框架,能独立实现少监督学习、域适应等算法;
- VR开发需熟悉Unity或Unreal Engine,了解3D建模工具(Blender);
- 额外掌握医学影像处理库(如SimpleITK、MONAI)与多模态数据处理工具(如Hugging Face Transformers)者更具优势。
3.科研经历积累:
- 主动参与医疗AI或VR相关项目,例如尝试复现教授论文中的跨域影像适应方法,或基于公开医疗数据集(如BraTS、ChestX-ray14)做少样本分割实验;
- 若有机会,可撰写短篇技术报告或参与国内会议(如CCF-GAIR)并投递摘要,展示科研实践能力。
4.申请材料与沟通技巧:
- 动机信需结合教授近期论文(如2025-2026年的多模态、医疗AI研究),阐述对其研究方向的理解,说明自身经历(如课程、项目)与该方向的匹配点;
- CV突出技能与项目细节,附上相关代码仓库链接或项目报告;
博士背景
Aurelia ,美国TOP10院校计算机科学与认知科学双博士生,研究聚焦算法博弈论不确定性及其在人工智能中的应用。她的跨学科研究融合了计算机科学、语言学和心理学知识,在国际顶级期刊《Journal of Artificial Intelligence Research》和《Cognitive Science》上发表多篇论文。Aurelia 荣获ACM SIGAI博士论文奖,擅长相关方向的PhD申请指导。