香港理工大学计算机系全奖博士招生 | Prof. HE

导师简介

如果你想申请香港理工大学 计算机系博士,那今天这期文章解析可能对你有用!今天Mason学长为大家详细解析香港理工大学的Prof. HE的研究领域和代表文章,同时,我们也推出了新的内容“科研想法&开题立意”为同学们的科研规划提供一些参考,并且会对如何申请该导师提出实用的建议!方便大家进行套磁!后续我们也将陆续解析其他大学和专业的导师,欢迎大家关注!

香港理工大学全奖博士招生 | Prof. HE(708)

Chenhang He教授现任香港理工大学计算机系研究助理教授,处于学术生涯活跃期,科研方向明确且具有持续创新性。他先后于香港理工大学获得硕士与博士学位,学术训练扎实,为其后续科研工作奠定了深厚理论基础。

研究分析

教授研究聚焦计算机视觉与语音处理两大核心领域,近三年成果集中发表于ICLR、ECCV、NeurIPS等国际顶会,研究内容兼具理论创新性与工程应用价值。

  1. 《CONTINUOUS AUTOREGRESSIVE MODELING WITH STOCHASTIC MONOTONIC ALIGNMENT FOR SPEECH SYNTHESIS》(ICLR 2025):该研究属于语音合成方向,提出结合随机单调对齐的连续自回归建模方法。语音合成中对齐精度直接影响合成音质,随机单调对齐机制可提升模型对语音时序特征的捕捉能力,为解决传统自回归模型在长序列语音合成中的效率与质量平衡问题提供新思路。
  2. 《Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding》(ECCV 2024):聚焦3D场景理解领域,针对开放词汇场景下的模态对齐难题,提出密集多模态对齐方法。3D场景理解需融合视觉、语言等多模态信息,该方法通过增强模态间关联,提升模型对未见过类别目标的泛化能力,相关技术可应用于机器人导航、AR/VR等场景。
  3. 《LAPT: Label-Driven Automated Prompt Tuning for OOD Detection with Vision-Language Models》(ECCV 2024):研究分布外(OOD)检测问题,提出标签驱动的自动提示调优框架LAPT。在视觉-语言模型应用中,OOD样本的误判可能导致系统风险,该框架通过动态调整提示词增强模型对分布偏移的敏感度,4次Scopus引用体现其在异常检测领域的实用价值。
  4. 《ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention》(ECCV 2024):针对点云处理中Transformer模型计算复杂度高的问题,设计分散线性注意力机制的高效体素Transformer(ScatterFormer)。点云数据在3D目标检测中应用广泛,该模型通过优化注意力计算,在保证精度的同时提升GPU并行计算效率,2次Scopus引用反映其在工程化落地方面的潜力。
  5. 《Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection》(NeurIPS 2024):将状态空间模型(Mamba)引入点云3D目标检测,提出无分组的Voxel Mamba结构。该研究突破传统Transformer依赖分组处理的局限,利用Mamba的长序列建模优势捕捉点云空间邻近性特征,在Waymo Open Dataset等数据集上可能具有优异表现,13次Scopus引用显示其为领域内较受关注的创新方法。

研究想法

  1. 语音-3D视觉跨模态融合的场景交互研究:结合教授在语音合成与3D场景理解的双重优势,探索语音指令与3D场景的实时交互机制。例如,针对智能家居场景,设计基于语音合成的动态场景描述模型,将3D场景中的物体位置、状态信息通过自然语音实时反馈给用户,同时利用语音指令驱动3D场景中虚拟/实体机器人的精准操作。该方向可解决现有跨模态交互中“感知-表达-执行”链路不连贯的问题,兼具理论创新与应用价值。
  2. 基于OOD检测的点云动态异常监测系统:融合LAPT框架与Voxel Mamba模型,构建面向工业场景的点云动态异常监测系统。工业生产中,点云扫描可获取设备表面状态,该系统通过OOD检测实时识别设备磨损、变形等异常点云特征,同时利用状态空间模型的快速建模能力提升监测效率。相比传统静态检测方法,该系统可适应生产线动态环境,为 predictive maintenance(预测性维护)提供技术支撑。
  3. 低资源语言的语音合成与3D场景协同建模:针对低资源语言语音合成数据匮乏的问题,结合3D场景中的视觉语义信息辅助语音合成。例如,利用3D场景中物体的视觉特征(如形状、颜色)关联低资源语言的词汇语义,构建多模态预训练模型,提升低资源语言合成语音的自然度与语义准确性。该方向响应语言多样性保护需求,也符合跨模态学习的前沿趋势。

申请建议

1.技能基础准备:

  • 编程与框架:熟练掌握Python编程语言,深入理解PyTorch或TensorFlow深度学习框架,能够独立实现Transformer、Mamba等复杂模型结构。建议通过复现教授发表的ScatterFormer、Voxel Mamba等模型代码,加深对模型细节的理解。
  • 领域工具:掌握点云处理工具(如Open3D、PCL)、语音处理库(如Librosa)及计算机视觉常用库(如OpenCV),熟悉ICLR、ECCV等顶会常用的数据集与评估指标(如3D目标检测的mAP、语音合成的MOS评分)。

2.科研经历积累:

  • 方向匹配:优先参与计算机视觉(点云处理、3D场景理解)或语音处理(语音合成、语音交互)相关科研项目,若能涉及跨模态融合研究则更具竞争力。例如,参与点云3D目标检测模型优化、语音合成音质提升等课题。
  • 成果产出:尝试将项目成果整理为学术论文,投递至CCF-C类及以上会议或期刊,即使未被录用,审稿意见也能体现科研思维的严谨性;或开发相关技术的Demo原型,展示工程实践能力。

3.文书与套磁策略:

  • 个人陈述(PS):重点阐述与教授研究方向的匹配度,具体说明对其某篇论文(如Voxel Mamba、ScatterFormer)的理解,可提出1-2个具体的技术改进思路,体现独立思考能力而非单纯复述文献。
  • 套磁邮件:邮件主题明确为“PhD Application Inquiry - [Your Name] - [Research Topic]”,正文简洁介绍个人背景、科研经历,重点说明关注教授的哪项研究及自身可为此类研究带来的贡献,附件附上CV与代表性成果(论文、项目报告等),避免泛泛而谈。

博士背景

Aurelia ,美国TOP10院校计算机科学与认知科学双博士生,研究聚焦算法博弈论不确定性及其在人工智能中的应用。她的跨学科研究融合了计算机科学、语言学和心理学知识,在国际顶级期刊《Journal of Artificial Intelligence Research》和《Cognitive Science》上发表多篇论文。Aurelia 荣获ACM SIGAI博士论文奖,擅长相关方向的PhD申请指导。

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

人才父母别错过!香港学校教育展来了!一文读懂港校插班应该怎么做

下一篇

英国留学也有“鄙视链”!?最受本土认可的大学竟是它们......

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部