01、招生要求

香港科技大学计算机科学与工程系博士项目设定多项申请条件。申请人须持有认可院校的学士学位,或提供至少一年全日制研究生学习证明。英语能力方面,托福网考最低80分或雅思学术模块6.5分(单项不低于5.5)为硬性标准,以英语为母语或学士学位由英语授课机构授予者可豁免。奖学金每年约229,620港元,学费每年42,100港元。
申请采用滚动录取机制,早轮招生从2月中旬持续至8月,面向优秀硕士及博士申请人。申请材料包括身份证明、成绩单、学位证明、英语能力证明及两封学术推荐信。需要特别说明的是,该系每年招收约400名博士生,过去每年有8至12名学生获颁香港政府博士奖学金(每月28,100港元及年度旅费津贴14,000港元)。
除基本学术背景外,申请人应在计算机科学、软件工程、人工智能等相关领域展现出色成绩。点击查看更多HKUST招生信息。
02、研究方向

Fu教授的研究在计算机图形学、人机交互与计算机视觉三大领域交叉展开。近年发表的205篇论文中,2025年产出16篇顶会顶刊成果,体现团队在生成式内容创作方向的深度聚焦。
第一,三维感知生成模型。3DPortraitGAN提出从单视角肖像数据集学习四分之一头像三维生成对抗网络,突破传统三维数据依赖。NeRFFaceShop构建可驱动、可重打光的三维头部生成模型,从大规模野外视频学习照片级真实感效果。GP-Recon实现单目神经三维实时重建,引入几何先验提升精度。这些工作在IEEE Transactions on Visualization and Computer Graphics等期刊发表,显示团队在三维内容生成领域的技术积累。
第二,草图驱动视频创作。SketchVideo系统实现基于稀疏关键帧草图的视频生成与编辑,用户在一或两个任意时间点绘制草图即可控制全局布局与几何细节。该方法在DiT模型基础上设计记忆高效控制结构,通过跨帧注意力机制传播时序稀疏草图条件,在CVPR 2025获得认可。Controllable Human Video Generation从稀疏草图生成可控人物视频,解决文本难以精确控制几何细节的问题。
第三,人机交互与视觉计算。Real-and-Present研究头戴AR设备中真人大小二维视频化身的使用,探索远程会议新形式。Region-Aware Color Smudging开发区域感知色彩涂抹技术,提升数字绘画体验。Human-AI Interaction for Visualization and Visual Analytics探讨可视化领域的人机协作模式。这些成果发表于IEEE Computer Graphics and Applications等期刊,体现对实际应用场景的关注。
第四,结构化内容生成。StructLayoutFormer通过结构序列化与解耦实现条件化结构化布局生成,解决设计自动化问题。VODiff控制文本到图像生成中的对象可见性顺序,处理遮挡关系。Sketch2Human在解耦几何与外观约束条件下深度生成人物图像。这些工作面向专业设计流程,具有明确应用价值。
03、有想法
结合Fu教授研究脉络与领域前沿,提出四个具体研究计划。
长时序草图引导的视频叙事生成。当前SketchVideo处理约6秒短视频片段,长视频叙事面临时间一致性、叙事逻辑与计算资源三重挑战。构想构建分层生成框架:底层维持帧间几何一致性,中层建模镜头语言与场景转换,高层理解故事板叙事结构。关键创新包括时序感知的草图插值算法、基于叙事单元的内存管理策略、长距离依赖的跨帧注意力机制。该方向可服务于影视预可视化、动画制作,填补专业工具与消费级应用之间的空白。人工分析:此构想直接回应SketchVideo的时长限制,将草图控制从片段级提升至叙事级,技术路径清晰。分层架构符合计算机图形学传统,同时融入生成模型新范式,可行性高。
轻量化实时草图视频编辑系统。SketchVideo基于CogVideoX-2b模型,需8块H800 GPU训练,推理资源消耗大。构想开发移动端适配版本,通过模型压缩、量化与蒸馏降低计算需求。核心创新点:设计草图特征缓存机制避免重复计算,开发自适应分辨率渲染策略平衡质量与速度,构建边缘设备协同处理架构。目标是在平板电脑实现实时草图编辑预览,在智能手机支持离线生成。人工分析:移动化是技术普及的关键。该构想不仅涉及算法优化,更需重构系统架构,符合产业界对边缘AI的需求。Fu教授团队已有模型压缩经验,研究基础扎实。
跨域统一草图理解生成框架。现有草图方法分属图像、视频、三维不同任务,模型专有性高。构想构建统一Transformer架构,将草图视为通用控制信号,通过任务嵌入与模态适配器实现多输出支持。关键在于设计模态无关的草图编码器、跨域注意力机制与共享-专有参数分离策略。该框架可同时处理Sketch2Human的图像生成、SketchVideo的视频编辑与3DPortraitGAN的三维重建,降低多任务维护成本。人工分析:统一架构是当下研究热点,符合大模型时代的技术趋势。该构想挑战在于不同域的表征差异,但Fu教授在草图控制与三维生成的交叉经验为此提供独特优势。
人机协同的创意工作流集成。当前生成模型多为独立工具,与专业软件(如Maya、Blender、Photoshop)集成度低。构想开发插件系统,将StructLayoutFormer的布局生成能力嵌入Figma,将SketchVideo的视频编辑功能接入After Effects。重点研究人机意图对齐机制,设计生成结果的可编辑性保留协议,构建符合创意从业者习惯的交互范式。通过用户研究量化评估协作效率提升。人工分析:技术价值最终体现在工作流程中。该构想关注人机协作而非单纯自动化,体现对创意产业实际需求的理解。Fu教授兼具图形学技术与HCI研究背景,在此方向具有天然优势,研究产出可直接影响行业标准。
