导师简介
如果你想申请香港理工大学 电气工程学系博士,那今天这期文章解析可能对你有用!今天Mason学长为大家详细解析香港理工大学的Prof. Du的研究领域和代表文章,同时,我们也推出了新的内容“科研想法&开题立意”,为同学们的科研规划提供一些参考,并且会对如何申请该导师提出实用的建议!方便大家进行套磁!后续我们也将陆续解析其他大学和专业的导师,欢迎大家关注!
教授现任香港理工大学电机电子工程学系研究助理教授,是应用密码学和差分隐私领域的新锐学者。教授拥有扎实的学术背景,先后获得武汉大学弘毅学堂(荣誉学院)计算机科学学士学位(2015年)和武汉大学网络空间安全学院硕士学位(2018年),随后于香港中文大学信息工程学系获得博士学位。
教授目前是香港理工大学ASTAPLE实验室的成员,长期从事密码学和隐私保护领域的前沿研究。
研究领域
教授的教学和研究领域主要集中在三个相互关联的方向:
- 差分隐私(Differential Privacy):专注于差分隐私的新概念及其在人工智能特别是自然语言处理领域的应用。教授提出了一种针对大型语言模型(LLMs)训练和推理的新范式,特别关注如何在保障隐私的同时保持模型的实用性。
- 应用密码学(Applied Cryptography):尤其侧重于可搜索对称加密(Searchable Symmetric Encryption, SSE)研究,如加密图上的最短路径查询,以及利用密码学工具(如安全多方计算MPC)进行隐私保护机器学习。
- 人工智能安全(AI Security):主要研究机器学习系统中的对抗性攻击与防御,包括黑盒NLP模型攻击、自动驾驶中的物理对抗攻击、语音识别系统的对抗攻击等,以及机器遗忘(Machine Unlearning)等新兴领域。
教授的研究将差分隐私和密码学技术创新性地应用于解决人工智能系统中的安全和隐私挑战,在基础理论和实际应用之间搭建了重要桥梁。
研究分析
1. "DP-Forward: Fine-tuning and Inference on Language Models with Differential Privacy in Forward Pass"
发表于ACM SIGSAC计算机与通信安全会议(CCS 2023)
论文针对当前差分隐私随机梯度下降(DP-SGD)算法在大型预训练语言模型微调过程中的局限性提出了创新性解决方案。传统的DP-SGD通过在反向传播过程中向梯度添加噪声来保护训练数据隐私,但无法应对推理时的威胁(如嵌入矩阵反转和敏感属性推断),且在大型语言模型微调过程中计算和存储成本高昂。
教授提出的DP-Forward方法直接在前向传播过程中扰动嵌入矩阵,不仅满足了训练和推理数据的严格本地差分隐私要求,而且通过设计的分析矩阵高斯机制(aMGM)最小化了所需噪声量。
2. "Sanitizing Sentence Embeddings (and Labels) for Local Differential Privacy"
发表于ACM国际万维网会议(TheWebConf 2023)
文章研究了如何在保持语义信息的同时保护句子嵌入的隐私。在自然语言处理中,文本分析通常依赖于密集的句子嵌入,而这些嵌入可能泄露用户隐私。
教授提出了一种本地差分隐私框架,用于对句子嵌入和标签进行处理,确保模型训练和推理过程中的隐私保护。该方法独特之处在于同时考虑了嵌入和标签的隐私,采用矩阵扰动机制和优化算法,在实现严格隐私保证的同时保持了较高的模型性能。
3. "FastTextDodger: Decision-Based Adversarial Attack Against Black-Box NLP Models With Extremely High Efficiency"
发表于IEEE信息取证与安全汇刊(IEEE TIFS,2024)
该论文聚焦于自然语言处理模型的安全性,特别是针对黑盒NLP模型的对抗性攻击。
教授提出的FastTextDodger是一种基于决策的对抗性攻击方法,具有极高的效率。该方法只需要获取目标模型的预测结果,无需了解模型内部结构或梯度信息,通过优化策略和词向量操作生成高质量的对抗样本,可以有效地误导NLP模型。
研究表明,该方法在各种黑盒NLP模型上都表现出显著的攻击成功率,同时保持了文本的自然性和语义相似性,为理解和增强NLP模型的鲁棒性提供了重要视角。
4. "Machine Unlearning of Pre-trained Large Language Models"
发表于计算语言学协会年会(ACL 2024)
该论文探讨了机器遗忘(Machine Unlearning)在大型预训练语言模型中的应用。随着数据隐私法规的加强,用户有"被遗忘权",要求模型"遗忘"特定训练数据成为重要需求。
论文提出了一种高效的机器遗忘框架,能够让预训练大型语言模型选择性地"忘记"指定的训练数据,而无需重新训练整个模型。该方法通过分层遗忘策略和特殊的参数更新机制,实现了精确且高效的遗忘过程。
5. "Shielding Graph for eXact Analytics with SGX"
发表于IEEE可靠和安全计算汇刊(IEEE TDSC,2023)
针对加密图数据分析中的精确计算挑战提出解决方案。随着图数据在社交网络、生物信息学等领域的广泛应用,如何在保护图结构和节点属性隐私的同时进行准确分析成为关键问题。
教授提出利用英特尔软件防护扩展(SGX)技术构建安全图分析框架,实现加密图数据的高效精确分析。该方法通过安全飞地(enclave)执行计算,结合定制的加密方案,在保障数据隐私的同时支持复杂图算法的准确执行。
实验证明,该框架能够高效支持多种图分析任务,如最短路径查询、社区检测等,为隐私保护图计算提供了实用的技术途径。
6. "Encrypted Video Search: Scalable, Modular, and Content-similar"
发表于ACM多媒体系统会议(MMSys 2022)
这项研究荣获最佳学生论文奖,探讨了加密视频搜索的挑战。随着云存储服务的普及,用户越来越关注如何在保护视频内容隐私的同时实现高效搜索。
教授提出了一种可扩展、模块化且支持内容相似性的加密视频搜索系统,结合可搜索加密和视觉特征提取技术,允许用户在加密状态下基于内容相似度搜索视频。该系统具有三个主要特点:可扩展性强,支持大规模视频集;模块化设计,灵活适应不同应用场景;支持基于内容相似性的搜索,而非仅限于关键字匹配。
项目分析
1. 差分隐私文本分析框架
该项目旨在建立一套完整的差分隐私文本分析框架,为自然语言处理提供强有力的隐私保护机制。项目探索了从文本数据收集、预处理、特征提取到模型训练和推理的全流程隐私保障方法,特别关注了如何在保持文本语义的同时最小化隐私泄露风险。
项目成果包括多种差分隐私机制在文本处理中的实现和优化,如词级和句子级的隐私保护方法、适用于各种NLP任务的差分隐私学习算法等。这些技术已在情感分析、文本分类、命名实体识别等多个应用场景中得到验证,展现出在高隐私保护水平下保持良好模型性能的能力。
2. 可搜索加密技术及应用
这个长期项目专注于可搜索加密技术的研究与应用,目标是使用户能够安全地将数据外包给不受信任的云服务提供商,同时保持有效的搜索功能。项目探索了多种数据类型的可搜索加密方案,包括结构化数据、文本、图像和视频等。
在图数据加密方面,项目开发了支持路径查询、最短距离计算等复杂操作的加密方案;在多媒体数据领域,研究了基于内容相似性的搜索机制。项目还考虑了实际部署中的性能优化问题,提出了多种提高搜索效率的技术,如索引结构设计、并行处理策略等。
3. 对抗机器学习安全框架
该项目关注机器学习系统,特别是深度学习模型面临的安全威胁,旨在开发一套全面的对抗机器学习安全框架。项目系统研究了各类对抗性攻击方法,包括针对图像分类、语音识别、自然语言处理等不同领域的攻击技术,同时探索了相应的防御策略。
项目特别关注黑盒环境下的对抗攻击与防御,这更符合现实场景中的安全挑战。研究成果包括高效的黑盒攻击算法、对抗样本检测技术、模型鲁棒性增强方法等,这些技术对于构建更安全可靠的AI系统具有重要价值。
研究想法
1. 差分隐私大语言模型的多粒度适应性保护
研究思路:开发一种能够在不同隐私敏感度场景下自适应调整保护强度的差分隐私框架,使大语言模型能够智能识别不同类型的敏感信息并施以相应保护措施。
具体方向:
- 设计敏感度感知的文本表示方法,对个人身份信息、金融数据、医疗信息等不同类型敏感数据采用不同程度的隐私保护
- 研发上下文感知的动态隐私预算分配策略,根据文本语境动态调整差分隐私噪声水平
- 探索模型架构与隐私保护机制的协同优化,在模型层面支持多粒度隐私保护
2. 基于TEE的分布式隐私保护机器学习框架
研究思路:结合可信执行环境(TEE,如Intel SGX)和密码学技术,构建一个兼顾安全性、隐私性和效率的分布式机器学习框架。
具体方向:
- 设计TEE内外计算任务的优化分配策略,将敏感操作放在安全飞地内执行,降低系统整体性能开销
- 开发支持复杂神经网络模型的分片执行方案,解决大型模型在TEE内存有限情况下的执行问题
- 研究TEE与差分隐私、联邦学习的协同应用,构建多层次保护机制
- 探索针对TEE侧信道攻击的防御技术,增强系统在恶意环境下的安全性
3. 对抗鲁棒与隐私保护的统一框架
研究思路:探索对抗鲁棒性与隐私保护之间的内在联系,构建一个能够同时增强模型对抗攻击抵抗能力和隐私保护水平的统一框架。
具体方向:
- 分析差分隐私噪声对模型对抗鲁棒性的影响,研究两者的权衡与互补关系
- 设计兼具对抗训练与差分隐私特性的优化算法,在保护隐私的同时增强模型抵抗对抗样本的能力
- 开发针对特定领域(如自然语言处理、语音识别)的定制化对抗-隐私协同保护方案
- 研究基于隐私保护的对抗检测技术,利用差分隐私特性识别潜在的对抗样本
4. 可验证和可解释的隐私保护机器学习
研究思路:开发能够提供隐私保护证明和模型决策解释的机器学习框架,增强用户对隐私保护AI系统的信任度。
具体方向:
- 设计隐私保护级别的自动验证机制,使用户能够确认其数据受到了声明级别的保护
- 研究在保持差分隐私约束的前提下提供模型决策解释的方法,解决隐私与可解释性之间的张力
- 开发隐私保护度量与评估工具,提供模型隐私泄露风险的量化评估
- 探索针对不同类型用户(数据提供者、模型开发者、监管机构)的隐私透明度报告机制
申请建议
1. 学术背景准备
- 核心课程掌握:深入学习密码学、信息安全、机器学习和数据隐私等相关课程。特别是差分隐私理论、深度学习基础、现代密码学算法等内容应当熟练掌握。推荐学习《密码学与网络安全》、《深度学习》以及Dwork和Roth编写的《差分隐私算法基础》等教材。
- 研究能力培养:积极参与与密码学、隐私保护或AI安全相关的研究项目,培养独立开展研究的能力。尝试复现教授的一些研究工作,如DP-Forward框架,深入理解其工作原理和创新点。
- 技术栈建设:掌握Python、TensorFlow/PyTorch等编程工具,熟悉自然语言处理和机器学习框架。同时,了解密码学库(如OpenSSL、Crypto++)和差分隐私工具(如TensorFlow Privacy、OpenDP)的使用。
2. 研究经验积累
- 相关研究实践:尽可能参与或独立开展与教授研究方向相关的项目,如实现基本的差分隐私算法、开发简单的可搜索加密系统、探索语言模型的隐私保护方法等。
- 论文阅读与分析:系统阅读教授的核心论文,并扩展到相关领域的重要文献。建立研究笔记系统,记录关键思想、创新点和局限性,培养批判性思维能力。
- 小型研究成果:尝试在研究生阶段发表与申请方向相关的论文或技术报告,展示研究潜力和学术写作能力。即使是小规模的工作,也能体现你的研究热情和基本能力。
3. 研究提案准备
- 针对性研究计划:基于对教授研究的深入理解,设计一个与其现有工作有明确联系但又具创新性的研究提案。例如,可以探讨如何将DP-Forward框架扩展到多模态模型,或研究机器遗忘与差分隐私的结合应用等。
- 技术可行性分析:在研究提案中展示你对技术挑战的深刻理解和解决思路,包括可能的算法设计、实验方案和预期结果。避免过于宏大但缺乏实施细节的计划。
- 潜在贡献突显:清晰阐述你的研究将如何推动领域发展,解决现有问题,或开拓新方向。将你的提案与教授当前的研究兴趣点相连接,展示合作潜力。
4. 联系与申请策略
- 个性化申请材料:针对香港理工大学和教授的研究方向定制个人陈述,明确表明为何选择该导师以及你能为其研究团队带来什么价值。避免通用的申请文书。
- 突显技术匹配度:在申请材料中强调你在密码学、差分隐私或机器学习安全方面的技术能力和经验,用具体项目或成果作为支撑,展示你的技术匹配度。
- 表现合作精神:在联系和申请过程中表现出良好的沟通能力和团队合作精神,这对于研究生阶段的成功至关重要。
5. 差异化竞争策略
- 独特视角展示:在众多申请者中脱颖而出的关键是展示你独特的学术视角和创新思维。例如,你可以尝试将教授的研究与其他领域(如量子计算、联邦学习)交叉融合,提出新颖的研究方向。
- 实际问题导向:关注差分隐私和应用密码学在实际场景中的应用挑战,如医疗健康数据分析、金融隐私保护等,展示你对研究实用价值的理解。
- 技术深度与广度平衡:在展示密码学或差分隐私专业技能的同时,适当展示跨学科背景和综合能力,如编程实现能力、数学基础、系统设计经验等,增强你的综合竞争力。
博士背景
Blythe,985电气工程硕士,后毕业于香港科技大学电子及计算机工程学系博士学位。研究方向聚焦于电力电子与智能电网技术。在国际权威期刊《IEEE Transactions on Power Electronics》和《IEEE Transactions on Smart Grid》发表多篇论文。专注于开发新型高效率电力变换器和先进智能配电系统控制算法,熟悉香港PhD申请流程。