主页上挂着语音识别、信号处理、深度学习三个大方向,但翻他近三年的通讯作者论文,会发现一个很明显的收窄信号:几乎全部集中在端到端语音处理和多模态交互这两个问题上。如果你还按主页上那个宽泛的方向去写套磁邮件,大概率写偏。
先说背景。Ming Li,昆山杜克大学电子与计算机工程教授,PhD毕业于美国南加州大学。这个人最值得注意的不是职称,是他的竞赛记录——Interspeech、ASRU、VoxSRC、ICASSP、IJCAI,近十年间拿了多项第一名,2016年还拿过IBM Faculty Award。这在语音处理这个圈子里,是硬指标。
这不是一个能广撒网的组
从我能查到的信息看,组里目前大约5名PhD在读,2名博后。昆山杜克大学的PhD项目是跟杜克大学联合培养的,这意味着你的学位实际上是Duke的PhD,含金量不低。但也意味着招生名额受杜克那边的配额影响,不是导师一个人说了算。
看通讯不看一作。他近期论文的一作基本都是组里的学生,通讯是他自己。这说明他确实在带学生做核心工作,不是那种挂名不管事的。但反过来说,他对学生的方法功底要求不会低——你得至少有信号处理或者深度学习的实操经验,光有课程成绩不够。
他的主页和论文之间隔着一个认知差
我刚才说主页上写了三个方向,但近三年通讯作者论文集中在两个问题上。这个变化挺关键的。如果你的RP还写"语音识别的泛化能力"这种大题,他大概率不会觉得你认真读过他的东西。
他近两年最密集发表的几篇通讯作者论文:
End-to-End Speaker Verification with Deep Neural Networks
IEEE/ACM Transactions on Audio, Speech, and Language Processing,2023
这篇的方向是端到端的说话人验证,用的是自监督预训练框架。如果你有语音预训练的经验,这是最直接的切入点。
Multi-task Learning for Robust Speech Recognition
Interspeech,2024
多任务学习做鲁棒语音识别。这篇的信号是:他在意noise robustness这个老问题的新解法。
Self-Supervised Pre-training for Speech Processing
ICASSP,2023
自监督预训练在语音任务上的应用。这个方向是整个语音处理领域近两年的热点,他在这上面持续投入。
Research Proposal 怎么收题
不要写"语音识别的前沿探索"这种口号。先缩到一个能做的题目。
方向一:低资源语言场景下的自监督语音预训练。对象:东南亚小语种语音数据;方法:对比学习+数据增强;材料:CommonVoice或自建小规模语料;可追问:预训练模型在极低资源条件下的迁移边界在哪?
方向二:多模态信号融合的鲁棒语音识别。对象:工业噪声场景中的语音指令;方法:视听融合+自适应降噪;材料:含视频的工业场景语音数据集;可追问:视觉信号在什么噪声水平下开始产生实际增益?
我会避开的一个方向:纯文本NLP。虽然主页上写了"语言处理",但他的论文几乎全是语音信号层面的,不做纯文本。如果你的RP题目偏NLP,大概率不匹配。
关于经费的几个常见误解
昆山杜克大学的PhD项目是跟杜克大学联合培养的。昆山杜克大学PhD(Duke联合培养)标准资助:学费全免+年补贴约20万人民币。这个数字需要分开看:学费减免是学校层面的,生活补贴的来源可能是学校奖学金、也可能是导师项目经费。目前从公开信息看,Ming Li有国家自然科学基金、江苏省重点项目在研,这意味着他自己手上有项目经费,招生名额不完全依赖学校配额。但具体今年能招几个,还得看Duke那边的协调情况,这个我也只能讲到这。
套磁邮件第一段先写你做过什么语音或音频相关的项目,用了什么框架和数据,再写你读到他哪篇论文里的什么问题让你觉得值得深入。最后写你想把题目收到哪个具体方向。不要只写"对您的研究很感兴趣",这种邮件他每周能收几十封,基本看不到第二句。
如果你有信号处理或深度学习的工程经验,CV里不要只写项目名称。补三件事:你处理过什么类型的数据、用了什么模型架构、最后产出了什么(哪怕是内部报告也行)。这三项能让导师在30秒内判断你是不是他想要的人。
总的判断:这个组适合有语音/音频处理经验、能写代码跑实验、对端到端模型有实操能力的申请者。如果你的背景偏纯理论或者偏NLP文本方向,先想清楚再投。

