上周翻约翰霍普金斯电气与计算机工程系的新导师列表时,这位导师让我多停了几分钟。我的判断很直接:如果你做语音、信号处理、speech AI 或者生成式模型安全,Berrak Sisman 不是那种“看看就算了”的导师,而是值得提前做材料准备的组。
Berrak Sisman 现在是约翰霍普金斯大学电气与计算机工程系助理教授,也是 AI-X Bloomberg Distinguished Professorship 成员,主导 SMILE Lab。她的博士来自新加坡国立大学,长期做语音合成、声音转换、情感计算、语音安全和医疗语音应用。公开信息显示,她拿过 NSF CAREER Award,也入选 2025–2026 年 JHU + Amazon AI2AI Faculty Research Award。组内公开成员里有多位 PhD 学生、访问研究者和硕士成员,方向从 speech deepfake detection 到 expressive speech translation,再到 brain-to-speech,生态是比较清楚的。
Mason判断:这个组最大的价值,不是“做语音AI”四个字,而是把语音生成、情绪表达、身份保护、deepfake检测放在同一个问题里。申请人如果只写我会大模型,反而不容易被看见。
方向判断:语音AI正在从“能生成”走向“可信、可控、可检测”
语音方向这两年变化很快。早几年大家更关心 TTS 是否自然、voice conversion 是否像本人;现在更关键的是:合成声音能不能被识别,情绪和身份能不能被控制,医疗或无障碍场景里能不能稳定落地。Sisman 组的优势就在这里,她不是只做漂亮demo,而是把表达能力和安全问题一起做。
Versatile Audio-Visual Learning for Emotion Recognition2024 · IEEE Transactions on Affective Computing这篇我会建议有多模态背景的学生先读。它不是单纯语音分类,而是音频、视觉和情绪理解之间的建模问题,适合用来证明你能处理真实世界里的复杂信号。
Decoding Knowledge Transfer for Neural Text-to-Speech Training2022 · IEEE/ACM TASLP这篇更适合TTS申请人。邮件里可以从数据效率、knowledge transfer、训练稳定性切入,而不是泛泛说“我对语音合成感兴趣”。
An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning2021 · IEEE/ACM TASLP这篇虽然是综述,但很适合用来理解她的长期问题意识:voice conversion 不是换声线这么简单,背后是身份、情绪、隐私和可信度。
套磁友好度:黄灯偏绿
评级理由:她是近年加入约翰霍普金斯的助理教授,组内公开列出多名PhD学生,研究主题也有清晰扩张;但公开页面没有写“长期滚动招PhD”,所以不能当作无门槛opening。更合理的策略是先用论文和个人项目打准切口。
1. 语音安全切口。如果你做过 deepfake detection、anti-spoofing、ASVspoof 或鲁棒性评估,邮件第一段就不要写“我喜欢AI”,而是写你处理过什么音频伪造场景。关键词建议:deepfake detection, anti-spoofing, robustness。
2. 表达式语音合成切口。适合做过TTS、voice conversion、prosody modeling 的学生。重点不是模型名字,而是你能不能解释 speaker identity、emotion intensity 和 prosody control。关键词建议:expressive TTS, voice conversion, speaker identity。
3. 多模态情感计算切口。如果你做过音频+视觉+文本融合,可以从情绪识别和人机交互切进去。邮件里最好写清楚数据集、fusion策略和失败样例。关键词建议:multimodal learning, affective computing, fusion。
申请建议:别把语音AI写成普通NLP
1. 学历背景准备。最匹配的是电子工程、计算机、信号处理、语音语言处理、机器学习背景。纯NLP可以申,但需要补音频信号处理和语音任务经验。
2. 核心技能准备。建议至少能讲清 PyTorch、speech preprocessing、mel-spectrogram、ASR/TTS基础流程、Kaldi或ESPnet、Hugging Face音频模型。
3. 申请材料准备。CV里不要堆“LLM、Transformer、diffusion”,要写清数据集、指标、ablation、error analysis;RP题目可以收窄到“expressive speech synthesis for controllable emotion”或“robust synthetic speech detection under cross-domain settings”。
谁适合申,谁不太适合申
更适合的人:做过语音合成、声音转换、音频深伪检测、情感计算、多模态学习,或者有信号处理+深度学习交叉项目的学生。你最好能拿出一个能跑通的项目,而不是只写课程作业。工具上,PyTorch、音频特征提取、声学模型训练、对抗样本或跨域评估,至少要有两三项能讲细。
不太适合的人:只会调用TTS API、没有音频实验记录、把语音合成当成纯文本生成来写、或者完全说不清评价指标的人。这个方向看起来热闹,但导师真正要的是能把声音问题拆开的人。
家长视角一句话:这个方向不是单纯做“会说话的AI”,而是生成式AI时代很需要的语音安全和可信交互。
毕业去向速览
公开页面目前更容易看到组内在读学生和访问成员,完整博士毕业去向还不充分。按方向看,常见出口会落在语音AI、生成式AI安全、音频算法、医疗语音、研究院或继续博士后,但具体去向建议以后再结合LinkedIn逐个核实。
如果你准备申这个方向,我会先问一个问题:你更适合从“语音安全”切,还是从“表达式语音合成”切?这两个入口,对应的RP和套磁信完全不一样。
信息来源:https://engineering.jhu.edu/ece/faculty/berrak-sisman/https://sites.google.com/view/jhusmile/homepagehttps://sites.google.com/view/jhusmile/homepage/membershttps://sites.google.com/view/jhusmile/homepage/publicationshttps://engineering.jhu.edu/ece/news/sisman-receives-2025-2026-jhu-amazon-ai2ai-faculty-research-award/https://engineering.jhu.edu/ece/academics/phd-program/https://engineering.jhu.edu/ece/ece-admissions/graduate-admission-info/https://scholar.google.com/citations?hl=en&user=inTpYLkAAAAJ
