约翰霍普金斯招收全奖博士导师获NSF CAREER奖这样的学生更受欢迎

上周翻约翰霍普金斯电气与计算机工程系的新导师列表时，这位导师让我多停了几分钟。我的判断很直接：如果你做语音、信号处理、speech AI 或者生成式模型安全，Berrak Sisman 不是那种“看看就算了”的导师，而是值得提前做材料准备的组。

Berrak Sisman 现在是约翰霍普金斯大学电气与计算机工程系助理教授，也是 AI-X Bloomberg Distinguished Professorship 成员，主导 SMILE Lab。她的博士来自新加坡国立大学，长期做语音合成、声音转换、情感计算、语音安全和医疗语音应用。公开信息显示，她拿过 NSF CAREER Award，也入选 2025–2026 年 JHU + Amazon AI2AI Faculty Research Award。组内公开成员里有多位 PhD 学生、访问研究者和硕士成员，方向从 speech deepfake detection 到 expressive speech translation，再到 brain-to-speech，生态是比较清楚的。

Mason判断：这个组最大的价值，不是“做语音AI”四个字，而是把语音生成、情绪表达、身份保护、deepfake检测放在同一个问题里。申请人如果只写我会大模型，反而不容易被看见。

方向判断：语音AI正在从“能生成”走向“可信、可控、可检测”

语音方向这两年变化很快。早几年大家更关心 TTS 是否自然、voice conversion 是否像本人；现在更关键的是：合成声音能不能被识别，情绪和身份能不能被控制，医疗或无障碍场景里能不能稳定落地。Sisman 组的优势就在这里，她不是只做漂亮demo，而是把表达能力和安全问题一起做。

Versatile Audio-Visual Learning for Emotion Recognition2024 · IEEE Transactions on Affective Computing这篇我会建议有多模态背景的学生先读。它不是单纯语音分类，而是音频、视觉和情绪理解之间的建模问题，适合用来证明你能处理真实世界里的复杂信号。

Decoding Knowledge Transfer for Neural Text-to-Speech Training2022 · IEEE/ACM TASLP这篇更适合TTS申请人。邮件里可以从数据效率、knowledge transfer、训练稳定性切入，而不是泛泛说“我对语音合成感兴趣”。

An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning2021 · IEEE/ACM TASLP这篇虽然是综述，但很适合用来理解她的长期问题意识：voice conversion 不是换声线这么简单，背后是身份、情绪、隐私和可信度。

套磁友好度：黄灯偏绿

评级理由：她是近年加入约翰霍普金斯的助理教授，组内公开列出多名PhD学生，研究主题也有清晰扩张；但公开页面没有写“长期滚动招PhD”，所以不能当作无门槛opening。更合理的策略是先用论文和个人项目打准切口。

1. 语音安全切口。如果你做过 deepfake detection、anti-spoofing、ASVspoof 或鲁棒性评估，邮件第一段就不要写“我喜欢AI”，而是写你处理过什么音频伪造场景。关键词建议：deepfake detection, anti-spoofing, robustness。

2. 表达式语音合成切口。适合做过TTS、voice conversion、prosody modeling 的学生。重点不是模型名字，而是你能不能解释 speaker identity、emotion intensity 和 prosody control。关键词建议：expressive TTS, voice conversion, speaker identity。

3. 多模态情感计算切口。如果你做过音频+视觉+文本融合，可以从情绪识别和人机交互切进去。邮件里最好写清楚数据集、fusion策略和失败样例。关键词建议：multimodal learning, affective computing, fusion。

申请建议：别把语音AI写成普通NLP

1. 学历背景准备。最匹配的是电子工程、计算机、信号处理、语音语言处理、机器学习背景。纯NLP可以申，但需要补音频信号处理和语音任务经验。

2. 核心技能准备。建议至少能讲清 PyTorch、speech preprocessing、mel-spectrogram、ASR/TTS基础流程、Kaldi或ESPnet、Hugging Face音频模型。

3. 申请材料准备。CV里不要堆“LLM、Transformer、diffusion”，要写清数据集、指标、ablation、error analysis；RP题目可以收窄到“expressive speech synthesis for controllable emotion”或“robust synthetic speech detection under cross-domain settings”。

谁适合申，谁不太适合申

更适合的人：做过语音合成、声音转换、音频深伪检测、情感计算、多模态学习，或者有信号处理+深度学习交叉项目的学生。你最好能拿出一个能跑通的项目，而不是只写课程作业。工具上，PyTorch、音频特征提取、声学模型训练、对抗样本或跨域评估，至少要有两三项能讲细。

不太适合的人：只会调用TTS API、没有音频实验记录、把语音合成当成纯文本生成来写、或者完全说不清评价指标的人。这个方向看起来热闹，但导师真正要的是能把声音问题拆开的人。

家长视角一句话：这个方向不是单纯做“会说话的AI”，而是生成式AI时代很需要的语音安全和可信交互。

毕业去向速览

公开页面目前更容易看到组内在读学生和访问成员，完整博士毕业去向还不充分。按方向看，常见出口会落在语音AI、生成式AI安全、音频算法、医疗语音、研究院或继续博士后，但具体去向建议以后再结合LinkedIn逐个核实。

如果你准备申这个方向，我会先问一个问题：你更适合从“语音安全”切，还是从“表达式语音合成”切？这两个入口，对应的RP和套磁信完全不一样。

信息来源：https://engineering.jhu.edu/ece/faculty/berrak-sisman/https://sites.google.com/view/jhusmile/homepagehttps://sites.google.com/view/jhusmile/homepage/membershttps://sites.google.com/view/jhusmile/homepage/publicationshttps://engineering.jhu.edu/ece/news/sisman-receives-2025-2026-jhu-amazon-ai2ai-faculty-research-award/https://engineering.jhu.edu/ece/academics/phd-program/https://engineering.jhu.edu/ece/ece-admissions/graduate-admission-info/https://scholar.google.com/citations?hl=en&user=inTpYLkAAAAJ

本文由 Molly 转载发布在国际教育联盟平台，版权归原作者所有，如有侵权，请直接联系微信进行处理。

约翰霍普金斯招收全奖博士导师获NSF CAREER奖这样的学生更受欢迎

港大招收全奖博士导师担任国际会议组织主席这样的学生更受欢迎

暨南大学刘正刚教授系主任国家社科基金重大项目首席专家博士生导师介绍

最新发布

牛剑最小众专业录取率高达70%？

27Fall港理工录取难度分析

被误解最深的三所英国大学 KCL LSE 华威全解析

A-Level选课攻略英G5热门专业认可哪些硬核学科

7月25日托福考情换题库是谣言！旧题依旧很多，不要掉以轻心！

英国换首相留学签证 PSW和私校学费会不会变

密歇根大学取消CS提前选拔转专业的门又开了

全美最盛产PhD的本科大学盘点真正的学术牛校藏在文理学院

最新文章