首先,有些人会说:“数据科学(Data Science)怎么会有博士学位?”这并不是没有道理的。因为从历史上看,data science 并不是传统意义上的独立学科。“Data Science”作为一个术语,是在近十年才流行起来的,本质上是一个跨学科的职业标签,而不是传统的研究领域。
美国大学的PhD 设置通常是按照传统学科划分的,比如Statistics、Computer Science、Operations Research、Electrical Engineering、Biostatistics等等,因此你在绝大多数博士项目目录里看不到一个标准的 “PhD in Data Science”。
目前大部分所谓的“data science 博士”,其实都是挂靠在传统学科下面的分支。例如,Yale和Harvard 的Statistical Science PhD,很多研究内容涉及Data Science 方法,但学位还是授予统计学;CMU的 Statistics & Data Science PhD,学位本质上也是统计学博士。
不过,随着数据科学在科研和产业界的重要性不断提升,一些大学也开始设立独立的数据科学学院,并开设真正意义上的 “Data Science PhD”。比如,弗吉尼亚大学(UVA)开设了在2022年开始了正式的数据科学博士学位。
UVA的项目特点是:第一年打基础,接触不同领域的教授(统计、计算机、政策研究等),之后再确定研究方向;导师群体来自不同学科,强调跨学科;招生时强调多元背景,不限传统理工科,但申请者需要具备量化分析能力;研究内容除了算法、系统设计,还包含政策分析、伦理(ethics)等社会科学方向。
在我看来,这类独立的数据科学博士学位,更多是为了“构建数据科学学院的学术独立性”,而最终研究内容还是会落到传统的计算机、统计、应用数学等基础领域之中。目前,类似于弗吉尼亚大学的数据科学博士项目,还有纽约大学、波士顿大学和加州大学圣地亚哥分校的项目。
至于是否有必要读PhD,这取决于你未来的职业目标。如果目标是做数据分析师、数据科学家、数据工程师、或机器学习工程师,DS硕士学位加上自学和项目积累就已足够。
但如果希望担任企业中的Research Scientist(研究员)角色,或者进入高校/ 研究机构从事真正意义上的科研工作,那么PhD 就是必需的,因为这些岗位要求具备独立阅读文献、产出科研论文的能力。
你可能听说有些数据科学岗位要求博士学位,那就需要具体分析“数据科学家”这个岗位本身的定义。目前,行业内并没有统一标准,不同公司对“Data Scientist”这一头衔的定义差异非常大,甚至同一家公司内部的不同团队,对DS 职责的划分也不尽相同。整体来看,DS的角色大致可以分为两个方向:一个是偏商业分析,主要涉及产品分析、用户行为研究、A/B测试等;另一个是偏算法/ 研究,更接近机器学习工程师或研究科学家的角色,涉及建模、模型调优、甚至原创算法开发。
很多岗位虽然叫 “data scientist”,但实际工作内容与“高级数据分析师”无异,工具侧重SQL、Tableau和业务理解;而另一些DS 岗位的技术深度已经接近MLE(机器学习工程师)或Applied Scientist,需要熟练掌握机器学习理论与工程实现。因此,对于偏商业方向的DS,硕士学位通常就足够了;但对于偏研究方向的DS 岗位,通常更倾向于招聘有PhD 背景的候选人,尤其是在大厂的核心算法组、金融量化研究组或healthcare / AI research 团队。
所以,数据科学到底需不需要读博?这其实是一个关于自我认知的问题。你想用数据讲故事,还是想推动方法本身的进步?你是对业务结果更感兴趣,还是对原理背后的数学更着迷?在这个跨界融合、快速演进的领域里,更重要的是:知道自己要成为什么样的数据科学家。