别用衡量软件的方式衡量人工智能

【编辑推荐】当AI开始像人一样思考甚至“捏造”答案时,我们该如何衡量它的表现?传统软件那套衡量可靠性与速度的指标,在充满不确定性的生成式AI面前已然失效。维韦克・桑卡拉是花旗集团的技术产品经理,致力于将风险与控制数据转化为可落地的洞见,为战略增长提供支撑。他基于自己的实战经验在本文中提出一个五维评估框架,旨在帮助产品、技术与管理层统一目标:不仅关注AI的功能强弱,更确保其值得信赖、合乎伦理。

在产品管理领域深耕十余年,我负责过方案起草、需求迭代、路线图制定、产品平台规模化拓展以及企业级工具发布等工作。原本以为进入人工智能领域会是一条熟悉的道路。我带上了自己常用的“工具包”:功能优先级排序、跨部门协作以及用户采纳率指标。但当我初涉此领域并探索人工智能驱动生成式工具(尤其是早期的自主智能体)时,很快意识到,这并不是一场常规的业务。

这些系统速度快、灵活性高,能在几秒内生成极具实用价值的结果,但它们也充满不确定性。它们不仅仅是输出答案,还常常捏造答案——也就是产生幻觉现象;它们会自主适应,有时即便偏离事实,也会自信满满地给出回应。

作为一名产品经理,我开始思考一个此前极少需要考虑的问题:我能否信任这些系统生成的结果,并以此为基础开展工作

这件事给我敲响了警钟,也让我豁然开朗:不能用衡量传统软件的方式来衡量人工智能。

传统的关键绩效指标,如可靠性、吞吐量、错误率等,都只是触及表面。速度和实用性也只是评估维度的一部分。而在生成式、概率性的产品面前,“信任”“可靠性”“安全边界”都被赋予了全新的含义

那么,面对这样一种灵活多变、近乎具备“人类属性”的事物,我们该如何衡量呢?

这个问题促使我深入究评估人工智能的方法查阅资料、调研行业实践,最终撰写了AI智能体与生成式AI的关键绩效指标:一套严格的评估与问责框架》一文,该文于2024年发表在《国际科学研究与现代技术期刊》上。

本文我将在论文的基础上进一步拓展,分享框架如何改变了我的思方式、其重要性所在,以及作为一名AI产品经理,我现在是如何将其应用于实践中的

思考人工智能产品的核心视角

在研究了整个行业的人工智能评估方法后,我认识到,不能单纯从技术性能角度衡量人工智能系统。相反,我们需要从多个维度对其进行评估——不仅要看“运行得多好”,更要看行为多负责任

基于这些认知,我总结出以下这套五维KPI框架,成了我思考人工智能产品时的核心视角:

模型质量:准确性、可靠性与创造性系统性能:效率、可扩展性与韧性业务影响:投资回报率、生产力与市场相关性人机交互:可用性、信任度与用户采纳率伦理与环境考量:公平性、可解释性、可持续性与伦理偏移

这套框架彻底改变了我评估产品的角度。在传统软件领域,功能要么可用,要么不可用。但人工智能截然不同,它会学习、会适应,有时还会出现超出预期的行为。这种转变迫使我跳出“正常运行时间”“准确率”等简单的指标,转而关注信任、公平性以及长期影响。

如今,这个框架已成为我在AI产品开发中持续学习与定位自我的核心指南。

盲目探索的风险

随着我进一步深入AI领域,我愈发清楚地认识到:如果没有可靠的方法来衡量这些系统,我们就如同在盲目探索。

缺乏清晰的衡量标准,我们可能会陷入两种极端:要么过度夸大其能力,要么在缺乏责任的情况下贸然部署系统。而这套框架为产品、技术、合规及管理层搭建了通用“语言”,确保所有人目标一致——不仅打造功能强大的人工智能,更应该构建值得信赖、以人为本的人工智能。

转向AI产品经理操作指南

作为产品经理踏入人工智能领域,既令人兴奋又充满挑战——这是一场不同的“游戏”。规则、风险,甚至“成功”的定义都在不断变化。

以下是我认为起步时就需要考虑的几点

重新定义成功:跳出“准确率”的局限,聚焦信任度与伦理标准。

让指标与业务挂钩:将技术类KPI转化为管理层能理解的业务成果。

坚持用户至上:跟踪用户采纳率、满意度及真实的用户互动情况。

尽早嵌入伦理考量:与法务团队合作,从项目初期就开始衡量公平性与可解释性。

实时监控:不仅要关注延迟,还要警惕偏见、模型漂移和信任崩溃。

做好权衡取舍的准备:人工智能领域充满了这类选择,要清晰记录决策过程。

持续迭代优化:在原型阶段有效的方法,在实际生产环境中未必适用,需不断调整。

衡量“不可衡量”之物

如今的人工智能已不只是一行行代码,它会学习、会适应、会进化。这意味着我们需要一种新的方法来衡量成功。这种方法要超越速度和精确性,去追问更棘手的问题:

  • 人们能否信任人工智能生成的结果?
  • 人工智能是否公平、负责?
  • 人工智能是在解决实际问题,还是仅在“炫技”?

我们并非要抛弃传统KPI,而是要在此基础上进一步拓展。因为对于人工智能而言,重要的不再只是性能,更是原则。

这是产品管理领域的新篇章。而在人工智能领域,衡量成功的方式,才是真正重要的事。

*《AI智能体与生成式AI的关键绩效指标:一套严格的评估与问责框架》:KPIs for AI Agents and Generative AI: A Rigorous Framework for Evaluation and Accountability;《国际科学研究与现代技术期刊》:International Journal of Scientific Research and Modern Technology

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

利兹大学土木&医科双TOP10加持 ALEVEL家庭的申请定心丸

下一篇

港大法学院降低雅思要求!2026fall申请更容易了吗?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部