奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

200万美元奖金悬赏!当AI开始攻克IMO(国际数学奥林匹克)难题,这场发生在Kaggle上的“人机智力博弈”,正在重塑我们对数学天赋与未来教育的认知。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

(图源来自:https://www.kaggle.com/)

对于正在规划留学的家庭而言,AIMO 释放了一个强烈的信号: 单纯的计算能力已是过去式,未来的顶尖人才需要具备 “数学思维(Math)+ 算法实现(CS)” 的双螺旋基因。本次 Progress Prize 3 更是设立了极为严苛的门槛,直接对标名校招生官最看重的跨学科解决问题能力!

本文预计浏览时间5分钟,可根据小标题跳跃浏览。

1.竞赛介绍

2.往届AIMO竞赛特点

3.主办方介绍

4.竞赛背景

5.竞赛评估方式

6.必备知识点&技巧

竞赛介绍

1、竞赛名称

AI Mathematical Olympiad-Progress Prize 3

人工智能数学奥林匹克竞赛 - 进步奖(3)

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

该竞赛的目标是创建能够解决用LaTeX格式编写的奥林匹克级数学问题的开源算法和模型。

你的参与将有助于提升AI模型的数学推理能力,推动前沿知识的发展。

2、竞赛种类

深度学习、自然语言处理、数学

3、竞赛时间

  • 2025年11月20日 - 开始日期。
  • 2026年4月8日 -报名截止日期。必须在此日期之前接受比赛规则才能参赛。
  • 2026年4月8日 - 团队合并截止日期。这是参与者最后可以加入或合并团队的一天。
  • 2026年4月15日 - 最终提交截止日期。

4、竞赛数据集

比赛包含110道题目,涵盖代数、组合学、几何和数论,涵盖国家奥林匹克级别,一直到IMO标准——高中数学成就的巅峰。

所有问题均为原创,由国际问题解决团队设计,确保训练和测试数据受污染风险为零。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

5、竞赛奖励

AIMO3竞赛奖金总额:2,207,152美元以及Kaggle奖牌。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

往届AIMO竞赛特点

第一届竞赛使用了由国际问题解决团队创建的110个新颖数学问题数据集,需要一个透明且公正的评估框架。该数据集涵盖了从简单算术到代数思维和几何推理的多种难度等级。这将有助于加强评估AI模型数学推理能力的基准,同时避免训练数据污染的风险。

第二届AIMO进步奖竞赛包含110道数学题,涵盖代数、组合学、几何和数论。难度较第一场比赛有所提升,目前问题集中在全国奥林匹克级别。这些问题在数学推理方面也被设计为“AI难度”,并与当前开放大型语言模型的能力进行了测试。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

第三届AIMO进步奖竞赛。它建立在首届AIMO进步奖竞赛基础上,该竞赛于2024年7月由Project Numina夺冠,第二届AIMO进步奖竞赛于2025年4月由英伟达NemoSkills团队夺冠。

第三届竞赛显著提升了问题难度,采用了新的提交格式,扩大了奖金池,为参赛者提供了行业领先的计算资源,新增了用于奖励社区贡献的辅助奖品,以及更新了开源大型语言模型的使用规则。

主办方介绍

AI|MO:ArtificiaI Intelligence Mathematical Olympiad是近年来人工智能与数学交叉领域最受瞩目的挑战赛之一。对于科技教育行业的从业者来说,这是一个含金量极高、非常适合作为背景提升(特别是计算机+数学方向)的话题。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

AIMO Prize 由XTX Markets发起并全额资助。XTX Markets 是一家总部位于英国伦敦的全球顶尖算法交易公司(Algorithmic Trading Firm)。它是全球非银行流动性提供的领头羊,以极度依赖数学模型、高频交易算法和机器学习技术而闻名。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

创始人: Alex Gerko(拥有数学背景的亿万富翁),他对数学教育和AI研究有着长期的慈善投入。AIMO Prize 组建了一个堪称“机构”阵容的顾问委员会,涵盖了数学界和AI界的顶层人物:

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

竞赛背景介绍

数学推理能力是人工智能的关键里程碑。数学推理是解决许多复杂问题的基础,从工程奇迹到复杂的金融模型。然而,目前的人工智能能力在这方面仍然有限。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

近期突破显示,人工智能在国际数学奥林匹克竞赛(IMO)问题上已达到人类水平。闭源模型在2025年IMO大会上获得了金牌奖,证明了前沿AI系统如今能够解决全球最具挑战性的高中数学问题。

在2025年3月的“OpenAI x AIMO评估”显示,商业模型在足够计算的情况下,能够解决50/50的AIMO2公开排行榜问题——尽管Kaggle的最高得分仅为34/50。这显示了闭源模型开源模型在数学推理能力上的显著差距。

竞赛评估方式

必须使用提供的Python评估API提交本次竞赛,该API会以随机顺序逐个提供测试集实例作为公开排行榜,而私有排行榜则采用固定随机顺序。

在提交期间,提交笔记本仅在公开测试集中运行,评估基于其预测标签与真实标签(即正确答案数)之间的非归一化准确率

提交截止日期后,提交笔记本将在私有测试集中运行两次,并将预测数据串联成单一提交文件。然后,我们通过一个有惩罚的准确性分数来评估提交内容,具体如下:

  • 如果一个问题的两个预测答案都正确,则该问题的得分为1。
  • 如果一个预测答案正确,另一个错误,该题得分为0.5。
  • 如果两个预测答案都不正确,该题得分为0。

提交的总分是其每个问题得分的总和。

必备知识点&技巧

主流模型架构与预训练范式

  1. Qwen2.5-Math:新一代数学

Qwen2.5-Math 系列模型(特别是 7B 和 72B 版本)已成为本次竞赛的绝对主流选择 。由阿里云开发的这一系列模型,通过独特的“后训练”(Post-training)流程,彻底改变了开源数学模型的格局。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

  1. DeepSeek-Math 与强化学习的崛起

DeepSeek-Math(包括 V2 和 R1 版本)是另一个关键玩家。DeepSeek 团队采用了大规模强化学习(GRPO)来提升模型的逻辑推理能力 。DeepSeek-R1 模型引入了类似 OpenAI o1 的“思维”(Thinking)过程,即在生成最终答案前,模型会输出一段内部独白,进行自我辩论和路径规划。

在 AIMO 3 中,参赛者经常将 DeepSeek 模型与 Qwen 模型进行集成(Ensemble)。Qwen 擅长将数学问题转化为 Python 代码,而 DeepSeek 则在纯数学推导和概念拆解上表现出不同的思维模式。这种多样性对于“多数投票”(Majority Voting)策略至关重要 。

核心方法论:工具集成推理(TIR)

工具集成推理(Tool-Integrated Reasoning, TIR) 是 AIMO 3 中唯一可行的获胜路径。纯粹的语言模型在进行多位乘法或求解高次方程时,出错率极高;TIR 通过将这些任务外包给代码来解决这一根本缺陷 。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

为了最大化 TIR 的效果,领先团队采用了高度结构化的提示词策略。根据 Kaggle 论坛分享的“V3 Pipeline”方案,单一的提示词已不足以应对所有情况,团队采用了提示词轮转(Prompt Rotation) 策略 :

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景?

这种多角度的提示策略能够激发模型潜在的不同推理路径,从而在后续的投票环节提供高质量的候选答案。

END

以上就是本期内容啦。

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

早申请被拒/Defer后如何找出问题整装再战?

下一篇

10个被国际生忽视的留学宝藏州!避开“内卷”的加州纽约这些地方更适合你

返回顶部