奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

200万美元奖金悬赏！当AI开始攻克IMO（国际数学奥林匹克）难题，这场发生在Kaggle上的“人机智力博弈”，正在重塑我们对数学天赋与未来教育的认知。

（图源来自：https://www.kaggle.com/）

对于正在规划留学的家庭而言，AIMO 释放了一个强烈的信号：单纯的计算能力已是过去式，未来的顶尖人才需要具备 “数学思维（Math）+ 算法实现（CS）” 的双螺旋基因。本次 Progress Prize 3 更是设立了极为严苛的门槛，直接对标名校招生官最看重的跨学科解决问题能力！

本文预计浏览时间5分钟，可根据小标题跳跃浏览。

1.竞赛介绍

2.往届AIMO竞赛特点

3.主办方介绍

4.竞赛背景

5.竞赛评估方式

6.必备知识点&技巧

竞赛介绍

1、竞赛名称

AI Mathematical Olympiad-Progress Prize 3

人工智能数学奥林匹克竞赛 - 进步奖（3）

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

该竞赛的目标是创建能够解决用LaTeX格式编写的奥林匹克级数学问题的开源算法和模型。

你的参与将有助于提升AI模型的数学推理能力，推动前沿知识的发展。

2、竞赛种类

深度学习、自然语言处理、数学

3、竞赛时间

2025年11月20日 - 开始日期。
2026年4月8日 -报名截止日期。必须在此日期之前接受比赛规则才能参赛。
2026年4月8日 - 团队合并截止日期。这是参与者最后可以加入或合并团队的一天。
2026年4月15日 - 最终提交截止日期。

4、竞赛数据集

比赛包含110道题目，涵盖代数、组合学、几何和数论，涵盖国家奥林匹克级别，一直到IMO标准——高中数学成就的巅峰。

所有问题均为原创，由国际问题解决团队设计，确保训练和测试数据受污染风险为零。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

5、竞赛奖励

AIMO3竞赛奖金总额：2,207,152美元以及Kaggle奖牌。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

往届AIMO竞赛特点

第一届竞赛使用了由国际问题解决团队创建的110个新颖数学问题数据集，需要一个透明且公正的评估框架。该数据集涵盖了从简单算术到代数思维和几何推理的多种难度等级。这将有助于加强评估AI模型数学推理能力的基准，同时避免训练数据污染的风险。

第二届AIMO进步奖竞赛包含110道数学题，涵盖代数、组合学、几何和数论。难度较第一场比赛有所提升，目前问题集中在全国奥林匹克级别。这些问题在数学推理方面也被设计为“AI难度”，并与当前开放大型语言模型的能力进行了测试。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

第三届AIMO进步奖竞赛。它建立在首届AIMO进步奖竞赛基础上，该竞赛于2024年7月由Project Numina夺冠，第二届AIMO进步奖竞赛于2025年4月由英伟达NemoSkills团队夺冠。

第三届竞赛显著提升了问题难度，采用了新的提交格式，扩大了奖金池，为参赛者提供了行业领先的计算资源，新增了用于奖励社区贡献的辅助奖品，以及更新了开源大型语言模型的使用规则。

主办方介绍

AI|MO：ArtificiaI Intelligence Mathematical Olympiad是近年来人工智能与数学交叉领域最受瞩目的挑战赛之一。对于科技教育行业的从业者来说，这是一个含金量极高、非常适合作为背景提升（特别是计算机+数学方向）的话题。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

AIMO Prize 由XTX Markets发起并全额资助。XTX Markets 是一家总部位于英国伦敦的全球顶尖算法交易公司（Algorithmic Trading Firm）。它是全球非银行流动性提供的领头羊，以极度依赖数学模型、高频交易算法和机器学习技术而闻名。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

创始人： Alex Gerko（拥有数学背景的亿万富翁），他对数学教育和AI研究有着长期的慈善投入。AIMO Prize 组建了一个堪称“机构”阵容的顾问委员会，涵盖了数学界和AI界的顶层人物：

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

竞赛背景介绍

数学推理能力是人工智能的关键里程碑。数学推理是解决许多复杂问题的基础，从工程奇迹到复杂的金融模型。然而，目前的人工智能能力在这方面仍然有限。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

近期突破显示，人工智能在国际数学奥林匹克竞赛（IMO）问题上已达到人类水平。闭源模型在2025年IMO大会上获得了金牌奖，证明了前沿AI系统如今能够解决全球最具挑战性的高中数学问题。

在2025年3月的“OpenAI x AIMO评估”显示，商业模型在足够计算的情况下，能够解决50/50的AIMO2公开排行榜问题——尽管Kaggle的最高得分仅为34/50。这显示了闭源模型与开源模型在数学推理能力上的显著差距。

竞赛评估方式

必须使用提供的Python评估API提交本次竞赛，该API会以随机顺序逐个提供测试集实例作为公开排行榜，而私有排行榜则采用固定随机顺序。

在提交期间，提交笔记本仅在公开测试集中运行，评估基于其预测标签与真实标签（即正确答案数）之间的非归一化准确率。

提交截止日期后，提交笔记本将在私有测试集中运行两次，并将预测数据串联成单一提交文件。然后，我们通过一个有惩罚的准确性分数来评估提交内容，具体如下：

如果一个问题的两个预测答案都正确，则该问题的得分为1。
如果一个预测答案正确，另一个错误，该题得分为0.5。
如果两个预测答案都不正确，该题得分为0。

提交的总分是其每个问题得分的总和。

必备知识点&技巧

主流模型架构与预训练范式

Qwen2.5-Math：新一代数学

Qwen2.5-Math 系列模型（特别是 7B 和 72B 版本）已成为本次竞赛的绝对主流选择。由阿里云开发的这一系列模型，通过独特的“后训练”（Post-training）流程，彻底改变了开源数学模型的格局。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？

DeepSeek-Math 与强化学习的崛起

DeepSeek-Math（包括 V2 和 R1 版本）是另一个关键玩家。DeepSeek 团队采用了大规模强化学习（GRPO）来提升模型的逻辑推理能力。DeepSeek-R1 模型引入了类似 OpenAI o1 的“思维”（Thinking）过程，即在生成最终答案前，模型会输出一段内部独白，进行自我辩论和路径规划。

在 AIMO 3 中，参赛者经常将 DeepSeek 模型与 Qwen 模型进行集成（Ensemble）。Qwen 擅长将数学问题转化为 Python 代码，而 DeepSeek 则在纯数学推导和概念拆解上表现出不同的思维模式。这种多样性对于“多数投票”（Majority Voting）策略至关重要。

核心方法论：工具集成推理（TIR）

工具集成推理（Tool-Integrated Reasoning, TIR）是 AIMO 3 中唯一可行的获胜路径。纯粹的语言模型在进行多位乘法或求解高次方程时，出错率极高；TIR 通过将这些任务外包给代码来解决这一根本缺陷。

奖金200万美金的AIMO如何重新定义顶尖名校青睐的“AI+Math”复合背景？