DeepSeek上新首个奥数金牌水平模型超越谷歌Gemini

2025-11-28 17:06:30 第一财经鼎巢网15

核心提示：11月27日晚，DeepSeek在Hugging Face上开源了一个新模型：DeepSeek-Math-V2。这是一个数学模型，也是目前首个达到国际奥林匹克数学竞赛金牌水平且开源的模型

11月27日晚，DeepSeek在Hugging Face上开源了一个新模型：DeepSeek-Math-V2。这是一个数学模型，也是目前首个达到国际奥林匹克数学竞赛金牌水平且开源的模型。

在同步发布的技术论文中，DeepSeek表示Math-V2的部分性能优于谷歌旗下的Gemini DeepThink，并展示了该模型在IMO-ProofBench基准以及近期数学竞赛上的表现。在Basic基准上，DeepSeek-Math-V2达到了近99%的高分，远胜其他模型，而排在第二的Gemini Deep Think (IMO Gold)分数为89%。但在更难的Advanced子集上，Math-V2得分为61.9%，略逊于Gemini Deep Think (IMO Gold)的65.7%。

论文《DeepSeek Math-V2：迈向可自验证的数学推理》指出，大语言模型已经在数学推理方面取得了重大进展，这是人工智能的重要试验台，如果进一步推进，可能会对科学研究产生影响。但当前AI在数学推理方面存在局限：以正确答案作为奖励并不能保证正确的推理过程。许多数学任务如定理证明需要严格的分步推导，而不是简单的数字答案。

为了突破深度推理的极限，DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出自我验证对于扩展测试时间计算尤为重要，特别是对于那些没有已知解决方案的开放问题。此次推出的Math-V2从结果导向转向了过程导向，展示了强大的定理证明能力。这一模型不依赖大量数学题答案数据，而是通过教会AI如何像数学家一样严谨地审查证明过程，在没有人类干预的情况下不断提升解决高难度数学证明题的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩，在Putnam 2024上通过扩展测试计算实现了接近满分的成绩（118/120）。DeepSeek认为这些结果表明可自我验证的数学推理是一个可行的研究方向，可能有助于开发更强大的数学AI系统。

海外网友对DeepSeek此次动作反应热烈，有人感慨DeepSeek以10个百分点的优势击败了谷歌的IMO Gold获奖模型DeepThink，这不在预测范围内。还有人期待DeepSeek未来公布编程模型时的表现。目前，行业头部厂商的模型已经迭代了一轮，OpenAI发布了GPT-5.1，xAI发布了Grok 4.1，谷歌发布了Gemini 3系列。外界关注DeepSeek的旗舰模型何时更新，期待“鲸鱼”的下一个动作。

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。鼎巢网对此不承担任何保证责任, 鼎巢网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://www.dingchaow.cn/news/78863.html

点赞 0打赏 0

更多>同类资讯

推荐图文

国际足联回应墨西哥赛	泰国公主逝世政府决
A股又一4倍大牛股诞生	唐钱婷刷新50米蛙泳亚

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,鼎巢网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站处理与建议：wfmyw@qq.com

• 惊艳！北京雨后再现双彩虹大自然展现神奇之美	• 国际乒联更新世界排名国乒继续领跑
• 广东消防950人待命增援广西应对台风“美莎克”	• 塔克拉玛干沙漠有多干地下水变海鲜奇迹
• 中欧班列大规模出货空调运往欧洲缓解欧洲高温	• 7月猪肉股跑赢光通信猪价反弹引关注
• 内马尔在同一座球场结束国家队生涯 16年辉煌落	• 中国海军潜射战略导弹试射有哪些看点精准落入
• 小伙路遇昏迷伤者闯红灯送医善举赢得救治时间	• 9岁女孩被掌掴警方已处理案件细节不予公开
• 多地紧急响应全力防汛抢险台风引发多地险情	• 哈兰德续写父辈未竟的世界杯征程跨越32年的圆
• 不到2年中国再向太平洋发射战略导弹例行军事	• 内马尔落寞告别世界杯桑巴荣光悄然褪色
• 老人骑行未戴头盔交警暖心送上头盔温情执法获	• 湖北咸宁强降雨消防转移被困群众全力应对新一
• C罗：最后一届世界杯希望能赢西班牙珍贵回忆与	• 国铁广州局今起三天部分列车停运受台风“美莎

DeepSeek上新首个奥数金牌水平模型 超越谷歌Gemini

DeepSeek上新首个奥数金牌水平模型超越谷歌Gemini