我让10个大模型又参加了完整版数学高考,第一名居然是它。。。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
原创 数字生命卡兹克 数字生命卡兹克 2025-06-10 09:02 北京
昨天,我不是发了几个大模型参加数学高考的测试文章嘛。
没想到热度挺高,大家还挺关注的。
不过,很多评论区的小伙伴也说,根本看不出来区别。
因为缺了对AI难度最高的单选第6题,还有后面那些解答题。
那我想,不如再把模型补上,加上全缺失的智谱Z1、Kimi1.5、文心X1,(不带Claude 4,封号斗罗,我恨他),再做一个,完整的满血版的数学高考,让大家最直观的,感受一下这些模型的数学能力水平。
让大家看看,满分150分,每个模型到底多少分,哪个模型能拿高考数学状元。
因为要做解答题了,和选则填空不太一样,所以我还是单独定了一下规则,规则如下:
1. 数学大题往往都有两到三个小问,但是每个小问具体的赋分都不太一样,邀请了朋友(高中老师)来估摸一下每个小问的分数,如下,都取后者:
2. 高考大题往往会按照步骤给分,但是主要我也看不懂步骤(勿喷),所以这里我们不妨对大模型严格一点,按照结果是否正确来给分。
3. 每道题任然使用大模型跑3次,根据正确比例给分。
4. 依然所有的文本题,都使用LaTeX编辑器转成LaTeX文本格式,再扔给大模型进行回答。
5. 带图片的多模态题也加入测试,直接截图进行作答,没有多模态或者推理时不能传图的模型,取其他所有多模态模型得分的平均分。
以上。
在几个朋友@东毅、@倒放、@云舒、@绛烨帮我kuku跑了好久之后,我们终于得出了结论。
这的,又一次干到了凌晨4点。
不过,最终的得分和结论,非常出人意料,也出乎我的意外。
先看对错。
对的全部都是✅,错的就是❌,如果是有部分对,就是⭕️,没有多模态的,就写没有多模态。
我说实话,这一片的绿,还是有点超出我的预期的,我本来以为,解答题会难住一堆大模型,没想到,几乎大部分都是对的,而单选题第6题,反而成了,所有大模型的噩梦。
涉及到图片的理解,对于广大高考学生,轻轻松松做一条辅助线就可以解决,但是所有的多模态大模型,几乎全军覆没,也就openai o3 在三次回答中,对了两次。
DeepSeek-R1-0528的表现不如其他的推理模型可能是因为他的推理思维链很长很长,而高考题并没有那么复杂,所以导致,想着想着,就想歪了。。。
真的发现,有时候想的短一点,正确性可能会更高。
所有的答案,都在这了,我们是结结实实的,把每个大模型、每道题,跑了3次。。。
下次一定要抽空做个脚本,这事用人干是真的顶不住= =
那最后,终于,要公布我们的测试最终得分了。。。
这个排名,真的让我有点意外。。。
这里我插一句,我对天发誓,这篇文章不是广告,我也和科大讯飞还有豆包没有任何利益关系,在测试过程中也没有任何弄虚作假或者不遵守规则。
但是实实在在的,就是这么发生了。
在我的测试中,讯飞星火和豆包除了第6题错,以其他题目全胜的姿态,145分的超高分,并列夺得了第一名。
而Qwen3,解答题全对,但是在填空题时,因为roll错了1次对了2次,产生了失误,丢了宝贵的1.7分,以143.3分,屈居第三。
Gemini2.5 pro,解答题拉了跨,139.7分,位列第四。
混元T1和文心x1,解答题失误稍微多了一些,比Gemini 2.5 pro多错了一点点,差了2.7分,并列屈居第五。
很有意思,太有意思了。
我其实很久没就没有测试测的这么开心过了。
2023年,我第一次测AI高考数学题的时候,那时候大家只有嘲讽。
强如大模型,不识一二三四五。
短短两年,对于高考来说,几乎都能轻松达到一个优秀学生的地步。
AI啊,进化还是太快了一点。
也许这就是我爱这份工作的原因吧。
它总能带给我一些未知,一些惊喜,还有一年抵十年的回忆。
所以,这场AI高考,就到这里画上句号吧。
天边泛起肚白。
新的一天。
又到来了。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、悟空、dongyi
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言