春节6天,我找到了各个领域最强的大模型。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
春节6天,我找到了各个领域最强的大模型。
原创 数字生命卡兹克 数字生命卡兹克 2026-02-22 10:18 安徽
这个春节,快快乐乐的在老家vibe coding了近6天。
我做了一个还蛮有趣的东西,就是一个18个大维度、近100个小维度,一共970道题的原创大模型评测集。
做这个东西的想法其实特别简单,就是我希望任何一个新模型一出来,就能用这套评测集直接过全自动过一遍,再配合我自己的实测,大概就能在3个小时里,就对新模型的能力比较清楚了,以方便我更好更快的对模型进行评测,同时也能避开一些刷分怪。
人啊,就是不知者无畏,想的很简单,但是没想到做起来,有这么的麻烦,4天几乎用光了我御三家大模型最高档Coding plan的额度,也真的踩了无数的坑。
比如Skill迭代,一开始我做了出题和审查skill之后,我发现,模型出的还是一坨屎,因为缺了太多的经验和约束条件。所以没办法,只能各个顶级模型互相出题再互相审查,然后再把经验迭代回skills,就这么迭代了2天,这个skills才算稳定可用。
就比如上下文管理,这1000道题的信息量过于恐怖,没有一个Agent能直接生成出来,更别提很多原创素材,我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code,一次性生成一个小类的10道题,就已经是最佳上下文的极限了。
不过这些坑归坑,但是也意外的帮我找到了各个维度里目前体感最强的模型。
毕竟出题模型的能力上限,几乎也影响出题的质量和未来评测的质量,毕竟出题的拉了,那未来评测必拉。
所以,也给大家分享一下,不保证对,只是我自己的体感:
1. 软件工程与代码生成:GPT-5.3 codex
2. 代码理解、推理与质量:GPT-5.3 codex
3. 调试、测试与维护:GPT-5.3 codex
4. 数据工程与后端服务:Claude Opus 4.6
5. 前端与产品工程:Claude Opus 4.6
6. Agent工具调用:Claude Opus 4.6
7. Web与桌面自动化(静态) :Claude Opus 4.6
8. 研究与知识工作Agent(静态):GPT-5.2 Pro
9. 数学与形式推理:Gemini 3.1 Pro
10. 逻辑与规划:Gemini 3.1 Pro
11. 知识广度与事实核验:Gemini DeepThink
12. 阅读理解与信息抽取:GPT-5.2 Thinking
13. 长上下文记忆与多轮一致性:GPT-5.2 Thinking
14. 指令遵循与对齐:Claude Opus 4.6
15. 多模态理解与视觉推理:GPT-5.2 Thinking
16. 情商与协作沟通:GPT-4.5
17. 创作表达与审美:Claude Opus 4.6
以上,希望能帮大家节省一点时间。
哦对了,再额外提一句,在搜索上如果你想搜关于AI的最新的信息,比如OpanClaw的最新玩法之类的。
相信我,用Grok 4.2,有奇效。
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言