简单总结一下刚发的Grok4。

原创 数字生命卡兹克 数字生命卡兹克 2025-07-10 13:59 北京

原文地址: https://mp.weixin.qq.com/s/8Y_TrOIAfoShXIV-bK1Kyw

互动数据

  • 阅读:78285
  • 点赞:826
  • 转发:1615
  • 喜欢:161
  • 留言:179

马斯克的Grok4刚刚发布了,说好太平洋时间晚上8点,也就是北京时间中午11点。
尼玛迟到一个小时才来,而且整个发布会感觉几乎没有准备,尬上天际,给马斯克都聊紧张了。
简单说下Grok4吧。

1. 这次发了两个模型,Grok 4和Grok 4 Heavy。

2. 训练量是 Grok 2的100 倍,在强化学习上的计算量是现有任何模型的 10 倍。

3. 在人类最后的考试(Humanity’s Last Exam, HLE)中,Grok 4在HLE上拿到38.6%;Grok 4 Heavy借助多智能体进一步拉到 44.4 %,刷新了最高纪录。

4. 官方同时公布GPQA、AIME25、HMMT25、USAMO25等学科赛题,Grok 4 Heavy 在其中 4 项夺冠,尤其在 AIME25与HMMT25 获得 100 % / 96.7 % 的近满分表现。

5. 全程都在聊知识,隐隐感觉到不妙,一实测,果然,代码能力拉垮了。

6. Grok 4在训练阶段就深度整合了工具使用能力,将工具(如代码解释器、搜索引擎等)直接纳入训练流程,最终效果更好。

7. 设计了一个名为“Vending-Bench”的商业模拟场景,AI需要像人一样经营自动售货机业务,测试结果:Grok 4平均净资产 $4684.15,是第二名Claude 4的两倍,证明Grok 4比其他模型的长任务能力更牛逼。

8. ARC-AGI v2评测记上,达到了SOTA,Grok 4 准确率 15.9 %,第二名Claude 4 为 8.6 %,几乎翻倍。同时,单位成本推理效率业界最佳。

9. 定价上:
- Free:只能用Grok 3,不给用Grok4;
- SuperGrok(30 美元/月):Grok 4、128 k Token、更多接口额度;
- SuperGrok Heavy(300 美元/月):独享 Grok 4 Heavy、提前试用新特性、专属技术支持。

10. 8月推代码模型、9月上线多模态智能代理、10月发视频生成模型。

总结:在知识推理能力上目前很强,其他感觉一般。

以上,差不多就是这样。。。
至于这个300刀,我还是选择ChatGPT和Gemini。。。