DeepSeek官方发布R1-0528版本说明,跑分比肩OpenAI o3

原创 花叔 2025-05-29 20:53 云南

原文地址: https://mp.weixin.qq.com/s/8Xe3gaK9zRUtRztEqSZZXw

互动数据

  • 阅读:1022
  • 点赞:13
  • 转发:14
  • 喜欢:4
  • 留言:4

DeepSeek刚刚在自己的公众号发了篇文章去阐述昨晚新发布的R1-0528版本的一些特性DeepSeek-R1 更新,思考更深,推理更强

最主要的几个信息如下: 1、这次训练用的基座模型不是V3-0324模型,也不是V4或任何新模型,而是和R1用的完全相同的12月底的V3模型,但是跑分却大幅度提升,这说明DeepSeek在后训练上还有很多了不得的新认知,想象一下如果给DeepSeek一个类似Grok3的大尺寸基座模型会怎么样?所以未来还完全可期 2、按现在的节奏,我们真正该期待的下一个模型是V4,而不是R2,毕竟这个基座模型已经过去接近半年,该到更新时刻了; 3、模型的推理能力大幅提升,这主要得益于模型进行了更长token的深度思考,这倒是没什么颠覆认知的东西; 4、模型的幻觉下降50%,写作能力大幅度改善,用DeepSeek开始自媒体内容创作,或者出海电商、SEO内容撰写等方面有更多机会了; 5、工具调用能力大幅度提升,但是比Claude4有差距,那说明现在最好的结合IDE的编程模型还会是Claude4; 6、官方的网站、app和api最长上下文token是64k(我估计是为了成本考虑,但确实太短了,没法用来复杂项目编程),开源模型第三方部署后支持的上下文长度是128k,属于正常但不那么够用的长度,希望下个阶段能改善。

感谢DeepSeek的这一波端午大礼,期待他们的下一次发布。

图1

图1

图2

图2

图3

图3

图4

图4