加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。
原创 数字生命卡兹克 数字生命卡兹克 2024-10-23 04:14 北京
夜里十一点,大洋彼岸早上8点整。
Claude带着大货闪亮登场了。
升级版的Claude 3.5 Sonnet,新模型Claude 3.5 Haiku,还有全新的新功能:computer use,翻译过来后,我把他称为,“计算机操控”。
一个一个来说。
首先新模型升级版Claude 3.5 Sonnet。
Claude的模型一直分为三个尺寸,分别是Opus、Sonnet、Haiku。从大到小。
3月的时候,Claude正式推出Claude 3代的全系模型,从Opus到Haiku都有。
然后6月的时候推出了Claude 3.5 Sonnet,只推了这一个,没有3.5 Opus和Haiku,参见这篇文章:我体验完刚发布的Claude3.5,发现最强的是这个新功能。
那时候Claude 3.5 Sonnet的能力就吊打了旧的最大参数的模型。
而今天,推送的是升级版的Claude 3.5 Sonnet,还有新的Claude 3.5 Haiku。
有趣的是,Claude 3.5 Haiku还是后训的,知识截止时间是7月,而升级版Claude 3.5 Sonnet知识时间并没有变,也就是加了更多的强化学习的合成数据以及“计算机控制”的训练。
而Claude 3.5 Sonnet的整体性能上,基本傲视群雄。
不管是推理、还是本科的知识、还是编程能力啥的,都是No.1,而且Claude的跑分不像很多模型那种刷榜,他的跑分是真的可信的。
我相信6月Claude 3.5 Sonnet上线后,直接一波科技跃迁,带着cursor之类的A编程一波升天,就不会有任何人会怀疑Claude的代码能力了吧。
最特别的评测基准其实是那个第七行的SWE-bench Verified,大概就是测试写代码解决问题的真实能力,这个评测基准是8月份OpenAI提的,然后这波Claude 3.5直接把这个基准加在自己的跑分里。
GPT4o在这项的跑分是33.2%,o1不知道。
但是按Claude的话说,o1是个什么脏东西,不认识。
而新版的Claude 3.5 Sonnet,目前也在Claude官网上上线了。
可以看到有了new的标签。
我直接发了最简单的一句话:给我生成一个非常精美的俄罗斯方块游戏。
**然后,升级版Claude 3.5 Sonnet,就开始嘟嘟嘟的生成。
**
直接一次性生成了280行代码,而且这个游戏,是真的可以直接玩的。。
也可以直接让它生成一个随时可调可互动的动效模拟器,彻底改变学习方式。
就,非常的酷。
其次是Claude 3.5 Haiku。
这个其实就没太多可说的了,常规升级,但是是目前最快、性价比最高的模型。
在跟Claude 3 Haiku的相同成本和速度下,直接击败了参数量最大的Claude 3 Opus。
在编码任务上,居然能直接打败没升级前的Claude 3.5 Sonnet,这个是最离谱的。
只能说,Anthropic的强化学习范式走的还是太超前了,合成数据的质量实在是太高太高了。
那最后,也是最重磅的一点,Claude的“computer use”,也就是新功能,计算机控制。
这个点就非常的科幻,能够实时分析用户计算机屏幕上的活动,并自主执行在线任务,比如浏览、点击和输入。
我直接放一个官方case吧。
Anthropic是这么描述这个“计算机控制”的功能的:“Claude 3.5 Sonnet可以按照用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的互动方式。”
这,就是一个能理解用户意图,并帮他自主实现的真正的Agent。
以前的Agent,说实话,看上去更像一个RPA,就是根据预设好的工作流,一步一步的执行下去,但是真正的Agent应该是什么样?
在我看来,他就应该跟人一样,能理解你的复杂语义,把这个复杂语义具象成可执行的步骤,就像我说现在**“凌晨3点半了我太困了,但是文章还没有写完,你帮我看看附近有没有咖啡买,有的话帮我买一杯,没有的话就算了。”**
如果是个人,那肯定是会打开美团外卖或者饿了么,看看附近有没有咖啡店开着,如果有开着的,看看我最喜欢喝的冰美式有没有的,没有冰美式的话问我一句要换什么口味?然后下单,等待送达。
如果3点半附近都关门了,那也应该告诉我,附近没卖的了,哥们你自己撑一撑吧,一会就能睡了。
这才是AI,这才是我们身边,能进入到普通人生活中的,最酷的AI助手。
而这种AI助手,它势必,需要学会操作手机或者电脑。
我们不止要让AI学会写文章,学会画图,也要让他学会操作。
这样,才能有很强的,自主探索、解决问题的泛化能力。
而升级版Claude 3.5 ,只是在一些简单软件上进行了训练,就有了操作一些不复杂软件的能力,甚至还会自我纠错,不断重试,这又何尝不是一种强化学习、自我博弈呢?
Anthropic,真的吧Self-Play玩出花了。
目前,在测试开发者让模型使用计算机的一个基准评估(OSWorld)中,Claude 目前得分为 14.9%。
而人类水平通常为 70-75%,虽然差距很大,还有一些路要走,但已经远高于目前其他最好AI模型的7.7%这个分数了。
不过现在这个功能普通用户还用不到,只对开发者进行开放,有API接入,Anthropic的本意是还在前期测试阶段,怕有危险,所以让开发先帮忙测试一下。
我们也花了N久时间,把API接入进来,做了一些简单的测试。
先装了一个类似于模拟系统的东西,一切行为都会在这个模拟系统里运行,Anthropic还是怕对你的系统会有一个不可逆转的损害影响。
我测了很多个case,但是说实话,一是速度实在太磨叽了…二是成功率,确实还有点低下。
比如这个案例:“打开淘宝网站页面,找到小米手机官方旗舰店,找一个2000左右的手机,加到购物车。”
其实不算难,说实话。
但是Claude翻车了,翻车的点也很搞笑,是在输入店名上,人明明叫小米官方旗舰店,它非要写“方店”,后面又试了一次,这次连两个字都不写了,直接写了一个字“舰”,这能搜到才有鬼了…
而且,这个视频我已经两倍速了,你们可以感受一下它有多慢。。
不过,让他玩2048,它玩的倒是非常的开心。这一次,是三倍速。
玩的还挺好,我感觉在这放着,他一个人能玩到天荒地老。
这倒也是挺有趣的。
当然,也能做一些很实际的事情,比如给我的浏览器装一个可以屏蔽广告的插件。
他居然把插件地址背下来了,直接输入,给我搜索+安装一步到位。
起飞。
虽然总体任务的成功率还比较一般,但是还好,毕竟Claude自己也说了,成功率没那么高。
而且,这只是第一代。
他们坚信,使模型适应工具,这是必然,而模型也可以融入我们每天使用的环境里,成为我们生活的方方面面。
他们的目标是让Claude使用现有的计算机软件,就像人一样。
就像人一样。
真好。
希望这个愿景,能在不远的未来达成。
我真的,很想拥有一个自己的。
贾维斯。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、东毅
>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言