测评豆包1.6:我用它开发了一个“聪明的旅行策划Agent”

原创 花叔 花叔 2025-06-13 17:34

原文地址: https://mp.weixin.qq.com/s/QahdILkdl3S5z4vYp4PwGg

互动数据

  • 阅读:1622
  • 点赞:27
  • 转发:115
  • 喜欢:5
  • 留言:11

最近一周,大家拿大模型玩得最多的估计就是评测不同模型写作文和做数学题了,不过作文的优劣评价太过主观,很容易引起很多争议;数学题有确定性可评估的指标,所以挺值得拿来让国内外各大模型竞技下的。

在所有这些评测里,我觉得卡兹克是评测得最充分的,让我没想到的是前三居然都是国产模型,尤其是第一名是豆包1.5-thinking-pro,可能字节在产品上做得太好了,让人忘了他们大模型的能力本身也够强的。

我让10个大模型又参加了完整版数学高考,第一名居然是它。。。

然后这几天,我又看到火山Force大会,发现他们还推出了豆包大模型1.6,这个模型有三个值得一说的特性:

1、推理能力更强了,在基准测试上相比前一代有不少提升,在GPQA Diamond评测中拿下81.5分,AIME25中拿下86.3,都是SOTA级别的表现。

2、自适应思考,模型调用时可以选择思考(thinking)、不思考(non-thinking)、自适应思考(auto)这三种模式,和Claude选择的策略类似,因为就像人类一样,在简单的任务上通过系统一进行直觉式思考,在复杂任务上选择深思熟虑的系统二思考模式,我觉得这会是大多数模型后续的发展方向,思考与不思考不应该是人为选择,而是模型自动根据任务复杂度去考虑的策略。

3、计价模式有创新,根据输入和输出的token长度分段计较,在输入token在32k以内的情况下,价格比DeepSeek还便宜不少,这对做AI产品的开发者来说是个好消息。

模型的思考和推理能力算是AI Coding、Agent模型所必需的核心,所以我这次特意想测测看,拿豆包1.6试试看他执行真正有难度,不能一步完成的Agent任务,看看他到底怎么样的。

实操目标:构建一个聪明的旅行策划Agent

我这次想拿豆包1.6构建个搞定一切的旅行Agent,试试看他能做到什么程度。

之所以选这个任务,是我前两个月在即刻发了条动态说用AI制定旅行计划可能是个伪需求,但没想到遭遇了大量的不同看法,看起来对这个场景有需要的用户数还不少,所以我觉得针对这个场景做个agent应该挺好玩的。

这次我希望构建的旅行Agent需要至少满足我四个要求:

1、我希望他能根据我的出发时间和回程时间要求,提供合理的航班选择

2、他的旅行计划应该是结合真实天气推荐的,不然要是大雨天推荐我去爬山或徒步不是扯淡么

3、他构建的旅行路程应该是合理的,比如去北京别给我整出上午颐和园,中午长城,下午故宫的离谱规划

4、我希望获得一个图文并茂的形成规划,不只是干巴巴的文字计划

为了达成这个目标,大家应该能理解但靠大模型是实现不了的,就像你雇佣一个很聪明,但是没去过巴厘岛的清北毕业生给你做巴厘岛旅行规划,如果你把他关在断网的小黑屋里,任他想破脑袋,他也没法思考出行程。你需要给他「工具」,给他「电脑」,让他能联网搜索需要的信息。

而对大模型来说,MCP便是他们的工具,豆包1.6模型支持MCP的调用,或者说,一个支持MCP调用的模型,一堆MCP算是现在构建任何Agent的标配了。

火山引擎提供了一个MCP Market,上面已经接入了200多个主流MCP,即允许你直接在火山上调用,也可以一键安装到Trae、Cursor等AI Coding工具。

对于我这项旅行Agent开发需求来说,我打算拿Trae做开发(他们已经接入豆包大模型1.6),然后选择这四个和我任务有关的MCP:

1、飞常准 MCP:用来查询和选择航班

2、气象 MCP:用来查未来的目的地天气辅助景点选择

3、高德地图 MCP:用来选择景点和餐厅、规划合理的路线

4、veFaaS MCP:用户一键部署上线Agent制定的旅行计划

现在MCP的部署过程也算是够简单的,你只需要在火山的MCP Market找到对应的MCP,比如高德地图这个:

1)点击生成

2)前往高德地图开放平台获取APIkey

3)你将获取到一串Json代码,点击「去Trae配置」(如果你还没安装Trae,可以先装一个,这是字节的AI IDE工具)

4)在Trae完成最后一步「确认」,你的MCP就装好了

不同MCP的安装过程大同小异,有更简单的你甚至不需要获取任何key的,也有需要你自己去复制Json代码,然后主动在Trae添加的,但都很容易理解,这些MCP一个个安装完成后的状态如下:

Prompt提示词

接下来就是魔法发生的时刻,你只需要在Trae中选择豆包大模型1.6,发出你的提示词,然后等待这个Agent的表现就好了。我这次根据我自己的需求,给Trae的提示词如下:

请帮我用HTML生成一个从北京到大理游玩的旅行计划,我的需求如下:

这段prompt是我手打的,我还挺喜欢自己写Prompt,并且经常尝试不同的prompt对模型表现的影响的,不过我估计很多人会对写prompt感到困扰,尤其是当你接触自己不熟悉的领域知识时,火山提供了个promptpilot的功能,可以帮你把简单的需求(左侧),优化调校到更丰富带有领域知识的丰富prompt提示词。

Agent体验

Trae上接入的豆包1.6看起来是auto模式的,会根据用户提供的任务复杂度自主确定是否思考,显然我这个需求是需要多步骤才能完成的复杂任务,所以我看ta是先思考了一段任务的todo list之后再开始执行的。这里多说一句,未来会有越来越多的用户任务是无法一次性完成的,所以模型是否有自主规划,通过多步骤实现一个目标的能力会是很影响模型实际任务表现的指标。

接下来,Trae为了完成我的目标,一次性帮我完成了10多次的MCP调用,而且从这部分的语言表达,你可以明确看出ta好像真的知道自己在做什么,每次只完成一个小任务,再不断把收集到的信息进行拼接。

最后完成的网页设计效果如下,你可以感受下:

说实话,这个页面还有不少不足,比如:1)图片的选择不太准确,文字和图片不是太匹配;2)还未提供实际的旅行地图,目前用了个图片替代。

不过这两个问题还可以通过进一步的对话和提要求去解决,一次对话能完成到这个程度还挺超出我预期的,包括:

1)真的图文并茂,生成的网页中有图这一点很难得;

2)在我只要求html网页,对网页设计没做明确要求的情况下,网页设计相当不错,UI品味我觉得和Claude4,以及新的DeepSeek R1相近;

3)在一次任务里完成这么多MCP工具的调用,推荐的航班信息和景点、餐厅信息都挺准确的,这很难得。

在完成网页设计后,你可以通过自然语言让Trae调用veFaaS去自动构建后端,帮你把本地的html文件打包部署为可访问的页面,分享给你同行的朋友,Trae会自动调用veFaaS MCP帮你完成对应过程:

最后,我还通过自己的方式把这个网页部署到我自己的域名下,你可以尝试下看看最终的交互效果:https://doubao.bookai.top/dali\_travel\_plan.html

写在最后

综合测试下来,我觉得现在国内进行Agent开发的生态真的已经到了成熟,准备起飞的阶段了。以豆包1.6来说,ta的推理能力、编程能力、视觉审美,以及多模态的图片理解能力,以及很适合企业、开发者用来做Agent的快速开发和测试了,大模型是所有Agent的基石。

而在基石之上,则可认为是生态,尤其是以MCP为代表的大模型工具市场,火山方舟提供的MCP,串联起了Agent的“思考—执行—展示”全流程,让Agent落地路径标准化了不少。

我这两天还看了Cursor CEO Michael Truell接受硅谷孵化器YC CEO的访谈节目,他提到在AI时代,真正区分人与人之间差别的是「Taste品味」,因为现在AI 已经能生成几乎任何代码,但它永远不能替你决定:“我们应该做一个什么样的产品?”

说到底,从大模型思考,到MCP执行任务,到网页最终上线,整个开发链路我几乎没有碰传统后端,也没有写一行部署代码,全流程就是:豆包1.6 ➜ MCP调度 ➜ Trae开发 ➜ veFaaS部署

这种“AI云原生”的Agent开发范式,正在慢慢取代传统开发逻辑:你不再需要自己拼数据源、搭部署环境,只需要组合已有组件、发出准确指令。如果说大模型是大脑,MCP是手脚,veFaaS就是它的居所。而Trae把这一切都织成了完整的生产链。

如果你也想上手做点什么,不妨把“AI云原生”当作你新项目的起点。

所以,有了这些生态和工具后,你想好要去创造点什么了嘛?