排行榜是别人的，手感是自己的：Kimi K2.6上手体感报告

原创：亲爱的数据

月之暗面的Kimi K2.6模型开源了，

我玩了玩，

更加确信一个判断：

别再依赖外界Benchmark，

要有自己评估模型的Benchmark，

也就是自建Benchmark。

比如，一个头部大模型公司的模型开源了，

你必须在半天之内搞清楚，

这个模型强在哪，差在哪。

这是当下企业技术一号位的核心竞争力之一。

如果这点都做不到，

说实话，谭老师都不想和他（她）聊天。

无独有偶，今年年初，

火山引擎内部的一次分享，

我亲耳听到吴迪老师也是这么说的，

当场，想把大腿拍断了，

考虑到以后走路还要用，

就算了。

而且，我还想小声说，

那些唯打榜论的流派，求断更。

我不是说啥Benchmark都不参考，

参考也是行业惯例。

但我还是想说，

即便模型能力是通用的，

业务不是通用的，

你想在某个场景上表现好，

SWE-bench考满分也跟你没关系。

那怎么做呢？

我的想法是把业务场景变成考试题，

你自己出题，拿来考每一个新模型，

"半天之内告诉我强在哪，差在哪"这意味着什么？

这话的潜台词是：

自建Benchmark必须是，

自动化的、可复现的、随时能跑的。

而不是，派个手下小弟，

手动试用三天，写一份报告。

而是，一个新模型开源了，

你把模型接入自建测试管道，

按下按钮，测试跑起来，

半小时后，

拿到一份结构化的评估报告：

哪些场景比上一个模型好了

哪些场景退步了，

哪些场景完全不能用。

不是"我能判断模型好不好"，

是"我建了一套系统，

能自动判断模型好不好"。

一个是个人经验，一个是组织能力。

孰强孰弱，不用多说。

所以，我从不认为自己在“测评”，

上手玩一圈，说一下手感怎么样，

哪里惊到我了，哪里不太好。

评测给的是结论，体验给的是感受。各有其用。

说回Kimi K2.6，

月之暗面刚开源的这个模型。

圈子里讨论不少，群里聊得也挺热闹。

但别人说好不好用不算数，

自己上手摸一把才算数。

以下是我的体感。

先上一段提示词：

这个执行流程，可以展开一下，

第一，用SKILL。

两次读取 SKILL.md，

按照预设的Skill指导自己一步步做，

不是一开始全加载，

而是做到哪一步才读哪个 Skill。

第二，派出子Agent。

Kimi的Agent集群派了一个设计师西泽。

因为目前只有1个并行任务。

且我的需求只有一个网站，

所以它只派了一个子Agent。

真正的集群压力测试得看，

同时派三五个子Agent 的场景，

后面我会设计一个更难的，

"同时出 Word + Excel + PPT"的任务。

第一眼确实有点东西。

暗色背景、金色分割线、

排版克制，没有满屏霓虹灯的廉价感。

导航栏的分类也算合理，不像是AI随便编的。

但严格讲，标题“AI 代码纪元”，

这种命名还是有股AI味——太宏大，

要我说，写大不难，而写准很难。

整体体验上，视觉90分，内容框架80分，

我的体感是，拿来当快速原型，

用来展示完全够用。

看到这，我突然想到，

以后展示项目成果可以用AI，

这种网站视觉效果可比PPT好多了，

AI编程这么方便，

很多办公软件会直接被干掉了，

如果以后谁还让同事填Excel表，就太老登了。

只玩成这样贴图可不行，

就成AI生图测试了。

Kimi直接部署了：

https://nzknvyjr6h35i.ok.kimi.link/

既然Kimi K2.6生成了代码，

我让它推到GitHub，

再通过Vercel部署上线一次。

Vercel是“把网站一键发布到互联网上”的平台，

29秒构建完成，状态绿灯，

自动分配了一个域名，

也可以直接公网访问。

https://ai-code-era.vercel.app/

一份代码，两次部署，

工作结束了。

不得不提的是，

再部署的那个备份网址，

用Vercel部署，也是Kimi教我的，

惊不惊喜，意不意外。

我好想说一句，碳基结束了。

几句提示词，

快速拉起一个能打开的网站，

全程没写一行代码，没碰一下服务器，

这个链路跑通了。

能跑起来不报错，

说明K2.6生成的代码质量，

至少过了Vercel这关。

不过，这是静态页面，难度等级一般，

真正的考验是，

带后端和数据库的全栈应用，

也一键跑通，那才是硬仗。

最后，所有的代码都可以直接打包下载，

我和一个技术小哥哥聊天，问他，

这种底座模型迭代，他最想用啥，

他说肯定是Agent集群，

现在的底座模型对Agent友好是“标配”

也就是说，不只是写代码好，

还要在Agent长时间自主运行的场景下，

稳定可靠。

但是，有一点，

当你在Kimi网页端测K2.6的时候，

测的其实是"K2.6 模型

+ Prompt设计，

+ 上下文管理，

+ Agent流程，

+ 工具能力，

这是一整套。

这五层里，大模型只在第一层。

后面四层，全是Harness的事。

Kimi K2.6的Harness的设计原理，现在不清楚，

我们只能用结果说话，

但是，在现在这个阶段，想把Agent集群玩好，

Harness必须杠杠好。

这次关键要看Kimi特有的"Agent集群"能力。

前面讲了，给了三个任务让它同时输出，

“同时”要重读。

这样，要验一件事：

它到底是一个Agent排队做三件事，

还是真的派了三个Agent同时干。

前者是假集群，后者才是真的。

区别不只是快慢，

串行到第三个任务的时候，

Agent的脑子，

已经被前两个任务塞满了，质量会掉。

真正的集群，

每个Agent各管各的，质量稳定。

要知道，体验也是要动脑子的，

我的任务，信息密度都非常高，

CMA是很新的概念，

AI可能会在某个环节，偷懒或降级处理。

关键看它输出的内容里有没有一个细节，

execute(name, input) → string，

这种接口级的信息。

没有，就是泛泛而谈，

有，就是踏实干活。

结果确实被我发现了点端倪：

不过Kimi也很坦诚，

坦诚的前提是智商到位，

否则会死犟不承认，

它明确告诉我：

CMA的API 文档，

execute/handle 方法签名，

Session Persistence 协议细节，

官方架构图，

这些一手信息“我没有，我不瞎写”。

然后，它主动要 URL，

谭老师我给了，它去读了。

大多数AI遇到这种情况，

会怎么做？答案是，硬编。

有些AI，编起瞎话油盐不进。

编一套看起来像那么回事的API接口，

自信满满地交出来。

看似每一步，拼尽全力，

实际每一下，多此一举；

只要不去核实就信了，一用就出错。

然而，K2.6选择了说"我不知道，

让我给官方文档的链接，自己去读。

它知道自己什么不知道，

比起什么都敢编，上了一个境界。

这不是K2.6 "自我纠错能力提升"，是啥？

玩到这，是不是觉得手感还不错，

也许K2.6没有想到我会查它的CoT。

哈哈哈，我笑的声音有点大。

要我说，亮点确实有，

但我们还是要让交付结果说话。

我还是要再次强调，

CMA的任务不简单，

我曾经问过10个技术小哥哥，

其中有7个都还没有跟上CMA这波操作。

而那些有实力的大厂Agent团队，

根本不写什么公众号流量稿，瞎吹自己的龙虾，

而是不动声色，打算一鸣惊人。

给大家看个聊天记录，头像已打码。

看看这位小哥哥的微信回复时间，凌晨3:10，

看来，这位大厂同学的刻苦程度，

在我之上，在下佩服。

聊回K 2.6的结果，

我主要看PPT质量

Word和Excel都不重点关注，

主要看子Agent并行情况。

没二话，这页PPT就是我想说的，一图顶千字：

还细心地给我加上了logo，

产品细节到位，好感度+1。

这些都还不够，要更深入，

因为我最喜欢的游戏就是“深入浅出”，

四个维度的拆解是对的。

Agent创业公司、云厂商、企业客户、开源生态，

CMA对这四类玩家的影响确实不一样，

它没有笼统地说"CMA改变了一切"，

而是分角色讲影响。

每个卡片的结论有判断力。

不是在陈述事实，是在做推断，

这些结论不是废话，有观点。

底部投资启示那段话写得不错，不是空话。

"模型层的差异化正在减弱，

基础设施层和平台层将成为新的价值高地"，

这也是我认同的：

"从卖模型到卖平台"的战略转轨。

写错的地方是：

第一个卡片说，

"CMA直接吸收了 LangChain，

CrewAI 等创业公司的价值主张"，

这个说法不够准确。

CMA不是在做LangChain和CrewAI做的事。

LangChain做的是框架，

CrewAI做的是多Agent编排，

"纠缠软件"是什么？Agent？还是Harness?

CMA做的是meta-harness。

CMA没有"吸收"它们，

是把它们变成了可以在CMA 上面跑的应用。

关系是"平台容纳"，不是"平台替代"。

CMA是全球领先的新概念，

我出的题目挺难的，

这结果比大多数AI或者人类做的强不少。

AI这么努力的提高自己，

人类也不能躺平。

于是，谭老师我，单方面宣布，

我和那些好用AI的友谊，

青山不改，

绿水长流。

铭鸿体育资讯网

排行榜是别人的，手感是自己的：Kimi K2.6上手体感报告

热门分类