两天前,摩根大通发布了一份针对中国人工智能行业的深度研究报告。核心结论只有三句话:官方直营基础设施决定成本下限,Token 市场供应受限,需求远未饱和,头部企业需以最优水平能力对抗价格压力。
这根本不是传统意义上的价格战,而是一次降维打击。
报告的第一个核心观察,直指一道四十倍的成本鸿沟。
DeepSeek V4 Pro 在五月底截止的促销窗口期内,给出的输入缓存命中价是 0.025 元 / 百万 Token。而阿里巴巴百炼、腾讯云、百度千帆三家主流第三方云厂商提供的同款 V4 Pro 缓存命中价,约为 1 元 / 百万 Token。前者是后者的四十分之一。即便促销期结束恢复 0.1 元的标价,差距依然接近十倍。
摩根大通分析师在报告中明确指出:模型权重可以广泛散布,而有效服务的最低成本和最佳 API 质量,仍取决于缓存复用、路由流量密度和计算分配。开源的权重文件人人都可以下载部署,但决定成本曲线的,是 DeepSeek 独家掌控的底层硬件适配、前缀缓存策略和海量并发调度机制,这些根本无法借用。

0.025 元的价格优势,在智能体工作流中是毁灭性的。
对于编码智能体这类典型的高频重复场景,其缓存命中率往往能达到 90%。在这种情况下,总任务成本将呈现出断崖式下跌。如果命中率进一步逼近 99%,输入成本趋近于零,整个任务仅剩输出费用。编码智能体每次调用都要重发庞大的代码库状态,企业级检索增强生成系统反复读取内部的客户记录与知识库,这些输入几乎都是高度重复的。上下文成本差距最大的地方,恰恰是人工智能部署最集中的领域。
理解了成本铁底的形成机制,再来看第二个核心观察:这个市场根本不是零和博弈,而是严重供不应求。
国家数据局局长刘烈宏在 2026 年 3 月中国发展高层论坛上公开披露:2024 年初,国内日均 Token 调用量为 1000 亿;到 2025 年底跃升至 100 万亿;今年 3 月已突破 140 万亿。两年增长超千倍。
分析师在报告中同步印证:经济上可行的人工智能工作负载库存的增速,仍超过服务能力。DeepSeek V4 上线三周后,GLM 系列、MiniMax 乃至 DeepSeek 自己的上一代 V3.2 调用量,均未出现全面下滑。
低价不是在摧毁行业价值体系,而是在激活大量过去因调用成本过高而被迫冻结的真实刚需。那些等待被人工智能接管的庞大库存工作量,比如旧代码重构、多语言法律文本比对,以及超长知识图谱构建,它们的潜在规模远超当前算力的供给上限。
宏观层面,国家级基础设施建设者已经全面入局。中国电信于 2026 年 5 月 17 日推出系列市商用 Token 套餐:面向个人及家庭用户的轻享版月费 9.9 元,含 1000 万 Token;尊享版月费 49.9 元,含 8000 万 Token。面向开发者及中小微企业的旗舰版月费 299.9 元,含 1.5 亿 Token。中国联通已推出面向个人和团队的 Token Plan,中国移动也在加速布局。
三大运营商凭借庞大的下沉网络和无与伦比的计费触达能力,将人工智能算力的分发格局彻底重塑,从企业高昂的资本性投入,转向全民可及的按需订阅。
这就自然引出了第三个核心观察:面对 DeepSeek 砸穿的价格地板,唯一可持续的应对,是将能力提升到明显的最优水平。
报告中直接点名:化解 DeepSeek 成本压力的唯一可持续方法,是将能力提高到明显的最优水平,此时的溢价由偏好领先把控。
智谱的战略选择是彻底押注 B 端工程稳定性。其旗舰模型 GLM-5.1 在全球权威编码评测 SWE-benchPro 中取得 58.4 分,超越 GPT-4o 的 57.7 分与 Claude-3.6 的 57.3 分,刷新了开源领域记录。在单次复杂任务中,GLM-5.1 可无人工干预地连续稳定运行长达 8 小时,完成从架构规划、代码编写、反复测试到自我修复的完整闭环。
摩根大通的报告更以 WebDev 头对头实测为例,在与 V4 的直接比较中,GLM-5.1 仍能取得实战六胜的成绩,明确处于偏好前沿。在严苛的生产环境中,试错成本远高于 API 调用成本。能够显著降低客户重试次数和多步循环次数的模型,天然拥有不受价格战侵蚀的定价权。相关机构对智谱维持了积极的长期展望,认为其在 B 端工程稳定性的壁垒,有望支撑其远期商业营收的规模化扩张。
硅谷一间独立游戏开发实验室内,主控屏幕被密密麻麻切分为十几个窗口。MiniMax 的 M2.7 正在同时并行生成多名角色的分支对白文本、实时渲染三维贴图,并自主修改后台的物理引擎参数。大量冗余代码被其自身机制果断删除并即时重构。
MiniMax 选择了另一条路径:全球化 C 端多模态生态。M2.7 文本模型自主管理了 30% 至 50% 的强化学习研究工作流,并在多项机器学习竞赛中夺得金牌。通过文本音频模型 MiniMax Music 2.6,以及即将重大升级的视频模型 Hi-6.3,MiniMax 在全球积累了数以百万计的付费用户。根据其 2025 年度业绩,海外收入占总收入的 73%,收入结构的全球化程度在国内大模型厂商中一骑绝尘。
外资机构普遍看好 MiniMax 的全球化商业化潜力,认为其多模态生态具备显著的长期成长溢价空间。高盛在 2026 年 2 月首次覆盖 MiniMax 的研报中指出,相关机构测算其远期估值弹性的核心变量,在于其能否在全球人工智能基础模型市场中,实现市占率的跨越式扩张。
市场结构正在向双层分化演进。
DeepSeek V4 与 GLM-5.1 之间的能力差距,在实际的 WebDev 头对头评测中,转化为后者约 60% 的胜率。对于价格敏感型工作负载,V4 凭借极低的缓存命中价持续吸纳;对于质量优先型工作负载,GLM 和 MiniMax 仍能维持溢价。处于两者之间的次前沿模型,正面临被同时从成本端和偏好端挤压的双重压力。
有两个时间节点需要持续跟踪。
据 DeepSeek 官方开发者平台公告,DeepSeekChat 与 DeepSeeker 两个旧版接口,将于北京时间 2026 年 7 月 24 日 23 点 59 分强制停用,届时分别转接至 WithFlash 的非思考模式与思考模式。
眼下在开源社区和各路外包 SaaS 团队里,这个截止日已经引发了相当程度的连锁反应。有团队连夜开会梳理业务代码,逐行替换接口调用参数;有开发者在社区里抱怨旧版 Prompt 需要整体重写才能适配 V4 的新输出格式。这种一线的焦虑与行动,是检验底座模型替代速度最真实的物理信号。
2026 年 8 月中下旬,智谱与 MiniMax 将披露上市后首份完整的半年度业绩报告。API 实际结算收入、各业务线毛利率变动,以及年度经常性收入的环比数据,将精准验证摩根大通 “底层降价反而促成总盘子做大” 的核心逻辑,是否在资产负债表上得到真金白银的兑现。
从传统 SaaS 软件许可订阅,到以 Token 为核心流通货币的公用事业化纪元,这场转型不是渐进的,而是残酷的加速。DeepSeek 用极致的基础设施优势砸穿了价格地板,三大运营商用 9.9 元的套餐打开了下沉市场的闸门。缺乏原生架构调优能力的第三方 Web API 平台,沦为纯粹算力管道的命运几乎已经写定。
真正能够穿越这轮周期的标的,必须在特定工作流中,将任务首发命中率提升到不可替代的水准。