铭鸿体育资讯网

小米技术今日介绍了 MiMo-V2.5 系列大模型 API 降价的背后技术逻辑:

小米技术今日介绍了 MiMo-V2.5 系列大模型 API 降价的背后技术逻辑:

本次大幅降价的核心来自『底层推理全链路重构』,小米基于 Hybrid SWA+MoE+多模态复合架构,完整优化 KVCache 管理、分级缓存、前缀缓存、调度策略及 Prefill/Decode 链路。MiMo‑V2.5‑Pro 采用 70 层 Transformer,仅 10 层 Full Attention,60 层用 128 token 滑动窗口 SWA,把 KVCache 存储与计算量压至传统方案约 1/7,长文本成本优势尤为明显。工程层面实现了多项关键突破,KVCache 拆分为 Full 与 SWA 双池,容量效率提升约 7 倍;重构前缀缓存树,解决 SWA 伪命中问题,线上命中率平均达 93%,高频用户超 95%;自研 GCache 三级分布式缓存,支持 GPU/CPU/SSD 自动流转,无额外存储成本,单进程读吞吐 170 GB/s、延迟 280 μs。调度与计算链路也同步升级,上线 KVCache 亲和与优先调度,TTFT P90 降低 30%;EP 缩减与三级分桶让 Prefill 性能提升约 40%。Decode 阶段通过显存扩容与 MTP 多层投机解码,前 128 token 加速比达 2.3×,并发与吞吐显著提升。多模态方面实现 Encoder 并行化,1 小时视频端到端延时从 156 秒降至 23 秒,整体吞吐翻倍。小米强调,模型能力无任何缩减,相同硬件下实现更高吞吐、更低延迟,成本优势直接以降价回馈开发者。目前部分优化已提交至 SGLang 开源社区,后续将持续推进开源,降低高效架构落地门槛。