小米技术今日介绍了 MiMo-V2.5 系列大模型 API 降价的背后技术逻辑：

本次大幅降价的核心来自『底层推理全链路重构』，小米基于 Hybrid SWA+MoE+多模态复合架构，完整优化 KVCache 管理、分级缓存、前缀缓存、调度策略及 Prefill/Decode 链路。MiMo‑V2.5‑Pro 采用 70 层 Transformer，仅 10 层 Full Attention，60 层用 128 token 滑动窗口 SWA，把 KVCache 存储与计算量压至传统方案约 1/7，长文本成本优势尤为明显。工程层面实现了多项关键突破，KVCache 拆分为 Full 与 SWA 双池，容量效率提升约 7 倍；重构前缀缓存树，解决 SWA 伪命中问题，线上命中率平均达 93%，高频用户超 95%；自研 GCache 三级分布式缓存，支持 GPU/CPU/SSD 自动流转，无额外存储成本，单进程读吞吐 170 GB/s、延迟 280 μs。调度与计算链路也同步升级，上线 KVCache 亲和与优先调度，TTFT P90 降低 30%；EP 缩减与三级分桶让 Prefill 性能提升约 40%。Decode 阶段通过显存扩容与 MTP 多层投机解码，前 128 token 加速比达 2.3×，并发与吞吐显著提升。多模态方面实现 Encoder 并行化，1 小时视频端到端延时从 156 秒降至 23 秒，整体吞吐翻倍。小米强调，模型能力无任何缩减，相同硬件下实现更高吞吐、更低延迟，成本优势直接以降价回馈开发者。目前部分优化已提交至 SGLang 开源社区，后续将持续推进开源，降低高效架构落地门槛。

铭鸿体育资讯网

小米技术今日介绍了 MiMo-V2.5 系列大模型 API 降价的背后技术逻辑：

热门分类