小米 MiMo 团队与 TileRT 团队联合发布了MiMo-V2.5-Pro的UltraSpeed模式,在通用GPU集群上将万亿(1T)参数模型的推理生成速度首次突破1000 tokens/s,最高可达约1200 tokens/s。
为了更直观地理解这一突破的意义——一个拥有万亿参数的“超级大脑”,过去在思考和生成内容时,受限于推理速度,用户往往需要等待数秒甚至更久才能获得完整回答。
如今,小米 MiMo 团队通过模型与系统的深度协同优化,将这一“大脑”的思维速度提升了数十倍:以前用大模型总得等几秒才出结果,现在基本上是秒出了,复杂长文本也不用等。
今日,MiMo-V2.5-Pro-UltraSpeed API 正式开放限时体验。定价为 MiMo-V2.5-Pro 的 3 倍,同时提供输出速度约 10 倍的提升!3 倍价格提升,10 倍输出体验(仅支持 API 体验,不支持 Token Plan)。
资源有限,这次走申请制,时间到 6 月 23 日 23:59 截止,想试的得抓紧申请。






