核心亮点:小模型,大能力维度
Supertonic
传统云端 TTS
参数量
99M
0.7B-2B+
推理位置
完全本地(无网络请求)
云端 API 调用
延迟
<100ms< strong>(比云端快 10 倍)
几百毫秒到几秒
语言支持
31 种语言 + 语言无关模式
通常 10-20 种
音频质量
44.1kHz CD 音质 WAV
通常 22-24kHz
硬件要求
Raspberry Pi 可运行
需要稳定网络
本质:通过 ONNX Runtime 优化,在极小参数量下实现生产级 TTS 能力
技术架构:为什么能这么快?ONNX Runtime 优化跨平台推理引擎,CPU/GPU 自动优化支持 WebGPU(浏览器端)、ARM(移动端)、x86(桌面端)99M 超轻量模型对比:OpenAI TTS (1.5B+)、Qwen3-TTS (2B)、Bark (0.7B)体积优势:下载快、启动快、内存占用低真实世界文本优化金融表达:$5.2M → "five point two million dollars"电话号码:(212) 555-0142 ext. 402 → 正确分段朗读技术单位:2.3h at 30kph → "two point three hours at thirty kilometers per hour"表情标签系统She walked into the room, it's been a long day.10 种内置标签:、、、 等无需参考音频:纯文本控制情感表达快速上手Python(最简单)pip install supertonic
from supertonic import TTS
tts = TTS(auto_download=True) # 首次自动下载模型
style = tts.get_voice_style(voice_name="M1")
wav, duration = tts.synthesize(
text="Supertonic is lightning fast!",
lang="en",
voice_style=style,
total_steps=8, # 质量:5-12,8为默认
speed=1.05 # 语速:0.7-2.0
)
tts.save_audio(wav, "output.wav")
print(f"生成了 {duration[0]:.2f} 秒音频")其他平台支持Web 浏览器:WebGPU 直接运行(Chrome 插件 TLDRL 就是基于此)移动开发:iOS/Android/Flutter SDK系统集成:C++/C#/Go/Rust 等 11 种语言 SDK边缘设备:Raspberry Pi、电子书阅读器(Onyx Boox Go 6)性能实测对比场景
Supertonic
ElevenLabs
OpenAI TTS
Bark
金融文本
✅ 完美处理
❌ 读错单位
❌ 读错单位
⚠️ 部分正确
电话号码
✅ 分段清晰
❌ 连读错误
❌ 连读错误
⚠️ 部分正确
本地延迟
~50ms
N/A(需网络)
N/A(需网络)
~2000ms
CPU 占用
低
-
-
极高
离线支持
✅ 完全离线
❌ 需联网
❌ 需联网
✅ 但慢
关键优势:在 真实世界复杂文本 处理上碾压云端方案
典型应用场景个人生产力网页朗读:TLDRL Chrome 插件,整页转语音 <1 秒电子书听读:Onyx Boox 电子书阅读器离线 TTS笔记转音频:Obsidian/Logseq 笔记一键朗读AI Agent 集成本地语音助手:配合 OpenHuman/Hermes 实现完全离线语音交互多语言客服:31 种语言支持,无需云端 API无障碍应用:视障用户本地化语音反馈企业部署数据隐私敏感场景:医疗、金融、政府等不能外传数据的行业边缘计算:工厂、车载、IoT 设备上的语音播报成本控制:避免云端 TTS 按字符计费的高昂成本当前局限文档分散:各语言 SDK 示例分散在子目录,需要手动查找音色固定:目前只有预设音色(M1-M5, F1-F5),自定义音色需 Voice Builder(付费)中文表现:虽然支持中文,但相比专门的中文 TTS(如 Azure 中文)可能略逊一筹Supertonic 代表了 TTS 技术的重要趋势:
从"云端依赖"转向"本地优先",从"实验室完美样本"转向"真实世界复杂文本"
随着 ONNX Runtime 生态的完善和模型压缩技术的进步,高质量本地 TTS 将成为标配,而非奢侈品。
项目地址:https://github.com/supertone-inc/supertonic Hugging Face:Supertone/supertonic-3
Supertonic:99M 参数本地 TTS 引擎,比云端快 10 倍
核心亮点:小模型,大能力维度
Supertonic
传统云端 TTS
参数量
99M
0.7B-2B+
推理位置
完全本
阅读:36
点赞:0