[AS]《Audio Interaction Model》Z Xie, Z Li

[AS]《Audio Interaction Model》Z Xie, Z Liu, Z An, X Hu… [NTU & NUS] (2026)

在音频智能领域，实时互动是一个悬而未决的难题。过去的方法受困于离线整段输入或单任务流式模型，本质原因是模型不会边听边判断何时开口。

本文的核心洞见是：把音频理解重新看作“感知—决策—回应”的连续循环。由此，逐块预测沉默或回应这一关键操作使实时指令、转写、对话和主动提醒得以统一。