StepAudio 2.5 端到端实时语音 Demo

本地测试，不接 SIP / Asterisk

连接与音色

实时模型音色 ID

克隆音色

支持 mp3/wav。官方建议音频 5-10 秒；克隆成功后会自动填入音色 ID。

等待克隆

系统提示词 VAD 参数

未连接

轮次	模式	ASR	首字	首音频	完成	打断	错误

耗时从“用户说话结束”开始计算。文字测试没有真实 ASR，所以 ASR 可能为空。