StepAudio 2.5 端到端实时语音 Demo

本地测试,不接 SIP / Asterisk

连接与音色

支持 mp3/wav。官方建议音频 5-10 秒;克隆成功后会自动填入音色 ID。
等待克隆
未连接

实时对话

每轮耗时观测

轮次 模式 ASR 首字 首音频 完成 打断 错误

耗时从“用户说话结束”开始计算。文字测试没有真实 ASR,所以 ASR 可能为空。