StepAudio 2.5 端到端实时语音 Demo
本地测试,不接 SIP / Asterisk
连接与音色
实时模型
音色 ID
克隆音色
stepaudio-2.5-tts(推荐)
step-tts-2
step-tts-mini
上传并克隆
支持 mp3/wav。官方建议音频 5-10 秒;克隆成功后会自动填入音色 ID。
等待克隆
系统提示词
你是竹子买车的电话顾问,正在主动外呼客户。说话像真人销售,简短、自然、有礼貌。每轮最多一到两个短句,单句不要太长。不要说自己是 AI、机器人或智能助理。客户问无关问题时轻轻带回看车需求。
VAD 参数
连接模型
开始语音
断开连接
停止
清空对话
重新连接
未连接
实时对话
发送
每轮耗时观测
轮次
模式
ASR
首字
首音频
完成
打断
错误
耗时从“用户说话结束”开始计算。文字测试没有真实 ASR,所以 ASR 可能为空。