检查项
期望的功能描述
目前已有用户通过 Issue 提出添加语音功能的需求,相关功能也已上线。当前使用的 TTS 模型音质表现良好,但推理成本较高,影响系统的可扩展性与运行成本。
❗ 当前问题
现有 TTS 模型推理成本过高,不适合大规模使用或频繁调用。音色选择有限,无法满足部分用户对音色多样性的需求。
✅ 可行替代方案
在硅基流动模型中发现了赠费可用的 TTS 模型 FunAudioLLM/CosyVoice2-0.5B,具有以下优势:
支持多种音色(多角色、情绪表达)。
推理成本远低于当前使用的模型。

建议
集成进现有语音输出模块,作为可选 TTS 后端。
补充信息
No response
检查项
期望的功能描述
❗ 当前问题
✅ 可行替代方案
建议
补充信息
No response