Skip to content

使用 CosyVoice2-0.5B 替代现有 TTS 模型以降低成本并丰富音色选择 #7

@sky4178

Description

@sky4178

检查项

  • 我确认在Issues列表中并无其他人已经建议过相似的功能
  • 这个新功能可以解决目前存在的某个问题或BUG

期望的功能描述

目前已有用户通过 Issue 提出添加语音功能的需求,相关功能也已上线。当前使用的 TTS 模型音质表现良好,但推理成本较高,影响系统的可扩展性与运行成本。

❗ 当前问题

现有 TTS 模型推理成本过高,不适合大规模使用或频繁调用。音色选择有限,无法满足部分用户对音色多样性的需求。

✅ 可行替代方案

在硅基流动模型中发现了赠费可用的 TTS 模型 FunAudioLLM/CosyVoice2-0.5B,具有以下优势:
支持多种音色(多角色、情绪表达)。
推理成本远低于当前使用的模型。

Image

建议

集成进现有语音输出模块,作为可选 TTS 后端。

补充信息

No response

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions