Skip to content

CosyVoice2模型无法复现CosyVoice3论文中的结果 #4

@zhangyike

Description

@zhangyike

在zero shot和cross lingual zero shot测试集上,
原始论文(https://arxiv.org/pdf/2505.17589, Table5, Table6, Table8)WER结果

zh | 4.08
en | 6.32
hard_zh | 12.58
hard_en | 11.96
en2zh | 13.5
zh2en | 6.47

使用CV2开源模型在CV3-EVAL上的WER测试结果
zh | 4.51
en | 9.36
hard_zh | 10.99
hard_en | 11.81
en2zh | 11.71
zh2en | 10.64

其中en和zh2en集合结果明显变差,hard_zh和en2zh集合结果明显变好。

请问是论文中的测试方法和EV3 EVAL的测试方法有差异吗?使用CV2模型合成音频的时候是否对prompt audio做了其他处理?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions