-
Notifications
You must be signed in to change notification settings - Fork 15
Open
Description
在zero shot和cross lingual zero shot测试集上,
原始论文(https://arxiv.org/pdf/2505.17589, Table5, Table6, Table8)WER结果
zh | 4.08
en | 6.32
hard_zh | 12.58
hard_en | 11.96
en2zh | 13.5
zh2en | 6.47
使用CV2开源模型在CV3-EVAL上的WER测试结果
zh | 4.51
en | 9.36
hard_zh | 10.99
hard_en | 11.81
en2zh | 11.71
zh2en | 10.64
其中en和zh2en集合结果明显变差,hard_zh和en2zh集合结果明显变好。
请问是论文中的测试方法和EV3 EVAL的测试方法有差异吗?使用CV2模型合成音频的时候是否对prompt audio做了其他处理?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels