论文中提到音频输入是归一化到24,000Hz,但我观察仓库中都是默认16kHz的逻辑。 我在测试各个数据集的ASR性能的时候,和技术报告中给出的结果有较大的差异,我的脚本是基于example.py撰写的,其中prompt以及解码参数与其保持一致。