看了下代码,好像基本是基于字幕来做的;没有参考图像的理解或者语音asr?
看了下代码,好像基本是基于字幕来做的;没有参考图像的理解或者语音asr?