也就是输入视频和音频,生成新的口型
也就是输入视频和音频,生成新的口型