- 比较模型
- 提前调研:模型大小,资源需求(1个80g显存卡可inference),是否提供inference code和weight(可测试),长视频生成能力,avatar生成能力
- 在 1个 80g卡下可测试推理能力,可以测同一个模型提供的不同模型大小的的效果
- 通用视频生成
- 离线视频生成模型 1. Wan2.2 2. Hunyuanvideo-1.5 3. Skyreels v3
- 自回归视频生成模型 1. Self-forcing 2. Longlive
- 联合音视频生成 1. Mova 2. ltx-2 3. ovi
- Avatar视频生成
- 离线视频生成 1. Echomimic2 2. Hallo3 3. Hunyuanvideo-avatar 4. wan2.2-s2v 5. Omniavatar 6. multitalk 7. Longcat-video 8. Stableavatar 9. fantasytalking
- 自回归视频生成 1. Liveavatar 2. livetalk 3. SoulX-FlashTalk
- 素材和标准
- 主要测试avatar的表现能力,根据模型本身的能力,提供text/image/audio
- 提供标准可复用的提示测例text/image/audio
- 素材
- Audio 1. 讨论/唱歌
- Reference image 1. 半身/全身 2. 站着/坐着/躺着
- 情景 1. 演讲/下棋/弹琴/跳舞 2. 微笑/愤怒/悲伤
- 标准(长时间生成)
- 画面的稳定性
- 人物的一致性
- 音频嘴形一致性
- 面部神态丰富度
- 全身动作丰富度