avatar-benchmark 模型调研报告

调研日期：2026-03-05 硬件约束：单张 80GB A800 GPU 调研字段：GitHub 链接、模型规格、推理显存、推理代码、可下载权重、最大视频时长、avatar 能力、输入模态、80G 适配性

图例：可测 = 80G A800 单卡可推理 + 提供推理代码和权重；条件可测 = 需开启 offload/量化等优化；待确认 = 信息不足需实测；不可测 = 硬件或权重不满足

一、通用视频生成模型

1.1 离线视频生成

Wan2.2（通用 T2V/I2V）

字段	信息
GitHub	https://github.com/Wan-Video/Wan2.2
模型规格	T2V-14B / I2V-14B-480P / I2V-14B-720P（MoE 架构，总参数 27B，每步激活 14B）
推理显存	offload 模式约 24GB；无 offload 约 43GB
推理代码	Yes
可下载权重	Yes（HuggingFace: Wan-AI/Wan2.2-T2V-14B 等）
最大视频时长	5-8s（标准分辨率），滑窗方式可延长
Avatar 生成	No（通用 T2V/I2V，S2V 版本见 2.1 节）
输入模态	text→video / text+image→video
80G A800 适配	可测（开启 `--offload_model True` 约 24GB，无 offload 也在 80G 范围内）

HunyuanVideo-1.5

字段	信息
GitHub	https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
模型规格	8.3B（仅此一种规格，较原版 13B 更轻量）
推理显存	有 offload 约 14GB；无 offload 约 24-30GB
推理代码	Yes
可下载权重	Yes（HuggingFace: tencent/HunyuanVideo-1.5）
最大视频时长	5-10s（720p，SR 模块可升至 1080p）
Avatar 生成	No（标准 T2V/I2V）
输入模态	text→video / text+image→video
80G A800 适配	可测（8.3B 单卡轻松，推荐）

SkyReels-V3

字段	信息
GitHub	https://github.com/SkyworkAI/SkyReels-V3
模型规格	待确认（V2 有 1.3B / 14B-540P / 14B-720P 版本；V3 新增多模态+audio-driven 能力）
推理显存	待确认（V2 14B 约 43-51GB；V3 类似估算）
推理代码	Yes（2026-01-29 发布）
可下载权重	待确认（V3 HuggingFace 页面需核实）
最大视频时长	V2 DF 系列支持无限长；V3 待确认
Avatar 生成	Yes（V3 新增 audio-driven avatar 能力，A2V-19B 模型）
输入模态	text→video / text+image→video / image+audio→video（V3 新增）
80G A800 适配	待确认（V3 权重和显存需求需实测，参考 V2 14B 约需 43-51GB）

1.2 自回归视频生成

Self-Forcing

字段	信息
GitHub	https://github.com/guandeh17/Self-Forcing
模型规格	1.3B（基于 Wan2.1-T2V-1.3B + self_forcing_dmd.pt 权重）
推理显存	官方最低要求 24GB+（RTX4090/A100/H100 已测试）；Self-Forcing++ 版本支持至 4 分 15 秒
推理代码	Yes（NeurIPS 2025 Spotlight）
可下载权重	Yes（HuggingFace: gdhe17/Self-Forcing；基模型需 Wan-AI/Wan2.1-T2V-1.3B）
最大视频时长	理论无限（流式自回归，约 16 FPS on H100）；Self-Forcing++ 约 4min15s
Avatar 生成	No（通用 T2V）
输入模态	text→video
80G A800 适配	可测（24GB 需求，80G 充裕）

LongLive

字段	信息
GitHub	https://github.com/NVlabs/LongLive
模型规格	1.3B（基于 Wan2.1-T2V-1.3B，LongLive-1.3B）
推理显存	官方要求 40GB+（A100/H100 已测试）
推理代码	Yes（ICLR 2026，完整训练+推理代码）
可下载权重	Yes（HuggingFace: Efficient-Large-Model/LongLive-1.3B，CC-BY-NC 4.0）
最大视频时长	240s（单 H100，约 20.7 FPS）；已更新支持无限长
Avatar 生成	No（通用 T2V）
输入模态	text→video
80G A800 适配	可测（40GB 需求，80G 可行）

1.3 联合音视频生成

MOVA

字段	信息
GitHub	https://github.com/OpenMOSS/MOVA
模型规格	MOVA-360p / MOVA-720p（MoE 架构，总 32B 参数，18B active；视频 14B + 音频 1.3B + 桥接 2.6B）
推理显存	估算 18B active 约 36GB+；官方高吞吐示例用 8 卡；单 80G 卡理论可行但待确认
推理代码	Yes（2026-01-29 开源，含训练+LoRA 脚本）
可下载权重	Yes（HuggingFace: OpenMOSS-Team/MOVA-360p 和 MOVA-720p）
最大视频时长	8s（当前限制，更长时长开发中）
Avatar 生成	Yes（原生支持 lip-sync、多说话人、多语言）
输入模态	text→video+audio（T2VA） / image+audio→video（IT2VA）
80G A800 适配	待确认（18B active 估算约 36GB，单 80G 卡理论可行；官方推荐多卡，需实测验证）

LTX-2

字段	信息
GitHub	https://github.com/Lightricks/LTX-2
模型规格	19B（视频 14B + 音频 5B）；distilled 版本约 28GB；full BF16 约 40GB+
推理显存	FP8 优化后约 8-12GB；distilled 约 28GB；full BF16 约 40GB
推理代码	Yes（含 LoRA 训练器）
可下载权重	Yes（HuggingFace: Lightricks/LTX-2 系列）
最大视频时长	待确认（LTX-Video 13B 支持 60s；LTX-2 设计支持长视频）
Avatar 生成	Yes（原生音视频同步，支持 lip-sync；专项 avatar 能力待确认）
输入模态	text→video+audio / image+audio→video+audio / text+image→video
80G A800 适配	可测（FP8 distilled 单卡可行，full BF16 约 40GB 也在 80G 范围内）

daVinci-MagiHuman

字段	信息
GitHub	https://github.com/GAIR-NLP/daVinci-MagiHuman
模型规格	Base 15B（约 30.64GB）/ Distill 15B（约 61.20GB，8 steps）/ 540p SR / 1080p SR
推理显存	README 主要给出单 H100 数据；A800 80G 需连同 `google/t5gemma-9b-9b-ul2`（约 40.67GB）、`stable-audio-open-1.0`（约 4.85GB）和 Wan2.2 VAE 一并评估
推理代码	Yes
可下载权重	Yes（主模型公开；外部依赖为 `google/t5gemma-9b-9b-ul2`、`stabilityai/stable-audio-open-1.0`、`Wan2.2-TI2V-5B`；当前可从同名官方仓库下载）
最大视频时长	代码以 `seconds` 控制时长，固定 `fps=25`，实际帧数为 `seconds * 25 + 1`；README 示例为 4s / 5s
Avatar 生成	Yes（人像音视频同步、front-facing talking avatar 是主要示例场景）
输入模态	text+image→video+audio / text+image+audio→video+audio（可选 ref audio lipsync）
80G A800 适配	已验证可跑（A800 80G 单卡已完成 exact 官方权重加载、4s 384x384 最小验证和 768x768 自定义推理；实测显存峰值约 49.5GB，Distill / SR 路径仍更重）

OVI (Ovi)

字段	信息
GitHub	https://github.com/character-ai/Ovi
模型规格	11B（视频 5B + 音频 5B + fusion 1B）；FP8 量化版可用
推理显存	BF16 标准 32GB；FP8 约 24GB；cpu_offload 模式低至 8.2GB
推理代码	Yes（含 Gradio UI）
可下载权重	Yes（HuggingFace: chetwinlow1/Ovi；FP8 版: rkfg/Ovi-fp8_quantized）
最大视频时长	10s（Ovi 1.1 版本；5s 为基础版）
Avatar 生成	Yes（精确 lip-sync，支持多说话人、多语言、情绪表达）
输入模态	text→video+audio / text+image→video+audio
80G A800 适配	可测（FP8 模式 24GB，BF16 模式 32GB，80G A800 完全可行）

二、Avatar 视频生成模型

2.1 离线生成

EchoMimic v2

字段	信息
GitHub	https://github.com/antgroup/echomimic_v2
模型规格	SD-based UNet 架构（V3 约 1.3B）；主要组件约 5-8GB 文件
推理显存	最低约 16GB（V100 已测）；推荐 24GB（RTX 4090D 已测）；A100 80G 已测
推理代码	Yes
可下载权重	Yes（HuggingFace: BadToBest/EchoMimicV2）
最大视频时长	约 5-10s（120帧 @ 24fps）；可通过滑窗方式延长
Avatar 生成	Yes（半身 audio-driven avatar）
输入模态	image+audio→video
80G A800 适配	可测（官方已在 A100 80G 测试，推荐配置）

Hallo3

字段	信息
GitHub	https://github.com/fudan-generative-vision/hallo3
模型规格	基于 CogVideoX-5B I2V（约 5B 参数）+ T5-XXL + wav2vec2 + 人脸分析；总下载约 30-40GB
推理显存	CPU offload + VAE tiling 约 26GB；全精度无优化约 75-80GB
推理代码	Yes
可下载权重	Yes（HuggingFace: fudan-generative-ai/hallo3）
最大视频时长	理论无限（video extrapolation 策略串联片段，每段约 6s）
Avatar 生成	Yes（portrait audio-driven avatar；仅支持英文音频）
输入模态	image+audio→video
80G A800 适配	条件可测（需开启 CPU offload+VAE tiling 降至 26GB；全精度接近 80G 上限，建议启用优化）

HunyuanVideo-Avatar

字段	信息
GitHub	https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
模型规格	13B（MM-DiT）；FP8 量化约 14GB 显存；完整 BF16 需约 52GB+
推理显存	最低 24GB（极慢，704x768x129f）；推荐 96GB；FP8+CPU offload（via Wan2GP）约 10GB
推理代码	Yes
可下载权重	Yes（HuggingFace: tencent/HunyuanVideo-Avatar）
最大视频时长	129 帧（约 5s @ 25fps）单次推理；支持多角色
Avatar 生成	Yes（单/多人 audio-driven avatar，支持情绪控制）
输入模态	image+audio→video
80G A800 适配	条件可测（推荐 96GB，80GB 可能 OOM；建议降分辨率+FP8+CPU offload，实测确认）

Wan2.2-S2V

字段	信息
GitHub	https://github.com/Wan-Video/Wan2.2
模型规格	S2V-14B（MoE 架构，总 27B，激活 14B）
推理显存	官方要求至少 80GB；`--offload_model True` + `--t5_cpu` 可降低
推理代码	Yes
可下载权重	Yes（HuggingFace: Wan-AI/Wan2.2-S2V-14B）
最大视频时长	待确认（Wan2.1 14B 约 5-8s；S2V 版本需实测）
Avatar 生成	Yes（audio-driven 影视级角色动画）
输入模态	image+audio→video（可选 text prompt）
80G A800 适配	可测（官方明确要求 80GB，建议同时开启 offload 保险）

OmniAvatar

字段	信息
GitHub	https://github.com/Omni-Avatar/OmniAvatar
模型规格	OmniAvatar-14B / OmniAvatar-1.3B 两版本（基于 Wan2.1-T2V-14B/1.3B）
推理显存	14B 全精度约 36GB；1.3B 约 8-12GB
推理代码	Yes
可下载权重	Yes（HuggingFace: OmniAvatar/OmniAvatar-14B；需同时下载 Wan2.1-T2V-14B）
最大视频时长	待确认（480P；具体帧数上限未公开）
Avatar 生成	Yes（全身 audio-driven avatar，支持 31 种语言唇同步）
输入模态	image+audio+text→video
80G A800 适配	可测（官方在 A800 测试，14B 约 36GB，两个规格均可）

MultiTalk

字段	信息
GitHub	https://github.com/MeiGen-AI/MultiTalk
模型规格	14B（基于 Wan2.1-I2V-14B-480P）+ MeiGen-MultiTalk adapter
推理显存	480P 单卡 RTX 4090 可运行（低显存模式 `--num_persistent_param_in_dit 0`）；标准推理 A100 80GB
推理代码	Yes
可下载权重	Yes（HuggingFace: MeiGen-AI/MeiGen-MultiTalk）
最大视频时长	streaming 模式约 15s+；理论上更长
Avatar 生成	Yes（单人/多人 audio-driven avatar，支持对话场景）
输入模态	image+audio+text→video
80G A800 适配	可测（A100 为官方测试平台，A800 同等规格可运行）

InfiniteTalk

字段	信息
GitHub	https://github.com/MeiGen-AI/InfiniteTalk
论文	ArXiv 2508.14033
模型规格	14B（基于 Wan2.1-I2V-14B-480P）+ InfiniteTalk adapter；音频编码器：Chinese-wav2vec2-base
推理显存	低显存模式（`--num_persistent_param_in_dit 0`）约 24GB；标准模式约 80GB；支持 TeaCache 加速和 Int8 量化
推理代码	Yes（Gradio demo 可用；ComfyUI 分支提供）
可下载权重	Yes（HuggingFace: MeiGen-AI/InfiniteTalk；需同时下载 Wan-AI/Wan2.1-I2V-14B-480P 和 Chinese-wav2vec2-base）
最大视频时长	理论无限（流式生成）；默认 40s（1000 帧，`--max_frame_num` 可配置）
Avatar 生成	Yes（全身 audio-driven avatar；支持 V2V 配音/重配音，精确嘴形同步，自然头身动作）
输入模态	video+audio→video（V2V 配音）/ image+audio→video（I2V）
80G A800 适配	可测（低显存模式约 24GB；标准模式官方在 A100 80GB 测试；A800 同等规格可运行）

LongCat-Video-Avatar

字段	信息
GitHub	https://github.com/MeiGen-AI/LongCat-Video-Avatar
模型规格	13.6B（密集 DiT）；提供 Single 和 Multi 两个 avatar checkpoint
推理显存	约 80GB；官方示例为 2 卡（torchrun --nproc_per_node=2）
推理代码	Yes
可下载权重	Yes（HuggingFace: meituan-longcat/LongCat-Video-Avatar）
最大视频时长	分钟级（LongCat-Video 原生支持 Video-Continuation，961 帧上限）
Avatar 生成	Yes（超写实长时 audio-driven avatar，单人/多人）
输入模态	audio+text→video / audio+text+image→video；支持视频续写
80G A800 适配	可测（最小素材实测单卡峰值约 57.5GB；需预留足够磁盘与显存缓冲）

StableAvatar

字段	信息
GitHub	https://github.com/Francis-Rings/StableAvatar
模型规格	1.3B（主版本，基于 Wan2.1-Fun-V1.1-1.3B-InP）；14B 实验版（训练阶段）
推理显存	sequential_cpu_offload 约 3GB；model_cpu_offload 约减半；全加载约 15-20GB
推理代码	Yes
可下载权重	Yes（HuggingFace: FrancisRing/StableAvatar）
最大视频时长	理论无限（infinite-length；VAE decode 大规模帧时可用 CPU VAE）
Avatar 生成	Yes（无限长度 audio-driven avatar，无需后处理）
输入模态	image+audio→video
80G A800 适配	可测（1.3B 版本显存极低，80GB 绰绰有余；推荐）

FantasyTalking

字段	信息
GitHub	https://github.com/Fantasy-AMAP/fantasy-talking
模型规格	14B（基于 Wan2.1-I2V-14B-720P）+ FantasyTalking adapter
推理显存	全参数约 40GB；7B 持久参数约 20GB；零持久参数约 5GB
推理代码	Yes
可下载权重	Yes（HuggingFace: acvlab/FantasyTalking；需同时下载 Wan2.1-I2V-14B-720P）
最大视频时长	待确认（测试用例 81 帧 @ 512x512；滑窗方式可延长）
Avatar 生成	Yes（全身/半身/近景 portrait，audio-driven avatar）
输入模态	image+audio→video
80G A800 适配	可测（A100 单卡已测试，40GB 全精度，80G 充裕）

2.2 自回归生成

LiveAvatar

字段	信息
GitHub	https://github.com/Alibaba-Quark/LiveAvatar
模型规格	14B（基于 Wan2.2-S2V-14B）+ LiveAvatar LoRA adapter
推理显存	单卡 offline 需 >=80GB；FP8 量化约 48GB；实时 20FPS 需 5xH800
推理代码	Yes
可下载权重	Yes（HuggingFace: Quark-Vision/Live-Avatar）
最大视频时长	10,000s+（无限，block-wise autoregressive）
Avatar 生成	Yes（实时/离线无限长 audio-driven avatar）
输入模态	image+audio→video（可选 text）
80G A800 适配	条件可测（单卡 offline 需 >=80GB，FP8 约 48GB 更稳定；实时模式需 5 卡 H800，不适用）

LiveTalk

字段	信息
GitHub	https://github.com/GAIR-NLP/LiveTalk
模型规格	1.3B（基于 Wan2.1-T2V-1.3B，LiveTalk-1.3B-V0.1）
推理显存	约 20GB；最低需求 24GB（系统 RAM 建议 64GB）
推理代码	Yes
可下载权重	Yes（HuggingFace: GAIR/LiveTalk-1.3B-V0.1）
最大视频时长	无限（block-wise autoregressive，约 3 latent frames/block，约 24.8 FPS，首帧延迟 0.33s）
Avatar 生成	Yes（实时多轮对话 avatar）
输入模态	image+audio→video（支持多轮多模态对话）
80G A800 适配	可测（约 20GB，80GB 绰绰有余；推荐）

SoulX-FlashTalk

字段	信息
GitHub	https://github.com/Soul-AILab/SoulX-FlashTalk
模型规格	14B（SoulX-FlashTalk-14B）
推理显存	单卡需 >64GB；`--cpu_offload` 约 40GB；实时 32FPS 需 8xH800
推理代码	Yes
可下载权重	Yes（HuggingFace: Soul-AILab/SoulX-FlashTalk-14B）
最大视频时长	无限（infinite streaming，自校正防质量退化）
Avatar 生成	Yes（实时无限长 audio-driven avatar，32 FPS，首帧延迟 0.87s）
输入模态	image+audio→video
80G A800 适配	条件可测（无 offload 需 >64GB，80GB 理论可运行；`--cpu_offload` 约 40GB 更稳；实时 32FPS 需 8 卡，不适用）

SoulX-FlashHead（Pro / Lite）

字段	信息
GitHub	https://github.com/Soul-AILab/SoulX-FlashHead
模型规格	1.3B（Pro 和 Lite 共享同一 1.3B DiT，权重各约 6GB，总 ~14.3GB）
推理显存	Lite ~8–12 GB；Pro ~15–20 GB（A800 80G 单卡均可）
推理代码	✅ `generate_video.py`，官方脚本 `inference_script_single_gpu_{lite/pro}.sh`
可下载权重	✅ HuggingFace `Soul-AILab/SoulX-FlashHead-1_3B`（~14.3 GB）
最大视频时长	无限（streaming autoregressive，Oracle-guided 防质量退化）
Avatar 生成	✅（仅说话头 portrait，不支持全身）
输入模态	image+audio→video
80G A800 适配	可测（Lite ~8–12 GB 单卡轻松；Pro ~15–20 GB 同样在范围内；推荐）
备注	Pro/Lite 通过 `--model_type` 切换；`--use_face_crop` 可改善非标准输入图（如全身图）

三、80G A800 适配性汇总

#	模型	类别	规格	推理显存（最低/推荐）	推理代码	权重下载	最大时长	Avatar	输入模态	适配性
1	Wan2.2	通用离线	14B MoE	24GB(offload)/43GB	Yes	Yes(HF)	5-8s	No	t2v, t+i2v	可测
2	HunyuanVideo-1.5	通用离线	8.3B	14GB(offload)/30GB	Yes	Yes(HF)	5-10s	No	t2v, t+i2v	可测
3	SkyReels-V3	通用离线	待确认	待确认	Yes	待确认	无限(V2)	Yes(V3)	t2v, t+i2v, i+a2v	待确认
4	Self-Forcing	通用自回归	1.3B	24GB+	Yes	Yes(HF)	无限(~4min+)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；C_half_long/C_full_long 按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间	可测
5	LongLive	通用自回归	1.3B	40GB+	Yes	Yes(HF)	无限(240s+)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；C_half_long/C_full_long 按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间	可测
6	MOVA	音视频联合	18B active	36GB+(估算)	Yes	Yes(HF)	8s	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；输出目录与 results.md 已校验	待确认
7	LTX-2	音视频联合	19B	28GB(distil)/40GB(full)	Yes	Yes(HF)	待确认(长)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间	可测
8	OVI	音视频联合	11B	24GB(FP8)/32GB(BF16)	Yes	Yes(HF)	10s	Yes	t2v, t+i2v	可测
9	EchoMimic v2	Avatar 离线	~1.3B	16-24GB	Yes	Yes(HF)	5-10s(滑窗)	✅ 新4条件完成	已完成新 Phase 4 的全量条件；输出目录与 results.md 已校验	可测
10	Hallo3	Avatar 离线	5B+	26GB(offload)/80GB	Yes	Yes(HF)	无限(外推)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；输出目录与 results.md 已校验	条件可测
11	HunyuanVideo-Avatar	Avatar 离线	13B	10GB(FP8+offload)/96GB推荐	Yes	Yes(HF)	5s(129帧)	Yes(单/多人)	i+a2v	条件可测
12	Wan2.2-S2V	Avatar 离线	14B MoE	80GB(官方要求)	Yes	Yes(HF)	待确认	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；沿用 832x480 稳定路径，长时条件按该稳定路径暂跳过	可测
13	OmniAvatar-14B	Avatar 离线	14B	36GB	Yes	Yes(HF)	待确认	Yes(全身,31语言)	i+a+t2v	可测
13b	OmniAvatar-1.3B	Avatar 离线	1.3B	8-12GB	Yes	Yes(HF)	待确认	Yes(全身,31语言)	i+a+t2v	可测
14	MultiTalk	Avatar 离线	14B	24GB(低显存模式)	Yes	Yes(HF)	15s+(streaming)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；C_half_long/C_full_long 按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间	可测
15	LongCat-Video-Avatar	Avatar 离线	13.6B	80GB(2卡示例)	Yes	Yes(HF)	分钟级(961帧)	Yes(单/多人)	i+a+t2v	待确认
16	StableAvatar	Avatar 离线	1.3B	3-20GB	Yes	Yes(HF)	无限	✅ 新4条件完成	已完成新 Phase 4 的全量条件；输出目录与 results.md 已校验	可测
17	FantasyTalking	Avatar 离线	14B	5GB(0持久)/40GB(全)	Yes	Yes(HF)	待确认(滑窗)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间	可测
21	InfiniteTalk	Avatar 离线	14B	24GB(低显存)/80GB	Yes	Yes(HF)	无限(default 40s)	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；沿用 image-input fallback + streaming 稳定路径，长时条件按该稳定路径暂跳过	可测
18	LiveAvatar	Avatar 自回归	14B	48GB(FP8)/80GB(BF16)	Yes	Yes(HF)	无限(10000s+)	⚠️ 仅保留历史短时基线	`48f + 多 clip` 在当前 80GB 单卡环境下稳定 OOM / 软卡；`80f + 1clip` 可出片但尾段质量明显退化，因此停止继续投入单卡多 clip / full-audio 路径	条件可测
19	LiveTalk	Avatar 自回归	1.3B	20GB	Yes	Yes(HF)	无限	✅ 新4条件完成	已完成新 Phase 4 的 C_half_short/C_half_long/C_full_short/C_full_long；results.md 已记录显存峰值与生成时间	可测
20	SoulX-FlashTalk	Avatar 自回归	14B	40GB(offload)/64GB+	Yes	Yes(HF)	无限	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；沿用 cpu_offload 短时稳定路径，长时条件按该稳定路径暂跳过	条件可测
22	SoulX-FlashHead(Pro/Lite)	Avatar 自回归	1.3B	Lite 8–12GB / Pro 15–20GB	Yes	Yes(HF)	无限(streaming)	✅ 新4条件完成	已完成 Lite+Pro 各 4 条件（face_crop 版）及无 face_crop 对比版；注意 argparse type=bool bug：`--use_face_crop False` 实际解析为 True，必须完全省略该参数才能禁用；nofacecrop 输出：`_nofacecrop/` 目录	可测

输入模态缩写：t2v = text→video；t+i2v = text+image→video；i+a2v = image+audio→video；i+a+t2v = image+audio+text→video

四、测试优先级建议

优先级考量原则

除显存/硬件约束外，测试优先级主要依据功能方向划分。核心目标是比较 audio-driven avatar 视频生成能力，尤其是自回归式流式/实时对话场景；其次是通用音视频联合生成；最后是通用视频模型在人物场景中的表现。

Phase 2 目标：尽可能完成以下所有模型的环境配置与权重下载，按优先级顺序推进。

第一优先：自回归音频驱动 Avatar（最核心比较对象）

这类模型是本次 benchmark 最想重点对比的方向——支持无限长度流式/自回归生成，具备实时对话场景能力。

模型	规格	推理显存（最低）	适配性	完成状态
SoulX-FlashTalk	14B	40GB (cpu_offload)	条件可测	[x] 支持子集完成
SoulX-FlashHead (Pro/Lite)	1.3B	Lite 8–12 GB / Pro 15–20 GB	✅ 可测	[ ] 待配置
LiveAvatar	14B	48GB (FP8)	条件可测	[x] 支持子集完成
LiveTalk	1.3B	20GB	✅ 可测	[x] 已完成

第二优先：其他音频驱动 Avatar（主要比较对象）

非自回归但仍以 image+audio 驱动的 avatar 生成模型，是本次 benchmark 的主体内容。

模型	规格	推理显存（最低）	适配性	完成状态
FantasyTalking	14B	5GB (0持久参数)	✅ 可测	[ ] 待配置
StableAvatar	1.3B	3GB	✅ 可测	[x] 已完成
LongCat-Video-Avatar	13.6B	~80GB (2卡示例)	✅ 可测	[x] 已完成
InfiniteTalk	14B	24GB (低显存)	✅ 可测	[x] 支持子集完成
MultiTalk	14B	24GB (低显存)	✅ 可测	[ ] 待配置
OmniAvatar	14B/1.3B	36GB/8GB	✅ 可测	[ ] 待配置
Wan2.2-S2V	14B MoE	80GB	✅ 可测	[ ] 待配置
HunyuanVideo-Avatar	13B	10GB (FP8+offload)	条件可测	[ ] 待配置
Hallo3	5B+	26GB (offload)	条件可测	[ ] 待配置
EchoMimic v2	~1.3B	16GB	✅ 可测	[x] 已完成

第三优先：音视频联合生成（含人物场景能力）

这类模型原生支持音视频联合输出，虽非 avatar 专用，但可通过含人物的图像或描述人物说话的 prompt 测试其在人物视频生成上的表现。

模型	规格	推理显存（最低）	适配性	完成状态
MOVA	18B active	36GB (估算)	待确认	[ ] 待配置
LTX-2	19B	28GB (distilled)	✅ 可测	[ ] 待配置
OVI	11B	24GB (FP8)	✅ 可测	[ ] 待配置

第四优先：通用视频生成（可测人物生成特性）

通用 T2V/I2V 模型，不专为人物/avatar 设计，但可通过包含人物的图像或描述人物说话的 prompt，了解其生成人物视频时的质量与特点，与 avatar 专用模型形成参照对比。

模型	规格	推理显存（最低）	适配性	完成状态
Wan2.2	14B MoE	24GB (offload)	✅ 可测	[ ] 待配置
Self-Forcing	1.3B	24GB	✅ 可测	[ ] 待配置
LongLive	1.3B	40GB	✅ 可测	[ ] 待配置
HunyuanVideo-1.5	8.3B	14GB (offload)	✅ 可测	[ ] 待配置
SkyReels-V3	待确认	待确认	待确认	[ ] 待配置

五、Phase 2 环境与权重状态（2026-03-07 进行中更新）

Phase 2 完成状态总览

图例：✅ = 完成；⚠️ = 部分完成/有条件；❌ = 未完成

#	模型	环境名	环境创建	依赖安装	权重下载	可推理	已测试	是否完成Phase4	备注
1	EchoMimic v2	echomimic2-env	✅	✅	✅ 11G	✅	✅ 1 test	✅ 新4条件完成	已完成新 Phase 4 的全量条件；Phase 4 结果已整理至 `output/echomimic_v2_newphase4/`
2	StableAvatar	stableavatar-env	✅	✅	✅ 26G	✅	✅ 1 test	✅ 新4条件完成	已完成新 Phase 4 的全量条件；输出目录与 results.md 已校验
3	LiveTalk	livetalk-env	✅	✅	✅ 23G	✅	✅ 1 test	✅ 新4条件完成	已完成新 Phase 4 的 C_half_short/C_half_long/C_full_short/C_full_long；results.md 已记录显存峰值与生成时间
4	Hallo3	hallo3-env	✅	✅	✅ 49G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；输出目录与 results.md 已校验
5	Ovi	ovi-env	✅	✅	✅ 83G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；输出目录与 results.md 已校验
6	MOVA	mova-env (venv)	✅	✅	✅ 73G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；输出目录与 results.md 已校验
7	Wan2.2-S2V	wan2.2-env	✅	✅	✅ 46G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；沿用 832x480 稳定路径，长时条件按当前稳定路径跳过
8	LiveAvatar	liveavatar-env	✅	✅	✅ 47G	✅	✅ 1 test	⚠️ 历史短时基线保留	已确认 `80f + 1clip` 尾段明显退化；官方近似 `48f + 多 clip` 路径在当前 80GB 单卡上无可交付方案，因此停止继续投入单卡多 clip / full-audio 路径
9	SoulX-FlashTalk	flashtalk-env	✅	✅	✅ 42.5G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；另有长音频探针：`C_full_long` 实际约 60s 成功、`C_half_long` 失败；已新增正式脚本 `test/soulx-flashtalk/run_phase4_longaudio_official.sh`，输出写入 `output/soulx_flashtalk_newphase4_longaudio_official/`
22	SoulX-FlashHead(Pro/Lite)	flashhead-env	✅	✅	✅ ~14G	✅	✅ 2 test	✅ 新4条件完成	Lite 174s / Pro 283s 最小测试通过；Phase 4 Lite+Pro 各 4 条件全量完成（face_crop 版 + nofacecrop 对比版）；`XFORMERS_IGNORE_FLASH_VERSION_CHECK=1` 必须设置；argparse type=bool bug：`--use_face_crop False` 解析为 True，省略参数才能真正禁用
10	LTX-2	.venv (uv)	✅	✅	✅ 205G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间
11	OmniAvatar	omniavatar-env	✅	✅	✅ 66G	✅	✅ 1 test	✅ 支持子集完成	已完成 `C_half_short` / `C_full_short`；已新增正式长音频脚本 `test/omniavatar/run_phase4_longaudio.sh`，输出写入 `output/omniavatar_newphase4_longaudio/`，按最新顺序第 1 个执行
12	FantasyTalking	fantasy-talking-env	✅	✅	✅ 32G	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；长时条件按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间
13	SkyReels-V3	❌ 已清理	❌	❌	❌ 已清理	❌	❌	已清理	2026-03-22 清理 skyreels-env 及权重，释放约 1.5G
14	HunyuanVideo-Avatar	❌ 已清理	❌	❌	❌ 已清理	❌	❌	已清理	2026-03-22 清理 hunyuan-avatar-env 及权重，释放约 6G
15	HunyuanVideo-1.5	ltx2-hunyuan15-env	✅	⚠️	❌ 13M（暂停）	❌	❌	暂缓	用户要求暂不继续该模型的环境/权重任务
16	LongLive	sf-longlive-env	✅	✅	✅ 8.2G + 共享 Wan2.1-T2V-1.3B	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；模型为 text-only，长音频条件不适用；results.md 已记录显存峰值与生成时间
17	LongCat-Video-Avatar	longcat-env	✅	✅	✅ base可用 + avatar 6/6	✅	✅ 1 test	✅ 支持子集完成	已完成 `C_half_short` / `C_full_short`；已新增正式长音频脚本 `test/longcat-video-avatar/run_phase4_longaudio.sh`，输出写入 `output/longcat_video_avatar_newphase4_longaudio/`，按最新顺序第 3 个执行
18	MultiTalk	unified-env	✅	✅	✅ 最小推理所需权重已齐	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；C_half_long/C_full_long 按最小测试稳定路径跳过；results.md 已记录显存峰值与生成时间
19	InfiniteTalk	unified-env	✅	✅	✅ 最小推理所需权重已齐	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；已新增正式长音频脚本 `test/infinitetalk/run_phase4_longaudio.sh`，输出写入 `output/infinitetalk_newphase4_longaudio/`，按最新顺序第 2 个执行
20	Self-Forcing	sf-longlive-env（复用）	✅	✅	✅ 5.3G + 共享 Wan2.1-T2V-1.3B	✅	✅ 1 test	✅ 支持子集完成	已完成新 Phase 4 的 C_half_short/C_full_short；模型为 text-only，长音频条件不适用；results.md 已记录显存峰值与生成时间
21	Wan2.2 T2V/I2V	wan2.2-env（S2V复用）	✅	✅	❌ T2V/I2V 已清理	❌	✅ 1 test（历史）	已清理	T2V 最小推理曾通过；2026-03-29 删除 Wan2.2-T2V-A14B 118G 权重与专用 T2V 脚本；I2V 权重已于 2026-03-22 删除；保留历史最小输出与测试记录

统计

环境创建完成：21/21
依赖安装完成：16/21（含 flash_attn 分发）
权重下载完成：15/21
可进行推理测试：16/21
已进行推理测试：11/21（EchoMimic v2, StableAvatar, LiveTalk, Hallo3, Ovi, Self-Forcing, LongLive, Wan2.2, MultiTalk, InfiniteTalk, SoulX-FlashHead）

已完成推理测试的详细结果

模型	测试条件数	完成数	代表性结果
EchoMimic v2	12	12	768×768, 6步/条件, ~90s/5s视频
StableAvatar	12	8	512×512, 50步, ~10min/5s视频
LiveTalk	12	11	自回归, ~24.8FPS, 最长254s
Hallo3	10	3	CogVideoX 外推, ~45min/条件
Ovi	1	1	960×960, 30步, ~25.8G GPU, ~12min
Self-Forcing	1	1	21帧, 4步/块, 119s, 输出 598K MP4
LongLive	1	1	21帧, 4步/块, 133s, 输出 585K MP4
Wan2.2（历史T2V）	1	1	历史：T2V 17帧, 8步, 402s, 输出 661K MP4
MultiTalk	1	1	640×640, 8步, 2053s, 输出 398K MP4
InfiniteTalk	1	1	640×640, 8步, 1030s, 输出 356K MP4

未完成/暂缓的模型（5个）

模型	缺失内容	预估需下载量	阻塞原因
SkyReels-V3	主体权重	~28G	2026-03-22 环境+权重已清理
HunyuanVideo-Avatar	大部分权重	~36G	2026-03-22 环境+权重已清理
HunyuanVideo-1.5	全部权重	~30G	用户要求暂缓
LongCat-Video-Avatar	权重已补齐并完成最小测试	~25G	2026-03-08 已完成
Wan2.2 I2V	I2V-14B 权重	~22G	2026-03-22 已删除 49G 权重

当前优先级（2026-03-08 更新）

已完成：LongCat-Video-Avatar / MultiTalk / InfiniteTalk 已完成权重补齐与 Phase 2 最小素材推理验证
提示：LongCat 完成后 /root/autodl-tmp 剩余约 39G，继续下载大模型前建议先整理存储或扩容
暂缓推进：HunyuanVideo-1.5（环境保留）；SkyReels-V3 与 HunyuanVideo-Avatar 环境+权重已于 2026-03-22 清理；Wan2.2 I2V 权重已于 2026-03-22 删除
说明：Wan2.2 仅保留 T2V 已验证结果；I2V 部分不再继续，直到用户重新开启

flash_attn 分发状态

flash_attn 2.8.3 已从 liveavatar-env/mova-env 复制到以下环境：

✅ ovi-env, unified-env, sf-longlive-env, liveavatar-env, longcat-env（skyreels-env 已清理）
✅ fantasy-talking-env（从 liveavatar-env 复制）
✅ omniavatar-env（从 liveavatar-env 复制）
✅ wan2.2-env（从 liveavatar-env 复制）

当前优先级（2026-03-07 更新）

优先推进：LongCat-Video-Avatar，其次 MultiTalk，最后 InfiniteTalk 的环境配置、权重补齐与最小素材推理测试
暂缓推进：HunyuanVideo-1.5（环境保留）；SkyReels-V3 与 HunyuanVideo-Avatar 环境+权重已于 2026-03-22 清理；Wan2.2 I2V 权重已于 2026-03-22 删除
说明：Wan2.2 仅保留 T2V 已验证结果；I2V 部分不再继续，直到用户重新开启

注意事项

数据盘：Wan2.2 I2V 已下载的 49G 权重已于 2026-03-22 删除
HF 下载必须使用 hf-mirror.com，不启用 network_turbo
XetHub CDN 仓库（MultiTalk/InfiniteTalk/LongCat-Video-Avatar）需等网络条件改善
Self-Forcing、LongLive 已验证可复用 sf-longlive-env + weights_shared/Wan2.1-T2V-1.3B
Wan2.2 当前仅保留 T2V 结果，I2V 任务已按用户要求暂缓

Phase 4 批推理执行状态

当前 Phase 4 总览（2026-03-08 19:14）

模型	当前状态	说明
EchoMimic v2	✅ 新4条件完成	全量条件已完成，输出目录与 results.md 已校验。
StableAvatar	✅ 新4条件完成	全量条件已完成，输出目录与 results.md 已校验。
LiveTalk	✅ 新4条件完成	新 4 条件已完成，results.md 已记录显存峰值与生成时间。
Hallo3	✅ 支持子集完成	已完成短时子集，长时条件按稳定路径跳过。
Ovi	✅ 支持子集完成	已完成短时子集，长时条件按稳定路径跳过。
MOVA	✅ 支持子集完成	已完成短时子集，长时条件按稳定路径跳过。
LiveAvatar	⚠️ 首轮失败待复跑	首轮短时子集因残留显存占用触发 OOM。
SoulX-FlashTalk	⚠️ 首轮失败待复跑	首轮短时子集因残留显存占用触发 OOM。
Wan2.2-S2V	⚠️ 首轮失败待复跑	首轮短时子集因残留显存占用触发 OOM。
FantasyTalking	✅ 支持子集完成	已完成短时子集，results.md 已记录显存峰值与生成时间。
LTX-2	✅ 支持子集完成	已完成短时子集，results.md 已记录显存峰值与生成时间。
MultiTalk	✅ 支持子集完成	已完成短时子集，results.md 已记录显存峰值与生成时间。
InfiniteTalk	✅ 支持子集完成	已完成 `C_half_short` / `C_full_short`；长时条件按当前稳定路径跳过。
OmniAvatar	⚠️ 部分完成待复跑	已回收 `C_half_short` 输出；脚本在输出回收阶段中断，`C_full_short` 未执行。
LongLive	✅ 支持子集完成	已完成短时子集，results.md 已记录显存峰值与生成时间。
Self-Forcing	✅ 支持子集完成	已完成短时子集，results.md 已记录显存峰值与生成时间。

EchoMimic v2（12/12 ✅ 全部完成）

Condition	状态	输出文件
C_zh_5s ~ C_sing_en	✅ done	output/echomimic_v2/

LiveTalk（新 4 条件完成）

Condition	状态	输出文件	显存峰值	推理时间
C_half_short	✅ done	output/livetalk_newphase4/C_half_short.mp4	21381 MB	89s
C_half_long	✅ done	output/livetalk_newphase4/C_half_long.mp4	81033 MB	221s
C_full_short	✅ done	output/livetalk_newphase4/C_full_short.mp4	21867 MB	96s
C_full_long	✅ done	output/livetalk_newphase4/C_full_long.mp4	80421 MB	168s

StableAvatar（8/12）

Condition	状态	备注
C_zh_5s ~ C_zh_1m	✅ done	4 条件
C_en_5s ~ C_en_30s	✅ done	3 条件
C_en_1m	✅ done
C_en_3m	❌ OOM	与 Hallo3 同时运行导致
C_en_5m	❌ 中断	被 GPU benchmark 干扰
C_sing_zh, C_sing_en	❌ 未运行

Hallo3（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	当前稳定路径未覆盖 100s 长音频；历史记录显示 Hallo3 长时推理耗时极长。
C_full_long	⏭️ skipped	-	-	-	当前稳定路径未覆盖 60s 长音频；本轮先完成短时横评。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/hallo3_newphase4/C_half_short.mp4	70487 MB	1401 秒	无新增问题；继续沿用 test/hallo3/test.md 中已验证的单条件输入格式与禁用 expandable_segments 经验。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/hallo3_newphase4/C_full_short.mp4	74405 MB	2459 秒	无新增问题；继续沿用 test/hallo3/test.md 中已验证的单条件输入格式与禁用 expandable_segments 经验。

Ovi（1 test ✅）

测试	状态	输出
test_ovi.sh	✅ done	960×960, 1.7MB, 30步@20.5s/步

Ovi（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	Ovi 当前稳定路径为 960x960_10s 固定短视频配置，不支持按 filtered 长音频扩展。
C_full_long	⏭️ skipped	-	-	-	Ovi 当前稳定路径为 960x960_10s 固定短视频配置，不支持按 filtered 长音频扩展。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/ovi_newphase4/C_half_short.mp4	40009 MB	1199 秒	沿用 test/ovi/test.md 中已验证的 qint8 + cpu_offload 稳定路径。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/ovi_newphase4/C_full_short.mp4	78627 MB	943 秒	沿用 test/ovi/test.md 中已验证的 qint8 + cpu_offload 稳定路径。

MOVA（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	MOVA 当前稳定路径是固定 97 帧短视频，不扩展到长时。
C_full_long	⏭️ skipped	-	-	-	MOVA 当前稳定路径是固定 97 帧短视频，不扩展到长时。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/mova_newphase4/C_half_short.mp4	41109 MB	465 秒	沿用 test/mova/test.md 中已验证的固定 97 帧短视频路径。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/mova_newphase4/C_full_short.mp4	41211 MB	461 秒	沿用 test/mova/test.md 中已验证的固定 97 帧短视频路径。

FantasyTalking（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	FantasyTalking 当前稳定路径固定为 81 帧短视频，不扩展到长时。
C_full_long	⏭️ skipped	-	-	-	FantasyTalking 当前稳定路径固定为 81 帧短视频，不扩展到长时。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/fantasy_talking_newphase4/C_half_short.mp4	63341 MB	1032 秒	沿用 test/fantasy-talking/test.md 中已验证的 81 帧短视频路径，长时条件暂不扩展。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/fantasy_talking_newphase4/C_full_short.mp4	20391 MB	868 秒	沿用 test/fantasy-talking/test.md 中已验证的 81 帧短视频路径，长时条件暂不扩展。

LTX-2（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	LTX-2 当前稳定路径是固定 121 帧短视频，不扩展到长时。
C_full_long	⏭️ skipped	-	-	-	LTX-2 当前稳定路径是固定 121 帧短视频，不扩展到长时。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/ltx2_newphase4/C_half_short.mp4	72809 MB	85 秒	沿用 test/ltx2/test.md 中已验证的去掉 fp8-cast 且 LoRA 强度 0.0 的短帧稳定路径。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/ltx2_newphase4/C_full_short.mp4	72807 MB	66 秒	沿用 test/ltx2/test.md 中已验证的去掉 fp8-cast 且 LoRA 强度 0.0 的短帧稳定路径。

MultiTalk（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	MultiTalk 当前稳定路径为最小短时链路，长音频 filtered 条件尚未验证。
C_full_long	⏭️ skipped	-	-	-	MultiTalk 当前稳定路径为最小短时链路，长音频 filtered 条件尚未验证。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/multitalk_newphase4/C_half_short.mp4	14893 MB	1141 秒	无新增问题，沿用 test/multitalk/test.md 中已验证的 unified overlay + streaming 稳定路径。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/multitalk_newphase4/C_full_short.mp4	14893 MB	1560 秒	无新增问题，沿用 test/multitalk/test.md 中已验证的 unified overlay + streaming 稳定路径。

LongLive（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	参考 test/longlive/test.md，当前稳定路径只验证到 21 帧短视频；长时推理尚未纳入本轮横评。
C_full_long	⏭️ skipped	-	-	-	参考 test/longlive/test.md，当前稳定路径只验证到 21 帧短视频；长时推理尚未纳入本轮横评。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/longlive_newphase4/C_half_short.mp4	24803 MB	119 秒	沿用 test/longlive/test.md 中已验证的 sf-longlive-env + shared Wan2.1-T2V-1.3B 稳定路径，并保留已补装的依赖。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/longlive_newphase4/C_full_short.mp4	24803 MB	109 秒	沿用 test/longlive/test.md 中已验证的 sf-longlive-env + shared Wan2.1-T2V-1.3B 稳定路径，并保留已补装的依赖。

Self-Forcing（支持子集完成）

Condition	状态	输出文件	显存峰值	推理时间	备注
C_half_long	⏭️ skipped	-	-	-	参考 test/self-forcing/test.md，当前稳定路径只验证到 21 帧短视频；长时推理尚未纳入本轮横评。
C_full_long	⏭️ skipped	-	-	-	参考 test/self-forcing/test.md，当前稳定路径只验证到 21 帧短视频；长时推理尚未纳入本轮横评。
C_half_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/self_forcing_newphase4/C_half_short.mp4	26177 MB	100 秒	沿用 test/self-forcing/test.md 中已验证的 sf-longlive-env 稳定路径，并保留以避免写视频报错。
C_full_short	✅ done	/root/autodl-tmp/avatar-benchmark/output/self_forcing_newphase4/C_full_short.mp4	26177 MB	100 秒	沿用 test/self-forcing/test.md 中已验证的 sf-longlive-env 稳定路径，并保留以避免写视频报错。

2026-03-09 Phase 4 夜间队列更新

模型	当前状态	说明
OmniAvatar	`C_full_short` 补跑中	仍沿用 `test/omniavatar/test.md` 的稳定链路，当前由 `test/omniavatar/run_phase4_resume_cfull.sh` 继续补齐。
LongCat-Video-Avatar	夜间队列第 2 步	继续沿用 `test/longcat-video-avatar/test.md` 的最小短时稳定路径，仅先完成 `C_half_short` / `C_full_short`。
LiveAvatar	夜间队列第 3 步	在 Phase 2 已验证的 80 帧稳定基线上，按原始音频时长将短时条件的 `infer_frames` 调整为 136 / 216。
Wan2.2-S2V	夜间队列第 4 步	保持 `test/wan2.2-s2v/test.md` 的稳定命令，仅将短时条件的 `infer_frames` 调整为 88 / 140。
LTX-2	夜间队列第 5 步	保持 `test/ltx2/test.md` 的稳定命令，仅将短时条件的 `num_frames` 调整为 129 / 206。
FantasyTalking	夜间队列第 6 步	保持 `test/fantasy-talking/test.md` 的稳定命令，仅将短时条件的 `max_num_frames` 调整为 124 / 197。
Wan2.2-T2V	已清理	2026-03-29 删除 `Wan2.2-T2V-A14B` 118G 权重与专用脚本，保留历史最小测试记录。

夜间总控脚本：test/phase4_overnight_queue.sh
新增原始音频时长补跑输出目录：
- output/liveavatar_newphase4_fullaudio/
- output/wan22_s2v_newphase4_fullaudio/
- output/ltx2_newphase4_fullaudio/
- output/fantasy_talking_newphase4_fullaudio/

2026-03-09 停机前状态快照

模型/项目	当前状态	说明
OmniAvatar	支持子集完成	`C_half_short` / `C_full_short` 均已生成，输出位于 `output/omniavatar_newphase4/`。
LongCat-Video-Avatar	支持子集完成	`C_half_short` / `C_full_short` 均已生成，输出位于 `output/longcat_video_avatar_newphase4/`。
LiveAvatar 原始音频时长补跑	停止继续投入	官方近似 `48f + 多 clip` 在当前 80GB 单卡上稳定 OOM / 软卡，`80f + 1clip` 又存在明显尾段退化，因此不再继续单卡多 clip / full-audio 补跑。
Wan2.2-S2V 原始音频时长补跑	未开始	不再受 LiveAvatar 作为前置条件约束，是否继续改为后续单独决策。
LTX-2 原始音频时长补跑	未开始	不再受 LiveAvatar 作为前置条件约束，是否继续改为后续单独决策。
FantasyTalking 原始音频时长补跑	未开始	不再受 LiveAvatar 作为前置条件约束，是否继续改为后续单独决策。
夜间队列	已停止	`test/phase4_overnight_queue.sh` 已按当前指示停止，等待下一步。
存储状态	高风险	截至 2026-03-09 10:37:29 CST，`/root/autodl-tmp` 约 98% 已用，仅剩约 39G。

2026-03-09 长音频核查结论（以实际产物为准）

当前长音频基准素材已复核：input/audio/filtered/long/A001.wav 实长 100.03s，input/audio/filtered/long/MT_eng.wav 实长 60.00s。
当前可直接认定为“真实长音频已跑通”的模型：LiveTalk、StableAvatar，以及 SoulX-FlashTalk 的 C_full_long 探针。
EchoMimic v2 虽然生成了 C_half_long / C_full_long，但脚本将帧数限制为 336，两个长条件产物都只有约 14.02s，不能作为真实长音频结论。
SoulX-FlashTalk 长音频探针当前为“部分完成”：C_full_long 实际成片约 60.06s，C_half_long 在进入生成阶段后提前结束，日志中无明确 Python Traceback。
OmniAvatar、InfiniteTalk、LongCat-Video-Avatar 目前仅完成短时支持子集；长音频条件尚未执行。
output/soulx_flashtalk_newphase4_longaudio/results.md 里把 C_full_long 的音频/视频时长记成 1.000s 属于旧脚本统计 bug，不代表真实产物长度。
下一轮正式长音频执行顺序已固定为：OmniAvatar -> InfiniteTalk -> LongCat-Video-Avatar -> SoulX-FlashTalk。
已准备好的正式脚本与输出目录分别为：test/omniavatar/run_phase4_longaudio.sh -> output/omniavatar_newphase4_longaudio/、test/infinitetalk/run_phase4_longaudio.sh -> output/infinitetalk_newphase4_longaudio/、test/longcat-video-avatar/run_phase4_longaudio.sh -> output/longcat_video_avatar_newphase4_longaudio/、test/soulx-flashtalk/run_phase4_longaudio_official.sh -> output/soulx_flashtalk_newphase4_longaudio_official/。
SoulX-FlashTalk 的正式长音频脚本统一改为 speech prompt 映射，目的是与当前 benchmark 的 C_half_long / C_full_long 定义保持一致，不再复用旧探针的 singing 版 C_full_long。

FilesExpand file tree

model.md

Latest commit

History