首先,感谢作者开源如此优秀的工作。
目前,我们在5090D使用单个人物的5分钟视频跑通了阶段1和阶段2的训练过程,效果有明显提升; 但模型失去了通用能力, 使用非训练素材效果变差。
所以, 我们尝试使用HDTF数据集与自定义数据混合后训练二阶段。在这个过程中有几个疑问:
- 使用batch_size=1可以正常训练, batch_size增加导致显存不足; 那么batch_size=1对训练效果有什么样的影响?
- 我们想尝试减少 num_frames 来降低显存占用, num_frames需要与syncnet的 visual_encoder.in_channels 匹配; 那么也是需要重新训练syncnet模型嘛?
首先,感谢作者开源如此优秀的工作。
目前,我们在5090D使用单个人物的5分钟视频跑通了阶段1和阶段2的训练过程,效果有明显提升; 但模型失去了通用能力, 使用非训练素材效果变差。
所以, 我们尝试使用HDTF数据集与自定义数据混合后训练二阶段。在这个过程中有几个疑问: