关于5090D 32G显存训练二阶段，如何有效保证训练效果

首先，感谢作者开源如此优秀的工作。

目前，我们在5090D使用单个人物的5分钟视频跑通了阶段1和阶段2的训练过程，效果有明显提升; 但模型失去了通用能力, 使用非训练素材效果变差。

所以, 我们尝试使用HDTF数据集与自定义数据混合后训练二阶段。在这个过程中有几个疑问:

1. 使用batch_size=1可以正常训练, batch_size增加导致显存不足; 那么batch_size=1对训练效果有什么样的影响?
3. 我们想尝试减少 num_frames 来降低显存占用, num_frames需要与syncnet的 visual_encoder.in_channels 匹配; 那么也是需要重新训练syncnet模型嘛?