在生成的时候,发现一个问题,不管提示词怎么修改,比如一张无人机在天空中的图片,“无人机向远处飞去”、“无人机逐渐远离镜头”、“镜头固定”,模型的推理结果没有考虑这些提示词,全部是无人机逐渐靠近镜头、慢慢变大、镜头在移动的问题。
我注意到推理代码中,提示词后面会加一句默认的“Close-up on big objects, emphasize scale and detail”,会对目标进行特写。我在推理的时候是删除了这句话的,但还是会出现上述不听提示的问题。而在对图像内容的理解、其它受控生成、在其它风格图像的泛化等能力上,InfinityStar基本上是无法实现的,而Wan在泛化性能上都不错。
InfinityStar的训练数据是不是规模不大,以及在训练的时候都是使用“Close-up on big objects, emphasize scale and detail”来对目标进行特写,导致模型只会生成目标变大的特写视频。