作者你好,mllm微调之后看起来是可以理解初始图像和编辑文本的gap 但代码看起来只是用mllm的prefix encoder hidden state 这样子能用到mllm的理解能力吗?又没有用到答案的我有点儿不太理解