Style-content Fusion Module问题

作者您好，想请教您论文中的一个问题。想问下您在代码中的Fusion Module是先经过自注意力的处理，再由交叉注意力处理（如下图所示），
<img width="1181" height="876" alt="Image" src="https://github.com/user-attachments/assets/e8f6de6d-e4bb-45ca-ada3-027906e76e94" />
但是论文中结构图为什么是先用的交叉注意力，后用自注意力（如下图所示）。
<img width="1075" height="427" alt="Image" src="https://github.com/user-attachments/assets/39424183-4a9a-4a31-ba87-5dc7e573a15d" />
期待得到您的回复，非常感谢