作者您好,想请教您论文中的一个问题。想问下您在代码中的Fusion Module是先经过自注意力的处理,再由交叉注意力处理(如下图所示), <img width="1181" height="876" alt="Image" src="https://github.com/user-attachments/assets/e8f6de6d-e4bb-45ca-ada3-027906e76e94" /> 但是论文中结构图为什么是先用的交叉注意力,后用自注意力(如下图所示)。 <img width="1075" height="427" alt="Image" src="https://github.com/user-attachments/assets/39424183-4a9a-4a31-ba87-5dc7e573a15d" /> 期待得到您的回复,非常感谢