logits_to_keep & use_query_position

rebel-thkim · rebel-thkim · commit 46aba01d980d · 2025-11-20T13:09:10.000+09:00
diff --git a/src/optimum/rbln/transformers/models/decoderonly/decoderonly_architecture.py b/src/optimum/rbln/transformers/models/decoderonly/decoderonly_architecture.py
@@ -145,13 +145,10 @@ def prepare_forward_args(self, *args):
         local_block_tables = args.pop(0) if self.rbln_config.use_local_attention else None
         query_position = (
             args.pop(0)
-            # query_position usage: 1. causal_lm prefill or 2. sliding_window cache_position
+            # query_position usage: 1. prefill & logits_to_keep == 1 or 2. sliding_window cache_position
             if (
-                "prefill" in self.phase
-                and (
-                    (self.is_causal_lm and self.rbln_config.logits_to_keep == 1)
-                    or self.rbln_config.use_local_attention
-                )
+                ("prefill" in self.phase and self.rbln_config.logits_to_keep == 1)
+                or self.rbln_config.use_local_attention
             )
             else None
         )
diff --git a/src/optimum/rbln/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/src/optimum/rbln/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
@@ -33,7 +33,7 @@
     Qwen2_5_VLRotaryEmbedding,
 )
 
-from ....configuration_utils import RBLNCompileConfig, RBLNModelConfig
+from ....configuration_utils import RBLNCompileConfig
 from ....modeling import RBLNModel
 from ....utils.logging import get_logger
 from ...modeling_outputs import RBLNDecoderOnlyOutput
@@ -387,7 +387,6 @@ def prefill_output_size(self):
             hidden_size,
         )
 
-
     @classmethod
     def get_input_info(
         cls,

Original file line number	Diff line number	Diff line change
`@@ -33,7 +33,7 @@`
`33`	`33`	`Qwen2_5_VLRotaryEmbedding,`
`34`	`34`	`)`
`35`	`35`
`36`		`-from ....configuration_utils import RBLNCompileConfig, RBLNModelConfig`
	`36`	`+from ....configuration_utils import RBLNCompileConfig`
`37`	`37`	`from ....modeling import RBLNModel`
`38`	`38`	`from ....utils.logging import get_logger`
`39`	`39`	`from ...modeling_outputs import RBLNDecoderOnlyOutput`
`@@ -387,7 +387,6 @@ def prefill_output_size(self):`
`387`	`387`	`hidden_size,`
`388`	`388`	`)`
`389`	`389`
`390`		`-`
`391`	`390`	`@classmethod`
`392`	`391`	`def get_input_info(`
`393`	`392`	`cls,`