fix: custom tokenizer truncates inputs to model max input length (kubernetes-sigs#266)

changminbark · web-flow · commit 16c972fb96ca · 2025-11-15T15:25:20.000-05:00
diff --git a/inference_perf/utils/custom_tokenizer.py b/inference_perf/utils/custom_tokenizer.py
@@ -24,7 +24,7 @@ def __init__(self, config: CustomTokenizerConfig) -> None:
     def count_tokens(self, text: str) -> int:
         if text == "":
             return 0
-        return len(self.tokenizer(text).input_ids)
+        return len(self.tokenizer(text, truncation=True, max_length=self.tokenizer.model_max_length).input_ids)
 
     def get_tokenizer(self) -> PreTrainedTokenizerBase:
         return self.tokenizer