Add InternLM2Tokenizer support (BPE tokenizer)

amdrajeevp1 · amdrajeevp1 · commit d2cb00ec9afa · 2026-02-06T16:28:00.000-08:00
InternLM2 models use the same BPE/LLaMA tokenizer format as Llama. This registers InternLM2Tokenizer so models exported with tokenizer_class: InternLM2Tokenizer in tokenizer_config.json are recognized at runtime. Ref: https://huggingface.co/internlm/internlm2-1_8b
diff --git a/operators/tokenizer/tokenizer_jsconfig.hpp b/operators/tokenizer/tokenizer_jsconfig.hpp
@@ -21,6 +21,7 @@ constexpr std::pair<const char*, TokenType> kTokenizerDict[] = {
   {"CLIPTokenizer", TokenType::kBPE},
   {"WhisperTokenizer", TokenType::kBPE},
   {"GemmaTokenizer", TokenType::kBPE},
+  {"InternLM2Tokenizer", TokenType::kBPE},  // InternLM2 uses BPE (same as Llama)
   {"LlamaTokenizer", TokenType::kBPE},
   {"Phi3Tokenizer", TokenType::kBPE},
   {"CodeLlamaTokenizer", TokenType::kBPE},