mistralai · steffi4321 · Jul 23, 2025 · Jul 25, 2025
diff --git a/finetune/checkpointing.py b/finetune/checkpointing.py
@@ -6,10 +6,8 @@
 
 import safetensors.torch
 import torch
-from mistral_common.tokens.tokenizers.sentencepiece import (
-    InstructTokenizerBase,
-    SentencePieceTokenizer,
-)
+from mistral_common.tokens.tokenizers.sentencepiece import SentencePieceTokenizer
+from mistral_common.tokens.tokenizers.instruct import InstructTokenizerBase
 from torch.distributed import barrier
 from torch.distributed.fsdp.fully_sharded_data_parallel import FullyShardedDataParallel
 

diff --git a/finetune/data/data_loader.py b/finetune/data/data_loader.py
@@ -2,7 +2,7 @@
 from typing import Any, Iterator, List, Optional
 
 import numpy as np
-from mistral_common.tokens.tokenizers.sentencepiece import InstructTokenizerBase
+from mistral_common.tokens.tokenizers.instruct import InstructTokenizerBase
 
 from .args import DataArgs
 from .dataset import build_dataset

diff --git a/finetune/data/dataset.py b/finetune/data/dataset.py
@@ -12,7 +12,7 @@
     FinetuningAssistantMessage,
     SystemMessage,
 )
-from mistral_common.tokens.tokenizers.sentencepiece import InstructTokenizerBase
+from mistral_common.tokens.tokenizers.instruct import InstructTokenizerBase
 
 from finetune.distributed import get_rank
 

diff --git a/finetune/data/tokenize.py b/finetune/data/tokenize.py
@@ -22,7 +22,7 @@
 )
 from mistral_common.tokens.instruct.request import InstructRequest
 from mistral_common.tokens.tokenizers.base import Tokenizer
-from mistral_common.tokens.tokenizers.sentencepiece import InstructTokenizerBase
+from mistral_common.tokens.tokenizers.instruct import InstructTokenizerBase
 
 from .exceptions import (
     ConversationFormatError,
@@ -177,7 +177,7 @@ def build_instruct_sample(data: Dict[str, Any]) -> TrainingInstructSample:
 
     # validate created messages
     validator = MistralRequestValidatorV3(ValidationMode.finetuning)
-    validator.validate_messages(messages)
+    validator.validate_messages(messages, False)
     validator._validate_tools(available_tools or [])
 
     # whether to train only on last assistant message
@@ -328,7 +328,7 @@ def tokenize_instruct(
             message = maybe_remove_call_id(message, is_last_message=is_last_message)
 
             curr_tokens = instruct_tokenizer.encode_assistant_message(
-                message, is_before_last_user_message=False
+                message, is_before_last_user_message=False, continue_message=False
             )
 
             is_weighted = message.weight is None or message.weight == 1