Add add_end_token to Mistral tokenizer

Llama3 Tokenizer was updated to support add_end_token in tokenize_messages to support correct generation https://github.com/pytorch/torchtune/pull/1494. These changes need to be made to Mistral.

Changes:
- Update tokenize_message to use add_start_tokens and add_end_tokens like in https://github.com/pytorch/torchtune/pull/1494
- Replace add_eos with add_end_tokens and update tokenize_messages as in https://github.com/pytorch/torchtune/pull/1494
- In call update tokens, mask = self.tokenize_messages(messages) to tokens, mask = self.tokenize_messages(messages, add_end_tokens=not inference)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add add_end_token to Mistral tokenizer #2479

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Add add_end_token to Mistral tokenizer #2479

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions