`data_utils.tokenization_gpt2.GPT2Tokenizer ` is different from `transformers.CpmTokenizer`

See https://huggingface.co/TsinghuaAI/CPM-Generate/discussions/1

For LM fine-tuning or generation, how do I prepare my input data?
- `[token_id_1, token_id_2, ..., eod_token_id]`, where `eod_token_id` is the id of `<eod>` token in `transformers.CpmTokenizer`
- `[token_id_1, token_id_2, ..., eos_token_id]`, where `eos_token_id` is the id of `</s>` token in `transformers.CpmTokenizer`
- `[token_id_1, token_id_2, ..., eos_token_id]`, where `eos_token_id` is the id of `<|endoftext|>` token in `transformers.GPT2Tokenizer`
- `[token_id_1, token_id_2, ..., sep_token_id, cls_token_id]`, just call `CpmTokenizer`

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

`data_utils.tokenization_gpt2.GPT2Tokenizer` is different from `transformers.CpmTokenizer` #75

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

data_utils.tokenization_gpt2.GPT2Tokenizer is different from transformers.CpmTokenizer #75

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

`data_utils.tokenization_gpt2.GPT2Tokenizer` is different from `transformers.CpmTokenizer` #75