Summary
HuggingFace tokenizers의 from_file() / from_str() 에 대응하는 tokenizer.json 파싱 기능 추가.
현재 vocab.txt 파일만 로드 가능하나, HuggingFace 모델 디렉토리에서 제공하는 tokenizer.json은 전체 파이프라인(normalizer, pre_tokenizer, model, post_processor, decoder, added_tokens, padding/truncation config)을 하나의 JSON으로 포함하고 있어, 이를 직접 로드할 수 있으면 HF 생태계와의 호환성이 크게 향상됨.
Motivation
- 대부분의 HuggingFace 모델은
tokenizer.json을 함께 배포
- 온디바이스 ML 앱에서 HF 모델을 사용할 때
tokenizer.json을 직접 로드하는 것이 가장 자연스러운 워크플로우
vocab.txt 만으로는 normalizer/post_processor 설정 등을 별도 수동 설정해야 함
Scope
tokenizer.json 파싱 및 WordPieceTokenizer 인스턴스 생성
WordPieceTokenizer.fromTokenizerJson(String path) (async)
WordPieceTokenizer.fromTokenizerJsonSync(String path) (sync)
WordPieceTokenizer.fromTokenizerJsonString(String json)
- JSON 내 WordPiece model config, normalizer, pre_tokenizer, added_tokens 반영
Priority
Must
🤖 Generated with Claude Code
Summary
HuggingFace tokenizers의
from_file()/from_str()에 대응하는tokenizer.json파싱 기능 추가.현재
vocab.txt파일만 로드 가능하나, HuggingFace 모델 디렉토리에서 제공하는tokenizer.json은 전체 파이프라인(normalizer, pre_tokenizer, model, post_processor, decoder, added_tokens, padding/truncation config)을 하나의 JSON으로 포함하고 있어, 이를 직접 로드할 수 있으면 HF 생태계와의 호환성이 크게 향상됨.Motivation
tokenizer.json을 함께 배포tokenizer.json을 직접 로드하는 것이 가장 자연스러운 워크플로우vocab.txt만으로는 normalizer/post_processor 설정 등을 별도 수동 설정해야 함Scope
tokenizer.json파싱 및WordPieceTokenizer인스턴스 생성WordPieceTokenizer.fromTokenizerJson(String path)(async)WordPieceTokenizer.fromTokenizerJsonSync(String path)(sync)WordPieceTokenizer.fromTokenizerJsonString(String json)Priority
Must
🤖 Generated with Claude Code