Skip to content

feat: tokenizer.json 로드 지원 #4

@brody-0125

Description

@brody-0125

Summary

HuggingFace tokenizers의 from_file() / from_str() 에 대응하는 tokenizer.json 파싱 기능 추가.

현재 vocab.txt 파일만 로드 가능하나, HuggingFace 모델 디렉토리에서 제공하는 tokenizer.json은 전체 파이프라인(normalizer, pre_tokenizer, model, post_processor, decoder, added_tokens, padding/truncation config)을 하나의 JSON으로 포함하고 있어, 이를 직접 로드할 수 있으면 HF 생태계와의 호환성이 크게 향상됨.

Motivation

  • 대부분의 HuggingFace 모델은 tokenizer.json을 함께 배포
  • 온디바이스 ML 앱에서 HF 모델을 사용할 때 tokenizer.json을 직접 로드하는 것이 가장 자연스러운 워크플로우
  • vocab.txt 만으로는 normalizer/post_processor 설정 등을 별도 수동 설정해야 함

Scope

  • tokenizer.json 파싱 및 WordPieceTokenizer 인스턴스 생성
  • WordPieceTokenizer.fromTokenizerJson(String path) (async)
  • WordPieceTokenizer.fromTokenizerJsonSync(String path) (sync)
  • WordPieceTokenizer.fromTokenizerJsonString(String json)
  • JSON 내 WordPiece model config, normalizer, pre_tokenizer, added_tokens 반영

Priority

Must

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions