[Tokenizer] Update Tokenizer to support Korean #3459

DonghakPark · 2025-09-04T11:15:46Z

[Tokenizer] Update Tokenizer to support Korean

Update Tokenizer to support Korean language

Self evaluation:

Build test: [X]Passed [ ]Failed [ ]Skipped
Run test: [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK [email protected]

DonghakPark · 2025-09-05T04:06:22Z

Before

물론이죠! LLM은 "Large Language Model"의 �자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 �스트 데이터를 �습**해서 언어를 이해하고 생성할 수 있는 모델입니다.

### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, �스, 대화 기록** 등 **방대한 �의 �스트**를 �습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 � 수 있는** �력을 가집니다.

### LLM의 주요 특징
1. **대량의 �스트 �습**  
   - 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 �습해서 언어 �턴을 배웁니다.
2. **다양한 언어 지원**  
   - 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, ��인어 등 다양한 언어도 지원합니다.
3. **대화 가능**  
   - 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 �기 �력**  
   - 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **�드 생성**  
   - 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.

### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(�이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델

### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.  
이 신경망은 **단어와 문장의 �턴을 �

After

물론이죠! LLM은 "Large Language Model"의 약자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 텍스트 데이터를 학습**해서 언어를 이해하고 생성할 수 있는 모델입니다.

### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, 뉴스, 대화 기록** 등 **방대한 양의 텍스트**를 학습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 쓸 수 있는** 능력을 가집니다.

### LLM의 주요 특징
1. **대량의 텍스트 학습**  
   - 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 학습해서 언어 패턴을 배웁니다.
2. **다양한 언어 지원**  
   - 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, 스페인어 등 다양한 언어도 지원합니다.
3. **대화 가능**  
   - 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 쓰기 능력**  
   - 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **코드 생성**  
   - 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.

### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(페이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델

### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.  
이 신경망은 **단어와 문장의 패턴을

DonghakPark · 2025-09-09T07:58:35Z

For now Please ignore Static checkers and verifiers

songgot · 2025-09-09T23:31:28Z

Applications/utils/llm_tokenizer/nntr_tokenizer_util.cpp

+        // ends with an incomplete token, hold on
+      } else {
+#if defined(_WIN32)
+        std::wcout << L"" << utf9_to_wstring(decoded_str);


Maybe typo? 'utf9_to_wstring' -> 'utf8_to_wstring'

Update Tokenizer to support Korean language **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Move Tokenizer code to utils - enable to use other llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Add Tokenizer Libs for Window, Android, Linux - This will be replace with subproject or download via other repo **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Update Tokenizer as Util and apply to llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Add Tokenizer Util file - registeOutput : handle with token is --> decoded string - it will handle korean & emoji **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Apply nntr_tokenizer_utils to llm Applications **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Add Documentation & reformatting new files **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

Add Windows Dep for Tokenizer - ws2 - ntdll - bcrypt - userenv Resolves: **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

DonghakPark requested review from EunjuYang, SeoHyungjun, again4you, anyj0527, baek2sm, djeong20, dkjung, gichan-jang, haehun, jaeyun-jung, jihochu, jijoongmoon, leemgs, lhs8928, myungjoo, skykongkong8, songgot and wooksong as code owners September 4, 2025 11:15

github-actions bot added the Need Review label Sep 4, 2025

DonghakPark force-pushed the tokenizer_update branch 7 times, most recently from 48c4f76 to b54db17 Compare September 5, 2025 04:05

DonghakPark force-pushed the tokenizer_update branch 2 times, most recently from d2d8e39 to 33be6a9 Compare September 5, 2025 07:12

DonghakPark self-assigned this Sep 9, 2025

DonghakPark force-pushed the tokenizer_update branch from 6ce29c0 to 74cd704 Compare September 9, 2025 08:17

songgot reviewed Sep 9, 2025

View reviewed changes

DonghakPark force-pushed the tokenizer_update branch 7 times, most recently from 696c395 to b698ae3 Compare September 16, 2025 03:02

skykongkong8 approved these changes Sep 16, 2025

View reviewed changes

DonghakPark force-pushed the tokenizer_update branch from b698ae3 to 8b0ae48 Compare September 16, 2025 06:56

DonghakPark added 8 commits September 18, 2025 10:39

[Tokenizer] Update Tokenizer to support Korean

fc696cb

Update Tokenizer to support Korean language **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

[Refactoring] Refactoring tokenizer to util func

1c107dc

Move Tokenizer code to utils - enable to use other llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

[Tokenizer] Update Tokenizer as Util

c4c8f15

Update Tokenizer as Util and apply to llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

[Tokenizer] Apply nntr_tokenizer_utils to llm application

a6ef6ad

Apply nntr_tokenizer_utils to llm Applications **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

[Docs] Add Docs & formatting files

05a9700

Add Documentation & reformatting new files **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

[Tokenizer] Add Windows dep with Tokenizer

2b3145b

Add Windows Dep for Tokenizer - ws2 - ntdll - bcrypt - userenv Resolves: **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>

DonghakPark force-pushed the tokenizer_update branch from 8b0ae48 to 2b3145b Compare September 18, 2025 01:40

github-actions bot added the Stale label Oct 2, 2025

DonghakPark removed the Stale label Oct 2, 2025

github-actions bot added the Stale label Oct 17, 2025

github-actions bot closed this Oct 20, 2025

DonghakPark reopened this Oct 20, 2025

nnstreamer deleted a comment from github-actions bot Oct 20, 2025

DonghakPark removed the Stale label Oct 20, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Tokenizer] Update Tokenizer to support Korean #3459

[Tokenizer] Update Tokenizer to support Korean #3459

Uh oh!

DonghakPark commented Sep 4, 2025

Uh oh!

DonghakPark commented Sep 5, 2025 •

edited

Loading

Uh oh!

DonghakPark commented Sep 9, 2025

Uh oh!

songgot Sep 9, 2025

Uh oh!

DonghakPark Sep 10, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

[Tokenizer] Update Tokenizer to support Korean #3459

Are you sure you want to change the base?

[Tokenizer] Update Tokenizer to support Korean #3459

Uh oh!

Conversation

DonghakPark commented Sep 4, 2025

Uh oh!

DonghakPark commented Sep 5, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Before

After

Uh oh!

DonghakPark commented Sep 9, 2025

Uh oh!

songgot Sep 9, 2025

Choose a reason for hiding this comment

Uh oh!

DonghakPark Sep 10, 2025

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

DonghakPark commented Sep 5, 2025 •

edited

Loading