Skip to content

Conversation

@DonghakPark
Copy link
Member

[Tokenizer] Update Tokenizer to support Korean

Update Tokenizer to support Korean language

Self evaluation:

  1. Build test: [X]Passed [ ]Failed [ ]Skipped
  2. Run test: [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK [email protected]

@DonghakPark
Copy link
Member Author

DonghakPark commented Sep 5, 2025

Before

물론이죠! LLM은 "Large Language Model"의 �자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 �스트 데이터를 �습**해서 언어를 이해하고 생성할 수 있는 모델입니다.

### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, �스, 대화 기록****방대한 �의 �스트**를 �습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 � 수 있는** �력을 가집니다.

### LLM의 주요 특징
1. **대량의 �스트 �습**  
   - 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 �습해서 언어 �턴을 배웁니다.
2. **다양한 언어 지원**  
   - 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, ��인어 등 다양한 언어도 지원합니다.
3. **대화 가능**  
   - 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 �기 �력**  
   - 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **�드 생성**  
   - 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.

### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(�이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델

### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.  
이 신경망은 **단어와 문장의 �턴을 �

After

물론이죠! LLM은 "Large Language Model"의 약자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 텍스트 데이터를 학습**해서 언어를 이해하고 생성할 수 있는 모델입니다.

### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, 뉴스, 대화 기록****방대한 양의 텍스트**를 학습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 쓸 수 있는** 능력을 가집니다.

### LLM의 주요 특징
1. **대량의 텍스트 학습**  
   - 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 학습해서 언어 패턴을 배웁니다.
2. **다양한 언어 지원**  
   - 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, 스페인어 등 다양한 언어도 지원합니다.
3. **대화 가능**  
   - 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 쓰기 능력**  
   - 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **코드 생성**  
   - 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.

### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(페이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델

### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.  
이 신경망은 **단어와 문장의 패턴을

@DonghakPark DonghakPark force-pushed the tokenizer_update branch 2 times, most recently from d2d8e39 to 33be6a9 Compare September 5, 2025 07:12
@DonghakPark DonghakPark self-assigned this Sep 9, 2025
@DonghakPark
Copy link
Member Author

For now Please ignore Static checkers and verifiers

// ends with an incomplete token, hold on
} else {
#if defined(_WIN32)
std::wcout << L"" << utf9_to_wstring(decoded_str);
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Maybe typo? 'utf9_to_wstring' -> 'utf8_to_wstring'

Copy link
Member Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

FIx!

@DonghakPark DonghakPark force-pushed the tokenizer_update branch 7 times, most recently from 696c395 to b698ae3 Compare September 16, 2025 03:02
Update Tokenizer to support Korean language

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Move Tokenizer code to utils
- enable to use other llm application

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Add Tokenizer Libs for Window, Android, Linux
- This will be replace with subproject or download via other repo

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Update Tokenizer as Util and apply to llm application

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Add Tokenizer Util file
- registeOutput : handle with token is --> decoded string
- it will handle korean & emoji

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Apply nntr_tokenizer_utils to llm Applications

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Add Documentation & reformatting new files

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
Add Windows Dep for Tokenizer
- ws2
- ntdll
- bcrypt
- userenv

Resolves:

**Self evaluation:**
1. Build test:	 [X]Passed [ ]Failed [ ]Skipped
2. Run test:	 [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Donghak PARK <[email protected]>
@github-actions github-actions bot added the Stale label Oct 2, 2025
@DonghakPark DonghakPark removed the Stale label Oct 2, 2025
@github-actions github-actions bot added the Stale label Oct 17, 2025
@github-actions github-actions bot closed this Oct 20, 2025
@DonghakPark DonghakPark reopened this Oct 20, 2025
@nnstreamer nnstreamer deleted a comment from github-actions bot Oct 20, 2025
@nnstreamer nnstreamer deleted a comment from github-actions bot Oct 20, 2025
@nnstreamer nnstreamer deleted a comment from github-actions bot Oct 20, 2025
@DonghakPark DonghakPark removed the Stale label Oct 20, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants