-
Notifications
You must be signed in to change notification settings - Fork 94
[Tokenizer] Update Tokenizer to support Korean #3459
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Open
DonghakPark
wants to merge
8
commits into
nnstreamer:main
Choose a base branch
from
DonghakPark:tokenizer_update
base: main
Could not load branches
Branch not found: {{ refName }}
Loading
Could not load tags
Nothing to show
Loading
Are you sure you want to change the base?
Some commits from the old base branch may be removed from the timeline,
and old review comments may become outdated.
Conversation
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
48c4f76 to
b54db17
Compare
Before물론이죠! LLM은 "Large Language Model"의 �자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 �스트 데이터를 �습**해서 언어를 이해하고 생성할 수 있는 모델입니다.
### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, �스, 대화 기록** 등 **방대한 �의 �스트**를 �습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 � 수 있는** �력을 가집니다.
### LLM의 주요 특징
1. **대량의 �스트 �습**
- 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 �습해서 언어 �턴을 배웁니다.
2. **다양한 언어 지원**
- 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, ��인어 등 다양한 언어도 지원합니다.
3. **대화 가능**
- 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 �기 �력**
- 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **�드 생성**
- 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.
### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(�이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델
### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.
이 신경망은 **단어와 문장의 �턴을 �After물론이죠! LLM은 "Large Language Model"의 약자로, **대규모 언어 모델**을 의미합니다. 이건 인공지능(AI) 기술 중 하나로, **대량의 텍스트 데이터를 학습**해서 언어를 이해하고 생성할 수 있는 모델입니다.
### LLM이란?
- **LLM**은 말 그대로 **대규모**로 만들어진 언어 모델입니다.
- 이 모델은 **인터넷 문서, 책, 뉴스, 대화 기록** 등 **방대한 양의 텍스트**를 학습해서 만들어졌습니다.
- 그래서 **말을 이해하고, 대화를 할 수 있고, 글을 쓸 수 있는** 능력을 가집니다.
### LLM의 주요 특징
1. **대량의 텍스트 학습**
- 인터넷에 있는 수많은 문서, 책, 대화 기록 등을 학습해서 언어 패턴을 배웁니다.
2. **다양한 언어 지원**
- 대부분의 LLM은 영어를 중심으로 만들어졌지만, 한국어, 중국어, 스페인어 등 다양한 언어도 지원합니다.
3. **대화 가능**
- 사용자의 질문에 대해 자연스럽게 대답할 수 있습니다.
4. **글 쓰기 능력**
- 에세이, 대본, 소설, 이메일 등 다양한 글을 생성할 수 있습니다.
5. **코드 생성**
- 프로그래밍 언어로 된 코드도 생성할 수 있는 모델도 있습니다.
### LLM의 예시
- **GPT** (예: GPT-3, GPT-4) – 마이크로소프트와 알리바바가 만든 모델
- **LLaMA** – 메타(페이스북)에서 만든 모델
- **Qwen** – 알리바바에서 만든 모델
- **Bard** – 구글에서 만든 모델
### LLM이 어떻게 작동하는가?
LLM은 **신경망**이라는 인공지능 기술을 사용합니다.
이 신경망은 **단어와 문장의 패턴을 |
d2d8e39 to
33be6a9
Compare
|
For now Please ignore Static checkers and verifiers |
6ce29c0 to
74cd704
Compare
songgot
reviewed
Sep 9, 2025
| // ends with an incomplete token, hold on | ||
| } else { | ||
| #if defined(_WIN32) | ||
| std::wcout << L"" << utf9_to_wstring(decoded_str); |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Maybe typo? 'utf9_to_wstring' -> 'utf8_to_wstring'
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
FIx!
696c395 to
b698ae3
Compare
skykongkong8
approved these changes
Sep 16, 2025
b698ae3 to
8b0ae48
Compare
Update Tokenizer to support Korean language **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Move Tokenizer code to utils - enable to use other llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Add Tokenizer Libs for Window, Android, Linux - This will be replace with subproject or download via other repo **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Update Tokenizer as Util and apply to llm application **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Add Tokenizer Util file - registeOutput : handle with token is --> decoded string - it will handle korean & emoji **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Apply nntr_tokenizer_utils to llm Applications **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Add Documentation & reformatting new files **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
Add Windows Dep for Tokenizer - ws2 - ntdll - bcrypt - userenv Resolves: **Self evaluation:** 1. Build test: [X]Passed [ ]Failed [ ]Skipped 2. Run test: [X]Passed [ ]Failed [ ]Skipped Signed-off-by: Donghak PARK <[email protected]>
8b0ae48 to
2b3145b
Compare
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
[Tokenizer] Update Tokenizer to support Korean
Update Tokenizer to support Korean language
Self evaluation:
Signed-off-by: Donghak PARK [email protected]