You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: README.md
+2-95
Original file line number
Diff line number
Diff line change
@@ -167,101 +167,8 @@ https://github.com/bab2min/kiwi-gui 에서 다운받을 수 있습니다.
167
167
168
168
169
169
## 업데이트 내역
170
-
* v0.16
171
-
* 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyze에 pretokenized 인자 추가
172
-
* 사용자 정의로 쓸 수 있는 user0~4 태그 추가
173
-
* 순서 있는 글머리를 위한 sb 태그 추가
174
-
* Java용 바인딩인 KiwiJava 제공 (실험적)
175
-
176
-
* v0.15
177
-
* 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 `splitComplex` 도입
178
-
* 부사파생접사를 위한 `XSM` 태그 추가 및 이에 해당하는 형태소 `-이`, `-히`, `-로`, `-스레` 추가
179
-
* 조사/어미에 덧붙는 받침을 위한 `Z_CODA` 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
180
-
* 형태 분석 및 언어 모델 탐색 속도 최적화
181
-
* 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
182
-
* 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
183
-
* 문장 분리 성능 개선
184
-
185
-
* v0.14
186
-
*`SS` 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화
187
-
*`SSO` 태그로 시작하여 SSC 태그로 끝나는 범위 내에 포함된 문장을 '안긴문장'으로 처리하여 문장 분리 성능을 개선
188
-
* 의미에 따라 두 가지로 활용하는 `이르다` 동사도 `VV-R(일렀다)`과 `VV-I(이르렀다)` 태그로 나눠 모호성 해소 기능 추가
189
-
* 전화번호, 통장번호, IP주소 등의 일련번호를 추출하는 `W_SERIAL` 태그 추가
190
-
*`랬/댔/잖`의 분석 정확도 개선
191
-
* 각정 버그 수정 & 언어 모델 정확도 개선
192
-
193
-
* v0.13
194
-
* 형태소 분석 과정에서 간단한 오타를 교정하는 기능 추가
195
-
* 장거리 형태소 간의 관계를 고려할 수 있는 SkipBigram 언어 모델 추가
196
-
* 각종 버그 수정 & 언어 모델 정확도 개선
197
-
198
-
* v0.12
199
-
* 동/형용사 형태소의 불규칙 활용 여부를 표시하는 태그 추가
200
-
* 규칙/불규칙 활용 둘 다 가능한 `걷다/묻다` 동사에 대한 모호성 해소 기능 추가
201
-
* 형태소를 결합하여 원본 텍스트를 복원하는 클래스인 `kiwi::cmb::AutoJoiner` 추가
202
-
* 각종 버그 수정 & 언어 모델 정확도 개선
203
-
204
-
* v0.11
205
-
* 이용자 사전을 관리하는 메소드 `kiwi::Kiwi::addPreAnalyzedWord`, `kiwi::Kiwi::addRule`가 추가되었습니다.
206
-
* 분석 시 접두사/접미사 및 동/형용사 파생접미사의 분리여부를 선택할 수 있는 옵션 `kiwi::Match::joinNounPrefix`, `kiwi::Match::joinNounSuffix`, `kiwi::Match::joinVerbSuffix`, `kiwi::Match::joinAdjSuffix`가 추가되었습니다.
207
-
* 결합된 형태소 `kiwi::TokenInfo`의 `position`, `length`가 부정확한 버그를 수정했습니다.
208
-
* 이제 형태소 결합 규칙이 Kiwi 모델 내로 통합되어 `kiwi::Kiwi::addWord`로 추가된 동/형용사의 활용형도 정상적으로 분석이 됩니다.
209
-
* 언어 모델의 압축 알고리즘을 개선하여 초기 로딩 속도를 높였습니다.
210
-
* SIMD 최적화가 개선되었습니다.
211
-
* 언어 모델 및 기본 사전을 업데이트하여 전반적인 정확도를 높였습니다.
212
-
213
-
* v0.10
214
-
* 소스 코드 리팩토링. 인터페이스를 `kiwi::KiwiBuilder`(분석기 사전을 관리)와 `kiwi::Kiwi`(실제 형태소 분석을 수행)로 분할
215
-
* CMake 적용
216
-
* 언어 모델 엔진 재구현. 메모리 & 속도 최적화. 모델 파일 크기 최적화
217
-
* Linux 환경에서 간헐적으로 발생하는 Segmentation Fault 해결
218
-
219
-
* v0.9
220
-
*`default.dict`에 포함된 활용형 단어 때문에 발생하는 오분석 수정
221
-
* custom allocator에서 발생하는 멀티스레딩 메모리 누수 해결
222
-
* mimalloc과 연동가능하도록 옵션 추가 (-DUSE_MIMALLOC)
223
-
* 형태소 탐색 시 조사/어미의 결합조건을 미리 고려하도록 변경, 속도 개선
224
-
* 일부 명사(`전랑` 처럼 받침 + 랑으로 끝나는 미등재 명사) 입력시 분석이 실패하는 버그 수정
225
-
* 공백문자만 포함된 문자열 입력시 분석결과가 `/UN`로 잘못나오는 문제 수정
226
-
227
-
* v0.8
228
-
* URL, 이메일, 해시태그, 멘션 검출 추가
229
-
* 치(하지), 컨대(하건대), 토록(하도록), 케(하게) 축약형이 포함된 동사 활용형 분석 개선
0 commit comments