Skip to content

Commit 608e4b4

Browse files
authored
Update README.md
1 parent 92ccf03 commit 608e4b4

File tree

1 file changed

+2
-95
lines changed

1 file changed

+2
-95
lines changed

Diff for: README.md

+2-95
Original file line numberDiff line numberDiff line change
@@ -167,101 +167,8 @@ https://github.com/bab2min/kiwi-gui 에서 다운받을 수 있습니다.
167167

168168

169169
## 업데이트 내역
170-
* v0.16
171-
* 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyze에 pretokenized 인자 추가
172-
* 사용자 정의로 쓸 수 있는 user0~4 태그 추가
173-
* 순서 있는 글머리를 위한 sb 태그 추가
174-
* Java용 바인딩인 KiwiJava 제공 (실험적)
175-
176-
* v0.15
177-
* 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 `splitComplex` 도입
178-
* 부사파생접사를 위한 `XSM` 태그 추가 및 이에 해당하는 형태소 `-이`, `-히`, `-로`, `-스레` 추가
179-
* 조사/어미에 덧붙는 받침을 위한 `Z_CODA` 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
180-
* 형태 분석 및 언어 모델 탐색 속도 최적화
181-
* 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
182-
* 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
183-
* 문장 분리 성능 개선
184-
185-
* v0.14
186-
* `SS` 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화
187-
* `SSO` 태그로 시작하여 SSC 태그로 끝나는 범위 내에 포함된 문장을 '안긴문장'으로 처리하여 문장 분리 성능을 개선
188-
* 의미에 따라 두 가지로 활용하는 `이르다` 동사도 `VV-R(일렀다)``VV-I(이르렀다)` 태그로 나눠 모호성 해소 기능 추가
189-
* 전화번호, 통장번호, IP주소 등의 일련번호를 추출하는 `W_SERIAL` 태그 추가
190-
* `랬/댔/잖`의 분석 정확도 개선
191-
* 각정 버그 수정 & 언어 모델 정확도 개선
192-
193-
* v0.13
194-
* 형태소 분석 과정에서 간단한 오타를 교정하는 기능 추가
195-
* 장거리 형태소 간의 관계를 고려할 수 있는 SkipBigram 언어 모델 추가
196-
* 각종 버그 수정 & 언어 모델 정확도 개선
197-
198-
* v0.12
199-
* 동/형용사 형태소의 불규칙 활용 여부를 표시하는 태그 추가
200-
* 규칙/불규칙 활용 둘 다 가능한 `걷다/묻다` 동사에 대한 모호성 해소 기능 추가
201-
* 형태소를 결합하여 원본 텍스트를 복원하는 클래스인 `kiwi::cmb::AutoJoiner` 추가
202-
* 각종 버그 수정 & 언어 모델 정확도 개선
203-
204-
* v0.11
205-
* 이용자 사전을 관리하는 메소드 `kiwi::Kiwi::addPreAnalyzedWord`, `kiwi::Kiwi::addRule`가 추가되었습니다.
206-
* 분석 시 접두사/접미사 및 동/형용사 파생접미사의 분리여부를 선택할 수 있는 옵션 `kiwi::Match::joinNounPrefix`, `kiwi::Match::joinNounSuffix`, `kiwi::Match::joinVerbSuffix`, `kiwi::Match::joinAdjSuffix`가 추가되었습니다.
207-
* 결합된 형태소 `kiwi::TokenInfo``position`, `length`가 부정확한 버그를 수정했습니다.
208-
* 이제 형태소 결합 규칙이 Kiwi 모델 내로 통합되어 `kiwi::Kiwi::addWord`로 추가된 동/형용사의 활용형도 정상적으로 분석이 됩니다.
209-
* 언어 모델의 압축 알고리즘을 개선하여 초기 로딩 속도를 높였습니다.
210-
* SIMD 최적화가 개선되었습니다.
211-
* 언어 모델 및 기본 사전을 업데이트하여 전반적인 정확도를 높였습니다.
212-
213-
* v0.10
214-
* 소스 코드 리팩토링. 인터페이스를 `kiwi::KiwiBuilder`(분석기 사전을 관리)와 `kiwi::Kiwi`(실제 형태소 분석을 수행)로 분할
215-
* CMake 적용
216-
* 언어 모델 엔진 재구현. 메모리 & 속도 최적화. 모델 파일 크기 최적화
217-
* Linux 환경에서 간헐적으로 발생하는 Segmentation Fault 해결
218-
219-
* v0.9
220-
* `default.dict`에 포함된 활용형 단어 때문에 발생하는 오분석 수정
221-
* custom allocator에서 발생하는 멀티스레딩 메모리 누수 해결
222-
* mimalloc과 연동가능하도록 옵션 추가 (-DUSE_MIMALLOC)
223-
* 형태소 탐색 시 조사/어미의 결합조건을 미리 고려하도록 변경, 속도 개선
224-
* 일부 명사(`전랑` 처럼 받침 + 랑으로 끝나는 미등재 명사) 입력시 분석이 실패하는 버그 수정
225-
* 공백문자만 포함된 문자열 입력시 분석결과가 `/UN`로 잘못나오는 문제 수정
226-
227-
* v0.8
228-
* URL, 이메일, 해시태그, 멘션 검출 추가
229-
* 치(하지), 컨대(하건대), 토록(하도록), 케(하게) 축약형이 포함된 동사 활용형 분석 개선
230-
* 사용자 사전에 알파벳이나 숫자, 특수 기호가 포함시 버그 수정
231-
* 특정 상황에서 결합조건이 무시되던 문제를 해결
232-
233-
* v0.7
234-
* 사전 로딩 속도 개선
235-
* 이형태 통합 유무 옵션 추가
236-
* 분석 속도 향상
237-
238-
* v0.6
239-
* 검색 알고리즘 최적화로 인한 속도 향상 (분석 속도: 0.33MB/s)
240-
* 전반적인 정확도 상승 (92%~96%까지)
241-
242-
* v0.5
243-
* 언어 모형 개선(Kneser-Ney 3-gram LM)
244-
* 전반적인 정확도 상승 (최소 89%에서 94%까지)
245-
* 코퍼스에서 미등록 단어 추출 기능 추가
246-
* 멀티스레딩 지원
247-
248-
* v0.4
249-
* 알고리즘 개선
250-
* 실행속도 약 101% 향상 (분석 속도: 0.28MB/s)
251-
252-
* v0.3
253-
* 알고리즘 및 메모리 관리 최적화
254-
* 실행속도 약 86% 향상 (분석 속도: 0.14MB/s)
255-
256-
* v0.2
257-
* 정확도 85%까지 향상.
258-
* 상호정보량 맵을 이용하여 분석 모호성 감소
259-
* 서술격 조사 생략 추적 가능해짐
260-
* (분석 속도: 0.08MB/s)
261-
262-
* v0.1
263-
* 첫 릴리즈. 약 80% 정확도
264-
170+
업데이트 내역은 [릴리즈 노트](./releases)를 참고해주세요.
171+
265172
## 품사 태그
266173

267174
세종 품사 태그를 기초로 하되, 일부 품사 태그를 추가/수정하여 사용하고 있습니다.

0 commit comments

Comments
 (0)