bab2min
diff --git a/‎.github/workflows/deploy.yml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/deploy.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎.github/workflows/deploy_test.yml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/deploy_test.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎.github/workflows/pull_request_test.yml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/pull_request_test.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎Kiwi‎ b/‎Kiwi‎
diff --git a/‎README.md‎
Lines changed: 72 additions & 24 deletions b/‎README.md‎
Lines changed: 72 additions & 24 deletions
diff --git a/‎kiwipiepy/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎kiwipiepy/__init__.py‎
Lines changed: 3 additions & 0 deletions
@@ -47,12 +47,12 @@ jobs:
         /opt/python/cp311-cp311/bin/python -m pip install twine wheel numpy
         /opt/python/cp311-cp311/bin/python setup.py sdist
         /opt/python/cp311-cp311/bin/python -m twine upload dist/*.tar.gz
-        USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
+        NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
         auditwheel repair dist/*-linux_x86_64.whl
         for cp in cp314-cp314t
         do
           /opt/python/${cp}/bin/python -m pip install wheel setuptools numpy==`/opt/python/${cp}/bin/python .github/workflows/numpy_version.py`
-          USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
+          NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
           auditwheel repair dist/*-${cp}-linux_x86_64.whl
         done
         /opt/python/cp311-cp311/bin/python -m twine upload wheelhouse/*.whl
@@ -242,12 +242,12 @@ jobs:
               rm /usr/local/bin/cmake || true
               ln -s /opt/python/cp311-cp311/bin/cmake /usr/local/bin/cmake
               /opt/python/cp311-cp311/bin/pip install -U wheel setuptools numpy twine
-              USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
+              NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
               auditwheel repair dist/*.whl
               for cp in cp314-cp314t
               do
                 /opt/python/${cp}/bin/pip install -U wheel setuptools numpy==`/opt/python/${cp}/bin/python .github/workflows/numpy_version.py`
-                USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
+                NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
                 auditwheel repair dist/*-${cp}-*.whl
               done
               /opt/python/cp311-cp311/bin/twine upload wheelhouse/*.whl
@@ -44,12 +44,12 @@ jobs:
         /opt/python/cp311-cp311/bin/python -m pip install twine wheel numpy
         /opt/python/cp311-cp311/bin/python setup.py sdist
         /opt/python/cp311-cp311/bin/python -m twine upload --repository testpypi dist/*.tar.gz
-        USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
+        NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
         auditwheel repair dist/*-linux_x86_64.whl
         for cp in cp314-cp314t
         do
           /opt/python/${cp}/bin/python -m pip install wheel setuptools numpy==`/opt/python/${cp}/bin/python .github/workflows/numpy_version.py`
-          USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
+          NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
           auditwheel repair dist/*-${cp}-linux_x86_64.whl
         done
         /opt/python/cp311-cp311/bin/python -m twine upload --repository testpypi wheelhouse/*.whl
@@ -239,12 +239,12 @@ jobs:
               rm /usr/local/bin/cmake || true
               ln -s /opt/python/cp311-cp311/bin/cmake /usr/local/bin/cmake
               /opt/python/cp311-cp311/bin/pip install -U wheel setuptools numpy twine
-              USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
+              NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 Py_LIMITED_API=1 /opt/python/cp311-cp311/bin/python setup.py build bdist_wheel
               auditwheel repair dist/*.whl
               for cp in cp314-cp314t
               do
                 /opt/python/${cp}/bin/pip install -U wheel setuptools numpy==`/opt/python/${cp}/bin/python .github/workflows/numpy_version.py`
-                USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
+                NUM_AVAILABLE_CPU_CORES=2 USE_MIMALLOC=1 /opt/python/${cp}/bin/python setup.py build bdist_wheel
                 auditwheel repair dist/*-${cp}-*.whl
               done
               /opt/python/cp311-cp311/bin/twine upload --repository testpypi wheelhouse/*.whl
@@ -41,7 +41,7 @@ jobs:
               cd model
               /opt/python/${{ matrix.cp }}/bin/python setup.py build install
               cd ..
-              /opt/python/${{ matrix.cp }}/bin/python setup.py build install
+              NUM_AVAILABLE_CPU_CORES=2 /opt/python/${{ matrix.cp }}/bin/python setup.py build install
               /opt/python/${{ matrix.cp }}/bin/python -m pip install numpy==`/opt/python/${{ matrix.cp }}/bin/python .github/workflows/numpy_version.py v1` || true
           - name: Test kiwipiepy
             run: |
@@ -102,7 +102,7 @@ jobs:
               cd model
               /opt/python/cp39-cp39/bin/python setup.py bdist_wheel
               cd ..
-              Py_LIMITED_API=1 /opt/python/cp39-cp39/bin/python setup.py bdist_wheel
+              NUM_AVAILABLE_CPU_CORES=2 Py_LIMITED_API=1 /opt/python/cp39-cp39/bin/python setup.py bdist_wheel
           - name: Test kiwipiepy
             run: |
               /opt/python/${{ matrix.cp }}/bin/python -m pip install model/dist/*.whl 
@@ -458,7 +458,7 @@ jobs:
               cd ..
           - name: Build
             run: |
-              /opt/python/${{ matrix.cp }}/bin/python setup.py build install bdist_wheel
+              NUM_AVAILABLE_CPU_CORES=2 /opt/python/${{ matrix.cp }}/bin/python setup.py build install bdist_wheel
               /opt/python/${{ matrix.cp }}/bin/python -m pip install numpy==`/opt/python/${{ matrix.cp }}/bin/python .github/workflows/numpy_version.py v1` || true
               tar -zcvf /artifacts/build.tgz build/*
               cp -r dist /artifacts/
@@ -522,7 +522,7 @@ jobs:
               cd ..
           - name: Build
             run: |
-              Py_LIMITED_API=1 /opt/python/cp39-cp39/bin/python setup.py bdist_wheel
+              NUM_AVAILABLE_CPU_CORES=2 Py_LIMITED_API=1 /opt/python/cp39-cp39/bin/python setup.py bdist_wheel
               tar -zcvf /artifacts/build.tgz build/*
               cp -r dist /artifacts/
           - name: Test
 
@@ -254,9 +254,9 @@ True
  Token(form='네', tag='XSN', start=1, len=1), 
  Token(form='둘', tag='NR', start=3, len=1), 
  Token(form='이', tag='JKS', start=4, len=1), 
- Token(form='사귀', tag='VV', start=6, len=2, 
- Token(form='었', tag='EP', start=7 len=1, 
- Token(form='대', tag='EF', start=8 len=1]
+ Token(form='사귀', tag='VV', start=6, len=2), 
+ Token(form='었', tag='EP', start=7, len=1), 
+ Token(form='대', tag='EF', start=8, len=1)]
 
 # v0.12.0 신기능
 # 0.12.0 버전부터는 형태소를 결합하여 문장으로 복원하는 기능이 추가되었습니다.
@@ -265,18 +265,17 @@ True
 >>> kiwi.join([('흙', 'NNG'), ('이', 'JKS'), ('묻', 'VV'), ('어요', 'EF')])
 '흙이 묻어요'
 
-# v0.13.0 신기능
-# 오타 교정 기능이 추가되었습니다.
+# 오타 교정 기능을 지원합니다.
 # 간단한 오타를 교정하여, 사소한 오타 때문에 전체 분석 결과가 어긋나는 문제를 해결할 수 있습니다.
->>> kiwi = Kiwi(model_type='largest', typos='basic')
->>> kiwi.tokenize('외않됀대?') # 오타 교정 사용 시 로딩 시간이 5~10초 정도 소요됨
+>>> kiwi = Kiwi()
+>>> kiwi.tokenize('외않됀대?', typos='basic')
 [Token(form='왜', tag='MAG', start=0, len=1),
  Token(form='안', tag='MAG', start=1, len=1),
  Token(form='되', tag='VV', start=2, len=1),
  Token(form='ᆫ대', tag='EF', start=2, len=2),
  Token(form='?', tag='SF', start=4, len=1)]
 
->>> kiwi.tokenize('장례희망이 뭐냐는 선섕님의 질문에 벙어리가 됫따') 
+>>> kiwi.tokenize('장례희망이 뭐냐는 선섕님의 질문에 벙어리가 됫따', typos='basic')
 [Token(form='장래', tag='NNG', start=0, len=2),
  Token(form='희망', tag='NNG', start=2, len=2), 
  Token(form='이', tag='JKS', start=4, len=1), 
@@ -296,20 +295,18 @@ True
 
 # 0.17.1에서는 연철에 대한 오타 교정이 추가되었습니다.
 # 받침 + 초성 ㅇ/ㅎ 꼴을 잘못 이어적은 경우에 대해 교정이 가능합니다.
->>> kiwi = Kiwi(typos='continual')
->>> kiwi.tokenize('오늘사무시레서')
+>>> kiwi.tokenize('오늘사무시레서', typos='continual')
 [Token(form='오늘', tag='NNG', start=0, len=2),
  Token(form='사무실', tag='NNG', start=2, len=4),
  Token(form='에서', tag='JKB', start=5, len=2)]
->>> kiwi.tokenize('지가캤어요')
+>>> kiwi.tokenize('지가캤어요', typos='continual')
 [Token(form='지각', tag='NNG', start=0, len=3),
  Token(form='하', tag='XSV', start=2, len=1),
  Token(form='었', tag='EP', start=2, len=1),
  Token(form='어요', tag='EF', start=3, len=2)]
 
 # 기본 오타 교정에 연철 오타 교정까지 함께 사용할 수도 있습니다.
->>> kiwi = Kiwi(typos='basic_with_continual')
->>> kiwi.tokenize('웨 지가캤니?')
+>>> kiwi.tokenize('웨 지가캤니?', typos='basic_with_continual')
 [Token(form='왜', tag='MAG', start=0, len=1),
  Token(form='지각', tag='NNG', start=2, len=3),
  Token(form='하', tag='XSV', start=4, len=1),
@@ -319,15 +316,13 @@ True
 
 # 0.19.0 버전에서는 장음화 오류(한 음절을 여러 음절로 늘려 적는 오류)가 
 # 포함된 텍스트를 교정하는 기능도 추가되었습니다.
->>> kiwi = Kiwi(typos='lengthening')
->>> kiwi.tokenize('지이인짜 귀여워요')
+>>> kiwi.tokenize('지이인짜 귀여워요', typos='lengthening')
 [Token(form='진짜', tag='MAG', start=0, len=4), 
  Token(form='귀엽', tag='VA-I', start=5, len=3), 
  Token(form='어요', tag='EF', start=7, len=2)]
 
 # 기본 오타 교정 + 연철 오타 교정 + 장음화 오류 교정을 함께 사용할 수도 있습니다.
->>> kiwi = Kiwi(typos='basic_with_continual_and_lengthening')
->>> kiwi.tokenize('지이인짜 기여워요~ 마니 좋아해')
+>>> kiwi.tokenize('지이인짜 기여워요~ 마니 좋아해', typos='basic_with_continual_and_lengthening')
 [Token(form='진짜', tag='MAG', start=0, len=4),
  Token(form='귀엽', tag='VA-I', start=5, len=3),
  Token(form='어요', tag='EF', start=7, len=2), 
@@ -494,6 +489,61 @@ print(kiwi.tokenize("약주 ᄒᆞᆫ 잔 드셧수과?", allowed_dialects='jeju
  Token(form='엇', tag='EP', start=10, len=1),
  Token(form='수과', tag='EF', start=11, len=2, sense=1),
  Token(form='?', tag='SF', start=13, len=1)]
+
+# 0.23.0 버전에서는 OOV 탐지 방식을 선택할 수 있는 옵션이 추가되었습니다.
+# oov_handling='rule'로 설정 시 이전 방식대로 길이에 기반한 규칙으로 OOV를 탐지합니다.
+>>> kiwi.tokenize('알리오올리오가 진짜 맛있는 집', oov_handling='rule')
+[Token(form='알리', tag='VV', start=0, len=2),
+ Token(form='오', tag='EC', start=2, len=1), 
+ Token(form='올리', tag='VV', start=3, len=2), 
+ Token(form='오', tag='EC', start=5, len=1), 
+ Token(form='가', tag='JKS', start=6, len=1), 
+ Token(form='진짜', tag='MAG', start=8, len=2), 
+ Token(form='맛있', tag='VA', start=11, len=2), 
+ Token(form='는', tag='ETM', start=13, len=1), 
+ Token(form='집', tag='NNG', start=15, len=1)]
+
+# oov_handling='chr'로 설정 시 경량 문자모델에 기반하여 OOV를 탐지합니다. '알리오올리오'는 사전에 등재되지 않은 단어이지만 OOV로 잘 탐지되어서 잘못 쪼개지지 않고 하나의 형태소로 분석된 것을 볼 수 있습니다.
+# oov_handling의 기본값은 'chr'이므로, oov_handling은 생략해도 됩니다.
+>>> kiwi.tokenize('알리오올리오가 진짜 맛있는 집', oov_handling='chr') 
+[Token(form='알리오올리오', tag='NNG', start=0, len=6, oov=True),
+ Token(form='가', tag='JKS', start=6, len=1), 
+ Token(form='진짜', tag='MAG', start=8, len=2), 
+ Token(form='맛있', tag='VA', start=11, len=2), 
+ Token(form='는', tag='ETM', start=13, len=1), 
+ Token(form='집', tag='NNG', start=15, len=1)]
+
+# 종종 oov_handling='chr'만으로는 탐지가 어려운 경우도 있습니다.
+>>> kiwi.tokenize('엑소바이옴에서 나온 제품. 엑소바이옴은 화장품 회사로', oov_handling='chr')
+[Token(form='엑소', tag='NNP', start=0, len=2), 
+ Token(form='바이오', tag='NNG', start=2, len=3), 
+ Token(form='ᆷ', tag='ETN', start=4, len=1), 
+ Token(form='에서', tag='JKB', start=5, len=2), 
+ Token(form='나오', tagg='VV', start=8, len=2), 
+ Token(form='ᆫ', tag='ETM', start=9, len=1), 
+ Token(form='제품', tag='NNG', start=11, len=2), 
+ Token(form='.', tag='SF', start=13, len=1), 
+ Token(form='엑소', tag='NNP', start=15, len=2), 
+ Tooken(form='바이오', tag='NNG', start=17, len=3), 
+ Token(form='ᆷ', tag='ETN', start=19, len=1), 
+ Token(form='은', tag='JX', start=20, len=1), 
+ Token(form='화장품', tag='NNG', start=22, len=3), 
+ Token(form='회사', tagg='NNG', start=26, len=2), 
+ Token(form='로', tag='JKB', start=28, len=1)]
+
+# oov_handling='chr_freq'로 설정 시 OOV 탐지 시 빈도수 정보도 활용하게 됩니다. '엑소바이옴'이 반복적으로 등장하는 것을 보고 신조어일 것이라고 판단하게 됩니다.
+>>> kiwi.tokenize('엑소바이옴에서 나온 제품. 엑소바이옴은 화장품 회사로', oov_handling='chr_freq')
+[Token(form='엑소바이옴', tag='NNG', start=0, len=5, oov=True),
+ Token(form='에서', tag='JKB', start=5, len=2), 
+ Token(form='나오', tag='VV', start=8, len=2), 
+ Token(form='ᆫ', tag='ETM', start=9, len=1), 
+ Token(forrm='제품', tag='NNG', start=11, len=2), 
+ Token(form='.', tag='SF', start=13, len=1), 
+ Token(form='엑소바이옴', tag='NNP', start=15, len=5, oov=True), 
+ Token(form='은', tag='JX', start=20, len=1), 
+ Token(form='화장품', tag='NNG', start=22, len=3), 
+ Token(form='회사', tag='NNG', start=26, len=2), 
+ Token(form='로', tag='JKB', start=28, len=1)]
 ```
 
 ## 시작하기
@@ -505,7 +555,7 @@ kiwi = Kiwi()
 ```
 Kiwi 생성자는 다음과 같습니다.
 ```python
-Kiwi(num_workers=-1, model_path=None, load_default_dict=True, integrate_allomorph=True, model_type=None, typos=None, typo_cost_threshold=2.5, enabled_dialects='standard')
+Kiwi(num_workers=-1, model_path=None, load_default_dict=True, integrate_allomorph=True, model_type=None, enabled_dialects='standard')
 ```
 * `num_workers`:  1 이상이면 단어 추출 및 형태소 분석에 멀티 코어를 활용하여 조금 더 빠른 속도로 분석을 진행할 수 있습니다. <br>
 0인 경우 단일 코어만 활용합니다. num_workers가 -1이면 현재 환경에서 사용가능한 모든 코어를 활용합니다. <br>
@@ -514,8 +564,6 @@ Kiwi(num_workers=-1, model_path=None, load_default_dict=True, integrate_allomorp
 * `load_default_dict`: 추가 사전을 로드합니다. 추가 사전은 위키백과의 표제어 타이틀로 구성되어 있습니다. 이 경우 로딩 및 분석 시간이 약간 증가하지만 다양한 고유명사를 좀 더 잘 잡아낼 수 있습니다. 분석 결과에 원치 않는 고유명사가 잡히는 것을 방지하려면 이를 False로 설정하십시오.
 * `integrate_allomorph`: 어미 중, '아/어', '았/었'과 같이 동일하지만 음운 환경에 따라 형태가 달라지는 이형태들을 자동으로 통합합니다.
 * `model_type`: 형태소 분석에 사용할 언어 모델을 지정합니다. `'cong'`, `'cong-global'` 중 하나를 선택할 수 있습니다. `'cong-global'` 는 상대적으로 느리지만 먼 거리에 있는 형태소 간의 관계를 포착할 수 있습니다.
-* `typos`: 형태소 분석 시 간단한 오타를 교정합니다. `None`으로 설정 시 교정을 수행하지 않습니다.
-* `typo_cost_threshold`: 오타 교정을 허용할 최대 오타 비용을 설정합니다.
 * `enabled_dialects`: 활성화할 방언을 설정합니다. 기본값은 `Dialect.STANDARD`으로 이 경우 Kiwi는 표준어만을 분석할 수 있습니다.
 
 kiwi 객체는 크게 다음 세 종류의 작업을 수행할 수 있습니다.
@@ -710,8 +758,8 @@ kiwi을 생성하고, 사용자 사전에 단어를 추가하는 작업이 완
 형태소 분석, 문장 분리, 띄어쓰기 교정, 문장 복원 등의 작업을 수행할 수 있습니다.
 
 ```python
-Kiwi.tokenize(text, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0)
-Kiwi.analyze(text, top_n, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0)
+Kiwi.tokenize(text, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0, oov_handling=None, typos=None, typo_cost_threshold=2.5)
+Kiwi.analyze(text, top_n, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0, oov_handling=None, typos=None, typo_cost_threshold=2.5)
 Kiwi.split_into_sents(text, match_options=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0, return_tokens=False)
 Kiwi.glue(text_chunks, insert_new_lines=None, return_space_insertions=False)
 Kiwi.space(text, reset_whitespace=False)
@@ -720,7 +768,7 @@ Kiwi.template(format_str, cache=True)
 ``` 
 
 <details>
-<summary><code>tokenize(text, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0)</code></summary>
+<summary><code>tokenize(text, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0, oov_handling=None, typos=None, typo_cost_threshold=2.5)</code></summary>
 
 입력된 `text`를 형태소 분석하여 그 결과를 간단하게 반환합니다. 분석결과는 다음과 같이 `Token`의 리스트 형태로 반환됩니다.
 
@@ -746,7 +794,7 @@ Kiwi.template(format_str, cache=True)
 <hr>
 
 <details>
-<summary><code>analyze(text, top_n=1, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0)</code></summary>
+<summary><code>analyze(text, top_n=1, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, allowed_dialects='standard', dialect_cost=3.0, oov_handling=None, typos=None, typo_cost_threshold=2.5)</code></summary>
 
 입력된 `text`를 형태소 분석하여 그 결과를 반환합니다. 총 top_n개의 결과를 자세하게 출력합니다. 반환값은 다음과 같이 구성됩니다.
 
 
@@ -5,10 +5,12 @@
 from kiwipiepy._version import __version__
 from kiwipiepy._wrap import (
     Kiwi, 
+    KiwiConfig,
     Sentence, 
     TypoTransformer, 
     TypoDefinition, 
     HSDataset, 
+    ChrDataset,
     MorphemeSet, 
     PretokenizedToken, 
     extract_substrings, 
@@ -31,6 +33,7 @@
 TypoTransformer.__module__ = 'kiwipiepy'
 TypoDefinition.__module__ = 'kiwipiepy'
 HSDataset.__module__ = 'kiwipiepy'
+ChrDataset.__module__ = 'kiwipiepy'
 MorphemeSet.__module__ = 'kiwipiepy'
 PretokenizedToken.__module__ = 'kiwipiepy'
 SimilarMorpheme.__module__ = 'kiwipiepy'