This repository contains the source code of Kss, a representative Korean sentence segmentation toolkit. I also conduct ongoing research about Korean sentence segmentation algorithms and report the results to this repository. If you have a good idea about Korean sentence segmentation, please feel free to talk through the issue.
- August 25, 2021 Released Kss Java.
- August 18, 2021 Released Kss 3.0.
Kss can be easily installed using the pip package manager.
pip install kss
You can also install Kss from source codes. This can be useful for adding words to user dictionary described in here.
git clone https://github.com/hyunwoongko/kss
cd kss
pip install -e .
Kss is the sentence segmentation toolkit based on morpheme-aware heuristic algorithms. And split_sentences
is a key function of this toolkit.
You can segment input texts to the sentences using this function. Click the triangle button (โบ) for more detailed information and example code snippets of each paramter.
>>> from kss import split_sentences
>>> split_sentences(
... text: Union[str, tuple, List[str]],
... use_heuristic: bool = True,
... use_quotes_brackets_processing: bool = False,
... max_recover_step: int = 5,
... max_recover_length: int = 20000,
... backend: str = "pynori",
... num_workers: int = -1,
... disable_gc: bool = True,
... )
text (Union[str, tuple, List[str]]
)
This parameter indicates input texts. you can also input list or tuple for batch processing not only string.
-
An example of single text segmentation
>>> from kss import split_sentences >>> text = "๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋ ์์ต๋๋ค ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋ ์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์ ๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค" >>> split_sentences(text) ['๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋ ์์ต๋๋ค', 'ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋ ์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์', '๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค']
-
An example of multiple texts batch segmentation
>>> from kss import split_sentences >>> text1 = "์ค๋ ์ฌ๋ฌ๋ถ๊ณผ ํจ๊ป ๋ฆฌ๋ทฐํด ๋ณผ ์ํ๋ ๋ฐ๋ก ๋์ฆ๋ ํฝ์ฌ์ ์ํ '์ '์ ๋๋ค ์ ๋ ์ด ์ํ๋ฅผ ๊ณ ๋ฑํ๊ต ์์ด์๊ฐ์ ์ฒ์ ๋ณด๊ฒ๋์๋๋ฐ์, ์๋ฅ๋ ์ ๋ง์ดํด์ ๊ณ ๋ฑํ๊ต ์ถ์ต์ด ๋ด๊ธด ์ํ๋ฅผ ์ค๋ ์ฌ๋ฌ๋ถ๊ป ์๊ฐํด๋๋ฆฌ๋ ค๊ณ ํด์~ใ ใ ใ ํ๋ฐฉ์ธ ๋๋ฌผ๊ณผ ํ๋ฐํ ์์ ๋ง์ ์์ ๋ด๊ณ ์ถ์ ๋จ ํ๋์ ๊ฑธ์ ํ์ ๋ชจํ์ ๊ฟ๊ฟ ์๋ โ์นผโ ํ ์๋ฒ์ง๋ ์์ฒ ๊ฐ์ ํ์ ์ ๋งค๋ฌ์ ์ง์ ํต์งธ๋ก ๋จ์๋ฉ๋ฆฌ์นด๋ก ๋ ๋ ค ๋ฒ๋ฆฌ๋๋ฐ, โ์นผโ ํ ์๋ฒ์ง์ ์ด ์๋ํ ๋ชจํ์ ์ด๋ ๋ฐ์ง ์์ ๋ถ์ฒญ๊ฐ์ด ์์์ผ๋, ๋ฐ๋ก ํฉ์ผ์ ํํ๊ฐ โ๋ฌ์ โ ์ง๊ตฌ์์ ๋๋ ์์ ์ด ์ด์ํ ์ปคํ์ด ํจ๊ป ํ๋ ๋๋ชจํ ๊ทธ๋ค์ ๊ณผ์ฐ ๋จ๋ฏธ์ ์์ด๋ฒ๋ฆฐ ์ธ๊ณ์์ ์ฌ๋ผ์ ธ ๋ฒ๋ฆฐ ๊ฟ๊ณผ ํฌ๋ง, ํ๋ณต์ ๋ค์ ์ฐพ์ ์ ์์๊น? ์ฌ๋ฌ๋ถ์ ๋์ฆ๋ ์ํ๋ฅผ ์ข์ํ์ ๋์? ์ ๋ ๋์ฆ๋๋ณด๋ค๋ ํฝ์ฌ๋ฅผ ํจ์ฌ ๋ ์ข์ํ๋ ํธ์ธ๋ฐ์ ๋์ฆ๋์ ํฝ์ฌ๊ฐ ํฉ๋ณํ ๋ค, ์ ๋ ๋์ฆ๋ ํฝ์ฌ ์ํ๊ฐ ์ธ์์ํ ์ค ๋๋ถ๋ถ์ ์ฐจ์งํ ์ ๋๋ก ์ ๋ง ์ฆ๊ฒจ๋ณด๊ณ ์์ด์" >>> text2 = "๋์์ ์ดฌ์์ด ๊ธ์ง๋์ด์์ด ๋ ธํ์ฒ ์จ์ ์ด์ ๋์น๋ ๊ฐ์ฐ์ ๊ทธ๋๋ก ๋ณด์ฌ ๋๋ฆฌ์ง ๋ชปํ๋ ์ ๋๋ฌด ์์ฝ๋ค์ ใ ใ ๊ฐ๋จํ ํ์ฌ์ค์ผ์น๋ก๋๋ง ์ฐธ๊ณ ํด์ฃผ์ธ์~ ๋ ธํ์ฒ ์ ์ด์ Talk ํ์ฌ๋ ๊ฐ๊ทธ๋งจ ๊น๋ฒ์ฉ ์จ๊ฐ ๋งก์์ฃผ์ จ๊ณ ์คํ๋ ๋ฌด๋๋ ์๋ํ ํ์3 ํ3๋ก ์ด๋ฆ์ ๋ ๋ฆฐ ์ค๋ณ๊ธธ ์จ์ ๋ ธ๋๋ก ๋จ๊ฒ๊ฒ ๋ฌ๊ถ์ก์ต๋๋ค^^ ์ด๋ ์ด๋๋ ๋ก์ด๋ธ๋ฃจ์ ๋ธ๋ฃจ ๋ฉค๋ฒ์ญ ๊ณ ๊ฐ๋ถ๋ค์ ํํธ๋ก ์ผ์ฑํ๋ณด๊ด ๋๋ผ์ดํธ ์์ด ๊ฐ๋ ์ฐจ๋๊ตฐ์! (์ค๋ณ๊ธธ ์จ์ ๋ ธ๋ ์ํ๋ ๋น๋ฒ์ ๋ฌด์์ผ๊น์? ๊พธ์คํ ๋ชจ์ฐฝ์ฐ์ต์ด๋ผ๊ณ โฆ ใ ) ๊ณง์ด์ด ์ด ๋ ํ์ฌ์ ๋ฉ์ธ์ด์๋ ๋ ธํ์ฒ ์จ์ ์ด์ Talk๊ฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ์์๋์์ต๋๋ค" >>> split_sentences([text1, text2]) [["์ค๋ ์ฌ๋ฌ๋ถ๊ณผ ํจ๊ป ๋ฆฌ๋ทฐํด ๋ณผ ์ํ๋ ๋ฐ๋ก ๋์ฆ๋ ํฝ์ฌ์ ์ํ '์ '์ ๋๋ค", '์ ๋ ์ด ์ํ๋ฅผ ๊ณ ๋ฑํ๊ต ์์ด์๊ฐ์ ์ฒ์ ๋ณด๊ฒ๋์๋๋ฐ์,', '์๋ฅ๋ ์ ๋ง์ดํด์ ๊ณ ๋ฑํ๊ต ์ถ์ต์ด ๋ด๊ธด ์ํ๋ฅผ ์ค๋ ์ฌ๋ฌ๋ถ๊ป ์๊ฐํด๋๋ฆฌ๋ ค๊ณ ํด์~ใ ใ ใ ', 'ํ๋ฐฉ์ธ ๋๋ฌผ๊ณผ ํ๋ฐํ ์์ ๋ง์ ์์ ๋ด๊ณ ์ถ์ ๋จ ํ๋์ ๊ฑธ์ ํ์ ๋ชจํ์ ๊ฟ๊ฟ ์๋ โ์นผโ ํ ์๋ฒ์ง๋ ์์ฒ ๊ฐ์ ํ์ ์ ๋งค๋ฌ์ ์ง์ ํต์งธ๋ก ๋จ์๋ฉ๋ฆฌ์นด๋ก ๋ ๋ ค ๋ฒ๋ฆฌ๋๋ฐ, โ์นผโ ํ ์๋ฒ์ง์ ์ด ์๋ํ ๋ชจํ์ ์ด๋ ๋ฐ์ง ์์ ๋ถ์ฒญ๊ฐ์ด ์์์ผ๋, ๋ฐ๋ก ํฉ์ผ์ ํํ๊ฐ โ๋ฌ์ โ ์ง๊ตฌ์์ ๋๋ ์์ ์ด ์ด์ํ ์ปคํ์ด ํจ๊ป ํ๋ ๋๋ชจํ ๊ทธ๋ค์ ๊ณผ์ฐ ๋จ๋ฏธ์ ์์ด๋ฒ๋ฆฐ ์ธ๊ณ์์ ์ฌ๋ผ์ ธ ๋ฒ๋ฆฐ ๊ฟ๊ณผ ํฌ๋ง, ํ๋ณต์ ๋ค์ ์ฐพ์ ์ ์์๊น?', '์ฌ๋ฌ๋ถ์ ๋์ฆ๋ ์ํ๋ฅผ ์ข์ํ์ ๋์?', '์ ๋ ๋์ฆ๋๋ณด๋ค๋ ํฝ์ฌ๋ฅผ ํจ์ฌ ๋ ์ข์ํ๋ ํธ์ธ๋ฐ์', '๋์ฆ๋์ ํฝ์ฌ๊ฐ ํฉ๋ณํ ๋ค, ์ ๋ ๋์ฆ๋ ํฝ์ฌ ์ํ๊ฐ ์ธ์์ํ ์ค ๋๋ถ๋ถ์ ์ฐจ์งํ ์ ๋๋ก ์ ๋ง ์ฆ๊ฒจ๋ณด๊ณ ์์ด์'], ['๋์์ ์ดฌ์์ด ๊ธ์ง๋์ด์์ด ๋ ธํ์ฒ ์จ์ ์ด์ ๋์น๋ ๊ฐ์ฐ์ ๊ทธ๋๋ก ๋ณด์ฌ ๋๋ฆฌ์ง ๋ชปํ๋ ์ ๋๋ฌด ์์ฝ๋ค์ ใ ใ ', '๊ฐ๋จํ ํ์ฌ์ค์ผ์น๋ก๋๋ง ์ฐธ๊ณ ํด์ฃผ์ธ์~', '๋ ธํ์ฒ ์ ์ด์ Talk ํ์ฌ๋ ๊ฐ๊ทธ๋งจ ๊น๋ฒ์ฉ ์จ๊ฐ ๋งก์์ฃผ์ จ๊ณ ์คํ๋ ๋ฌด๋๋ ์๋ํ ํ์3 ํ3๋ก ์ด๋ฆ์ ๋ ๋ฆฐ ์ค๋ณ๊ธธ ์จ์ ๋ ธ๋๋ก ๋จ๊ฒ๊ฒ ๋ฌ๊ถ์ก์ต๋๋ค^^', '์ด๋ ์ด๋๋ ๋ก์ด๋ธ๋ฃจ์ ๋ธ๋ฃจ ๋ฉค๋ฒ์ญ ๊ณ ๊ฐ๋ถ๋ค์ ํํธ๋ก ์ผ์ฑํ๋ณด๊ด ๋๋ผ์ดํธ ์์ด ๊ฐ๋ ์ฐจ๋๊ตฐ์!', '(์ค๋ณ๊ธธ ์จ์ ๋ ธ๋ ์ํ๋ ๋น๋ฒ์ ๋ฌด์์ผ๊น์? ๊พธ์คํ ๋ชจ์ฐฝ์ฐ์ต์ด๋ผ๊ณ โฆ ใ ) ๊ณง์ด์ด ์ด ๋ ํ์ฌ์ ๋ฉ์ธ์ด์๋ ๋ ธํ์ฒ ์จ์ ์ด์ Talk๊ฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ์์๋์์ต๋๋ค']]
use_heuristic (bool
)
Kss is an open-ended sentence segmentation toolkit, that can segment everywhere in the input texts even if there are no punctuation marks. But, if you want to conduct punctuation-only segmentation, the setting to segment depending only on punctuation, you can modify segmentation setting using this parameter.
This parameter indicates whether to use the heuristic algorithm for the open-ended sentence segmentation.
If you set it True
, Kss conduct open-ended segmentation.
If you set it False
, Kss conduct punctuation-only segmentation..
I recommend to you set it False
if input texts follow the punctuation rules relatively well, because Kss can make mistakes sometimes in the parts without punctuation mark.
- Formal articles (wiki, news, essays): recommend to
False
- Informal articles (sns, blogs, messages): recommend to
True
As shown in the performance analysis, if this option is set to False
, the segmentation error rate will be downed.
However, it does mean Kss will be less sensitive. If your input texts have relatively few punctuation marks, such as messages or blog articles,
Kss can't split most of the sentences.
Therefore, it must be adjusted according to the type of the input texts.
-
An example of
use_heuristic
>>> from kss import split_sentences >>> text = "์์ด๋ฏผ๋ ํํ๊ฒ ํ๋ฆฌ๋ ๋ฌธ๋ฒ์ค๋ฅ๋ ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์๋ชป๋ ์ฌ์ฉํ๋๊ฑฐ์์ ์ง๋ฌธ: ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์ ์ฐ๋์? ๋๋ต: ๋ ๊ฐ์ง ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํด์ ์๋ฅผ ๋ค์ด์ do not = don't not์ o๋ฅผ ์๋ตํ๊ฑธ apostrophe๊ฐ ๋ณด์ฌ์ฃผ๋๊ฑฐ์์ ๋ ๋ค๋ฅธ ์๋ฅผ ๋ค๋ฉด we are = we're are์ a๋ฅผ ์๋ตํ์ฃ ์๋ต๋ ํํ์ ์ํฌ์คํธ๋กํผ๋ฅผ ์์ฃผ ์ฌ์ฉํด์. ์ด์ ์์๊ฒ ์ฃ ?" >>> split_sentences(text, use_heuristic=True) # can segment without punctuations ['์์ด๋ฏผ๋ ํํ๊ฒ ํ๋ฆฌ๋ ๋ฌธ๋ฒ์ค๋ฅ๋ ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์๋ชป๋ ์ฌ์ฉํ๋๊ฑฐ์์', '์ง๋ฌธ: ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์ ์ฐ๋์?', '๋๋ต: ๋ ๊ฐ์ง ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํด์', "์๋ฅผ ๋ค์ด์ do not = don't not์ o๋ฅผ ์๋ตํ๊ฑธ apostrophe๊ฐ ๋ณด์ฌ์ฃผ๋๊ฑฐ์์", "๋ ๋ค๋ฅธ ์๋ฅผ ๋ค๋ฉด we are = we're are์ a๋ฅผ ์๋ตํ์ฃ ", '์๋ต๋ ํํ์ ์ํฌ์คํธ๋กํผ๋ฅผ ์์ฃผ ์ฌ์ฉํด์.', '์ด์ ์์๊ฒ ์ฃ ?'] >>> split_sentences(text, use_morpheme=False) # can't segment without punctuations ['์์ด๋ฏผ๋ ํํ๊ฒ ํ๋ฆฌ๋ ๋ฌธ๋ฒ์ค๋ฅ๋ ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์๋ชป๋ ์ฌ์ฉํ๋๊ฑฐ์์ ์ง๋ฌธ: ์ํฌ์คํธ๋กํผ(apostrophe)๋ฅผ ์ ์ฐ๋์?', "๋๋ต: ๋ ๊ฐ์ง ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํด์ ์๋ฅผ ๋ค์ด์ do not = don't not์ o๋ฅผ ์๋ตํ๊ฑธ apostrophe๊ฐ ๋ณด์ฌ์ฃผ๋๊ฑฐ์์ ๋ ๋ค๋ฅธ ์๋ฅผ ๋ค๋ฉด we are = we're are์ a๋ฅผ ์๋ตํ์ฃ ์๋ต๋ ํํ์ ์ํฌ์คํธ๋กํผ๋ฅผ ์์ฃผ ์ฌ์ฉํด์.", '์ด์ ์์๊ฒ ์ฃ ?']
use_quotes_brackets_processing (bool
)
Kss has the feature that prevents to segment the parts enclosed in brackets (๊ดํธ) and quotation marks (๋ฐ์ดํ).
This parameter indicates whether to segment the parts enclosed in brackets or quotations marks.
If you set it True
, Kss does not segment these parts, If you set it False
, Kss segments the even in the parts that are enclosed in brackets and quotations marks. default is False
. (I set it to False
because it's too slow. Set to True
if you need this feature.)
-
An example of
use_quotes_brackets_processing
>>> from kss import split_sentences >>> text = '"๋๋ ์ด์ ๋๋ ๋ชป ๋จน๊ฒ ๋ค. ๋๋ฌด ๋ฐฐ๋ถ๋ฌ." ๊ทธ๋ฆฌ๊ณ ๊ณง์ฅ ์๋ฆฌ๋ฅผ ๋ด๋ค. ์๋ง๋ ํ์ฅ์ค์ ๊ฐ ๋ชจ์์ด๋ค.' >>> split_sentences(text, use_quotes_brackets_processing=True) ['"๋๋ ์ด์ ๋๋ ๋ชป ๋จน๊ฒ ๋ค. ๋๋ฌด ๋ฐฐ๋ถ๋ฌ." ๊ทธ๋ฆฌ๊ณ ๊ณง์ฅ ์๋ฆฌ๋ฅผ ๋ด๋ค.', '์๋ง๋ ํ์ฅ์ค์ ๊ฐ ๋ชจ์์ด๋ค.'] >>> split_sentences(text, use_quotes_brackets_processing=False) ['"๋๋ ์ด์ ๋๋ ๋ชป ๋จน๊ฒ ๋ค.', '๋๋ฌด ๋ฐฐ๋ถ๋ฌ.', '" ๊ทธ๋ฆฌ๊ณ ๊ณง์ฅ ์๋ฆฌ๋ฅผ ๋ด๋ค.', '์๋ง๋ ํ์ฅ์ค์ ๊ฐ ๋ชจ์์ด๋ค.']
max_recover_step & max_recover_length (int
)
Kss 2.0 or later can segment sentences even if the pair of brackets and quotation marks do not match. This was a chronic problem in previous Kss C++ (1.0) (#4, #8). But it was fixed in 2.0 by calibration feature about quotation marks and brackets mismatch. However, this feature uses the recursive algorithm that has poor time complexity of O(2^n), so it can be very slow in some cases. Therefore, Kss provides the parameters to adjust the recursive algorithm.
max_recover_step
determines the depth of recursion. Kss never go deeper than this when resolving quotes and brackets mismatch.max_recover_length
determines the length of a sentence to which calibration is applied. Kss does not calibrate sentences longer than this value. Because calibrating long sentences takes a very long time.
P.S. From kss 3.0.2, memoization with LRU cache was introduced. This can improve performance by saving duplicated segmentation results.
-
An example of
max_recover_step
>>> from kss import split_sentences >>> text = 'YOUR_VERY_LONG_TEXT' >>> split_sentences(text, max_recover_step=5)
-
An example of
max_recover_length
>>> from kss import split_sentences >>> text = 'YOUR_VERY_LONG_TEXT' >>> split_sentences(text, max_recover_length=20000)
backend (str
)
Kss 3.0 or later supports morpheme analysis. This parameter indicates which morpheme anlyzer will be used during segmentation.
If you set it pynori
or mecab
, sentence segmentation is possible even at the unspecified eomi (์ด๋ฏธ).
In this case, Kss can segment sentences that use honorifics (๊ฒฝ์ด), dialects (๋ฐฉ์ธ), neologisms (์ ์กฐ์ด) and eomi transferred from noun (๋ช
์ฌํ ์ ์ฑ์ด๋ฏธ), and can grasped well the parts that are difficult to grasp without morpheme information.
The followings are summary of the three possible options.
pynori
: Use Pynori analyzer. It works fine even without C++ installed, but is very slow.mecab
: Use Mecab analyzer. It only works in the environment that C++ is installed. However, it is much faster than Pynori.
Kss use the Pynori, the pure python morpheme anlyzer by default. However, you can change it to Mecab-Ko, the super-fast morpheme analyzer based on C++. The performance of two analyzers is almost similar because they were developed based on the same dictionary, mecab-ko-dic. However, since there is a lot of difference in speed, we strongly recommend using mecab backend if you can install mecab-ko in your environment. (I didn't set Mecab-Ko as the default because I value compatibility over speed. If installing mecab is difficult, check this guide)
-
An example of
backend
>>> from kss import split_sentences >>> text = "๋ถ๋ ๋ง์๋ฌด๊ฐ ํ์ต์์ ์ฒ์ฒํ ๊ฐ์ธ์ฉ~ ๋ ๋ฐฅ์ ๋จน๋๊ตฌ๋ ์ ๋ง์ ๋ ๊ทผ๋ฐ ์ด์ ์ด์ฌํ์ ๊ทธ๋ฌ๊ตฌ๋ ์ด์ ๋ง์ง๋ง์ ์์" >>> split_sentences(text, backend="pynori") ['๋ถ๋ ๋ง์๋ฌด๊ฐ ํ์ต์์', '์ฒ์ฒํ ๊ฐ์ธ์ฉ~', '๋ ๋ฐฅ์ ๋จน๋๊ตฌ๋', '์ ๋ง์ ๋ ๊ทผ๋ฐ ์ด์ ์ด์ฌํ์', '๊ทธ๋ฌ๊ตฌ๋ ์ด์ ๋ง์ง๋ง์', '์์'] >>> split_sentences(text, backend="mecab") ['๋ถ๋ ๋ง์๋ฌด๊ฐ ํ์ต์์', '์ฒ์ฒํ ๊ฐ์ธ์ฉ~', '๋ ๋ฐฅ์ ๋จน๋๊ตฌ๋', '์ ๋ง์ ๋ ๊ทผ๋ฐ ์ด์ ์ด์ฌํ์', '๊ทธ๋ฌ๊ตฌ๋ ์ด์ ๋ง์ง๋ง์', '์์']
num_workers (int
)
Kss 3.0 or later supports multiprocessing. Therefore, multiple sentences can be segmented at the same time. This parameter indicates the number of workers to use for multiprocessing. If you set this value as 1 or 0, multiprocessing is disabled. If you input -1, Kss uses the maximum workers as many as possible. If a different value is entered, the number you entered of workers is allocated.
As shown in the performance evaluation, multiprocessing can lead a very large effect on speed. Multiprocessing makes segmentation much faster, especially when using the Pynori backend.
-
An example of
num_workers
>>> from kss import split_sentences >>> split_sentences(some_text, num_workers=1) # disable multiprocessing >>> split_sentences(some_text, num_workers=-1) # use maximum workers as many as possible >>> split_sentences(some_text, num_workers=4) # use 4 workers
disable_gc (bool
)
This parameter indicates whether to enable the garbage collection during the sentence segmentation. The Pynori analyzer is implemented based on the data structure called Trie.
However, since this uses recursive algorithm, it often wastes a lot of memory, which leads to frequent garbage collection. If you set it to True
, segmentation speed can be improved by disabling garbage collection.
Of course, when the segmentation process ends, garbage collection will be reactivated.
-
An example of
disable_gc
>>> from kss import split_sentences >>> split_sentences(some_text, disable_gc=True) # disable garbage collection >>> split_sentences(some_text, disable_gc=False) # enable garbage collection
split_chunks
is used when you want to segment input texts into paragraphs rather than sentences.
This function conducts the following two processes:
- Split sentences using
split_sentences
. - Construct a paragraph by concatenating the segmented sentences to the maximum length entered by the user.
Note that this function segments input texts into paragraphs based only on the length, not the contents.
And it also supports to chunk window level through the overlap
option.
Click the triangle button (โบ) for more detailed information and example code snippets of each paramter.
>>> from kss import split_chunks
>>> split_chunks(
... text: Union[str, List[str], tuple],
... max_length: int,
... overlap: bool = False,
... **kwargs,
... )
text (Union[str, tuple, List[str]]
)
This parameter indicates input texts. you can also input list or tuple for batch processing not only string.
- An example of single text segmentation
>>> from kss import split_chunks
>>> text = """๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋
์์ต๋๋ค. ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋
์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์ ๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค ๊ฐ๋จ์ญ ๋ง์ง ํ ๋ผ์ ์ ์ธ๋ถ ๋ชจ์ต. ๊ฐ๋จ ํ ๋ผ์ ์ 4์ธต ๊ฑด๋ฌผ ๋
์ฑ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.', '์ญ์ ํ ๋ผ์ ๋ณธ ์ ๋ต์ฃ ?ใ
ใ
ใ
๊ฑด๋ฌผ์ ํฌ์ง๋ง ๊ฐํ์ด ์๊ธฐ ๋๋ฌธ์ ์ง๋์น ์ ์์ผ๋ ์กฐ์ฌํ์ธ์ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ด๋ถ ์ธํ
๋ฆฌ์ด. ํ์ผ ์ ๋
์ด์์ง๋ง ๊ฐ๋จ์ญ ๋ง์ง ๋ต๊ฒ ์ฌ๋๋ค์ด ๋ง์์ด์. ์ ์ฒด์ ์ผ๋ก ํธ์ํ๊ณ ์๋ํ ๊ณต๊ฐ์ผ๋ก ๊พธ๋ฉฐ์ ธ ์์์ต๋๋คใ
ใ
ํ ๊ฐ์ง ์์ฌ์ ๋ ๊ฑด ์กฐ๋ช
์ด ๋๋ฌด ์ด๋์ ๋์ด ์นจ์นจํ๋โฆ ์ ํฌ๋ 3์ธต์ ์๋ฆฌ๋ฅผ ์ก๊ณ ์์์ ์ฃผ๋ฌธํ์ต๋๋ค.', '์ด 5๋ช
์ด์ ๋จน๊ณ ์ถ์ ์์ ํ๋์ฉ ๊ณจ๋ผ ๋ค์ํ๊ฒ ์ฃผ๋ฌธํ์ด์ ์ฒซ ๋ฒ์งธ ์ค๋น๋ ๋ฉ๋ด๋ ํ ๋ผ์ ๊ณ ๋ก์ผ์ ๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ฅผ ๋ฌ๋ฟ ์ฌ๋ ค ๋จน๋ ๋ง์๋ ๋ฐฅ์
๋๋ค. ์ฌ๋ฌ๊ฐ์ง ๋ฉ๋ด๋ฅผ ํ ๋ฒ์ ์ํค๋ฉด ์ค๋น๋๋ ๋ฉ๋ด๋ถํฐ ๊ฐ์ ธ๋ค ์ฃผ๋๋ผ๊ตฌ์. ํ ๋ผ์ ๊ณ ๋ก์ผ ๊ธ๋ฐฉ ํ๊ฒจ์ ธ ๋์ ๊ฒ์ ๋ฐ์ญํ๊ณ ์์ ์ด์ดํด ๋ง์์์ด์!', '๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ ๋ถ๊ณ ๊ธฐ, ์๋ฐฐ์ถ, ๋ฒ์ฏ์ ๋ณถ์ ๊นป์์ ๋ฌ๋ฟ ์ฌ๋ฆฌ๊ณ ์ฐ์ ํ๊น์ ๊ณ๋ค์ฌ ๋ฐฅ์ด๋ ํจ๊ป ๋จน๋ ๋ฉ๋ด์
๋๋ค. ์ฌ์ค ์ ๊ณ ๊ธฐ๋ฅผ ์ ๋จน์ด์ ๋ฌด์จ ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง.. ๋ค๋ค ์์ฒญ ์ ๋์
จ์ต๋๋คใ
ใ
์ด๊ฑด ์ ๊ฐ ์ํจ ์ด์ดํ ๊ณ ๋ก์ผ์ ํฌ๋ฆผ์คํ์ฐ๋. ๊ฐ๋จ ํ ๋ผ์ ์์ ๋จน์ ์์ ์ค์ ์ด๊ฒ ์ ์ผ ๋ง์์์ด์!!! ํฌ๋ฆผ์์ค๋ฅผ ์๋ ์ข์ํ๊ธฐ๋ ํ์ง๋ง, ๋๋ผํ์ง ์๊ฒ ๋ถ๋๋ฝ๊ณ ๋ฌ๋ฌํ ์คํ์ ์ซ๊นํ ์ฐ๋๋ฉด์ด ๋๋ฌด ์ ์ด์ธ๋ ค ๊ณ์ ์์ด ๊ฐ๋๋ผ๊ตฌ์.', '์ฌ์ง์ ๋ณด๋ ๋ ๋จน๊ณ ์ถ์ต๋๋ค ๊ฐ์ฌ์ด ํ ์ฐ์ด ์ง๋ผ์์
๋๋ค. ์ผ๋ณธ ๊ฐ์ฌ์ด ์ง๋ฐฉ์์ ๋ง์ด ๋จน๋ ๋ ๋จน๋ ์ด๋ฐฅ(์ง๋ผ์์ค์)์ด๋ผ๊ณ ํ๋ค์. ๋ฐ์ ์์ฌ๋น ๋ง์๋ฐฅ ์์ ์ฐ์ด๋ค์ด ๋ด๊ฒจ์ ธ ์์ด ์ฝ๋์ด ์ฐกํ ์ ์๋ค๊ณ ์ ํ ์๋๋ฐ, ๋ ์์ฌ๋น ๋ง 1๋ ๋ชจ๋ฅด๊ฒ ๋๋ฐโฆ? ์์ฌ๋น๋ฅผ ์ ์ข์ํ๋ ์ ๋ ๋ถํ์ธ์ง ๋คํ์ธ์ง ์ฐ์ด ์ง๋ผ์๋ฅผ ๋งค์ฐ ๋ง์๊ฒ ๋จน์์ต๋๋คใ
ใ
ใ
', '๋ค์ ๋ฉ๋ด๋ ๋ฌ์ง์ง๊ทผํ ์ฏ๋ถ ๊ฐ๋น ๋ฎ๋ฐฅ์
๋๋ค! ๊ฐ์ฅ ์๋
์ ๊ตฌ์ด ์ฏ๋ถ ๊ฐ๋น์ ์ํ, ๊นป์, ๋ฌ๊ฑ ๋ฐ์์ ํฐํธ๋ ค ๋น๋ฒผ ๋จน์ผ๋ฉด ๊ทธ ๋ง์ด ํฌ.. (๋ฌผ๋ก ์ ์ ๋จน์์ง๋งโฆ๋ค๋ฅธ ๋ถ๋ค์ด ๊ทธ๋ ๋ค๊ณ ํ๋๋ผ๊ตฌ์ใ
ใ
ใ
ใ
ใ
ใ
ใ
) ๋ง์ง๋ง ๋ฉ์ธ ๋ฉ๋ด ์์ก์ด ํฌ๋ฆผ์ํ์ ์ฏ๋ถ๋ก๊ฐ๋น ๋ฐฅ์
๋๋ค. ํฌ๋ฆผ๋ฆฌ์กฐ๋๋ฅผ ๋ฒ ์ด์ค๋ก ์์ ๊ทธ๋ฃจํต๊ณผ ์ฏ๋ถ๋ก ๊ตฌ์ด ๋ก๊ฐ๋น๊ฐ ์ฌ๋ผ๊ฐ ์์ด์!', 'ํฌ๋ฆผ์คํ ์ฐ๋ ๋งํผ์ด๋ ๋๋ฐ ๋ง์์ต๋๋คโฆใ
ใ
ใ
ใ
ใ
ใ
(ํฌ๋ฆผ ์์ค๋ฉด ๋ค ์ข์ํ๋ ๊ฑฐ ์ ๋ ์๋๋๋คใ
ใ
ใ
ใ
ใ
ใ
) ๊ฐ๋จ ํ ๋ผ์ ์๋ฆฌ๋ ๋ค ๋ง์์ง๋ง ํฌ๋ฆผ์์ค ์๋ฆฌ๋ฅผ ์ฐธ ์ํ๋ ๊ฑฐ ๊ฐ๋ค์ ์๊ฑด ๋ฌผ๋ง ๋ง์๊ธฐ ์์ฌ์ ์ํจ ๋ด์๋ชฝ๊ณผ ๋ฐํค์๋ค ๋ธ๊ธฐํตํต! ์ ์์ ์๋ชฝ์ ๋ง์ ํจ๊ป ๋๋ ์ ์๋ ๋ด์๋ชฝ์ ์ํผํจ ๊ทธ ์์ฒด์์ด์.', 'ํ์น๋ง ์ ๋ ๋ธ๊ธฐํตํต ๋ฐํค์๋ค๊ฐ ๋ ๋ง์์์ต๋๋คใ
ใ
๋ฐํค์๋ค๋ ํ ๋ผ์ ์์๋ง ๋ง๋๋ณผ ์ ์๋ ๋ฉ๋ด๋ผ๊ณ ํ๋ ํ ๋ฒ ๋์
๋ณด์๊ธธ ์ถ์ฒํ ๊ฒ์!! ๊ฐ๋จ ํ ๋ผ์ ์ ๊ฐ๋จ์ญ ๋ง์ง๋ต๊ฒ ๋ชจ๋ ์์๋ค์ด ๋์ฒด์ ์ผ๋ก ๋ง์์์ด์! ๊ฑด๋ฌผ ์์น๋ ๊ฐ๋จ ๋๋ก๋ณ์์ ์กฐ๊ธ ๋จ์ด์ ธ ์์ด ๋ด๋ถ ์ธํ
๋ฆฌ์ด์ฒ๋ผ ์๋ํ ๋๋๋ ์์๊ตฌ์ใ
ใ
', '๊ธฐํ๊ฐ ๋๋ฉด ๋ค๋ค ๊ผญ ๋ค๋ฌ๋ณด์ธ์~ ๐"""
>>> split_chunks(text, max_length=128)
['๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋
์์ต๋๋ค. ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋
์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์ ๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค ๊ฐ๋จ์ญ ๋ง์ง ํ ๋ผ์ ์ ์ธ๋ถ ๋ชจ์ต. ๊ฐ๋จ ํ ๋ผ์ ์ 4์ธต ๊ฑด๋ฌผ ๋
์ฑ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.', '์ญ์ ํ ๋ผ์ ๋ณธ ์ ๋ต์ฃ ?ใ
ใ
ใ
๊ฑด๋ฌผ์ ํฌ์ง๋ง ๊ฐํ์ด ์๊ธฐ ๋๋ฌธ์ ์ง๋์น ์ ์์ผ๋ ์กฐ์ฌํ์ธ์ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ด๋ถ ์ธํ
๋ฆฌ์ด. ํ์ผ ์ ๋
์ด์์ง๋ง ๊ฐ๋จ์ญ ๋ง์ง ๋ต๊ฒ ์ฌ๋๋ค์ด ๋ง์์ด์. ์ ์ฒด์ ์ผ๋ก ํธ์ํ๊ณ ์๋ํ ๊ณต๊ฐ์ผ๋ก ๊พธ๋ฉฐ์ ธ ์์์ต๋๋คใ
ใ
ํ ๊ฐ์ง ์์ฌ์ ๋ ๊ฑด ์กฐ๋ช
์ด ๋๋ฌด ์ด๋์ ๋์ด ์นจ์นจํ๋โฆ ์ ํฌ๋ 3์ธต์ ์๋ฆฌ๋ฅผ ์ก๊ณ ์์์ ์ฃผ๋ฌธํ์ต๋๋ค.', '์ด 5๋ช
์ด์ ๋จน๊ณ ์ถ์ ์์ ํ๋์ฉ ๊ณจ๋ผ ๋ค์ํ๊ฒ ์ฃผ๋ฌธํ์ด์ ์ฒซ ๋ฒ์งธ ์ค๋น๋ ๋ฉ๋ด๋ ํ ๋ผ์ ๊ณ ๋ก์ผ์ ๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ฅผ ๋ฌ๋ฟ ์ฌ๋ ค ๋จน๋ ๋ง์๋ ๋ฐฅ์
๋๋ค. ์ฌ๋ฌ๊ฐ์ง ๋ฉ๋ด๋ฅผ ํ ๋ฒ์ ์ํค๋ฉด ์ค๋น๋๋ ๋ฉ๋ด๋ถํฐ ๊ฐ์ ธ๋ค ์ฃผ๋๋ผ๊ตฌ์. ํ ๋ผ์ ๊ณ ๋ก์ผ ๊ธ๋ฐฉ ํ๊ฒจ์ ธ ๋์ ๊ฒ์ ๋ฐ์ญํ๊ณ ์์ ์ด์ดํด ๋ง์์์ด์!', '๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ ๋ถ๊ณ ๊ธฐ, ์๋ฐฐ์ถ, ๋ฒ์ฏ์ ๋ณถ์ ๊นป์์ ๋ฌ๋ฟ ์ฌ๋ฆฌ๊ณ ์ฐ์ ํ๊น์ ๊ณ๋ค์ฌ ๋ฐฅ์ด๋ ํจ๊ป ๋จน๋ ๋ฉ๋ด์
๋๋ค. ์ฌ์ค ์ ๊ณ ๊ธฐ๋ฅผ ์ ๋จน์ด์ ๋ฌด์จ ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง.. ๋ค๋ค ์์ฒญ ์ ๋์
จ์ต๋๋คใ
ใ
์ด๊ฑด ์ ๊ฐ ์ํจ ์ด์ดํ ๊ณ ๋ก์ผ์ ํฌ๋ฆผ์คํ์ฐ๋. ๊ฐ๋จ ํ ๋ผ์ ์์ ๋จน์ ์์ ์ค์ ์ด๊ฒ ์ ์ผ ๋ง์์์ด์!!! ํฌ๋ฆผ์์ค๋ฅผ ์๋ ์ข์ํ๊ธฐ๋ ํ์ง๋ง, ๋๋ผํ์ง ์๊ฒ ๋ถ๋๋ฝ๊ณ ๋ฌ๋ฌํ ์คํ์ ์ซ๊นํ ์ฐ๋๋ฉด์ด ๋๋ฌด ์ ์ด์ธ๋ ค ๊ณ์ ์์ด ๊ฐ๋๋ผ๊ตฌ์.', '์ฌ์ง์ ๋ณด๋ ๋ ๋จน๊ณ ์ถ์ต๋๋ค ๊ฐ์ฌ์ด ํ ์ฐ์ด ์ง๋ผ์์
๋๋ค. ์ผ๋ณธ ๊ฐ์ฌ์ด ์ง๋ฐฉ์์ ๋ง์ด ๋จน๋ ๋ ๋จน๋ ์ด๋ฐฅ(์ง๋ผ์์ค์)์ด๋ผ๊ณ ํ๋ค์. ๋ฐ์ ์์ฌ๋น ๋ง์๋ฐฅ ์์ ์ฐ์ด๋ค์ด ๋ด๊ฒจ์ ธ ์์ด ์ฝ๋์ด ์ฐกํ ์ ์๋ค๊ณ ์ ํ ์๋๋ฐ, ๋ ์์ฌ๋น ๋ง 1๋ ๋ชจ๋ฅด๊ฒ ๋๋ฐโฆ? ์์ฌ๋น๋ฅผ ์ ์ข์ํ๋ ์ ๋ ๋ถํ์ธ์ง ๋คํ์ธ์ง ์ฐ์ด ์ง๋ผ์๋ฅผ ๋งค์ฐ ๋ง์๊ฒ ๋จน์์ต๋๋คใ
ใ
ใ
', '๋ค์ ๋ฉ๋ด๋ ๋ฌ์ง์ง๊ทผํ ์ฏ๋ถ ๊ฐ๋น ๋ฎ๋ฐฅ์
๋๋ค! ๊ฐ์ฅ ์๋
์ ๊ตฌ์ด ์ฏ๋ถ ๊ฐ๋น์ ์ํ, ๊นป์, ๋ฌ๊ฑ ๋ฐ์์ ํฐํธ๋ ค ๋น๋ฒผ ๋จน์ผ๋ฉด ๊ทธ ๋ง์ด ํฌ.. (๋ฌผ๋ก ์ ์ ๋จน์์ง๋งโฆ๋ค๋ฅธ ๋ถ๋ค์ด ๊ทธ๋ ๋ค๊ณ ํ๋๋ผ๊ตฌ์ใ
ใ
ใ
ใ
ใ
ใ
ใ
) ๋ง์ง๋ง ๋ฉ์ธ ๋ฉ๋ด ์์ก์ด ํฌ๋ฆผ์ํ์ ์ฏ๋ถ๋ก๊ฐ๋น ๋ฐฅ์
๋๋ค. ํฌ๋ฆผ๋ฆฌ์กฐ๋๋ฅผ ๋ฒ ์ด์ค๋ก ์์ ๊ทธ๋ฃจํต๊ณผ ์ฏ๋ถ๋ก ๊ตฌ์ด ๋ก๊ฐ๋น๊ฐ ์ฌ๋ผ๊ฐ ์์ด์!', 'ํฌ๋ฆผ์คํ ์ฐ๋ ๋งํผ์ด๋ ๋๋ฐ ๋ง์์ต๋๋คโฆใ
ใ
ใ
ใ
ใ
ใ
(ํฌ๋ฆผ ์์ค๋ฉด ๋ค ์ข์ํ๋ ๊ฑฐ ์ ๋ ์๋๋๋คใ
ใ
ใ
ใ
ใ
ใ
) ๊ฐ๋จ ํ ๋ผ์ ์๋ฆฌ๋ ๋ค ๋ง์์ง๋ง ํฌ๋ฆผ์์ค ์๋ฆฌ๋ฅผ ์ฐธ ์ํ๋ ๊ฑฐ ๊ฐ๋ค์ ์๊ฑด ๋ฌผ๋ง ๋ง์๊ธฐ ์์ฌ์ ์ํจ ๋ด์๋ชฝ๊ณผ ๋ฐํค์๋ค ๋ธ๊ธฐํตํต! ์ ์์ ์๋ชฝ์ ๋ง์ ํจ๊ป ๋๋ ์ ์๋ ๋ด์๋ชฝ์ ์ํผํจ ๊ทธ ์์ฒด์์ด์.', 'ํ์น๋ง ์ ๋ ๋ธ๊ธฐํตํต ๋ฐํค์๋ค๊ฐ ๋ ๋ง์์์ต๋๋คใ
ใ
๋ฐํค์๋ค๋ ํ ๋ผ์ ์์๋ง ๋ง๋๋ณผ ์ ์๋ ๋ฉ๋ด๋ผ๊ณ ํ๋ ํ ๋ฒ ๋์
๋ณด์๊ธธ ์ถ์ฒํ ๊ฒ์!! ๊ฐ๋จ ํ ๋ผ์ ์ ๊ฐ๋จ์ญ ๋ง์ง๋ต๊ฒ ๋ชจ๋ ์์๋ค์ด ๋์ฒด์ ์ผ๋ก ๋ง์์์ด์! ๊ฑด๋ฌผ ์์น๋ ๊ฐ๋จ ๋๋ก๋ณ์์ ์กฐ๊ธ ๋จ์ด์ ธ ์์ด ๋ด๋ถ ์ธํ
๋ฆฌ์ด์ฒ๋ผ ์๋ํ ๋๋๋ ์์๊ตฌ์ใ
ใ
', '๊ธฐํ๊ฐ ๋๋ฉด ๋ค๋ค ๊ผญ ๋ค๋ฌ๋ณด์ธ์~ ๐']
- An example of multiple texts batch segmentation
>>> from kss import split_chunks
>>> text1 = """๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋
์์ต๋๋ค. ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋
์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์ ๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค ๊ฐ๋จ์ญ ๋ง์ง ํ ๋ผ์ ์ ์ธ๋ถ ๋ชจ์ต. ๊ฐ๋จ ํ ๋ผ์ ์ 4์ธต ๊ฑด๋ฌผ ๋
์ฑ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.', '์ญ์ ํ ๋ผ์ ๋ณธ ์ ๋ต์ฃ ?ใ
ใ
ใ
๊ฑด๋ฌผ์ ํฌ์ง๋ง ๊ฐํ์ด ์๊ธฐ ๋๋ฌธ์ ์ง๋์น ์ ์์ผ๋ ์กฐ์ฌํ์ธ์ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ด๋ถ ์ธํ
๋ฆฌ์ด. ํ์ผ ์ ๋
์ด์์ง๋ง ๊ฐ๋จ์ญ ๋ง์ง ๋ต๊ฒ ์ฌ๋๋ค์ด ๋ง์์ด์. ์ ์ฒด์ ์ผ๋ก ํธ์ํ๊ณ ์๋ํ ๊ณต๊ฐ์ผ๋ก ๊พธ๋ฉฐ์ ธ ์์์ต๋๋คใ
ใ
ํ ๊ฐ์ง ์์ฌ์ ๋ ๊ฑด ์กฐ๋ช
์ด ๋๋ฌด ์ด๋์ ๋์ด ์นจ์นจํ๋โฆ ์ ํฌ๋ 3์ธต์ ์๋ฆฌ๋ฅผ ์ก๊ณ ์์์ ์ฃผ๋ฌธํ์ต๋๋ค.', '์ด 5๋ช
์ด์ ๋จน๊ณ ์ถ์ ์์ ํ๋์ฉ ๊ณจ๋ผ ๋ค์ํ๊ฒ ์ฃผ๋ฌธํ์ด์ ์ฒซ ๋ฒ์งธ ์ค๋น๋ ๋ฉ๋ด๋ ํ ๋ผ์ ๊ณ ๋ก์ผ์ ๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ฅผ ๋ฌ๋ฟ ์ฌ๋ ค ๋จน๋ ๋ง์๋ ๋ฐฅ์
๋๋ค. ์ฌ๋ฌ๊ฐ์ง ๋ฉ๋ด๋ฅผ ํ ๋ฒ์ ์ํค๋ฉด ์ค๋น๋๋ ๋ฉ๋ด๋ถํฐ ๊ฐ์ ธ๋ค ์ฃผ๋๋ผ๊ตฌ์. ํ ๋ผ์ ๊ณ ๋ก์ผ ๊ธ๋ฐฉ ํ๊ฒจ์ ธ ๋์ ๊ฒ์ ๋ฐ์ญํ๊ณ ์์ ์ด์ดํด ๋ง์์์ด์!', '๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ ๋ถ๊ณ ๊ธฐ, ์๋ฐฐ์ถ, ๋ฒ์ฏ์ ๋ณถ์ ๊นป์์ ๋ฌ๋ฟ ์ฌ๋ฆฌ๊ณ ์ฐ์ ํ๊น์ ๊ณ๋ค์ฌ ๋ฐฅ์ด๋ ํจ๊ป ๋จน๋ ๋ฉ๋ด์
๋๋ค. ์ฌ์ค ์ ๊ณ ๊ธฐ๋ฅผ ์ ๋จน์ด์ ๋ฌด์จ ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง.. ๋ค๋ค ์์ฒญ ์ ๋์
จ์ต๋๋คใ
ใ
์ด๊ฑด ์ ๊ฐ ์ํจ ์ด์ดํ ๊ณ ๋ก์ผ์ ํฌ๋ฆผ์คํ์ฐ๋. ๊ฐ๋จ ํ ๋ผ์ ์์ ๋จน์ ์์ ์ค์ ์ด๊ฒ ์ ์ผ ๋ง์์์ด์!!! ํฌ๋ฆผ์์ค๋ฅผ ์๋ ์ข์ํ๊ธฐ๋ ํ์ง๋ง, ๋๋ผํ์ง ์๊ฒ ๋ถ๋๋ฝ๊ณ ๋ฌ๋ฌํ ์คํ์ ์ซ๊นํ ์ฐ๋๋ฉด์ด ๋๋ฌด ์ ์ด์ธ๋ ค ๊ณ์ ์์ด ๊ฐ๋๋ผ๊ตฌ์.', '์ฌ์ง์ ๋ณด๋ ๋ ๋จน๊ณ ์ถ์ต๋๋ค ๊ฐ์ฌ์ด ํ ์ฐ์ด ์ง๋ผ์์
๋๋ค. ์ผ๋ณธ ๊ฐ์ฌ์ด ์ง๋ฐฉ์์ ๋ง์ด ๋จน๋ ๋ ๋จน๋ ์ด๋ฐฅ(์ง๋ผ์์ค์)์ด๋ผ๊ณ ํ๋ค์. ๋ฐ์ ์์ฌ๋น ๋ง์๋ฐฅ ์์ ์ฐ์ด๋ค์ด ๋ด๊ฒจ์ ธ ์์ด ์ฝ๋์ด ์ฐกํ ์ ์๋ค๊ณ ์ ํ ์๋๋ฐ, ๋ ์์ฌ๋น ๋ง 1๋ ๋ชจ๋ฅด๊ฒ ๋๋ฐโฆ? ์์ฌ๋น๋ฅผ ์ ์ข์ํ๋ ์ ๋ ๋ถํ์ธ์ง ๋คํ์ธ์ง ์ฐ์ด ์ง๋ผ์๋ฅผ ๋งค์ฐ ๋ง์๊ฒ ๋จน์์ต๋๋คใ
ใ
ใ
', '๋ค์ ๋ฉ๋ด๋ ๋ฌ์ง์ง๊ทผํ ์ฏ๋ถ ๊ฐ๋น ๋ฎ๋ฐฅ์
๋๋ค! ๊ฐ์ฅ ์๋
์ ๊ตฌ์ด ์ฏ๋ถ ๊ฐ๋น์ ์ํ, ๊นป์, ๋ฌ๊ฑ ๋ฐ์์ ํฐํธ๋ ค ๋น๋ฒผ ๋จน์ผ๋ฉด ๊ทธ ๋ง์ด ํฌ.. (๋ฌผ๋ก ์ ์ ๋จน์์ง๋งโฆ๋ค๋ฅธ ๋ถ๋ค์ด ๊ทธ๋ ๋ค๊ณ ํ๋๋ผ๊ตฌ์ใ
ใ
ใ
ใ
ใ
ใ
ใ
) ๋ง์ง๋ง ๋ฉ์ธ ๋ฉ๋ด ์์ก์ด ํฌ๋ฆผ์ํ์ ์ฏ๋ถ๋ก๊ฐ๋น ๋ฐฅ์
๋๋ค. ํฌ๋ฆผ๋ฆฌ์กฐ๋๋ฅผ ๋ฒ ์ด์ค๋ก ์์ ๊ทธ๋ฃจํต๊ณผ ์ฏ๋ถ๋ก ๊ตฌ์ด ๋ก๊ฐ๋น๊ฐ ์ฌ๋ผ๊ฐ ์์ด์!', 'ํฌ๋ฆผ์คํ ์ฐ๋ ๋งํผ์ด๋ ๋๋ฐ ๋ง์์ต๋๋คโฆใ
ใ
ใ
ใ
ใ
ใ
(ํฌ๋ฆผ ์์ค๋ฉด ๋ค ์ข์ํ๋ ๊ฑฐ ์ ๋ ์๋๋๋คใ
ใ
ใ
ใ
ใ
ใ
) ๊ฐ๋จ ํ ๋ผ์ ์๋ฆฌ๋ ๋ค ๋ง์์ง๋ง ํฌ๋ฆผ์์ค ์๋ฆฌ๋ฅผ ์ฐธ ์ํ๋ ๊ฑฐ ๊ฐ๋ค์ ์๊ฑด ๋ฌผ๋ง ๋ง์๊ธฐ ์์ฌ์ ์ํจ ๋ด์๋ชฝ๊ณผ ๋ฐํค์๋ค ๋ธ๊ธฐํตํต! ์ ์์ ์๋ชฝ์ ๋ง์ ํจ๊ป ๋๋ ์ ์๋ ๋ด์๋ชฝ์ ์ํผํจ ๊ทธ ์์ฒด์์ด์.', 'ํ์น๋ง ์ ๋ ๋ธ๊ธฐํตํต ๋ฐํค์๋ค๊ฐ ๋ ๋ง์์์ต๋๋คใ
ใ
๋ฐํค์๋ค๋ ํ ๋ผ์ ์์๋ง ๋ง๋๋ณผ ์ ์๋ ๋ฉ๋ด๋ผ๊ณ ํ๋ ํ ๋ฒ ๋์
๋ณด์๊ธธ ์ถ์ฒํ ๊ฒ์!! ๊ฐ๋จ ํ ๋ผ์ ์ ๊ฐ๋จ์ญ ๋ง์ง๋ต๊ฒ ๋ชจ๋ ์์๋ค์ด ๋์ฒด์ ์ผ๋ก ๋ง์์์ด์! ๊ฑด๋ฌผ ์์น๋ ๊ฐ๋จ ๋๋ก๋ณ์์ ์กฐ๊ธ ๋จ์ด์ ธ ์์ด ๋ด๋ถ ์ธํ
๋ฆฌ์ด์ฒ๋ผ ์๋ํ ๋๋๋ ์์๊ตฌ์ใ
ใ
', '๊ธฐํ๊ฐ ๋๋ฉด ๋ค๋ค ๊ผญ ๋ค๋ฌ๋ณด์ธ์~ ๐"""
>>> text2 = """์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋กย ๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!"""
>>> split_chunks([text1, text2], max_length=128)
[['๊ฐ๋จ์ญ ๋ง์ง์ผ๋ก ์๋ฌธ๋ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ค๋
์์ต๋๋ค. ํ์ฌ ๋๋ฃ ๋ถ๋ค๊ณผ ๋ค๋
์๋๋ฐ ๋ถ์๊ธฐ๋ ์ข๊ณ ์์๋ ๋ง์์์ด์ ๋ค๋ง, ๊ฐ๋จ ํ ๋ผ์ ์ด ๊ฐ๋จ ์์๋ฒ๊ฑฐ ๊ณจ๋ชฉ๊ธธ๋ก ์ญ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ฐ ๋ค๋ค ์์๋ฒ๊ฑฐ์ ์ ํน์ ๋์ด๊ฐ ๋ป ํ๋ต๋๋ค ๊ฐ๋จ์ญ ๋ง์ง ํ ๋ผ์ ์ ์ธ๋ถ ๋ชจ์ต. ๊ฐ๋จ ํ ๋ผ์ ์ 4์ธต ๊ฑด๋ฌผ ๋
์ฑ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.', '์ญ์ ํ ๋ผ์ ๋ณธ ์ ๋ต์ฃ ?ใ
ใ
ใ
๊ฑด๋ฌผ์ ํฌ์ง๋ง ๊ฐํ์ด ์๊ธฐ ๋๋ฌธ์ ์ง๋์น ์ ์์ผ๋ ์กฐ์ฌํ์ธ์ ๊ฐ๋จ ํ ๋ผ์ ์ ๋ด๋ถ ์ธํ
๋ฆฌ์ด. ํ์ผ ์ ๋
์ด์์ง๋ง ๊ฐ๋จ์ญ ๋ง์ง ๋ต๊ฒ ์ฌ๋๋ค์ด ๋ง์์ด์. ์ ์ฒด์ ์ผ๋ก ํธ์ํ๊ณ ์๋ํ ๊ณต๊ฐ์ผ๋ก ๊พธ๋ฉฐ์ ธ ์์์ต๋๋คใ
ใ
ํ ๊ฐ์ง ์์ฌ์ ๋ ๊ฑด ์กฐ๋ช
์ด ๋๋ฌด ์ด๋์ ๋์ด ์นจ์นจํ๋โฆ ์ ํฌ๋ 3์ธต์ ์๋ฆฌ๋ฅผ ์ก๊ณ ์์์ ์ฃผ๋ฌธํ์ต๋๋ค.', '์ด 5๋ช
์ด์ ๋จน๊ณ ์ถ์ ์์ ํ๋์ฉ ๊ณจ๋ผ ๋ค์ํ๊ฒ ์ฃผ๋ฌธํ์ด์ ์ฒซ ๋ฒ์งธ ์ค๋น๋ ๋ฉ๋ด๋ ํ ๋ผ์ ๊ณ ๋ก์ผ์ ๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ฅผ ๋ฌ๋ฟ ์ฌ๋ ค ๋จน๋ ๋ง์๋ ๋ฐฅ์
๋๋ค. ์ฌ๋ฌ๊ฐ์ง ๋ฉ๋ด๋ฅผ ํ ๋ฒ์ ์ํค๋ฉด ์ค๋น๋๋ ๋ฉ๋ด๋ถํฐ ๊ฐ์ ธ๋ค ์ฃผ๋๋ผ๊ตฌ์. ํ ๋ผ์ ๊ณ ๋ก์ผ ๊ธ๋ฐฉ ํ๊ฒจ์ ธ ๋์ ๊ฒ์ ๋ฐ์ญํ๊ณ ์์ ์ด์ดํด ๋ง์์์ด์!', '๊นป์ ๋ถ๊ณ ๊ธฐ ์ฌ๋ผ๋ค๋ ๋ถ๊ณ ๊ธฐ, ์๋ฐฐ์ถ, ๋ฒ์ฏ์ ๋ณถ์ ๊นป์์ ๋ฌ๋ฟ ์ฌ๋ฆฌ๊ณ ์ฐ์ ํ๊น์ ๊ณ๋ค์ฌ ๋ฐฅ์ด๋ ํจ๊ป ๋จน๋ ๋ฉ๋ด์
๋๋ค. ์ฌ์ค ์ ๊ณ ๊ธฐ๋ฅผ ์ ๋จน์ด์ ๋ฌด์จ ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง.. ๋ค๋ค ์์ฒญ ์ ๋์
จ์ต๋๋คใ
ใ
์ด๊ฑด ์ ๊ฐ ์ํจ ์ด์ดํ ๊ณ ๋ก์ผ์ ํฌ๋ฆผ์คํ์ฐ๋. ๊ฐ๋จ ํ ๋ผ์ ์์ ๋จน์ ์์ ์ค์ ์ด๊ฒ ์ ์ผ ๋ง์์์ด์!!! ํฌ๋ฆผ์์ค๋ฅผ ์๋ ์ข์ํ๊ธฐ๋ ํ์ง๋ง, ๋๋ผํ์ง ์๊ฒ ๋ถ๋๋ฝ๊ณ ๋ฌ๋ฌํ ์คํ์ ์ซ๊นํ ์ฐ๋๋ฉด์ด ๋๋ฌด ์ ์ด์ธ๋ ค ๊ณ์ ์์ด ๊ฐ๋๋ผ๊ตฌ์.', '์ฌ์ง์ ๋ณด๋ ๋ ๋จน๊ณ ์ถ์ต๋๋ค ๊ฐ์ฌ์ด ํ ์ฐ์ด ์ง๋ผ์์
๋๋ค. ์ผ๋ณธ ๊ฐ์ฌ์ด ์ง๋ฐฉ์์ ๋ง์ด ๋จน๋ ๋ ๋จน๋ ์ด๋ฐฅ(์ง๋ผ์์ค์)์ด๋ผ๊ณ ํ๋ค์. ๋ฐ์ ์์ฌ๋น ๋ง์๋ฐฅ ์์ ์ฐ์ด๋ค์ด ๋ด๊ฒจ์ ธ ์์ด ์ฝ๋์ด ์ฐกํ ์ ์๋ค๊ณ ์ ํ ์๋๋ฐ, ๋ ์์ฌ๋น ๋ง 1๋ ๋ชจ๋ฅด๊ฒ ๋๋ฐโฆ? ์์ฌ๋น๋ฅผ ์ ์ข์ํ๋ ์ ๋ ๋ถํ์ธ์ง ๋คํ์ธ์ง ์ฐ์ด ์ง๋ผ์๋ฅผ ๋งค์ฐ ๋ง์๊ฒ ๋จน์์ต๋๋คใ
ใ
ใ
', '๋ค์ ๋ฉ๋ด๋ ๋ฌ์ง์ง๊ทผํ ์ฏ๋ถ ๊ฐ๋น ๋ฎ๋ฐฅ์
๋๋ค! ๊ฐ์ฅ ์๋
์ ๊ตฌ์ด ์ฏ๋ถ ๊ฐ๋น์ ์ํ, ๊นป์, ๋ฌ๊ฑ ๋ฐ์์ ํฐํธ๋ ค ๋น๋ฒผ ๋จน์ผ๋ฉด ๊ทธ ๋ง์ด ํฌ.. (๋ฌผ๋ก ์ ์ ๋จน์์ง๋งโฆ๋ค๋ฅธ ๋ถ๋ค์ด ๊ทธ๋ ๋ค๊ณ ํ๋๋ผ๊ตฌ์ใ
ใ
ใ
ใ
ใ
ใ
ใ
) ๋ง์ง๋ง ๋ฉ์ธ ๋ฉ๋ด ์์ก์ด ํฌ๋ฆผ์ํ์ ์ฏ๋ถ๋ก๊ฐ๋น ๋ฐฅ์
๋๋ค. ํฌ๋ฆผ๋ฆฌ์กฐ๋๋ฅผ ๋ฒ ์ด์ค๋ก ์์ ๊ทธ๋ฃจํต๊ณผ ์ฏ๋ถ๋ก ๊ตฌ์ด ๋ก๊ฐ๋น๊ฐ ์ฌ๋ผ๊ฐ ์์ด์!', 'ํฌ๋ฆผ์คํ ์ฐ๋ ๋งํผ์ด๋ ๋๋ฐ ๋ง์์ต๋๋คโฆใ
ใ
ใ
ใ
ใ
ใ
(ํฌ๋ฆผ ์์ค๋ฉด ๋ค ์ข์ํ๋ ๊ฑฐ ์ ๋ ์๋๋๋คใ
ใ
ใ
ใ
ใ
ใ
) ๊ฐ๋จ ํ ๋ผ์ ์๋ฆฌ๋ ๋ค ๋ง์์ง๋ง ํฌ๋ฆผ์์ค ์๋ฆฌ๋ฅผ ์ฐธ ์ํ๋ ๊ฑฐ ๊ฐ๋ค์ ์๊ฑด ๋ฌผ๋ง ๋ง์๊ธฐ ์์ฌ์ ์ํจ ๋ด์๋ชฝ๊ณผ ๋ฐํค์๋ค ๋ธ๊ธฐํตํต! ์ ์์ ์๋ชฝ์ ๋ง์ ํจ๊ป ๋๋ ์ ์๋ ๋ด์๋ชฝ์ ์ํผํจ ๊ทธ ์์ฒด์์ด์.', 'ํ์น๋ง ์ ๋ ๋ธ๊ธฐํตํต ๋ฐํค์๋ค๊ฐ ๋ ๋ง์์์ต๋๋คใ
ใ
๋ฐํค์๋ค๋ ํ ๋ผ์ ์์๋ง ๋ง๋๋ณผ ์ ์๋ ๋ฉ๋ด๋ผ๊ณ ํ๋ ํ ๋ฒ ๋์
๋ณด์๊ธธ ์ถ์ฒํ ๊ฒ์!! ๊ฐ๋จ ํ ๋ผ์ ์ ๊ฐ๋จ์ญ ๋ง์ง๋ต๊ฒ ๋ชจ๋ ์์๋ค์ด ๋์ฒด์ ์ผ๋ก ๋ง์์์ด์! ๊ฑด๋ฌผ ์์น๋ ๊ฐ๋จ ๋๋ก๋ณ์์ ์กฐ๊ธ ๋จ์ด์ ธ ์์ด ๋ด๋ถ ์ธํ
๋ฆฌ์ด์ฒ๋ผ ์๋ํ ๋๋๋ ์์๊ตฌ์ใ
ใ
', '๊ธฐํ๊ฐ ๋๋ฉด ๋ค๋ค ๊ผญ ๋ค๋ฌ๋ณด์ธ์~ ๐'],
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋..', 'ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์!', '๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค', '๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']]
max_length (int
)
This parameter indicates the maximum length of each chunk. The split_chunks
function creates chunks by concatenating sentences while traversing the list of segmented sentences.
If the concatenated string is longer than the maximum length, Kss make it into a chunk (paragraph) including previous sentences.
- An example of
max_length
>>> from kss import split_chunks
>>> text = """์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋กย ๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!"""
>>> split_chunks(text, max_length=24)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค', '(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์', '๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?', 'ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
', '๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
', '์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
', '๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์', '๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์', '๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์!', '๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
>>> split_chunks(text, max_length=128)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋..', 'ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์!', '๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค', '๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
overlap (bool
)
This parameter indicates whether the sentences can be duplicated across the chunks.
If you set it to True
, sentences can be duplicated across the chunks like sliding window.
If you set it to False
, each sentence is going to unique.
- An example of
overlap
>>> from kss import split_chunks
>>> text = """์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋กย ๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!"""
>>> split_chunks(text, max_length=24, overlap=False)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค', '(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์', '๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?', 'ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
', '๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
', '์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
', '๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์', '๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์', '๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์!', '๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
>>> split_chunks(text, max_length=24, overlap=True)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค', '์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์', '(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', 'ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์', 'ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
', '_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?', '๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋..', '๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค', 'ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
', 'ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค', '์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
', '๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์!', '์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
', '์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
', '๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
', '์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์', '๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค', '์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค!', 'ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์', '๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค.', '์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์!', '๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค', '์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
kwargs (**dict
)
split_chunks
is based on split_sentences
.
Therefore, all arguments of split_sentences
can be used. Check the following examples.
- An example of
kwargs
>>> from kss import split_chunks
>>> text = """์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋กย ๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!"""
>>> split_chunks(text, backend="mecab", max_length=24)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค', '(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
', '๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์! ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์', '๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?', 'ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
', '๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
', '์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์! ๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
', '๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์', '๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์..', '์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค! ๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์', '๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์!', '๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
>>> split_chunks(text, use_heuristic=False, max_length=24)
['์ฃผ๋ง์ ๊ฐ์กฑ์ฌํ์ผ๋ก ์ค์
์๋ ๋ค๋
์์ด์!!! ์ค์
์๋๋ ์ฒ์๊ฐ๋ณด๋๊ฑฐ์ฌ์ ์ค๋ ์ค๋ ~~!! ๋ ์จ๋ ๋๋ด์ฃผ๊ณ ~! ํ๋,๊ตฌ๋ฆ ๋๋ฌด ์ด๋ปค์ต๋๋ค~! ๊ฐํํด๊ฒ์๊น์ง ๊ฐ๋๋ฐ ์ฐจ๊ฐ ์~~~์ฒญ ๋งํ์ต๋๋ค(3์๊ฐ๋๊ฒ๊ฑธ๋ฆผ) ์ ์ ๋ง ํ ๋์ค๋์ค ์์๋ค์ ํํ ๋ ์ ํฌ๊ฐ์กฑ ๋ฆ๊ฒ ์ผ์ด๋์ ๋ฆ๊ฒ ์ถ๋ฐํ๊ฑฐ๋ ์ ใ
ใ
ใ
๊ฐํํด๊ฒ์ ์ฌ๋๋ค์ด ์์ฒญ ๋ง์์ด์!', 'ํธ๋๊ณผ์๋ ๊ตฐ๊ฒ์ง์ข ํด์ฃผ๊ตฌ์ ใ
_ใ
์ค์
์๋ ๋์ฐฉ!! ์ฃผ์ฐจ์ฅ์ด ๋ค ๊ฝ์ฐจ์.. ์ฃผ์ฐจํ ๊ณณ์ด ์๋๋ผ๊ตฌ์ ๊ณ์ ์ฃผ์ฐจ์ฅ ๋๋ค๊ฐ ๊ฒจ์ฐ ํ์๋ฆฌ ์์ด์ ์ฃผ์ฐจํ์ต๋๋ค..ใ
ใ
ใ
', '๊ทธ๋ฐ๋ฐ ๋ ์ฃผ์ฐจ์ฅ์ ์ฃผ์ฐจํ๊ณ ์ธ๋๊ธธ์ ์ฌ๋ผ๊ฐ์ผ ํ๋๋ผ๊ตฌ์!?ํ~ ์ค์
์๋ ..์ด๊ฒ๋ญ๋.. ํ์์ฝ๋๋ก ์ฐ๊ณ ๊ฐํธํ๊ฒ ์
์ฅํ์ต๋๋ค ์ค์
์๋ ์ฝ์ธ๋ ๋๋ํ๊ฒ 10๋ง์ ์ถฉ์ ํ์ด์ ใ
ใ
ใ
๋ค๋ค ๋๋ฌด ์๋จน๊ธฐ๋๋ฌธ์... ๋๋ํ๊ฒ..ใ
ใ
ใ
์ฌ์ ๋ฝ์ปค์ค์ ์์ด์ปจ์ด ์ผ๋ง๋ ๋นต๋นตํ์ง ์ค๋ค์ค๋ค ์ถ์ ์ต๋๋ค ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ตํ๊ณ ์ถ์ถํ๋ฐ ์ค์
์๋๋ ์์ ์ ๋ฐ๋ ใ
ใ
ใ
์ ๊ฐ ๋ฐฉ์ํฉ์ ์ค๋น๋ชปํด์ ๊ฐ์ 3๊ฐ ์ด๋ ค๊ณ ํ๋๋ฐ ํ! ํ๊ฐ์ 19000์์ด์์!', '๊ทธ๋์ ํ๊ฐ๋ง ์์ด์ ใ
ใ
์ ํธ๋ํฐ์ ๋ฝ์ปค์.. ๋ฐฉ์ํฉ ๊ผญ ๋ฏธ๋ฆฌ ์ค๋นํ์ธ์ ใ
๋๋น์ธ์ ใ
์ค์
์๋ ์ ๋ง ์๋ง์ง์ฐฝ์ด์์ด์ ใ
ใ
์ฌ๋์ด ๋~~~๋ฌด๋ง์์ ์ ์ํ๋ ์ค์์๋ค์ด๊ฐ๊ตฌ์ ๋ค๋ฅธ ๋์ด๊ธฐ๊ตฌ๋ ์๋๋ ๋ชป๋ฌ์ต๋๋ค ํ๋ํ๋ ์ฌ๋์ด ๋๋ฌด ๋ง์์ง ์์ ์ ๊ด๋ฆฌ๋ฅผ ๋นก์ธ๊ฒ ํด์ ์ฌ๋ฏธ๊ฐ ์์์ด์.. ์ฒ์์ผ๋ก ๋จน์ด๋ณธ ์๋ก์๋ก๋ฌผ๋์ดํ๋ค๊ฐ ๋จน์ ๊ฐ์์ด์ด์ ๊ทธ๋ฐ์ง ์ฐธ ๋ง์๊ฒ ๋จน์์ต๋๋ค!', '๊ทธ๋ ์ง๋ง ์์์ ์ ๋ง ์์ข์์ด์.. ์ค์
์๋ ์ฒ์์ด๋ผ ๊ธฐ๋ ๋ง์ด ํ๋๋ฐ ์ฒจ๋ถํฐ ๋๊น์ง ๋ค ๋ง์ ์๋ค์์ด์ ๋ฌผ๋ก ์ฌ๋์ด ๋~๋ฌด ๋ง์์ ์ผ์๋ ์์ต๋๋ค.', '์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์์๋ ๊ด์ฐฎ์ ๋ณด์ด๊ณ ์์์ด ๋น์ธ์ง๋ง ๋ค ๋ง์์๊ฑฐ๋ ์! ๊ทผ๋ฐ ์ค์
์๋ ์์๋ ๋ณ๋ก๊ณ ๋น์ธ๊ณ ๋ง์๊ณ !!! ์ฃผ์ฐจ์ฅ๋ ์ข๊ณ ์ฃผ์ฐจ์ฅ์์ ์
๊ตฌ๊น์ง ๊ฑธ์ด์ ์ฌ๋ผ๊ฐ๊ณ .. ์บ๋ฆฌ๋น์๋ฒ ์ด๋ณด๋ค ๋์๋๊ฑด ๋ฝ์ปค์์ค๊ณผ ์ ์ํ ๋๊ฐ ์ ๋! ์ค์
์๋ ์ ๋ง ์์ฌ์ ์ต๋๋ค ๊ฐ์ธ์ ์ผ๋ฃจ ์บ๋ฆฌ๋น์๋ฒ ์ด๊ฐ ํจ์ฌ ๋์๋ฏ!']
- Performance Analysis
- Adding words to user dictionary
- Update Note
- Mecab-Ko Installation Guide
- Contributing Guide
Kss is available in various programming languages.
- Python version (this repo, ver 3.1.0.4) contains the most recent changes to Kss.
- Java version (ver 2.6.1) is based on Kss 2.6.0 and will be updated to 3.xx in the future.
- C++ version (ver 1.3.1) has the original implementation of Kss but is deprecated now.
If you find this toolkit useful, please consider citing:
@misc{kss,
author = {Park, Sang-kil and Ko, Hyunwoong},
title = {Kss: A Toolkit for Korean sentence segmentation},
howpublished = {\url{https://github.com/hyunwoongko/kss}},
year = {2020},
}