Skip to content

연철에 대한 오타 교정 추가 #159

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged
merged 8 commits into from
Apr 13, 2024
Merged

연철에 대한 오타 교정 추가 #159

merged 8 commits into from
Apr 13, 2024

Conversation

bab2min
Copy link
Owner

@bab2min bab2min commented Apr 13, 2024

#158 기능 구현 완료.

none basicTypo continualTypo basicTypoWithContinual
로딩 시간(s) 2.02 10.32 2.40 10.56
메모리 사용량(MB) 370.4 1098.1 448.2 1098.8
라인별 평균 처리 시간(ms) 1.59 2.76 2.14 4.38

간단한 벤치마크 결과는 위와 같음. 기본 오타 교정(basicTypo)에 연철 기능을 추가(basicTypoWithContinual)해도 메모리 사용량은 변화없지만 처리 시간은 약 60% 증가함. 그 대신 다음과 같은 오타들까지 교정하는 게 가능하다.

프로그래미 -> 프로그램이
프로그래믈 -> 프로그램을
오늘사무시레서 -> 오늘사무실에서
법원이 기가캤다. -> 법원이 기각했다.
하나도 업써. -> 하나도 없어.
말근 하늘 -> 맑은 하늘
아주 만타. -> 아주 많다.

현재는 받침 + 초성 ㅇ/ㅎ 에 대한 처리만 추가했지만 필수적 경음화 등을 교정하는 것이나 중철 표기를 분석하는 것도 가능하다. 기본 로직은 다 구현되어 있으니 필요에 따라 쉽게 확장 가능할 것.

@bab2min bab2min merged commit c62b968 into main Apr 13, 2024
14 checks passed
@bab2min bab2min deleted the dev_continual_writing branch April 13, 2024 08:17
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant