Skip to content

Document Classification

InYeop Lee edited this page Mar 11, 2016 · 16 revisions

우리는 글을 좋은 글과 그렇지 않은 글로 분류하려고 합니다. 여러 방법이 후보군에 올라왔었는데 우리의 결론은 단순한 글 분류에는 클러스터링이 가장 어울린다는 것입니다. 우리 시스템을 도식화하면 다음과 같습니다.

alt text ㅎㅎ

우리는 다음 두가지 알고리즘을 활용해보려 합니다.

우리는 scikit-learn이라는 라이브러리를 이용해 위 알고리즘들을 쉽게 활용할 수 있었습니다. scikit-learn은 파이썬 기계학습 라이브러리중 가장 유명합니다.

#HOME

###SCRAPING

###Text

  • Konlpy

###Document Classification

###Result

###APOLOGY

Clone this wiki locally