-
Notifications
You must be signed in to change notification settings - Fork 0
Document Classification
InYeop Lee edited this page Mar 11, 2016
·
16 revisions
우리는 글을 좋은 글과 그렇지 않은 글로 분류하려고 합니다. 여러 방법이 후보군에 올라왔었는데 우리의 결론은 단순한 글 분류에는 클러스터링이 가장 어울린다는 것입니다. 우리 시스템을 도식화하면 다음과 같습니다.

우리는 다음 두가지 알고리즘을 활용해보려 합니다.
-
[K-Means Clustering](K-Means Clustering)
우리는 scikit-learn이라는 라이브러리를 이용해 위 알고리즘들을 쉽게 활용할 수 있었습니다. scikit-learn은 파이썬 기계학습 라이브러리중 가장 유명합니다.