Skip to content

similar 관련 함수 예제를 확인하다가 이상이 있어서... #219

@nowtoday

Description

@nowtoday

원래는 여러 원고를 넣고 tokenize 후 그렇게 나온 분석 결과 내에서 특정 단어와의 유사 형태소를 추출하는게 될까 하고 보다가
CoNgram 모델의 임베딩만을 사용한다는걸 확인하고 더 하지는 않았지만
document 페이지의 예제를 테스트 하는 과정에서 아래와 같은 오류와 다른점이 보이길래
제가 잘못 테스트 한 것인가 해서 보내드립니다... (v0.23.1)

특히 사랑/NNG 나 먹/NNG처럼 단어와 형태소가 같은 경우에는 확인을 어떻게 해야할지...

kiwi = Kiwi()

kiwi.morpheme_similarity(('고려', 'NNP'), ('조선', 'NNP'))
// 0.7054759860038757

kiwi.morpheme_similarity('사랑', '애정')
kiwi.morpheme_similarity('사랑', '알고리즘')
kiwi.most_similar_morphemes('사랑', top_n=5)
kiwi.morpheme_similarity(('사랑', 'NNG'), ('조선', 'NNP'))
// ValueError: Multiple morphemes found for the given form: 사랑/NNG__0, 사랑/NNG__7, 사랑/NNG__8

kiwi.most_similar_morphemes('먹', top_n=5)
// ValueError: Multiple morphemes found for the given form: 먹/VV__0, 먹/VX__0, 먹/NNG__0, 먹/NNG__5, 먹/NNG__6
// 이 오류는 나중에 다시 보다가 document 에도 있는 것 확인

kiwi.most_similar_morphemes(('먹', 'VV'), top_n=5)
[SimilarMorpheme(form='드시', tag='VV', sense_id=0, id=10051, score=0.6432),
SimilarMorpheme(form='먹이', tag='VV', sense_id=0, id=2326, score=0.6104),
SimilarMorpheme(form='마시', tag='VV', sense_id=0, id=837, score=0.5902),
SimilarMorpheme(form='잡수', tag='VV', sense_id=0, id=9573, score=0.5779),
SimilarMorpheme(form='처먹', tag='VV', sense_id=0, id=16963, score=0.5462)]
// 예제와 달리 sense_id가 더 있음

Metadata

Metadata

Assignees

Labels

bugSomething isn't working

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions