Skip to content
This repository was archived by the owner on Aug 7, 2018. It is now read-only.
This repository was archived by the owner on Aug 7, 2018. It is now read-only.

Melhorar a qualidade da busca por palavras-chaves #449

@leonardofl

Description

@leonardofl

A busca por palavras-chaves utiliza o Elastic Search e um processo de "stemmer", que compara as raízes das palavras pra melhorar a qualidade das buscas. Mas há várias opções de configuração de stemmer no ES. E me parece que a nossa não está tão boa assim. Segue alguns exemplos que funcionam e outros que não:

ok
cmsp: trabalhador -> trabalho
cmsp: escola -> escolas, escolar
conv: guilhotina -> guilhotinar

not ok
conv: nobreza -> nobres
conv: escolar -> escolas
conv: contratação -> contratar

Seria legal melhorar a configuração de stemmer do ES pra fazer os exemplos "not ok" funcionarem.

Usar outra ferramenta para a busca, como o próprio postgres, por exemplo, também é opção.

Referência: https://www.elastic.co/guide/en/elasticsearch/guide/current/stemming.html

Atentar para os problemas de Understemming e Overstemming.

Estamos usando o stemmer por dicionário: https://www.elastic.co/guide/en/elasticsearch/guide/current/hunspell.html

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions