Skip to content

如何提高知识库检索的正确性? #1971

@ryancurry-mz

Description

@ryancurry-mz

场景:QA问答

当前正确率:目前知识库200个问题,正确率70%左右

做了什么:
1、试过用 .json和.txt格式,文本切分后,检索效果不好。
2、利用 .csv格式存储QA,目前看下来这种格式匹配度更高。
3、基于官方给的流程图,看了知识库文件上传-解析成文本-解析成文档-存储的过程。目的是希望通过优化其中一些步骤,提高知识库准确率。一路看下来,发现.csv文件解析比较特殊,是通过row进行切分,把问题和答案存进page_context中,存到向量库。向量成矩阵的过程我没看到。有点不知道如何下手。。

我看到有一个方案,是将问题和答案分别上传,检索正确率会提高。如果是这样做,用户输入的query问题确实可以很好的匹配上问题知识库,但是如何对应上该问题的答案呢?

最后,如果大佬有好的优化意见,请指教。十分感谢!!

QA示例:
image

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions