-
Notifications
You must be signed in to change notification settings - Fork 6.1k
Closed
Labels
bugSomething isn't workingSomething isn't working
Description
场景:QA问答
当前正确率:目前知识库200个问题,正确率70%左右
做了什么:
1、试过用 .json和.txt格式,文本切分后,检索效果不好。
2、利用 .csv格式存储QA,目前看下来这种格式匹配度更高。
3、基于官方给的流程图,看了知识库文件上传-解析成文本-解析成文档-存储的过程。目的是希望通过优化其中一些步骤,提高知识库准确率。一路看下来,发现.csv文件解析比较特殊,是通过row进行切分,把问题和答案存进page_context中,存到向量库。向量成矩阵的过程我没看到。有点不知道如何下手。。
我看到有一个方案,是将问题和答案分别上传,检索正确率会提高。如果是这样做,用户输入的query问题确实可以很好的匹配上问题知识库,但是如何对应上该问题的答案呢?
最后,如果大佬有好的优化意见,请指教。十分感谢!!
Jzhnakui
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't working
