[Discussion]: 关于Requested Document chunks #3024
Unanswered
dog-dev-mel
asked this question in
KnowledgeBase | 知识库
Replies: 2 comments 1 reply
-
|
我的理解,这个requested document chunks是指发给大模型的chunks数量,所以提示说这个数越大,带给大模型的信息就越多,消费的token就越多。所以不存在“Docoment size/ Requested Dcoument chunks = 一个chunks的长度”这种说法。一个chunks的长度就是下面chunks size决定的。 我想问的是,为什么不支持按特定字符分割? |
Beta Was this translation helpful? Give feedback.
1 reply
-
|
请教下该软件默认的chunks size是多少?从哪里能看到?我看官网的文档和软件界面里都没有显示。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
Issue Checklist
Platform
Windows
Version
v1.0.0
Your Question
目前知识库添加文档后, 推荐免费的嵌入模式是BAAI/bge-m3。其中有四个可配置的选项分别是Reuqested Document Chunks,Chunk size,Chunk Overlap,Matching threshold。一般我们都是通过Document size/(Chunk size - Chunk Overlap)来获得Document Chunks。
但是Cherry Studio需要设置一个Reuqested Document Chunks,是否我们当前的处理流程是:
问题1:
所以如果不合理的设置Requested document chunks,会造成A大于设置的chunk size,即部分文字会被丢失?对吗?
又或者,如果A小于设置的chunk size,是用空字符填充吗?
问题2:
想问问这是BAAI/bge-m3模型的局限性,还是?
是否有更加好的解决方案,来对于不同类型的文档进行嵌入的参数优化,即找到最优参数设置。
问题3:
如果是,是否因为会造成设备性能的负载,所以当前使用的都是最佳实践,设置为固定值的方案来规避。
谢谢~
Context
Additional Information
Priority
Medium (Would like a response soon)
Beta Was this translation helpful? Give feedback.
All reactions