[Discussion]: 关于Requested Document chunks #3024

dog-dev-mel · 2025-02-25T23:08:45Z

dog-dev-mel
Feb 25, 2025

Issue Checklist

I understand that issues are meant for feedback and problem-solving, not for venting, and I will provide as much detail as possible to help resolve the issue.
I have checked the pinned issues and searched through the existing open issues, closed issues, and discussions and did not find a similar suggestion.
I confirm that I am here to ask questions and discuss issues, not to report bugs or request features.

Platform

Windows

Version

v1.0.0

Your Question

目前知识库添加文档后, 推荐免费的嵌入模式是BAAI/bge-m3。其中有四个可配置的选项分别是Reuqested Document Chunks，Chunk size，Chunk Overlap，Matching threshold。一般我们都是通过Document size/（Chunk size - Chunk Overlap）来获得Document Chunks。

但是Cherry Studio需要设置一个Reuqested Document Chunks，是否我们当前的处理流程是：

Docoment size/ Requested Dcoument chunks = 一个chunks的长度，假设命名为A
我们按照设置的chunk size去从A取对应的长度。

问题1：
所以如果不合理的设置Requested document chunks，会造成A大于设置的chunk size，即部分文字会被丢失？对吗？
又或者，如果A小于设置的chunk size，是用空字符填充吗？

问题2：
想问问这是BAAI/bge-m3模型的局限性，还是？
是否有更加好的解决方案，来对于不同类型的文档进行嵌入的参数优化，即找到最优参数设置。

问题3：
如果是，是否因为会造成设备性能的负载，所以当前使用的都是最佳实践，设置为固定值的方案来规避。

谢谢~

Context

Additional Information

Priority

Medium (Would like a response soon)

cloudxpc · 2025-02-26T06:09:56Z

cloudxpc
Feb 26, 2025

我的理解，这个requested document chunks是指发给大模型的chunks数量，所以提示说这个数越大，带给大模型的信息就越多，消费的token就越多。所以不存在“Docoment size/ Requested Dcoument chunks = 一个chunks的长度”这种说法。一个chunks的长度就是下面chunks size决定的。

我想问的是，为什么不支持按特定字符分割？

1 reply

dog-dev-mel Mar 8, 2025
Author

如果chunks的size设定完后，按你的理解“requested document chunks是指发给大模型的chunks数量”，那么是否每个Document实际发完模型的内容就是 requested document chunks * chunks size。这是否意味着原文内容如果大于设定发送的内容，则多余的部分不会发送给模型。

jackywu · 2025-05-26T04:49:31Z

jackywu
May 26, 2025

请教下该软件默认的chunks size是多少？从哪里能看到？我看官网的文档和软件界面里都没有显示。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Discussion]: 关于Requested Document chunks #3024

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

[Discussion]: 关于Requested Document chunks #3024

Uh oh!

dog-dev-mel Feb 25, 2025

Issue Checklist

Platform

Version

Your Question

Context

Additional Information

Priority

Replies: 2 comments · 1 reply

Uh oh!

Uh oh!

cloudxpc Feb 26, 2025

Uh oh!

dog-dev-mel Mar 8, 2025 Author

Uh oh!

jackywu May 26, 2025

dog-dev-mel
Feb 25, 2025

Replies: 2 comments 1 reply

cloudxpc
Feb 26, 2025

dog-dev-mel Mar 8, 2025
Author

jackywu
May 26, 2025