@@ -27,11 +27,11 @@ class Document(BaseModel):
27
27
values[' id' ] = str (uuid.uuid5(uuid.NAMESPACE_URL , text))
28
28
return values
29
29
```
30
- - id: 用于标识一段特定文档的唯一标识,默认通过uuid生成。
31
- - text: 文档中的文本内容
32
- - metadata: 文档的元数据信息,通常包含原始文件名、原始文件中的位置等。
33
- - embedding: 文档向量化后的形式,可以是文本向量,在Document的子类ImageDocument中,也可以是图像向量化后的结果。
34
- - keywords: 文档中的关键词,也可以是这段文本的tag。
30
+ - ` id ` : 用于标识一段特定文档的唯一标识,默认通过uuid生成。
31
+ - ` text ` : 文档中的文本内容
32
+ - ` metadata ` : 文档的元数据信息,通常包含原始文件名、原始文件中的位置等。
33
+ - ` embedding ` : 文档向量化后的形式,可以是文本向量,在Document的子类ImageDocument中,也可以是图像向量化后的结果。
34
+ - ` keywords ` : 文档中的关键词,也可以是这段文本的tag。
35
35
36
36
DocProcessor定义如下:
37
37
``` python
@@ -96,9 +96,9 @@ metadata:
96
96
module: 'agentuniverse.agent.action.knowledge.doc_processor.character_text_splitter'
97
97
class: 'CharacterTextSplitter'
98
98
` ` `
99
- - chunk_size : 切分后文本长度大小。
100
- - chunk_overlap : 相邻切分文本重合部分的长度。
101
- - separators : 指定的分隔符
99
+ - ` chunk_size` : 切分后文本长度大小。
100
+ - ` chunk_overlap` : 相邻切分文本重合部分的长度。
101
+ - ` separators` : 指定的分隔符
102
102
103
103
# ## [TokenTextSplitter](../../../agentuniverse/agent/action/knowledge/doc_processor/character_text_splitter.yaml)
104
104
该组件根据指定的 tokenizer 对文本进行切分,按照设定的 chunk_size 和 chunk_overlap 将文本拆分为多个片段,每个片段包含指定数量的tokens。
@@ -116,9 +116,9 @@ metadata:
116
116
module: 'agentuniverse.agent.action.knowledge.doc_processor.token_text_splitter'
117
117
class: 'TokenTextSplitter'
118
118
` ` `
119
- - chunk_size : 切分后文本的token数量。
120
- - chunk_overlap : 相邻切分文本重合部分的token数量。
121
- - tokenizer : 指定的tokenizer,用于将文本切分为tokens
119
+ - ` chunk_size` : 切分后文本的token数量。
120
+ - ` chunk_overlap` : 相邻切分文本重合部分的token数量。
121
+ - ` tokenizer` : 指定的tokenizer,用于将文本切分为tokens
122
122
123
123
# ## [RecursiveCharacterTextSplitter](../../../agentuniverse/agent/action/knowledge/doc_processor/recursive_character_text_splitter.yaml)
124
124
@@ -138,9 +138,9 @@ metadata:
138
138
module: 'agentuniverse.agent.action.knowledge.doc_processor.recursive_character_text_splitter'
139
139
class: 'RecursiveCharacterTextSplitter'
140
140
` ` `
141
- - chunk_size : 切分后文本长度大小。
142
- - chunk_overlap : 相邻切分文本重合部分的长度。
143
- - separators : 指定的分隔符列表,按顺序尝试使用分隔符进行切分。如果第一个分隔符不能满足条件,则递归地使用下一个分隔符。
141
+ - ` chunk_size` : 切分后文本长度大小。
142
+ - ` chunk_overlap` : 相邻切分文本重合部分的长度。
143
+ - ` separators` : 指定的分隔符列表,按顺序尝试使用分隔符进行切分。如果第一个分隔符不能满足条件,则递归地使用下一个分隔符。
144
144
145
145
# ## [JiebaKeywordExtractor](../../../agentuniverse/agent/action/knowledge/doc_processor/jieba_keyword_extractor.yaml)
146
146
该组件使用结巴(Jieba)分词库从文本中提取关键词。它可以根据设定的 top_k 参数提取出最重要的几个关键词,用于后续作为倒排索引。
@@ -154,7 +154,7 @@ metadata:
154
154
module: 'agentuniverse.agent.action.knowledge.doc_processor.jieba_keyword_extractor'
155
155
class: 'JiebaKeywordExtractor'
156
156
` ` `
157
- - top_k : 从文本中提取的关键词数量,即排名前 top_k 的关键词会被提取。
157
+ - ` top_k` : 从文本中提取的关键词数量,即排名前 top_k 的关键词会被提取。
158
158
159
159
# ## [DashscopeReranker](../../../agentuniverse/agent/action/knowledge/doc_processor/dashscope_reranker.yaml)
160
160
0 commit comments