We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent b25a438 commit 862b73eCopy full SHA for 862b73e
PDF/文本分类或回归方法.pdf
-19.9 KB
docs/文本分类或回归方法.md
@@ -97,7 +97,7 @@ corpus_transformed = ctv.transform(corpus)
97
(4, 21) 1
98
```
99
100
-在前面的章节中,我们已经见识过这种表示法。即稀疏表示法。因此,语料库现在是一个稀疏矩阵,其中第一个样本有 4 个元素,第二个样本有 10 个元素,以此类推,第三个样本有 5 个元素,以此类推。我们还可以看到,这些元素都有相关的计数。有些元素会出现两次,有些则只有一次。例如,在样本 2(第 1 行)中,我们看到第 22 列的数值是 2。这是为什么呢?第 22 列是什么?
+在前面的章节中,我们已经见识过这种表示法。即稀疏表示法。因此,语料库现在是一个稀疏矩阵,其中第一个样本有 4 个元素,第二个样本有 10 个元素,以此类推,第三个样本有 5 个元素,以此类推。我们还可以看到,这些元素都有相关的计数。有些元素会出现两次,有些则只有一次。例如,在样本 2(行 1 )中,我们看到第 22 列的数值是 2。这是为什么呢?第 22 列是什么?
101
102
CountVectorizer 的工作方式是首先对句子进行标记化处理,然后为每个标记赋值。因此,每个标记都由一个唯一索引表示。这些唯一索引就是我们看到的列。CountVectorizer 会存储这些信息。
103
0 commit comments