ytzfhqs
diff --git a/‎PDF/文本分类或回归方法.pdf‎
-19.9 KB b/‎PDF/文本分类或回归方法.pdf‎
-19.9 KB
diff --git a/‎docs/文本分类或回归方法.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/文本分类或回归方法.md‎
Lines changed: 1 addition & 1 deletion
@@ -97,7 +97,7 @@ corpus_transformed = ctv.transform(corpus)
 (4, 21)     1
 ```
 
-在前面的章节中，我们已经见识过这种表示法。即稀疏表示法。因此，语料库现在是一个稀疏矩阵，其中第一个样本有 4 个元素，第二个样本有 10 个元素，以此类推，第三个样本有 5 个元素，以此类推。我们还可以看到，这些元素都有相关的计数。有些元素会出现两次，有些则只有一次。例如，在样本 2（第 1 行）中，我们看到第 22 列的数值是 2。这是为什么呢？第 22 列是什么？
+在前面的章节中，我们已经见识过这种表示法。即稀疏表示法。因此，语料库现在是一个稀疏矩阵，其中第一个样本有 4 个元素，第二个样本有 10 个元素，以此类推，第三个样本有 5 个元素，以此类推。我们还可以看到，这些元素都有相关的计数。有些元素会出现两次，有些则只有一次。例如，在样本 2（行 1 ）中，我们看到第 22 列的数值是 2。这是为什么呢？第 22 列是什么？
 
 CountVectorizer 的工作方式是首先对句子进行标记化处理，然后为每个标记赋值。因此，每个标记都由一个唯一索引表示。这些唯一索引就是我们看到的列。CountVectorizer 会存储这些信息。