Skip to content

Latest commit

 

History

History
81 lines (41 loc) · 5.47 KB

sparse-features-machine-learning-models.md

File metadata and controls

81 lines (41 loc) · 5.47 KB

处理机器学习模型中的稀疏特征

原文:www.kdnuggets.com/2021/01/sparse-features-machine-learning-models.html

处理机器学习模型中的稀疏特征

什么是稀疏特征?


我们的前三个课程推荐

1. 谷歌网络安全证书 - 加速进入网络安全领域的职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


稀疏数据的特征是那些大多数值为零的特征。这与缺失数据的特征不同。稀疏特征的例子包括一热编码词的向量或类别数据的计数。另一方面,稠密数据的特征则主要具有非零值。

稀疏数据和缺失数据有什么区别?

当数据缺失时,意味着许多数据点是未知的。另一方面,如果数据是稀疏的,则所有数据点都是已知的,但其中大多数值为零。

为了说明这一点,有两种特征类型。稀疏数据的特征有已知的值(= 0),但缺失数据的特征有未知的值(= null)。无法知道应该在 null 值的行中填入什么值。

处理机器学习模型中的稀疏特征

表 1. 两种特征类型的示例数据。

为什么稀疏特征使机器学习变得困难?

稀疏特征常见的问题包括:

  1. 如果模型具有许多稀疏特征,这将增加模型的空间和时间复杂度。线性回归模型将拟合更多的系数,而基于树的模型将具有更大的深度以考虑所有特征。

  2. 如果特征具有稀疏数据,模型算法和诊断措施可能会表现出未知的行为。Kuss [2002] 表明,当数据稀疏时,拟合优度检验是有缺陷的。

  3. 如果特征过多,模型会拟合训练数据中的噪声。这称为过拟合。当模型过拟合时,当投入生产时,它们无法对新数据进行泛化。这会对模型的预测能力产生负面影响。

  4. 一些模型可能低估稀疏特征的重要性,偏爱较密集的特征,即使稀疏特征可能具有预测能力。基于树的模型尤其容易出现这种情况。例如,随机森林会过高估计具有更多类别的特征的重要性,而忽略那些类别较少的特征。

处理稀疏特征的方法

1. 从模型中移除特征

稀疏特征可能会引入噪声,模型会捕捉到这些噪声并增加模型的内存需求。为了解决这个问题,可以将这些特征从模型中移除。例如,在文本挖掘模型中去除稀有词,或者 移除低方差的特征。然而,具有重要信号的稀疏特征在这个过程中不应被移除。

LASSO 正则化可以用来减少特征的数量。基于规则的方法,例如设置特征的方差阈值,也可能会有帮助。

2. 使特征密集

  • 主成分分析(PCA):PCA 方法可以将特征投影到主成分的方向上,并从最重要的主成分中选择。

  • 特征哈希:在特征哈希中,稀疏特征可以使用哈希函数分配到所需数量的输出特征中。需要小心选择足够多的输出特征以防止哈希碰撞。

3. 使用对稀疏特征具有鲁棒性的模型

一些版本的机器学习模型对稀疏数据具有鲁棒性,可以用来代替改变数据的维度。例如,熵加权 k-means 算法比常规的 k-means 算法更适合这个问题。

结论

稀疏特征在机器学习模型中很常见,特别是在 one-hot 编码形式中。这些特征可能会导致机器学习模型出现过拟合、特征重要性不准确和高方差等问题。建议通过特征哈希或移除特征等方法对稀疏特征进行预处理,以减少对结果的负面影响。

Arushi Prakash 博士 是亚马逊的一名应用科学家,她在劳动力分析领域解决令人兴奋的科学挑战。在获得化学工程博士学位后,她转向数据科学。她喜欢写作、演讲和阅读有关科学、职业发展和领导力的内容。

更多相关话题