处理机器学习模型中的稀疏特征

原文：www.kdnuggets.com/2021/01/sparse-features-machine-learning-models.html

什么是稀疏特征？

1. 谷歌网络安全证书 - 加速进入网络安全领域的职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

稀疏数据的特征是那些大多数值为零的特征。这与缺失数据的特征不同。稀疏特征的例子包括一热编码词的向量或类别数据的计数。另一方面，稠密数据的特征则主要具有非零值。

当数据缺失时，意味着许多数据点是未知的。另一方面，如果数据是稀疏的，则所有数据点都是已知的，但其中大多数值为零。

为了说明这一点，有两种特征类型。稀疏数据的特征有已知的值（= 0），但缺失数据的特征有未知的值（= null）。无法知道应该在 null 值的行中填入什么值。

表 1. 两种特征类型的示例数据。

稀疏特征常见的问题包括：

如果模型具有许多稀疏特征，这将增加模型的空间和时间复杂度。线性回归模型将拟合更多的系数，而基于树的模型将具有更大的深度以考虑所有特征。
如果特征具有稀疏数据，模型算法和诊断措施可能会表现出未知的行为。Kuss [2002] 表明，当数据稀疏时，拟合优度检验是有缺陷的。
如果特征过多，模型会拟合训练数据中的噪声。这称为过拟合。当模型过拟合时，当投入生产时，它们无法对新数据进行泛化。这会对模型的预测能力产生负面影响。
一些模型可能低估稀疏特征的重要性，偏爱较密集的特征，即使稀疏特征可能具有预测能力。基于树的模型尤其容易出现这种情况。例如，随机森林会过高估计具有更多类别的特征的重要性，而忽略那些类别较少的特征。

稀疏特征可能会引入噪声，模型会捕捉到这些噪声并增加模型的内存需求。为了解决这个问题，可以将这些特征从模型中移除。例如，在文本挖掘模型中去除稀有词，或者移除低方差的特征。然而，具有重要信号的稀疏特征在这个过程中不应被移除。

LASSO 正则化可以用来减少特征的数量。基于规则的方法，例如设置特征的方差阈值，也可能会有帮助。

一些版本的机器学习模型对稀疏数据具有鲁棒性，可以用来代替改变数据的维度。例如，熵加权 k-means 算法比常规的 k-means 算法更适合这个问题。

稀疏特征在机器学习模型中很常见，特别是在 one-hot 编码形式中。这些特征可能会导致机器学习模型出现过拟合、特征重要性不准确和高方差等问题。建议通过特征哈希或移除特征等方法对稀疏特征进行预处理，以减少对结果的负面影响。

Arushi Prakash 博士 是亚马逊的一名应用科学家，她在劳动力分析领域解决令人兴奋的科学挑战。在获得化学工程博士学位后，她转向数据科学。她喜欢写作、演讲和阅读有关科学、职业发展和领导力的内容。