原文:
www.kdnuggets.com/2021/01/sparse-features-machine-learning-models.html
1. 谷歌网络安全证书 - 加速进入网络安全领域的职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
稀疏数据的特征是那些大多数值为零的特征。这与缺失数据的特征不同。稀疏特征的例子包括一热编码词的向量或类别数据的计数。另一方面,稠密数据的特征则主要具有非零值。
当数据缺失时,意味着许多数据点是未知的。另一方面,如果数据是稀疏的,则所有数据点都是已知的,但其中大多数值为零。
为了说明这一点,有两种特征类型。稀疏数据的特征有已知的值(= 0),但缺失数据的特征有未知的值(= null)。无法知道应该在 null 值的行中填入什么值。
表 1. 两种特征类型的示例数据。
稀疏特征常见的问题包括:
-
如果模型具有许多稀疏特征,这将增加模型的空间和时间复杂度。线性回归模型将拟合更多的系数,而基于树的模型将具有更大的深度以考虑所有特征。
-
如果特征具有稀疏数据,模型算法和诊断措施可能会表现出未知的行为。Kuss [2002] 表明,当数据稀疏时,拟合优度检验是有缺陷的。
-
如果特征过多,模型会拟合训练数据中的噪声。这称为过拟合。当模型过拟合时,当投入生产时,它们无法对新数据进行泛化。这会对模型的预测能力产生负面影响。
-
一些模型可能低估稀疏特征的重要性,偏爱较密集的特征,即使稀疏特征可能具有预测能力。基于树的模型尤其容易出现这种情况。例如,随机森林会过高估计具有更多类别的特征的重要性,而忽略那些类别较少的特征。
稀疏特征可能会引入噪声,模型会捕捉到这些噪声并增加模型的内存需求。为了解决这个问题,可以将这些特征从模型中移除。例如,在文本挖掘模型中去除稀有词,或者 移除低方差的特征。然而,具有重要信号的稀疏特征在这个过程中不应被移除。
LASSO 正则化可以用来减少特征的数量。基于规则的方法,例如设置特征的方差阈值,也可能会有帮助。
-
主成分分析(PCA):PCA 方法可以将特征投影到主成分的方向上,并从最重要的主成分中选择。
-
特征哈希:在特征哈希中,稀疏特征可以使用哈希函数分配到所需数量的输出特征中。需要小心选择足够多的输出特征以防止哈希碰撞。
一些版本的机器学习模型对稀疏数据具有鲁棒性,可以用来代替改变数据的维度。例如,熵加权 k-means 算法比常规的 k-means 算法更适合这个问题。
稀疏特征在机器学习模型中很常见,特别是在 one-hot 编码形式中。这些特征可能会导致机器学习模型出现过拟合、特征重要性不准确和高方差等问题。建议通过特征哈希或移除特征等方法对稀疏特征进行预处理,以减少对结果的负面影响。
Arushi Prakash 博士 是亚马逊的一名应用科学家,她在劳动力分析领域解决令人兴奋的科学挑战。在获得化学工程博士学位后,她转向数据科学。她喜欢写作、演讲和阅读有关科学、职业发展和领导力的内容。