Skip to content

Latest commit

 

History

History
109 lines (55 loc) · 10.7 KB

deep-learning-triumph-empiricism-over-theoretical-mathematical-guarantees.md

File metadata and controls

109 lines (55 loc) · 10.7 KB

深度学习与经验主义的胜利

原文:www.kdnuggets.com/2015/07/deep-learning-triumph-empiricism-over-theoretical-mathematical-guarantees.html

c 评论

深度学习 现在是许多监督机器学习任务的标准代表。也可以说,深度学习在过去几十年中在无监督机器学习中产生了最实用的算法。这些进展所带来的兴奋促使了大量的研究和记者的耸人听闻的头条新闻。虽然我对这种炒作持谨慎态度,但我也发现这项技术令人兴奋,并且最近加入了这个阵营,发布了 关于递归神经网络(RNNs)在序列学习中的 30 页批评性评审。

lstm-forget

但机器学习研究社区中的许多人并不对深度情有独钟。事实上,对于那些努力通过将人工智能研究基于数学语言并用理论保证来复兴人工智能研究的人来说,深度学习代表了一种时尚。更糟糕的是,对于一些人来说,它可能看起来像是一种倒退。¹


我们的前 3 个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 部门


在这篇文章中,我将尝试提供对理论保证有用性的高层次和公正的分析,并解释为什么它们可能并不总是从实践上有用,而从智力上却值得回报。更重要的是,我将提供论据来解释为什么在经过多年的统计上逐渐可靠的机器学习之后,今天许多表现最佳的算法没有理论保证。

保证什么?

保证是关于算法的行为、性能或复杂性,可以以数学确定性作出的声明。其他条件相同的情况下,我们希望说,在足够的时间内,我们的算法 A 可以从某个模型类{H1, H2, ...}中找到一个分类器 H,其性能不低于 H*,其中 H是该类中最好的分类器。当然,这是相对于某个固定的损失函数 L。若无此绝对界限,我们希望能够通过某个常量来界定 H 和 H之间的性能差异或比率。在没有这种绝对界限的情况下,我们希望能够证明,以高概率 H 和 H*在运行我们算法一段固定时间后会给出相似的值。

许多现有算法提供了强有力的统计保证。线性回归允许精确解。逻辑回归保证随着时间的推移会收敛。深度学习算法一般没有任何保证。给定一个任意糟糕的起点,我不知道有哪个理论证明某种变体的 SGD 训练的神经网络会在时间上逐步改进,并且不会陷入局部最小值。最近有大量工作合理地表明,神经网络的误差面上鞍点的数量超过了局部最小值(一个 m 维面,其中 m 是学习参数的数量,通常是节点之间边的权重)。然而,这并不等同于证明局部最小值不存在或它们不能任意糟糕。

保证的问题

可证明的数学性质显然是受欢迎的。它们甚至可能在人工智能领域尚不明确、承诺过高和未达标的时期拯救了机器学习。然而,许多今天最好的算法并没有提供任何保证。这怎么可能呢?

我将在接下来的段落中解释几个原因。其中包括:

  1. 保证通常相对于一个较小的假设类。

  2. 保证通常仅限于最坏情况分析,但现实世界很少出现最坏情况。

  3. 保证通常基于对数据的不正确假设。

从弱池中选择赢家

首先,理论保证通常保证一个假设接近于某个给定类中的最佳假设。这并不保证在给定类中存在一个能够令人满意地执行的假设。

这里有一个比较直白的例子:我希望一个人工编辑来协助我撰写文档。拼写检查可能提供关于其行为的保证。它将以 100%的准确率识别某些拼写错误。但现有的自动校对工具无法提供智能人类所能提供的洞察力。当然,人类没有数学上的保证。人类可能会打瞌睡,忽视我的电子邮件,或者做出无意义的回应。尽管如此,人类能够表达比 Clippy 更广泛的有用想法。

一种愤世嫉俗的观点可能是,有两种方法可以改进理论保证。一种是改进算法。另一种是削弱它所属的假设类。尽管神经网络几乎没有提供理论保证,但它们提供了一组比大多数更好理解的机器学习模型丰富得多的潜在假设。随着启发式学习技术和更强大的计算机消除了有效学习的障碍,显然对于许多模型来说,这种增强的表现能力对做出实际有用的预测至关重要。

最坏的情况可能无关紧要

保证通常是在最坏情况下给出的。通过保证结果在最优结果的一个 epsilon 因子内,我们说最坏情况不会比 epsilon 因子更糟。但在实际中,最坏情况可能从未发生。现实世界的数据通常高度结构化,最坏情况可能具有这样的结构,以至于典型数据集与病态数据集之间没有重叠。在这些情况下,最坏情况的界限仍然有效,但可能所有算法的表现都要好得多。没有理由相信,具有更好最坏情况保证的算法在典型情况下的表现会更好。

基于明显错误的假设

另一个原因是理论上健全的模型可能无法转化为实际的表现,是因为生成理论结果所需的数据假设往往是错误的。例如,考虑潜在狄利克雷分配(LDA),这是一种对话题建模非常了解且非常有用的算法。关于 LDA 的许多理论证明都基于这样一个假设:一个文档与一个话题分布相关。每个话题又与词汇表中所有单词的分布相关。生成过程如下进行。对于文档中的每个单词,首先根据每个话题的相对概率随机选择一个话题。然后,根据所选话题,按照该话题的单词分布选择一个单词。这个过程重复进行,直到所有单词都被选择。

显然,这一假设在任何真实世界的自然语言数据集中都不成立。在真实文档中,词汇的选择是有上下文的,并且高度依赖于它们所在的句子。此外,文档长度不是任意预定的,尽管在本科课程中可能是如此。然而,鉴于这种生成过程的假设,关于 LDA 的许多优雅证明是成立的。

需要明确的是,LDA 确实是一种广泛有用、最先进的算法。此外,我确信对算法特性的理论研究,即使在不切实际的假设下,也是提升我们理解并为后续更普遍和强大的定理奠定基础的有价值且必要的步骤。在本文中,我仅旨在阐明许多已知理论的性质,并向数据科学从业者提供直觉,解释为什么具有最有利理论性质的算法不总是表现最好的。

经验主义的胜利

有人可能会问,如果不完全依赖理论,是什么让像深度学习这样的的方法能够取得成功? 进一步的,为什么那些依靠直觉的经验方法现在如此广泛成功,即使这些方法在几十年前曾一度失宠?

对于这些问题,我相信像 ImageNet 这样的大规模标注数据集的存在是启发式方法复兴的原因。给定足够大的数据集,过拟合的风险较低。此外,对测试数据的验证提供了一种处理典型情况的方法,而不是专注于最坏情况。此外,平行计算和内存容量的进步使得同时跟进许多假设的实证实验成为可能。由强大直觉支持的经验研究提供了一条前进的道路,当我们达到形式理解的极限时。

警示事项

尽管深度学习在机器感知和自然语言处理中的成功不容忽视,但可以合理地认为,到目前为止,最有价值的三种机器学习算法是线性回归、逻辑回归和 k 均值聚类,这些算法在理论上都得到了很好的理解。对经验主义胜利的合理反驳可能是,迄今为止,最好的算法都是理论上有动机和基础的,而经验主义仅负责最新的突破,而不是最重要的突破。

少数事物是有保证的

当可获得时,理论保证是美丽的。它们反映了清晰的思维,并对问题的结构提供了深刻的洞察。给定一个有效的算法,解释其性能的理论加深了理解,并为进一步的直觉提供了基础。即便没有有效的算法,理论也提供了攻击的路径。

然而,具有坚实基础的直觉与严格的实证研究相结合,能够产生持续有效的系统,这些系统在许多重要任务上优于更为理解的模型,有时甚至优于人类。这种实证主义为那些形式分析受到限制的应用提供了一条前进的路径,并有可能开辟新的方向,最终在未来可能获得更深层次的理论理解。

¹是的,这是一个老套的双关语。

扎卡里·蔡斯·利普顿 扎卡里·蔡斯·利普顿 是加州大学圣地亚哥分校计算机科学工程系的博士生。他的研究得到了生物医学信息学部门的资助,对机器学习的理论基础和应用都有浓厚的兴趣。除了在 UCSD 的工作,他还曾在微软研究院实习过。

相关:

  • 慢一点:质疑深度学习智商结果

  • 模型可解释性的神话

  • (深度学习的深层缺陷)

  • 数据科学中最常用、最混淆和滥用的术语

  • 差分隐私:如何使隐私和数据挖掘兼容

更多相关话题