预测科学与数据科学

原文：www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html

我们可以谈论营养科学，它关注我们吃什么。我们可以谈论运动科学，它关注我们如何利用这些卡路里。或者我们可以全面地讨论结果——我认为这涉及到一个更重要的问题，大多数人最终关心的——健康科学。鉴于结果——健康科学——通常比原料——营养学——或将原料转化为更有用的东西的过程——运动科学——更有趣，我们为何往往讨论数据科学而非预测科学？

我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织 IT

明确来说，数据科学不仅仅是预测或分类。它还包括其他机器学习技术，如聚类和频繁项集挖掘。它还包括数据可视化和数据讲述。它也可以涵盖传统的数据挖掘框架的各个方面，例如 KDD 过程，包括数据选择、预处理和转换。数据科学还可以包括其他算法和数据相关任务的方法，超出我在这里提到的内容。

我以前已经全面定义了数据科学：

数据科学是一门多方面的学科，包括机器学习和其他分析过程、统计学及相关的数学分支，越来越多地借用高性能科学计算，以最终从数据中提取洞察，并利用这些新发现的信息讲述故事。

在考虑“预测科学”与数据科学时，我将数据科学的细微相关部分作为对照。事实上，将数据科学拆解为组成的“科学”（例如聚类科学）无疑有助于表达我们究竟在做什么，但显然以一个吸引眼球的总括性术语为代价。

但退一步看，数据无疑是输入，是原材料。从这个意义上讲，数据科学强调的是预测过程中的“什么”。虽然数据是预测难题中的主要成分，且可能是最难获取的，“数据科学”似乎忽略了另一个主要组成部分以及有趣的见解。

算法是变革性的过程。那么算法科学呢？它关注的是工具，即“如何”，并且深深根植于计算机科学中。然而，这仍然无法准确描述整体预测过程；数据被抛弃，转而关注将其转化为预测的过程。任何成功的描述可能会集中在最终结果上。

整体预测过程的结果是预测。或者是假设呢？我不是以一种普通的“假设与预测”的方式来提问，而是在询问“预测还是假设是特定分类器/模型的更有价值的输出？”

无论是预测还是假设，这两者中的一个将是整体预测科学难题中最有趣的部分。预测科学——或者如果你觉得“预测科学”更合适——听起来还不错。但实际上，这不就是“科学”？这似乎非常不具体。

那么统计学呢？我们是应用统计学家吗？来源于维基百科：

“应用统计”包括描述统计和推断统计的应用。

加入处方统计，这似乎是朝着正确方向迈出的一步。然而，在这种情况下，重点放在统计过程的应用上，而... 实际上并没有牺牲多少。但我会争辩说，这实际上没有对推断统计和处方统计给予适当的重视，或许过于依赖描述统计，因此在描述预测科学时也显得不够充分。

预测分析？也许是最接近的术语，但这个词目前似乎更贴近商业世界而非科学世界。我没有在研究中看到这个术语，通常它似乎完全属于大企业的领域。这对于它本身来说是可以的，但它的性质似乎并未将科学置于前沿（尽管显然科学支撑着它的使用）。

我不知道是否有解决方案。公平地说，我甚至不知道这个问题是否存在于我的脑海之外。但我认为一切归结为以下几点，并且可以在数据科学的预测方面之外进行概括：数据科学这个术语是否真的对我们这些数据科学家，或者对其他人有实际价值？

我不打算给出建议，即使我有，恐怕也会被忽视。这没关系。但作为一个对“数据科学”这个术语并不特别感到兴奋或舒适的人，我认为值得对我们所做的工作以及如何分类这些任务进行自省。确实，将某个名称赋予广泛相关任务的职业是方便的，但我们是否因为这个森林而看不到树木？

当谈到非常复杂的预测科学时，数据可能是新石油，而算法则是特别的调味料，但它们的配对预测能力才是真正的“钱景”，无论是比喻上还是字面上。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

predictive-science-vs-data-science.md

predictive-science-vs-data-science.md

预测科学与数据科学

我们的前三个课程推荐

相关话题

Files

predictive-science-vs-data-science.md

Latest commit

History

predictive-science-vs-data-science.md

File metadata and controls

预测科学与数据科学

我们的前三个课程推荐

相关话题