Skip to content

Latest commit

 

History

History
85 lines (43 loc) · 8.18 KB

science-data-science.md

File metadata and controls

85 lines (43 loc) · 8.18 KB

让数据科学回归“科学”

原文:www.kdnuggets.com/2017/09/science-data-science.html

c 评论

作者:Rubens Zimbres,数据科学家及机器学习研究员。

最近,我看到很多关于数据科学领域的炒作,以及很多新手加入这个领域。但在我看来,数据科学中的“科学”究竟是什么?科学方法来解决问题,是应对问题并提供最佳解决方案的最好方式。如果你开始数据分析时只是简单地陈述假设并应用机器学习算法,那么这就是错误的方法。


我们的三大课程推荐

1. Google 网络安全证书 - 快速入门网络安全职业生涯

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织 IT 工作


下面的图片展示了科学研究所需的步骤,包括相应的数据分析和模拟。实际上,这是我在博士论文中做的草图。简而言之,我研究了过去 27 年的商业管理文献,并试图开发一种知识上颠覆性的方式来衡量和预测服务质量,将商业管理与电气工程概念相结合。在 4 年的过程中,我进行了定性-定量纵向研究,并使用基于代理的建模开发了一个模拟,试图找到一种可以模拟人类行为的 5 状态细胞自动机规则。我探讨了复杂性概念、自组织系统、秩序的涌现和社会网络。

一篇论文发表在 Elsevier 的《电子计算机科学理论笔记》(Electronic Notes in Theoretical Computer Science)(2009),标题为《社交网络中质量感知的动态:一种基于细胞自动机的美学服务模型》

我从科学方法中学到的一件事是,在解决问题时要摆脱先验后验偏见。先验偏见发生在你以预先设定的想法开始分析时。在这种情况下,你的发现只会确认你最初陈述的内容,因为整个研究过程都存在偏见。后验偏见发生在你开始分析某事时,但实际上你已经知道结果是什么,这样整个过程也会有偏见。

一旦你摆脱了对问题的先入为主的想法,你会找到解决问题的新方法。在数据科学过程中,这一点至关重要,因为创造力能让你对整个环境有一个清晰的认识。

首先,什么是业务问题?你想实现什么目标?你是想利用利润、投资回报吗?你是否清楚你的业务如何为客户增加价值?什么是价值?客户到底是谁?客户的需求和认知是什么?你打算如何获取这些数据?是否有市场研究可以与业务数据一起使用?

要开始构建科学的解决问题的方法,首先定义问题、文献中的空白(如果你是硕士或博士生)或业务需求:发生了什么,想要实现什么,策略和数据分析的受益者(利益相关者)是谁,何时开始和结束,使用什么资源和算法,如何实现目标以及为什么?

在评估所有这些变量并制作思维导图后,问问自己:问题中涉及了什么类型的知识?假设你正在处理客户流失问题。是什么让人们离开你的业务?当然,任何人都可以对原因有直觉,但请记住,科学文章是比随机猜测更有价值的知识来源。

假设客户离开是因为他们没有看到业务中的价值。价值是一些独特的东西,通常由人力资源提供,无法被复制,也没有竞争对手能提供。这带来了竞争优势、更多利润、忠诚度、口碑宣传和回购。

注意到到目前为止我们甚至没有考虑假设和算法。只有在准确知道问题中涉及哪些变量之后,我们才会制定假设。假设你认为利润受到对产品质量的正面客户认知和关于你公司的高口碑广告的影响。这就是名义网络,你在其中绘制相关性和因果关系。在数据科学中,你需要了解客户的认知,并且是否存在口碑广告。然后你会发现你在处理不同的数据集,一个是市场研究数据,另一个是社交媒体推荐。你还有另一个包含公司财务数据的数据集(包含利润数据)。

现在是时候选择了:你是选择定量方法,使用市场研究数据集和财务数据中的结构化数据吗?但社交媒体是非结构化的,因此你必须使用自然语言处理进行定性分析。更糟糕的是,你想进行纵向分析,将数据转换为时间序列并用 ARIMA 进行分析。啊,利润可以通过深度神经网络来预测,使用市场研究数据、财务数据和社交媒体中的词嵌入作为特征!

现在我们进入了数据科学家的乐趣:算法、分类、回归、深度学习、无监督学习、准确性、过拟合、偏差-方差权衡、超参数调优。乐趣开始了!

是的,乐趣已经开始,但请注意,在这个具体案例中,我们在到达算法之前经历了一段漫长的旅程。在研究问题的规划方面有整个过程。不能仅仅“应用算法”并检查拟合和过拟合的度量。另一个大问题是,当你对发生的事情有一个完整的认识时,你通常会发现需要的数据并不存在。

然后是你算法的验证过程。关于模型的外部有效性(泛化能力)有很多讨论:你的模型在训练集和测试集上的表现良好,几乎没有过拟合,但这些发现是否适用于新情况?你的测试集分布是否能复制现实世界场景?是的,但我们不能忘记其他类型的验证,例如:

  • 实证验证: 与现实的比较成功

  • 概念验证: 你的机器学习模型成功地将自然系统转化为数学语言

  • 内部验证: 你的代码没有错误

  • 你的模型是否展现了遍历性(在人工智能和复杂行为不存在时的稳定性)和同方差性

在验证你的数据分析结果后,你将确认或拒绝假设,并向高层管理人员建议战略举措。请注意,数据科学家需要商业管理人员的全面参与才能成功。数据分析和建模的发现必须为战略决策、市场定位、产品发布、品牌形象等多个领域提供洞察。

所以,数据科学中的科学不仅仅涉及机器学习、深度学习、自然语言处理、人工智能算法和公式。这不仅仅是 STEM。它涉及我们从学术界借鉴的一种跨学科且严谨的方法,旨在为企业带来超出平均水平的利润,常常涉及心理学、博弈论、商业管理、复杂性、非线性效应和复杂因果关系。

简介:鲁本斯·辛布雷斯 是一名数据科学家,拥有电气工程方向的工商管理硕士和博士学位。他的研究重点是机器学习、深度学习和自然语言处理。

相关:

  • 应用于大数据的机器学习,解释

  • 特征选择的实际重要性

  • 教学数据科学过程

更多相关内容