Skip to content

Latest commit

 

History

History
177 lines (89 loc) · 9.11 KB

7-most-recommended-skills-data-scientist.md

File metadata and controls

177 lines (89 loc) · 9.11 KB

七个最推荐的学习数据科学技能

原文:www.kdnuggets.com/2021/02/7-most-recommended-skills-data-scientist.html

comments

我想分享七个最推荐的数据科学技能,这些技能来源于与世界上一些最大数据领袖的数十次互动和讨论,包括 Google 的数据与分析主管、NVIDIA 的工程高级总监以及 Wealthsimple 的数据科学和工程副总裁。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业道路。

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 支持你的组织进行 IT 工作


虽然这篇文章可能更多是个人见解,我觉得它分享了一个有价值的视角。我特别不提及从抓取的职位发布中获取的数据,因为根据我的经验,职位描述和实际工作内容之间似乎存在相当大的脱节。

你可能会注意到七个技能中没有涉及机器学习或深度学习,这并不是错误。目前,对于在建模前和建模后的阶段使用的技能需求远高于对机器学习和深度学习技能的需求。因此,七个最推荐的技能实际上与数据分析师、软件工程师和数据工程师的技能有重叠。

话虽如此,让我们深入探讨一下2021 年最推荐学习的七个数据科学技能

1) SQL

SQL 是全球数据领域的通用语言。无论你是数据科学家、数据工程师还是数据分析师,你都需要知道 SQL。

SQL 用于从数据库中提取数据、处理数据和创建数据管道——本质上,它在数据生命周期中的几乎每个前期分析/前期建模阶段都很重要。

培养强大的 SQL 技能将使你能够将分析、可视化和建模提升到新的水平,因为你将能够以高级方式提取和处理数据。此外,编写高效可扩展的查询对于处理数据量达到 PB 级别的公司来说越来越重要。

以下是一些我最喜欢的学习 SQL 资源:

2) 数据可视化与讲述

如果你认为创建数据可视化和讲述只适用于数据分析师的角色,那就再想一想。

数据可视化简单地指以视觉形式呈现的数据——它可以是图表的形式,也可以以非常规方式呈现。

数据讲述将数据可视化提升到一个新水平——数据讲述指的是你如何传达你的见解。可以把它想象成一本图画书。一本好的图画书有好的视觉效果,但它还需要一个引人入胜且强有力的叙述来连接这些视觉效果。

发展你的数据可视化和讲述技能是至关重要的,因为你总是在推销你的想法和模型,作为一个数据科学家。这在与技术不太熟练的人沟通时尤其重要。

以下是我学习数据可视化与讲述的一些最爱资源:

3) Python

根据我的互动,Python 似乎是学习的首选编程语言,而不是 R。这并不意味着使用 R 就不能成为数据科学家,只是说明你将使用与大多数人不同的语言。

学习 Python 语法很简单,但你应该能够编写高效的脚本并利用 Python 提供的广泛库和包。Python 编程是构建应用程序的基础,如数据处理、构建机器学习模型、编写 DAG 文件等。

以下是我学习 Python 的一些最爱资源:

4) Pandas

可以说,在 Python 中最重要的库是 Pandas,这是一个用于数据处理和分析的包。作为数据科学家,你将经常使用这个包,无论是清理数据、探索数据还是处理数据。

Pandas 已成为一个非常流行的包,不仅因为它的功能,还因为 DataFrames 已成为机器学习模型的标准数据结构。

以下是我学习 Pandas 的一些最爱资源:

5) Git/版本控制

Git 是技术社区中主要的版本控制系统。

如果这还不清楚,可以考虑这个例子。在高中或大学时,如果你曾经写过论文,你可能会在写作过程中保存不同版本的论文。例如:

????最终论文

└????Essay_v1

└????Essay_v2

└????Essay_final

└????Essay_finalfinal

└????Essay_OFFICIALFINAL

开玩笑归开玩笑,Git 是一个功能相似的工具,只不过它是一个分布式系统。这意味着文件(或仓库)既存储在本地也存储在中央服务器上。

Git 非常重要,原因有几个,其中包括:

  • 这允许你恢复到旧版本的代码

  • 这允许你与其他数据科学家和程序员并行工作

  • 这允许你使用与其他人相同的代码库,即使你在完全不同的项目上工作

以下是我最喜欢的一些学习 Git 的资源:

6) Docker

Docker 是一个容器化平台,允许你部署和运行诸如机器学习模型的应用程序。

数据科学家不仅要知道如何构建模型,还要知道如何部署模型,这变得越来越重要。实际上,很多职位招聘现在要求具备模型部署的一些经验。

模型部署如此重要的原因在于,模型在与其关联的流程/产品实际集成之前不会带来业务价值。

以下是我最喜欢的一些学习 Docker 的资源:

7) Airflow

Airflow 是一个工作流管理工具,允许你自动化…嗯,工作流。更具体地说,Airflow 允许你为数据管道和机器学习管道创建自动化工作流。

Airflow 强大之处在于它允许你将可能用于进一步分析或建模的表格投入生产,它也是一个可以用来部署机器学习模型的工具。

以下是我最喜欢的一些学习 Airflow 的资源:

原文。已获授权转载。

相关:

更多相关主题