Skip to content

Latest commit

 

History

History
175 lines (88 loc) · 10.6 KB

landing-a-data-engineer-role-free-courses-and-certifications.md

File metadata and controls

175 lines (88 loc) · 10.6 KB

获得数据工程师职位:免费课程和认证

原文:www.kdnuggets.com/landing-a-data-engineer-role-free-courses-and-certifications

获得数据工程师职位

作者图片


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


人们说你在购买东西时应该考虑物有所值。然而,最好的物有所值就是免费获得好的东西。但这样的东西真的存在吗?如果我们按照那句“天下没有免费的午餐”来讲,似乎不存在。

我声称有免费的午餐,我现在要证明这一点!我挖掘出了 10 个教育‘免费午餐’——提供优质知识的免费数据工程课程。确实如此;如果你愿意或能够支付数十、数百,甚至有时数千美元,你会发现更多的选择和种类。

许多这样的课程在其他一些免费课程列表中被认为是免费的。支付一次性$90 或每月$45 对某些人来说是免费的。但尽管有很多人非常愿意学习数据工程,却没有这笔钱去购买一个‘免费’课程。(还有,现实点!免费字面上的意思就是,嗯,免费!不是‘便宜’,不是‘很少的钱’,也不是‘负担得起’。免费!)

根据我研究的情况,这些课程确实是免费的。很多课程来自 edX。如果选择免费访问课程,你必须在一定时间内完成,通常大约是六个月。但这应该足够让你舒适地完成每门课程。此外,免费访问意味着你无法终身访问所有材料(完成后会被删除),也得不到证书。尽管如此,你应该能够利用这些课程学习数据工程。

在谈论课程之前,我们先简要了解一下数据工程师的角色。这样,了解课程时会更容易知道该找什么。

理解数据工程师的角色

简而言之,数据工程师负责让数据对数据团队成员和其他利益相关者可用。在此过程中,他们处理数据并构建和维护数据基础设施,例如 ETL 过程、数据管道、数据存储。

理解数据工程师的角色

自然,这些课程应该涵盖所有或部分技能。让我们更详细地研究一下将构成你教育免费午餐的课程——别具一格的双关语。

免费数据工程课程

1. ASU 的数据工程

平台及课程链接:edX

时长:5 周,每周 1-9 小时;按自己的节奏学习

描述:这门由亚利桑那州立大学提供的入门课程侧重于在数据工程中处理数据库,以及如何使用 SQL 与它们交互。你将了解数据库结构、星型模式以及如何将多个表中的数据连接起来。在最后阶段,你将学习如何使用 SQL 创建报告并编写数据处理脚本。

2. Pragmatic AI Labs 的 Python 和 Pandas 数据工程

平台及课程链接:edX

时长:4 周,每周 3-6 小时;按自己的节奏学习

描述:在另一门入门级 edX 课程中,你将学习 Python 和 pandas 进行数据工程。Python 的介绍包括简单语句、if 语句、while 循环和函数。然后,你将学习 Pandas(特别是 DataFrames)及其替代品,如 NumPy、Spark 和 PySpark 中的数据操作。在最后一个模块中,你将了解 Python 开发环境和版本控制。

3. Pragmatic AI Labs 的 Python 和 SQL 脚本数据工程

平台及课程链接:edX

时长:4 周,每周 3-6 小时;按自己的节奏学习

描述:如果你想同时学习 SQL 和 Python 以进行数据工程,这门课程适合你。你将使用 Python 的内置数据结构来操作数据,并编写 Python 脚本来实现数据任务自动化。课程还教你如何进行网页抓取以及使用 SQLite 在 Python 中存储和查询数据。关于 SQL,你将学习如何从 MySQL 数据库中导入和导出数据,以及如何在 VSCode 中执行 MySQL 查询。

4. Pragmatic AI Labs 的云数据工程

平台及课程链接:edX

时长:4 周,每周 3-6 小时;按自己的节奏学习

描述:这门课程将教你云中的数据工程。你将学习数据工程中的方法论,开发分布式系统、无服务器数据工程系统和云 ETL 管道,并了解数据治理。在过程中,你将接触到如:

  • CUDA

  • Numba

  • ASICs

  • Colab Pro

  • Colab API

  • Google BigQuery

  • AWS

  • Databricks SQL

  • 点击

  • Python

  • Rust

这也是一门入门课程,不需要先决条件。

5. IBM 的 Bash、Airflow 和 Kafka 构建 ETL 和数据管道

平台及课程链接:edX

时长:5 周,每周 2-4 小时;按自己的节奏学习

描述:这个数据工程课程重点在于构建 ETL 和数据管道。在课程中,你将学习 ETL 和 ELT 过程是什么,使用 Bash 脚本创建 ETL,使用 Apache Airflow 创建批处理数据管道,以及使用 Apache Kafka 进行流数据管道。

这是一个入门课程,但需要有关系型数据库、SQL 和 Bash 脚本的工作经验。

6. IBM 数据仓库与 BI 分析

课程平台及链接:edX

持续时间:6 周,每周 2-3 小时;自主学习进度

描述:IBM 的这门中级课程教授数据仓库、数据集市和数据湖的基础知识。你将学习如何设计、建模和实施数据仓库。更具体地,你将使用 CUBEs、ROLLUPs、物化视图和表格。你还将学习事实和维度建模,使用星型和雪花模式进行数据建模,数据仓库的暂存区,数据质量,以及如何向数据仓库填充数据。在第三模块中,你将使用 Cognos Analytics 进行数据仓库分析。

该课程要求有 SQL 和关系型数据库的经验。

7. IBM 的 Apache Spark 数据工程与机器学习

课程平台及链接:edX

持续时间:3 周,每周 2-3 小时;自主学习进度

描述:另一门中级课程。它专注于教授 Apache Spark。这是数据工程中的一个重要工具,因此你将学习 Spark Structured Streaming、GraphFrames、ETL 过程和 ML 管道。此外,你还将学习 ML 基础知识,如回归、分类和聚类。

该课程要求具备基础的 Apache Spark 知识。建议你完成 IBM 的 大数据、Hadoop 和 Spark 基础 课程。

8. DE Zoomcamp

课程平台及链接:DataTalks.Club

持续时间:10 周;自主学习进度

描述:最后,一门来自不同平台的课程!这个在线训练营将为你提供全面的数据工程知识。它将教授容器化和基础设施、工作流编排、数据仓库、分析工程、批处理和流处理。你将接触到 Google Cloud Platform、Terraform、Docker、SQL、Mage、dbt、Apache Spark 和 Apache Kafka 等技术。

这个训练营的前提条件是 SQL 基础。此外,最好有 Python 或其他编程语言的经验。

9. DE 全流程项目

课程平台及链接:DE Academy

持续时间:无信息。

描述:这是一个基于项目的项目,你将在其中学习如何使用 AWS、Snowflake、Python、Kafka、Azure、Databricks、Airflow 和 Tableau。你将分析和转换数据,迁移数据,并简化工作流程。

10. 数据科学的 Scala 编程

课程平台及链接:Cognitive Class AI

时长:20 小时;按自己的节奏学习

描述:这个学习路径包括三个课程。第一个是 Scala 101,将教你面向对象编程的基础知识、案例对象与类、集合和地道的 Scala。第二个课程是 Scala 分析的 Spark 概述,你将学习 Apache Spark、RDDs、大规模数据科学的 DataFrames 和高级 Spark 主题(如 Hive 与 Spark、Spark 流处理)。第三个课程涉及 Scala 在数据科学中的应用,你将学习基本统计和数据类型、如何准备数据、工程特征、拟合模型、构建管道和执行网格搜索。

结论

不足为奇的是,当你有钱的时候,情况会更容易——你可以获得更多多样化的课程。是的,没有钱确实很糟糕!但这并不意味着你必须告别获得数据工程师职位的梦想。

找到这些课程要困难得多,但仍然有一些很好的课程可以教你基础和更高级的数据工程知识。我找到了十个这样的课程。其他一些免费的资源,如博客或 YouTube 视频,也可以帮助你达到所需的知识水平。

如果你足够勤奋、专注和坚持,我相信你可以免费获得一个数据工程师职位。

内特·罗西迪 是一位数据科学家,专注于产品策略。他还是一名兼职教授,教授分析学,并且是 StrataScratch 的创始人,该平台帮助数据科学家通过顶级公司的真实面试问题准备面试。内特撰写关于职业市场最新趋势的文章,提供面试建议,分享数据科学项目,并涵盖所有 SQL 相关内容。

更多相关话题