自学数据科学课程

原文：www.kdnuggets.com/2020/02/data-science-curriculum-self-study.html

照片由 Kelly Sikkema 提供，来自 Unsplash。

作为数据科学教育者，许多对数据科学感兴趣的人联系我寻求如何进入数据科学领域的指导。本文将讨论建立数据科学必备技能所需学习的推荐主题。

这里提出的主题，如果深入学习，将提供开始从事数据科学所需的最基本背景。这个课程大纲也可以用于设计数据科学入门级的大学课程。

请记住，仅仅通过课程获得的知识并不会使你成为数据科学家。课程学习必须配合一个顶点项目或实习。Kaggle 比赛可以用作顶点项目，因为它们提供了在真实数据科学项目上工作的机会。

以下列表呈现了学习入门数据科学的基本主题。

1. 数学基础

（I）多变量微积分

大多数机器学习模型是基于具有多个特征或预测变量的数据集构建的。因此，熟悉多变量微积分对于构建机器学习模型非常重要。你需要熟悉以下主题：

多变量函数
导数和梯度
步骤函数、Sigmoid 函数、Logit 函数、ReLU（整流线性单元）函数
代价函数
函数绘制
函数的最小值和最大值

（II）线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵。线性代数用于数据预处理、数据转换和模型评估。你需要熟悉以下主题：

向量
矩阵
矩阵的转置
矩阵的逆
矩阵的行列式
点积
特征值
特征向量

（III）优化方法

大多数机器学习算法通过最小化目标函数来执行预测建模，从而学习必须应用于测试数据的权重以获得预测标签。你需要熟悉以下主题：

代价函数/目标函数
似然函数
误差函数
梯度下降算法及其变体（例如，随机梯度下降算法）

2. 编程基础

Python 和 R 被认为是数据科学领域的顶级编程语言。你可以选择只专注于一种语言。Python 在工业界和学术培训项目中被广泛采用。作为初学者，建议你只专注于一种语言。

这里是一些需要掌握的 Python 和 R 基础主题：

基础 R 语法
R 编程的基础概念，如数据类型、向量运算、索引和数据框
如何在 R 中执行操作，包括排序、使用 dplyr 进行数据处理，以及使用 ggplot2 进行数据可视化
R studio
Python 的面向对象编程方面
Jupyter notebooks
能够使用 Python 库，如 NumPy、pylab、seaborn、matplotlib、pandas、scikit-learn、TensorFlow、PyTorch

3. 数据基础

学习如何处理各种格式的数据，例如，CSV 文件、pdf 文件、文本文件等。学习如何清理数据、填补数据、缩放数据、导入和导出数据，以及从互联网抓取数据。一些相关的包包括 pandas、NumPy、pdf tools、stringr 等。此外，R 和 Python 包含多个内置数据集，可用于练习。学习数据转换和降维技术，如协方差矩阵图、主成分分析（PCA）和线性判别分析（LDA）。