Skip to content

Latest commit

 

History

History
185 lines (93 loc) · 10 KB

good-data-science-machine-learning-cheat-sheets.md

File metadata and controls

185 lines (93 loc) · 10 KB

50+ 数据科学和机器学习备忘单

原文:www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html

c 评论数据科学 机器学习 Python R hadoop 备忘单

关于 Python、R 以及 Numpy、Scipy、Pandas 的备忘单

数据科学领域有成千上万的包和数百个函数!一个有志的数据爱好者不必了解所有这些。以下是一些经过集思广益总结出的重要备忘单,内容精简且易于查看。

掌握数据科学涉及对统计学、数学、编程知识的理解,特别是在 R、Python 和 SQL 方面,然后将这些知识结合起来,利用业务理解和人类直觉来推导出见解——这驱动了决策。

以下是按类别划分的备忘单:

Python 备忘单:

Python 是初学者的热门选择,但它仍然足够强大,可以支持一些世界上最受欢迎的产品和应用程序。它的设计使编程体验几乎像用英语写作一样自然。Python 基础或 Python 调试器的备忘单为初学者提供了开始所需的重要语法。社区提供的库,如 numpy、scipy、sci-kit 和 pandas,非常依赖,NumPy/SciPy/Pandas 备忘单提供了一个快速的复习。

R 备忘单:

R 的生态系统扩展得如此之快,以至于需要大量的参考。R 参考卡涵盖了 R 世界的大部分内容,仅需几页。Rstudio 还发布了一系列备忘单,使 R 社区更容易使用。使用 ggplot2 进行数据可视化似乎很受欢迎,因为它在创建结果图表时非常有帮助。

MySQL 和 SQL 的备忘单:

对于数据科学家来说,SQL 的基础知识与其他语言同样重要。PIG 和 Hive 查询语言都与原始的结构化查询语言 SQL 密切相关。SQL 备忘单提供了一个 5 分钟的快速指南,帮助你学习它,然后你可以深入探索 Hive 和 MySQL!

Spark 的备忘单:

Apache Spark 是一个大规模数据处理引擎。对于某些应用程序,例如迭代机器学习,Spark 比 Hadoop(使用 MapReduce)快多达 100 倍。Apache Spark 备忘单解释了它在大数据生态系统中的位置,介绍了设置和创建基本 Spark 应用程序的过程,并解释了常用的操作和动作。

Hadoop 与 Hive 备忘单:

Hadoop 作为一种非传统工具出现,解决了被认为无法解决的问题,通过提供一个开源软件框架来并行处理海量数据。探索 Hadoop 备忘单,找出在命令行中使用 Hadoop 时的有用命令。SQL 与 Hive 函数的结合也是一个值得查看的内容。

机器学习备忘单:

我们经常会花时间思考哪种算法最好?然后又翻回我们的厚重书籍进行参考!这些备忘单可以给你提供数据的性质和你要解决的问题的想法,并建议你尝试某种算法。

Django 备忘单:

Django 是一个免费的开源 Web 应用框架,使用 Python 编写。如果你对 Django 不熟悉,可以查看这些备忘单,快速了解概念,并深入每一个概念。

分享更多并学习!我们遗漏了什么吗?在下面的评论中添加你最喜欢的备忘单!

相关:

  • 数据科学备忘单指南

  • 按受欢迎程度排名的 20 个 R 包

  • 大数据与 Hadoop 中的 150 位最具影响力人物

更多相关内容