该项目从SparkCore, SparkSQL, SparkML以及SparkStreaming这4个方面介绍了Spark, 补充了Scala以及Java的常用语法, 并对LeetCode中经典算法进行了总结
目前提供以下模块:
Java模块leetcodebinarytree: 二叉树经典算法recursion: 递归经典算法stackqueue: 栈队列经典算法
lessoncollection: 容器thread: 线程
sparkdataframe: DataFrame的创建及使用udf: UDF的创建及使用
case: 测试代码
Scala模块-
lessonactor: 通讯模型base: 基础语法collection: 容器implicit: 隐式转换trait: 特质
-
sparkcoreaction: action算子transfomation: transfomation算子persist: 持久化算子
mlfeature: 特征提取pipeline: 管道流
sqldataframe: DataFrame的创建及使用udf: UDF的创建及使用window: 开窗函数的创建及使用
streaming: 读取,保存以及窗口相关操作
-
case: 测试代码- ``
lesson: 介绍了容器,线程等常用语法spark: 针对SparkSQL中的UDF, DataFrame语法进行了描述coreactions: 提供了actions算子的使用方法trainfromations: 提供了transformations算子的使用方法persist: 提供了persist算子的使用方法examples: 提供了累加器,广播变量以及WordCount等实现方法
sqlDataSetAndDataFrame: 提供了DataFrame和DataSet的使用方法UDFandUDAF: 提供了UDF和UDAF的使用方法windows: 提供了基于Hive和MySQL的开窗函数方法
streaming: 提供了spark streaming中一些算子的使用方法
-
如果要给该项目贡献代码,可以先将代码克隆到本地
$ git clone git@github.com:HuangNing616/SparkNote.git