Spark Shell基本操作

RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。

通过本任务,您将掌握以下内容:

1、理解Spark Shell作用和运行原理。

2、理解Spark算子的概念。

3、掌握RDD的两种操作类型:Transformation和Action。

4、掌握RDD常用操作方法:reduceByKey、distinct、sortByKey、join 等。



  • 教学老师:平台默认讲师
  • 任务难度:
  • 主题分类:基础学习
  • 预计学习时间:1h 30m
展开剩余
收 起
  • 01
    Spark Shell操作
    完成本任务之前,您需理解Spark RDD算子概念,熟练掌握Hadoop shell命令。
    1h 30m
175
学员评论(0)