RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。
通过本任务,您将掌握以下内容:
1、理解Spark Shell作用和运行原理。
2、理解Spark算子的概念。
3、掌握RDD的两种操作类型:Transformation和Action。
4、掌握RDD常用操作方法:reduceByKey、distinct、sortByKey、join 等。