MapReduce是一种编程模型,用于大规模数据集的并行运算,是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。
MapReduce有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。
通过本任务,您将掌握以下内容:
1、准确理解Mapreduce分布式计算的设计原理。
2、熟练掌握词频统计程序代码编写。
3、学会自己编写程序进行词频统计。
4、感受大数据分布式计算模式。