MapReduce实现词频统计

MapReduce是一种编程模型,用于大规模数据集的并行运算,是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

MapReduce有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。

通过本任务,您将掌握以下内容:

1、准确理解Mapreduce分布式计算的设计原理。

2、熟练掌握词频统计程序代码编写。

3、学会自己编写程序进行词频统计。

4、感受大数据分布式计算模式。


  • 教学老师:平台默认讲师
  • 任务难度:
  • 主题分类:基础学习
  • 预计学习时间:2h
展开剩余
收 起
  • 01
    Mapreduce实例——WordCount
    完成本任务之前,您需了解大数据的概念,掌握Hadoop分布式存储和分布式计算的运行机制。
    2h
156
学员评论(0)