浅谈MapReduce算法的五个过程

编程入门行业动态更新时间:2024-10-09 09:22:00

MapReduce算法是hadoop大数据平台最基础的算法，它是整个分布式算法的基石，掌握了MapReduce算法，有助于我们理解整个大数据算法的思维方式。以下浅谈MapReduce的五个过程，我会继续在五个过程的基础上，通过wordcount的Java实例，详细的解释具体的过程。

MapReduce的过程分为五个部分：

input：读取数据的过程，默认读取的是HDFS（hadoop分布式文件存储系统）的数据。

input以 key value的方式传递数据。每次读取一行的内容，封装成keyvalue，每一个keyvalue调用一次map

map：将input的输入进行切分，一个分片一个map task来处理。map可以看做是一个function。

map的输出是list<key,value>格式，还包含一个context：上下文，用于传递每个阶段的数据。

shuffle:（MapReduce中最神奇的地方）：将map的输出进行分区（按照hash值取余的方式将map分成不同的task，相同的key值在一个task中）。

分组排序，最后shuffle的输出是以<key,list<value>>的格式传递。

reduce: 将每个map task的输出进行合并处理，可以实现一定的业务逻辑。输出的格式是<key，value>

output：将reduce的输入作为输出，还是以<key，value>的键值的方式，和input一样，默认将reduce的输入写入HDFS中。

更多推荐

浅谈MapReduce算法的五个过程

本文发布于:2024-02-14 09:53:25，感谢您对本站的认可！

浅谈算法过程 MapReduce

评论列表（有 0 条评论）