浅谈MapReduce算法的五个过程

编程入门 行业动态 更新时间:2024-10-09 09:22:00

<a href=https://www.elefans.com/category/jswz/34/1769825.html style=浅谈MapReduce算法的五个过程"/>

浅谈MapReduce算法的五个过程


MapReduce算法是hadoop大数据平台最基础的算法,它是整个分布式算法的基石,掌握了MapReduce算法,有助于我们理解整个大数据算法的思维方式。以下浅谈MapReduce的五个过程,我会继续在五个过程的基础上,通过wordcount的Java实例,详细的解释具体的过程。

MapReduce的过程分为五个部分:

    input:读取数据的过程,默认读取的是HDFS(hadoop分布式文件存储系统)的数据。

                input以 key value的方式传递数据。每次读取一行的内容,封装成keyvalue,每一个keyvalue调用一次map

    map:将input的输入进行切分,一个分片一个map task来处理。map可以看做是一个function。

map的输出是list<key,value>格式,还包含一个context:上下文,用于传递每个阶段的数据。

    shuffle:(MapReduce中最神奇的地方):将map的输出进行分区(按照hash值取余的方式将map分成不同的task,      相同的key值在一个task中)。

 分组排序,最后shuffle的输出是以<key,list<value>>的格式传递。

     reduce:  将每个map task的输出进行合并处理,可以实现一定的业务逻辑。输出的格式是<key,value>

     output:将reduce的输入作为输出,还是以<key,value>的键值的方式,和input一样,默认将reduce的输入写入HDFS中。


更多推荐

浅谈MapReduce算法的五个过程

本文发布于:2024-02-14 09:53:25,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1762957.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:浅谈   算法   过程   MapReduce

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!