Hadoop一个Map和多个Reduce

编程入门行业动态更新时间:2024-10-24 12:25:35

本文介绍了Hadoop一个Map和多个Reduce的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！问题描述

我们有一个庞大的数据集，可以用多个减少函数进行分析。所有减少算法适用于同一个 map 函数生成的相同数据集。读取大型数据集的成本太高，无法每次执行，因此最好只读取一次，并将映射的数据传递给多个 reduce 函数。

我可以使用Hadoop来做到这一点吗？我搜索了示例和intarweb，但找不到任何解决方案。
解决方案
您是否期望每个reducer都能够运行完全相同的映射数据？但至少关键应该是不同的，因为它决定了哪个reducer要去。

您可以在mapper中多次输出一个输出，并以key的形式输出$ i是第i个缩减器，而$ key是您的原始键）。并且您需要添加一个分区程序以确保这些记录是基于$ i分布在还原器中的。然后使用GroupingComparator按原始$ key对记录进行分组。

有可能做到这一点，但在一个MR中并不重要。

We have a large dataset to analyze with multiple reduce functions.

All reduce algorithm work on the same dataset generated by the same map function. Reading the large dataset costs too much to do it every time, it would be better to read only once and pass the mapped data to multiple reduce functions.

Can I do this with Hadoop? I've searched the examples and the intarweb but I could not find any solutions.
解决方案
Are you expecting every reducer to work on exactly same mapped data? But at least the "key" should be different since it decides which reducer to go.

You can write an output for multiple times in mapper, and output as key (where $i is for the i-th reducer, and $key is your original key). And you need to add a "Partitioner" to make sure these n records are distributed in reducers, based on $i. Then using "GroupingComparator" to group records by original $key.

It's possible to do that, but not in trivial way in one MR.

更多推荐

Hadoop一个Map和多个Reduce

本文发布于:2023-11-24 10:30:40，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1624846.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

多个 Hadoop Map Reduce

上一篇：【多媒体文件格式】AVI、WAV、RIFF

下一篇： Hadoop 一个 Map 和多个 Reduce

发布评论取消回复

评论列表（有 0 条评论）

最近发表

荆门网站建设的重要性

win10蓝屏终止代码CRITICAL_PROCESS_DIED解决方法

您可以尝试添加 --skip-broken 选项来解决该问题您可以尝试执行：rpm -Va --nofiles --nodigest 解决方案

关于无线网络波动大的解决办法

Windows10 关于系统中断CPU占用过高导致电脑变卡的解决办法

VS 2019 点击页面自动定位到解决方案资源管理器目录位置

（亲测解决）VMware打开需要半天才进入、打开系统很慢、运行很慢解决办法

Typora官网下载的最新版本mac10.13以下版本用不了的解决办法

成功解决ModuleNotFoundError: No module named ‘torch._C‘

MySQL:由于找不到VCRUNTIME140_1.dll，无法继续执行代码。重新安装程序可能会解决此问题

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍！

热门文章

从源“http://localhost:5173”访问“...”处的 XMLHttpRequest 已被 CORS 策略阻止

币安API错误代码1102，未发送强制参数“时间戳”

如果我在bot telegram nodejs中使用editMessageMedia，我如何制作标题

在 Node.js 中从网络流创建 blob

使用 Node.js / ES6 如何设置 dotenv 文件的自定义路径？

使用 NODE.JS 和 html5 实现低延迟（50 毫秒）视频流

如何从nodejs连接laravel>laravel

使用nodejs观看目录

如果文件包含特定字符串，如何跳过 GitHub 工作流程步骤？

FirebaseError：无法从.env加载环境变量

标签列表

文件

如何在

Python

系统

java

方法

数据

错误

windows

函数

android

linux

教程

如何使用

代码

字符串

计算机

电脑

服务器

NET

应用程序

数组

PHP

MySQL

SQL

对象

项目

程序

数据库

word