Hadoop分布式计算框架

编程入门行业动态更新时间:2024-10-10 21:31:53

Hadoop<a href=https://www.elefans.com/category/jswz/34/1770120.html style= 分布式计算框架"/>

Hadoop分布式计算框架

一、实验目的要求
二、试验环境
三、试验内容
- 任务一 MapReduce词频统计
- 任务二 Partitioner操作
- 任务三使用MapReduce实现join操作
- 任务四二次排序
四、心得体会

一、实验目的要求

【实验要求】

认识MapReduce编程模型
MapReduce应用开发
MapReduce高级模型，掌握MapReduce开发常用的应用，如Join、二次排序、分区和WordCount
【实验目的】
了解MapReduce是什么
掌握MapReduce编程模型
掌握MapReduce中常见核心API编程
掌握MapReduce开发常用的功能

二、试验环境

Jdk8
Maven3.5.2
Eclipse
Hadoop集群

三、试验内容

任务一 MapReduce词频统计

新建工程
添加maven依赖
WordCount的MapReduce实现

4. 创建job类

5. 设置Job的输入输出路径并提交到集群

6. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar

7. 上传到/home/admin/file/mapreduce目录下

8. 将测试数据上传到HDFS目录中

9. 提交MapReduce作业到集群运行

10. 查看作业输出结果

任务二 Partitioner操作

需求：分别统计每种类型手机的销售情况，每种类型手机的统计数据单独存放在一个结果中

自定义Partioner在MapReduce中的应用

2.Driver

3. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar，上传到/home/admin/file/mapreduce目录下

4. 将测试数据上传到HDFS目录中

5. 提交MapReduce作业到集群运行

6. 查看作业输出结果

任务三使用MapReduce实现join操作

员工对象

自定义Mapper类开发

3. 自定义Reducer类开发

4. 驱动类开发

5. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar，上传到/home/admin/file/mapreduce目录下

6. 将测试数据上传到HDFS目录中

7. 提交MapReduce作业到集群运行

8. 查看作业输出结果

任务四二次排序

二次排序实现
使用mvn clean package -DeskipTests打包成hadoop-0.0.1-SNAPSHOT.jar，上传到/home/admin/file/mapreduce目录下
将测试数据上传到HDFS目录中
提交MapReduce作业到集群运行
查看作业输出结果

四、心得体会

在实验前老师讲解实验步骤时一定要认真听讲，将理论知识吃透，并注意老师所讲的容易出问题的点，为做实验打好基础。否则在实验过程中又会花费大量的时间去摸索实验步骤，不仅浪费时间，还容易因为速度慢而心浮气躁。
作为计算机专业的学生，我们身处网络发达的年代，网络科技发展速度非常之快，所以，我们的学习范围不应只局限于课本局限于校园，不断学习新的知识，接触新的环境，才能更全面地了解网络发展的新趋势。
在写代码时，一定要多练习，上网查资料。

更多推荐

Hadoop分布式计算框架

本文发布于:2024-02-13 06:27:54，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1757796.html