分布式计算框架"/>
Hadoop分布式计算框架
Hadoop分布式计算框架
- 一、实验目的要求
- 二、试验环境
- 三、试验内容
- 任务一 MapReduce词频统计
- 任务二 Partitioner操作
- 任务三 使用MapReduce实现join操作
- 任务四 二次排序
- 四、心得体会
一、实验目的要求
【实验要求】
- 认识MapReduce编程模型
- MapReduce应用开发
- MapReduce高级模型,掌握MapReduce开发常用的应用,如Join、二次排序、分区和WordCount
【实验目的】 - 了解MapReduce是什么
- 掌握MapReduce编程模型
- 掌握MapReduce中常见核心API编程
掌握MapReduce开发常用的功能
二、试验环境
- Jdk8
- Maven3.5.2
- Eclipse
- Hadoop集群
三、试验内容
任务一 MapReduce词频统计
- 新建工程
- 添加maven依赖
- WordCount的MapReduce实现
4. 创建job类
5. 设置Job的输入输出路径并提交到集群
6. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar
7. 上传到/home/admin/file/mapreduce目录下
8. 将测试数据上传到HDFS目录中
9. 提交MapReduce作业到集群运行
10. 查看作业输出结果
任务二 Partitioner操作
需求:分别统计每种类型手机的销售情况,每种类型手机的统计数据单独存放在一个结果中
- 自定义Partioner在MapReduce中的应用
2.Driver
3. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar,上传到/home/admin/file/mapreduce目录下
4. 将测试数据上传到HDFS目录中
5. 提交MapReduce作业到集群运行
6. 查看作业输出结果
任务三 使用MapReduce实现join操作
- 员工对象
- 自定义Mapper类开发
3. 自定义Reducer类开发
4. 驱动类开发
5. 使用mvn clean package -DeskipTests打包成myMapreduce-0.0.1-SNAPSHOT.jar,上传到/home/admin/file/mapreduce目录下
6. 将测试数据上传到HDFS目录中
7. 提交MapReduce作业到集群运行
8. 查看作业输出结果
任务四 二次排序
- 二次排序实现
- 使用mvn clean package -DeskipTests打包成hadoop-0.0.1-SNAPSHOT.jar,上传到/home/admin/file/mapreduce目录下
- 将测试数据上传到HDFS目录中
- 提交MapReduce作业到集群运行
- 查看作业输出结果
四、心得体会
- 在实验前老师讲解实验步骤时一定要认真听讲,将理论知识吃透,并注意老师所讲的容易出问题的点,为做实验打好基础。否则在实验过程中又会花费大量的时间去摸索实验步骤,不仅浪费时间,还容易因为速度慢而心浮气躁。
- 作为计算机专业的学生,我们身处网络发达的年代,网络科技发展速度非常之快,所以,我们的学习范围不应只局限于课本局限于校园,不断学习新的知识,接触新的环境,才能更全面地了解网络发展的新趋势。
- 在写代码时,一定要多练习,上网查资料。
更多推荐
Hadoop分布式计算框架
发布评论