Hadoop集群配置|电子爱好者

admin管理员组
文章数量:1631700

文章目录

Hadoop是什么
- Hadoop的优势
- Hadoop组成
- HDFS概述
- Yarn架构
- MapReduce架构
开始搭建Hadoop集群
- 一、安装VMware
- 二、新建虚拟机，安装CentOS
- 三、配置主机
- - 规划节点
  - 1、授予你的用户sudo权限，并且新建两个目录，所有权改为你的用户
  - 2、修改网络配置
  - - ifcfg-ens33
    - hostname
    - hosts
- 四、连接XShell
- 五、禁用防火墙和禁用selinux
- 六、安装配置java
- 七、安装配置Hadoop
- - 安装Hadoop并且配置环境变量
  - 配置Hadoop配置文件
  - - 1. core-site.xml
    - 2. hdfs-site.xml
    - 3. yarn-site.xml
    - 4. mapred-site.xml
    - 5. workers：
- 八、利用VMware复制四台服务器
- 九. 搭建全分布式
- - 配置免密登录
- 十、初始化Hadoop集群
- 十一、在windows本地创建IP对host的映射(如果web端的功能不能正常实现看这里)
- 十二、查看web端的dfs（文件分布式系统）
- 十三、测试MapReduce功能
- 附、一键对Hadoop操作
- - 一键启动Hadoop
  - 一键关闭Hadoop
- 结束

Hadoop是什么

1. 分布式系统基础架构
2. 解决海量数据的存储与分析计算
3. Hadoop广义是指Hadoop生态圈

Hadoop的优势

1. 高可靠性：底层维护多个数据副本，一个故障不会导致数据的丢失
2. 高扩展性：在集群间分配数据，可动态增加服务器
3. 高效性： 使用MapReduce思想，并行工作加快处理速度
4. 高容错性：能够自动将失败的任务重新分配

Hadoop组成

Hadoop组成 MapReduce 计算 Yarn 资源调度 HDFS 数据存储 Common 辅助工具

HDFS概述

名称	作用
NameNode(NN)	存储文件的元数据，如文件名，文件目录结构，文件属性，以及每个文件的块列表和块所在的块列表
DataNode(DN)	在本地文件系统存储文件块数据，以及块数据的校验和
SecondaryNameNode(2NN)	每一段时间对NameNode元数据备份

Yarn架构

名称	作用
Resource Manager(RM)	管理整个集群的资源
Node Manager(NM)	管理单个服务器资源
ApplicationMaster(AM)	管理单个任务
Container	相当于一个独立服务器，里面包含了任务运行所需的资源

MapReduce架构

MapReduce将计算过程分为两个阶段：Map和Reduce
1. Map阶段并行处理输入数据
2. Reduce阶段对Map结果进行汇总

开始搭建Hadoop集群

点击下载 CentOS-7
点击下载 VMware16 pro
点击跳转 XSHELL和XFTP教育版下载
点击跳转 ORACLE JDK8
点击下载 Hadoop-3.1.3

事前准备 CentOS7系统镜像 Windows平台 VMware XSHELL XFTP Liunux平台 jdk.tar.gz Hadoop-3.1.3

一、安装VMware

二、新建虚拟机，安装CentOS

三、配置主机

规划节点

注解	节点	调度	可选	资源分配
Node0	NameNode	NodeManager	==========	2c，4g，30g
Node1	DataNode	ResourceManager，Nodemanager	==========	1c，2g，20g
Node2	DataNode,SecondNameNode	Nodemanager		1c，1g，20g
Node3	DataNode	Nodemanager	historyserver	1c，1g，20g

1、授予你的用户sudo权限，并且新建两个目录，所有权改为你的用户

以下全文中的username均为代指你的用户名，在复制命令时注意替换
鼠标右键桌面，找到在终端打开

# 输入密码后进入最高权限root角色
su
# 给自己新建的用户增加sudo权限'
vi /etc/sudoers
# ##Allows people in group wheel to run all commands
# %wheel  ALL=(ALL)       ALL'
# 在此处下面添加
username     ALL=(ALL)       NOPASSWD:ALL
# 切换新建用户
su username
# 前往/opt目录，新建module文件夹和software文件夹
cd /opt
sudo mkdir module
sudo mkdir software
# 将文件所有权交给新建用户
sudo chown username:username module software

2、修改网络配置

# 修改网络配置
sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改主机名称
sudo vi /etc/hostname
# 配置IP对主机名的映射
sudo vi /etc/hosts
# 重启网卡以使配置生效
service network restart

网络配置改为：IP的前三个网段要与自己Vnet8的网段保持一致（具体到windows上的查询方法为在CMD里面输入ipconfig即可找到）

ifcfg-ens33

# 把BOOTPROTO的值由dhcp修改为static
BOOTPROTO="static"
# 后面加上四行
# 前三个网段 + 3~255任意数字，建议130开始，后续主机这个值递增即可
IPADDR=192.168.18.130
# 默认值，不更改
NETMASK=255.255.255.0
# 前三个网段 + 最后一段固定为2
GATEWAY=192.168.18.2
# 与上一行保持一致即可
DNS1=192.168.18.2

hostname

# 删除原内容，写入你的主机名称即可

hosts

IP对主机名映射样板如下：

# 自带的内容可以删除
# 前面是你的主机的ip地址，后面是你的主机名，后续可以直接ping主机名通过这个文件来找到对应ip
192.168.18.160 node0
192.168.18.161 node1
192.168.18.162 node2
192.168.18.163 node3

四、连接XShell

打开XShell，新建会话
名称随意填写，主机填写IP即可连接（连接不上可以重启虚拟机一下重试）
用户输入你新建的用户，密码即可（不建议root连接）

五、禁用防火墙和禁用selinux

# 关闭防火墙、禁止自启动防火墙
sudo systemctl stop firewalld
sudo systemctl disable firewalld.service
# SELINUX的enforcing修改为disabled
sudo vi /etc/selinux/config

六、安装配置java

注意你下载的jdk的版本可能会不一致，注意更改文件名

# 如果机器已经自带了jdk，用如下命令卸载
su
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
# 进入software目录
cd /opt/software
# 在XSHELL上方有打开XFTP
# 利用XFTP将jdk8和Hadoop的压缩包放在/opt/software目录下
# 解压jdk输出到/opt/module/
tar -zxvf jdk-8u341-linux-x64.tar.gz -C /opt/module/
# 配置环境变量
su
echo '#JAVA_HOME' >> /etc/profile.d/my_env.sh
echo 'export JAVA_HOME=/opt/module/jdk1.8.0_341' >> /etc/profile.d/my_env.sh
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile.d/my_env.sh
# 载入新的配置文件
source /etc/profile

七、安装配置Hadoop

安装Hadoop并且配置环境变量

# 解压hadoop到输出/opt/module/
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
# 配置环境变量
su
echo '#HADOOP_HOME' >> /etc/profile.d/my_env.sh
echo 'export HADOOP_HOME=/opt/module/hadoop-3.1.3' >> /etc/profile.d/my_env.sh
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile.d/my_env.sh
echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile.d/my_env.sh
# 载入新的配置文件
source /etc/profile

配置Hadoop配置文件

cd /opt/module/hadoop-3.1.3/etc/hadoop
vi core-site.xml
vi hdfs-site.xml
vi yarn-site.xml
vi mapred-site.xml
vi workers

1. core-site.xml

<!-- core-site.xml -->
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node0:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

2. hdfs-site.xml

<!-- hdfs-site.xml -->
<configuration>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>node0:9870</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node2:9868</value>
    </property>
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>hqp</value>
    </property>
</configuration>

3. yarn-site.xml

<!-- yarn-site.xml -->
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
        <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node1</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME,PATH,LANG,TZ</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log.server.url</name>
        <value>http://node3:19888/jobhistory/logs</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

4. mapred-site.xml

<!-- mapred-site.xml -->
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>node3:10020</value>
    </property>
        <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>node3:19888</value>
    </property>
</configuration>

5. workers：

node1
node2
node3

八、利用VMware复制四台服务器

关闭主机
复制机器
打开每一台机器，然后每台机器执行一遍的“三、配置主机”下的“2.修改网络配置”即可

九. 搭建全分布式

配置免密登录

以下命令注意使用xshell多开，减少重复工作

打开XShell多开
上方菜单栏工具 --> 发送输入到 --> 所有会话

# 创建当前主机rsa密钥
ssh-keygen -t rsa
# 拷贝hostname的密钥到本地，需要进行多次操作保证每一台主机拥有所有主机的密钥
ssh-copy-id -i node0
ssh-copy-id -i node1
·
·
·
ssh-copy-id -i noden
# 尝试免密连接其他主机，建议多次尝试，避免问题发生
ssh master

十、初始化Hadoop集群

# 该命令一定只在namenode上面执行
hdfs namenode -format
# namenode上启动分布式文件系统
start-dfs.sh
# resourceManager上启动yarn
start-yarn.sh
#在所有主机上运行jps，查看开启的进程，若都有datanode则恭喜你hadoop环境搭建完成了
jps

十一、在windows本地创建IP对host的映射(如果web端的功能不能正常实现看这里)

找到C:\Windows\System32\drivers\etc，将下述配置追加到hosts文件中（注意根据你的映射做出修改）

192.168.18.160 node0
192.168.18.161 node1
192.168.18.162 node2
192.168.18.163 node3

十二、查看web端的dfs（文件分布式系统）

访问 master:9870查看系统，无法访问时应将master改为其对应的ip(若完成了十一，则不会出现该问题)

十三、测试MapReduce功能

运行一个WordCount程序（检查一个文档中每个单词出现的次数）

# 本地编辑一个txt文档
cd $HADOOP_HOME
# 任意写入几个个单词，提供给后续wordcount程序作为输入文件
vi word.txt
# 把本地文件上传到HDFS上
hadoop fs -put ./word.txt /word.txt
# 调用wordcount程序
$HADOOP_HOME/bin/hadoop  jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /word.txt /output
# 在上述的web端查看输出，在/output的part-xxx中，查看输出

附、一键对Hadoop操作

一键启动Hadoop

# 在用户目录下创建该脚本，填入下面的内容
vi ~/start-hadoop.sh
# 授予执行权
sudo chmod 777 ~/start-hadoop.sh
# 随时随地通过调用下面代码执行该脚本
~/start-hadoop.sh

echo "=========正在启动Hadoop服务=========="
echo "starting hdfs"
ssh node0 start-dfs.sh
echo "starting yarn"
ssh node1 start-yarn.sh
echo "starting historyserver"
ssh node3 mapred --daemon start historyserver
echo "Hadoop启动完毕！"

一键关闭Hadoop

# 在用户目录下创建该脚本，填入下面的内容
vi ~/stop-hadoop.sh
# 授予执行权
sudo chmod 777 ~/stop-hadoop.sh
# 随时随地通过调用下面代码执行该脚本
~/stop-hadoop.sh

echo "=========正在停止Hadoop服务=========="
echo "stop hdfs"
ssh node0 stop-dfs.sh
echo "stop yarn"
ssh node1 stop-yarn.sh
echo "stop historyserver"
ssh node3 mapred --daemon stop historyserver
echo " All Stop！"

结束

至此已经全部配置完成了，有不清楚的地方还请指正~

本文标签：集群 Hadoop

版权声明：本文标题：Hadoop集群配置内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729100561a1186582.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Hadoop集群配置

文章目录

Hadoop是什么

Hadoop的优势

Hadoop组成

HDFS概述

Yarn架构

MapReduce架构

开始搭建Hadoop集群

一、安装VMware

二、新建虚拟机，安装CentOS

三、配置主机

规划节点

1、授予你的用户sudo权限，并且新建两个目录，所有权改为你的用户

2、修改网络配置

ifcfg-ens33

hostname

hosts

四、连接XShell

五、禁用防火墙和禁用selinux

六、安装配置java

七、安装配置Hadoop

安装Hadoop并且配置环境变量

配置Hadoop配置文件

1. core-site.xml

2. hdfs-site.xml

3. yarn-site.xml

4. mapred-site.xml

5. workers：

八、利用VMware复制四台服务器

九. 搭建全分布式

配置免密登录

十、初始化Hadoop集群

十一、在windows本地创建IP对host的映射(如果web端的功能不能正常实现看这里)

十二、查看web端的dfs（文件分布式系统）

十三、测试MapReduce功能

附、一键对Hadoop操作

一键启动Hadoop

一键关闭Hadoop

结束

更多相关文章

hadoop的Configured Capacity和DFS Remaining变成0的解决办法

Hadoop: Capacity Scheduler yarn容量调度

kylin1.15.4.1 usrlocalhadoop-2.6.0contribcapacity-scheduler*.jar

hadoop Capacity Scheduler解析

Hadoop Capacity Scheduler配置使用记录

cdp集群安装好后hive启动查询库报错No current connection

windows安装部署hadoop 2.7.7

hadoop是在windows上使用还是在linux上使用？

简单介绍Hadoop实操

关于hadoop的Cannot set priority of datanode process

【Hadoop】关于Hadoop集群HDFS启动问题：DataNode启动报错ERROR: Cannot set priority of namenode process

hadoop启动dfs报错： ERROR: Cannot set priority of namenode process 496

Hadoop启动NameNode报错ERROR: Cannot set priority of namenode process 2639

hadoop开启时报错：Cannot set priority of namenode process 3323

部署 elasticsearch7.2.0 集群，以及elasticsearch7.x配置文件说明

ELasticsearch(ES,es)单机，集群的加密（x-pack），非加密部署(超详细版)

ElasticSearch集群内存占用高？如何降低内存占用看这篇文章就够啦！（冻结索引）_es占用内存太大

ElasticSearch学习笔记（三）Ubuntu 2204 server elasticsearch集群配置

分布式系统的基石之ZooKeeper——基本原理+场景应用+集群搭建（最强万字入门指南）

【智能算力中心万卡GPU集群架构深度分析 2024】

发表评论

推荐文章

敏捷开发用户故事系列之八 剖析用户故事描述语法（兼谈不同种类故事的语法）

复盘离线电商数仓3.0项目–数据开发梳理

java 实现 视频格式转换。

云计算学习6——云主机创建单独篇（非常详细图文并茂）

【科学文献计量】ChatGPT的api使用及实现上下文处理

热门文章

Visio安装教程

（附源码）PHP疫情上报管理系统 毕业设计 170948

移动神器RAX3000M路由器不刷固件变身家庭云之二：安装vsftpd

鸿蒙系统是什么？

【Pytorch】Cycle GAN实战（一）：风格转换--真实风景图像转换为VanGogh风格

剑三游戏计算机配置,剑网3重制版配置要求

Windows cannot find 'C:Users....AppDataRoamingMicrosoftWindowsStart MenuProgramsWindows Pow...

OpenAI 大神亲授，人人都能看懂的大模型入门教程（三）

【HBase】安装HBase集群（3台主机）

Windows分盘，c盘已经满了，但d盘还有内存。

敏捷开发用户故事系列之八剖析用户故事描述语法（兼谈不同种类故事的语法）

java 实现视频格式转换。

（附源码）PHP疫情上报管理系统毕业设计 170948

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载