单机安装"/>
torque单机安装
如有错误,欢迎指正
关于torque
PBS是一个批处理作业和计算机系统资源管理的软件包,主要功能是在单机系统或计算机集群中调度资源、处理提交的任务并把输出转发给提交者。PBS包含openPBS、PBS Pro和Torque三个分支。本文介绍Torque的单机安装以及安装过程中容易遇到的问题。
下载
在别的博客里找到了两个下载地址:
/
(这个是官方的安装包 但是要注册 比较麻烦)
.1.1.1.tar.gz
(6.1.1.1版本)
(wget .1.1.1.tar.gz 命令下载即可)
安装前准备
因为是单机安装,所以管理节点和计算结点都在同一个计算机上。首先设置本机主机名。
$echo localhost
查看主机名,如果结果是localhost.localdomain,建议修改主机名。
备注:
为什么建议修改主机名:
尝试过用localhost.localdomain作为主机名,配置管理节点、计算节点为localhost.localdomain,最后用pbsnodes检查节点是否配置成功的时候,遇到了connection refused的问题:
意思是无法连接到localhost这个节点,连接被拒绝。寻找对策,发现可以ping通127.0.0.1,也尝试了设置ssh无密码登录到localhost,也尝试了关闭防火墙,都没有效果。
为什么连接拒绝:
由于配置了localhost.localdomain为管理节点和计算节点,本机通过/etc/hosts找到这一节点的ip地址也就是127.0.0.1(集群的工作原理也一样)。关于127.0.0.1这个地址,其实是本机的本地回环地址,它代表设备的本地虚拟接口,所以默认被看作是永远不会宕掉的接口。一般都会用来检查本地网络协议、基本数据接口等是否正常的,是在安装网卡之前就可以ping通的。
解决方法:
编辑/etc/sysconfig/network(需要root用户或者sudo权限)修改主机名(这里改为master):
#vi /etc/sysconfig/network
添加一行/修改:
HOSTNAME=master
用reboot指令重启生效。
然后通过ifconfig指令获得本机的ip地址,例如得到ip地址为192.168.213.131。
编辑/etc/hosts添加一行:
192.168.213.131 master
至此安装前准备完成,配置好管理节点和计算节点为master后,torque作业提交系统在进行连接的时候,通过/etc/hosts找到的master主机的地址是192 .168.213.131而不是127.0.0.1,连接成功。【hadoop(分布式系统基础架构)在进行节点配置的时候也要注意这一问题】
安装
1.解压
wget .1.1.1.tar.gz
下载完成后解压(例如/home/kkk目录下)
tar -zxvf torque-6.1.1.1.tar.gz
2.安装
$cd /home/kkk/torque-6.1.1.1
$./configure --prefix=/home/kkk/torque_install/ --with-scp --with-default-server=master
$make
$sudo make install
$make packages (这一步是为了在计算节点安装packages)
3.添加pbs_server, pbs_sched,pbs_mom, trqauthd到系统服务
$cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
4.添加环境变量到/etc/profile(需要root用户或者sudo权限)
#export TORQUE=/home/kkk/torque_install
#export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
#source /etc/profile
#echo '/usr/local/lib'>/etc/ld.so.conf.d/torque.conf
#ldconfig
5.设置管理账户(例如:kkk)
$./torque.setup kkk(自己的用户名)
6.配置管理节点(如果没有nodes这个文件要自己新建一个)
编辑/var/spool/torque/server_priv/nodes加入
master np=32
备注:master是管理节点的主机名 np=32表示cpu的核数为32
7.配置计算节点
编辑/var/spool/torque/mom_priv/config加入
pbsserver master
在计算节点(这里就是master本机)安装packages
$./torque-package-mon-*.sh --install
$./torque-package-clients-*.sh --install
8.开启服务
备注:如果前面开启了服务,再进行管理账户、管理节点、计算节点的配置(5、6、7步),则配置完需要重启服务(将下面指令的start改为restart,相应的停止服务用stop,查看服务状态用status)
$/etc/init.d/pbs_server start
$/etc/init.d/pbs_sched start
$/etc/init.d/pbs_mom start
$/etc/init.d/trqauthd start
或者
service pbs_server start
service pbs_sched start
service pbs_mom start
service trqauthd start
9.检查节点是否配置成功
pbsnodes查看一下各个节点
看到master节点以及state=free说明master节点配置成功
10.创建队列
torque安装之后需要一个队列,提交者将作业提交到队列中再由管理节点进行调度处理。先用指令
qmgr -c "q s"
查看是否存在batch队列(网上提到是安装后默认有这个batch队列的,但是有可能没有,还是先检查一下)
如果不存在batch队列(上图中缺少了create and define queue batch的部分),则用以下指令设置batch队列(需要root或者sudo权限):
qmgr -c "set server scheduling=true"
qmgr -c "create queue batch queue_type=execution"
qmgr -c "set queue batch started=true"
qmgr -c "set queue batch enabled=true"
qmgr -c "set queue batch resources_default.nodes=1"
qmgr -c "set queue batch resources_default.walltime=3600"
qmgr -c "set server default_queue=batch"
再输入qmgr -c "q s"查看已有的队列(正确结果如上图)。
检查
su kkk //自己的用户名
echo sleep 200|qsub //提交一个作业
qstat -an //查看作业状态
可以查看到该作业正在运行(S一栏为R),说明安装成功(如下图)。
可能遇到的问题
1.安装完没有batch队列
意思是找不到batch队列。
解决方法:
按照上面第10点创建队列中的指令创建batch队列。
2.没有配置节点或者节点配置不成功
或者:
这样的提示说明没有配置节点或者节点配置不成功,需要检查/var/spool/torque/server_priv/nodes文件中是否配置了管理节点,/var/spool/torque/mom_priv/config文件中是否配置了计算节点。如果都配置了,则检查/etc/hosts中配置的管理节点和计算节点(单机的话就是同一个)的ip地址是否正确配置。
更多推荐
torque单机安装
发布评论