Linux常用命令(四)
网络管理网络接口名称规则
网卡命名规则可以参考:Linux中网卡的命名规则,CentOS7网卡命名规则
网卡文件:/etc/sysconfig/network-scripts/ifcfg-enp0s3
网卡名称:enp0s3,有多少张网卡,就有多少个网卡文件
NetworkManager服务
网络管理器(NetworkManager)是一个动态网络的控制器与配置系统,它用于当网络设备可用时保持设备和连接开启并激活
默认centos7/RHEL7已安装网络管理器,并处于开启状态
网卡可以工作和这个程序有关
systemctl status NetworkManager #网络的总程序[root@localhost ~]# systemctl status NetworkManager● NetworkManager.service - Network Manager Loaded: loaded (/usr/lib/systemd/system/NetworkManager.service; enabled; vendor pres ...
Linux常用命令(三)
取别名alias ls = 'ls -l' #给ls起别名,输入ls 相当于 ls -l
统计cat 1.txt | wc -l #-l统计行数cat 1.txt | wc -c #-l统计字节数cat 1.txt | wc -m #-l统计字符数
下载软件包wget -O /etc/yum.repos.d/epel.repo https://mirrors.aliyun.com/repo/epel-7.repo #-O 指定下载目录wget url #下载wget -O 地址 url #下载
文件查找
简介
which:命令查找
whereis:命令查找,同上
find:文件查找,针对文件名
locate:文件查找,依赖数据库
实例
which/whereiswhich ls #依赖PATH环境变量查找命令[root@localhost ~]# which lsalias ls='ls --color=auto' /usr/bin/lswhereis ls[root@localhost ~]# whereis lsls: / ...
Linux常用命令(二)
时间date #查看当前时间date 04151234 #修改时间 月日时分,每个两位
切割命令cut -d: -f3 #用:作为切割符,给出切割后第3列信息
重定向date > time.txt #把输出内容保存到文件中
FD简介
file descriptor(FD),文件描述符,文件句柄
进程使用文件描述符来管理打开的文件,每个进程都有属于自己的FD
FD是数字,范围:0-255
1 表示标准输出,比如:终端界面
2 表示错误的输出,比如:终端界面
0 表示标准输入,比如:键盘鼠标啥的
其他数字:表示其他文件,可读可写
实例vim 1.txt #打开一个文件ps aux | grep vim #在新终端中查看vim的进程号[root@master ~]# ps aux | grep vimroot 1565 0.0 0.2 149264 4960 pts/0 S+ 09:46 0:00 vim 1.txtls -d /proc/1565 #查看ls /proc/1565 #查看进程1565的信息
ls -l /proc/1565/fd #里 ...
Centos8集群Slurm作业管理系统安装(三)
slurm的安装和配置slurm的简介Slurm 任务调度工具(前身为极简Linux资源管理工具,英文:Simple Linux Utility for Resource Management,取首字母,简写为SLURM),或 Slurm,是一个用于 Linux 和 Unix 内核系统的自由开源的任务调度工具,被世界范围内的超级计算机和计算机群广泛采用。它提供了三个关键功能。第一,为用户分配一定时间的专享或非专享的资源(计算机节点),以供用户执行工作。第二,它提供了一个框架,用于启动、执行、监测在节点上运行着的任务(通常是并行的任务,例如 MPI),第三,为任务队列合理地分配资源。大约60%的500强超级计算机上都运行着Slurm,包括2016年前世界上最快的计算机天河-2。其为超算提供了三个关键功能:
为用户分配一定时间的专享或非专享的资源,来执行任务
提供了用于启动、执行、监测在节点上运行的任务的框架
为任务队列合理地分配计算资源
slurm的架构在slurm计算集群系统,众多节点将会分为master节点(主节点/管控节点),compute节点(计算节点)以及部分集群 ...
Centos8集群Slurm作业管理系统安装(二)
munge和mariadb软件的安装munge的简介munge是主要功能是认证服务,在大规模高性能计算集群中,用于生成和验证证书。slurm官方推荐使用munge作为slurm作业调度系统的认证服务,用于主控节点和计算节点之间的认证通信。配置时分为服务端和用户端,其中服务端应作为slurm调度服务的主控节点,用于管理认证服务。
master节点的安装
确保master节点没有安装过 mungeyum remove munge munge-libs munge-devel -yuserdel -r munge
安装相关的软件# 安装 epel-releaseyum install -y epel-release # 安装 rpmbuildyum install -y rpm-build
因为munge安装后会自动创建munge用户,所以我们要提前创建munge用户,并且保证所有节点的munge用户的uid和gid相同export MUNGE_USER=2024groupadd -g $MUNGE_USER mungeuseradd -m -c "MUNGE User" ...
Centos8集群Slurm作业管理系统安装(一)
背景介绍之前我们安装了Torque作业管理系统,但是这个太老了,而且基本上就只有一些小型的高性能计算集群在使用,目前主流的是使用Slurm作业管理系统,特别是在大型的超算体系下,因此为了以后的工作,还是需要自己搭建一个Slurm作业管理系统。
Chrony服务的搭建基本概念Chrony是NTP(Network Time Protocol,网络时间协议,服务器时间同步的一种协议)的另一种实现,与ntpd不同,它可以更快且更准确地同步系统时钟,最大程度的减少时间和频率误差。由于Slurm需要用到munge来做信息认证服务,而munge需要每个节点之间的时间误差在5分钟之内,因此我们需要做时间同步。
基本信息
主机名
系统
ip
master(服务端)
Centos8 stream
172.16.34.127
node1(客户端)
Centos8 stream
172.16.34.128
服务端和客户端共同配置
为了避免服务端和客户端无法通信,关闭防火墙和selinux
systemctl stop firewalldsystemctl disable firewalldv ...
Centos8集群Torque作业管理系统安装(四)
背景介绍前面安装了这么多的软件,终于要安装我们的主角 Torque 了。组里的服务器就是用的Torque作为作业管理的。
Torque 作业系统的搭建基本概念对于高性能计算集群而言,作业调度系统是必不可少的工具软件,不论是单机计算还是集群计算,它的作用是更好的分配计算资源,管理用户的作业。作业调度软件有很多种,常见的有Torque、MAUI、SGE、slurm、HTcondar、openPBS等。我这里采用的Torque软件。
注意关机的时候先关计算节点再关控制节点,开机的时候先开控制节点再开计算节点。
基本信息
主机名
系统
ip
master(控制节点)
Centos8 stream
172.16.34.122
node1(计算节点)
Centos8 stream
172.16.34.123
控制节点和计算节点的共同配置
为了避免服务端和客户端无法通信,关闭防火墙和selinuxsystemctl stop firewalldsystemctl disable firewalldvi /etc/selinux/configSELINUX=disabled
修改ho ...
Centos8集群Torque作业管理系统安装(三)
背景介绍搭建集群的时候需要频繁的到个个节点上去,因此需要设置节点之间的免密登录
集群免密登录基本信息
主机名
系统
ip
master(服务端)
Centos8 stream
172.16.34.122
node1(客户端)
Centos8 stream
172.16.34.123
相关配置
修改hosts文件vi /etc/hosts#添加172.16.34.122 master172.16.34.123 node1
在每台机器上都生成秘钥对ssh-keygen -t rsa
输入三次回车后,在家目录下会生成 .ssh 文件夹ls -a
在 .ssh 目录下会看见 id_rsa(私钥)和 id_rsa.pub (公钥)
将 master 的 id_rsa.pub 复制到 node1scp ~/.ssh/id_rsa.pub root@node1:~/.ssh/master_pub
合并 master_pub 和 node1 的 id_rsa.pub 合并为 authorized_keyscat master_pub id_rsa.pub > authoriz ...
Centos8集群Torque作业管理系统安装(二)
背景介绍主要还是工作原因,需要搭建高性能计算集群,因此这里用虚拟机搭一个小的集群,学习一下。
NFS系统的搭建基本概念对于我们进行集群计算,远程多用户提交算例不仅要求每一台服务器上用户一样,必要程序的文件路径同样要求相同,因此需要将计算节点的部分文件夹挂载到控制节点。NFS(Network File System)就可以实现这样的功能。NFS 即网络文件系统。功能是让客户端通过网络访问不同主机上磁盘里的数据。特别是我们在控制节点上装上了某个软件,但是没有在计算节点上装,一定要把这个软件地址挂载到控制节点上,不然无法进行计算,要保证软件的路径相同。NFS的实现依赖于RPC(远程过程调用)机制,RPC充当NFS服务器和客户端的中介,以完成从远程到本地的映射过程,提供RPC支持的服务为rpcbind,提供NFS共享的服务为nfs-server。
注意关机的时候先关客户端再关服务端,开机的时候先开服务端再开客户端。
基本信息
主机名
系统
ip
master(服务端)
Centos8 stream
172.16.34.122
node1(客户端)
Centos8 stream
1 ...
Centos8集群Torque作业管理系统安装(一)
背景介绍主要还是工作原因,需要搭建高性能计算集群,因此这里用虚拟机搭一个小的集群,学习一下。
NIS服务的搭建基本概念对于一个高性能计算集群,里面有很多台服务器,而且一般每台服务器都会有相同的用户,因此如果对每一台服务器都去设置相同的用户的用户名和密码,那将是一个非常繁杂的问题,特别是如果要进行增删改那就是巨大的任务量,因为每台服务器都要去增删改。那么,如果能够有一台服务器作为主节点来管理该集群中所有服务器的帐号密码,当其他的服务器有用户登录的需求时,可以到这台服务器上去查询请求相关的帐号密码等信息,如此这样一来,如果想要增删改,只需要到主节点服务器上面进行处理即可,便于管理。NIS(Network Information Services)就可以实现这样的功能。NIS早期为Sun Yellow Pages 简称YP 黄页的意思。
基本原理NIS server (服务端)
NIS 服务端包括 master 和 slave服务端两种,slave的作用主要是做备份,master出现问题后,slave代替master工作,以此不让整个系统崩溃。
工作流程
master先把帐号密码相关文件制 ...