做运维的同学都需要时刻关注服务器的硬件状态,有些时候要全面掌握还真的不方便。比如坏了一块硬盘,因为raid的存在,系统本身没有任何问题;或者坏了一个电源,一根内存甚至一颗CPU,因为服务器的冗余设计,我们不能直接感知和发现故障。
这就需要服务器提供侦测和报警能力。
虽然现在的服务器都集成有自己的管理,不管是通用的ipmi还是专有方案,但是提供完整方便的系统安装包的并不多。
Dell服务器有一组服务器管理程序openmanager,使用它可以方便的查看当前服务器的硬件状态,比如电源/阵列/磁盘/温度等。
但是dell官方发布的安装包不直接支持debian/ubuntu linux系统,只能通过社区支持ubuntu,我们这里就通过社区版本来支持PVE6。
参考pve论坛:
代码语言:javascript复制https://forum.proxmox.com/threads/dell-openmanage-on-proxmox-6-x.57932/
步骤如下
安装最新的9.30版本,如果以前有安装其他版本,先删除
代码语言:javascript复制apt purge srvadmin-*
1. 新建目录
代码语言:javascript复制mkdir /opt/dell/srvadmin/sbin -p
2. 导入安装源
代码语言:javascript复制echo "deb http://linux.dell.com/repo/community/openmanage/930/bionic bionic main" > /etc/apt/sources.list.d/linux.dell.com.sources.list
gpg --keyserver pool.sks-keyservers.net --recv-key 1285491434D8786F && gpg -a --export 1285491434D8786F | sudo apt-key add -
apt update
3. 安装依赖包
代码语言:javascript复制apt install libcurl4 libgpm2 libtinfo5
apt install libncurses5
4. 安装openmanager
代码语言:javascript复制apt install srvadmin-all
这里多半会报错,因为有些包的依赖关系不兼容,可以手动下载安装
代码语言:javascript复制mkdir dpks
cd dpks
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-curl-client-transport1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-client4_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-server1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-sfcc/libcimcclient0_2.2.8-0ubuntu2_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/openwsman_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/multiverse/c/cim-schema/cim-schema_2.48.0-0ubuntu1_all.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-sfc-common/libsfcutil0_1.0.1-0ubuntu4_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/multiverse/s/sblim-sfcb/sfcb_1.4.9-0ubuntu5_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-cmpi-devel/libcmpicppimpl0_2.0.3-0ubuntu2_amd64.deb
dpkg -i *.deb
apt update
apt install srvadmin-all
5. 启动服务
如果有NVME磁盘,可能导致服务出错,注销关联服务
代码语言:javascript复制nano /opt/dell/srvadmin/etc/srvadmin-storage/stsvc.ini
注销
; vil7=dsm_sm_psrvil
启动服务
代码语言:javascript复制/opt/dell/srvadmin/sbin# ./srvadmin-services.sh status
/opt/dell/srvadmin/sbin# ./srvadmin-services.sh start
/opt/dell/srvadmin/sbin# ./srvadmin-services.sh status
之后就可以通过浏览器页面查看服务器硬件状态信息
健康状态下右边都是绿色的勾,如果出现红叉或橙色感叹号就一层层点击下去,找到故障的源头。
当然,对运维人员来说这只是第一步,毕竟人不能每时每刻登录网页去查看。接下来就是把监控数据导入自己的监控平台,如nagios/icinga2/zabbix/centreon等,实时监控,一旦发现故障就向维护人员告警。
类似的东西还有HP的smartpage。
可惜国产服务器这方面做得不够,前些天华为800说只能用带外管理iBMC,这明显不如集成到系统内部来的方便。