[pve]为debian/ubuntu linux系统安装dell openmanager

2022-05-20 14:06:55 浏览数 (1)

做运维的同学都需要时刻关注服务器的硬件状态,有些时候要全面掌握还真的不方便。比如坏了一块硬盘,因为raid的存在,系统本身没有任何问题;或者坏了一个电源,一根内存甚至一颗CPU,因为服务器的冗余设计,我们不能直接感知和发现故障。

这就需要服务器提供侦测和报警能力。

虽然现在的服务器都集成有自己的管理,不管是通用的ipmi还是专有方案,但是提供完整方便的系统安装包的并不多。

Dell服务器有一组服务器管理程序openmanager,使用它可以方便的查看当前服务器的硬件状态,比如电源/阵列/磁盘/温度等。

但是dell官方发布的安装包不直接支持debian/ubuntu linux系统,只能通过社区支持ubuntu,我们这里就通过社区版本来支持PVE6。

参考pve论坛:

代码语言:javascript复制
https://forum.proxmox.com/threads/dell-openmanage-on-proxmox-6-x.57932/

步骤如下

安装最新的9.30版本,如果以前有安装其他版本,先删除

代码语言:javascript复制
apt purge srvadmin-*

1. 新建目录

代码语言:javascript复制
mkdir /opt/dell/srvadmin/sbin -p

2. 导入安装源

代码语言:javascript复制
echo "deb http://linux.dell.com/repo/community/openmanage/930/bionic bionic main" > /etc/apt/sources.list.d/linux.dell.com.sources.list
gpg --keyserver pool.sks-keyservers.net --recv-key 1285491434D8786F && gpg -a --export 1285491434D8786F | sudo apt-key add -

apt update

3. 安装依赖包

代码语言:javascript复制
apt install libcurl4 libgpm2 libtinfo5
apt install libncurses5

4. 安装openmanager

代码语言:javascript复制
apt install srvadmin-all

这里多半会报错,因为有些包的依赖关系不兼容,可以手动下载安装

代码语言:javascript复制
mkdir dpks
cd dpks
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-curl-client-transport1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-client4_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/libwsman-server1_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-sfcc/libcimcclient0_2.2.8-0ubuntu2_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/o/openwsman/openwsman_2.6.5-0ubuntu3_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/multiverse/c/cim-schema/cim-schema_2.48.0-0ubuntu1_all.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-sfc-common/libsfcutil0_1.0.1-0ubuntu4_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/multiverse/s/sblim-sfcb/sfcb_1.4.9-0ubuntu5_amd64.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/s/sblim-cmpi-devel/libcmpicppimpl0_2.0.3-0ubuntu2_amd64.deb
dpkg -i *.deb
apt update
apt install srvadmin-all

5. 启动服务

如果有NVME磁盘,可能导致服务出错,注销关联服务

代码语言:javascript复制
nano /opt/dell/srvadmin/etc/srvadmin-storage/stsvc.ini
注销 
; vil7=dsm_sm_psrvil

启动服务

代码语言:javascript复制
/opt/dell/srvadmin/sbin# ./srvadmin-services.sh status
/opt/dell/srvadmin/sbin# ./srvadmin-services.sh start
/opt/dell/srvadmin/sbin# ./srvadmin-services.sh status

之后就可以通过浏览器页面查看服务器硬件状态信息

健康状态下右边都是绿色的勾,如果出现红叉或橙色感叹号就一层层点击下去,找到故障的源头。

当然,对运维人员来说这只是第一步,毕竟人不能每时每刻登录网页去查看。接下来就是把监控数据导入自己的监控平台,如nagios/icinga2/zabbix/centreon等,实时监控,一旦发现故障就向维护人员告警。

类似的东西还有HP的smartpage。

可惜国产服务器这方面做得不够,前些天华为800说只能用带外管理iBMC,这明显不如集成到系统内部来的方便。

0 人点赞