云服务器批量维护之安全更新升级

背景介绍

目前服务皆基于K8S集群构建,团队需要周期性对系统进行安全维护更新,今天又踩一坑,集群中机器分批维护,维护之前排空节点,统一的命令维护更新,结果是绝大部分机器OK,唯独其中一台机器出现如下图故障。

另外发现出现问题的都是集中在阿里云张家口的数据中心,位于北京的数据中心的集群一切OK,不知是否跟这个有关系 。

紧接着收到阿里云邮件通知,系统陷入无限重启之中

解决过程

因为本次升级,更新了系统内核,不过一向相信centos的稳定性,对于官方的更新还是比较抱有信心,但偏偏出现了问题。

第一步,判断是由于更新内核引起的,于是回退内核到上一版本,回退之后可以正常启动进入系统,想卸载掉最新内核 却发现rpm -qa 命令都无法执行。

第二步,随后联系阿里云客服协助进行,阿里云技术搞了N长时间也没搞定,结果我们被告知,回退到上一个版本内核就可以了更新内核是可能会引起类似的问题,相当于白问,还是跟我们原来解决方式一样,但依旧没根本上解决问题。

最终解决办法(还是得靠自己):

由于该机器仅仅是K8S中的一个节点,这么多节点升级唯独这一个机器出现问题,由于之前我们保持良好的系统快照备份习惯,所以关机回滚至当天凌晨的系统快照。

回滚成功后,再启动机器,重启系统更新,内核也更新到了最新版本,再次重启一切OK,该节点在集群内正常上线。

总结:

对于服务器的维护,平时一定要制定良好的规范,并需要不断完善,一定要按照规范、流程来操作,切不可“随心所欲”以致造成严重后果。

Leave a Reply


正在读取数据……