标签 光纤存储 下的文章

一、前期概述
典型的BS架构应用,搭在Ctrix XenServer7.5的平台上,项目共有4台物理机做虚拟化平台,没有做pool,都是独立服务器,共同连接一个光纤存储。在虚拟化平台上开了若干个应用服务器,一个文件服务器,应用前端用负载均衡设备做分发,文件服务器的数据盘挂载在光纤存储上。
二、故障
故障发生在虚拟化平台上,4台虚拟化平台中的一台机器主板损坏,导致其与光纤存储的连接中断,由于给文件服务器的数据盘划分了1.8T的空间,单个存储的LUN为16T,管理员对文件服务器做了多次快照,导致该存储上的虚拟磁盘较多。正好赶上服务器主板损坏,造成了存储上的虚拟磁盘混乱,具体表现为:在其他三台服务器上重新扫描该存储失败,提示:SM has thrown a generic python exception,只有一台可以正常扫描。因为事发紧急,没有及时处理该问题,更换服务器主板后,重新上线,仍然无法连接该存储。经过2周左右,唯一可以正常连接存储的那台服务器也无法连接了,存储与服务器彻底断开了。忘记该存储SR后重新创建,提示错误。
lun-unplug.png
三、解决方案
网上找到了https://blog.51cto.com/zhangyu/1184910 这篇文章,找到了解决问题的思路。
ssh到xenserver的主机上,查看pv、vg、lv,该16T的磁盘都可以看到,但是所在vg没有激活,所在vg的lv很多,其中有几个inflate_开始的lv,看起来比较奇怪。删除这些异常的lv后,应该就可以了。

vgchange -ay VG_XenStorage-0c405034-a99e-68d8-523e-c061097b7d3f --config global{metadata_read_only=0}

激活该vg,这时候就可以对该vg的lv进行操作了

lvremove /dev/VG_XenStorage-0c405034-a99e-68d8-523e-c061097b7d3f/inflate_* --config global{metadata_read_only=0}

删除这些异常的lv后再重新创建SR,就可以顺利通过了。
操作完成后,重启一下所有xenserver服务器,就可以全部正常挂载了。