|
存储描述:
存储架构是由6个盘柜组成,是1个主机头柜连接5个扩展柜,每个磁盘柜子有16块300GB的光纤接口的硬盘。
磁盘Raid配置情况:每个柜子单独配置一组15块盘的Raid5,留意块盘做热备,每组Raid5划分成3个LUN(逻辑卷)。
文件系统信息:整个存储在CentOS下使用,18个LUN用蓝鲸文件系统来管理。
存储故障:
最初是有一个扩展柜其中的一块盘亮红灯,但阵列还能访问,用户用一块新盘替换亮红灯的盘,进行Rebuild。在Rebuild的过程中,用户把这组阵列的热备硬盘拔出来,然后这组阵列的另一块盘也亮红灯,导致这组阵列崩溃。
由于使用蓝鲸文件系统,损坏的这组阵列的3个LUN不是文件系统的Metadata卷,这个文件系统还能访问,就是存放在损坏的3个LUN的文件访问不了。
故障后处理:
硬件存储厂商是曙光公司,厂家派工程师来诊断Raid故障,强制上线亮红灯的磁盘没有成功,没办法把阵列修复好。
软件厂家蓝鲸公司派工程师把整个文件系统中了能读取的文件备份到别的存储上。
数据恢复过程:
经过用户、软件厂家、硬件厂家、达思数据恢复公司四方导论,最后由达思科技提出完整的恢复方案,四方一致同意该方案可行后才进行数据恢复操作。
用户的要求是:硬盘不能拿出现场,只能在现场进行恢复。达思的方案中可以满足用户的要求,达思自主设计的数据恢复专用机器就可以直接连接光纤硬盘或光纤柜子。
达思提出两套方案:第一种反感是直接分析故障阵列底层数据,组合到新的存储上,新的存储需要划分出3个LUN,大小和故障存储一样。组合完成以后,用新的存储直接连接到CentOS操作系统的服务器上,由蓝鲸公司负责故障LUN和新LUN的替换操作,并校验文件系统的完整性,最后通过文件系统把数据读取出来。
第二种方案是Raid组合故障存储的3个LUN,用这3个LUN与正常的5个LUN,通过达思的数据恢复软件,直接读取蓝鲸文件系统(BWFS)中的数据,把文件恢复出来存储在新的空间中。
数据恢复结果:
最后达思使用第一种方案恢复出用户所有数据。
文件系统知识:
蓝鲸集群文件系统BWFS(Blue Whale File System)是天津中科蓝鲸信息技术有限公司针对FCSAN/IP SAN环境推出的SAN文件系统产品。它可以将多台FC或iSCSI磁盘阵列转换成支持多服务器并行处理的存储集群,提供高性能、可扩展的文件共享服务,并支持多机工作流或集群环境下的各种应用。
BWFS采用直接数据存取模式,共享文件数据通过SAN网络直接访问FC或iSCSI磁盘阵列,无需通过文件服务器或NAS头进行数据转发,充分发挥了SAN环境的高带宽优势。采用BWFS能够在不改变前端应用环境和后端SAN的条件下,大幅提升系统的并发文件处理能力。
BWFS支持冗余架构设计的MDC(Meta Data Controller,元数据控制器),提供优秀的性能和高可用能力,结合SAN基础架构,为用户带来企业级存储所需的系统可靠性和数据安全性。
BWFS可应用于数字媒体、勘探数据分析、遥感信息处理、流媒体、科学计算、模拟仿真等高性能计算和更加广泛的信息处理领域。
本文作者:达思 覃总
|
|