pycaa 发表于 2012-11-30 13:28:37

磁盘阵列服务器的数据恢复技术

目前服务器使用较多的就是RAID数据存储技术,它在存储容量、存储安全和存储速度上都有一定的优势。但是RAID磁盘阵列一旦出现故障,给用户带来的损失也往往最为惨重。

  对于服务器来说最常见的就是磁盘物理故障和RAID卡故障。一旦发现RAID阵列出现故障,不要轻易尝试Rebuild、同步等操作,更不要初始化硬盘。通过正确的操作是可以帮助你把损失降到最低的。运气好还可以让服务器“起死回生”。尽管各个厂家RAID卡的操作界面不一样,但是恢复原理基本是一样的。下面是针对HP LH3服务器RAID损坏后的一次数据恢复经历,希望能对大家有所帮助。

  如在实验中采用的HP LH3服务器,磁盘阵列为RAID-5。出问题时表现为系统死机,鼠标、键盘均无响应,没有任何错误提示,以为是正常的死机,Reset重新启动,服务器自检的时候提示“Logic disk failed”,硬盘都没有发现,看来是RAID出问题。于是就决定查看RAID配置是否正常,重新启动当系统自检到RAID卡时,按照提示按CTRL+M进入HP NETRAID Express Tool界面,不同品牌的服务器RAID卡不一样,进入的方式也不一样,,需要自己注意。下图是进入HP NETRAID Express Tool界面的提示:

  按照HP LH3服务器的提示,按CTRL+M进入HP NETRAID Express Tool界面,然后选择“Objects”---->“Physical Drive”如下图:

  回车确认,如下图,可以发现两块硬盘FAIL,RAID-5两块硬盘同时都FAIL的可能性微乎其微。这其中最主要的功能

  RAID5两块硬盘同时损坏的情况是不常见的,因为RAID卡通常都有自保护动作的。比如RAID-5阵列,当阵列卡发现有一块硬盘出现问题的时候,会自动 Degrade(降低RAID级别),系统自检的时候也会出现Degrade提示,这样可以降低风险。当出现RAID中的一块硬盘fail的时候切记不要盲目操作,因为RAID信息是同时保存在RAID卡和硬盘中的,而RAID损坏就是由于RAID卡或者硬盘故障,导致RAID信息不匹配。所以恢复RAID这个操作,实际上就是让RAID卡中的RAID信息和硬盘中的RAID信息同步的过程。针对RAID-5阵列两个硬盘都损坏的情况,一定不能让两块硬盘同时ONLIN,应该每次只选择其中的一块硬盘做ONLIN。这样可以避免不同步的RAID信息被损坏的信息交叉覆盖。如果仅仅一块硬盘FAIL,就让这块硬盘ONLIN。

  首先将ID3硬盘ONLIN,光标选择ID3硬盘,然后回车,选择菜单中的“Make Online”,如下图:

  保存设置后退出“HP NETRAID Express Tool界面”,重新启动计算机,检查是否可以启动系统,如果启动过程没有变化,则按照上面的方法使另外一块硬盘ONLIN。两块硬盘分别Online都无法启动系统,到系统自检的时候提示“win2000 系统文件损坏”,这个提示说明RAID已经正常,仅仅是win2000系统启动文件损坏。尽管系统没有启动,但还是有办法把数据库数据备份出来。可以借助一个光盘引导系统来读取服务器硬盘上的数据,这种方法在系统崩溃无法启动时很有用。在这里推荐Winternals公司的光盘工具ERD commander,目前最新版本为ERD commander 2003。ERD commander的功能非常强大。当系统损坏无法启动的时候,利用ERD commander可以直接从光盘引导进入一个类似于windows操作界面的系统,通过这个光盘引导起来的ERD commander系统可以没有限制的访问硬盘上的数据,还能够通过USB设备、网络移动数据,甚至可以修改系统的管理员密码,修复系统错误。详细的信息可以访问获取,也可以通过该网址下载一个ERD Commander试用版。ERD Commander 2003引导起来的系统如下图,和windows的操作界面非常相似。利用其中的“资源管理器”很容易把SQL数据备份出来。关于SQL数据的备份与恢复,以前《网管员世界》上有不少相关的介绍,在这里就不细说,最简单的就是把SQL安装目录下的date文件夹都copy出来,然后在新数据库下用替换法来处理。

  利用ERD Commander光盘引导服务器启动时需要注意提示:按F6加载SCSI或者RAID卡的驱动,否则ERD Commander是无法发现系统硬盘的。ERD Commander是可以识别USB硬盘的,而且支持USB2.0。

  SQL数据是备份后,如果想知道到底是硬盘或者是RAID卡损坏,还需要进一步诊断。如果是RAID卡坏通常是无法再识别RAID的。所以通常是硬盘坏的几率要大。判断服务器具体哪一块硬盘出问题,需要把硬盘接到SCSI方式,因为在RAID机制下所有硬盘是一个整体,你是无法区分具体硬盘的。不同的服务器切换硬盘连接方式是不同的,有的需要打开机箱把硬盘的SCSI数据线从RAID卡上换到SCSI上,有的则仅仅需要在BIOS设置上更改一下就可以。HP LH3就仅仅需要在BIOS中更改就可以,按F2进入HP LH3服务器的BIOS设置,如下图,只要将“Intergraded HP NetRAID”项“Enabled”改为“Disabled”就会将硬盘的连接方式从RAID卡方式改为SCSI卡方式。

  在SCSI方式下,使用硬盘校验工具就可以判断硬盘是否存在问题。HP LH3服务器在SCSI的工具中提供一个硬盘校验工具。启动服务器按Ctrl+C进入SCSI配置工具,选择要校验的硬盘,选择“Verify”就开始校验硬盘。如下图:

  总之,通过这一系列完整的操作过程,RAID故障得到有效处理。采用正确的操作方法,正确的工具,稳妥的操作,是对RAID磁盘阵列进行数据恢复的关键所在。

1279698 发表于 2012-11-30 20:22:37

采用正确的操作方法

1279698 发表于 2012-12-1 10:34:36

RAID故障得到有效处理

丁刚 发表于 2012-12-11 21:21:30

路过学习一下啊。
页: [1]
查看完整版本: 磁盘阵列服务器的数据恢复技术