区分重复删除技术,增量备份和数据压缩

[复制链接]
  • TA的每日心情
    开心
    2023-12-15 09:13
  • 签到天数: 55 天

    [LV.5]六品通判

    1197

    主题

    1965

    回帖

    13万

    积分

    Administrator

    分子与原子计算公式

    Rank: 9Rank: 9Rank: 9

    积分
    132063

    终身成就奖优秀斑竹奖宣传大使奖特殊贡献奖

    QQ
    发表于 2007-6-10 18:24:09 | 显示全部楼层 |阅读模式
      随着数据量的不断增长,数据存储安全的重要性开始逐渐被越来越多的人所重视,在数据存储安全性方面,数据备份的重要作用越来越得到体现。在数据存储中,各种病毒,非法操作,误操作,自然灾害都会造成大量的数据损失。据统计,硬件故障,软件错误以及人的误操作是数据丢失的最主要原因。50%以上的数据丢失是由于硬件故障或软件错误造成的,剩下的数据丢失由人的错误操作造成,很小的一部分数据丢失才是由病毒类产生。因此,数据备份的逐渐成为存储技术中非常重要的研究和发展部分。

       在数据备份的领域,各种技术和概念层出不穷,许多的用户想要完全理解和分清相互之间的概念是比较困难的一件事情,特别是最近比较流行的重复删除技术和增量备份技术,还有数据压缩技术的相互区别和联系,这几个技术的概念本身比较容易混淆,我们从技术本身的特点和相互涉及的应用领域分析这几个概念。

    增量备份

       首先我们谈谈传统的数据备份技术——增量备份(incremental backup)。增量备份主要是解决完全备份中对备份容量要求巨大和备份的时效性比较差的两个问题提出的解决方案。增量备份只备份相对与上一次备份操作以来新创建或者更新过的数据。因为在特定的时间段内只有少量的文件发生改变,没有重复的备份数据,既节省了存储空间,又缩短了备份的时间。因而这种备份方法比较经济,可以频繁的进行。

       典型的增量备份方案是在偶尔进行完全备份后,频繁的进行增量备份。但是在增量备份系统中,一旦发生数据丢失或文件误删除操作时,恢复工作会比较麻烦,因为恢复操作需要查询一系列的备份文件,从最后一次完全备份开始,将记录在一次或多次的增量备份中的改变应用到文件上,增量备份的恢复需要多份的备份文件才可以完成。多个备份文件间的关系就像链条,一环扣一环,其中任何一个备份文件出现问题都会导致整个链条脱节,所以增量备份的可靠性比较差,这种备份方式早期也常常在磁带技术中采用。

    数据压缩

       我们常说的数据压缩技术就更加贴近信息存储的本质,在信息数字化的过程中,数据压缩技术是起了非常大的作用。各种信息的数字化的过程就是采样,量化和编码的过程,基于这些处理过程中产生的各种冗余,像时间冗余,空间冗余,结构化冗余和知识冗余,数字压缩技术可以有效的消除各种冗余带来的容量的损失,将数据表现的方式优化。

       这也是基本的信息数字化所使用的手段。在音频和视频的数字化中使用的数字压缩技术更广泛,这是一种基本技术,而增量备份只是数据保护过程中的一种策略,两个概念的层次都不一样。所以在这个概念的理解上不能有混淆,要分清楚。
  • TA的每日心情
    开心
    2023-12-15 09:13
  • 签到天数: 55 天

    [LV.5]六品通判

    1197

    主题

    1965

    回帖

    13万

    积分

    Administrator

    分子与原子计算公式

    Rank: 9Rank: 9Rank: 9

    积分
    132063

    终身成就奖优秀斑竹奖宣传大使奖特殊贡献奖

    QQ
     楼主| 发表于 2007-6-10 18:24:51 | 显示全部楼层
    重复数据删除

       重复删除技术是最近谈得比较多的热门技术。由于这个概念的产生,造成了大家对这三个概念的混淆,我们首先通过重复删除技术本身的特点分析,分清相互的区别。

       重复数据删除技术其实就是为删除或擦去冗余文件、字节或数据块的流程,确保只有“独有”的数据存储在磁盘上。也就是所谓的容量优化保护技术。重复数据删除通过有效减少后端存储设备中冗余容量占有,解决了“容量膨胀”的效率问题。首先,重复数据删除技术不同于普通的数据压缩技术是通过压缩算法消除文件内的冗余数据来缩减文件大小,而重复数据删除是通过算法消除分布在存储系统中的相同文件或者数据块。其次,重复数据删除技术关键是只保留唯一的数据实例,在减少数据存储量方面更加有效。重复数据删除技术的基本原理是将数据分块筛选,找出相同的数据块并以指向唯一实例的指针取代。

       下图给出了形象的说明

    2007425101927.jpg


       在此图中,重复数据用多个相同颜色的方块来表示。主要目的是相同颜色方块有效减少。重复数据删除处理的对象可以是文件级,块级或者字节级,但是处理的对象粒度越小,系统越复杂,检测数据的消耗越大,但是冗余的程度是最小。根据实际的技术实现,采用块级的重复数据检测和删除,有效性最高。举个例子说明这种技术的应用,比方说有用户生成了10MB的图片资料文件,然后用附件方式电邮给公司内部10需要的人员,这样在传统的备份过程中,邮件会被完全备份,这样就会消耗10MB×10的磁盘空间,产生了10倍的冗余,而采用重复数据删除技术,可以很方便的将冗余的文件删除,所有其他附件(如重复的拷贝)都被“指针”替代。提高整个系统的存储效率,降低冗余成本。

       重复数据删除技术可以有效减少备份容量需求,从而从多方面实现成本节约。由于备份数据的容量的释放,整个系统可以实现更长时间的数据保留,释放容量意味着可以用更少的存储管理完成更多的备份数据,可以减少用于备份的物理磁盘数量,释放的磁盘容量可以备份其他数据或者延长磁盘上已备份数据的保留期。重复数据删除技术让实际的物理数据量大幅降低,从实现的角度看,重复数据删除技术的产品主要区别于实施重复数据删除的地点和文件被分割的片段大小。看删除操作是否利用服务器本身来完成,或者文件片段的大小、压缩是块级的还是字节级的,这也是目前产品差异性比较集中的地方。

       重复数据删除技术也不是没有弊端,其实在校验过程中,由于每次写入数据时,都要校验所有的数据块,避免重复,这样整个系统的备份延迟时间将会被拉长,数据量越大延迟就会越长。对于效率的影响也是显而易见的。但是重复数据删除技术还是加快了由磁带存储向磁盘存储迁移的步伐。由于大幅度地降低了用户需要备份的数据量,这就使得在备份和恢复应用中,磁盘介质在成本方面与磁带介质之间有了可比性。

    三种概念的比较

       这三个概念各有各的产生过程,数据压缩是整个数据存储的基础,是信息数字化的基本处理方式,具有普遍的概念。增量备份由于其形式和重复数据删除技术有相似的位置,这也是产生概念混淆的原因。

       但是作为一种备份技术的具体实现策略,其概念本身具有很大的局限性,作为一种过去的存储备份方案,其“增量”的特点被间接的借鉴到其他新兴的技术上,重复删除技术就是使用了重复则删除,增量则保存的思想。重复数据删除技术也不是利用传统的数据压缩方式,通过压缩算法消除文件内的冗余数据来缩减文件大小,而是通过算法消除分布在存储系统中的相同文件或者数据块。在备份过程中也是通过将数据分块筛选,只保留唯一的数据实例。

       这些技术的发展和演变也是存储的技术发展的体现,大家在分清相关概念的同时,也可以了解存储整个思路和发展方向的转变。
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表