揭秘“去重”:确保重复数据删除系统的扩展性和可靠性

日期: 2009-11-10 作者:Stephen J. Bigelow翻译:郭镭 来源:TechTarget中国 英文

确保重复数据删除系统的扩展性和可靠性 实施重复数据删除之前,最重要的是考虑系统可扩展性的问题。在存储容量不断增长,去重粒度越来越小的情况下,必须让性能保持在一个可接受的程度,同时还要保证的哈希算法的稳定性,不会因为算法的错误导致去重时出现数据丢失问题。 去重系统在处理一个新的数据单元时,会生成一个新的哈希值,将该值与哈希索引中已经存在的其他值做比较,如果与索引中某个记录完全符合,系统就认为该数据单元属于重复数据。重复的数据单元不会在磁盘上做完整保存,只保留一个与已有数据相关联的片段(或指针)。

如果索引中没有发现与新数据单元相同的哈希值,那么系统认为该数据单元与已有的数据不存在重复,可以正常完整……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

确保重复数据删除系统的扩展性和可靠性

实施重复数据删除之前,最重要的是考虑系统可扩展性的问题。在存储容量不断增长,去重粒度越来越小的情况下,必须让性能保持在一个可接受的程度,同时还要保证的哈希算法的稳定性,不会因为算法的错误导致去重时出现数据丢失问题。

去重系统在处理一个新的数据单元时,会生成一个新的哈希值,将该值与哈希索引中已经存在的其他值做比较,如果与索引中某个记录完全符合,系统就认为该数据单元属于重复数据。重复的数据单元不会在磁盘上做完整保存,只保留一个与已有数据相关联的片段(或指针)。如果索引中没有发现与新数据单元相同的哈希值,那么系统认为该数据单元与已有的数据不存在重复,可以正常完整的做保存。

有时候,即便数据的内容不是重复的,也会出现哈希值完全相同的情况,这种错误的识别,叫做哈希碰撞。哈希碰撞可能会导致数据丢失,通常,有两种减少哈希碰撞的方法,一个是厂商可以选择在去重产品中使用多重哈希算法;如果只有一种哈希算法,那么另一个方法是减小数据的粒度,在bit级执行数据的比对。

注意,以上两种方法也存在一些问题。它们都需要系统付出更多的计算资源、索引的性能会降低、去重处理的过程也更慢。过程更加精细,处理的数据片更小,粒度更低的结果会导致索引变得非常庞大,反过来又增加了碰撞发生的概率,命中率也更低。

最后一个问题是:一个公司在建立存储应用基础架构时,如何评估重复数据删除与传统的压缩、加密技术之间的关系?普通的压缩技术主要针对文件,加密则是扰乱数据内容,使数据被完全随机并且无法被读取。压缩和加密在数据存储方面都发挥着重要的作用,但是如果先用它们消除数据中的冗余部分,则不利于去重的处理。因此,如果我们需要在一个环境中同时使用这三种技术的话,建议首先执行数据去重,然后再做压缩或加密处理。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

相关推荐