data deduplication：

重复数据删除(通常称为/智能压缩/或/ single-itance存储/)是一种方法,减少存储需求通过消除冗余数据。只有一个独特的后的数据实际上是保留在存储介质,如磁盘或磁带。冗余数据被替换为一个指向独特的数据复制。例如,典型的电子邮件系统可能包含100后相同的一个兆字节(MB)文件附件。如果电子邮件平台备份或存档,所有100后保存,需要100 MB的存储空间。重复数据删除的数据,只有一个附件实际存储后,每个后续后只是引用回一个保存副本。在这个例子中,一个100 MB的存储需求可能会减少到只有一个MB .
重复数据删除进攻其他好处。降低磁盘存储空间需求将节省支出。更有效的利用磁盘空间还允许磁盘保留时间长,它提供了更好的恢复时间目标(RTO)时间,减少了磁带备份的必要性。重复数据删除也降低了数据,必须发送跨广域网远程备份、复制和灾难恢复。在实际实践中,经常使用重复数据删除与其他形式的数据简化等传统的压缩和三角洲差分。综上所述,这三种技术可以非常有效的优化存储空间的使用。

在这个视频中,分析师Mike Matchett讨论压缩和重复数据删除技术的好处和解释了两个不同的方式。通常可以进行重复数据删除操作在文件或块级别。文件重复数据删除技术可以消除重复的文件(在上面的示例中),但这不是一个非常有效的多边环境协定的重复数据删除。块重复数据删除技术看起来在一个文件并保存每一块的独特iteratio。每个块的数据处理使用如MD5和sha – 1哈希算法。这一过程为每一块然后生成一个惟一的编号存储在索引中。如果一个文件被更新时,只保存更改的数据。也就是说,如果只有几个字节的文档或演示改变,只有改变块保存,不要cotitute变化一个全新的文件。这种行为使得块重复数据删除技术更有效。然而,块重复数据删除技术需要更多的处理能力和使用更大的指数跟踪.@各个部分!散列collisio与重复数据删除一个潜在的问题。当一段数据接收到一个散列数字,这个数字就与其他现有的索引hash numbe相比。如果散列数量已经在索引中,coidered重复的数据,不需要存储一次。否则新散列添加到索引数量和新的数据存储。在极少数情况下,哈希算法可能产生相同的散列数量为两个不同的数据块。当散列碰撞的职业时,系统不会存储新的数据,因为它看到哈希索引已经存在数量. .这就是所谓的假阳性,可能导致数据丢失。一些vendo散列算法结合,减少一个散列碰撞的可能性。一些vendo也检查元数据来识别和防止collisio .
这是适合发表在2010年7月

最近更新时间：2015-11-30 EN

data deduplication：

取消回复

相关推荐

虚拟机粒度的灾难恢复存在哪些挑战？

是时候重新思考软件定义存储了

NVMe over Fabrics如何改变存储环境？【深度】

职场观：IT人才与企业之间的拉锯战