重复数据删除

目录

  1. 1 重复数据删除
  2. 2 好处
  3. 3 分类
  1. 后处理与在线重复数据删除
  2. 数据格式
  3. 源与目标重复数据删除
  1. 重复数据删除方法
  2. 4 单实例存储
  3. 5 缺点和疑虑

    重复数据删除

    在计算中,重复数据删除是一种消除重复数据重复副本的技术。一个相关且有点同义的术语是单实例(数据)存储。此技术用于提高存储利用率,还可以应用于网络数据传输以减少必须发送的字节数。在重复数据删除过程中,将在分析过程中识别并存储xxx的数据块或字节模式。随着分析的继续,会将其他块与存储的副本进行比较,并且每当发生匹配时,冗余块就会被指向存储块的小引用替换。假设相同的字节模式可能出现数十次,数百次甚至数千次,则可以xxx减少必须存储或传输的数据量。

    重复数据删除与数据压缩算法(例如LZ77和LZ78)不同。压缩算法可以识别单个文件中的冗余数据并对其进行更有效的编码,而重复数据删除的目的是检查大量数据并识别相同的较大部分(例如整个文件或文件的较大部分),然后替换它们与共享副本。例如,典型的电子邮件系统可能包含100个具有相同1 MB(兆字节)文件附件的实例。每次发送电子邮件备份平台后,将保存附件的所有100个实例,需要100 MB的存储空间。使用重复数据删除时,实际上仅存储附件的一个实例。随后的实例将以大约100到1的重复数据删除率引用回保存的副本。重复数据删除通常与数据压缩配合使用以节省更多存储空间:重复数据删除首先用于消除大块重复数据,然后使用压缩来有效地消除重复数据。对每个存储的块进行编码。

    重复数据删除

    好处

    基于存储的重复数据删除减少了给定文件集所需的存储量。在非常相似或什至完全相同的数据的多个副本存储在单个磁盘上的应用程序中,这是一种最常见的方案,它最有效。对于数据备份,给定备份中的大多数数据与以前的备份保持不变。普通备份系统试图通过忽略(或硬链接)未更改的文件或存储差异来利用此漏洞文件之间。但是,这两种方法都无法捕获所有冗余。硬链接对仅以较小方式更改的大文件无济于事,例如电子邮件数据库。差异仅在单个文件的相邻版本中找到冗余。串联网络重复数据删除用于减少端点之间必须传输的字节数,这可以减少所需的带宽量。查看WAN优化了解更多信息。虚拟服务器和虚拟桌面可从重复数据删除中受益,因为它允许名义上将每个虚拟机的单独系统文件合并到单个存储空间中。同时,如果给定的虚拟机自定义文件,则重复数据删除将不会更改其他虚拟机上的文件-诸如硬链接或共享磁盘之类的替代产品不提供这种功能。类似地改善了备份或制作虚拟环境的副本。

    分类

    后处理与在线重复数据删除

    重复数据删除可能会在数据流中“在线”发生,也可能在写入后进行“后处理”。

    使用后处理重复数据删除,新数据首先存储在存储设备上,然后在以后的某个过程中将分析数据以查找重复数据。好处是无需在存储数据之前等待哈希计算和查找完成,从而确保存储性能不会降低。提供基于策略的操作的实现可以使用户能够推迟对“活动”文件进行优化,或者根据类型和位置来处理文件。一个潜在的缺点是重复数据可能会在短时间内不必要地存储,如果系统接近满容量,则可能会出现问题。

    另外,重复数据删除哈希计算可以在线完成:当数据进入目标设备时同步。如果存储系统识别出已存储的块,则仅存储对现有块的引用,而不存储整个新块。

    与重复数据删除相比,在线重复数据删除的优点在于,它需要较少的存储和网络流量,因为从不存储或传输重复数据。不利的一面是,哈希计算的计算量可能很大,从而降低了存储吞吐量。但是,某些具有串联重复数据删除功能的供应商已经展示了能够以高速率执行串联重复数据删除的设备。

    后处理和在线重复数据删除方法经常引起激烈争论。

    数据格式

    SNIA词典确定了两种方法:

    • 与内容无关的重复数据删除-一种重复数据删除方法,不需要了解特定的应用程序数据格式。
    • 内容感知的重复数据删除-一种利用特定应用程序数据格式的知识的重复数据删除方法。

    源与目标重复数据删除

    分类重复数据删除方法的另一种方法是根据它们出现的位置。在创建数据的地方附近发生的重复数据删除称为“源重复数据删除”。当它在数据存储位置附近发生时,称为“目标重复数据删除”。

    源重复数据删除可确保对数据源上的数据进行重复数据删除。这通常直接在文件系统内进行。文件系统将定期扫描创建散列的新文件,并将它们与现有文件的散列进行比较。当找到具有相同散列的文件时,将删除文件副本,新文件将指向旧文件。但是,与硬链接不同,重复的文件被认为是单独的实体,如果以后修改了重复的文件之一,则使用称为写时复制的系统将创建该更改的文件或块的副本。重复数据删除过程对用户和备份应用程序是透明的。备份重复数据删除的文件系统通常会导致重复,导致备份大于源数据。

    可以为复制操作明确声明源重复数据删除,因为无需进行任何计算即可知道所复制的数据需要重复数据删除。这导致在文件系统上形成一种新的“链接”形式,称为reflink(Linux)或clonefile(MacOS),其中使一个或多个inode(文件信息条目)共享它们的部分或全部数据。它的命名类似于在inode级别工作的硬链接和在文件名级别工作的符号链接。[8]各个条目具有不混叠的写时复制行为,即事后更改一个副本不会影响其他副本。[9]微软的ReFS也支持此操作。

    目标重复数据删除是在该位置未生成数据时删除重复数据的过程。这样的示例是连接到SAN / NAS的服务器,SAN / NAS将是服务器的目标(目标重复数据删除)。服务器不知道任何重复数据删除,服务器也是数据生成的重点第二个例子是备份。通常,这将是备份存储,例如数据存储库或虚拟磁带库。

    重复数据删除方法

    重复数据删除实现的一种最常见形式是通过比较数据块以检测重复项来工作。为此,通常为每个数据块分配一个标识,该标识由软件计算得出,通常使用加密哈希函数。在许多实现中,假设如果标识相同,则数据相同,即使由于信鸽原理在所有情况下都不是正确的;其他实现不假定具有相同标识符的两个数据块是相同的,而是实际上验证具有相同标识的数据是相同的。如果软件假设重复数据删除名称空间中已经存在给定标识,或者根据实现方式实际验证两个数据块的身份,则它将用链接替换该重复数据块。

    一旦对数据进行了重复数据删除,则在回读文件时,无论在哪里找到链接,系统都会简单地用引用的数据块替换该链接。重复数据删除过程旨在对最终用户和应用程序透明。

    商业重复数据删除实施的分块方法和体系结构有所不同。

    • 块。在某些系统中,块是由物理层约束(例如WAFL中的 4KB块大小)定义的。在某些系统中,仅比较完整的文件,这称为单实例存储或SIS。通常认为最智能(但占用大量CPU)的分块方法是滑动块。在滑块中,窗口沿文件流传递,以查找更自然发生的内部文件边界。
    • 客户端备份重复数据删除。此过程是在源(客户端)计算机上最初创建重复数据删除哈希计算的过程。与目标设备中已经存在的文件具有相同哈希值的文件不会被发送,目标设备只是创建适当的内部链接来引用重复的数据。这样做的好处是它避免了不必要的数据通过网络发送,从而减少了通信量。
    • 主存储和辅助存储。根据定义,主存储系统旨在获得最佳性能,而不是最低的成本。这些系统的设计标准是提高性能,但要以其他考虑为代价。此外,主存储系统对任何会对性能产生负面影响的操作的容忍度要低得多。同样根据定义,辅助存储系统主要包含数据的重复副本或辅助副本。这些数据副本通常不用于实际的生产操作,因此可以容忍某些性能下降,以换取提高的效率。

    迄今为止,重复数据删除已主要用于辅助存储系统。其原因有两个。首先,重复数据删除需要开销来发现和删除重复数据。在主存储系统中,此开销可能会影响性能。重复数据删除应用于辅助数据的第二个原因是,辅助数据往往具有更多的重复数据。特别是备份应用程序通常会随着时间的流逝产生大量重复数据。

    在系统设计不需要大量开销或不影响性能的某些情况下,重复数据删除已成功部署到主存储中。

    单实例存储

    单实例存储(SIS)是系统获取内容对象的多个副本并将其替换为单个共享副本的功能。这是消除数据重复并提高效率的一种手段。SIS通常在文件系统,电子邮件服务器软件,数据 备份和其他与存储相关的计算机软件中实现。单实例存储是重复数据删除的简单变体。尽管重复数据删除可以在段或子块级别起作用,但是单实例存储在对象级别起作用,从而消除了对象的冗余副本,例如整个文件或电子邮件。

    缺点和疑虑

    一种用于重复数据删除的方法依赖于使用加密哈希函数来识别重复的数据段。如果两个不同的信息生成相同的哈希值,则称为碰撞。冲突的可能性主要取决于哈希长度。因此,引起关注的是,如果发生散列冲突,则可能发生数据损坏,并且没有使用附加的验证手段来验证数据是否存在差异。在线和后处理体系结构都可以对原始数据进行逐位验证,以确保数据完整性。所使用的哈希函数包括一些标准,例如SHA-1,SHA-256等。

    该过程的计算资源强度可能是重复数据删除的缺点。为了提高性能,某些系统同时利用了弱散列和强散列。弱散列的计算速度要快得多,但是散列冲突的风险更大。利用弱散列的系统随后将计算强散列,并将其用作确定它是否实际上是相同数据的决定因素。请注意,与计算和查找哈希值相关的系统开销主要是重复数据删除工作流的功能。重组文件不需要此处理,并且与数据块的重新组装相关的任何增量性能损失都不太可能影响应用程序性能。

    另一个问题是压缩和加密的交互。加密的目的是消除数据中任何可识别的模式。因此,即使基础数据可能是冗余的,也无法对加密的数据进行重复数据删除。

    尽管这不是重复数据删除的缺点,但是当对重复数据删除数据的大型存储库使用不足的安全性和访问验证过程时,就会发生数据泄露。在一些系统中,如典型的与云存储,攻击者可以通过检索知道或猜测所期望的数据的哈希值由其他人所拥有的数据。


    重复数据删除

    相关推荐

    记录链接

    目录 1 记录链接 ▪ 确定性记录链接 ▪ 概率记录链接 ▪ 应用 ▪ 主数据管理 ▪ 数据仓库和商业智能 ▪ 历史研究 ▪ 医学实践与研究记录链接记录链接(RL)是在数据集中查找跨越不同数据源(例如,数据文件、书籍、网站和数据库)引用同一实体的记录的任务。当基于可能共享或可能不共享公共标识符(例如,数据库密钥、URI、国家标识号)的实体加入不同的数据集时,... (继续浏览)

    计算机辅助翻译

    目录 1 计算机辅助翻译 ▪ 概述 ▪ 工具范围 2 工具类型 ▪ 翻译记忆库软件 ▪ 语言搜索引擎软件 ▪ 术语管理软件 ▪ 对齐软件 ▪ 交互式机器翻译 ▪ 增强翻译计算机辅助翻译计算机辅助翻译(CAT)是语言翻译的一种形式,其中人工翻译使用计算机硬件来支持和促进翻译过程。计算机辅助翻译有时也称为计算机辅助翻译,机器辅助翻译或机器辅助翻译(不要与机器翻译... (继续浏览)

    协作翻译

    目录 1 协作翻译 ▪ 定义 2 云计算的翻译协作翻译协作翻译是一种现代翻译技术创建或启用的翻译技术,其中多个参与者可以同时在同一个文档上进行协作,通常共享一个包含协作工具的计算机辅助翻译界面。 协作翻译不应与众包相混淆:尽管两者可以一起使用,但两者有很大不同。定义协作翻译技术经常与众包技术相混淆,即使是从事翻译行业的经理也是如此。协作翻译是指让具有不... (继续浏览)

    协同设计

    目录 1 什么是协同设计 2 协同设计的特点 3 协同设计阶段的软件什么是协同设计协同设计是一个将不同的想法,角色和团队成员聚集在一起的过程。协同设计是一个多阶段的UX(用户体验)过程,涉及由用户反馈制定的计划和策略。UX过程的设计阶段是迭代的。 协作设计与协作营销有关,并且是UX流程的一部分,该流程与设计一起达到不同的阶段,以达到产品或活动的最终目标... (继续浏览)

    媒体心理学

    目录 1 媒体心理学 2 理论 ▪ 情感倾向理论(ADT) ▪ 模拟理论(ST) ▪ 游戏心理理论媒体心理学媒体心理学是心理学的分支和专业领域,其重点是人类行为与媒体和技术的相互作用。媒体心理不仅限于大众媒体或媒体内容;它包括各种形式的媒介传播和与媒体技术有关的行为,例如使用、设计、影响和共享行为。由于技术的进步,该分支是一个相对较新的研究领域。它使用各种批... (继续浏览)

    社区心理学

    目录 1 社区心理学 2 合作与社区优势 3 社区的心理意识 4 教育社区心理学社区心理学研究社区和更广泛的社会中个人的处境,以及个人与社区和社会的关系。社区心理学家试图了解群体,组织和机构,社区和社会中个人的生活质量。他们的目的是通过合作研究和行动来提高生活质量。 社区心理学采用内的各种观点和外心理社区的地址问题,它们内部的关系,以及相关的人们的态度... (继续浏览)

    应用心理学

    目录 1 应用心理学 2 广告 3 临床心理学 4 心理咨询 5 教育心理学 6 环境心理学 7 法医心理学和法律心理学 8 人为因素和人机工程学 9 产业和组织心理学 10 学校心理学 11 社会变革 12 运动心理学 13 交通心理学应用心理学应用心理学是运用心理学方法和科学心理学的发现来解决人类和动物行为和经验的实际问题。心理健康、组织心理学、业务管理... (继续浏览)

    教育心理学

    目录 1 教育心理学 2 适应和学习 ▪ 动机 3 教学技术 4 应用 ▪ 教学 ▪ 咨询培训 5 就业前景 6 研究方法教育心理学教育心理学是与人类学习科学研究有关的心理学分支。从认知和行为的角度对学习过程的研究,使研究人员能够理解智力,认知发展、情感、动机方面的个体差异。自我调节和自我概念,以及它们在学习中的作用。教育心理学领域在很大程度上依赖于定量方法... (继续浏览)

    教学设计

    目录 1 教学设计 2 学习设计 3 动机设计 ▪ 动机概念 4 ARCS模型 ▪ 组件 ▪ 注意 ▪ 相关性 ▪ 信心 ▪ 满意度教学设计教学设计(ID),也称为教学系统设计(ISD),是一种系统地设计,开发和提供数字和物理教学产品和体验的方法,以一致,可靠的方式实现高效,有效,有吸引力,吸引和启发知识的获取。该过程大致包括确定学习者的状态和需求,定义教学... (继续浏览)

    ADDIE

    目录 1 ADDIE 2 ADDIE步骤 ▪ 分析阶段 ▪ 设计阶段 ▪ 开发阶段 ▪ 实施阶段 ▪ 评估阶段ADDIEADDIE是一个教学系统设计(ISD)框架,许多教学设计人员和培训开发人员都使用该框架来开发课程。该名称是它定义的用于构建培训和绩效支持工具的五个阶段的缩写: 分析设计发展历程实作评价当前大多数ISD模型都是ADDIE流程的变体。其他... (继续浏览)

    热线切割泡沫

    目录 1 热线切割泡沫 2 适用于热线切割的泡沫 3 工艺考量 ▪ 电线长度限制 ▪ 速度和温度调整热线切割泡沫热线切割泡沫是用于切割工具聚苯乙烯泡沫和类似的材料。该设备由通常由镍铬合金或不锈钢制成的细而紧的金属线或预成型为所需形状的较粗的线组成,并通过电阻加热至大约200°C(390°F)。当金属丝穿过要切割的材料时,来自金属丝的热量就在接触之前使材料蒸发... (继续浏览)

    空气碳弧切割

    目录 1 空气碳弧切割空气碳弧切割空气碳弧切割,也被称为金属电弧刨削,和先前作为空气弧切割,是一种电弧切割过程,其中金属是切割和熔化由热碳弧的。熔融金属随后通过鼓风去除空气。它使用了可消耗的碳或石墨电极来熔化材料,然后通过喷气将其吹走。 此过程可用于切割各种材料,但最常用于切割和气刨铝、铜、铁、镁、碳和不锈钢。由于金属被气流吹走,因此不需要被氧化。此过... (继续浏览)

    等离子切割

    目录 1 什么是等离子切割 2 处理 3 安全 4 起动方法 5 逆变等离子切割机 6 数控切割方法 7 新技术什么是等离子切割等离子切割是通过加速的热等离子流切割导电材料的过程。用等离子炬切割的典型材料包括钢、不锈钢、铝、黄铜和铜,尽管也可以切割其他导电金属。等离子切割常用于制造车间,汽车维修和修复,工业建筑以及打捞和报废操作。由于切割速度快、精度高、成本... (继续浏览)

    电脑绣花机

    目录 1 电脑绣花机 2 电脑绣花工艺电脑绣花机大多数现代绣花机都是计算机控制的,专门为绣花而设计。工业和商业绣花机以及组合式缝制绣花机都有一个箍紧或框架系统,将绷紧的织物框架区域保持在缝针下方,并自动将其移动以根据预编程的数字绣花花样创建设计。 根据其功能,机器将需要不同程度的用户输入才能读取和缝制绣花设计。绣花机通常只有一根针,要求用户在绣花过程中... (继续浏览)

    机器绣花

    目录 1 机器绣花 2 自由运动机绣机器绣花机械绣花是一种绣花过程,使用缝纫机或绣花机在纺织品上创建图案。它在产品商标、公司广告和制服装饰中用于商业用途。它也用于时装业装饰服装。业余爱好者和手工艺者使用机器刺绣来装饰礼物、服装和家庭装饰。例子包括被子、枕头和壁挂上的设计。 机器绣花有多种类型。自由运动缝纫机刺绣使用基本的曲折缝纫机。设计是手动完成的。大... (继续浏览)

    缝纫机

    目录 1 什么是缝纫机 2 行业竞争 3 市场扩展 4 设计 ▪ 针 ▪ 锁链 ▪ 平缝 ▪ 包缝线 ▪ 曲折针迹 ▪ 进纸机制 ▪ 删除提要 ▪ 差动进给 ▪ 针送 ▪ 步行脚 ▪ 拉马饲料 ▪ 手动提要 5 工业缝纫机 6 社会影响什么是缝纫机缝纫机是用来缝制机器织物带和材料一起螺纹。xxx次工业xxx期间发明了缝纫机,以减少在服装公司中进行的手工缝纫工... (继续浏览)

    永磁变频空压机害怕什么?_百科头条

    永磁变频空压机害怕什么?如今已进入三月份,天气逐渐热起来了,而永磁变频空压机最害怕高温了。特别是夏天,机器的高温更为严重。如果永磁变频空压机在高温环境下长时间运行,将加速润滑油变质,永磁变频空压机机组的排气量将受到严重影响,零件磨损增加,机器使用寿命缩短,如果温升过高,也会导致机器在高温下停止运转。此外,永磁变频空压机退磁是xxx的风险。如果工作温... (继续浏览)

    视觉营销

    目录 1 视觉营销视觉营销视觉营销是研究对象,对象所处的上下文及其相关图像之间关系的学科。代表经济、视觉感知规律和认知心理学之间的学科联系,该主题主要适用于时装和设计等业务。 作为现代营销的重要组成部分,视觉营销致力于研究和分析如何使用图像使对象成为视觉传达的中心。目的是使产品及其视觉传达在战略上联系起来并密不可分,它们的融合才是触及人们,吸引他们并定... (继续浏览)

    利润分享

    目录 1 利润分享 2 欧洲 ▪ 管理层的利润分成 3 美国 4 增益分享利润分享利润分享是指各种激励通过引进计划的企业,要提供直接或间接支付员工依赖于公司的盈利能力,除了员工的常规薪水和xxx。在上市公司中,这些计划通常相当于向员工分配股份。最早的利润分享先驱者之一是英国人西奥多·库克·泰勒(Theodore Cooke Taylor),据称他在1800年... (继续浏览)

    员工持股

    目录 1 员工持股 2 计划类型 ▪ 直接购买计划 ▪ 股票期权 ▪ 限制库存 ▪ 股票增值权 3 员工所有权 ▪ 员工所有制 ▪ 公共服务互助 ▪ 工人合作社员工持股员工持股是公司员工在该公司(或一组公司的母公司)中拥有股份的位置。员工通常通过购股权计划获得股票。这样的计划可以是选择性计划,也可以是全部雇员计划。选择性计划通常只提供给高级管理人员。全员工计... (继续浏览)