




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、 付印金等 : 重復數(shù)據(jù)刪除關鍵技術(shù)研究進展 將 索引和元數(shù)據(jù)存放在 ( ) 設備上 , 以利用其隨機讀的優(yōu)勢 來 改 進 系 統(tǒng) 的 這種采用新 型 存 儲 設 備 來 實 現(xiàn) 系 統(tǒng) 吞 吐 量 吞吐量 的提升的策略簡單有效 , 但隨機寫仍然引起瓶頸 , 也 提高了系統(tǒng)的構(gòu)建成本 在重 復 數(shù) 據(jù) 刪 除 過 程 中 , 索引查詢是影響系統(tǒng) 吞吐量至關重要的 一 環(huán) 而索引結(jié)構(gòu)大容量和缺乏 局部性的特 點 , 使得優(yōu)化重復數(shù)據(jù)刪除系統(tǒng)的 ? 性 能 成 為 難 點 這些策略利用數(shù)據(jù)流中固有的 文件訪問的層次性以及新型存 重復局部性 、 儲介質(zhì)的性能優(yōu)勢來避免重復數(shù)據(jù)刪除系統(tǒng)的索引 查詢瓶頸
2、 , 其巧妙構(gòu) 思 為 我 們 以 后 進 行 重 復 數(shù) 據(jù) 刪 除技術(shù)的研究提供了啟發(fā) 高可靠數(shù)據(jù)配置策略 由于重復數(shù) 據(jù) 刪 除 系 統(tǒng) 中 存 在 數(shù) 據(jù) 共 文件間具有高度的依賴性 , 使得提高數(shù)據(jù)的可靠 享, 性至關重要 如果一個共享的數(shù)據(jù) 則 丟 失, 所有 共 享 該 令 的 文 件 將 都 會 丟 失 數(shù) 據(jù) 丟失而損失的數(shù)據(jù)量 的共 為 享度 大小的乘積 : 和 )糾錯編碼技術(shù) 為獲得更高的數(shù)據(jù)可靠性和更低的存儲容量需 求, 一些研究者將糾 錯 編 碼 技 術(shù) 應 用 到 重 復 數(shù) 據(jù) 刪 除系統(tǒng)上 , 如 糾刪碼( , , ) 和 編 碼 等 公司的 均采用 和 公 司
3、 的 編碼來糾 錯 , 能 在 兩 個 磁 盤 同 時 失 效 時 恢 復 數(shù) 據(jù) 等人提出了重復數(shù)據(jù)刪除存儲系統(tǒng) , 在將變長的數(shù)據(jù) 打包成固定大 小對象的基礎上 , 采用基于 校驗來提高數(shù)據(jù)的 可靠性 公司的 備份存儲系統(tǒng) 采用糾刪 碼 在 存 儲 節(jié) 點 之 間 組 織 數(shù) 據(jù) 來 提 高 可 靠 性 這些糾錯編碼技術(shù)能夠更加節(jié)省存儲空間 , 但在 糾錯過程中需要進行大量的計算 為平 衡 降低 數(shù) 據(jù) 冗余 與 保 持 數(shù) 據(jù) 的高 可 靠 性, 目前的重復數(shù)據(jù)刪除系統(tǒng)只是簡單地應用傳統(tǒng)的副 如何利用重復數(shù)據(jù) 本策略和糾錯編碼 技 術(shù) 來 實 現(xiàn) 刪除系統(tǒng)基于內(nèi)容尋址的特點設計數(shù)據(jù)布局策
4、略以 獲得更多性能和可靠性優(yōu)勢仍然是一個亟待解決的 問題 系統(tǒng)可擴展性 隨著企 業(yè) 存 儲 系 統(tǒng) 的 不 斷 擴 展 , 其容量達到 目前 , 由數(shù)十上 級甚至 級的規(guī)模 百個存儲節(jié)點構(gòu)成大規(guī)模分布式存儲系統(tǒng)在企業(yè)越 盡管重復 數(shù) 據(jù) 刪 除 系 統(tǒng) 能 夠 提 高 資 源 利 來越普遍 但面對如此大容量的存儲空間需求和高吞吐量 用率 , 需求 , 重復數(shù)據(jù)刪除系統(tǒng)必須具有良好的可擴展性 早期的重復數(shù)據(jù)刪除系統(tǒng)往往采用單服務器結(jié) 構(gòu) 如 公司的 和 公 司 的 均采用單服務 器 結(jié) 構(gòu) , 具有配置簡單和 × 重復數(shù)據(jù)刪除操作 的 共 享 度 越 高, 的數(shù)據(jù)縮減比 率 而相應的
5、越 大, 丟失 引起 的 數(shù) 據(jù) 損 失 量 因 此, 如何在降低 也 越 大 數(shù)據(jù)冗余度和提高 數(shù) 據(jù) 可 靠 性 之 間 進 行 平 衡 , 是重 復數(shù)據(jù)刪除技術(shù)研究中一個具有挑戰(zhàn)性的問題 )副本策略 同時最 為保 持 重 復 數(shù) 據(jù) 刪 除 系 統(tǒng) 的 高 可 靠 性 , 小化數(shù)據(jù)冗余 量 , 等 人 提 出 了 一 種 基 于 副 , 本的 策 略 根據(jù)每個 的共享度在設備上 放置不同數(shù)目的副本以提高重復數(shù)據(jù)刪除系統(tǒng)的數(shù) 通過建模 分 析 得 到 為 保 持 重 復 數(shù) 據(jù) 刪 除 據(jù)可靠性 系統(tǒng)的高可靠性 , 每一個 的副本數(shù)目 為 一 個關于 滿足如下關系式 : 共享度 的函數(shù) ,
6、 ( ( ( ) , , , × ) ) 其中 , 分別表 示 不 同 的 空 間 利 用 率 和 和 為常數(shù) , 比 魯棒性 ; 副本數(shù)閾值 為系統(tǒng)中的最大 較數(shù)據(jù)鏡像和本地 壓 縮 相 結(jié) 合 的 傳 統(tǒng) 方 法 , 這種副 本策路能夠獲得更 高 的 可 靠 性 , 同時節(jié)省近一半的 但由于每個 需 存儲空間 至 少 有 兩 個 副 本, 要超過一倍 的 數(shù) 據(jù) 冗 余 量 ; 另 外, 由于 副本 數(shù)目是變 化 的 , 在 讀 寫 數(shù) 據(jù) 時 會 引 起 通 信 開 銷 大、 管理困難等問題 性能低 、 ? 容易管理的優(yōu)點 , 但限制了系統(tǒng)的擴展能力 的研究者設計了利用多個節(jié)點
7、構(gòu)成的服務器集群進 并采 行重 復 數(shù) 據(jù) 刪 除 的 策略 , 用基于內(nèi)存和磁盤的兩級 索引消除系統(tǒng) ? 瓶頸 , 使得重復數(shù)據(jù) 刪 除 系 統(tǒng) 具 有 更 高 的 系 統(tǒng) 擴 展 能力 也 公司設計 的 備 份 系 統(tǒng) 采用服務器集群結(jié) 構(gòu) 進 行 重 復 數(shù) 據(jù) 刪 除 , 并通過分 布 表將數(shù) 據(jù) 均 勻 地 分 配 到 各 個 存 儲 節(jié) 點 上 , 以提高系統(tǒng)的可擴展性 等人設計的重復數(shù)據(jù) 刪除系統(tǒng) 通過 服 務 器 集 群 并 行 的 順 序 索 引查詢和索引更新 來 避 免 隨 機 磁 盤 索 引 查 詢 瓶 頸 , 提高系統(tǒng)的 吞 吐 量 ? 等 人 為 基 于 的 全局重復
8、數(shù)據(jù)刪除陣列設 計 了 一 種 支 , 持服務器集群的可擴展數(shù)據(jù)路 由 策 略 兩個節(jié)點 ( ) 計算機研究與發(fā)展 , 的系統(tǒng)就能存儲下 并達到 級的數(shù)據(jù)量 , 的 吞吐量 隨著數(shù)據(jù)存儲要求的不斷提高以及重復數(shù)據(jù)刪 除技術(shù)應用的廣泛 普 及 , 重復數(shù)據(jù)刪除系統(tǒng)的擴展 性變得越來越重要 如何在集群系統(tǒng)的各個節(jié)點之 間進行負載均 衡 和 優(yōu) 化 來 消 除 系 統(tǒng) 性 能 瓶 頸, ? 這將給我們進行重復數(shù)據(jù)刪除技術(shù)研究帶來更多的 挑戰(zhàn)和機遇 中允許文件間共享 數(shù) 據(jù) 內(nèi) 容 , 給數(shù)據(jù)的安全管理帶 來了隱患 )重復數(shù)據(jù) 刪 除 技 術(shù) 的 誕 生 是 基 于 磁 盤 技 術(shù) 而與此 同 時 新
9、 型 存 儲 介 質(zhì) 也 在 迅 速 發(fā) 的迅速發(fā)展 , 并具有許多磁盤所不具有的優(yōu)點 在構(gòu)建重復數(shù) 展, 據(jù)刪除系統(tǒng)時 , 如何 利 用 這 些 新 型 存 儲 設 備 的 優(yōu) 勢 來提升和優(yōu)化整體系統(tǒng)的性能是值得關注的問題 近年來學術(shù)界對重復數(shù)據(jù)刪除技術(shù)進行了深入 的研究和探討 , 其應 用 范 圍 正 在 從 二 級 存 儲 向 主 存 儲延伸 , 從存儲 領 域 向 通 信 領 域 擴 展 隨 著 綠 色 進程的不斷推進 , 重復數(shù)據(jù)刪除技術(shù)還能走得更遠 , 并成為網(wǎng)絡存儲領域的核心技術(shù) 參 考 文 獻 結(jié)束語和未來研究展望 本文對當前重復數(shù)據(jù)刪除技術(shù)的研究現(xiàn)狀進行 了深入的分析和總
10、結(jié) , 包括重復數(shù)據(jù)刪除系統(tǒng)體系 以及設計和實現(xiàn)具有高數(shù) 結(jié)構(gòu)和基本原理的 介 紹 , 據(jù)縮減率 、 高吞吐量 、 高可靠和可擴展的重復數(shù)據(jù)刪 除系統(tǒng)所涉及的幾項關鍵技術(shù) 通過分析可以看出 , 比較傳統(tǒng)的存儲系 統(tǒng) , 重復數(shù)據(jù)刪除系統(tǒng)能夠刪除 冗余數(shù)據(jù)以節(jié)省數(shù) 據(jù) 存 儲 空 間 , 在遠程數(shù)據(jù)傳輸過 但其缺點也很明顯 , 在線進 程中還能節(jié)省網(wǎng)絡帶寬 行重復數(shù)據(jù)刪除容易引起性能瓶頸 ; 此外 , 由于刪除 了冗余數(shù)據(jù) , 使得數(shù)據(jù)的可靠性降低 如何在利用重 復數(shù)據(jù)刪除技術(shù)優(yōu)點的同時避免這些缺點仍然是一 個富有挑戰(zhàn)的問題 隨著網(wǎng)絡存儲技術(shù)的不斷發(fā)展 , 目前 , 重復數(shù)據(jù) 刪除技術(shù)還存在一些
11、尚未解決的關鍵問題 )盡管目前有各種類型的數(shù)據(jù)劃分策略 , 但都 不能很好 地 解 決 數(shù) 據(jù) 縮 減 率 與 性 能 之 間 的 平 衡 關 系 目前 , 仍然有許多人在為設計更優(yōu)的數(shù)據(jù)劃分策 略而努力 一些研究 者 提 出 基 于 分 層 在 不 同 的 粒 度 分別 應 用 與 之 匹 配 的 劃 分 策 略 來 縮 減 數(shù) 據(jù) 量 , , , , , : ? : ? ? ? ? , : , ? : ? ? ? ? ? , , , ? ? , : , : , , , : , ( ) ( ) ( 敖莉 ,舒繼武 ,李明強 重復數(shù)據(jù)刪除技 術(shù) 軟 件 學 報 , ( ) : ) , , ,
12、? ? , : , : , , , : ? ? , : , : , , ? ? , : , : : , ? ? ? ? , : , : , , : ? ? , : , : , 也許對這 個 問 題 的 解 決 具 有 一 定 的 指 導 意義 , 但目前還沒有成熟的產(chǎn)品來支持這一方案 )由于索引 查 詢 操 作 嚴 重 影 響 了 重 復 數(shù) 據(jù) 刪 除系統(tǒng)的性能 , 索引的查詢優(yōu)化成為當前重 如何通過優(yōu)化元 復數(shù)據(jù)刪除技術(shù)最 熱 門 的 研 究 點 數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)布局來提高性能仍然是重復數(shù) 據(jù)刪除技術(shù)研究亟 須 解 決 的 問 題 特別是為滿足擴 展性 , 在多節(jié)點構(gòu)成的集群系統(tǒng)環(huán)境下
13、, 如何在節(jié)點 間進行負載均衡和 優(yōu)化來消除系統(tǒng)性能瓶頸需 ? 要我們進行更多的研究 )盡管現(xiàn)有 的 數(shù) 據(jù) 保 護 策 略 能 夠 保 證 一 定 的 然而它們具有各自的缺陷 如何在重復 數(shù)據(jù)可靠性 , 數(shù)據(jù)刪除系統(tǒng)讀寫數(shù)據(jù)的過程中保證數(shù)據(jù)完整性和 一致性仍然是個難題 此外 , 由于重復數(shù)據(jù)刪除系統(tǒng) 付印金等 : 重復數(shù)據(jù)刪除關鍵技術(shù)研究進展 ? ? , : , : , , : ? ? ? ; ? ? , , , : ? ? , : , : ? : ? ? ? ? ? ? ? , , ? ? , : , : : ? : ? ? ? ? ? ? , , , ? ? , : , : , , :
14、, ? ? : : , , : ? ? , : , : , , ? ? : , : , , ? ? : , : , , ? ? : , : : , , ? : , ? : , , : , , , , ( ) : , : , , ? ? , : , : : , , , ? ? : , , ? ? , : , : , , ? ? , : , : ? ( ) : , , ? ? , : , : , , , , : , ? ? : , ? ? , : , : : , , , ? ? : , : , ? ? , : , : : , , , ? ? , : , : : , , , , , ? : ? ,
15、: : , , , , ? ? ? , : , : : ? ? ? ? ? ? , : ? ? , : , : : , , ? ? , : , : , , , , : ? ? , : , , , : : , ? ? : : , , , ? ? , : , : , , , ? ? , : , : ( ) 計算機研究與發(fā)展 , , , , , ( ) , , ( ) 計算機研究與發(fā)展 征訂啟事 ( ) 計算機研究與發(fā)展 是中國科學院計算技術(shù)研究所 和中國計算機學會聯(lián)合主辦 、 科學出版社出版的學術(shù)性刊物 , 中國計算機學會會 刊 主要刊登計算機科學技 最新科研成果和重大應用成果 讀者對象為從事計算 機 研 究 與 開 發(fā) 的 研 究 人 員 、 術(shù)領域高水平的學術(shù)論文 、 工程技術(shù)人員 、 各大專院校計算機相關專業(yè)的師生以及高新企業(yè)研發(fā)人員等 計算機研究與發(fā)展 于 是我國第一個計算機刊物 , 現(xiàn)已成 為 我 國 計 算 機 領 域 權(quán) 威 性 的 學 年創(chuàng)刊 , 術(shù)期刊之一 并歷次被評為我國計算機類核心期刊 , 多次被評為 “ 中國百種杰出學術(shù) 期 刊 ” 此 外
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 景區(qū)監(jiān)控布點方案
- 大書店開業(yè)活動方案
- 財務總監(jiān)負責下的財務報表編制與分析聘用合同
- 農(nóng)場水災處理措施方案
- 企業(yè)商標保護課件的意義
- 票據(jù)掃描面試題及答案
- 校醫(yī)防疫面試題及答案
- 2026版《全品高考》選考復習方案生物0502 第14講 第2課時 基因分離定律的拓展應用含答案
- 移動升降車安全操作規(guī)程培訓
- 2025年度校園營養(yǎng)餐配送合作協(xié)議合同范本3篇
- 2025年上半年甘肅慶陽市寧縣人民政府辦公室直屬事業(yè)單位選調(diào)2人易考易錯模擬試題(共500題)試卷后附參考答案
- 高原施工醫(yī)療衛(wèi)生防疫措施
- 《民俗學概論》教材詳細筆記
- 全國中學生(高中)物理競賽初賽試題(含答案)
- 中建涂料外墻保溫施工方案
- 礦山資源鉆探施工協(xié)議
- 質(zhì)量安全總監(jiān)和質(zhì)量安全員考核獎懲制度
- 低壓配電柜及配電箱調(diào)試方案
- 【課件】第五單元化學反應的定量關系新版教材單元分析九年級化學人教版(2024)上冊
- 十堰房縣國有企業(yè)招聘筆試題庫2024
評論
0/150
提交評論