重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展_圖文_第1頁
重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展_圖文_第2頁
重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展_圖文_第3頁
重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展_圖文_第4頁
重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展_圖文_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 付印金等 : 重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展 將 索引和元數(shù)據(jù)存放在 ( ) 設(shè)備上 , 以利用其隨機(jī)讀的優(yōu)勢 來 改 進(jìn) 系 統(tǒng) 的 這種采用新 型 存 儲(chǔ) 設(shè) 備 來 實(shí) 現(xiàn) 系 統(tǒng) 吞 吐 量 吞吐量 的提升的策略簡單有效 , 但隨機(jī)寫仍然引起瓶頸 , 也 提高了系統(tǒng)的構(gòu)建成本 在重 復(fù) 數(shù) 據(jù) 刪 除 過 程 中 , 索引查詢是影響系統(tǒng) 吞吐量至關(guān)重要的 一 環(huán) 而索引結(jié)構(gòu)大容量和缺乏 局部性的特 點(diǎn) , 使得優(yōu)化重復(fù)數(shù)據(jù)刪除系統(tǒng)的 ? 性 能 成 為 難 點(diǎn) 這些策略利用數(shù)據(jù)流中固有的 文件訪問的層次性以及新型存 重復(fù)局部性 、 儲(chǔ)介質(zhì)的性能優(yōu)勢來避免重復(fù)數(shù)據(jù)刪除系統(tǒng)的索引 查詢瓶頸

2、 , 其巧妙構(gòu) 思 為 我 們 以 后 進(jìn) 行 重 復(fù) 數(shù) 據(jù) 刪 除技術(shù)的研究提供了啟發(fā) 高可靠數(shù)據(jù)配置策略 由于重復(fù)數(shù) 據(jù) 刪 除 系 統(tǒng) 中 存 在 數(shù) 據(jù) 共 文件間具有高度的依賴性 , 使得提高數(shù)據(jù)的可靠 享, 性至關(guān)重要 如果一個(gè)共享的數(shù)據(jù) 則 丟 失, 所有 共 享 該 令 的 文 件 將 都 會(huì) 丟 失 數(shù) 據(jù) 丟失而損失的數(shù)據(jù)量 的共 為 享度 大小的乘積 : 和 )糾錯(cuò)編碼技術(shù) 為獲得更高的數(shù)據(jù)可靠性和更低的存儲(chǔ)容量需 求, 一些研究者將糾 錯(cuò) 編 碼 技 術(shù) 應(yīng) 用 到 重 復(fù) 數(shù) 據(jù) 刪 除系統(tǒng)上 , 如 糾刪碼( , , ) 和 編 碼 等 公司的 均采用 和 公 司

3、 的 編碼來糾 錯(cuò) , 能 在 兩 個(gè) 磁 盤 同 時(shí) 失 效 時(shí) 恢 復(fù) 數(shù) 據(jù) 等人提出了重復(fù)數(shù)據(jù)刪除存儲(chǔ)系統(tǒng) , 在將變長的數(shù)據(jù) 打包成固定大 小對象的基礎(chǔ)上 , 采用基于 校驗(yàn)來提高數(shù)據(jù)的 可靠性 公司的 備份存儲(chǔ)系統(tǒng) 采用糾刪 碼 在 存 儲(chǔ) 節(jié) 點(diǎn) 之 間 組 織 數(shù) 據(jù) 來 提 高 可 靠 性 這些糾錯(cuò)編碼技術(shù)能夠更加節(jié)省存儲(chǔ)空間 , 但在 糾錯(cuò)過程中需要進(jìn)行大量的計(jì)算 為平 衡 降低 數(shù) 據(jù) 冗余 與 保 持 數(shù) 據(jù) 的高 可 靠 性, 目前的重復(fù)數(shù)據(jù)刪除系統(tǒng)只是簡單地應(yīng)用傳統(tǒng)的副 如何利用重復(fù)數(shù)據(jù) 本策略和糾錯(cuò)編碼 技 術(shù) 來 實(shí) 現(xiàn) 刪除系統(tǒng)基于內(nèi)容尋址的特點(diǎn)設(shè)計(jì)數(shù)據(jù)布局策

4、略以 獲得更多性能和可靠性優(yōu)勢仍然是一個(gè)亟待解決的 問題 系統(tǒng)可擴(kuò)展性 隨著企 業(yè) 存 儲(chǔ) 系 統(tǒng) 的 不 斷 擴(kuò) 展 , 其容量達(dá)到 目前 , 由數(shù)十上 級甚至 級的規(guī)模 百個(gè)存儲(chǔ)節(jié)點(diǎn)構(gòu)成大規(guī)模分布式存儲(chǔ)系統(tǒng)在企業(yè)越 盡管重復(fù) 數(shù) 據(jù) 刪 除 系 統(tǒng) 能 夠 提 高 資 源 利 來越普遍 但面對如此大容量的存儲(chǔ)空間需求和高吞吐量 用率 , 需求 , 重復(fù)數(shù)據(jù)刪除系統(tǒng)必須具有良好的可擴(kuò)展性 早期的重復(fù)數(shù)據(jù)刪除系統(tǒng)往往采用單服務(wù)器結(jié) 構(gòu) 如 公司的 和 公 司 的 均采用單服務(wù) 器 結(jié) 構(gòu) , 具有配置簡單和 × 重復(fù)數(shù)據(jù)刪除操作 的 共 享 度 越 高, 的數(shù)據(jù)縮減比 率 而相應(yīng)的

5、越 大, 丟失 引起 的 數(shù) 據(jù) 損 失 量 因 此, 如何在降低 也 越 大 數(shù)據(jù)冗余度和提高 數(shù) 據(jù) 可 靠 性 之 間 進(jìn) 行 平 衡 , 是重 復(fù)數(shù)據(jù)刪除技術(shù)研究中一個(gè)具有挑戰(zhàn)性的問題 )副本策略 同時(shí)最 為保 持 重 復(fù) 數(shù) 據(jù) 刪 除 系 統(tǒng) 的 高 可 靠 性 , 小化數(shù)據(jù)冗余 量 , 等 人 提 出 了 一 種 基 于 副 , 本的 策 略 根據(jù)每個(gè) 的共享度在設(shè)備上 放置不同數(shù)目的副本以提高重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù) 通過建模 分 析 得 到 為 保 持 重 復(fù) 數(shù) 據(jù) 刪 除 據(jù)可靠性 系統(tǒng)的高可靠性 , 每一個(gè) 的副本數(shù)目 為 一 個(gè)關(guān)于 滿足如下關(guān)系式 : 共享度 的函數(shù) ,

6、 ( ( ( ) , , , × ) ) 其中 , 分別表 示 不 同 的 空 間 利 用 率 和 和 為常數(shù) , 比 魯棒性 ; 副本數(shù)閾值 為系統(tǒng)中的最大 較數(shù)據(jù)鏡像和本地 壓 縮 相 結(jié) 合 的 傳 統(tǒng) 方 法 , 這種副 本策路能夠獲得更 高 的 可 靠 性 , 同時(shí)節(jié)省近一半的 但由于每個(gè) 需 存儲(chǔ)空間 至 少 有 兩 個(gè) 副 本, 要超過一倍 的 數(shù) 據(jù) 冗 余 量 ; 另 外, 由于 副本 數(shù)目是變 化 的 , 在 讀 寫 數(shù) 據(jù) 時(shí) 會(huì) 引 起 通 信 開 銷 大、 管理困難等問題 性能低 、 ? 容易管理的優(yōu)點(diǎn) , 但限制了系統(tǒng)的擴(kuò)展能力 的研究者設(shè)計(jì)了利用多個(gè)節(jié)點(diǎn)

7、構(gòu)成的服務(wù)器集群進(jìn) 并采 行重 復(fù) 數(shù) 據(jù) 刪 除 的 策略 , 用基于內(nèi)存和磁盤的兩級 索引消除系統(tǒng) ? 瓶頸 , 使得重復(fù)數(shù)據(jù) 刪 除 系 統(tǒng) 具 有 更 高 的 系 統(tǒng) 擴(kuò) 展 能力 也 公司設(shè)計(jì) 的 備 份 系 統(tǒng) 采用服務(wù)器集群結(jié) 構(gòu) 進(jìn) 行 重 復(fù) 數(shù) 據(jù) 刪 除 , 并通過分 布 表將數(shù) 據(jù) 均 勻 地 分 配 到 各 個(gè) 存 儲(chǔ) 節(jié) 點(diǎn) 上 , 以提高系統(tǒng)的可擴(kuò)展性 等人設(shè)計(jì)的重復(fù)數(shù)據(jù) 刪除系統(tǒng) 通過 服 務(wù) 器 集 群 并 行 的 順 序 索 引查詢和索引更新 來 避 免 隨 機(jī) 磁 盤 索 引 查 詢 瓶 頸 , 提高系統(tǒng)的 吞 吐 量 ? 等 人 為 基 于 的 全局重復(fù)

8、數(shù)據(jù)刪除陣列設(shè) 計(jì) 了 一 種 支 , 持服務(wù)器集群的可擴(kuò)展數(shù)據(jù)路 由 策 略 兩個(gè)節(jié)點(diǎn) ( ) 計(jì)算機(jī)研究與發(fā)展 , 的系統(tǒng)就能存儲(chǔ)下 并達(dá)到 級的數(shù)據(jù)量 , 的 吞吐量 隨著數(shù)據(jù)存儲(chǔ)要求的不斷提高以及重復(fù)數(shù)據(jù)刪 除技術(shù)應(yīng)用的廣泛 普 及 , 重復(fù)數(shù)據(jù)刪除系統(tǒng)的擴(kuò)展 性變得越來越重要 如何在集群系統(tǒng)的各個(gè)節(jié)點(diǎn)之 間進(jìn)行負(fù)載均 衡 和 優(yōu) 化 來 消 除 系 統(tǒng) 性 能 瓶 頸, ? 這將給我們進(jìn)行重復(fù)數(shù)據(jù)刪除技術(shù)研究帶來更多的 挑戰(zhàn)和機(jī)遇 中允許文件間共享 數(shù) 據(jù) 內(nèi) 容 , 給數(shù)據(jù)的安全管理帶 來了隱患 )重復(fù)數(shù)據(jù) 刪 除 技 術(shù) 的 誕 生 是 基 于 磁 盤 技 術(shù) 而與此 同 時(shí) 新

9、 型 存 儲(chǔ) 介 質(zhì) 也 在 迅 速 發(fā) 的迅速發(fā)展 , 并具有許多磁盤所不具有的優(yōu)點(diǎn) 在構(gòu)建重復(fù)數(shù) 展, 據(jù)刪除系統(tǒng)時(shí) , 如何 利 用 這 些 新 型 存 儲(chǔ) 設(shè) 備 的 優(yōu) 勢 來提升和優(yōu)化整體系統(tǒng)的性能是值得關(guān)注的問題 近年來學(xué)術(shù)界對重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了深入 的研究和探討 , 其應(yīng) 用 范 圍 正 在 從 二 級 存 儲(chǔ) 向 主 存 儲(chǔ)延伸 , 從存儲(chǔ) 領(lǐng) 域 向 通 信 領(lǐng) 域 擴(kuò) 展 隨 著 綠 色 進(jìn)程的不斷推進(jìn) , 重復(fù)數(shù)據(jù)刪除技術(shù)還能走得更遠(yuǎn) , 并成為網(wǎng)絡(luò)存儲(chǔ)領(lǐng)域的核心技術(shù) 參 考 文 獻(xiàn) 結(jié)束語和未來研究展望 本文對當(dāng)前重復(fù)數(shù)據(jù)刪除技術(shù)的研究現(xiàn)狀進(jìn)行 了深入的分析和總

10、結(jié) , 包括重復(fù)數(shù)據(jù)刪除系統(tǒng)體系 以及設(shè)計(jì)和實(shí)現(xiàn)具有高數(shù) 結(jié)構(gòu)和基本原理的 介 紹 , 據(jù)縮減率 、 高吞吐量 、 高可靠和可擴(kuò)展的重復(fù)數(shù)據(jù)刪 除系統(tǒng)所涉及的幾項(xiàng)關(guān)鍵技術(shù) 通過分析可以看出 , 比較傳統(tǒng)的存儲(chǔ)系 統(tǒng) , 重復(fù)數(shù)據(jù)刪除系統(tǒng)能夠刪除 冗余數(shù)據(jù)以節(jié)省數(shù) 據(jù) 存 儲(chǔ) 空 間 , 在遠(yuǎn)程數(shù)據(jù)傳輸過 但其缺點(diǎn)也很明顯 , 在線進(jìn) 程中還能節(jié)省網(wǎng)絡(luò)帶寬 行重復(fù)數(shù)據(jù)刪除容易引起性能瓶頸 ; 此外 , 由于刪除 了冗余數(shù)據(jù) , 使得數(shù)據(jù)的可靠性降低 如何在利用重 復(fù)數(shù)據(jù)刪除技術(shù)優(yōu)點(diǎn)的同時(shí)避免這些缺點(diǎn)仍然是一 個(gè)富有挑戰(zhàn)的問題 隨著網(wǎng)絡(luò)存儲(chǔ)技術(shù)的不斷發(fā)展 , 目前 , 重復(fù)數(shù)據(jù) 刪除技術(shù)還存在一些

11、尚未解決的關(guān)鍵問題 )盡管目前有各種類型的數(shù)據(jù)劃分策略 , 但都 不能很好 地 解 決 數(shù) 據(jù) 縮 減 率 與 性 能 之 間 的 平 衡 關(guān) 系 目前 , 仍然有許多人在為設(shè)計(jì)更優(yōu)的數(shù)據(jù)劃分策 略而努力 一些研究 者 提 出 基 于 分 層 在 不 同 的 粒 度 分別 應(yīng) 用 與 之 匹 配 的 劃 分 策 略 來 縮 減 數(shù) 據(jù) 量 , , , , , : ? : ? ? ? ? , : , ? : ? ? ? ? ? , , , ? ? , : , : , , , : , ( ) ( ) ( 敖莉 ,舒繼武 ,李明強(qiáng) 重復(fù)數(shù)據(jù)刪除技 術(shù) 軟 件 學(xué) 報(bào) , ( ) : ) , , ,

12、? ? , : , : , , , : ? ? , : , : , , ? ? , : , : : , ? ? ? ? , : , : , , : ? ? , : , : , 也許對這 個(gè) 問 題 的 解 決 具 有 一 定 的 指 導(dǎo) 意義 , 但目前還沒有成熟的產(chǎn)品來支持這一方案 )由于索引 查 詢 操 作 嚴(yán) 重 影 響 了 重 復(fù) 數(shù) 據(jù) 刪 除系統(tǒng)的性能 , 索引的查詢優(yōu)化成為當(dāng)前重 如何通過優(yōu)化元 復(fù)數(shù)據(jù)刪除技術(shù)最 熱 門 的 研 究 點(diǎn) 數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)布局來提高性能仍然是重復(fù)數(shù) 據(jù)刪除技術(shù)研究亟 須 解 決 的 問 題 特別是為滿足擴(kuò) 展性 , 在多節(jié)點(diǎn)構(gòu)成的集群系統(tǒng)環(huán)境下

13、, 如何在節(jié)點(diǎn) 間進(jìn)行負(fù)載均衡和 優(yōu)化來消除系統(tǒng)性能瓶頸需 ? 要我們進(jìn)行更多的研究 )盡管現(xiàn)有 的 數(shù) 據(jù) 保 護(hù) 策 略 能 夠 保 證 一 定 的 然而它們具有各自的缺陷 如何在重復(fù) 數(shù)據(jù)可靠性 , 數(shù)據(jù)刪除系統(tǒng)讀寫數(shù)據(jù)的過程中保證數(shù)據(jù)完整性和 一致性仍然是個(gè)難題 此外 , 由于重復(fù)數(shù)據(jù)刪除系統(tǒng) 付印金等 : 重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展 ? ? , : , : , , : ? ? ? ; ? ? , , , : ? ? , : , : ? : ? ? ? ? ? ? ? , , ? ? , : , : : ? : ? ? ? ? ? ? , , , ? ? , : , : , , :

14、, ? ? : : , , : ? ? , : , : , , ? ? : , : , , ? ? : , : , , ? ? : , : : , , ? : , ? : , , : , , , , ( ) : , : , , ? ? , : , : : , , , ? ? : , , ? ? , : , : , , ? ? , : , : ? ( ) : , , ? ? , : , : , , , , : , ? ? : , ? ? , : , : : , , , ? ? : , : , ? ? , : , : : , , , ? ? , : , : : , , , , , ? : ? ,

15、: : , , , , ? ? ? , : , : : ? ? ? ? ? ? , : ? ? , : , : : , , ? ? , : , : , , , , : ? ? , : , , , : : , ? ? : : , , , ? ? , : , : , , , ? ? , : , : ( ) 計(jì)算機(jī)研究與發(fā)展 , , , , , ( ) , , ( ) 計(jì)算機(jī)研究與發(fā)展 征訂啟事 ( ) 計(jì)算機(jī)研究與發(fā)展 是中國科學(xué)院計(jì)算技術(shù)研究所 和中國計(jì)算機(jī)學(xué)會(huì)聯(lián)合主辦 、 科學(xué)出版社出版的學(xué)術(shù)性刊物 , 中國計(jì)算機(jī)學(xué)會(huì)會(huì) 刊 主要刊登計(jì)算機(jī)科學(xué)技 最新科研成果和重大應(yīng)用成果 讀者對象為從事計(jì)算 機(jī) 研 究 與 開 發(fā) 的 研 究 人 員 、 術(shù)領(lǐng)域高水平的學(xué)術(shù)論文 、 工程技術(shù)人員 、 各大專院校計(jì)算機(jī)相關(guān)專業(yè)的師生以及高新企業(yè)研發(fā)人員等 計(jì)算機(jī)研究與發(fā)展 于 是我國第一個(gè)計(jì)算機(jī)刊物 , 現(xiàn)已成 為 我 國 計(jì) 算 機(jī) 領(lǐng) 域 權(quán) 威 性 的 學(xué) 年創(chuàng)刊 , 術(shù)期刊之一 并歷次被評為我國計(jì)算機(jī)類核心期刊 , 多次被評為 “ 中國百種杰出學(xué)術(shù) 期 刊 ” 此 外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論