版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分布式大數(shù)據(jù)的管理分布式大數(shù)據(jù)的管理大數(shù)據(jù)研究大數(shù)據(jù)研究2/22主要內(nèi)容數(shù)據(jù)管理需求分析1分布式數(shù)據(jù)管理技術(shù)概覽以及目前的應(yīng)用2網(wǎng)格環(huán)境下的數(shù)據(jù)管理系統(tǒng)及其成熟產(chǎn)品3云計(jì)算與云存儲模式43/22數(shù)據(jù)快速增長v 數(shù)據(jù)量增長到底有多快?視頻、音頻、圖片v EMC&IDC報(bào)告“數(shù)字宇宙十年你是否準(zhǔn)備好(2010.5.5)”稱2010年數(shù)據(jù)量相當(dāng)于750億部16GB的iPad: 擺滿北京國家體育場(鳥巢)15.5次, 倫敦溫布利體育場 41次, 臺北101大樓23次, LHC隧道151次 全球每人平均擁有11臺iPad ??怂闺娨暸_熱門電視連續(xù)劇24小時(shí)連續(xù)播放1.25億年 數(shù)據(jù)量達(dá)到1.2Z
2、B1MB=1024KB 1GB=1024MB1TB=1024GB 1PB=1024TB1EB=1024PB 1ZB=1024EB4/22高能物理數(shù)據(jù)量v Hepix 2010 14個(gè)主要站點(diǎn)在線存儲空間達(dá)到87PB,而2007年才14PB,增加了5倍倍多v WLCG 在線存儲:62PB,近線存儲:58PBv 大型實(shí)驗(yàn) LHC: 15PB/year BES: 累積5PB5PB光盤5/22數(shù)據(jù)管理需求v數(shù)據(jù)量大 存的下v高速訪問 取得到v廣域分布 易分享v長期保存 存的妥6/22數(shù)據(jù)存儲技術(shù)v在IT界,存儲技術(shù)一直很火,為什么? 看似簡單的需求,實(shí)際上要求很高 數(shù)據(jù)存儲技術(shù)從軟件到硬件都在不斷發(fā)展
3、,以滿足需求v存儲連接方式 單機(jī)存儲(DAS) 網(wǎng)絡(luò)存儲(NAS, SAN)v存儲管理軟件 本地存儲系統(tǒng) 分布式網(wǎng)絡(luò)存儲系統(tǒng)7/22存儲連接方式v 直接連接存儲 DAS: Direct-Attached Storage 計(jì)算與存儲集中v 網(wǎng)絡(luò)存儲 FAS: Fabric-Attached Storage 存儲與計(jì)算分離存儲與計(jì)算分離(一場革命)(一場革命)存儲設(shè)備文件系統(tǒng)應(yīng)用軟件存儲設(shè)備文件系統(tǒng)應(yīng)用軟件存儲設(shè)備文件系統(tǒng)應(yīng)用軟件網(wǎng)絡(luò)FC/GbEDASNASSAN8/22存儲管理軟件v存儲設(shè)備連接方式的變化,存儲管理軟件也隨之發(fā)展v本地文件系統(tǒng) 管理本地的存儲系統(tǒng),為本地的應(yīng)用服務(wù) 在DAS以及S
4、AN服務(wù)器上比較常見v分布式網(wǎng)絡(luò)存儲管理系統(tǒng) 將分布在網(wǎng)絡(luò)上的存儲設(shè)備統(tǒng)一管理,為多個(gè)連接在網(wǎng)絡(luò)上的應(yīng)用服務(wù) NAS服務(wù)器上的網(wǎng)絡(luò)文件系統(tǒng)(NFS,CIFS)以及分布式文件系統(tǒng)(AFS, Lustre)等v趨勢:數(shù)據(jù)量爆炸性的增長、計(jì)算模式的集群化發(fā)展、開放標(biāo)準(zhǔn)的存儲設(shè)備,導(dǎo)致存儲系統(tǒng)朝著集群化、分布式的方向發(fā)展9/22典型的高能物理存儲環(huán)境計(jì)算集群計(jì)算網(wǎng)絡(luò)存儲網(wǎng)絡(luò)存儲網(wǎng)絡(luò)磁盤服務(wù)器磁帶庫磁帶服務(wù)器存儲設(shè)備連接磁盤陣列存儲網(wǎng)絡(luò)與計(jì)算網(wǎng)絡(luò)分離;存儲設(shè)備與存儲服務(wù)器是網(wǎng)絡(luò)分布的;普遍采用基于磁盤-磁帶的分級存儲;采用分布式存儲管理軟件來管理存儲空間10/22分布式存儲系統(tǒng)典型結(jié)構(gòu)用戶態(tài)內(nèi)核態(tài)客戶端
5、元數(shù)據(jù)服務(wù)器I/O服務(wù)器傳輸流與控制流的分離I/O服務(wù)器集群化分布,易于實(shí)現(xiàn)性能和容量的雙向增長元數(shù)據(jù)服務(wù)器統(tǒng)一管理,提供統(tǒng)一存儲空間11/22存儲管理的功能組件磁盤磁帶數(shù)據(jù)分發(fā)POSIX I/O集群文件系統(tǒng)聚合訪問分級存儲管理傳輸流管理認(rèn)證/授權(quán)磁帶調(diào)度邏輯連接名字空間介質(zhì)遷移錯(cuò)誤處理I/O調(diào)度數(shù)據(jù)遷移帶寬預(yù)留磁盤池磁帶庫管理12/22分布式存儲管理系統(tǒng)v共享Home目錄 AFS, NFSv大型實(shí)驗(yàn)數(shù)據(jù)空間 GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSSv磁帶遷移 HPSS, TSM, ENSTORE, CASTOR/STAGER13/22困惑v有這么多
6、的系統(tǒng)可以選擇,是否值得高興呢? 值得高興是肯定的,因?yàn)橛邢到y(tǒng)可以用,但是同樣也有不少困惑v困惑一:如何選擇? 可擴(kuò)展性 客戶端訪問協(xié)議 軟件是否能夠長期維護(hù)?v困惑二: 眾多的存儲系統(tǒng),在網(wǎng)格環(huán)境下如何管理? 網(wǎng)格強(qiáng)調(diào):局部自治,全局統(tǒng)一 因此,對于這點(diǎn),不再僅僅是困惑,而是一個(gè)必須要解決的問題!14/22SRMv 既然大家不能統(tǒng)一使用同一個(gè)存儲系統(tǒng),就只能通過標(biāo)準(zhǔn)化來解決v CERN, FNAL, DESY, INFN等單位成立標(biāo)準(zhǔn)工作組,制定了SRM(Storage Resource Manager )接口標(biāo)準(zhǔn) 包括了空間管理、文件管理、數(shù)據(jù)傳輸、協(xié)議發(fā)現(xiàn)等多組函數(shù)dCache(FNAL
7、)DPM(IHEP)CASTOR(CERN)SRM通過統(tǒng)一的SRM接口同各種存儲系統(tǒng)交互;可以在目標(biāo)系統(tǒng)預(yù)留空間;可以調(diào)用相應(yīng)的協(xié)議傳輸文件LUSTRE(CNAF)15/22WLCG網(wǎng)格存儲管理VO 數(shù)據(jù)管理系統(tǒng)文件傳輸服務(wù)FTS (Tier 0)網(wǎng)格文件目錄文件傳輸服務(wù)FTS(Tier 1)Tier 0站點(diǎn)存儲(CASTOR)SRM接口Tier 1站點(diǎn)存儲(dCache)SRM接口Tier 2站點(diǎn)存儲(Lustre)SRM接口大規(guī)模數(shù)據(jù)傳輸通信與認(rèn)證高速網(wǎng)絡(luò)(10Gb)高速網(wǎng)絡(luò)(1Gb)16/22其它領(lǐng)域v 以上的方案在高能物理領(lǐng)域應(yīng)用非常廣泛v 高能物理只是大規(guī)模分布式數(shù)據(jù)應(yīng)用的其中一個(gè),
8、還有更多的領(lǐng)域,比如搜索、社交網(wǎng)站、WEB2.0等等v 每個(gè)領(lǐng)域的解決方案各有不同,但是核心都是采用分布式數(shù)據(jù)管理技術(shù)v 隨著數(shù)據(jù)量的快速增長以及計(jì)算模式的改變,Google、Yahoo等公司,推出了以GFS、HDFS等為代表云計(jì)算存儲v 試想這么一個(gè)例子:從一個(gè)1TB的文件中統(tǒng)計(jì)包含“IHEP”的行,如何來做?僅網(wǎng)絡(luò)傳輸數(shù)據(jù)就需要大量時(shí)間!17/22HadoopvHadoop文件系統(tǒng)HDFS將文件分成若干個(gè)數(shù)據(jù)塊,并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中MapReduce就可以在它們所在的節(jié)點(diǎn)上處理這些數(shù)據(jù)18/22MapReduce簡單過程v傳統(tǒng)的做法Cat input | grep IHEP
9、| sort| uniq c |cat outputvMapReduceInput | Map | shuffle&sort | Reduce | OutputInput0Input1Input2Map0Map0Map0Reduce0Reduce1Out1shuffle19/22計(jì)算與存儲的協(xié)同v以GFS、HDFS等為代表云計(jì)算存儲系統(tǒng)在設(shè)計(jì)時(shí)普遍遵守一個(gè)前提:“移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)劃算”v存儲系統(tǒng)在存儲數(shù)據(jù)時(shí)把數(shù)據(jù)切成小塊,任務(wù)調(diào)度器把計(jì)算任務(wù)正好調(diào)度到有數(shù)據(jù)的地方,直接在本地做計(jì)算,免去網(wǎng)絡(luò)傳輸v計(jì)算與存儲的協(xié)同統(tǒng)一,是一次新的變革。事物的發(fā)展總是波浪式前進(jìn)、螺旋式的上升20/22其它特點(diǎn)v 可靠性設(shè)計(jì) 設(shè)計(jì)時(shí)認(rèn)為:”硬件故障是常態(tài)” 存儲系統(tǒng)有成千上百個(gè)節(jié)點(diǎn)組成,壞掉任何一個(gè)對系統(tǒng)運(yùn)行沒有任何影響 機(jī)架感知的復(fù)制策略 故障檢測:心跳包、塊報(bào)告、完整性檢測v 存儲空間自動(dòng)平衡 存儲節(jié)點(diǎn)需要頻繁更換或增加 新增節(jié)點(diǎn)或更換節(jié)點(diǎn),副本會自動(dòng)增加,并保證各個(gè)節(jié)點(diǎn)間的水位平衡v 簡單一致性模型 以支持“一次寫入多次讀取”的訪問模型為主,大大簡化數(shù)據(jù)一致性問題,使得高吞吐量的數(shù)據(jù)訪問成為可能21/22小結(jié)v數(shù)據(jù)爆炸性增長對存儲系統(tǒng)提出了持續(xù)的需求,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年數(shù)據(jù)錄入短期工派遣合同樣本
- 2024年新修訂版:國際航空貨運(yùn)協(xié)議
- 2024年技術(shù)合作保密及排他性協(xié)議
- 2024年文化藝術(shù)品展覽與拍賣服務(wù)合同
- 2024年政工程資料咨詢合同
- 2024年新式洗車服務(wù)經(jīng)營承包合同
- DB4117T 278-2020 機(jī)械粒收玉米品種鄭原玉432簡化生產(chǎn)技術(shù)規(guī)程
- DB4117T 217.6-2019 動(dòng)物疫病緊急流行病學(xué)調(diào)查技術(shù)指南 第6部分 雞新城疫
- 2024全新網(wǎng)站建設(shè)合同(含功能需求與技術(shù)支持)
- 2024年衛(wèi)星導(dǎo)航定位系統(tǒng)合同
- 江蘇省示范性縣級教師發(fā)展中心建設(shè)標(biāo)準(zhǔn)
- (完整版)機(jī)場報(bào)批程序指南(流程)
- 小學(xué)低年級數(shù)棋教案
- 長鏈、中鏈脂肪乳區(qū)別
- 起重吊裝作業(yè)指導(dǎo)書
- pMD19-T載體說明書
- 客戶投訴產(chǎn)品質(zhì)量問題處理
- 足球 課件 (共14張PPT)
- 對相對性狀的雜交實(shí)驗(yàn)ppt課件
- 快時(shí)尚服裝品牌的營銷策略分析以zara為例
- 能源調(diào)度管理要點(diǎn)
評論
0/150
提交評論