




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
分布式存儲在數(shù)據(jù)治理場景中的價值【摘要】本文通過對分布式存儲的發(fā)展路徑、架構(gòu)類型、分布式理論,以及在數(shù)據(jù)治理場景中的實(shí)踐進(jìn)行闡述,探討分布式存儲技術(shù)在數(shù)據(jù)治理體系中發(fā)揮怎樣的價值。引言隨著信息技術(shù)呈現(xiàn)井噴式發(fā)展,尤其以數(shù)字經(jīng)濟(jì)為代表的IT新基建將成為新經(jīng)濟(jì)的發(fā)展動能。同時以云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等為代表的數(shù)字技術(shù)不斷涌現(xiàn),快速向各領(lǐng)域進(jìn)行融合滲透。在技術(shù)導(dǎo)向更為明顯的今天,以數(shù)據(jù)為核心的數(shù)字化轉(zhuǎn)型已是大勢所趨。在筆者所在的金融領(lǐng)域,更是數(shù)據(jù)密集型行業(yè),無論在企業(yè)經(jīng)營的方方面面,所積累的海量數(shù)據(jù)資源,通過對這些數(shù)字資產(chǎn)進(jìn)行管理、應(yīng)用、治理,并運(yùn)用到內(nèi)部管理、過程優(yōu)化、業(yè)務(wù)運(yùn)營和數(shù)字反饋等多個領(lǐng)域。由于異常的存在,分布式存儲系統(tǒng)設(shè)計(jì)時往往會將數(shù)據(jù)冗余存儲多份,每一份稱為一個副本。這樣,當(dāng)某一個節(jié)點(diǎn)出現(xiàn)故障時,可以從其他副本上讀到數(shù)據(jù)。可以這么認(rèn)為,副本是分布式存儲系統(tǒng)容錯技術(shù)的唯一手段。由于多個副本的存在,如何保證副本之間的一致性是整個分布式系統(tǒng)的理論核心。數(shù)據(jù)一致性在平常軟件開發(fā)的術(shù)語中能經(jīng)??匆?,一般可以分成三種類型,分別為時間一致性、事務(wù)一致性和數(shù)據(jù)一致性。時間一致性,顧名思義,要求所有數(shù)據(jù)組件的數(shù)據(jù)在任意時刻都是完全一致的。事務(wù)一致性,只能存在在事務(wù)開始前的和事務(wù)完成之后,在事務(wù)過程中數(shù)據(jù)有可能不一致,舉一個簡單的例子進(jìn)行說明。在銀行轉(zhuǎn)賬過程中,甲轉(zhuǎn)固定金額一萬元給乙,甲的賬戶金額扣減一萬,乙的賬戶金額加上一萬,在事務(wù)開始前和事務(wù)完成之后都能保證甲和乙的帳是對上的,那么這就是事務(wù)一致性,但是在事務(wù)過程中有可能會出現(xiàn)甲的賬戶金額扣減一萬,乙的賬戶金額沒有增加一萬的情況,這就是事務(wù)一致性出現(xiàn)問題。數(shù)據(jù)一致性,在應(yīng)用程序中涉及多個不同的單機(jī)事務(wù),只有在所有的單機(jī)事務(wù)完成之前和完成之后,數(shù)據(jù)是完全一致的。2、數(shù)據(jù)分布分布式系統(tǒng)區(qū)別于傳統(tǒng)單機(jī)系統(tǒng)在于能夠?qū)?shù)據(jù)分布到多個節(jié)點(diǎn),并在多個節(jié)點(diǎn)之間實(shí)現(xiàn)負(fù)載均衡。數(shù)據(jù)分布的方式主要有兩種,一種是哈希分布,如一致性哈希,代表系統(tǒng)為Amazon的Dynamo系統(tǒng),Openstack的Swift系統(tǒng);另夕f—種方法是順序分布,即每張表格上的數(shù)據(jù)按照主鍵整體有序,代表系統(tǒng)為Google的Bigtable系統(tǒng)。Bigtable將一張大表根據(jù)主鍵切分為有序的范圍,每個有序范圍是一個子表。3、復(fù)制為了保證分布式存儲系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲多個副本。當(dāng)某個副本所在的存儲節(jié)點(diǎn)出現(xiàn)故障時,分布式存儲系統(tǒng)能夠自動將服務(wù)切換到其他的副本,從而實(shí)現(xiàn)自動容錯。分布式存儲系統(tǒng)通過復(fù)制協(xié)議將數(shù)據(jù)同步到多個存儲節(jié)點(diǎn),并確保多個副本之間的數(shù)據(jù)一致性。4、分布式協(xié)議分布式協(xié)議有很多,其中以兩階段提交和Paxos協(xié)議最具代表性。兩階段提交協(xié)議(2PC)或三階段提交(3PC)用于保證跨多個節(jié)點(diǎn)操作的原子性,也就是說,跨多個節(jié)點(diǎn)的操作要么在所有節(jié)點(diǎn)上全部執(zhí)行成功,要么全部失敗。Paxos協(xié)議用于確保多個節(jié)點(diǎn)對某個投票(例如哪個節(jié)點(diǎn)為主節(jié)點(diǎn))達(dá)成一致。七、分布式存儲在數(shù)據(jù)治理過程中的定位為構(gòu)建數(shù)據(jù)治理體系,企業(yè)不僅要結(jié)合業(yè)務(wù)需求合理規(guī)劃,更要依托信息技術(shù)疏理數(shù)據(jù)內(nèi)容、安全存儲數(shù)據(jù)、高效利用數(shù)據(jù),存儲系統(tǒng)必然是重要支撐?,F(xiàn)階段,多數(shù)企業(yè)傾向于通過搭建數(shù)據(jù)湖(DataLake)來存儲包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的數(shù)據(jù)資源,以供上層調(diào)用。這樣一來,分布式存儲在企業(yè)數(shù)據(jù)治理體系中,無疑扮演著重要角色。那么,分布式存儲、數(shù)據(jù)湖、數(shù)據(jù)治理之間有何關(guān)系呢?本質(zhì)上,分布式存儲是提供存儲功能和特性的軟件,它將數(shù)據(jù)從硬件架構(gòu)上解放出來,使用戶專注于數(shù)據(jù)蘊(yùn)含的價值。分布式存儲通過統(tǒng)一的虛擬管理平臺,與前端應(yīng)用、管理程序、物理空間進(jìn)行交互,極大簡化數(shù)據(jù)管理。數(shù)據(jù)湖是以自然格式存儲的數(shù)據(jù)的系統(tǒng),一般包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和二進(jìn)制數(shù)據(jù)等全部原始數(shù)據(jù)資源。簡而言之,要實(shí)現(xiàn)數(shù)據(jù)存儲和管理的優(yōu)化,基于分布式存儲搭建統(tǒng)一數(shù)據(jù)湖無疑是極佳的選擇。底層硬件設(shè)備提供物理存儲空間,存儲引擎統(tǒng)籌硬件資源搭建數(shù)據(jù)湖存儲,數(shù)據(jù)湖用來存儲所有的原始數(shù)據(jù)資源,數(shù)據(jù)湖引擎根據(jù)業(yè)務(wù)應(yīng)用的需求靈活調(diào)用數(shù)據(jù)湖中的數(shù)據(jù),用以跨業(yè)務(wù)檢索或數(shù)據(jù)共享等,還可以通過AE大數(shù)據(jù)分析等應(yīng)用挖掘數(shù)據(jù)價值。分布式存儲以分布式架構(gòu)、彈性擴(kuò)展、海量數(shù)據(jù)支撐、管理運(yùn)維簡單等優(yōu)勢,幫助企業(yè)搭建穩(wěn)定可靠的數(shù)據(jù)平臺,輕松實(shí)現(xiàn)海量數(shù)據(jù)的存儲和管理,依靠AI后處理框架挖掘數(shù)據(jù)價值,成為企業(yè)治理數(shù)據(jù)的好幫手。八、分布式存儲在數(shù)據(jù)治理過程中的優(yōu)勢一般來說,分布式存儲在數(shù)據(jù)治理過程中的優(yōu)勢作為分布式底座而存在,在很多企業(yè)中,稱之為數(shù)據(jù)中臺。數(shù)據(jù)中臺解決方案,以分布式存儲作為能力后臺,為數(shù)據(jù)中臺提供存儲支撐?;诜植际郊軜?gòu)搭建統(tǒng)一存儲池;通過生命周期管理、智能QoS等實(shí)現(xiàn)自動化管理;集成AI后處理框架,整合企業(yè)現(xiàn)有的AI能力,將數(shù)據(jù)價值最大化釋放,為企業(yè)提供數(shù)據(jù)治理的技術(shù)支持。數(shù)據(jù)中臺解決方案能夠幫助企業(yè)解決數(shù)據(jù)孤島、實(shí)現(xiàn)數(shù)據(jù)有序治理和高效利用,一般有下列幾種優(yōu)勢。1、解決海量存儲需求針對企業(yè)缺乏統(tǒng)一數(shù)據(jù)視圖、存在數(shù)據(jù)孤島等問題,分布式存儲因其抽象化、池化等特性,從根本上解決了這類問題。軟硬件解耦使得存儲軟件不再依賴于專有硬件。通過虛擬化,將物理存儲空間虛擬成統(tǒng)一資源池,建立統(tǒng)一命名空間,構(gòu)建多業(yè)務(wù)共享的數(shù)據(jù)湖,讓數(shù)據(jù)自由分配、使用和調(diào)度,消除信息孤島,提高資源利用率。其全分布式架構(gòu),彈性擴(kuò)展靈活,支撐EB級容量,滿足企業(yè)對容量、性能等需求。針對元數(shù)據(jù)、主數(shù)據(jù)管理等問題亦有應(yīng)對之策。所有節(jié)點(diǎn)軟硬件配置完全對等,無獨(dú)立的元數(shù)據(jù)或管理節(jié)點(diǎn),數(shù)據(jù)均衡分布在每個節(jié)點(diǎn)上,任一節(jié)點(diǎn)故障不會影響讀寫訪問,輕松實(shí)現(xiàn)按需部署、平滑擴(kuò)容。2、解決智能管理需求分布式存儲提供豐富的API,根據(jù)業(yè)務(wù)應(yīng)用要求,自動按需部署存儲資源,實(shí)現(xiàn)基于存儲策略的自動化管理目標(biāo),極大地簡化管理,節(jié)省基礎(chǔ)設(shè)施投入,降低運(yùn)維成本。其自定義管理的策略,實(shí)現(xiàn)生命周期自動化管理;通過智能緩存、數(shù)據(jù)分層等特性,讓存儲介質(zhì)“物盡其用”,在數(shù)據(jù)訪問性能和存儲成本之間實(shí)現(xiàn)平衡。3、解決數(shù)據(jù)價值釋放需求伴隨AI技術(shù)的興起,數(shù)據(jù)治理開始向“智能化”轉(zhuǎn)變。與傳統(tǒng)存儲不同,分布式存儲能夠?qū)崿F(xiàn)內(nèi)容感知,配合前端應(yīng)用對海量數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析和價值挖掘。目前絕大多數(shù)的數(shù)據(jù)中臺解決方案,均集成了AI后處理框架,幫助企業(yè)更好的實(shí)現(xiàn)AI賦能和價值挖掘;同時還支持Hadoop、Spark等大數(shù)據(jù)分析系統(tǒng),充分釋放數(shù)據(jù)價值。面對諸多難題,分布式存儲幫助企業(yè)打造智能化的數(shù)據(jù)治理平臺,解決數(shù)據(jù)的存儲、管理、共享等一系列問題,極大地提升數(shù)據(jù)治理水平,為數(shù)字化轉(zhuǎn)型提供有力支撐。九、結(jié)語隨著數(shù)字化轉(zhuǎn)型的進(jìn)程不斷推進(jìn),企業(yè)逐步深刻認(rèn)識數(shù)據(jù)資源對數(shù)字化轉(zhuǎn)型的重要意義,促使相關(guān)的數(shù)據(jù)工具技術(shù)也不斷的迭代和更新。分布式存儲在未來以更快的性能、更高的靈活性和開放性、更強(qiáng)的擴(kuò)展性,實(shí)現(xiàn)更便捷的管理、更簡單的運(yùn)維以及更少的投入,幫助企業(yè)在數(shù)據(jù)治理過程中更好的進(jìn)行企業(yè)數(shù)據(jù)的管理、保護(hù)和變現(xiàn)。一全文完一在本篇文章中,通過對分布式存儲的發(fā)展路徑、架構(gòu)類型、分布式理論,以及在數(shù)據(jù)治理場景中的實(shí)踐進(jìn)行闡述,一起探討分布式存儲技術(shù)在數(shù)據(jù)治理體系中發(fā)揮怎樣的價值。一、新數(shù)據(jù)時代存儲所面臨的挑戰(zhàn)隨著人臉識別、人工智能、AI安防、物聯(lián)網(wǎng)、5G等新技術(shù)新業(yè)務(wù)的快速應(yīng)用,使得數(shù)據(jù)的增長飛速發(fā)展。傳統(tǒng)存儲系統(tǒng)的集中式架構(gòu),導(dǎo)致在擴(kuò)展性上無法滿足數(shù)據(jù)增長需求。另一方面,隨著新業(yè)務(wù)的應(yīng)用,性能需求也將越來越高,容量與性能的雙重增長,導(dǎo)致存儲系統(tǒng)面臨新的挑戰(zhàn)。1、存儲擴(kuò)展能力有限在新數(shù)據(jù)時代,數(shù)據(jù)的高速增長成為主要特性,存儲的擴(kuò)展性成為重要考慮指標(biāo)之一。傳統(tǒng)存儲采用集中式架構(gòu),存儲的擴(kuò)展性受制于控制器性能,無法提供有效的高擴(kuò)展能力。另一方面,在傳統(tǒng)存儲架構(gòu)中,數(shù)據(jù)處理均依靠控制器能力,因此,在海量數(shù)據(jù)的處理上更是難以承載。2、硬件封閉,管理復(fù)雜傳統(tǒng)存儲是個黑盒子,設(shè)備管理和數(shù)據(jù)應(yīng)用均無法提供可視化操作,在業(yè)務(wù)數(shù)量越來越多,數(shù)據(jù)應(yīng)用越來越復(fù)雜的今天,無可視化操作的管理系統(tǒng)給運(yùn)維帶來很大的難度。例如LUN與主機(jī)的映射關(guān)系管理、LUN的性能、容量規(guī)劃管理等都需要一對一的調(diào)整、管理。無形中增加了管理難度,提升了運(yùn)維成本。3、數(shù)據(jù)孤島,數(shù)據(jù)難共享利用數(shù)據(jù)的價值在于利用,傳統(tǒng)存儲系統(tǒng)常常做到了數(shù)據(jù)存的作用,但針對數(shù)據(jù)的管理和利用往往差強(qiáng)人意。目前數(shù)據(jù)中心一般都有幾十個到上百個業(yè)務(wù)系統(tǒng),不同業(yè)務(wù)系統(tǒng)對存儲的需求和使用方式都不一樣,比如用戶數(shù)據(jù)庫業(yè)務(wù)系統(tǒng)需要有高IOPS的塊存儲服務(wù),廣電用戶非線性視頻編輯、醫(yī)院PACS系統(tǒng)需要大容量大吞吐的文件存儲、對象存儲等等。存儲系統(tǒng)獨(dú)立建設(shè),從而形成數(shù)據(jù)孤島。對于共享數(shù)據(jù)型業(yè)務(wù)系統(tǒng)建設(shè)或大數(shù)據(jù)業(yè)務(wù)建設(shè)必須繼續(xù)重建獨(dú)立基礎(chǔ)架構(gòu)。重復(fù)投資,架構(gòu)復(fù)雜,回報(bào)率低下。4、可靠性不足傳統(tǒng)存儲雖然封閉式獨(dú)有硬件設(shè)計(jì),但在一個引擎情況下,雖然內(nèi)置兩個控制器,在引擎層面依然存在單點(diǎn)故障風(fēng)險(xiǎn)。在數(shù)據(jù)冗余方面,傳統(tǒng)存儲架構(gòu)通常采用raid冗余方式,通過熱備磁盤的方式作為損害磁盤的替換方案。但raid的數(shù)據(jù)重構(gòu),往往需要整個raid組的所有磁盤參與重構(gòu),從而導(dǎo)致重構(gòu)的速度很慢而且性能影響較大。如果此時此raid組再次發(fā)生磁盤損壞,數(shù)據(jù)丟失一定會發(fā)生。因此,在可靠性上依然差強(qiáng)人意。二、分布式存儲解決之道分布式存儲采用分布式架構(gòu),利用標(biāo)準(zhǔn)x86服務(wù)器構(gòu)建存儲資源池,消除了專用硬件的依賴性,并提供塊、文件、對象等多種存儲服務(wù)。此外,分布式架構(gòu)實(shí)現(xiàn)了多節(jié)點(diǎn)高并發(fā)業(yè)務(wù)處理,每一個節(jié)點(diǎn)都有數(shù)據(jù)存儲和處理能力,所以整個平臺具備更高性能和更高可靠性,能夠同時滿足數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)高IOPS需求和視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù)高吞吐需求,如下圖所示。三、分布式存儲的產(chǎn)品價值1、靈活擴(kuò)展?jié)M足海量數(shù)據(jù)存儲需求分布式存儲系統(tǒng),采用Scale-out擴(kuò)展架構(gòu),可實(shí)現(xiàn)超大集群規(guī)模的部署,從3節(jié)點(diǎn)存儲集群起步,可實(shí)現(xiàn)靈活的擴(kuò)展至數(shù)千節(jié)點(diǎn)。存儲容量可實(shí)現(xiàn)一個集群EB級數(shù)據(jù)空間。同時由于分布式架構(gòu),每一個存儲節(jié)點(diǎn)都可以提供獨(dú)立的性能支撐,在高并發(fā)的數(shù)據(jù)處理中,可以實(shí)現(xiàn)更高的存儲性能,更高的帶寬吞吐和lOPSo有效的解決海量數(shù)據(jù)高擴(kuò)展和高性能的存儲需求。2、彈性擴(kuò)容與替換由于實(shí)現(xiàn)了分布式存儲平臺,那么此平臺無論多少個節(jié)點(diǎn)都可以看作一個資源池,每一個節(jié)點(diǎn)可以看做這個資源池的一個分子。通過系統(tǒng)預(yù)裝、軟件優(yōu)化可直接將分子加入到整個平臺之中,因而,在存儲性能或者容量資源不夠時,均可以通過添加硬件資源來提升存儲集群的相應(yīng)資源。另一方面,由于硬件采用標(biāo)準(zhǔn)化X86服務(wù)器,并且集群內(nèi)每個節(jié)點(diǎn)均通過軟件系統(tǒng)進(jìn)行統(tǒng)一管理,在硬件設(shè)備老舊或者故障時,可便捷的直接更換新硬件,加入集群中。簡單方便并且對于上層業(yè)務(wù)無感知。友善的提供產(chǎn)品更替。并且,更替節(jié)點(diǎn)或者磁盤后,存儲系統(tǒng)將會進(jìn)行自動重建數(shù)據(jù),平衡各節(jié)點(diǎn)的數(shù)據(jù)分布。此操作無需人工干預(yù)即可自動完成。降低使用難度。3、可視化、標(biāo)準(zhǔn)化讓管理更簡單相較于傳統(tǒng)存儲黑盒子的管理方式,分布式存儲實(shí)現(xiàn)了標(biāo)準(zhǔn)硬件的交付,標(biāo)準(zhǔn)硬件服務(wù)器的運(yùn)維管理會更簡單。在存儲生命周期過程中的管理具備以下優(yōu)點(diǎn)。部署上線:存儲節(jié)點(diǎn)內(nèi)置與硬件深度優(yōu)化后的存儲系統(tǒng),30分鐘即可實(shí)現(xiàn)部署上線。告別傳統(tǒng)的軟件部署安裝,調(diào)優(yōu)適配,真正實(shí)現(xiàn)了開箱即用。配置規(guī)劃:按照系統(tǒng)指示,實(shí)現(xiàn)資源分配和管理。資源配置可實(shí)現(xiàn)靈活的分配和回收。配置規(guī)劃全部可視化操作,無需人工手動記錄對應(yīng)關(guān)系,一切均可直觀使用管理。管理運(yùn)維:直觀的可視化管理設(shè)計(jì),可實(shí)現(xiàn)全集群的一頁管理。硬件的cpu、網(wǎng)絡(luò)、磁盤等健康監(jiān)控,到邏輯卷、用戶數(shù)、存儲集群的穩(wěn)定運(yùn)行情況均可動態(tài)展示,做到實(shí)時監(jiān)控預(yù)警。故障排查:故障排場從傳統(tǒng)的故障告警實(shí)現(xiàn)了提前預(yù)防。分布式存儲可實(shí)現(xiàn)集群的健康監(jiān)測,在故障潛伏期即可實(shí)現(xiàn)故障提醒。真正實(shí)現(xiàn)故障的提前處理,防患未然。4、統(tǒng)一存儲資源,實(shí)現(xiàn)數(shù)據(jù)共享共用分布式存儲系統(tǒng)通過統(tǒng)一硬件資源池,同時提供塊、文件、對象三種存儲服務(wù)。因而,數(shù)據(jù)中心的數(shù)據(jù)將統(tǒng)一存放到云存儲資源池中。通過存儲管理系統(tǒng),可根據(jù)用戶指令實(shí)現(xiàn)數(shù)據(jù)的調(diào)動與共享。另一方面,存儲系統(tǒng)內(nèi)置數(shù)據(jù)治理,數(shù)據(jù)分析等于數(shù)據(jù)強(qiáng)相關(guān)的數(shù)據(jù)應(yīng)用系統(tǒng),可實(shí)現(xiàn)便捷的數(shù)據(jù)處理,并將處理好的完整數(shù)據(jù)對接到大數(shù)據(jù)平臺實(shí)現(xiàn)大數(shù)據(jù)的分析與應(yīng)用。便捷的實(shí)現(xiàn)數(shù)據(jù)價值的挖掘,助力企業(yè)正在實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型!5、更高的可靠性分布式存儲系統(tǒng)在數(shù)據(jù)冗余方面,通過多副本、糾刪碼等技術(shù),不僅可以容忍多磁盤的故障不影響數(shù)據(jù)可靠性,在數(shù)據(jù)重構(gòu)修復(fù)方面效率也大大提升。由于采用了熱備空間概念,將原本一塊磁盤重構(gòu)數(shù)據(jù)的壓力均攤到多磁盤上,速度可提升至lT/30min。另一方面,由于采用了無中心化設(shè)計(jì),所有存儲節(jié)點(diǎn)均可承載業(yè)務(wù)系統(tǒng),分布式存儲還能夠容忍服務(wù)器故障,存儲系統(tǒng)依然穩(wěn)定可用,可靠性更優(yōu)。四、分布式存儲和集中式存儲的對比五、常見的幾種分布式存儲以及應(yīng)用場景1、HDFS主要用于大數(shù)據(jù)的存儲場景,是Hadoop大數(shù)據(jù)架構(gòu)中的存儲組件。HDFS在開始設(shè)計(jì)的時候,就已經(jīng)明確的它的應(yīng)用場景,就是大數(shù)據(jù)服務(wù),主要應(yīng)用于下列幾種場景。對大文件存儲的性能比較高,例如幾百兆,幾個G的大文件。因?yàn)镠DFS采用的是以元數(shù)據(jù)的方式進(jìn)行文件管理,而元數(shù)據(jù)的相關(guān)目錄和塊等信息保存在NameNode的內(nèi)存中,文件數(shù)量的增加會占用大量的NameNode內(nèi)存。如果存在大量的小文件,會占用大量內(nèi)存空間,引起整個分布式存儲性能下降,所以盡量使用HDFS存儲大文件比較合適。適合低寫入,多次讀取的業(yè)務(wù)。就大數(shù)據(jù)分析業(yè)務(wù)而言,其處理模式就是一次寫入、多次讀取,然后進(jìn)行數(shù)據(jù)分析工作,HDFS的數(shù)據(jù)傳輸吞吐量比較高,但是數(shù)據(jù)讀取延時比較差,不適合頻繁的數(shù)據(jù)寫入。HDFS采用多副本數(shù)據(jù)保護(hù)機(jī)制,使用普通的X86服務(wù)器就可以保障數(shù)據(jù)的可靠性,不推薦在虛擬化環(huán)境中使用。2^CephCeph是目前應(yīng)用最廣泛的開源分布式存儲系統(tǒng),已得到眾多廠商的支持,許多超融合系統(tǒng)的分布式存儲都是基于Ceph深度定制。而且Ceph已經(jīng)成為LINUX系統(tǒng)和OpenStack的“標(biāo)配”,用于支持各自的存儲系統(tǒng)。Ceph可以提供對象存儲、塊設(shè)備存儲和文件系統(tǒng)存儲服務(wù),同時支持三種不同類型的存儲服務(wù)的特性,這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 移動施工合同范本
- 什么借款合同范本
- 2023-2024學(xué)年高中信息技術(shù)必修一滬科版(2019)第三單元項(xiàng)目七《 用計(jì)算機(jī)計(jì)算圓周率-設(shè)計(jì)簡單數(shù)值數(shù)據(jù)算法》教學(xué)設(shè)計(jì)
- 建魚池合同范本
- 雜志制作合同范本
- 基金合同范本
- 個人測繪合同范本
- 廣告巡展合同范本
- 二年級期末家長會的演講稿
- 1《北京的春節(jié)》教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語文六年級下冊
- 2024年濟(jì)南廣播電視臺招聘工作人員筆試真題
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫及答案(1060題)
- 市場消防安全課件
- 名師工作室建設(shè)課件
- 2025-2025學(xué)年度人教版小學(xué)五年級美術(shù)下冊教學(xué)計(jì)劃
- 《電力建設(shè)工程施工安全管理導(dǎo)則》(NB∕T 10096-2018)
- 2024-2025學(xué)年廣東省部分學(xué)校高一(上)第一次聯(lián)合考試物理試卷(含答案)
- 《黃色新聞的泛濫》課件
- 2024年山東省公務(wù)員考試《行測》真題及答案解析
- 化工原理Ⅱ?qū)W習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024-2025學(xué)年初中體育與健康九年級全一冊人教版(2024)教學(xué)設(shè)計(jì)合集
評論
0/150
提交評論