智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第5章-數(shù)據(jù)存儲(chǔ)-大數(shù)據(jù)儲(chǔ)存管理_第1頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第5章-數(shù)據(jù)存儲(chǔ)-大數(shù)據(jù)儲(chǔ)存管理_第2頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第5章-數(shù)據(jù)存儲(chǔ)-大數(shù)據(jù)儲(chǔ)存管理_第3頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第5章-數(shù)據(jù)存儲(chǔ)-大數(shù)據(jù)儲(chǔ)存管理_第4頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(中級(jí))-第5章-數(shù)據(jù)存儲(chǔ)-大數(shù)據(jù)儲(chǔ)存管理_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)儲(chǔ)存管理數(shù)據(jù)庫(kù)存儲(chǔ)管理存儲(chǔ)系統(tǒng)維護(hù)和管理數(shù)據(jù)通常采用文件系統(tǒng)或數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。在大數(shù)據(jù)存儲(chǔ)方面也有相應(yīng)的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)。常見的分布式文件系統(tǒng)HDFS常見的分布式數(shù)據(jù)庫(kù)HiveHBase存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的應(yīng)用HDFS不適合低時(shí)間延遲數(shù)據(jù)訪問的應(yīng)用HDFS是為高數(shù)據(jù)吞吐量應(yīng)用優(yōu)化的,這樣就會(huì)造成以高時(shí)間延遲為代價(jià),所以HDFS不適合低時(shí)間延遲數(shù)據(jù)訪問的應(yīng)用,例如幾十毫秒范圍。HDFS不適合多用戶寫入和任意修改文件目前HDFS文件只有一個(gè)writer,而且寫操作總是寫在文件的末尾,造成HDFS不適合多用戶寫入和任意修改文件。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的應(yīng)用HDFS不適合大量小文件存儲(chǔ)NameNode啟動(dòng)時(shí)會(huì)將文件系統(tǒng)的元數(shù)據(jù)加載到內(nèi)存,因此文件系統(tǒng)所能存儲(chǔ)的文件總數(shù)受限于NameNode內(nèi)存容量。假設(shè)每個(gè)文件、目錄和數(shù)據(jù)塊的存儲(chǔ)信息大約占150字節(jié),如果一百萬(wàn)個(gè)文件,且每個(gè)文件占一個(gè)數(shù)據(jù)塊,那么至少需要300MB的內(nèi)存空間。如果存儲(chǔ)十億個(gè)文件,那么需要的內(nèi)存空間將是非常大的,所以HDFS不適合大量小文件存儲(chǔ)。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的應(yīng)用高容錯(cuò)性。高吞吐量,為大量數(shù)據(jù)訪問的應(yīng)用提供高吞吐量支持。大文件存儲(chǔ),支持存儲(chǔ)TB級(jí)別、PB級(jí)別的數(shù)據(jù)。需要很好的可擴(kuò)展能力。HDFS適合具有以下需求的應(yīng)用存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的應(yīng)用HDFS是Hadoop技術(shù)框架中的分布式文件系統(tǒng),對(duì)部署在多臺(tái)獨(dú)立物理機(jī)器上的文件進(jìn)行管理。HDFS適用的場(chǎng)景網(wǎng)站用戶行為數(shù)據(jù)存儲(chǔ)生態(tài)系統(tǒng)數(shù)據(jù)存儲(chǔ)氣象數(shù)據(jù)存儲(chǔ)……存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)HDFS的文件訪問機(jī)制為流式訪問機(jī)制,即通過(guò)API打開文件的某個(gè)數(shù)據(jù)塊之后,可以順序讀取或者寫入某個(gè)文件。由于HDFS中存在多個(gè)角色,且對(duì)應(yīng)的應(yīng)用場(chǎng)景主要為一次寫入、多次讀取的場(chǎng)景,所以其讀和寫的方式有較大不同。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)HDFS數(shù)據(jù)寫入流程存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)業(yè)務(wù)應(yīng)用調(diào)用HDFSClient提供的API,請(qǐng)求寫入文件。HDFSClient聯(lián)系NameNode,NameNode在元數(shù)據(jù)中創(chuàng)建文件節(jié)點(diǎn)。業(yè)務(wù)應(yīng)用調(diào)用writeAPI寫入文件。HDFSClient收到業(yè)務(wù)數(shù)據(jù)后,從NameNode中獲取到數(shù)據(jù)塊編號(hào)、位置信息后,聯(lián)系DataNode,并將需要寫入數(shù)據(jù)的DataNodes建立起流水線。HDFS數(shù)據(jù)寫入流程存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)客戶端再通過(guò)自有協(xié)議將數(shù)據(jù)寫入DataNode1,再由DataNode1復(fù)制到DataNode2、DataNode3。寫完的數(shù)據(jù),將返回確認(rèn)信息給HDFSClient。所有數(shù)據(jù)確認(rèn)完成后,業(yè)務(wù)應(yīng)用調(diào)用HDFSClient關(guān)閉文件。業(yè)務(wù)應(yīng)用調(diào)用closeflush后,HDFSClient聯(lián)系NameNode,確認(rèn)數(shù)據(jù)寫入完成,NameNode持久化元數(shù)據(jù)。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)HDFS數(shù)據(jù)讀取流程存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的系統(tǒng)架構(gòu)業(yè)務(wù)應(yīng)用調(diào)用HDFSClient提供的API打開文件。HDFSClient聯(lián)系NameNode,獲取到文件信息(數(shù)據(jù)塊、DataNode位置信息)。業(yè)務(wù)應(yīng)用調(diào)用readAPI讀取文件。HDFSClient根據(jù)從NameNode獲取到的信息,聯(lián)系DataNode,獲取相應(yīng)的數(shù)據(jù)塊(Client采用就近原則讀取數(shù)據(jù))。HDFSClient會(huì)與多個(gè)DataNode通訊獲取數(shù)據(jù)塊。數(shù)據(jù)讀取完成后,業(yè)務(wù)調(diào)用close關(guān)閉連接。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的實(shí)際應(yīng)用HDFS在華為FusionInsight產(chǎn)品的應(yīng)用存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的實(shí)際應(yīng)用HDFS作為Hadoop的底層文件存儲(chǔ)系統(tǒng),為FusionInsight提供了一個(gè)分布式、高容錯(cuò)、可先行擴(kuò)展的文件系統(tǒng)。HDFS對(duì)外僅呈現(xiàn)一個(gè)統(tǒng)一的文件系統(tǒng),并支持回收站機(jī)制和副本數(shù)的動(dòng)態(tài)設(shè)置機(jī)制。數(shù)據(jù)存儲(chǔ)以數(shù)據(jù)塊為單位,存儲(chǔ)在操作系統(tǒng)的HDFS文件系統(tǒng)上。訪問時(shí)可通過(guò)JAVAAPI、HTTP方式和SHELL方式訪問HDFS數(shù)據(jù)。存儲(chǔ)系統(tǒng)維護(hù)和管理——HDFS的實(shí)際應(yīng)用HDFS架構(gòu)的關(guān)鍵設(shè)計(jì)HA高可靠性元數(shù)據(jù)持久化機(jī)制聯(lián)邦存儲(chǔ)機(jī)制數(shù)據(jù)副本機(jī)制數(shù)據(jù)存儲(chǔ)策略多方式訪問機(jī)制空間回收機(jī)制NameNode與DataNode的主從模式統(tǒng)一的問價(jià)系統(tǒng)命名空間健壯機(jī)制等存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase的簡(jiǎn)介HBaseHBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),提供海量數(shù)據(jù)存儲(chǔ)功能,用來(lái)解決關(guān)系型數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)時(shí)的局限性。HBase適合于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)模可以達(dá)到數(shù)十億行以及數(shù)百萬(wàn)列),井對(duì)大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級(jí)別。HBase利用Hadoop的分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)作為其文件存儲(chǔ)系統(tǒng),提供實(shí)時(shí)讀寫的分布式數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)利用Zookeeper作為協(xié)同服務(wù)。存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase的架構(gòu)HBase的架構(gòu)圖:存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase的架構(gòu)Zookeeper為HBase集群中各進(jìn)程提供分布式協(xié)作服務(wù)。HRegionServerHRegionServer負(fù)責(zé)提供表數(shù)據(jù)讀寫等服務(wù),是HBase的數(shù)據(jù)處理和計(jì)算單元。HRegionServer一般與HDFS集群的DataNode部署在一起,實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)功能。各HRegionServer將自己的信息注冊(cè)到Zookeeper中,主用HMaster據(jù)此感知各個(gè)HRegionServer的健康狀態(tài)。ClientClient使用HBase的RPC機(jī)制與HMaster、HRegionServer進(jìn)行通信。Client與HMaster進(jìn)行管理類通信,并與HRegionServer進(jìn)行數(shù)據(jù)操作類通信。存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase的架構(gòu)HMaster在HA模式下包含主用Master和備用Master。主用Master負(fù)責(zé)HBase中HRegionServer的管理,包括表的增刪改查、HRegionServer的負(fù)載均衡、Region分布調(diào)整、Region分裂和分裂后的Region分配,以及HRegionServer失效后的Region遷移等。備用Master指的是當(dāng)主用Master故障時(shí),備用Master將取代主用Master對(duì)外提供服務(wù)。故障恢復(fù)后,原主用Master降為備用Master。存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase的應(yīng)用場(chǎng)景HBase適合具有以下需求的應(yīng)用存在海量數(shù)據(jù)(TB、PB),需要高吞吐量。不需要完全擁有傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)所具備的ACID特性。需要在海量數(shù)據(jù)中實(shí)現(xiàn)高效的隨機(jī)讀取。需要很好的性能伸縮能力。能夠同時(shí)處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase華為增強(qiáng)特性HBase在華為FusionInsight產(chǎn)品的應(yīng)用:在Fusionlnsight產(chǎn)品中HBase與HDFS、Zookeeper等組件皆為Hadoop生態(tài)系統(tǒng)的基礎(chǔ)組件存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase華為增強(qiáng)特性HBase在Fusionlnsight產(chǎn)品中與HDFS、Zookeeper等組件皆為基礎(chǔ)組件。HBase提供海量數(shù)據(jù)存儲(chǔ),Hive、Spark等組件也皆有基于HBase做上層分析的應(yīng)用實(shí)踐。在Hadoop生態(tài)系統(tǒng)中,無(wú)論是HDFS,還是HBase,在面對(duì)海量文件存儲(chǔ)時(shí),在某些場(chǎng)景下會(huì)存在一些很難解決的問題。如果把海量小文件直接保存在HDFS中,那么會(huì)給NameNode帶來(lái)極大的壓力。由于HBase接口以及內(nèi)部機(jī)制的原因,一些較大的文件也不適合直接保存到HBase中。存儲(chǔ)系統(tǒng)維護(hù)和管理——HBase華為增強(qiáng)特性HBase文件存儲(chǔ)模塊(HBaseFilestream,HFS)HBase文件存儲(chǔ)模塊(HBaseFilestream,簡(jiǎn)稱HFS)是HBase的獨(dú)立模塊,它作為對(duì)HBase與HDFS接口的封裝,應(yīng)用在FusionInsightHDS的上層應(yīng)用,為上層應(yīng)用提供文件的存儲(chǔ)、讀取、刪除等功能。HFS的出現(xiàn)解決了需要在HDFS中存儲(chǔ)海量小文件,同時(shí)也要存儲(chǔ)一些大文件的混合的場(chǎng)景。簡(jiǎn)而言之,就是在HBase表中,需要存放大量的小文件(10MB以下),同時(shí)又需要存放一些比較大的文件(10MB以上)。存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive的簡(jiǎn)介Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)軟件,可以查詢和管理PB級(jí)別的分布式數(shù)據(jù)。Hive具有的特性可直接訪問HDFS文件和HBase,支持MapReduce、Tez和Spark等多種計(jì)算引擎。通過(guò)HQL語(yǔ)言完成數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),以及完成海量結(jié)構(gòu)化數(shù)據(jù)分析。靈活的數(shù)據(jù)存儲(chǔ)格式,支持JSON、CSV、TEXTFILE、RCFILE、ORCFILE和SEQUENCEFILE等存儲(chǔ)格式,并支持自定義擴(kuò)展。多種客戶端連接方式,支持JDBC接口。存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive與傳統(tǒng)倉(cāng)庫(kù)對(duì)比Hive作為一種數(shù)據(jù)倉(cāng)庫(kù)處理工具,與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)在存儲(chǔ)和執(zhí)行引擎等方面存在一定的差異。Hive與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的具體對(duì)比

Hive傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)HDFS,理論上有無(wú)限拓展的可能集群存儲(chǔ),存在容量上限,而且伴隨容量的增長(zhǎng),計(jì)算速度急劇下降,只能適應(yīng)于數(shù)據(jù)量比較小的商業(yè)應(yīng)用,對(duì)于超大規(guī)模數(shù)據(jù)無(wú)能為力執(zhí)行引擎有MapReduce/Tez/Spark多種引擎可供選擇可以選擇更加高效的算法來(lái)執(zhí)行查詢,也可以進(jìn)行更多的優(yōu)化措施來(lái)提高速度使用方式HQL(類似SQL)SQL靈活性元數(shù)據(jù)存儲(chǔ)立于數(shù)據(jù)存儲(chǔ)之外,從而解耦合元數(shù)據(jù)和數(shù)據(jù)低,數(shù)據(jù)用途單一存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive與傳統(tǒng)倉(cāng)庫(kù)對(duì)比Hive與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的具體對(duì)比

Hive傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)分析速度計(jì)算依賴于集群規(guī)模,易拓展,在大數(shù)據(jù)量情況下,遠(yuǎn)遠(yuǎn)快于普通數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)容量較小時(shí)非??焖?,數(shù)據(jù)量較大時(shí),急劇下降索引低效,目前還不完善高效易用性需要自行開發(fā)應(yīng)用模型,靈活性較高,但是易用性較低集成一整套成熟的報(bào)表解決方案,可以較為方便的進(jìn)行數(shù)據(jù)的分析可靠性數(shù)據(jù)存儲(chǔ)在HDFS,可靠性高,容錯(cuò)性高可靠性較低,一次性查詢失敗需要重新開始。數(shù)據(jù)容錯(cuò)依賴于硬件Raid依賴環(huán)境依賴硬件較低,可適應(yīng)一般的普通機(jī)器依賴于高性能的商業(yè)服務(wù)器價(jià)格開源產(chǎn)品商用比較昂貴存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive的應(yīng)用場(chǎng)景Hive是基于靜態(tài)批處理的Hadoop構(gòu)建的,Hadoop通常有較高的延遲,并且在作業(yè)提交和調(diào)度時(shí)需要大量的開銷。Hive不能在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢,也不提供實(shí)時(shí)的查詢和基于行級(jí)的數(shù)據(jù)更新操作。Hive查詢操作過(guò)程嚴(yán)格遵守HadoopMapReduce的作業(yè)執(zhí)行模型。Hive將用戶的HQL語(yǔ)句通過(guò)解釋器轉(zhuǎn)換為MapReduce作業(yè)MapReduce作業(yè)提交到Hadoop集群上Hadoop監(jiān)控作業(yè)執(zhí)行過(guò)程返回作業(yè)執(zhí)行結(jié)果給用戶存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive的應(yīng)用場(chǎng)景基于Hive的自身特點(diǎn),Hive在實(shí)際中的主要應(yīng)用海量數(shù)據(jù)的離線分析(如日志分析,集群狀態(tài)分析)。大規(guī)模的數(shù)據(jù)挖掘(用戶行為分析、興趣分區(qū)、區(qū)域展示)。大量數(shù)據(jù)的匯總(每天/每周用戶點(diǎn)擊數(shù)、流量統(tǒng)計(jì))?!鎯?chǔ)系統(tǒng)維護(hù)和管理——Hive的實(shí)際應(yīng)用Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉(cāng)庫(kù)處理工具,使用類SQL的HQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢功能,所有Hive的數(shù)據(jù)都存儲(chǔ)在Hadoop兼容的HDFS中。Hive在FusionInsight產(chǎn)品中的應(yīng)用:存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive的實(shí)際應(yīng)用Hive在FusionInsight產(chǎn)品中的應(yīng)用FusionInsightHD中Hive組件在社區(qū)版本Hive基礎(chǔ)上,加入了眾多企業(yè)級(jí)定制化特性,如Colocation建表、列加密和語(yǔ)法增強(qiáng)等特性。相比于社區(qū)版本,F(xiàn)usionInsightHDHive整個(gè)產(chǎn)品在高可靠、高容錯(cuò)、可擴(kuò)展性和性能等方面有巨大提升。為保證Hive服務(wù)的高可用性、用戶數(shù)據(jù)的安全及訪問服務(wù)的可控制,在開源社區(qū)的Hive1.1.0版本基礎(chǔ)上,F(xiàn)usionInsightHDHive新增基于Kerberos技術(shù)的安全認(rèn)證機(jī)制、數(shù)據(jù)文件加密機(jī)制和完善的權(quán)限管理的特性。存儲(chǔ)系統(tǒng)維護(hù)和管理——Hive的實(shí)際應(yīng)用Hive分為HiveServer、MetaStore和WebHcat3個(gè)角色。HiveServer將用戶提交的HQL語(yǔ)句進(jìn)行編譯,解析成對(duì)應(yīng)的Yarn任務(wù)、Spark任務(wù)或HDFS操作,從而完成數(shù)據(jù)的提取、轉(zhuǎn)換和分析。MetaStore提供元數(shù)據(jù)服務(wù)。WebHcat對(duì)外提供基于HTTPS協(xié)議的元數(shù)據(jù)訪問、DDL查詢等服務(wù)。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡技術(shù)概述負(fù)載均衡是分布式系統(tǒng)中的一個(gè)優(yōu)化組合問題,是一個(gè)NP-C問題。在分布式系統(tǒng)中,每個(gè)節(jié)點(diǎn)通過(guò)任務(wù)分配與再分配來(lái)實(shí)現(xiàn)系統(tǒng)整體的負(fù)載均衡,以便提高系統(tǒng)的整體性能,并在不影響系統(tǒng)正常運(yùn)行的情況下,減少任務(wù)并行執(zhí)行時(shí)間。要提高分布式系統(tǒng)的資源利用率,使系統(tǒng)整體性能達(dá)到最高,必須通過(guò)高效地資源調(diào)度、任務(wù)分配與遷移策略來(lái)實(shí)現(xiàn)集群中各節(jié)點(diǎn)的負(fù)載均衡。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡算法負(fù)載均衡算法的設(shè)計(jì)目標(biāo)是將任務(wù)合理的分配到分布式系統(tǒng)集群中的各個(gè)節(jié)點(diǎn)上,使分配到各節(jié)點(diǎn)的任務(wù)數(shù)盡可能均衡,使系統(tǒng)整體達(dá)到一種平衡狀態(tài)。負(fù)載均衡算法是決定一個(gè)分布式系統(tǒng)性能高低的關(guān)鍵因素。影響系統(tǒng)負(fù)載均衡的因素網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);負(fù)載均衡的粒度;負(fù)載均衡算法(是核心要素)。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡技術(shù)是比負(fù)載共享更高一層的負(fù)載分配策略,將系統(tǒng)負(fù)載均衡地分配到各個(gè)節(jié)點(diǎn),消除或避免負(fù)載不均的問題,使分布式文件系統(tǒng)的性能達(dá)到最高。負(fù)載均衡技術(shù)分類靜態(tài)負(fù)載均衡動(dòng)態(tài)負(fù)載均衡存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡靜態(tài)負(fù)載均衡靜態(tài)負(fù)載均衡根據(jù)己知的信息進(jìn)行任務(wù)分配,不考慮當(dāng)前分布式系統(tǒng)的負(fù)載狀況,因此靜態(tài)負(fù)載均衡又稱為狀態(tài)無(wú)關(guān)均衡。靜態(tài)負(fù)載均衡的目標(biāo)是完成任務(wù)集的分配調(diào)度,使各節(jié)點(diǎn)上所有任務(wù)盡可能在最短的時(shí)間內(nèi)完成。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡對(duì)于靜態(tài)負(fù)載均衡算法,在分布式系統(tǒng)開始運(yùn)行前就確定了任務(wù)分配策略。例如,任務(wù)的到達(dá)時(shí)間是不確定的,分布式系統(tǒng)會(huì)很被動(dòng)。當(dāng)任務(wù)過(guò)多時(shí),由于分布式系統(tǒng)的任務(wù)分配策略是既定的,無(wú)法改變,因此會(huì)導(dǎo)致某些節(jié)點(diǎn)的任務(wù)數(shù)過(guò)多,任務(wù)等待時(shí)間長(zhǎng),而在另外一些節(jié)點(diǎn)上卻沒有任務(wù)執(zhí)行。任務(wù)的分配具有很大的不確定性收到任務(wù)請(qǐng)求之后,系統(tǒng)會(huì)按照制定好的策略來(lái)進(jìn)行任務(wù)分配,與當(dāng)前系統(tǒng)的整體狀態(tài)信息無(wú)關(guān),即任務(wù)內(nèi)容、任務(wù)的開始執(zhí)行時(shí)間和集群的實(shí)時(shí)狀態(tài)不會(huì)影響任務(wù)的分配。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡靜態(tài)負(fù)載均衡算法的優(yōu)缺點(diǎn)靜態(tài)負(fù)載均衡算法的優(yōu)點(diǎn)實(shí)現(xiàn)邏輯簡(jiǎn)單,開銷小,可以快速地將任務(wù)請(qǐng)求分配到各存儲(chǔ)節(jié)點(diǎn)。靜態(tài)負(fù)載均衡算法的缺點(diǎn)不關(guān)注存儲(chǔ)節(jié)點(diǎn)的實(shí)時(shí)負(fù)載與系統(tǒng)狀態(tài)的動(dòng)態(tài)變化,決策具有盲目性、準(zhǔn)確度低,會(huì)造成任務(wù)分配不均,系統(tǒng)負(fù)載均衡的效果受限。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡動(dòng)態(tài)負(fù)載均衡動(dòng)態(tài)負(fù)載均衡與靜態(tài)負(fù)載均衡相比,在靈活性和針對(duì)性方面具有優(yōu)勢(shì)。在動(dòng)態(tài)負(fù)載均衡算法中,分布式系統(tǒng)會(huì)實(shí)時(shí)收集集群中各服務(wù)器的運(yùn)行狀態(tài)信息,獲知各服務(wù)器的負(fù)載狀況,從而動(dòng)態(tài)地、更加合理地分配任務(wù),因此動(dòng)態(tài)負(fù)載均衡具有更高的應(yīng)用價(jià)值。各存儲(chǔ)服務(wù)器節(jié)點(diǎn)反饋負(fù)載信息的準(zhǔn)確性和實(shí)時(shí)性是動(dòng)態(tài)負(fù)載均衡算法有效執(zhí)行的重要保證。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡動(dòng)態(tài)負(fù)載均衡算法盡可能保證新任務(wù)被分配至評(píng)價(jià)值最高的服務(wù)器,從而使任務(wù)被快速執(zhí)行,降低系統(tǒng)響應(yīng)時(shí)間,提高系統(tǒng)整體吞吐量。例如,選擇服務(wù)器的可用連接數(shù)作為評(píng)價(jià)指標(biāo),此時(shí)可用連接數(shù)較多的服務(wù)器相對(duì)于可用連接數(shù)較少的服務(wù)器會(huì)優(yōu)先被分配任務(wù),那么可用連接數(shù)最多的服務(wù)器的評(píng)價(jià)值最高,新任務(wù)會(huì)被分配至該服務(wù)器。評(píng)價(jià)值評(píng)價(jià)值由評(píng)價(jià)指標(biāo)通過(guò)一定的方式計(jì)算得出,而評(píng)價(jià)指標(biāo)的選取需要根據(jù)應(yīng)用場(chǎng)景的不同進(jìn)行針對(duì)性的分析。存儲(chǔ)系統(tǒng)優(yōu)化——負(fù)載均衡由于動(dòng)態(tài)負(fù)載均衡策略需要及時(shí)獲取各服務(wù)器的負(fù)載狀態(tài)信息,所以會(huì)導(dǎo)致増加系統(tǒng)額外的開銷。如果合理的控制額外開銷,那么可以換來(lái)更高的系統(tǒng)性能,因此在實(shí)際應(yīng)用中,動(dòng)態(tài)負(fù)載均衡具有很高的使用價(jià)值。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性數(shù)據(jù)存儲(chǔ)面臨的問題在大規(guī)模的分布式存儲(chǔ)系統(tǒng)中,不可避免會(huì)出現(xiàn)網(wǎng)絡(luò)中斷、掉電、服務(wù)器宕機(jī)、硬盤故障等常見的異常問題。存儲(chǔ)算法的設(shè)計(jì)是否能夠應(yīng)付設(shè)備或存儲(chǔ)集群變化,對(duì)系統(tǒng)性能和存儲(chǔ)效率的影響非常重要。在大規(guī)模的系統(tǒng)中,由于存儲(chǔ)節(jié)點(diǎn)的急劇增加,節(jié)點(diǎn)故障將成為常態(tài)而不是例外,而且在任何時(shí)間點(diǎn)上都存在發(fā)生多個(gè)對(duì)象存儲(chǔ)服務(wù)節(jié)點(diǎn)不可用的可能性。因此分布式存儲(chǔ)系統(tǒng)必須采取有效措施確保存儲(chǔ)數(shù)據(jù)的安全性,從而保障整體系統(tǒng)的可用性。在分布式存儲(chǔ)系統(tǒng)中,經(jīng)常會(huì)發(fā)生很多并發(fā)用戶在混合讀取數(shù)據(jù)的同時(shí),也有多個(gè)用戶在寫入數(shù)據(jù),這要求系統(tǒng)必須能夠及時(shí)地同步數(shù)據(jù),并確保數(shù)據(jù)被安全的寫入磁盤和采取必要的冗余備份,以保證在遭遇電源故障或其他異常故障時(shí),數(shù)據(jù)不會(huì)發(fā)生意外丟失。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性存儲(chǔ)策略在存儲(chǔ)系統(tǒng)中提高數(shù)據(jù)安全性的一個(gè)重要方法就是對(duì)數(shù)據(jù)進(jìn)行冗余備份存儲(chǔ)。常用的冗余備份機(jī)制完整文件副本文件分塊副本獨(dú)立冗余磁盤陣列(RedundantArrayofIndependentDisk,RAID)……存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性冗余備份機(jī)制完整文件副本完整文件副本對(duì)重要存儲(chǔ)的文件進(jìn)行副本復(fù)制,分散存儲(chǔ)到不同的數(shù)據(jù)節(jié)點(diǎn)上,用戶只要訪問到某個(gè)節(jié)點(diǎn),就能訪問到該數(shù)據(jù),數(shù)據(jù)可靠性較高。文件分塊副本文件分塊副本是先對(duì)存儲(chǔ)文件對(duì)象進(jìn)行分塊操作,然后對(duì)分塊的文件進(jìn)行冗余備份,這種方式更節(jié)約存儲(chǔ)空間,但是在單一時(shí)刻不允許任意多個(gè)節(jié)點(diǎn)同時(shí)失效,數(shù)據(jù)可靠性較低。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性獨(dú)立冗余磁盤陣列獨(dú)立冗余磁盤陣列(RedundantArrayofIndependentDisk,RAID)將多塊獨(dú)立的物理硬盤按不同的方式組合起來(lái)形成邏輯硬盤,從而提供更強(qiáng)的數(shù)據(jù)備份能力和更好的存儲(chǔ)性能。該技術(shù)主要通過(guò)數(shù)據(jù)分割和多通道技術(shù)提高I/O吞吐率,通過(guò)保存冗余數(shù)據(jù)和校驗(yàn)信息來(lái)實(shí)現(xiàn)數(shù)據(jù)的高可靠性存儲(chǔ)。當(dāng)系統(tǒng)規(guī)模較大時(shí),邏輯磁盤中多個(gè)磁盤出現(xiàn)錯(cuò)誤的概率較大,并且該技術(shù)不能在規(guī)模較大的系統(tǒng)中提供很好的魯棒性。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性為保證數(shù)據(jù)可靠性,采用數(shù)據(jù)安全性較高的完全副本冗余存儲(chǔ)策略,可有效解決數(shù)據(jù)存儲(chǔ)的安全性問題?;跀?shù)據(jù)復(fù)制冗余技術(shù)的完全副本冗余存儲(chǔ)策略基本思想:將數(shù)據(jù)對(duì)象創(chuàng)建多個(gè)相同的副本,并把得到的多個(gè)數(shù)據(jù)副本分散存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)上。當(dāng)部分?jǐn)?shù)據(jù)節(jié)點(diǎn)失效后,可以通過(guò)訪問其他有效節(jié)點(diǎn)上的數(shù)據(jù)副本來(lái)獲取原數(shù)據(jù)。該技術(shù)的主要研究?jī)?nèi)容:數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)復(fù)制策略。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)存儲(chǔ)的安全性基于數(shù)據(jù)復(fù)制冗余技術(shù)的完全副本冗余存儲(chǔ)策略的研究?jī)?nèi)容數(shù)據(jù)組織結(jié)構(gòu)研究用戶數(shù)據(jù)分塊和數(shù)據(jù)分塊冗余副本在不同存儲(chǔ)節(jié)點(diǎn)中的存儲(chǔ)管理方式。用戶數(shù)據(jù)分塊的復(fù)制策略主要研究冗余副本在不同存儲(chǔ)節(jié)點(diǎn)中的存儲(chǔ)數(shù)量、數(shù)據(jù)副本的創(chuàng)建時(shí)機(jī)和存放位置等問題。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略數(shù)據(jù)組織架構(gòu)目前主流的數(shù)據(jù)組織結(jié)構(gòu)P2P數(shù)據(jù)組織方式元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略P2P數(shù)據(jù)方式P2P數(shù)據(jù)方式中的所有數(shù)據(jù)存儲(chǔ)是平等的,不存在嚴(yán)格的服務(wù)端和客戶端區(qū)別。當(dāng)存儲(chǔ)數(shù)據(jù)時(shí),按照分布式哈希表的方式分散存儲(chǔ)到不同的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中。當(dāng)用戶訪問系統(tǒng)時(shí),通過(guò)通道方式計(jì)算哈希值,即可得到數(shù)據(jù)存放位置。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織結(jié)構(gòu)通常采用統(tǒng)一的數(shù)據(jù)管理服務(wù)器機(jī)制,用于存儲(chǔ)用戶數(shù)據(jù)分塊和冗余存儲(chǔ)副本的元數(shù)據(jù)信息。元數(shù)據(jù)信息通常包括版本信息、副本的位置、副本與數(shù)據(jù)之間映射關(guān)系和系統(tǒng)的狀態(tài)、屬性等信息。系統(tǒng)通常將元數(shù)據(jù)信息存儲(chǔ)到多個(gè)服務(wù)器上,以便可靠地支持對(duì)數(shù)據(jù)的集中式管理。當(dāng)用戶訪問系統(tǒng)時(shí),首先通過(guò)MDS獲取數(shù)據(jù)的存儲(chǔ)位置、版本信息,然后從相應(yīng)位置讀取數(shù)據(jù)塊或?qū)?shù)據(jù)寫入相應(yīng)的位置。由于元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織架構(gòu)要求所有對(duì)系統(tǒng)的訪問都要通過(guò)元數(shù)據(jù)服務(wù)器,當(dāng)大量用戶同時(shí)訪問系統(tǒng)時(shí),MDS容易成為性能瓶頸,而且存在MDS失效的風(fēng)險(xiǎn)。存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略在目前的云計(jì)算環(huán)境中,P2P數(shù)據(jù)組織方式和元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式的應(yīng)用基于P2P組織結(jié)構(gòu)方式的應(yīng)用Facebook的Cassandra(分布式存儲(chǔ)系統(tǒng))Amazon公司的Dynamo(分布式存儲(chǔ)系統(tǒng))基于元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織結(jié)構(gòu)的應(yīng)用GFS開源的HDFSCeph存儲(chǔ)系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略復(fù)制策略數(shù)據(jù)復(fù)制策略的主要研究?jī)?nèi)容是數(shù)據(jù)的副本數(shù)和放置策略。復(fù)制策略的選擇與網(wǎng)絡(luò)狀況、存儲(chǔ)空間及應(yīng)用需求等因素有非常緊密的關(guān)系,并且策略算法對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論