




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 .云計(jì)算是對(duì)(D)技術(shù)的發(fā)展與運(yùn)用A.并行計(jì)算 B 網(wǎng)格計(jì)算 C 分布式計(jì)算 D 三個(gè)選項(xiàng)都是2 .IBM 在 2007 年 11 月退出了“改進(jìn)游戲規(guī)則”的(A)計(jì)算平臺(tái),為客戶帶來(lái)即買即用的云計(jì)算平臺(tái)。A.藍(lán)云 B.藍(lán)天 C.ARUZED.EC23 .微軟于 2008 年 10 月推出云計(jì)算操作系統(tǒng)是(C)A.GoogleAppEngineB.藍(lán)云 C.AzureD.EC24 .2008 年,(A)先后在無(wú)錫和北京建立了兩個(gè)云計(jì)算中心A.IBMB.GoogleC.AmazonD.微軟5 .將平臺(tái)作為服務(wù)的云計(jì)算服務(wù)類型是(B)A.IaaSB.PaaSC.SaaSD.三個(gè)選項(xiàng)都不是6 .
2、將基礎(chǔ)設(shè)施作為服務(wù)的云計(jì)算服務(wù)類型是(A)A.IaaSB.PaaSC.SaaSD.三個(gè)選項(xiàng)都不是7 .IaaS 計(jì)算實(shí)現(xiàn)機(jī)制中,系統(tǒng)管理模塊的核心功能是(A)A.負(fù)載均衡 B 監(jiān)視節(jié)點(diǎn)的運(yùn)行狀態(tài) C 應(yīng)用 APID.節(jié)點(diǎn)環(huán)境配置8 .云計(jì)算體系結(jié)構(gòu)的(C)負(fù)責(zé)資源管理、任務(wù)管理用戶管理和安全管理等工作A.物理資源層 B.資源池層 C.管理中間件層 D.SOA 構(gòu)建層9 .云計(jì)算按照服務(wù)類型大致可分為以下類(A、B、C)A.IaaSB.PaaSC.SaaSD.效用計(jì)算10 .下列不屬于 Google 云計(jì)算平臺(tái)技術(shù)架構(gòu)的是(D)A.并行數(shù)據(jù)處理 MapReduceB.分布式鎖 ChubbyC.結(jié)
3、構(gòu)化數(shù)據(jù)表BigTableD.彈性云計(jì)算 EC211 .在目前 GFS 集群中,每個(gè)集群包含(B)個(gè)存儲(chǔ)節(jié)點(diǎn)A.幾百個(gè) B.幾千個(gè) C.幾十個(gè) D.幾十萬(wàn)個(gè)12 .下列選項(xiàng)中,哪條不是 GFS 選擇在用戶態(tài)下實(shí)現(xiàn)的原因(D)A.調(diào)試簡(jiǎn)單 B.不影響數(shù)據(jù)塊服務(wù)器的穩(wěn)定性 C.降低實(shí)現(xiàn)難度,提高通用性 D.容易擴(kuò)展13 .GFS 中主服務(wù)器節(jié)點(diǎn)存儲(chǔ)的元數(shù)據(jù)包含這些信息(BCD)A.文件副本的位置信息 B.命名空間 C.Chunk 與文件名的映射 D.Chunk 副本的位置信息14 .單一主服務(wù)器(Master)解決性能瓶頸的方法是(ABCD)A.減少其在數(shù)據(jù)存儲(chǔ)中的參與程度 B.不適用 Maste
4、r 讀取數(shù)據(jù)C.客戶端緩存元數(shù)據(jù) D.采用大尺寸的數(shù)據(jù)塊15 .(B)是 Google 提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運(yùn)算的軟件架構(gòu)。A.GFSB.MapReduceC.ChubbyD.BitTable16 .Mapreduce 適用于(D)A.任意應(yīng)用程序 B.任意可在 windowsservet2008 上運(yùn)行的程序 C.可以串行處理的應(yīng)用程序 D.可以并行處理的應(yīng)用程序17 .MapReduce 通常把輸入文件按照(C)MB 來(lái)劃分 A.16B32C64D12818 .與傳統(tǒng)的分布式程序設(shè)計(jì)相比,Mapreduce 封裝了(ABCD)等細(xì)節(jié),還提供了一個(gè)簡(jiǎn)單而強(qiáng)
5、大的接口。A.并行處理 B.容錯(cuò)處理 C.本地化計(jì)算 D.負(fù)載均衡19 .(D)是 Google 的分布式數(shù)據(jù)存儲(chǔ)于管理系統(tǒng)A.GFSB.MapReduceC.ChubbyD.Bigtable20 .在 Bigtable 中,(A)主要用來(lái)存儲(chǔ)子表數(shù)據(jù)以及一些日志文件A.GFSB.ChubbyC.SSTableD.MapReduce21 .GoogleAPPEngine 使用的數(shù)據(jù)庫(kù)是(C)A.改進(jìn)的 SQLServerB.OrackC.DatestoreD.亞馬遜的 SimpleDB22 .GoogleAPPEngine 目前支持的編程語(yǔ)言有(AD)A.Python 語(yǔ)言 B.C+語(yǔ)言 C.
6、匯編語(yǔ)言 D.JAVA 語(yǔ)言23 .亞馬遜 AWS 采用(A)虛擬化技術(shù) A.未使用 B.Hyper-VC.VmwareD.Xen24 .亞馬遜將區(qū)域分為(AC)A 地理區(qū)域 B 不可用區(qū)域 C 可用區(qū)域 D 隔離區(qū)域25 .下面選項(xiàng)屬于 Amazon 提供的云計(jì)算服務(wù)是(ABC)A.彈性云計(jì)算 EC2B 簡(jiǎn)單存儲(chǔ)服務(wù) S3c 簡(jiǎn)單隊(duì)列服務(wù) SQSD.Net 服務(wù)26 .不屬于彈性計(jì)算云 EC2 包含的 IP 地址的是(C)A.公共 IP 地址 B.私有 IP 地址 C.隧道 IP 地址 D.彈性 IP 地址27 .在 EC2 的安全與容錯(cuò)機(jī)制中,一個(gè)用戶目前最多可以創(chuàng)建(B)安全組。A.50
7、B.100C.150D.20028 .EC2 常用的 API 包含下列哪些類型的操作(ABCD)A.AMIB.安全組 C 實(shí)例 D 彈性 IP 地址29 .S3 的基本存儲(chǔ)單元是(B)A.服務(wù) B.對(duì)象 C.卷 D.組30 .S3 采用的專門安全措施是(AB)A.身份認(rèn)證 B.訪問(wèn)控制列表 C 防火墻 D 防木馬病毒技術(shù)31 .在云計(jì)算系統(tǒng)中,提供“云端”服務(wù)模式是(D)公司的云計(jì)算服務(wù)平臺(tái)。A.IBMB.GOOGLEC.AmaxonD.微軟32 .下列四種云計(jì)算方案中,服務(wù)間的耦合度最高的是(C)A.亞馬遜 AWSB.微軟 AZUREC.GoogleAPPEngineD.IBM 的“藍(lán)云”3
8、3 .云格可以完成的服務(wù)有(ABCD)A.數(shù)據(jù)處理服務(wù) B.格處理服務(wù) C.高性能計(jì)算服務(wù) D.協(xié)作服務(wù)34 .亞馬遜 AWS 提供的云計(jì)算服務(wù)類型是(D)A.IaaSB.PaaSC.SaaSD.三個(gè)選項(xiàng)都是35 .Google 文件系統(tǒng)將整個(gè)系統(tǒng)的節(jié)點(diǎn)分為(ABC)的角色A.客戶端 B.主服務(wù)器 C.數(shù)據(jù)塊服務(wù)器 D.監(jiān)測(cè)服務(wù)器36 .Google 文件系統(tǒng)具有(ABD)特點(diǎn)A.采用中心服務(wù)器模式 B 不緩存數(shù)據(jù) C.采用邊緣服務(wù)器模式 D 在用戶態(tài)下實(shí)現(xiàn)37 .Google 不緩存數(shù)據(jù)的原因是(ABCD)A.OFS 的文件操作大部門是流式讀寫(xiě);B.維護(hù)緩存與實(shí)際數(shù)據(jù)之間的一致性太復(fù)雜C.不
9、存在大量的重復(fù)讀寫(xiě) D.數(shù)據(jù)塊服務(wù)器上的數(shù)據(jù)存取使用本地文件系統(tǒng)38 .從研究現(xiàn)狀上看,下面不屬于云計(jì)算特點(diǎn)的是(C)A.超大規(guī)模 B.虛擬化 C.私有化 D.高可靠性39 .與網(wǎng)絡(luò)計(jì)算相比,不屬于云計(jì)算特征的是(B)A.資源高度共享 B.適合緊耦合科學(xué)計(jì)算 C.支持虛擬機(jī) D.適用于商業(yè)領(lǐng)域一,填空題(30 分)云計(jì)算是以公開(kāi)的標(biāo)準(zhǔn)和服務(wù)為基礎(chǔ),以互聯(lián)網(wǎng)為中心,提供安全、快速、便捷的數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)計(jì)算服務(wù),讓互聯(lián)網(wǎng)這片云”成為每一個(gè)網(wǎng)民的數(shù)據(jù)中心和計(jì)算中心。對(duì)提供者而言,云計(jì)算可以三種部署模式,即公有云、私有云和混合云。當(dāng)前,幾乎所有的知名 IT 提供商、互聯(lián)網(wǎng)提供商,甚至電信運(yùn)營(yíng)商都在向云
10、計(jì)算進(jìn)軍,都在提供相關(guān)的云服務(wù)。但歸納起來(lái),當(dāng)前云提供者可以分為三大類,即 SaaS 提供商、PaaS和 IaaS 提供商。5.云計(jì)算(CloudComputing):一種利用大規(guī)模低成本運(yùn)算單元通過(guò) IP網(wǎng)絡(luò)連接,以提供各種計(jì)算和存儲(chǔ)服務(wù)的 IT 技術(shù)。二,選擇題(可多選)(50 分)1 .云計(jì)算的特點(diǎn)?(ABCDE)A.大規(guī)模 B.平滑擴(kuò)展 C 資源共享 D.動(dòng)態(tài)分配 E,跨地域2 .寶德存儲(chǔ)云解決方案價(jià)值有哪些?(ABCD)A.海量小文件的高效管理 B.PB級(jí)的存儲(chǔ)空間和線行擴(kuò)展能力 C.可動(dòng)態(tài)提升的性能 D.數(shù)據(jù)高可靠性3 .目前,選用開(kāi)源的虛擬化產(chǎn)品組建虛擬化平臺(tái),構(gòu)建基于硬件的虛擬
11、化層,可以選用(BCD)A.XenB.VMwareC.Hyper-vD.Citrix4 .在云計(jì)算中,虛擬層主要包括(ABC)A.服務(wù)器虛擬化 B.存儲(chǔ)虛擬化 C.網(wǎng)絡(luò)虛擬化 D.桌面虛擬化7 .未來(lái)云計(jì)算服務(wù)面向那些客戶?(ABCDE)A.個(gè)人 B.企業(yè) C.政府 D.教育 E.研究所8 .云安全主要的考慮的關(guān)鍵技術(shù)有哪些?(ABC)A.數(shù)據(jù)安全 B.應(yīng)用安全 C.虛擬化安全 D.服務(wù)器安全由于云計(jì)算分為 IaaS、PaaS 和 SaaS 三種類型,不同的廠家又提供了不同的解決方案,目前還沒(méi)有一個(gè)統(tǒng)一的技術(shù)體系結(jié)構(gòu),對(duì)讀者了解云計(jì)算的原理構(gòu)成了障礙。為此,本文綜合不同廠家的方案,構(gòu)造了一個(gè)供
12、商榷的云計(jì)算體系結(jié)構(gòu)。這個(gè)體系結(jié)構(gòu)如圖 3 所示,它概括了不同解決方案的主要特征,每一種方案或許只實(shí)現(xiàn)了其中部分功能,或許也還有部分相對(duì)次要功能尚未概括進(jìn)來(lái)。圖 3 云計(jì)算技術(shù)體系結(jié)構(gòu)云計(jì)算技術(shù)體系結(jié)構(gòu)分為 4 層:物理資源層、資源池層、管理中間件層和 SOA 構(gòu)建層,如圖 3 所示。物理資源層包括計(jì)算機(jī)、存儲(chǔ)器、網(wǎng)絡(luò)設(shè)施、數(shù)據(jù)庫(kù)和軟件等;資源池層是將大量相同類型的資源構(gòu)成同構(gòu)或接近同構(gòu)的資源池,如計(jì)算資源池、數(shù)據(jù)資源池等。構(gòu)建資源池更多是物理資源的集成和管理工作,例如研究在一個(gè)標(biāo)準(zhǔn)集裝箱的空間如何裝下 2000 個(gè)安全咨理q階隊(duì)訐訪問(wèn)授權(quán)心介防護(hù)存儲(chǔ)資溥他網(wǎng)絡(luò)資源澗收據(jù)費(fèi)褥油軟件贊源池計(jì)算機(jī)
13、存儲(chǔ)器財(cái)絡(luò)設(shè)施數(shù)據(jù)庫(kù)軟件管理中間件尸r_任務(wù)管理映像部考百臂理I任務(wù)潮度領(lǐng)屆4命期管媼用戶管理掘號(hào)管理;用戶環(huán)埴配置用戶交互管理I使用計(jì)法負(fù)撥均物裝迎統(tǒng)M,資源管理故障椎則4W修品L物理等源服務(wù)器、解決散熱和故障節(jié)點(diǎn)替換的問(wèn)題并降低能耗;管理中間件負(fù)責(zé)對(duì)云計(jì)算的資源進(jìn)行管理,并對(duì)眾多應(yīng)用任務(wù)進(jìn)行調(diào)度,使資源能夠高效、安全地為應(yīng)用提供服務(wù);SOA 構(gòu)建層將云計(jì)算能力圭拽成標(biāo)準(zhǔn)的 WebServices 服務(wù),并納入到 SOA 體系進(jìn)行管理和使用,包括服務(wù)注冊(cè)、查找、訪問(wèn)和構(gòu)建服務(wù)工作流等。管理中間件和資源池層是云計(jì)算技術(shù)的最關(guān)鍵部分,SOA 構(gòu)建層的功能更多依靠外部設(shè)施提供。云計(jì)算的管理中間件負(fù)
14、責(zé)資源管理、任務(wù)管理、用戶管理和安全管理等工作。資源管理負(fù)責(zé)均衡地使用云資源節(jié)點(diǎn),檢測(cè)節(jié)點(diǎn)的故障并試圖恢復(fù)或屏蔽之,并對(duì)資源的使用情況進(jìn)行監(jiān)視統(tǒng)計(jì);任務(wù)管理負(fù)責(zé)執(zhí)行用戶或應(yīng)用提交的任務(wù),包括完成用戶任務(wù)映象(Image)的部署和管理、任務(wù)調(diào)度、任務(wù)執(zhí)行、任務(wù)生命期管理等等;用戶管理是實(shí)現(xiàn)云計(jì)算商業(yè)模式的一個(gè)必不可少的環(huán)節(jié),包括提供用戶交互接口、管理和識(shí)別用戶身份、創(chuàng)建用戶程序的執(zhí)行環(huán)境、對(duì)用戶的使用進(jìn)行計(jì)費(fèi)等;安全管理保障云計(jì)算設(shè)施的整體安全,包括身份認(rèn)證、訪問(wèn)授權(quán)、綜合防護(hù)和安全審計(jì)等?;谏鲜鲶w系結(jié)構(gòu),本文以 IaaS 云計(jì)算為例,簡(jiǎn)述云計(jì)算的實(shí)現(xiàn)機(jī)制,如圖 4 所示。用戶交互接口向應(yīng)用以
15、 WebServices 方式提供訪問(wèn)接口, 獲取用戶需求。 服務(wù)目錄是用戶可以訪問(wèn)的服務(wù)清單。系統(tǒng)管理模塊負(fù)責(zé)管理和分配所有可用的資源,其核心是負(fù)載均衡。配置工具負(fù)責(zé)在分配的節(jié)點(diǎn)上準(zhǔn)備任務(wù)運(yùn)行環(huán)境。監(jiān)視統(tǒng)計(jì)模塊負(fù)責(zé)監(jiān)視節(jié)點(diǎn)的運(yùn)行狀態(tài),并完成用戶使用節(jié)點(diǎn)情況的統(tǒng)計(jì)。執(zhí)行過(guò)程并不復(fù)雜:用戶交互接口允許用戶從目錄中選取并調(diào)用一個(gè)服務(wù)。該請(qǐng)求傳遞給系統(tǒng)管理模塊后,它將為用戶分配恰當(dāng)?shù)馁Y源,然后調(diào)用配置工具來(lái)為用戶準(zhǔn)備運(yùn)行環(huán)境。HadoopHDFS 特性簡(jiǎn)介一、設(shè)計(jì)思想1、硬件失效是“常態(tài)事件,而非“偶然事件”。HDFSM 能是有上千的機(jī)器組成(文檔中描述的 Yahoo!一個(gè) Hadoop 集群有 4
16、096 個(gè)節(jié)點(diǎn)),任何一個(gè)組件都有可能一直失效,因此數(shù)據(jù)的健壯性錯(cuò)誤檢測(cè)和快速、自動(dòng)的恢復(fù)是 HDFS 勺核心架構(gòu)目標(biāo)。2、流式數(shù)據(jù)訪問(wèn)。運(yùn)行在 HDFS的應(yīng)用和普通的應(yīng)用不同,需要流式訪問(wèn)它們的數(shù)據(jù)集。HDFS 勺設(shè)計(jì)中更多的考慮到了數(shù)據(jù)批處理,而不是用戶交互處理。比之?dāng)?shù)據(jù)訪問(wèn)的低延遲問(wèn)題,更關(guān)鍵的在于數(shù)據(jù)并發(fā)訪問(wèn)的高吞吐量。POSIX 標(biāo)準(zhǔn)設(shè)置的很多硬性約束對(duì) HDF用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量,在一些關(guān)鍵方面對(duì) POSIX 的語(yǔ)義做了一些修改。3、HDFS 應(yīng)用對(duì)文件要求的是 write-one-read-many 訪問(wèn)模型。一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫(xiě),關(guān)閉之后就不需要改變。這一假設(shè)
17、簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題,使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。典型的如MapReduce 框架,或者一個(gè) webcrawler 應(yīng)用都很適合這個(gè)模型。4、移動(dòng)計(jì)算的代價(jià)比之移動(dòng)數(shù)據(jù)的代價(jià)低。一個(gè)應(yīng)用請(qǐng)求的計(jì)算,離它操作的數(shù)據(jù)越近就越高效,這在數(shù)據(jù)達(dá)到海量級(jí)別的時(shí)候更是如此。將計(jì)算移動(dòng)到數(shù)據(jù)附近,比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好,HDF 瞅供給應(yīng)用這樣的接口。5、在異構(gòu)的軟硬件平臺(tái)間的可移植性。二、Namenode 和 Datanode 的劃分一個(gè) HDF 跳群有一個(gè) Namenod/口一定數(shù)目的 Datanode 組成。NamenodeH 一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的 namespace 和客戶端
18、對(duì)文件的訪問(wèn)。Datanode 在集群中會(huì)有多個(gè),一般是一個(gè)節(jié)點(diǎn)存在一個(gè),負(fù)責(zé)管理其自身節(jié)點(diǎn)上它們附帶的存儲(chǔ)。在內(nèi)部,一個(gè)大文件其分成一個(gè)或多個(gè) block,這些 block 存儲(chǔ)在 Datanode 集合里。Namenode行文件系統(tǒng)的 namespace 相關(guān)操作,例如打開(kāi)、關(guān)閉、重命名文件和目錄,同時(shí)決定了 block 到具體 Datanode 節(jié)點(diǎn)的映射。 Datanode 在 Namenode 的指揮下進(jìn)行 block 的創(chuàng)建、 刪除和復(fù)制。單一節(jié)點(diǎn)的 Namenode 大大簡(jiǎn)化了系統(tǒng)的架構(gòu)。Namenode 負(fù)責(zé)保管和管理所有的 HDF 初數(shù)據(jù),因而在請(qǐng)求 Namenode 導(dǎo)到文
19、件的位置后就不需要通過(guò) Namenodei與而直接從 Datanode 進(jìn)行。為了提高 Namenode 的性能,所有文件的 namespace 數(shù)據(jù)都在內(nèi)存中維護(hù),所以就天生存在了由于內(nèi)存大小的限制導(dǎo)致一個(gè) HDF 隙群的提供服務(wù)的文件數(shù)量的上限。根據(jù)目前的文檔,一個(gè)元數(shù)據(jù)(一個(gè) HDFSC 件塊兒)占用 200Bytes,如果是頁(yè)面抓取的小文件,那么 32GB 內(nèi)存能承載 1.5 億左右的文件存儲(chǔ)(有待精確詳細(xì)測(cè)試)。三、文件系統(tǒng)操作和 namespace 的關(guān)系HDF 豉持傳統(tǒng)的層次型文件組織,與大多數(shù)其他文件系統(tǒng)類似,用戶可以創(chuàng)建目錄,并在其間創(chuàng)建、刪除、移動(dòng)和重命名文件。HDFM 支
20、持 userquotas 和訪問(wèn)權(quán)限,也不支持鏈接(link),不過(guò)當(dāng)前的架構(gòu)并不排除實(shí)現(xiàn)這些特性。Namenodet 護(hù)文件系統(tǒng)的 namespace,任何對(duì)文件系統(tǒng) namespace 和文件屬性的修改都將被 Namenode 記錄下來(lái)。應(yīng)用可以設(shè)置HDFS呆存的文件的副本數(shù)目,文件副本的數(shù)目稱為文件的 replication 因子,這個(gè)信息也是由 NamenodeW:存。四、數(shù)據(jù)復(fù)制HDFSt 設(shè)計(jì)成在一個(gè)大集群中可以跨機(jī)器地可靠地存儲(chǔ)海量的文件。它將每個(gè)文件存儲(chǔ)成block 序列,除了最后一個(gè) block,所有的 block 都是同樣的大小。文件的所有 block 為了容錯(cuò)都會(huì)被復(fù)制。
21、每個(gè)文件的 block 大小和 replication 因子都是可配置的。Replication因子可以在文件創(chuàng)建的時(shí)候配置,以后也可以改變。HDFS 中的文件是 write-one,并且嚴(yán)格要求在任何時(shí)彳只有一個(gè) writer。Namenode權(quán)管理 block 的復(fù)制,它周期性地從集群中的每個(gè)Datanode接收心跳包和一個(gè) Blockreport。 心跳包的接收表示該 Datanode 節(jié)點(diǎn)正常工作, 而 Blockreport包括了該 Datanode 上所有的 block 組成的列表。1、副本的存放,副本的存放是 HDFS 可靠性和性能的關(guān)鍵。龐大的 HDFS例一般運(yùn)行在多個(gè)機(jī)架的計(jì)
22、算機(jī)形成的集群上,不同機(jī)架間的兩臺(tái)機(jī)器的通訊需要通過(guò)交換機(jī),顯然通常情況下,同一個(gè)機(jī)架內(nèi)的兩個(gè)節(jié)點(diǎn)間的帶寬會(huì)比不同機(jī)架間的兩臺(tái)機(jī)器的帶寬大。在大多數(shù),f#況下,replication 因子是 3,HDFS 勺存放策略是將一個(gè)副本存放在本地機(jī)架上的節(jié)點(diǎn),一個(gè)副本放在同一機(jī)架上的另一個(gè)節(jié)點(diǎn),最后一個(gè)副本放在不同機(jī)架上的一個(gè)節(jié)點(diǎn)。機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少,這個(gè)策略不會(huì)影響到數(shù)據(jù)的可靠性和有效性。三分之一的副本在一個(gè)節(jié)點(diǎn)上,三分之二在一個(gè)機(jī)架上,其他保存在剩下的機(jī)架中,這一策略改進(jìn)了寫(xiě)的性能。2、副本的選擇,為了降低整體的帶寬消耗和讀延時(shí),HDFS盡量讓 reader 讀最近的副本。如果在 rea
23、der 的同一個(gè)機(jī)架上有一個(gè)副本,那么就讀該副本。如果一個(gè) HDFSB 群跨越多個(gè)數(shù)據(jù)中心,那么 reader 也將首先嘗試讀本地?cái)?shù)據(jù)中心的副本。3、SafeModeNamenode 啟動(dòng)后會(huì)進(jìn)入一個(gè)稱為 SafeMode 的特殊狀態(tài),處在這個(gè)狀態(tài)的 Namenodel!不會(huì)進(jìn)行數(shù)據(jù)塊的復(fù)制的。Namenode 從所有的 Datanode 接收心跳包和 Blockreport。Blockreport 包括了某個(gè) Datanode 所有的數(shù)據(jù)塊列表。每個(gè) block 都有指定的最小數(shù)目的副本。當(dāng)Namenode 僉測(cè)確認(rèn)某個(gè) Datanode 的數(shù)據(jù)塊副本的最小數(shù)目, 那么該 Datanode
24、就會(huì)被認(rèn)為是安全的;如果一定百分比(這個(gè)參數(shù)可配置)的數(shù)據(jù)塊檢測(cè)確認(rèn)是安全的,那么Namenode 各退出 SafeMode 狀態(tài),接下來(lái)它會(huì)確定還有哪些數(shù)據(jù)塊的副本沒(méi)有達(dá)到指定數(shù)目,并將這些 block 復(fù)制到其他 Datanode。五、 文件系統(tǒng)元數(shù)據(jù)的持久化 Namenode儲(chǔ) HDFS 勺元數(shù)據(jù)。 對(duì)于任何對(duì)文件元數(shù)據(jù)產(chǎn)生修改的操作,Namenode 都使用一個(gè)稱為 Editlog 的事務(wù)日志記錄下來(lái)。例如,在 HDFS43創(chuàng)建一個(gè)文件,Namenode 就會(huì)在Editlog 中插入一條記錄來(lái)表示;同樣,修改文件的 replication 因子也將往 Editlog 插入一條記錄。Na
25、menode本地 OS 的文件系統(tǒng)中存儲(chǔ)這個(gè) Editlog。整個(gè)文件系統(tǒng)的 namespace,包才 block 到文件的映射、 文件的屬性, 都存儲(chǔ)在稱為 FsImage 的文件中, 這個(gè)文件也是放在 Namenode所在系統(tǒng)的文件系統(tǒng)上。Namenode內(nèi)存中保存著整個(gè)文件系統(tǒng) namespace 和文件 Blockmap 的映像。這個(gè)關(guān)鍵的元數(shù)據(jù)設(shè)計(jì)得很緊湊,一般為 200Bytes 的內(nèi)存占用,因而一個(gè)帶有 4G 內(nèi)存的 Namenode 足夠支撐海量的文件和目錄。 當(dāng) Namenode 啟動(dòng)時(shí), 它從硬盤(pán)中讀取 Editlog 和 FsImage,將所有 Editlog 中的事務(wù)作
26、用 (apply)在內(nèi)存中的 FsImage,并將這個(gè)新版本的 FsImage 從內(nèi)存中 flush 到硬盤(pán)上,然后再 truncate 這個(gè)舊的Editlog,因?yàn)檫@個(gè)舊的 Editlog 的事務(wù)都已經(jīng)作用在 FsImage 上了。這個(gè)過(guò)程稱為 checkpoint。在當(dāng)前實(shí)現(xiàn)中,checkpoint 只發(fā)生在 Namenode 啟動(dòng)時(shí),在不久的將來(lái)我們將實(shí)現(xiàn)支持周期性的 checkpoint。Datanode 并不知道關(guān)于文件的任何東西, 除了將文件中的數(shù)據(jù)保存在本地的文件系統(tǒng)上。 它把每個(gè) HDF繳據(jù)塊存儲(chǔ)在本地文件系統(tǒng)上隔離的文件中。Datanode 并不在同一個(gè)目錄創(chuàng)建所有的文件,相
27、反,它用啟發(fā)式地方法來(lái)確定每個(gè)目錄的最佳文件數(shù)目,并且在適當(dāng)?shù)臅r(shí)候創(chuàng)建子目錄。在同一個(gè)目錄創(chuàng)建所有的文件不是最優(yōu)的選擇,因?yàn)楸镜匚募到y(tǒng)可能無(wú)法高效地在單一目錄中支持大量的文件。當(dāng)一個(gè) Datanode 啟動(dòng)時(shí),它掃描本地文件系統(tǒng),對(duì)這些本地文件產(chǎn)生相應(yīng)的一個(gè)所有 HDF 繳據(jù)塊的列表,然后發(fā)送報(bào)告到 Namenode 這個(gè)報(bào)告就是 Blockreport。六、通訊協(xié)議所有的 HDFS訊協(xié)議都是構(gòu)建在 TCP/IP 協(xié)議上??蛻舳送ㄟ^(guò)一個(gè)可配置的端口連接到 Namenode 通過(guò) ClientProtocol 與 Namenode 交互。而 Datanode 是使用DatanodeProtoc
28、ol 與 Namenode 交互。從 ClientProtocol 和 Datanodeprotocol 抽象出一個(gè)遠(yuǎn)程調(diào)用(RPC),在設(shè)計(jì)上,Namenod 環(huán)會(huì)主動(dòng)發(fā)起 RPC 而是是響應(yīng)來(lái)自客戶端和 Datanode 的 RPC 青求。七、健壯性 HDFS 勺主要目標(biāo)就是實(shí)現(xiàn)在失敗情況下的數(shù)據(jù)存儲(chǔ)可靠性。常見(jiàn)的三種失?。篘amenodefailures,Datanodefailures 和網(wǎng)絡(luò)分害 U(networkpartitions)。1、硬盤(pán)數(shù)據(jù)錯(cuò)誤、心跳檢測(cè)和重新復(fù)制每個(gè) Datanode 節(jié)點(diǎn)都向 Namenode 周期性地發(fā)送心跳包。網(wǎng)絡(luò)切割可能導(dǎo)致一部分 Datanode
29、跟 Namenode去聯(lián)系。Namenode 通過(guò)心跳包的缺失檢測(cè)到這一情況,并將這些 Datanode標(biāo)記為 dead,不會(huì)將新的 IO 請(qǐng)求發(fā)給它們。 寄存在 deadDatanode 上的任何數(shù)據(jù)將不再有效。 Datanode的死亡可能引起一些 block 的副本數(shù)目低于指定值,Namenod 環(huán)斷地跟蹤需要復(fù)制的 block,在任何需要的情況下啟動(dòng)復(fù)制。在下列情況可能需要重新復(fù)制:某個(gè)Datanode 節(jié)點(diǎn)失效,某個(gè)副本遭到損壞,Datanode 上的硬盤(pán)錯(cuò)誤,或者文件的 replication 因子增大。2、集群均衡HDF 豉持?jǐn)?shù)據(jù)的均衡計(jì)劃,如果某個(gè) Datanode 節(jié)點(diǎn)上的空閑
30、空間低于特定的臨界點(diǎn),那么就會(huì)啟動(dòng)一個(gè)計(jì)劃自動(dòng)地將數(shù)據(jù)從一個(gè) Datanode 搬移到空閑的 Datanode。當(dāng)對(duì)某個(gè)文件的請(qǐng)求突然增加,那么也可能啟動(dòng)一個(gè)計(jì)劃創(chuàng)建該文件新的副本,并分布到集群中以滿足應(yīng)用的要求。這些均衡計(jì)劃目前還沒(méi)有實(shí)現(xiàn)。3、數(shù)據(jù)完整性從某個(gè) Datanode 獲取的數(shù)據(jù)塊有可能是損壞的,這個(gè)損壞可能是由于 Datanode 的存儲(chǔ)設(shè)備錯(cuò)誤、網(wǎng)絡(luò)錯(cuò)誤或者軟件 bug 造成的。HDF 郎戶端軟件實(shí)現(xiàn)了 HDF 斂件內(nèi)容的校驗(yàn)和。當(dāng)某個(gè)客戶端創(chuàng)建一個(gè)新的 HDFSC 件,會(huì)計(jì)算這個(gè)文件每個(gè) block 的校驗(yàn)和,并作為一個(gè)單獨(dú)的隱藏文件保存這些校驗(yàn)和在同一個(gè) HDFSnames
31、pace 下。當(dāng)客戶端檢索文件內(nèi)容,它會(huì)確認(rèn)從 Datanode 獲取的數(shù)據(jù)跟相應(yīng)的校驗(yàn)和文件中的校驗(yàn)和是否匹配,如果不匹配,客戶端可以選擇從其他 Datanode 獲取該 block 的副本。4、元數(shù)據(jù)磁盤(pán)錯(cuò)誤FsImage 和 Editlog 是 HDFS 勺核心數(shù)據(jù)結(jié)構(gòu)。這些文彳如果損壞了,整個(gè) HDFS例都將失效。因而,Namenode 可以配置成支持維護(hù)多個(gè) FsImage 和 Editlog 的拷貝。任何對(duì) FsImage或者 Editlog 的修改,者 B 將同步到它們的副本上。這個(gè)同步操作可能會(huì)降低 Namenode 每秒能支持處理的 namespace 事務(wù)。這個(gè)代價(jià)是可以接
32、受的,因?yàn)?HDFSI1 數(shù)據(jù)密集的,而非元數(shù)據(jù)密集。當(dāng) Namenode 重啟的時(shí)候,它總是選取最近的一致的 FsImage 和 Editlog 使用。Namenod 蕤 HDFSI1 單點(diǎn)存在,如果 Namenode 所在的機(jī)器錯(cuò)誤,手工的干預(yù)是必須的。目前,在另一臺(tái)機(jī)器上重啟因故障而停止服務(wù)的 Namenodea 個(gè)功能還沒(méi)實(shí)現(xiàn)。八、數(shù)據(jù)組織1、數(shù)據(jù)塊兼容 HDFS 勺應(yīng)用都是處理大數(shù)據(jù)集合的。這些應(yīng)用都是寫(xiě)數(shù)據(jù)一次,讀卻是一次到多次,并且讀的速度要滿足流式讀。HDF 豉持文件的 write-once,read-many。一個(gè)典型的 block大小是 64MB 因而,文件總是按照 64M
33、 切分成 chunk,每個(gè) chunk 存儲(chǔ)于不同的 Datanode 上。2、數(shù)據(jù)產(chǎn)生步驟某個(gè)客戶端創(chuàng)建文件的請(qǐng)求其實(shí)并沒(méi)有立即發(fā)給 Namenode 事實(shí)上,HDF 哈戶端會(huì)將文件數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件。應(yīng)用的寫(xiě)被透明地重定向到這個(gè)臨時(shí)文件。當(dāng)這個(gè)臨時(shí)文件累積的數(shù)據(jù)超過(guò)一個(gè) block 的大?。J(rèn) 64M),客戶端才會(huì)聯(lián)系 NamenodeNamenode 將文件名插入文件系統(tǒng)的層次結(jié)構(gòu)中,并且分配一個(gè)數(shù)據(jù)塊給它,然后返回 Datanode 的標(biāo)識(shí)符和目標(biāo)數(shù)據(jù)塊給客戶端??蛻舳藢⒈镜嘏R時(shí)文件 flush 到指定的 Datanode 上。當(dāng)文件關(guān)閉時(shí),在臨時(shí)文件中剩余的沒(méi)有 flush 的數(shù)據(jù)也會(huì)傳輸?shù)街付ǖ?Datanode,然后客戶端告訴 Namenode 文件已經(jīng)關(guān)閉。此時(shí) Namenode 才將文件創(chuàng)建操作提交到持久
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨場(chǎng)倉(cāng)儲(chǔ)物流項(xiàng)目概況
- 法學(xué)引領(lǐng)社會(huì)進(jìn)步
- 老舊廠區(qū)改造項(xiàng)目總體規(guī)劃
- 雙創(chuàng)教育在學(xué)院建設(shè)中的實(shí)踐與推動(dòng)
- 本科生涯回顧與展望
- 農(nóng)機(jī)買賣保障協(xié)議書(shū)
- 2025年自建房屋購(gòu)房合同示范文本
- 2025財(cái)產(chǎn)保險(xiǎn)代理合同模板參考:量身定制您的保險(xiǎn)代理協(xié)議
- 早產(chǎn)兒護(hù)理重點(diǎn)
- 你好英文測(cè)試題及答案
- 《合理安排課余生活》(教案)蒙滬版四年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)
- 2023-2024學(xué)年江蘇省無(wú)錫市小學(xué)語(yǔ)文三年級(jí)期末高分考試題詳細(xì)參考答案解析
- 30th燃煤蒸汽鍋爐煙氣除塵脫硫系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)
- 概率論與數(shù)理統(tǒng)計(jì)課后答案及概率論與數(shù)理統(tǒng)計(jì)(第五版)習(xí)題答案
- 學(xué)院意識(shí)形態(tài)工作責(zé)任制實(shí)施細(xì)則
- 證券股份有限公司股票期權(quán)經(jīng)紀(jì)業(yè)務(wù)風(fēng)險(xiǎn)控制實(shí)施細(xì)則模版
- 2021年上海市中考數(shù)學(xué)試卷
- 老年人心理護(hù)理(老年人心理變化特點(diǎn))
- 公路路面基層施工技術(shù)規(guī)范
- 2023-2024學(xué)年河南省鄧州市小學(xué)數(shù)學(xué)六年級(jí)下冊(cè)期末評(píng)估試卷
評(píng)論
0/150
提交評(píng)論