大數(shù)據(jù)基礎(chǔ)知識(shí)_第1頁
大數(shù)據(jù)基礎(chǔ)知識(shí)_第2頁
大數(shù)據(jù)基礎(chǔ)知識(shí)_第3頁
大數(shù)據(jù)基礎(chǔ)知識(shí)_第4頁
大數(shù)據(jù)基礎(chǔ)知識(shí)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)際上它里面有非常巨大的組成部分,每一個(gè)組成部分都很可能出現(xiàn)故障,這就意味著 HDFS 里的總是有 X節(jié)點(diǎn),一個(gè)集群中數(shù)據(jù)訪問變得可能。一個(gè) 動(dòng)數(shù)據(jù)更經(jīng)濟(jì)計(jì)算數(shù)據(jù)所存儲(chǔ)的位置來進(jìn)行計(jì)算是最理想的狀態(tài),尤其是在數(shù)據(jù)集特別巨大的時(shí)候。這樣消是遷移計(jì)算到離數(shù)據(jù)更近的位置比將數(shù)據(jù)移動(dòng)到臺(tái)間的可移植性點(diǎn)和數(shù)據(jù)節(jié)點(diǎn) 字節(jié)點(diǎn)用來操作文 件命名空間的文件或 ,重命名等等。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。數(shù)據(jù)節(jié)點(diǎn) 負(fù)責(zé)來自文件系統(tǒng)客戶的讀寫請(qǐng)求。數(shù)據(jù)節(jié) 點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都是運(yùn)行在普通的機(jī)器之上的軟件,機(jī)器典型的都是 文件命名空間 節(jié)點(diǎn)維護(hù)文件系統(tǒng)的命名空間,任何文件命名空間的改變和或?qū)傩远急幻止?jié)點(diǎn)記錄。應(yīng)用程序 可

2、以指定文件的副本 儲(chǔ)。 其他塊都有相同的大小。屬于文件的塊為了故障容錯(cuò)而被復(fù)制。塊的大小和復(fù)制數(shù)是以 文件為單位進(jìn)行配置的,應(yīng)用可以在文件 節(jié)點(diǎn)負(fù)責(zé)處理所有的塊復(fù)制相關(guān)的決策。它周期性地接受集群中數(shù)據(jù)節(jié)點(diǎn)的心跳和塊報(bào)告。一個(gè) 心跳的到達(dá)表示這個(gè) 文件系統(tǒng)的元數(shù)據(jù)的持久化特征,這需要精心的調(diào)節(jié)和大量的經(jīng)驗(yàn)。機(jī)架敏感的副本存放策略是為了提高數(shù)據(jù)的 性和網(wǎng)絡(luò)帶寬的利用率。副本存放策略的實(shí)現(xiàn)是這個(gè)方向上比較原始的方式。短期的實(shí)現(xiàn)目 數(shù)據(jù)節(jié)點(diǎn)自檢它所屬的機(jī)架 H ,然后在向名字節(jié)點(diǎn)注冊(cè)的時(shí)候告知它的機(jī)架 防止了機(jī)架故障時(shí)數(shù)據(jù)的丟失,并且在讀數(shù)據(jù)的時(shí)候可以充分利用不同機(jī)架的帶寬。這iio行了一些折中。一般

3、情況下復(fù)制因子為 3 , HDFS 的副本放置策略是將第一個(gè)副本放在本地節(jié)點(diǎn),將第二副本放到本地機(jī)架上的另外一個(gè)節(jié)點(diǎn)而將第三個(gè)副本放到不同機(jī)架上的節(jié)點(diǎn)。這種方式減少了機(jī)架間的于節(jié)點(diǎn)故障。這種方式并不影響數(shù)據(jù)可靠性和可用性 式個(gè)特定的最小復(fù)制數(shù)。當(dāng)名字節(jié)點(diǎn)檢查這個(gè)塊已經(jīng)大于最小的復(fù)制數(shù)就被認(rèn)為是安全地復(fù)制T,當(dāng)達(dá)到配置的塊安全復(fù)制比例時(shí)(加上額外的 30 秒),名字節(jié)點(diǎn)就退出安全模式。它將檢測(cè)數(shù)據(jù)塊的列表, 將小于特定復(fù)制數(shù) 記錄這個(gè)改變。類似地,改變文件的復(fù)制因子也會(huì)向 EdiiLog 中插入一條記錄。名字節(jié)點(diǎn)在本地文件系統(tǒng)點(diǎn)在內(nèi)存中保留一個(gè)完整的文件系統(tǒng)命名空間和文件塊的映射表的這個(gè)元數(shù)據(jù)被

4、設(shè)計(jì)成點(diǎn)啟動(dòng)時(shí),它將從磁盤中讀個(gè)目錄中,而是啟發(fā)式的檢測(cè)每一個(gè)目錄的最優(yōu)文件數(shù),并在適當(dāng)?shù)臅r(shí)候創(chuàng)建子目錄。在本地同一個(gè)目錄 下創(chuàng)建所有的數(shù)據(jù)塊文 因?yàn)楸镜匚募到y(tǒng)可能不支持單個(gè)目錄下巨額文件的高效操作。當(dāng) 數(shù)據(jù)節(jié)點(diǎn)啟動(dòng)的時(shí)候,它將掃描它的本地文件系統(tǒng),根據(jù)本地的文件產(chǎn)生一個(gè)所有 HDFS 數(shù)據(jù)塊的列表并 點(diǎn)。網(wǎng)絡(luò)斷開會(huì)造成一組數(shù)據(jù)節(jié)點(diǎn)子集和名字節(jié)點(diǎn)失去聯(lián)況。名字節(jié)點(diǎn)將這些數(shù)據(jù)節(jié)點(diǎn)標(biāo)記為死亡狀態(tài),不再將新的請(qǐng)求轉(zhuǎn)發(fā)到這些數(shù)據(jù)節(jié)點(diǎn)上,這些數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù)將對(duì) HDFS 不再可用,可能會(huì)導(dǎo)致一些塊的復(fù)制因子 降低到指定的 點(diǎn)檢查所有的需要復(fù)制的塊,并開始復(fù)制他們到其他的數(shù)據(jù)節(jié)點(diǎn)上。重新復(fù)制在有些情況

5、下是 能是壞塊,壞塊的出現(xiàn)可能是存儲(chǔ)設(shè)備錯(cuò)誤,網(wǎng)絡(luò)錯(cuò)誤或者軟件的漏 個(gè)文件時(shí),它根據(jù)對(duì)應(yīng)的校驗(yàn)文件來驗(yàn)證從數(shù)據(jù)節(jié)點(diǎn)接收到的數(shù)據(jù)。如果校驗(yàn)失敗,客戶端可以選擇從其 他擁有該塊副本的數(shù)據(jù)節(jié) 持在一個(gè)待定時(shí)間存儲(chǔ)一個(gè)數(shù)據(jù)拷貝,快照可以將失效的個(gè)正常的時(shí)間點(diǎn) 階段狀態(tài)的臨時(shí)文件中。應(yīng)用程序的寫操作被透明地重定向到這個(gè)臨時(shí)本地文件。當(dāng)本地文件堆積到 它分配一個(gè)數(shù)據(jù)塊。名字節(jié)點(diǎn)構(gòu)造包括數(shù)據(jù)節(jié)點(diǎn) 1D (可能是多個(gè),副本數(shù)據(jù)塊存放的節(jié)點(diǎn)也有)和目標(biāo)數(shù)戶端的請(qǐng)求。客戶端收到后將本地的 臨時(shí)文件刷新到指定的數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點(diǎn)。然后客戶端就可以通知名 字節(jié)點(diǎn)文件已經(jīng)關(guān) 文件系統(tǒng)進(jìn)行直接寫入而沒有任何本地的緩

6、存,這就會(huì)對(duì)網(wǎng)速和網(wǎng)絡(luò)吞吐量產(chǎn)生很大的影響。這方面早 有前車之鑒,早期的分布 水式復(fù)制 一個(gè)數(shù)據(jù)節(jié)點(diǎn)開始以 4kb 為單元接收數(shù)據(jù),將還可以將數(shù)據(jù)流水式傳遞給下一個(gè)節(jié)點(diǎn),所以,數(shù)據(jù)是流水式 地從一個(gè)數(shù)據(jù)節(jié)點(diǎn)傳遞 系統(tǒng)分類em上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)的設(shè)計(jì)基于客戶機(jī) /1E 務(wù)器模式。一個(gè)典型的網(wǎng)絡(luò)可 客戶機(jī)訪問的目錄,一旦被訪問,這個(gè)目錄對(duì)客戶機(jī)來說就像使用本地。驅(qū)系統(tǒng)管理、存儲(chǔ)數(shù)據(jù),而信息爆炸時(shí)代中人們可以獲取的數(shù)據(jù)成指數(shù)倍的增長(zhǎng),單純通 過增加硬盤個(gè)數(shù)來 計(jì)算機(jī)文件系統(tǒng)的存儲(chǔ)容量的方式,在容量大小、容量增長(zhǎng)速度、數(shù)據(jù)備份、數(shù)據(jù)安全 等方而的表現(xiàn)都差強(qiáng)人意。分布式文

7、可以有效解決數(shù)據(jù)的存儲(chǔ)和管理難題:將固定于某個(gè)地展到任意多個(gè)地點(diǎn)/多個(gè)文件系統(tǒng),眾多的節(jié)點(diǎn)組成一個(gè)文件系統(tǒng)網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)可以 分布在不同的地 的通信和數(shù)據(jù)傳輸。人們?cè)谑褂梅植际轿募到y(tǒng)時(shí),無需關(guān)心據(jù)。文件系統(tǒng)最初設(shè)計(jì)時(shí),僅僅是為局域網(wǎng)內(nèi)的本地?cái)?shù)據(jù)服務(wù)的。而分布式文件系統(tǒng)將服務(wù)范圍擴(kuò)展到了僅改變了數(shù)據(jù)的存儲(chǔ)和管理方式,也擁有了本地文件系統(tǒng)所無法具備的數(shù)據(jù)備份、數(shù)據(jù)安全NN盤中數(shù)、不同節(jié)點(diǎn)間的數(shù)據(jù)傳輸時(shí)間以及一部分處理器的處理時(shí)間等。各種因素決定了分布式文件系,否則在本地文件系統(tǒng)中打開一個(gè)文件需要 2 秒,而在分布式文件系統(tǒng)中各種因素的影響下用時(shí)超過 10 秒,出現(xiàn) 分布式文件系統(tǒng)一個(gè)用戶,那么分

8、布式文件系統(tǒng)就很容易實(shí)現(xiàn)。可惜的是,在許多網(wǎng)絡(luò)環(huán)境中 這種限制是不現(xiàn)實(shí) 有多個(gè)用戶打開一個(gè)文件,但只有一個(gè)用戶進(jìn)行寫修改。而該用戶所 作的修改并不一定出現(xiàn) 允許多個(gè)用戶同時(shí)讀寫一個(gè)文件。但這需要操作系統(tǒng)作大量的監(jiān)控工作以防止文件重寫,并保證用戶能夠看到最新信息。這種方法即使實(shí)現(xiàn)得很好,許多環(huán)境中的處理要求和量也可能 網(wǎng)絡(luò)通信 使它變得不 記錄),文件被放在客戶工作站的高速緩存中,若另一個(gè)用戶也請(qǐng)求同一文件,則它也會(huì)被放入那個(gè)客戶工 作站的高速緩存中。 (每個(gè)客戶 無狀態(tài)系統(tǒng)在這個(gè)系統(tǒng)中,服務(wù)器并不保存其客戶機(jī)正在緩存的文件的信息。因此,客戶機(jī)必須協(xié) 同服務(wù)器定期檢查L(zhǎng)AN了自己正在緩存的文件。

9、這種方法在大的環(huán)境中會(huì)產(chǎn)生額外的通信 LAN 客戶機(jī)檢查回叫應(yīng)答中的時(shí)間期限以保證回叫應(yīng)答是當(dāng)前有效的?;亟袘?yīng)答的另有效性。換句話說,若一個(gè)被緩存的文件有一個(gè)回叫應(yīng)答,則客戶機(jī) 就認(rèn)為文件是當(dāng) 滿足大規(guī)模存儲(chǔ)應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利 用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服 在共享的目錄,一個(gè)共享目錄通常叫做出版或出口目錄。有關(guān) 取。訪問在共享目錄上建立一種鏈接和訪問文件的過程叫做裝聯(lián)S報(bào)告一些將發(fā)生的問題,如磁盤空間將用完等。另一個(gè)工具是 USS ,可創(chuàng)建基于帶有字段常量模板的 用戶域中文件服務(wù)器和客戶機(jī)系統(tǒng)的集合,這個(gè)獨(dú)立區(qū)域由特定的機(jī)構(gòu) 管理。通常代 表一個(gè)

10、組織的計(jì)算資源。用戶可以和同一單元中其他用戶方便地共享信息,他們也可以和其他單元 內(nèi)的用戶共享信息,這取決 文件服務(wù)器進(jìn)程 這個(gè)進(jìn)程響應(yīng)客戶工作站對(duì)文件服務(wù)的請(qǐng)求,維護(hù)目錄結(jié)構(gòu),監(jiān)控文件和目錄狀態(tài) 信息,檢查用戶的 進(jìn)程提供了對(duì)文件卷宗的位置透明性。即使卷宗被移動(dòng)了,用戶也能訪問它而不 需要知道卷宗移 存有口令帳戶。 Ub 玄提供數(shù)據(jù)庫(kù)復(fù)制和同步服務(wù)。一個(gè)復(fù)制的數(shù)據(jù)庫(kù)是一個(gè)其信息放于多個(gè)位置的系統(tǒng)以便于用戶更方便地訪問這些數(shù)據(jù)信息。同步機(jī)制保證所有數(shù)據(jù)庫(kù)的信息是一致的。本地 ab batch 批量處理的方式來處理這小部分?jǐn)?shù)據(jù)。上,一方面是因?yàn)?Spark 的低延遲執(zhí)行引擎(100ms+ ) ,

11、雖然比不上專門的流式數(shù)據(jù)處理軟件,也可以 用于實(shí)時(shí)計(jì)算,另一方 Record 的其它處理框架(如 Storm ) , 一部分窄依賴的 RDD 數(shù)據(jù)集可時(shí)數(shù)據(jù)處理 的邏輯和算法。方便了YARYARN 統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管YARN 最初是為了修復(fù) MapReduce 實(shí)現(xiàn)里的明顯不足, 的集群)、可靠性和集群利用率進(jìn)行了提升。M并對(duì)可伸縮性(支持一萬個(gè)節(jié) 點(diǎn)和二十萬個(gè)內(nèi)核 YARN 實(shí)現(xiàn)這些需求的方式濫控)分成了兩個(gè)獨(dú)立的服務(wù)么是傳統(tǒng)意義上的 MapReduce 任務(wù),要么是任務(wù)的有向無環(huán)圖( DAG )。此外,這些新的框架還可以利用 YARNYARNYARN 的基本思想是將 JobT

12、mcker 的兩個(gè)主要功能(資源管理和作業(yè)調(diào)度濫控)分離,主要 方法是創(chuàng)建一 eDAG序。在此上下文中,-起分配資源,與 N odeM anager 礎(chǔ)應(yīng)用程N(yùn)( CPU、內(nèi)存等的資源分配)。請(qǐng)注意,盡管目前的資源更加傳統(tǒng) (CPU 核心、內(nèi)存),但未來會(huì)帶來基于手頭任務(wù)的新資源類型(比如圖形處理單元或?qū)?HYPERLINK l _bookmark1 MRvl缺陷 構(gòu)存在不足,主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點(diǎn)超過 4,000 時(shí)(其中每個(gè) 個(gè)節(jié)點(diǎn)可能是多核的),就會(huì) 預(yù)測(cè)性。其中一個(gè)最大的問題是級(jí)聯(lián)故障,由 于要嘗試復(fù)制數(shù)據(jù)和重載活動(dòng)的節(jié)點(diǎn),所以一個(gè) 出開銷。切 tasks美。對(duì)于資源的

13、表示以內(nèi)存為單位Yam個(gè)部分就扔給Contaher 是 Yam 為了將來作資源隔離而提出的一個(gè)框架。這一點(diǎn)應(yīng)該借鑒了思路應(yīng)該后續(xù)能支持更多的資源調(diào)度和控制 ,既然資源表示成內(nèi)存量,那就沒有了之前的YARN器調(diào)度器根據(jù)容量、隊(duì)列等限制條件(如每個(gè)隊(duì)列分配一定的資源,最多執(zhí)行一調(diào)度器”,它不再?gòu)氖氯魏闻c具體應(yīng)用程序相關(guān)的工作,比如不負(fù)責(zé)監(jiān)控或者 跟蹤應(yīng)用的執(zhí)行狀態(tài) 管理整個(gè)系統(tǒng)屮所有應(yīng)用程序,包括應(yīng)用程序提ontaher將得到的任務(wù)進(jìn)一步分配給內(nèi)部的任務(wù) 後源的二次分配) ; e 種請(qǐng)求。刃 YARN 的資源管理和執(zhí)行框架都是按主 似范例實(shí)現(xiàn)的一一 Slave節(jié)點(diǎn)管理器(NM )排、執(zhí)行、監(jiān)控獨(dú)立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論