下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
優(yōu)點(diǎn):1.高容錯(cuò)、高可用、高擴(kuò)展2.海量數(shù)據(jù) 3.構(gòu)建成本低、安全可靠4.適合大規(guī)模離線批處理缺點(diǎn):1.不適合低延遲數(shù)據(jù)2.不適合大量小文件 3.不支持并發(fā)寫入4.不支持文件隨機(jī)修改namenode元數(shù)據(jù)文件:1.edits—編輯日志文件—保存了自檢查點(diǎn)之后的所有文件更新操作2.fsimage—元數(shù)據(jù)檢查點(diǎn)鏡像文--保存了文件系統(tǒng)中所有 和文件信元數(shù)據(jù)的兩種形式:內(nèi)存元數(shù)據(jù)(NameNode)+文件元數(shù)據(jù)三種角色:ResourceManager(Master)、NodeManager(Slave)、ResourceManager主要功能:1.統(tǒng)一管理集群的所有資源2.將集群按照一定策略分配給各個(gè)應(yīng)用3.接受NodeManager的資源上報(bào)信NodeManager主要功能:1.管理單個(gè)節(jié)點(diǎn)的資源2.向ResourceManager匯報(bào)節(jié)點(diǎn)資源使用情況3.管理Container的生命周ApplicationMaster主要功能:1.管理應(yīng)用程序?qū)嵗?.向ResourceManager申請(qǐng)任務(wù)執(zhí)行所需的資源3.任務(wù)調(diào)度Container:封裝了節(jié)點(diǎn)上進(jìn)程的相關(guān)資源,是YARN中資源的相關(guān)抽YARN資源調(diào)度策略:FIFO(先進(jìn)先出)、CapacityScheduler(容器調(diào)度器)、FairScheduler(公平調(diào)度器MR特點(diǎn)1計(jì)算跟著數(shù)據(jù)走2良好的擴(kuò)展性3高容錯(cuò)4狀態(tài)5適合海量數(shù)據(jù)的離線批處理6降低了分布式編程的門MR適用1據(jù)統(tǒng)計(jì)2建索引3查詢4據(jù)分1OLAP2計(jì)3DAGMR的操作階段有Spliting、Map、Shuffling、ReducingSplit是一個(gè)邏輯概念Split的數(shù)量決定了Map的數(shù)park產(chǎn)生背景1MapRedueMapRedue2計(jì)算框架種類多選型難3統(tǒng)一計(jì)算框架簡(jiǎn)化技術(shù)選型Spark點(diǎn)1算高效2用易用3行模式多RDD操作1Transformation(轉(zhuǎn)換)構(gòu)造新的RDD只記錄轉(zhuǎn)換關(guān)系不進(jìn)行計(jì)算2Action(動(dòng)作)真正觸發(fā)計(jì)RDD依賴1窄依賴父RDD中的分區(qū)最多只能被一個(gè)子RDD的一個(gè)分區(qū)使用子RDD如果有部分分區(qū)數(shù)據(jù)丟失或損壞只需從對(duì)用RDD新計(jì)算恢復(fù)2RDD區(qū)依賴父RDD有分區(qū)RDD果部分或全部分區(qū)數(shù)據(jù)丟失或損壞必須從所有父RDD分區(qū)重新計(jì)算Sqoop是一個(gè)主要在Hadoop和關(guān)系數(shù)據(jù)庫之間進(jìn)行批量數(shù)據(jù)遷移的工Flume是一個(gè)分布式海量、聚合和傳輸系統(tǒng)。特點(diǎn)1基于的海量2數(shù)據(jù)流模型3事務(wù)機(jī)制4內(nèi)置富插件5可用6java 最小數(shù)據(jù)傳輸單元由headerbody JVM進(jìn)程最小運(yùn)行單元由Source、Channel、Sink三個(gè)基本組件構(gòu)映射關(guān)系1Source->多個(gè)Channel1Channel->多個(gè)Sink1Sink->1單層Flume架構(gòu)優(yōu)點(diǎn)架構(gòu)簡(jiǎn)單使用方便占有資源較少。缺點(diǎn)1外部升級(jí)或發(fā)生故障成本高系統(tǒng)穩(wěn)定性較差2系統(tǒng)安全性較差3如果的數(shù)據(jù)源或Agent較多將Event寫入到HDFS會(huì)產(chǎn)生很多小文件4數(shù)據(jù)源管理較多層Flume架構(gòu)優(yōu)點(diǎn)1類日志數(shù)據(jù)分層處理架構(gòu)清晰運(yùn)維高效降低人工誤操作風(fēng)險(xiǎn)2免產(chǎn)生過多小文件提高系統(tǒng)穩(wěn)定性和處理能力3對(duì)外不會(huì)系統(tǒng)關(guān)鍵信息降低風(fēng)險(xiǎn)顯著提升安全性4各關(guān)聯(lián)系統(tǒng)易于升級(jí)。缺點(diǎn)部署相對(duì)復(fù)雜占用資源較多概念1于發(fā)布/訂閱的分布式消息系統(tǒng)2Linkdin發(fā)Scala言特性1消息持久化2高吞吐3高容錯(cuò)4易擴(kuò)展5同時(shí)支持離線、實(shí)時(shí)數(shù)據(jù)處應(yīng)用場(chǎng)景1步通信將消息放入kafka可以不立即處理2用解耦在應(yīng)用處理過程中插入一個(gè)隱含的、基于數(shù)據(jù)的接口層3值處理使關(guān)鍵應(yīng)用能夠頂住峰值不會(huì)因超出負(fù)荷而工作機(jī)制1消息在Broker中按Topic()進(jìn)行分類相當(dāng)于為每個(gè)消息打個(gè)2一個(gè)Topic可劃分為多個(gè)Partition(分區(qū))3每個(gè)Partition可以有多個(gè)Replication(副本)4消息在Broker的某一Topic的某一Partition中同時(shí)存在多個(gè)副本。5Partition是一個(gè)FIFO隊(duì)列寫入消息采用在隊(duì)尾追加的方式消費(fèi)消息采用在隊(duì)列頭部順序的方式6一個(gè)Topic可以分為多個(gè)Partition僅保證同一分區(qū)內(nèi)消息有序不保證Topic整體有序7為了加快速度多個(gè)Consumer可劃分為一個(gè)組(ConsumerGroupCG)并行消費(fèi)同一個(gè)Topic8一個(gè)Topic可以被多個(gè)CG訂閱CG之間是的即一個(gè)消息可同時(shí)被多個(gè)CG費(fèi)9CG以有多個(gè)ConsumerCG的Consumer間是競(jìng)爭(zhēng)關(guān)系即一個(gè)消息在一個(gè)CG只能被一個(gè)Consumer消費(fèi)概念1于數(shù)據(jù)倉庫和交互式分析的大數(shù)據(jù)平臺(tái)軟件2于Hadoop數(shù)據(jù)倉庫產(chǎn)品3布式通用SQL引擎4于Spark術(shù)打特點(diǎn)1Hadoop域?qū)QL支持最完善2持完整分布式事務(wù)處理3的大數(shù)據(jù)處理和分析性能4供便捷的SQL、PL/SQL開發(fā)調(diào)試輔助工具Waterdrop表的元數(shù)據(jù)在Metastore中表的實(shí)際數(shù)據(jù)在HDFS、Holddesk、Hyperbase和Search中。按所分類可分為內(nèi)表的特點(diǎn)1系統(tǒng)具有內(nèi)表的完全控制權(quán)負(fù)責(zé)管理它的生命周期2元數(shù)據(jù)在metastore中表數(shù)據(jù)通常在所屬 中。3刪除內(nèi)表時(shí)會(huì)同時(shí)刪除表數(shù)據(jù)以及metastore中的元數(shù)據(jù)外表的特點(diǎn)1系統(tǒng)不具有外表的完全控制權(quán)2元數(shù)據(jù)在Metastore中表數(shù)據(jù)通常在制定的外部中3刪除外表時(shí)不會(huì)刪除表數(shù)據(jù)但是會(huì)刪除metastore中的元數(shù)據(jù)分區(qū)的目的減少不必要的全表掃描提升查詢效率。含義將表按照某個(gè)或某幾個(gè)字段劃分為更小的數(shù)據(jù)集分區(qū)數(shù)據(jù)存 中一個(gè)分區(qū)對(duì)應(yīng)一個(gè)子分桶通過分桶鍵哈希取模的方式將表或分區(qū)中的數(shù)據(jù)隨機(jī)、均勻地分發(fā)到N個(gè)桶中分桶的作用1高join詢效率如果兩個(gè)表的join都做了分桶且分桶樹相同或成倍數(shù)那么相同列值得數(shù)據(jù)會(huì)分到號(hào)相同或有對(duì)應(yīng)關(guān)系的桶中這樣就不用全表遍歷對(duì)應(yīng)的桶做join以表的高級(jí)操作單值分區(qū)靜態(tài)分區(qū)、動(dòng)態(tài)分區(qū)。范圍單值分區(qū)一個(gè)分區(qū)對(duì)應(yīng)分區(qū)鍵的一個(gè)值。范圍分區(qū)一個(gè)分區(qū)對(duì)應(yīng)分區(qū)鍵的一個(gè)范創(chuàng)建單值分區(qū)時(shí)分區(qū)鍵不能和表結(jié)構(gòu)中的列重復(fù)因?yàn)榉謪^(qū)鍵已在分區(qū) 中分區(qū)數(shù)據(jù)中不包含分區(qū)鍵否則會(huì)單值靜態(tài)分區(qū)入數(shù)據(jù)時(shí)必須手動(dòng)指定目標(biāo)分單值動(dòng)態(tài)分區(qū)入數(shù)據(jù)時(shí)系統(tǒng)可以動(dòng)態(tài)判斷目標(biāo)分桶(將數(shù)據(jù)寫入分桶表1表在創(chuàng)建的時(shí)候只定義schema且數(shù)據(jù)寫入時(shí)系統(tǒng)不會(huì)自動(dòng)分桶所以需要先人工分桶再寫入2入分桶表只能通過insert而不能通過load因?yàn)閘oad只導(dǎo)入文件并不分桶3果分桶表創(chuàng)建時(shí)定義了排序鍵那么數(shù)據(jù)不僅要分桶還要排序4分桶鍵和排序鍵不同且降序排列使用distributebysortby分桶排序5果分桶鍵和排序鍵相同且按升序排列使用clusterby分桶排序分桶注意事項(xiàng)1桶鍵必須是表結(jié)構(gòu)中的列2鍵和分桶列必須在建表時(shí)確定不允許更改3ORC事務(wù)表必須分桶每個(gè)桶的文件大小應(yīng)在100-200MB之間5通常先分區(qū)后批處理計(jì)算框架MapReduce、SparkCore、Inceptor、Flink流式計(jì)算框架StormCore、SlipStream、Flink基于微型批處理SparkStreaming、Slipstream、StormSlipStream特點(diǎn)1微批模式和驅(qū)動(dòng)模式的2支持分布式流式SQL3強(qiáng)大的優(yōu)化器提升性能4極高的易用性5品化程度高6遷移成Slipstream的三個(gè)概念Stream(數(shù)據(jù)流)、StreamJob(流任務(wù))對(duì)一個(gè)或多個(gè)Stream進(jìn)行計(jì)算并將結(jié)果寫入一張表的任務(wù)Application(流應(yīng)用)一組業(yè)務(wù)邏輯相關(guān)的StreamJob的集合StreamJob是觸發(fā)StreamSQL執(zhí)行的Action一般具有插入結(jié)果表語義StreamJob主要StreamJobLevel的配置參數(shù)以及對(duì)應(yīng)的SQLStreamJob作為StreamSQL運(yùn)行時(shí)的基本單元也是實(shí)時(shí)的基本單元。Application主要用于運(yùn)行時(shí)的和權(quán)限驗(yàn)證在靜態(tài)時(shí)只是一個(gè)邏輯概念一般用于參數(shù)配置流應(yīng)用通常會(huì)對(duì)一個(gè)窗口(時(shí)間間隔)內(nèi)的數(shù)據(jù)做多表關(guān)聯(lián)、聚合或窗口計(jì)算時(shí)間作為窗口切分單81切分在SQL中指定數(shù)據(jù)流中的某個(gè)時(shí)間字段以該時(shí)間字段為基準(zhǔn)切分窗82系統(tǒng)時(shí)間切分在SQL不指定時(shí)間字段以系統(tǒng)時(shí)間為基準(zhǔn)切分窗口類滑動(dòng)窗定義按一定時(shí)間間隔向未來滑動(dòng)的長(zhǎng)度固定的窗口特點(diǎn)前后窗口之間有跳動(dòng)窗定義當(dāng)窗口長(zhǎng)度和滑動(dòng)間隔相同滑動(dòng)窗口就為跳動(dòng)窗特點(diǎn)前后窗口之間無跳動(dòng)窗口是滑動(dòng)窗口Length=Slide的特10時(shí)間切分和系統(tǒng)時(shí)間切分的區(qū)默認(rèn)的窗口切分方式為系統(tǒng)時(shí)優(yōu)先級(jí)前者高于后靈活性前者更靈活不同窗口可以指定不同的時(shí)間格式支持前者可以滿足多種時(shí)間格 驅(qū)動(dòng)的流處含義以單條數(shù)據(jù)被InputStream接受為時(shí)間逐條數(shù)據(jù)并立刻加工處理最后輸特點(diǎn)相比微批模式驅(qū)動(dòng)模式的延遲在延遲敏感的場(chǎng)景中表現(xiàn)更概高可靠、高性能、可伸縮、實(shí)時(shí)讀寫、面向列的分布式NewSQL數(shù)據(jù)基于HBaseNewSQL數(shù)據(jù)列Key-Value數(shù)據(jù)采用HDFS為文件系特海量數(shù)線性擴(kuò)高并高可數(shù)據(jù)實(shí)時(shí)隨機(jī)讀數(shù)據(jù)強(qiáng)一致HyperBase表結(jié) 表RowKey、列族、列限定符、時(shí)間二維表RowKey、表的特點(diǎn)1據(jù)規(guī)模大2規(guī)模3向列族4疏5據(jù)多版本6據(jù)無類系統(tǒng)架HMaster(Master)1管理元數(shù)據(jù)2管理表的創(chuàng)建、刪除和修改3為HRegionServer分配Region4負(fù)責(zé)的負(fù)載均衡4系統(tǒng)運(yùn)行過程中動(dòng)態(tài)添加、刪除HRegionServer5不處理的數(shù)據(jù)讀寫請(qǐng)HRegionServer(Slave)1處 的數(shù)據(jù)讀寫請(qǐng)求2管理RegionSplit3管理StoreFileZookeeper1實(shí)現(xiàn)HMaster高可用2HRegionServer的上下線信息并通知HMaster3元數(shù)據(jù)的尋址4所有Region尋1通過接口Hyperbase2為了加快數(shù)據(jù)速度將元數(shù)據(jù)、Region位置等信息緩存在Cache中Region1布式和負(fù)載的最小單元2統(tǒng)將表水平劃分為多個(gè)Region每個(gè)Region表的一段連續(xù)數(shù)據(jù)3當(dāng)Region大小隨著數(shù)據(jù)寫入超過閾值時(shí)當(dāng)前Region會(huì)成兩個(gè)子·Region4隨著Region的不斷增多HMaster會(huì)將部分Region遷移到其他HRegionServer中實(shí)現(xiàn)均衡負(fù)載Store1一個(gè)Region有多個(gè)Store組成每個(gè)Store一個(gè)列族2Store由內(nèi)存中的MemStore和磁盤中的若StoreFile組成3Region是分布式的最小單元而Store是落盤的最小單MemStore和StoreFile1MemStore是Store的內(nèi)存緩沖區(qū)數(shù)據(jù)讀寫都先MemStore2StoreFile是MemStore的磁盤溢寫文件在HDFS中被稱為HFile3Store的StoreFile量超過閾值時(shí)HRegionServer會(huì)將若干個(gè)小Store
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高端會(huì)議策劃與銷售服務(wù)合同模板
- 2025年度某局?jǐn)?shù)字化轉(zhuǎn)型勞務(wù)分包結(jié)算規(guī)范合同2篇
- 2025版辦公樓小型裝飾裝修工程施工合同示范6篇
- 2025版建筑工地挖掘機(jī)駕駛員勞動(dòng)合同標(biāo)準(zhǔn)范本3篇
- 《全球化與兩岸關(guān)系》課件
- 可燃冰資源地質(zhì)評(píng)價(jià)方法與實(shí)踐考核試卷
- 2025版學(xué)校食堂蔬菜采購及食品安全追溯服務(wù)合同3篇
- 2025年度美術(shù)品藝術(shù)品投資顧問合同范本4篇
- 2025年學(xué)校節(jié)日慶祝協(xié)議
- 2025年合伙人員協(xié)議
- 山東省桓臺(tái)第一中學(xué)2024-2025學(xué)年高一上學(xué)期期中考試物理試卷(拓展部)(無答案)
- 中華人民共和國保守國家秘密法實(shí)施條例培訓(xùn)課件
- 管道坡口技術(shù)培訓(xùn)
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí) CCAA年度確認(rèn) 試題與答案
- 皮膚儲(chǔ)存新技術(shù)及臨床應(yīng)用
- 外研版七年級(jí)英語上冊(cè)《閱讀理解》專項(xiàng)練習(xí)題(含答案)
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫必考題
- 上海市復(fù)旦大學(xué)附中2024屆高考沖刺模擬數(shù)學(xué)試題含解析
- 幼兒園公開課:大班健康《國王生病了》課件
- 小學(xué)六年級(jí)說明文閱讀題與答案大全
評(píng)論
0/150
提交評(píng)論