大數(shù)據(jù)分析之Hadoop工具應(yīng)用

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPTX 頁數(shù)：32 大小：1.39MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析之Hadoop工具應(yīng)用

——分布式文件系統(tǒng)（HDFS）、分布式數(shù)據(jù)庫(Hbase)與分布式計(jì)算（MapReduce）什么是大數(shù)據(jù)銀行互聯(lián)網(wǎng)圖書館海量交易數(shù)據(jù)：企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù)，是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫迕行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù)，我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù)：源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本呾點(diǎn)擊流數(shù)據(jù)、科孥信息、電子郵件等等。可以告訴我們未來會(huì)収生什么。海量歸檔數(shù)據(jù)：圖書館內(nèi)部存儲(chǔ)的大量的圖書目錄信息主要包括了圖書數(shù)量信息和圖書流動(dòng)信息等等，包含了圖書館的所有重要信息。什么是大數(shù)據(jù)兵工行業(yè)的大數(shù)據(jù)在哪里？大數(shù)據(jù)類型與存儲(chǔ)大數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)GIS數(shù)據(jù)大數(shù)據(jù)存儲(chǔ)分布式文件系統(tǒng)關(guān)系型數(shù)據(jù)庫集群分布式數(shù)據(jù)庫GIS數(shù)據(jù)庫集群存儲(chǔ)、管理、訪問可平滑擴(kuò)展可冗余備份，保證高可靠性快速訪問分發(fā)機(jī)制支持大量訪問請求數(shù)據(jù)訪問優(yōu)化策略數(shù)據(jù)處理流程采集預(yù)處理檢索分析展現(xiàn)共享存儲(chǔ)大數(shù)據(jù)處理的技術(shù)關(guān)鍵分析技術(shù)：數(shù)據(jù)處理：自然語言處理技術(shù)；統(tǒng)計(jì)和分析：地域占比，文本情感分析，A/Btest，topN排行榜；數(shù)據(jù)挖掘：建模，聚類，分類，排名；模型預(yù)測：預(yù)測模型，機(jī)器學(xué)習(xí)，建模仿真。存儲(chǔ)技術(shù)：結(jié)構(gòu)化數(shù)據(jù)：海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)：圖片、視頻、word、pdf、ppt等文件存儲(chǔ)，不利于檢索，存儲(chǔ)和查詢半結(jié)構(gòu)化數(shù)據(jù)：轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存儲(chǔ)。大數(shù)據(jù)技術(shù)：數(shù)據(jù)采集：ETL工具；數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫，NoSQL，NewSQL,等基礎(chǔ)架構(gòu)支持：云存儲(chǔ)，分布式文件系統(tǒng)等；計(jì)算結(jié)果展現(xiàn)：云計(jì)算，標(biāo)簽云，關(guān)系圖等。解決方案：Hadoop（MapReduce技術(shù)）、MongoDB、流計(jì)算（twitter的strom和yahoo!的S4）Hadoop項(xiàng)目介紹Hadoop最先是由Apache公司在2005年引入的，起源于google開發(fā)的MapReduce和GoogleFileSystem（GFS）項(xiàng)目。Google云計(jì)算MapReduceBigTableGFSChubbyGFS→HDFSBigTable→HbaseMapReduce→Hadoop分布式文件系統(tǒng)——HDFS什么是分布式文件系統(tǒng)？分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接在本地節(jié)點(diǎn)上，而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)設(shè)計(jì)基于客戶機(jī)/服務(wù)器模式，一個(gè)典型的網(wǎng)絡(luò)可能包括多個(gè)供用戶訪問的服務(wù)器。用戶可以在任意一臺(tái)客戶機(jī)上訪問其他機(jī)器的文件系統(tǒng)。為什么需要分布式文件系統(tǒng)？高擴(kuò)展能力：HDFS采用元數(shù)據(jù)中心化管理，然后通過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)的訪問壓力；高可用性：一是整個(gè)文件系統(tǒng)的可用性，二是數(shù)據(jù)的完整和一致性。數(shù)據(jù)完整性通過文件的鏡像和文件自動(dòng)修復(fù)來解決；彈性存儲(chǔ)：可以根據(jù)業(yè)務(wù)需要靈活地增加或縮減數(shù)據(jù)存儲(chǔ)以及增刪存儲(chǔ)池中的資源，而不需要中斷系統(tǒng)運(yùn)行；分布式文件系統(tǒng)——HDFSHDFS的設(shè)計(jì)HDFS為了做到可靠性（reliability）創(chuàng)建了多份數(shù)據(jù)塊（datablocks）的復(fù)制（replicas），并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中（computenodes）。分布式文件系統(tǒng)——HDFSHDFS應(yīng)用場景超大文件

流式數(shù)據(jù)訪問一次寫入，多次讀取傳輸時(shí)間與尋址時(shí)間商用硬件適量的文件數(shù)為把“計(jì)算”移動(dòng)到“數(shù)據(jù)”提供基礎(chǔ)和便利適用?低延時(shí)的數(shù)據(jù)訪問?大量小文件?多用戶寫入，任意修改文件不適用分布式文件系統(tǒng)——HDFS塊(BLOCK)的概念在傳統(tǒng)的塊存儲(chǔ)介質(zhì)中，塊是讀寫的最小數(shù)據(jù)單位(扇區(qū))傳統(tǒng)文件系統(tǒng)基于存儲(chǔ)塊進(jìn)行操作●為了節(jié)省文件分配表空間，會(huì)對物理存儲(chǔ)塊進(jìn)行整合，一般大小為4096字節(jié)HDFS也使用了塊的概念，但是默認(rèn)大小設(shè)為64M字節(jié)●可針對每個(gè)文件配置，由客戶端指定●每個(gè)塊有一個(gè)自己的全局IDHDFS將一個(gè)文件分為一個(gè)或數(shù)個(gè)塊來存儲(chǔ)●每個(gè)塊是一個(gè)獨(dú)立的存儲(chǔ)單位●以塊為單位在集群服務(wù)器上分配存儲(chǔ)使用塊的好處當(dāng)一個(gè)文件大于集群中任意一個(gè)磁盤的時(shí)候，文件系統(tǒng)可以充分利用集群中所有的磁盤管理塊使底層的存儲(chǔ)子系統(tǒng)相對簡單塊更加適合備份，從而為容錯(cuò)和高可用性的實(shí)現(xiàn)帶來方便塊的冗余備份每個(gè)塊在集群上會(huì)存儲(chǔ)多份(replica)●默認(rèn)復(fù)制份數(shù)為3●可針對每個(gè)文件配置，由客戶端指定●可動(dòng)態(tài)修改某個(gè)塊的所有備份都是同一個(gè)ID●系統(tǒng)無需記錄“哪些塊其實(shí)是同一份數(shù)據(jù)”系統(tǒng)可以根據(jù)機(jī)架的配置自動(dòng)分配備份位置●兩份在一個(gè)機(jī)架的兩臺(tái)機(jī)器上●另一份在集群的另一個(gè)機(jī)架的某臺(tái)機(jī)器上●此策略是性能與冗余性的平衡●機(jī)架信息需要手工配置分布式文件系統(tǒng)——HDFSHDFS的元數(shù)據(jù)元數(shù)據(jù)包括文件系統(tǒng)目錄樹信息文件名，目錄名文件和目錄的從屬關(guān)系文件和目錄的大小，創(chuàng)建及最后訪問時(shí)間權(quán)限文件和塊的對應(yīng)關(guān)系文件由哪些塊組成塊的存放位置機(jī)器名，塊IDHDFS對元數(shù)據(jù)和實(shí)際數(shù)據(jù)采取分別存儲(chǔ)的方法元數(shù)據(jù)存儲(chǔ)在指定的服務(wù)器上(NameNode)實(shí)際數(shù)據(jù)儲(chǔ)存在集群的其他機(jī)器的本地文件系統(tǒng)中(DataNode)分布式文件系統(tǒng)——HDFSHDFS的高可用性Client1Client2DataNode節(jié)點(diǎn)NameNode1NameNode2NFS服務(wù)器正常運(yùn)行狀態(tài)單點(diǎn)失效狀態(tài)分布式文件系統(tǒng)——HDFSHDFS的高可用性NameNode掛了怎么辦？系統(tǒng)采用雙NameNode節(jié)點(diǎn)分布管理設(shè)計(jì)方案，支持分布式的元數(shù)據(jù)服務(wù)器，支持元數(shù)據(jù)自動(dòng)日志功能，實(shí)現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動(dòng)恢復(fù)，當(dāng)一臺(tái)服務(wù)器發(fā)生宕機(jī)時(shí)，其管理功能可以有另外的服務(wù)器接管，系統(tǒng)可以正常運(yùn)行，對外提供服務(wù)。NameNodeNameNode是用來管理文件系統(tǒng)命名空間的組件

一個(gè)HDFS集群只有一臺(tái)active的NameNode一個(gè)HDFS集群只有一個(gè)命名空間，一個(gè)根目錄NameNode上存放了HDFS的元數(shù)據(jù)元數(shù)據(jù)保存在NameNode的內(nèi)存當(dāng)中，以便快速查詢1G內(nèi)存大致可以存放1,000,000個(gè)塊對應(yīng)的元數(shù)據(jù)信息按缺省每塊64M計(jì)算，大致對應(yīng)64T實(shí)際數(shù)據(jù)分布式文件系統(tǒng)——HDFSHDFS的高可用性Datanode?一個(gè)數(shù)據(jù)塊在DataNode以文件存儲(chǔ)在磁盤上，包括兩個(gè)文件，一個(gè)是數(shù)據(jù)本身，一個(gè)是元數(shù)據(jù)包括數(shù)據(jù)塊的長度，塊數(shù)據(jù)的校驗(yàn)和，以及時(shí)間戳。?DataNode啟動(dòng)后向NameNode注冊，通過后，周期性（1小時(shí)）的向NameNode上報(bào)所有的塊信息。?心跳是每3秒一次，心跳返回結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器，或刪除某個(gè)數(shù)據(jù)塊。如果超過10分鐘沒有收到某個(gè)DataNode的心跳，則認(rèn)為該節(jié)點(diǎn)不可用。?集群運(yùn)行中可以安全加入和退出一些機(jī)器。DataNode中的磁盤掛了怎么辦？DataNode正常服務(wù)；自動(dòng)盡快通NameNode壞掉的磁盤上的數(shù)據(jù)。DataNode所在機(jī)器掛了怎么辦？datanode每3秒鐘向namenode發(fā)送心跳，如果10分鐘datanode沒有向namenode發(fā)送心跳，則namenode認(rèn)為該datanode已經(jīng)dead，namenode將取出該datanode上對應(yīng)的block，對其進(jìn)行復(fù)制。增加DataNode節(jié)點(diǎn)后？系統(tǒng)平臺(tái)增加新節(jié)點(diǎn)之后，系統(tǒng)自動(dòng)在所有節(jié)點(diǎn)之間均衡數(shù)據(jù)。系統(tǒng)后臺(tái)根據(jù)忙閑程度，自動(dòng)發(fā)起，占用很少系統(tǒng)資源，無需人工干預(yù)，實(shí)現(xiàn)數(shù)據(jù)均衡分布。分布式數(shù)據(jù)庫——HBaseHBase概述HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫，該技術(shù)來源于Changetal所撰寫的Google論文“Bigtable：一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)（FileSystem）所提供的分布式數(shù)據(jù)存儲(chǔ)一樣，HBase在Hadoop之上提供了類似于Bigtable的能力。HBase不同于一般的關(guān)系數(shù)據(jù)庫，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。HBase技術(shù)特點(diǎn)1、大表：一個(gè)表可以有上億行，上百萬列2、面向列：面向列(族)的存儲(chǔ)和權(quán)限控制，列(族)獨(dú)立檢索。3、稀疏：對于為空(null)的列，并不占用存儲(chǔ)空間，因此，表可以設(shè)計(jì)的非常稀疏。分布式數(shù)據(jù)庫——HBaseHBase表存儲(chǔ)結(jié)構(gòu)示例RowKey：行鍵，表的主鍵，表中的記錄按照RowKey字典排序；Timestamp：時(shí)間戳，每次數(shù)據(jù)操作對應(yīng)的時(shí)間記錄，可以看做是數(shù)據(jù)的版本號；ColumnFamily：列簇，表在水平方向有一個(gè)或者多個(gè)ColumnFamily組成，一個(gè)ColumnFamily可以由多個(gè)Column組成，即ColumnFamily支持動(dòng)態(tài)擴(kuò)展，無需預(yù)先定義Column的數(shù)量及類型，所有Column均以二進(jìn)制格式存儲(chǔ)，用戶需要自行進(jìn)行型轉(zhuǎn)換。分布式數(shù)據(jù)庫——HBaseHbase物理部署Hbase邏輯架構(gòu)分布式數(shù)據(jù)庫——HBaseClient：

包含訪問hbase的接口，client維護(hù)著一些cache來加快對hbase的

訪問，比如region的位置信息。Zookeeper：1.保證任何時(shí)候，集群中只有一個(gè)master； 2.存貯所有Region的尋址入口； 3.實(shí)時(shí)監(jiān)控RegionServer的狀態(tài)，將Regionserver的上線和下線信

息實(shí)時(shí)通知給Master； 4.存儲(chǔ)Hbase的schema，包括有哪些table，每個(gè)table有哪些 columnfamily。Master：1.為Regionserver分配region； 2.負(fù)責(zé)regionserver的負(fù)載均衡； 3.發(fā)現(xiàn)失效的regionserver并重新分配其上的region； 4.HDFS上的垃圾文件回收； 5.處理schema更新請求。RegionServer：1.Regionserver維護(hù)Master分配給它的region，處理對這些region的IO 請求； 2.Regionserver負(fù)責(zé)切分在運(yùn)行過程中變得過大的region。Hbase物理部署分布式數(shù)據(jù)庫——HBaseHbase物理存儲(chǔ)HTable：在行方向上分為多個(gè)HRegion。當(dāng)表隨著記錄的不斷增加而變大后，會(huì)逐漸分裂成多份splits，稱為region，一個(gè)region由[startkey,endkey]表示，不同的region會(huì)被Master分配給相應(yīng)的RegionServer進(jìn)行管理。HRegion：Region按大小分隔，達(dá)到閾值，HRegion自動(dòng)等分，后臺(tái)會(huì)一直進(jìn)行split和sort操作，以達(dá)到region的等分。HTableHRegion分割分布式數(shù)據(jù)庫——HBaseHRegion分布Hbase物理存儲(chǔ)Region是分布式存儲(chǔ)的最小單元分布式數(shù)據(jù)庫——HBaseHbase物理存儲(chǔ)storefile就是列簇，一個(gè)列簇整合成一個(gè)storefile文件。所有數(shù)據(jù)進(jìn)來先在memstor進(jìn)行緩沖，達(dá)到一定的閥值就刷新一次形成一個(gè)storefile。分布式數(shù)據(jù)庫——HBaseHFile：Hbase中KeyValue數(shù)據(jù)存儲(chǔ)格式，是Hadoop的二進(jìn)制格式文件，實(shí)際上StoreFile就是對HFile做了輕量級包裝，即StoreFile底層就是HFile。分布式數(shù)據(jù)庫——HBaseHLogFile：HBase中WAL(WriteAheadLog)的存儲(chǔ)格式，物理上是Hadoop的SequenceFile。WAL類似mysql中的binlog,用來做災(zāi)難恢復(fù)作用，HLog記錄數(shù)據(jù)的所有變更，一旦數(shù)據(jù)修改，就可以從log中進(jìn)行恢復(fù)。每個(gè)RegionServer維護(hù)一個(gè)Hlog,而不是每個(gè)Region一個(gè)。這樣不同region(來自不同table)的日志會(huì)混在一起，這樣做的目的是不斷追加單個(gè)文件相對于同時(shí)寫多個(gè)文件而言，可以減少磁盤尋址次數(shù)，因此可以提高對table的寫性能。帶來的麻煩是，如果一臺(tái)regionserver下線，為了恢復(fù)其上的region，需要將regionserver上的log進(jìn)行拆分，然后分發(fā)到其它regionserver上進(jìn)行恢復(fù)。SequenceFile的Key是HLogKey對象，HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息，除了table和region名字外，同時(shí)還包括sequencenumber和timestamp，timetamp是“寫入時(shí)間”，sequencenumber的起始值為0，或者是最近一次存入文件系統(tǒng)中sequencenumber。HLogSequeceFile的Value是HBase的KeyValue對象，即對應(yīng)HFile中的KeyValue。分布式計(jì)算——MapReduce大數(shù)據(jù)處理計(jì)算問題簡單，但求解困難待處理的數(shù)據(jù)量巨大，只有分布在成百上千個(gè)節(jié)點(diǎn)上并行計(jì)算才能在可接受的時(shí)間內(nèi)完成如何進(jìn)行并行分布式計(jì)算？如何分發(fā)待處理數(shù)據(jù)？如何處理分布式計(jì)算中的錯(cuò)誤？MapReduce特性自動(dòng)實(shí)現(xiàn)分布式并行計(jì)算容錯(cuò)提供狀態(tài)監(jiān)控工具模型抽象簡潔，程序員易用分布式計(jì)算——MapReduceHadoop上的MapReducejob:是客戶端程序想要完成的一系列工作的集合。包括輸入數(shù)據(jù)，MapReduce程序和配置信息。用戶只要在客戶端提交工作，MapReduce會(huì)自動(dòng)分配任務(wù)給集群中的計(jì)算節(jié)點(diǎn)。task:Hadoop將job分解為tasks有兩種類型的task:maptask和reducetask。jobtracker和tasktracker:

用來控制job執(zhí)行的；tasktracker運(yùn)行task，并向jobtracker報(bào)告進(jìn)度信息；jobtracker記錄下每一個(gè)job的進(jìn)度信息，如果一個(gè)task失敗，jobtracker會(huì)將其重新調(diào)度到另外的tasktracker上。MapReduce特性分布式計(jì)算——Ma

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析之Hadoop工具應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)分析之Hadoop工具應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔