大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件_第1頁
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件_第2頁
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件_第3頁
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件_第4頁
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)處理技術(shù)簡(jiǎn)介大數(shù)據(jù)處理技術(shù)簡(jiǎn)介1

三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介

二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

一、大數(shù)據(jù)背景目錄1.Hadoop簡(jiǎn)介2.實(shí)例演示1.定義2.數(shù)據(jù)的來源1.分布式儲(chǔ)存系統(tǒng)(GFS/HDFS)2.分布式計(jì)算模型(MapReduce)三、大數(shù)據(jù)開源軟件Hadoo2一、大數(shù)據(jù)背景一、大數(shù)據(jù)背景3我們正處在信息爆炸的年代2000年數(shù)字?jǐn)?shù)據(jù)只占全球數(shù)據(jù)量的1/42007年所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余93%全是數(shù)字?jǐn)?shù)據(jù)(二進(jìn)制數(shù)據(jù))Google

單日數(shù)據(jù)處理量超過24PBFacebook

單日照片更新量超過1千萬張?zhí)詫毦W(wǎng)單日數(shù)據(jù)產(chǎn)生量超過5萬GB大數(shù)據(jù)背景

——定義我們正處在信息爆炸的年代2000年數(shù)字?jǐn)?shù)據(jù)只占全球數(shù)4大數(shù)據(jù)定義“大數(shù)據(jù)”是指一個(gè)數(shù)據(jù)集(Datasets),它的尺寸大到已經(jīng)無法由傳統(tǒng)的數(shù)據(jù)庫軟件去采集、儲(chǔ)存、管理和分析。大數(shù)據(jù)背景

——定義大數(shù)據(jù)定義“大數(shù)據(jù)”是指一個(gè)數(shù)據(jù)集(Datasets5數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。例如:二維表半結(jié)構(gòu)化數(shù)據(jù):自描述,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混雜在一起的數(shù)據(jù)。例如:XML、HTML等。非結(jié)構(gòu)化數(shù)據(jù):除去以上兩種類型例如:音視頻、圖片等。大數(shù)據(jù)背景

——定義數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)62000年以后非結(jié)構(gòu)化數(shù)據(jù)占絕大部分大數(shù)據(jù)背景

——

數(shù)據(jù)的來源2000年以后非結(jié)構(gòu)化數(shù)據(jù)占絕大部分大數(shù)據(jù)背景——7從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)行業(yè)技術(shù)結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)視頻、音頻識(shí)別技術(shù)等大數(shù)據(jù)背景

——

數(shù)據(jù)的來源從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)行業(yè)結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)8網(wǎng)頁爬蟲視頻識(shí)別語音識(shí)別等大數(shù)據(jù)背景

——

數(shù)據(jù)的來源網(wǎng)頁爬蟲視頻識(shí)別語音識(shí)別等大數(shù)據(jù)背景——數(shù)據(jù)的來源9傳統(tǒng)關(guān)系數(shù)據(jù)庫,如:Oracle、MYSQL無法儲(chǔ)存幾億行長(zhǎng),幾百萬行寬的表格,巨大的數(shù)據(jù)直接導(dǎo)致數(shù)據(jù)庫崩潰半結(jié)構(gòu)化數(shù)據(jù)和臟數(shù)據(jù)將會(huì)導(dǎo)致出錯(cuò)(類型不嚴(yán)格)傳統(tǒng)方法失效!如何解決?大數(shù)據(jù)處理技術(shù)的解決辦法:存成文件(FileSystem)大數(shù)據(jù)背景

——

數(shù)據(jù)的來源傳統(tǒng)關(guān)系數(shù)據(jù)庫,如:Oracle、MYSQL大數(shù)據(jù)背景—10某搜索引擎搜索日志大數(shù)據(jù)背景

——

數(shù)據(jù)的來源某搜索引擎搜索日志大數(shù)據(jù)背景——數(shù)據(jù)的來源11

二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)12大數(shù)據(jù)處理技術(shù)面對(duì)的第一個(gè)問題

如何高效存儲(chǔ)大規(guī)模文件?大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理技術(shù)面對(duì)的第一個(gè)問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—13數(shù)據(jù)讀取問題1T100M/SOHNO!!!大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS2.5小時(shí)數(shù)據(jù)讀取問題1T100M/SOHNO!!!大數(shù)據(jù)處14谷歌文件系統(tǒng)(GFS)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌文件系統(tǒng)(GFS)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)15分而治之大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌文件系統(tǒng)(GFS)解決方案分而治之大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS16……..10G1分30秒100M/S大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS10G10G10G10G……..10G1分30秒100M/S大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—17可靠性問題

大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理技術(shù)面對(duì)的第二個(gè)問題99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%可靠性問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS18備份一份數(shù)據(jù)至少做三個(gè)備份大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌解決方案?jìng)浞荽髷?shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS/19……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat

)Master(主管)Secondarymaster(副主管)Client(用戶程序)讀取元數(shù)據(jù)讀取數(shù)據(jù)云(Cloud)Master作用:儲(chǔ)存元數(shù)據(jù)(數(shù)據(jù)位置信息)儲(chǔ)存節(jié)點(diǎn)的日常維護(hù)儲(chǔ)存節(jié)點(diǎn)10G10G10G10G數(shù)據(jù)位置信息讀取數(shù)據(jù)……10G10G……10G10G10G10G10G10G……20GoogleFileSystem架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFSGoogleFileSystem架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)21大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduce大數(shù)據(jù)處理技術(shù)面對(duì)的第三個(gè)問題數(shù)據(jù)運(yùn)算問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式計(jì)算模型MapRedu22分布式計(jì)算(并行計(jì)算)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌解決方案分布式計(jì)算(并行計(jì)算)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)23谷歌提出Map/Reduce模型大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduce谷歌提出Map/Reduce模型大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)24Map函數(shù):接受一個(gè)鍵值對(duì)(key-valuepair),產(chǎn)生一組中間鍵值對(duì)。map函數(shù)將中間鍵值對(duì)里鍵相同的值傳遞給Reduce函數(shù)。Reduce函數(shù):接受一個(gè)鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceMap函數(shù):接受一個(gè)鍵值對(duì)(key-valuepair),25Key-Value(鍵-值)模型

鍵(Key):鍵必須是唯一的,而值并不一定是唯一的每個(gè)值必須與鍵關(guān)聯(lián),但鍵可以沒有值必須對(duì)鍵進(jìn)行明確定義。他決定了計(jì)數(shù)是否區(qū)分大小寫(鍵由Hash值唯一確定)。鍵值對(duì)舉例:通訊錄中的姓名(Key)和聯(lián)系方式(Value)計(jì)算機(jī)中各種根據(jù)文件名(Key)訪問各類文件,如文本、圖片(Value)年份(Key)—溫度(value)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceKey-Value(鍵-值)模型鍵(Key):大數(shù)據(jù)處理實(shí)26氣象站氣象數(shù)據(jù)的處理(找出最高氣溫)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceKey(年份)——Value(溫度)氣象站氣象數(shù)據(jù)的處理(找出最高氣溫)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—27大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceMapReduce計(jì)算架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式計(jì)算模型MapRedu28Map/Reduce特點(diǎn)開發(fā)簡(jiǎn)單

無需處理線程或提供精細(xì)的同步邏輯規(guī)模大

無需修改程序即可在任意規(guī)模機(jī)器上運(yùn)行工作具備自動(dòng)并行和分發(fā)功能

用戶只需寫好Map和Reduce函數(shù)即可高容錯(cuò)失敗任務(wù)在新節(jié)點(diǎn)上會(huì)重新運(yùn)行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceMap/Reduce特點(diǎn)開發(fā)簡(jiǎn)單大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——29Map/Reduce的局限對(duì)迭代算法無能為力不是所有算法都能并行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)

——分布式計(jì)算模型MapReduceMap/Reduce的局限對(duì)迭代算法無能為力大數(shù)據(jù)處理實(shí)現(xiàn)技30

三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介31谷歌技術(shù)開源實(shí)現(xiàn)

GFS

MapReduce開源實(shí)現(xiàn)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介HDFS

MapReduce谷歌技術(shù)開源實(shí)現(xiàn)開源實(shí)現(xiàn)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介HDF322002年,DougCutting從做開源ApacheNutch引擎開始2003年,Doug在看到谷歌發(fā)表的GFS之后,開始開源實(shí)現(xiàn)NDFS(Nutch

DistributedFileSystem)。2004年,谷歌發(fā)表MapReduce,2005年,Nutch開發(fā)人員開源實(shí)現(xiàn)MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch項(xiàng)目,獨(dú)立形成獨(dú)立項(xiàng)目,命名Hadoop。Hadoop的得名(DougCutting的小孩給毛絨玩具象起的名字)2006年,

DougCutting加入雅虎(聘請(qǐng)),雅虎開始資助Hadoop發(fā)展。2008年,1月Hadoop成為Apache頂級(jí)項(xiàng)目,2月,雅虎宣布,Hadoop應(yīng)用在自家搜素引擎中(其搜索引擎的索引建立在擁有1萬個(gè)內(nèi)核的Hadoop集群上),4月,Hadoop在900個(gè)節(jié)點(diǎn)上運(yùn)行1TB排序測(cè)試僅需209秒,成為全球最快。大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介2002年,DougCutting從做開源ApacheN33Hadoop

分布式文件系統(tǒng)(HDFS)架構(gòu)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介Hadoop分布式文件系統(tǒng)(HDFS)架構(gòu)大數(shù)據(jù)開源軟件H34安裝Hadoop1.系統(tǒng)要求:Linux(Ubuntu/CentOS/…)2.java運(yùn)行環(huán)境(安裝JDK)3.安裝SSH4.安裝Hadoop大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介安裝Hadoop1.系統(tǒng)要求:Linux(Ubuntu/Ce35Hadoop啟動(dòng)HDFS演示大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介——實(shí)例演示Hadoop啟動(dòng)HDFS演示大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介36Hadoop云的實(shí)際操作1.啟動(dòng)HDFS命令:start-dfs.shHadoop云的實(shí)際操作1.啟動(dòng)HDFS命令:start-d372.在eclipse中打開HDFS目錄(eclipse需安裝Map/Reduce插件)2.在eclipse中打開HDFS目錄(eclipse需安裝38大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件39Map/Reduce

單詞統(tǒng)頻(Wordcount)示例大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介——實(shí)例演示Map/Reduce

單詞統(tǒng)頻(Wordcount)示例大數(shù)401.通過eclipse上傳文本至HDFS1.通過eclipse上傳文本至HDFS412.啟動(dòng)MapReduce計(jì)算框架,命令:start-yarn.sh2.啟動(dòng)MapReduce計(jì)算框架,命令:start-yar42WordcountJava程序map部分

publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper<LongWritable,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);while(tokenizer.hasMoreTokens()){

word.set(tokenizer.nextToken());

output.collect(word,one);//輸出:<單詞>1}WordcountJava程序map部分public43大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件44WordcountJava程序reduce部分

publicstaticclassReduceextendsMapReduceBaseimplementsReducer<Text,IntWritable,Text,IntWritable>{publicvoidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{intsum=0;while(values.hasNext()){

sum+=values.next().get();//累加統(tǒng)頻

}

output.collect(key,newIntWritable(su

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論