版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介大數(shù)據(jù)處理技術(shù)簡(jiǎn)介1
三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介
二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
一、大數(shù)據(jù)背景目錄1.Hadoop簡(jiǎn)介2.實(shí)例演示1.定義2.數(shù)據(jù)的來源1.分布式儲(chǔ)存系統(tǒng)(GFS/HDFS)2.分布式計(jì)算模型(MapReduce)三、大數(shù)據(jù)開源軟件Hadoo2一、大數(shù)據(jù)背景一、大數(shù)據(jù)背景3我們正處在信息爆炸的年代2000年數(shù)字?jǐn)?shù)據(jù)只占全球數(shù)據(jù)量的1/42007年所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余93%全是數(shù)字?jǐn)?shù)據(jù)(二進(jìn)制數(shù)據(jù))Google
單日數(shù)據(jù)處理量超過24PBFacebook
單日照片更新量超過1千萬張?zhí)詫毦W(wǎng)單日數(shù)據(jù)產(chǎn)生量超過5萬GB大數(shù)據(jù)背景
——定義我們正處在信息爆炸的年代2000年數(shù)字?jǐn)?shù)據(jù)只占全球數(shù)4大數(shù)據(jù)定義“大數(shù)據(jù)”是指一個(gè)數(shù)據(jù)集(Datasets),它的尺寸大到已經(jīng)無法由傳統(tǒng)的數(shù)據(jù)庫軟件去采集、儲(chǔ)存、管理和分析。大數(shù)據(jù)背景
——定義大數(shù)據(jù)定義“大數(shù)據(jù)”是指一個(gè)數(shù)據(jù)集(Datasets5數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。例如:二維表半結(jié)構(gòu)化數(shù)據(jù):自描述,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混雜在一起的數(shù)據(jù)。例如:XML、HTML等。非結(jié)構(gòu)化數(shù)據(jù):除去以上兩種類型例如:音視頻、圖片等。大數(shù)據(jù)背景
——定義數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)62000年以后非結(jié)構(gòu)化數(shù)據(jù)占絕大部分大數(shù)據(jù)背景
——
數(shù)據(jù)的來源2000年以后非結(jié)構(gòu)化數(shù)據(jù)占絕大部分大數(shù)據(jù)背景——7從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)行業(yè)技術(shù)結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)視頻、音頻識(shí)別技術(shù)等大數(shù)據(jù)背景
——
數(shù)據(jù)的來源從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)行業(yè)結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)8網(wǎng)頁爬蟲視頻識(shí)別語音識(shí)別等大數(shù)據(jù)背景
——
數(shù)據(jù)的來源網(wǎng)頁爬蟲視頻識(shí)別語音識(shí)別等大數(shù)據(jù)背景——數(shù)據(jù)的來源9傳統(tǒng)關(guān)系數(shù)據(jù)庫,如:Oracle、MYSQL無法儲(chǔ)存幾億行長(zhǎng),幾百萬行寬的表格,巨大的數(shù)據(jù)直接導(dǎo)致數(shù)據(jù)庫崩潰半結(jié)構(gòu)化數(shù)據(jù)和臟數(shù)據(jù)將會(huì)導(dǎo)致出錯(cuò)(類型不嚴(yán)格)傳統(tǒng)方法失效!如何解決?大數(shù)據(jù)處理技術(shù)的解決辦法:存成文件(FileSystem)大數(shù)據(jù)背景
——
數(shù)據(jù)的來源傳統(tǒng)關(guān)系數(shù)據(jù)庫,如:Oracle、MYSQL大數(shù)據(jù)背景—10某搜索引擎搜索日志大數(shù)據(jù)背景
——
數(shù)據(jù)的來源某搜索引擎搜索日志大數(shù)據(jù)背景——數(shù)據(jù)的來源11
二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)12大數(shù)據(jù)處理技術(shù)面對(duì)的第一個(gè)問題
如何高效存儲(chǔ)大規(guī)模文件?大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理技術(shù)面對(duì)的第一個(gè)問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—13數(shù)據(jù)讀取問題1T100M/SOHNO!!!大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS2.5小時(shí)數(shù)據(jù)讀取問題1T100M/SOHNO!!!大數(shù)據(jù)處14谷歌文件系統(tǒng)(GFS)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌文件系統(tǒng)(GFS)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)15分而治之大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌文件系統(tǒng)(GFS)解決方案分而治之大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS16……..10G1分30秒100M/S大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS10G10G10G10G……..10G1分30秒100M/S大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—17可靠性問題
大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理技術(shù)面對(duì)的第二個(gè)問題99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%可靠性問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS18備份一份數(shù)據(jù)至少做三個(gè)備份大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌解決方案?jìng)浞荽髷?shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)存系統(tǒng)GFS/19……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat
)Master(主管)Secondarymaster(副主管)Client(用戶程序)讀取元數(shù)據(jù)讀取數(shù)據(jù)云(Cloud)Master作用:儲(chǔ)存元數(shù)據(jù)(數(shù)據(jù)位置信息)儲(chǔ)存節(jié)點(diǎn)的日常維護(hù)儲(chǔ)存節(jié)點(diǎn)10G10G10G10G數(shù)據(jù)位置信息讀取數(shù)據(jù)……10G10G……10G10G10G10G10G10G……20GoogleFileSystem架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFSGoogleFileSystem架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)21大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduce大數(shù)據(jù)處理技術(shù)面對(duì)的第三個(gè)問題數(shù)據(jù)運(yùn)算問題大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式計(jì)算模型MapRedu22分布式計(jì)算(并行計(jì)算)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲(chǔ)存系統(tǒng)GFS/HDFS谷歌解決方案分布式計(jì)算(并行計(jì)算)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式儲(chǔ)23谷歌提出Map/Reduce模型大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduce谷歌提出Map/Reduce模型大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)24Map函數(shù):接受一個(gè)鍵值對(duì)(key-valuepair),產(chǎn)生一組中間鍵值對(duì)。map函數(shù)將中間鍵值對(duì)里鍵相同的值傳遞給Reduce函數(shù)。Reduce函數(shù):接受一個(gè)鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMap函數(shù):接受一個(gè)鍵值對(duì)(key-valuepair),25Key-Value(鍵-值)模型
鍵(Key):鍵必須是唯一的,而值并不一定是唯一的每個(gè)值必須與鍵關(guān)聯(lián),但鍵可以沒有值必須對(duì)鍵進(jìn)行明確定義。他決定了計(jì)數(shù)是否區(qū)分大小寫(鍵由Hash值唯一確定)。鍵值對(duì)舉例:通訊錄中的姓名(Key)和聯(lián)系方式(Value)計(jì)算機(jī)中各種根據(jù)文件名(Key)訪問各類文件,如文本、圖片(Value)年份(Key)—溫度(value)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceKey-Value(鍵-值)模型鍵(Key):大數(shù)據(jù)處理實(shí)26氣象站氣象數(shù)據(jù)的處理(找出最高氣溫)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceKey(年份)——Value(溫度)氣象站氣象數(shù)據(jù)的處理(找出最高氣溫)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)—27大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMapReduce計(jì)算架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——分布式計(jì)算模型MapRedu28Map/Reduce特點(diǎn)開發(fā)簡(jiǎn)單
無需處理線程或提供精細(xì)的同步邏輯規(guī)模大
無需修改程序即可在任意規(guī)模機(jī)器上運(yùn)行工作具備自動(dòng)并行和分發(fā)功能
用戶只需寫好Map和Reduce函數(shù)即可高容錯(cuò)失敗任務(wù)在新節(jié)點(diǎn)上會(huì)重新運(yùn)行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMap/Reduce特點(diǎn)開發(fā)簡(jiǎn)單大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)——29Map/Reduce的局限對(duì)迭代算法無能為力不是所有算法都能并行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMap/Reduce的局限對(duì)迭代算法無能為力大數(shù)據(jù)處理實(shí)現(xiàn)技30
三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介三、大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介31谷歌技術(shù)開源實(shí)現(xiàn)
GFS
MapReduce開源實(shí)現(xiàn)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介HDFS
MapReduce谷歌技術(shù)開源實(shí)現(xiàn)開源實(shí)現(xiàn)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介HDF322002年,DougCutting從做開源ApacheNutch引擎開始2003年,Doug在看到谷歌發(fā)表的GFS之后,開始開源實(shí)現(xiàn)NDFS(Nutch
DistributedFileSystem)。2004年,谷歌發(fā)表MapReduce,2005年,Nutch開發(fā)人員開源實(shí)現(xiàn)MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch項(xiàng)目,獨(dú)立形成獨(dú)立項(xiàng)目,命名Hadoop。Hadoop的得名(DougCutting的小孩給毛絨玩具象起的名字)2006年,
DougCutting加入雅虎(聘請(qǐng)),雅虎開始資助Hadoop發(fā)展。2008年,1月Hadoop成為Apache頂級(jí)項(xiàng)目,2月,雅虎宣布,Hadoop應(yīng)用在自家搜素引擎中(其搜索引擎的索引建立在擁有1萬個(gè)內(nèi)核的Hadoop集群上),4月,Hadoop在900個(gè)節(jié)點(diǎn)上運(yùn)行1TB排序測(cè)試僅需209秒,成為全球最快。大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介2002年,DougCutting從做開源ApacheN33Hadoop
分布式文件系統(tǒng)(HDFS)架構(gòu)大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介Hadoop分布式文件系統(tǒng)(HDFS)架構(gòu)大數(shù)據(jù)開源軟件H34安裝Hadoop1.系統(tǒng)要求:Linux(Ubuntu/CentOS/…)2.java運(yùn)行環(huán)境(安裝JDK)3.安裝SSH4.安裝Hadoop大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介安裝Hadoop1.系統(tǒng)要求:Linux(Ubuntu/Ce35Hadoop啟動(dòng)HDFS演示大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介——實(shí)例演示Hadoop啟動(dòng)HDFS演示大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介36Hadoop云的實(shí)際操作1.啟動(dòng)HDFS命令:start-dfs.shHadoop云的實(shí)際操作1.啟動(dòng)HDFS命令:start-d372.在eclipse中打開HDFS目錄(eclipse需安裝Map/Reduce插件)2.在eclipse中打開HDFS目錄(eclipse需安裝38大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件39Map/Reduce
單詞統(tǒng)頻(Wordcount)示例大數(shù)據(jù)開源軟件Hadoop簡(jiǎn)介——實(shí)例演示Map/Reduce
單詞統(tǒng)頻(Wordcount)示例大數(shù)401.通過eclipse上傳文本至HDFS1.通過eclipse上傳文本至HDFS412.啟動(dòng)MapReduce計(jì)算框架,命令:start-yarn.sh2.啟動(dòng)MapReduce計(jì)算框架,命令:start-yar42WordcountJava程序map部分
publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper<LongWritable,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);while(tokenizer.hasMoreTokens()){
word.set(tokenizer.nextToken());
output.collect(word,one);//輸出:<單詞>1}WordcountJava程序map部分public43大數(shù)據(jù)處理技術(shù)簡(jiǎn)介課件44WordcountJava程序reduce部分
publicstaticclassReduceextendsMapReduceBaseimplementsReducer<Text,IntWritable,Text,IntWritable>{publicvoidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{intsum=0;while(values.hasNext()){
sum+=values.next().get();//累加統(tǒng)頻
}
output.collect(key,newIntWritable(su
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年廣西壯族自治區(qū)防城港市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2022年吉林省松原市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2021年江蘇省泰州市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2023年廣東省云浮市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年陜西省銅川市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 廣西北海市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版期中考試(下學(xué)期)試卷及答案
- 《課件霧與霾》課件
- 2024年示范本:文化藝術(shù)品版權(quán)使用許可合同
- 2024年餐飲服務(wù)標(biāo)準(zhǔn)合作合同范本版B版
- 2022-2024年浙江中考英語試題匯編:閱讀理解(應(yīng)用文)-學(xué)生版
- 【長(zhǎng)安的荔枝中李善德的人物形象分析7800字(論文)】
- CJT 288-2017 預(yù)制雙層不銹鋼煙道及煙囪
- 生物安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 戈19商務(wù)方案第十九屆玄奘之路戈壁挑戰(zhàn)賽商務(wù)合作方案
- 廣西河池市宜州區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含解析)
- 2024高考政治真題-哲學(xué)-匯集(解析版)
- 對(duì)承租方有利的商鋪?zhàn)赓U合同
- 2024云南大學(xué)滇池學(xué)院教師招聘考試筆試試題
- 國(guó)外幼兒園自主游戲研究現(xiàn)狀
- 浙江大學(xué)2011–2012學(xué)年冬季學(xué)期《高級(jí)數(shù)據(jù)結(jié)構(gòu)與算法分析》課程期末考試試卷
- 職業(yè)生涯規(guī)劃-體驗(yàn)式學(xué)習(xí)智慧樹知到期末考試答案章節(jié)答案2024年華僑大學(xué)
評(píng)論
0/150
提交評(píng)論