暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第1頁
暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第2頁
暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第3頁
暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第4頁
暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀

摘要MapReduce研究調(diào)試、監(jiān)控等優(yōu)化、擴(kuò)展等常用APIHadoop改造數(shù)據(jù)挖掘項(xiàng)目RedpollCanopy,k-meansNaivebayes,SVM調(diào)試標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯(cuò)Web顯示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重現(xiàn):LocalRunnerDistributedCache中放入調(diào)試代碼Profiling

目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等工具:jmap,jstat,hprof,jconsole,jprofilermat,jstack對(duì)JobTracker的Profile對(duì)各slave節(jié)點(diǎn)TaskTracker的Profile對(duì)各slave節(jié)點(diǎn)某Child進(jìn)程的Profile(可能存在單點(diǎn)執(zhí)行速度過慢)監(jiān)控目的:監(jiān)控集群或單個(gè)節(jié)點(diǎn)I/O,內(nèi)存及CPU工具:Ganglia調(diào)優(yōu)點(diǎn)(1)I/OShuffle…調(diào)優(yōu)點(diǎn)(2)數(shù)據(jù)壓縮推測性執(zhí)行(同時(shí)執(zhí)行同一Task,殺死運(yùn)行慢的)同一節(jié)點(diǎn)的Child重用jvm重寫Partitioner,使分布到各Reducer的數(shù)據(jù)均勻設(shè)置堆空間大小常用APIMapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker與作業(yè)調(diào)度耦合性太強(qiáng)JobHistory應(yīng)獨(dú)立為一個(gè)jvm進(jìn)程,邏輯不應(yīng)與JobTracker耦合太強(qiáng)在HDFS之上整合MPI,統(tǒng)一作業(yè)調(diào)度Shuffle過程只需一次I/O單塊磁盤失效導(dǎo)致整個(gè)節(jié)點(diǎn)失效問題(改DFSClient)Hadoop改造文件系統(tǒng)兼容posix使Map的key輸出不排序,只分區(qū)NameNode單點(diǎn)故障問題RPC支持大數(shù)據(jù)(如文件)傳輸集群資源分配權(quán)限管理大規(guī)模數(shù)據(jù)挖掘:Redpoll文本數(shù)據(jù)挖掘分布式分詞分布式向量空間模型距離度量語料搜狗新聞20newsgroupwikipedia前提:假定一個(gè)屬性值對(duì)分類的影響?yīng)毩⒂谄渌麑傩缘闹?。(類條件獨(dú)立)樸素貝葉斯分類工作過程每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量表示,分別描述對(duì)n個(gè)屬性樣本的n個(gè)度量假設(shè)有m個(gè)類。給定一個(gè)未知的數(shù)據(jù)樣本X,分類法將預(yù)測具有最高后驗(yàn)概率(條件X下)的類。即是找最大化的。根據(jù)貝葉斯定理有樸素貝葉斯分類P(X)對(duì)所有類為常數(shù),最大化,對(duì)的考慮分析:等概率,或類條件獨(dú)立的樸素假定:, (k=1,2,n)可以由訓(xùn)練樣本估值是分類屬性,則根據(jù)樣本估值是連續(xù)值屬性,則通常假定其服從高斯分布,因而樸素貝葉斯分類(續(xù))Canopy大容量,高維數(shù)據(jù)集聚類使用兩步聚類不同的距離度量節(jié)省計(jì)算時(shí)間適用范圍較廣K-meansEMGAC大規(guī)模支持向量機(jī)解的稀疏性及問題的凸性將大規(guī)模的原問題分解成小規(guī)模的子問題,迭代求解子問題,直到收斂至原問題的解.選塊算法分解算法序列最小最優(yōu)化法(sequentialminimaloptimization,SMO)并行實(shí)現(xiàn)ThinkinginMapReduce

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論