版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
暨南大學(xué)并行計(jì)算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀
摘要MapReduce研究調(diào)試、監(jiān)控等優(yōu)化、擴(kuò)展等常用APIHadoop改造數(shù)據(jù)挖掘項(xiàng)目RedpollCanopy,k-meansNaivebayes,SVM調(diào)試標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯(cuò)Web顯示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重現(xiàn):LocalRunnerDistributedCache中放入調(diào)試代碼Profiling
目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等工具:jmap,jstat,hprof,jconsole,jprofilermat,jstack對(duì)JobTracker的Profile對(duì)各slave節(jié)點(diǎn)TaskTracker的Profile對(duì)各slave節(jié)點(diǎn)某Child進(jìn)程的Profile(可能存在單點(diǎn)執(zhí)行速度過慢)監(jiān)控目的:監(jiān)控集群或單個(gè)節(jié)點(diǎn)I/O,內(nèi)存及CPU工具:Ganglia調(diào)優(yōu)點(diǎn)(1)I/OShuffle…調(diào)優(yōu)點(diǎn)(2)數(shù)據(jù)壓縮推測性執(zhí)行(同時(shí)執(zhí)行同一Task,殺死運(yùn)行慢的)同一節(jié)點(diǎn)的Child重用jvm重寫Partitioner,使分布到各Reducer的數(shù)據(jù)均勻設(shè)置堆空間大小常用APIMapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker與作業(yè)調(diào)度耦合性太強(qiáng)JobHistory應(yīng)獨(dú)立為一個(gè)jvm進(jìn)程,邏輯不應(yīng)與JobTracker耦合太強(qiáng)在HDFS之上整合MPI,統(tǒng)一作業(yè)調(diào)度Shuffle過程只需一次I/O單塊磁盤失效導(dǎo)致整個(gè)節(jié)點(diǎn)失效問題(改DFSClient)Hadoop改造文件系統(tǒng)兼容posix使Map的key輸出不排序,只分區(qū)NameNode單點(diǎn)故障問題RPC支持大數(shù)據(jù)(如文件)傳輸集群資源分配權(quán)限管理大規(guī)模數(shù)據(jù)挖掘:Redpoll文本數(shù)據(jù)挖掘分布式分詞分布式向量空間模型距離度量語料搜狗新聞20newsgroupwikipedia前提:假定一個(gè)屬性值對(duì)分類的影響?yīng)毩⒂谄渌麑傩缘闹?。(類條件獨(dú)立)樸素貝葉斯分類工作過程每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量表示,分別描述對(duì)n個(gè)屬性樣本的n個(gè)度量假設(shè)有m個(gè)類。給定一個(gè)未知的數(shù)據(jù)樣本X,分類法將預(yù)測具有最高后驗(yàn)概率(條件X下)的類。即是找最大化的。根據(jù)貝葉斯定理有樸素貝葉斯分類P(X)對(duì)所有類為常數(shù),最大化,對(duì)的考慮分析:等概率,或類條件獨(dú)立的樸素假定:, (k=1,2,n)可以由訓(xùn)練樣本估值是分類屬性,則根據(jù)樣本估值是連續(xù)值屬性,則通常假定其服從高斯分布,因而樸素貝葉斯分類(續(xù))Canopy大容量,高維數(shù)據(jù)集聚類使用兩步聚類不同的距離度量節(jié)省計(jì)算時(shí)間適用范圍較廣K-meansEMGAC大規(guī)模支持向量機(jī)解的稀疏性及問題的凸性將大規(guī)模的原問題分解成小規(guī)模的子問題,迭代求解子問題,直到收斂至原問題的解.選塊算法分解算法序列最小最優(yōu)化法(sequentialminimaloptimization,SMO)并行實(shí)現(xiàn)ThinkinginMapReduce
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 火車站給水施工合同樣本
- 電子廠裝配工聘用協(xié)議
- 營銷策劃應(yīng)屆生勞動(dòng)合同范本
- 知識(shí)產(chǎn)權(quán)合同制定
- 房地產(chǎn)交易會(huì)場地租賃合同
- 藥店衛(wèi)生保障人員勞動(dòng)合同樣本
- 礦產(chǎn)企業(yè)財(cái)務(wù)主管招聘協(xié)議
- 護(hù)理個(gè)人能力提升講評(píng)
- 航測內(nèi)業(yè)年終總結(jié)
- 庫存管理升崗
- 文網(wǎng)文游戲業(yè)務(wù)發(fā)展報(bào)告
- 廠房工程裝飾裝修工程施工方案
- 129運(yùn)動(dòng)主題班會(huì)
- YB/T 1428-1997炭素材料內(nèi)在水分的測定
- 鄭州大學(xué)模板課件
- 牛人總結(jié)雅思7.5以上經(jīng)驗(yàn)63大頁超詳細(xì)
- 礦山地質(zhì)環(huán)境保護(hù)和土地復(fù)墾方案 編制規(guī)范指南規(guī)范
- 口腔科醫(yī)療護(hù)理技術(shù)操作規(guī)程版
- 在例題與命題研究中實(shí)現(xiàn)教師專業(yè)成長
- 頭顱CT精美完整課件
- 安全總監(jiān)安全職責(zé)
評(píng)論
0/150
提交評(píng)論