




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Hadoop數(shù)據(jù)分析平臺(tái) 第14周2013.08.24DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析法律【】本和幻燈片為煉數(shù)網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被責(zé)任。法律和課程詳情煉數(shù)培訓(xùn)2013.08.242DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Mahoutn Mahout的中文含義:象夫2013.08.243DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)金字塔2013.08.244DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)分析n 使用統(tǒng)計(jì)方法,有目的地對(duì)收集到的數(shù)據(jù)進(jìn)行分析處理,并且解讀分析結(jié)果2013.08.245DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)分析n 常用算法2013.08.246DATAG
2、URU專(zhuān)業(yè)數(shù)據(jù)分析回歸2013.08.247DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析分類(lèi)器2013.08.248DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析聚類(lèi)2013.08.249DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)挖掘n 數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫(kù)中提取知識(shí)的過(guò)程,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián),并且向用戶(hù)顯示這些關(guān)聯(lián)n 數(shù)據(jù)挖掘思想來(lái)源:假設(shè)檢驗(yàn),模式識(shí)別,人工智能,學(xué)習(xí)n 常見(jiàn)數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類(lèi)分析,孤立點(diǎn)分析等等n 例:啤酒與尿布的故事n 例:Science的文章科學(xué)家摸索出大型數(shù)據(jù)集內(nèi)的趨勢(shì)2013.08.2410DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析頻繁模式挖掘20
3、13.08.2411DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)分析工具n 數(shù)據(jù)分析工具2013.08.2412DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析常用傳統(tǒng)數(shù)據(jù)分析工具排行2013.08.2413DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析傳統(tǒng)數(shù)據(jù)分析工具的困境n R,SAS,SPSS等典型應(yīng)用場(chǎng)景為工具n 處理數(shù)據(jù)量受限于內(nèi)存,因此無(wú)法處理海量數(shù)據(jù)n 使用Oracle數(shù)據(jù)庫(kù)等處理海量數(shù)據(jù),但缺乏有效快速專(zhuān)業(yè)的分析功能n 可以采用抽樣等方法,但有局限性,比如對(duì)于聚類(lèi),推薦系統(tǒng)則無(wú)法使用抽樣n 解決方向:Hadoop集群和Map-Reduce并行計(jì)算2013.08.2414DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析常見(jiàn)算法的Map-Reduce
4、化2013.08.2415DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析常見(jiàn)算法的Map-Reduce化2013.08.2416DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Mahoutn 2008年成為L(zhǎng)ucene的子項(xiàng)目,Lucene作為搜索引擎項(xiàng)目,存在很多文本數(shù)據(jù)分析和挖掘的需求(例如文本重復(fù),文本自動(dòng)分類(lèi)等等),導(dǎo)致Lucene項(xiàng)目中部發(fā)者轉(zhuǎn)向?qū)W習(xí)領(lǐng)域研究算法,最終這些學(xué)習(xí)算法形成最初的Mahoutn 吸收開(kāi)源協(xié)同過(guò)濾算法項(xiàng)目Tasten 2010年成為Apache頂級(jí)項(xiàng)目2013.08.2417DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Mahout的特點(diǎn)n Mahout的主要目的是實(shí)現(xiàn)可伸縮的學(xué)習(xí)算法(就是算法的M-R化),但也不
5、一定要求基于Hadoop平臺(tái),庫(kù)中某些布式的算法也具有很好的性能n 目標(biāo)是幫助開(kāi)發(fā)快速建立具有智能的應(yīng)用程序,目前比較成熟和活躍的主要包括1 頻繁模式挖掘2 聚類(lèi)算法3 分類(lèi)器4 推薦系統(tǒng)5 頻繁子項(xiàng)挖掘2013.08.2418DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析發(fā)展中的Mahoutn Mahout目前支持和研究中的算法列表2013.08.2419DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析參考書(shū)2013.08.2420DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析參考書(shū)2013.08.2421DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析M-R Cookbook樣板代碼2013.08.2422DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析參考書(shū)2013.08.2423
6、DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析和解壓Mahout2013.08.2424DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析配置環(huán)境變量export HADOOP_HOME=/home/huang/hadoop-1.1.2export HADOOP_CONF_DIR=/home/huang/hadoop-1.1.2/confexport MAHOUT_HOME=/home/huang/hadoop-1.1.2/mahout-distribution-0.6export MAHOUT_CONF_DIR=/home/huang/hadoop-1.1.2/mahout-distribution-0.6/confexport
7、PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin幾個(gè)重要環(huán)境變量JAVA_HOMEmahout運(yùn)行需指定jdk的目錄MAHOUT_JAVA_HOME指定此變量可覆蓋JAVA_HOME值HADOOP_HOME 如果配置,則在hadoop分布式平臺(tái)上運(yùn)行,否則單機(jī)運(yùn)行HADOOP_CONF_DIR指定hadoop的配置文件目錄MAHOUT_LOCAL如果此變量值不為空,則單機(jī)運(yùn)行mahout。MAHOUT_CONF_DIR mahout配置文件的路徑,默認(rèn)值是$MAHOUT_HOME/src/confMAHOUT_HEAPSIZEmahout運(yùn)行時(shí)可用的最
8、大heap大小2013.08.2425DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析驗(yàn)證安裝2013.08.2426DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析源碼和部分樣本數(shù)據(jù)n 需要源代碼包(可以嘗試下編譯源代碼方式的安裝)2013.08.2427DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析測(cè)試數(shù)據(jù)2013.08.2428DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析將測(cè)試數(shù)據(jù)拷貝到HDFS2013.08.2429DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析做一個(gè)kmeans聚類(lèi)測(cè)試2013.08.2430DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析輸出結(jié)果2013.08.2431DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析觀察輸出2013.08.2432DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析用mahout輸出2
9、013.08.2433DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析20Newsgroups數(shù)據(jù)集2013.08.2434DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析使用Mahout進(jìn)行文本自動(dòng)分類(lèi)分類(lèi)器nn 學(xué)習(xí)集n 測(cè)試集數(shù)據(jù)集的內(nèi)容n2013.08.2435DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析文件內(nèi)容2013.08.2436DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析上傳并解壓數(shù)據(jù)2013.08.2437DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析建立訓(xùn)練集mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-tra
10、in -o /home/huang/data/bayes-test-input -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-82013.08.2438DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析建立訓(xùn)練集2013.08.2439DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析建立測(cè)試集mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-test -o /home/huang/data/bayes-test-input
11、-a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-82013.08.2440DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析建立測(cè)試集2013.08.2441DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析上傳數(shù)據(jù)到HDFS2013.08.2442DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析訓(xùn)練分類(lèi)器mahout trainclassifier -i /user/huang/20news/bayes-train-input -o /user/huang/20news/newsm-type cbayes-ng 2 -source hdfs2013.08.2443DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析訓(xùn)
12、練分類(lèi)器2013.08.2444DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析生成的模型2013.08.2445DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析測(cè)試分類(lèi)器mahout testclassifier -m /user/huang/20news/newsm-d /user/huang/20news/bayes-test-input -type cbayes-ng 2 -source hdfs -method mapreduce2013.08.2446DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析測(cè)試分類(lèi)器2013.08.2447DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析參考n2013.08.2448DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析煉數(shù)逆向式網(wǎng)絡(luò)課程n Dataguru(煉數(shù))是專(zhuān)業(yè)數(shù)據(jù)分析,提供教育,內(nèi)容,社區(qū),數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。我們的課程采用新興的互聯(lián)網(wǎng)教育形式,獨(dú)創(chuàng)地發(fā)展了逆向收網(wǎng)絡(luò)培訓(xùn)課程模式。既繼承傳統(tǒng)教育重學(xué)習(xí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高標(biāo)準(zhǔn)廠(chǎng)房租賃安全生產(chǎn)及環(huán)境保護(hù)管理協(xié)議
- 餐飲公司股東投資收益分配合同
- 拆除工程安全責(zé)任及補(bǔ)償協(xié)議范本
- 車(chē)輛租賃平臺(tái)傭金分成合同
- 互聯(lián)網(wǎng)教育代理記帳與課程資源整合合同
- 資源開(kāi)發(fā)項(xiàng)目參股合作協(xié)議范本
- 產(chǎn)權(quán)拍賣(mài)合同范本
- 餐飲店拆伙退伙協(xié)議書(shū)(合同解除原因)
- 美食街特色餐飲攤位租賃及食品安全保障合同
- 特種礦產(chǎn)資源采礦權(quán)出讓與科研開(kāi)發(fā)合同
- 硫酸分裝經(jīng)營(yíng)企業(yè)風(fēng)險(xiǎn)分級(jí)管控及隱患治理資料
- icao考試圖片題飛行員ICAO描述模板
- 鹽城市區(qū)第Ⅲ防洪區(qū)水環(huán)境綜合治理PPP項(xiàng)目Ⅱ標(biāo)段“6·4”一般基坑坍塌事故調(diào)查報(bào)告
- 電機(jī)振動(dòng)測(cè)定方法及限值振動(dòng)測(cè)定方法
- 濟(jì)南遙墻機(jī)場(chǎng)擴(kuò)建工程航站樓建設(shè)監(jiān)理大綱
- 撥叉綜合課程設(shè)計(jì)
- 七年級(jí)上冊(cè)數(shù)學(xué)知識(shí)點(diǎn)總結(jié)及精編例題1
- 學(xué)校物業(yè)服務(wù)監(jiān)督及處罰辦法
- 心內(nèi)科高危藥物安全管理與指引
- 2012《天津市安裝工程預(yù)算基價(jià)》電氣工程(預(yù)算基價(jià)導(dǎo)出)
- 1104基礎(chǔ)報(bào)表填報(bào)說(shuō)明(最新)
評(píng)論
0/150
提交評(píng)論