

下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程1、爬蟲抓取網(wǎng)絡(luò)數(shù)據(jù)真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,一定是從獲取數(shù)據(jù)開始的,除了通過一些渠道購買或者下載專業(yè)數(shù)據(jù)外,常常需要大家自己動(dòng)手爬互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)時(shí)候,爬蟲就顯得格外重要了。Nutch爬蟲的主要作用是從網(wǎng)絡(luò)上抓取網(wǎng)頁數(shù)據(jù)并建立索引。我們只需指定網(wǎng)站的頂級(jí)網(wǎng)址,如,爬蟲可以自動(dòng)探測出頁面內(nèi)容里新的網(wǎng)址,從而進(jìn)一步抓取鏈接網(wǎng)頁數(shù)據(jù)。nutch支持把抓取的數(shù)據(jù)轉(zhuǎn)化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)轉(zhuǎn)換成純文字字符。Nutch與Hadoop集成,可以將下載的數(shù)據(jù)保存到hdfs,用于后續(xù)離線分析。使用步驟為:?向hdfs中存入待抓取的網(wǎng)站url$hadoopfs-puturldirurldir注:第一個(gè)urldir為本地文件夾,存放了url數(shù)據(jù)文件,每行一個(gè)url地址第二個(gè)urldir為hdfs的存儲(chǔ)路徑。?啟動(dòng)nutch,在NUTCH_HONE目錄下執(zhí)行以下命令$bin/nutchcrawlurldir-dircrawl-depth3-topN10命令成功執(zhí)行后,會(huì)在hdfs中生成crawl目錄。2、MapReduce預(yù)處理數(shù)據(jù)對(duì)于下載的原始文本文檔,無法直接進(jìn)行處理,需要對(duì)文本內(nèi)容進(jìn)行預(yù)處理,包括文檔切分、文本分詞、去停用詞(包括標(biāo)點(diǎn)、數(shù)字、單字和其它一些無意義的詞)、文本特征提取、詞頻統(tǒng)計(jì)、文本向量化等操作。常用的文本預(yù)處理算法是TF-IDF,其主要思想是,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來做分類。?輸入原始文本內(nèi)容:Againitseemsthatcocoadelivered?執(zhí)行TF-IDF預(yù)處理:hadoopjar$JARSparseVectorsFromSequenceFiles???輸出文本向量:9219:0.246453:0.09810322:0.2111947:0.272??每一列是詞及其權(quán)重,使用冒號(hào)分隔,例如“9219:0.246”表示編號(hào)為9219的詞,對(duì)應(yīng)原始單詞為“Again”,其權(quán)重值為0.246。3、Mahout數(shù)據(jù)挖掘預(yù)處理后的數(shù)據(jù)就可以用來做數(shù)據(jù)挖掘。Mahout是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是分布式機(jī)器學(xué)習(xí)算法的集合,包括:協(xié)同過濾、分類、聚類等。以LDA算法為例,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注主題,需要的僅僅是指定主題的數(shù)量K。此外LDA的另一個(gè)優(yōu)點(diǎn)則是,對(duì)于每一個(gè)主題均可找出一些詞語來描述它。輸入預(yù)處理后的數(shù)據(jù):9219:0.246453:0.098??執(zhí)行LDA挖掘算法:mahoutcvb-k20輸出挖掘結(jié)果:topic1{computer,technology,system,internet,machine}topic2{play,film,movie,star,director,production,stage}我們可以獲知用戶的偏好是哪些主題,這些主題是由一些關(guān)鍵詞組成。4、Sqoop導(dǎo)出到關(guān)系數(shù)據(jù)庫在某些場景下,需要把數(shù)據(jù)挖掘的結(jié)果導(dǎo)出到關(guān)系數(shù)據(jù)庫,用于及時(shí)響應(yīng)外部應(yīng)用查詢。sqoop是一個(gè)用來把hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle等)中的數(shù)據(jù)導(dǎo)入到hadoop的hdfs中,也可以將hdfs的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫中:sqoopexport-connectjdbc:mysql://localhost:3306/zxtest-usernameroot-passwordroot-tableresult_test-export-dir/user/mr/lda/outexport操作實(shí)現(xiàn)把hdfs目錄/user/mr/lda/out下數(shù)據(jù)導(dǎo)出到mysql的result_test表。編輯推薦】大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)給傳統(tǒng)企業(yè)和現(xiàn)有互
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南海區(qū)課題申報(bào)書
- 護(hù)理課題申報(bào)書范本
- 教學(xué)課題的申報(bào)書
- 合作購銷產(chǎn)品合同范例
- 商法學(xué)課題申報(bào)書
- 眼科課題申報(bào)書范文
- 江西省中醫(yī)課題申報(bào)書
- 【復(fù)習(xí)大串講】【中職專用】高二語文上學(xué)期期末綜合測試題(五)(職業(yè)模塊)(解析版)
- 做廣告物料合同范本
- 合作加工木炭合同范本
- 2025年湖南信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 課題申報(bào)參考:低空經(jīng)濟(jì)視角下城市基礎(chǔ)設(shè)施網(wǎng)絡(luò)融合建模與空間聯(lián)合優(yōu)化選址研究
- 上海市第一至十八屆高一物理基礎(chǔ)知識(shí)競賽試題及答案
- 2025年度汽車行業(yè)薪資水平及員工激勵(lì)機(jī)制3篇
- 失語癥的分類及臨床特征
- 循環(huán)流化床鍋爐操作工安全技術(shù)操作規(guī)程模版(3篇)
- 2024院感培訓(xùn)課件
- 2024-2030年中國稅務(wù)師事務(wù)所行業(yè)管理模式及投資前景展望報(bào)告版
- 2024年全國高考英語試題及答案-湖南卷
- 《少兒汽車知識(shí)講座》課件
- 部編人教版小學(xué)四年級(jí)下冊(cè)道德與法治全冊(cè)教案及每課教學(xué)反思
評(píng)論
0/150
提交評(píng)論