一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程_第1頁
一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程1、爬蟲抓取網(wǎng)絡(luò)數(shù)據(jù)真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,一定是從獲取數(shù)據(jù)開始的,除了通過一些渠道購買或者下載專業(yè)數(shù)據(jù)外,常常需要大家自己動(dòng)手爬互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)時(shí)候,爬蟲就顯得格外重要了。Nutch爬蟲的主要作用是從網(wǎng)絡(luò)上抓取網(wǎng)頁數(shù)據(jù)并建立索引。我們只需指定網(wǎng)站的頂級(jí)網(wǎng)址,如,爬蟲可以自動(dòng)探測出頁面內(nèi)容里新的網(wǎng)址,從而進(jìn)一步抓取鏈接網(wǎng)頁數(shù)據(jù)。nutch支持把抓取的數(shù)據(jù)轉(zhuǎn)化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)轉(zhuǎn)換成純文字字符。Nutch與Hadoop集成,可以將下載的數(shù)據(jù)保存到hdfs,用于后續(xù)離線分析。使用步驟為:?向hdfs中存入待抓取的網(wǎng)站url$hadoopfs-puturldirurldir注:第一個(gè)urldir為本地文件夾,存放了url數(shù)據(jù)文件,每行一個(gè)url地址第二個(gè)urldir為hdfs的存儲(chǔ)路徑。?啟動(dòng)nutch,在NUTCH_HONE目錄下執(zhí)行以下命令$bin/nutchcrawlurldir-dircrawl-depth3-topN10命令成功執(zhí)行后,會(huì)在hdfs中生成crawl目錄。2、MapReduce預(yù)處理數(shù)據(jù)對(duì)于下載的原始文本文檔,無法直接進(jìn)行處理,需要對(duì)文本內(nèi)容進(jìn)行預(yù)處理,包括文檔切分、文本分詞、去停用詞(包括標(biāo)點(diǎn)、數(shù)字、單字和其它一些無意義的詞)、文本特征提取、詞頻統(tǒng)計(jì)、文本向量化等操作。常用的文本預(yù)處理算法是TF-IDF,其主要思想是,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來做分類。?輸入原始文本內(nèi)容:Againitseemsthatcocoadelivered?執(zhí)行TF-IDF預(yù)處理:hadoopjar$JARSparseVectorsFromSequenceFiles???輸出文本向量:9219:0.246453:0.09810322:0.2111947:0.272??每一列是詞及其權(quán)重,使用冒號(hào)分隔,例如“9219:0.246”表示編號(hào)為9219的詞,對(duì)應(yīng)原始單詞為“Again”,其權(quán)重值為0.246。3、Mahout數(shù)據(jù)挖掘預(yù)處理后的數(shù)據(jù)就可以用來做數(shù)據(jù)挖掘。Mahout是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是分布式機(jī)器學(xué)習(xí)算法的集合,包括:協(xié)同過濾、分類、聚類等。以LDA算法為例,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注主題,需要的僅僅是指定主題的數(shù)量K。此外LDA的另一個(gè)優(yōu)點(diǎn)則是,對(duì)于每一個(gè)主題均可找出一些詞語來描述它。輸入預(yù)處理后的數(shù)據(jù):9219:0.246453:0.098??執(zhí)行LDA挖掘算法:mahoutcvb-k20輸出挖掘結(jié)果:topic1{computer,technology,system,internet,machine}topic2{play,film,movie,star,director,production,stage}我們可以獲知用戶的偏好是哪些主題,這些主題是由一些關(guān)鍵詞組成。4、Sqoop導(dǎo)出到關(guān)系數(shù)據(jù)庫在某些場景下,需要把數(shù)據(jù)挖掘的結(jié)果導(dǎo)出到關(guān)系數(shù)據(jù)庫,用于及時(shí)響應(yīng)外部應(yīng)用查詢。sqoop是一個(gè)用來把hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle等)中的數(shù)據(jù)導(dǎo)入到hadoop的hdfs中,也可以將hdfs的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫中:sqoopexport-connectjdbc:mysql://localhost:3306/zxtest-usernameroot-passwordroot-tableresult_test-export-dir/user/mr/lda/outexport操作實(shí)現(xiàn)把hdfs目錄/user/mr/lda/out下數(shù)據(jù)導(dǎo)出到mysql的result_test表。編輯推薦】大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)給傳統(tǒng)企業(yè)和現(xiàn)有互

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論