基于MapReduce模型的中文_第1頁
基于MapReduce模型的中文_第2頁
基于MapReduce模型的中文_第3頁
基于MapReduce模型的中文_第4頁
基于MapReduce模型的中文_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于MapReduce模型的中文分詞張林梁 21109220韓增曦 21109225實(shí)驗(yàn)環(huán)境操作系統(tǒng): Ubuntu 10.10開發(fā)工具: jdk 6-30+Eclipse+hadoop 0.20.30+ssh實(shí)驗(yàn)設(shè)計一 、目前比較成熟的的中文分詞方法主要有: 1.詞典的正向最大匹配法 2.詞典逆向最大匹配法. 3.基于確定文法的分詞法 4.基于統(tǒng)計的分詞方法 本程序利用了第一種與第三種分詞法,即詞典正向最大匹配法和基于確定文法的分詞法 實(shí)驗(yàn)設(shè)計二、建立三個文本字典:Numbers Foreigns Words實(shí)驗(yàn)設(shè)計測試文本:實(shí)驗(yàn)設(shè)計三、 分詞方法(1)詞典的正向最大匹配法: 1.將詞典的每

2、條讀入內(nèi)存,最長4個字,最短1個字 . 2.從語料中讀入一文本文字,保存為字串. 3.如果字符串長度大于4個中文字符,則取字符串最左邊的4個中文字符,作為候選詞;否則取出整個字符串作為候選詞.實(shí)驗(yàn)設(shè)計 4. 在詞典中查找這個候選詞,如果查找失敗,則去掉這個候選詞的最右字,重復(fù)這步進(jìn)行查找,直到候選詞為1個中文字符. 5. 將候選詞從字符串中取出、刪除,回到第3步直到字符串為空. 6.回到第二步直到語料對完為止 .實(shí)驗(yàn)設(shè)計(2)確定文法的分詞方法 基于確定文法的分詞法可以進(jìn)行數(shù)字、西文、時間的分詞. 1.增加一個數(shù)字詞典 2.增加一個英文詞典 3.增加一個中文詞典實(shí)驗(yàn)設(shè)計四 、搭建hadoop偽分布、編MapReduce端口 1.Map端: 1)輸入: IntWritable Text IntWritable Text 2)對劃分好的塊,通過Map端口進(jìn)入后,提取文本,讀入的文本以每行以“n”為標(biāo)記切分文本,并對文本分詞,期間每行對加行號標(biāo)注 .實(shí)驗(yàn)設(shè)計 3)將分好的文本輸出到Reduce 2.Reduce端: 1) 接受從Map輸入的文本 2) 按行號輸出文本 程序運(yùn)行信息:實(shí)驗(yàn)結(jié)果結(jié)果:程序代

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論