版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、實(shí)驗(yàn)報(bào)告1 雙向匹配中文分詞 小組信息目錄摘要 - 1理論描述 - 1算法描述 - 2詳例描述 - 3軟件演示 - 4總結(jié) - 6 摘要 這次實(shí)驗(yàn)的內(nèi)容是中文分詞,現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。而我們用到的分詞算法是基于字符串的分詞方法(又稱機(jī)械分詞方法)中的正向最大匹配算法和逆向匹配算法。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/24
2、5。 理論描述中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。它是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘、語音識(shí)別、文本語音轉(zhuǎn)換、自然語言理解等中文信息處理領(lǐng)域的基礎(chǔ)。雙向最大匹配算法是兩個(gè)算法的集合,主要包括:正向最大匹配算法和逆向最大匹配算法如果兩個(gè)算法得到相同的分詞結(jié)果,那就認(rèn)為是切分成功,否則,就出現(xiàn)了歧義現(xiàn)象或者是未登錄詞問題。正向最大匹配算法:從左到右將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。逆向最大匹配算法:從右到左將待分詞文本中的幾個(gè)連續(xù)
3、字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。 算法描述本文實(shí)現(xiàn)雙向匹配算法,具體算法描述如下: 正向最大匹配算法MM:/對(duì)純中文句子s1的正向減字最大匹配分詞string CHzSeg:SegmentHzStrMM(CDict &dict,string s1)conststring s2=""/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(len>MAX_WORD_LENGTH)len=MAX_WORD_LENG
4、TH;/取s1句子最左邊長(zhǎng)度len為的子句子string w=s1.substr(0,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&&不能構(gòu)成字的時(shí)候,減去最右邊的一個(gè)中文字while(len>2&&isw=false)/減去最右邊的一個(gè)中文字len-=2;w=w.substr(0,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);s2+=w+SEPARATOR;s1=s1.substr(w.size();/end whilereturn s2;逆向
5、最大匹配算法RMM: /對(duì)純中文句子s1的逆向減字最大匹配分詞string CHzSeg:SegmentHzStrRMM(CDict &dict,string s1)conststring s2=""/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(len>MAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s1句子最右邊長(zhǎng)度len為的子句子string w=s1.substr(s1.len
6、gth()-len,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&&不能構(gòu)成字的時(shí)候,減去最左邊的一個(gè)中文字while(len>2&&isw=false)/減去最左邊的一個(gè)中文字len-=2;w=s1.substr(s1.length()-len,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);w=w+SEPARATOR;s2=w+s2;/分出一個(gè)詞后的s1s1=s1.substr(0,s1.length()-len);return s2; 詳例描
7、述: 逆向最大匹配思想是從右向左切分,以“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大”為例,詳細(xì)描述算法如下 :輸入例句:S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大” ;定義:最大詞長(zhǎng)MaxLen = 6;S2= “”;分隔符 = “/ ”;逆向減字最大匹配分詞算法過程如下:(1)S2=“”;S1不為空,從S1右邊取出候選子串W=“斷擴(kuò)大”;(2)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“擴(kuò)大”;(3)查詞表,“擴(kuò)大”在詞表中,將W加入到S2中,S2=“ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷”;(4)S1不為空,于是從S1左邊取出候選子串W=“流不斷”;(5)查詞
8、表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“不斷”;(6)查詞表,“不斷”在詞表中,將W加入到S2中,S2=“不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流”;(7)S1不為空,于是從S1左邊取出候選子串W=“與交流”;(8)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“交流”;(9)查詞表,“交流”在詞表中,將W加入到S2中,S2=“交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與”;(10)S1不為空,于是從S1左邊取出候選子串W=“合作與”;(11)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“作與”;(12
9、)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“與”;(13)查詞表,“與”在詞表中,將W加入到S2中,S2=“與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作”;(14)S1不為空,于是從S1左邊取出候選子串W=“術(shù)合作”;(15)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“合作”;(16)查詞表,“交流”在詞表中,將W加入到S2中,S2=“合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)”;(17)S1不為空,于是從S1左邊取出候選子串W=“濟(jì)技術(shù)”;(18)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉
10、,得到W=“技術(shù)”;(19)查詞表,“交流”在詞表中,將W加入到S2中,S2=“技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)(20)S1不為空,于是從S1左邊取出候選子串W=“外經(jīng)濟(jì)”;(21)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“經(jīng)濟(jì)”;(22)查詞表,“交流”在詞表中,將W加入到S2中,S2=“經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外”; (23)S1不為空,由于此時(shí)S1只剩下“對(duì)外”于是從S1左邊取出候選子串W=“對(duì)外”;(24)查詞表,“對(duì)外”在詞表中,將W加入到S2中,S2=“對(duì)外/ 經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“”;(25)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。正向匹配法思想與逆向一樣,只是從左向右切分,因此只舉例逆向最大匹配算法描述。 軟件演示: 軟件界面:選擇分詞所要的方式(正向或逆向),然后輸入所要分詞的內(nèi)容,分詞結(jié)果就會(huì)在右邊顯示出來。正向最大匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基因的自由組合定律課件
- 2025年人教B版必修3生物上冊(cè)階段測(cè)試試卷
- 二零二五年度大型公共設(shè)施施工投資合作協(xié)議書3篇
- 環(huán)境與環(huán)境問題(課件)
- 2025年上教版九年級(jí)化學(xué)下冊(cè)月考試卷
- 二零二五年度新能源產(chǎn)業(yè)安全責(zé)任協(xié)議書模板3篇
- 2025年上教版八年級(jí)科學(xué)下冊(cè)階段測(cè)試試卷
- 應(yīng)聘人員報(bào)名信息表
- 2025年浙教新版九年級(jí)科學(xué)下冊(cè)月考試卷含答案
- 2025年蘇科版高一數(shù)學(xué)上冊(cè)月考試卷
- 遼寧盤錦浩業(yè)化工“1.15”泄漏爆炸著火事故警示教育
- 供應(yīng)鏈案例亞馬遜歐洲公司分銷戰(zhàn)略課件
- 石化行業(yè)八大高風(fēng)險(xiǎn)作業(yè)安全規(guī)范培訓(xùn)課件
- 村老支書追悼詞
- DB3302T 1131-2022企業(yè)法律顧問服務(wù)基本規(guī)范
- 2022年自愿性認(rèn)證活動(dòng)獲證組織現(xiàn)場(chǎng)監(jiān)督檢查表、確認(rèn)書
- 中南大學(xué)年《高等數(shù)學(xué)上》期末考試試題及答案
- 付款通知確認(rèn)單
- 小龍蝦高密度養(yǎng)殖試驗(yàn)基地建設(shè)項(xiàng)目可行性研究報(bào)告
- 《橋梁工程計(jì)算書》word版
- 中考《紅星照耀中國(guó)》各篇章練習(xí)題及答案(1-12)
評(píng)論
0/150
提交評(píng)論