




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上實(shí)驗(yàn)報(bào)告1 雙向匹配中文分詞 小組信息目錄摘要 - 1理論描述 - 1算法描述 - 2詳例描述 - 3軟件演示 - 4總結(jié) - 6 摘要 這次實(shí)驗(yàn)的內(nèi)容是中文分詞,現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。而我們用到的分詞算法是基于字符串的分詞方法(又稱(chēng)機(jī)械分詞方法)中的正向最大匹配算法和逆向匹配算法。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向
2、最大匹配的錯(cuò)誤率為1/245。 理論描述中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果。它是信息提取、信息檢索、機(jī)器翻譯、文本分類(lèi)、自動(dòng)文摘、語(yǔ)音識(shí)別、文本語(yǔ)音轉(zhuǎn)換、自然語(yǔ)言理解等中文信息處理領(lǐng)域的基礎(chǔ)。雙向最大匹配算法是兩個(gè)算法的集合,主要包括:正向最大匹配算法和逆向最大匹配算法如果兩個(gè)算法得到相同的分詞結(jié)果,那就認(rèn)為是切分成功,否則,就出現(xiàn)了歧義現(xiàn)象或者是未登錄詞問(wèn)題。正向最大匹配算法:從左到右將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。逆向最大匹配算法:從右到
3、左將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。 算法描述本文實(shí)現(xiàn)雙向匹配算法,具體算法描述如下: 正向最大匹配算法MM:/對(duì)純中文句子s1的正向減字最大匹配分詞string CHzSeg:SegmentHzStrMM(CDict &dict,string s1)conststring s2=;/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(lenMAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s
4、1句子最左邊長(zhǎng)度len為的子句子string w=s1.substr(0,len);/判斷剛剛?cè)〕鰜?lái)的子句子是不是一個(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&不能構(gòu)成字的時(shí)候,減去最右邊的一個(gè)中文字while(len2&isw=false)/減去最右邊的一個(gè)中文字len-=2;w=w.substr(0,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);s2+=w+SEPARATOR;s1=s1.substr(w.size();/end whilereturn s2;逆向最大匹配算法RMM: /對(duì)純中文句子s1的逆向減字最大匹
5、配分詞string CHzSeg:SegmentHzStrRMM(CDict &dict,string s1)conststring s2=;/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(lenMAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s1句子最右邊長(zhǎng)度len為的子句子string w=s1.substr(s1.length()-len,len);/判斷剛剛?cè)〕鰜?lái)的子句子是不是一個(gè)詞bool isw=dict.
6、IsWord(w);/當(dāng)w中至少有一個(gè)中文字&不能構(gòu)成字的時(shí)候,減去最左邊的一個(gè)中文字while(len2&isw=false)/減去最左邊的一個(gè)中文字len-=2;w=s1.substr(s1.length()-len,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);w=w+SEPARATOR;s2=w+s2;/分出一個(gè)詞后的s1s1=s1.substr(0,s1.length()-len);return s2; 詳例描述: 逆向最大匹配思想是從右向左切分,以“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大”為例,詳細(xì)描述算法如下 :輸入例句:S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交
7、流不斷擴(kuò)大” ;定義:最大詞長(zhǎng)MaxLen = 6;S2= “”;分隔符 = “/ ”;逆向減字最大匹配分詞算法過(guò)程如下:(1)S2=“”;S1不為空,從S1右邊取出候選子串W=“斷擴(kuò)大”;(2)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“擴(kuò)大”;(3)查詞表,“擴(kuò)大”在詞表中,將W加入到S2中,S2=“ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷”;(4)S1不為空,于是從S1左邊取出候選子串W=“流不斷”;(5)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“不斷”;(6)查詞表,“不斷”在詞表中,將W加入到S2中,S2=“不斷/ 擴(kuò)大/ ”,并
8、將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流”;(7)S1不為空,于是從S1左邊取出候選子串W=“與交流”;(8)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“交流”;(9)查詞表,“交流”在詞表中,將W加入到S2中,S2=“交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與”;(10)S1不為空,于是從S1左邊取出候選子串W=“合作與”;(11)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“作與”;(12)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“與”;(13)查詞表,“與”在詞表中,將W加入到S2中,S2=“與/ 交流/ 不斷
9、/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作”;(14)S1不為空,于是從S1左邊取出候選子串W=“術(shù)合作”;(15)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“合作”;(16)查詞表,“交流”在詞表中,將W加入到S2中,S2=“合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)”;(17)S1不為空,于是從S1左邊取出候選子串W=“濟(jì)技術(shù)”;(18)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“技術(shù)”;(19)查詞表,“交流”在詞表中,將W加入到S2中,S2=“技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/”,并將W從S
10、1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)(20)S1不為空,于是從S1左邊取出候選子串W=“外經(jīng)濟(jì)”;(21)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“經(jīng)濟(jì)”;(22)查詞表,“交流”在詞表中,將W加入到S2中,S2=“經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外”; (23)S1不為空,由于此時(shí)S1只剩下“對(duì)外”于是從S1左邊取出候選子串W=“對(duì)外”;(24)查詞表,“對(duì)外”在詞表中,將W加入到S2中,S2=“對(duì)外/ 經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“”;(25)S1為空,輸出S2作為分詞結(jié)果,分詞過(guò)程結(jié)束。正向匹配法思想與逆向一樣,只是從左向右切分,因此只舉例逆向最大匹配算法描述。 軟件演示: 軟件界面:選擇分詞所要的方式(正向或逆向),然后輸入所要分詞的內(nèi)容,分詞結(jié)果就會(huì)在右邊顯示出來(lái)。正向最大匹配分詞結(jié)果:逆向最大匹
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安陽(yáng)市殷都區(qū)2024年三上數(shù)學(xué)期末調(diào)研試題含解析
- 知識(shí)產(chǎn)權(quán)英語(yǔ)課件
- 2025屆平?jīng)鍪腥昙?jí)數(shù)學(xué)第一學(xué)期期末檢測(cè)試題含解析
- 2025年考試技巧強(qiáng)化試題及答案
- 糧食管理職責(zé)清單
- 2025年工程經(jīng)濟(jì)模塊學(xué)習(xí)試題及答案
- 數(shù)媒藝術(shù)畢業(yè)設(shè)計(jì)
- 公共關(guān)系在文化傳播中的重要性試題及答案
- 電子商務(wù)交易安全練習(xí)題
- 酒店裝修設(shè)計(jì)作業(yè)指導(dǎo)書(shū)
- 2024年基金從業(yè)資格證考試題庫(kù)含答案(奪分金卷)
- 慢性病管理遠(yuǎn)程會(huì)診制度設(shè)計(jì)
- 工程材料與熱處理 課件 1金屬材料強(qiáng)度與塑性探究
- GB/T 19048-2024地理標(biāo)志產(chǎn)品質(zhì)量要求龍口粉絲
- 醫(yī)療器械唯一標(biāo)識(shí)系統(tǒng)
- 罐車(chē)司機(jī)安全培訓(xùn)課件
- 安全教育森林防火教案
- 基于認(rèn)知模型建構(gòu)與應(yīng)用發(fā)展科學(xué)思維
- 頭療館轉(zhuǎn)讓合同
- 企業(yè)戰(zhàn)略性技術(shù)創(chuàng)新與產(chǎn)業(yè)自主可控水平
- 檢驗(yàn)科職業(yè)暴露應(yīng)急預(yù)案
評(píng)論
0/150
提交評(píng)論