正向最大匹配和反向最大匹配_第1頁(yè)
正向最大匹配和反向最大匹配_第2頁(yè)
正向最大匹配和反向最大匹配_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、正向最大匹配和反向最大匹配根據(jù)以上對(duì)最大正向匹配算法的分析利用Visual 仁卄中的1比對(duì)最大正向匹配算法進(jìn)行了實(shí)現(xiàn)以下 是程序中實(shí)現(xiàn)正向最大匹配的關(guān)鍵代碼:"iL'fiHi' ituukii s最大i司長(zhǎng)為寤宇符RP丨個(gè)漢宇-山譴畀標(biāo)記為空格I W. I 最近看了一下分詞算法的東西,整理如下:下面介紹的分詞算法中最簡(jiǎn)單的正向最大匹配和反向最大匹配。這種兩種方法都是機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)”充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別岀一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;

2、按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞 方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分(使每一句中切出的詞數(shù)最小)。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成 雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹 配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率 為1/169,單純使用逆

3、向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn) 確率。n |Hir ,1 T' |: '定義分詞詞與OlriiiCSlnr ef對(duì) 円進(jìn)行正向最大匹分詞/,用于SfifcB詞結(jié)杲川山a -.i-hi id-.|. g串不空則循環(huán)芬詞| iikl h>n=>F.G"m0H i:F 疑輝串的娠JSif (Itii&nwMlrn) f如果源串爭(zhēng)長(zhǎng)度丈于最:大詢長(zhǎng) lrri=ivbi deic.CSlrin其 m同4刈:H正向最天匹旣

4、誠(chéng)左邊取岀佞度為 加I的子串I 'i = Y 11 rt.ii .1 - In :;住詞典由雀行匹自I近回値為我I M II I h H Ir KX 11 Il /環(huán)昱詞且亨串長(zhǎng)就于一牛漢宇 :從惟選詞右邊減掉一個(gè)漢昌,繼續(xù)進(jìn)行匹®從V,jJfl(lrtn:nshlyl) ktmuhhiw); |4 m + Npindor J將匹旣存到的詞淮同詞弄標(biāo)記加到 輸岀串耒尾<i = IMiil(M.OlljrnglhQi; |一種方法是改進(jìn)掃描方式, 稱(chēng)為特征掃描或標(biāo)志切分, 優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有 明顯特征的詞, 以這些詞作為斷點(diǎn), 可將原字符串分為較小的

5、串再來(lái)進(jìn)機(jī)械分詞, 從而減少匹配的錯(cuò)誤率 另一種方法是將分詞和詞類(lèi)標(biāo)注結(jié)合起來(lái),利用豐富的詞類(lèi)信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中 又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率定義比較抽象,舉個(gè)例子來(lái)說(shuō)明正向最大匹配和反向最大匹配。例子 :'今天來(lái)了許多新同事'1. 正向最大匹配方式,最大長(zhǎng)度為5今天來(lái)了許今天來(lái)了今天來(lái)今天=得到一個(gè)詞-今天來(lái)了許多新來(lái)了許多來(lái)了許來(lái)了來(lái) =得到一個(gè)詞-來(lái)了許多新同了許多新了許多了許了 =得到一個(gè)詞-了許多新同事許多新同許多新許多=得到一個(gè)詞-許多新同事新同新 =得到一個(gè)詞-新同事=得到一個(gè)詞-同事最后正向最大匹配的結(jié)果是:

6、/今天/來(lái)/了/許多/新/同事/2. 反向最大匹配方式,最大長(zhǎng)度為5許多新同事多新同事新同事同事=得到一個(gè)詞-同事來(lái)了許多新了許多新許多新多新新 =得到一個(gè)詞-新天來(lái)了許多來(lái)了許多了許多許多=得到一個(gè)詞-許多今天來(lái)了 天來(lái)了 來(lái)了了 =得到一個(gè)詞-了今天來(lái) 天來(lái) 來(lái) =得到一個(gè)詞-來(lái) 今天=得到一個(gè)詞-今天 最后反向最大匹配的結(jié)果是: /今天/來(lái)/了/許多/新/同事/ 正向最大匹配和反向最大匹配的結(jié)果并不一定相同 例子 :'我一個(gè)人吃飯'1. 正向最大匹配方式,最大長(zhǎng)度為5我一個(gè)人吃我一個(gè)人 我一個(gè) 我一 我 =得到一個(gè)詞-我一個(gè)人吃飯 一個(gè)人吃 一個(gè)人 一個(gè) =得到一個(gè)詞-一個(gè)人吃飯 人吃 人=得到一個(gè)詞-人 吃飯=得到一個(gè)詞-吃飯 最后正向最大匹配的結(jié)果是: /我/一個(gè)/人/吃飯/2. 反向最大匹配方式,最大長(zhǎng)度為5一個(gè)人吃飯個(gè)人吃

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論