




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 中文分詞算法及改進(jìn)研究 申琳摘要:該文主要對(duì)中文分詞算法過(guò)程中的歧義字段的發(fā)現(xiàn)和消解進(jìn)行研究。首先,通過(guò)雙向最大匹配檢索算法和逐詞掃描最大匹配法等方法實(shí)現(xiàn)中文文本的分詞處理,并針對(duì)其中所存在的歧義字段,通過(guò)計(jì)算其互信息和t-信息來(lái)實(shí)現(xiàn)中文分詞歧義的消除。該文所研究的中文分詞算法,不僅可以在多個(gè)中文分詞方案中選擇更優(yōu)的分詞方案,消解中文分詞歧義;同時(shí),還可以在已有分詞方案的基礎(chǔ)上,發(fā)現(xiàn)更加符合實(shí)際情況的分詞方案,以提高中文分詞的準(zhǔn)確性和適用性。關(guān)鍵詞:中文分詞;歧義發(fā)現(xiàn);歧義消解;互信息;t-信息:tp18 :a :1009-3044(201
2、7)31-0199-021 概述信息技術(shù)的不斷發(fā)展,提高了信息的搜集和傳輸效率;而信息技術(shù)的廣泛應(yīng)用,直接導(dǎo)致了信息的爆炸式增長(zhǎng)。海量信息的增長(zhǎng),促使人們需要更加自動(dòng)化的方法來(lái)對(duì)海量信息進(jìn)行處理的新需求。信息的了解是海量信息自動(dòng)化處理的基礎(chǔ),對(duì)于中文信息而言,如何通過(guò)中文分詞進(jìn)行中文文本信息的切分,理解中文文本信息的具體內(nèi)容,就是海量中文文本信息就是自動(dòng)化處理的基礎(chǔ)。2 中文分詞歧義消解研究2.1 中文分詞歧義消解概述中文分詞最大的問(wèn)題就在于中文分詞歧義的消除,例如在詞句“”的分詞中“他說(shuō)的確實(shí)在理”文本的分詞時(shí),“的確”、“是在”、“確實(shí)”、“在理”等詞語(yǔ)都是生活中常見的詞組方法。因此按照不
3、同的分詞方法會(huì)產(chǎn)生歧義:正向優(yōu)化最大匹配方法(fmm)的分詞結(jié)果為:“他/說(shuō)/的確/實(shí)在/理”;算法進(jìn)和逆向優(yōu)化最大匹配方法(rmm)的分詞結(jié)果為“他/說(shuō)/的/確實(shí)/在理”。而對(duì)于文本“老師教你馬上去”而言,使用fmm和rmm算法的處理結(jié)果分別為“老師/叫/你/馬上/去”(fmm)和“老師/叫/你/馬/上去”(rmm)。除fmm算法和rmm算法以外,在進(jìn)行具體的中文文本分詞時(shí),都有可能因?yàn)橹形奈谋镜奶厥庑?,?dǎo)致分詞結(jié)果不正確,即中文分詞的歧義。2.2 中文分詞歧義消解難點(diǎn)歧義的處理是進(jìn)行中文文本自動(dòng)分詞,進(jìn)而理解中文文本信息時(shí)所遇到的主要困難之一,而由于如下的各種原因,導(dǎo)致中文分詞歧義的處理存
4、在諸多難點(diǎn)。(1) 歧義字段類型多種多樣歧義字段的類型豐富,而歧義消解策略也多種多樣,例如通過(guò)增加語(yǔ)義、語(yǔ)用知識(shí)等外部條件來(lái)消解歧義,例如“他說(shuō)的確實(shí)在理”等文本的分詞,就可以通過(guò)外部知識(shí)條件來(lái)消解分詞時(shí)存在的歧義;或者依靠上下文語(yǔ)義信息來(lái)消解歧義,例如“乒乓球拍賣完了”文本,可以分為“乒乓球拍/賣完/了”(fmm)和“乒乓球/拍賣/完了”(rmm),就可以通過(guò)上下文來(lái)消解歧義;甚至在生活中還存在,借助上下文內(nèi)容,人為也無(wú)法消解的歧義。(2) 未登錄詞的分詞歧義由于信息的爆發(fā)式增長(zhǎng),中文詞語(yǔ)本身也在不斷發(fā)展,例如網(wǎng)絡(luò)上每年就有大量網(wǎng)絡(luò)流行語(yǔ)出現(xiàn),這些詞庫(kù)中為存儲(chǔ)的未登錄詞的存在,也為中文分詞歧
5、義的處理帶來(lái)了很大的困難。由于中文分詞歧義的類型多樣,而且中文詞語(yǔ)本身也在不斷變化發(fā)展過(guò)程中,為此想要準(zhǔn)確、完整的解決所有中文分詞歧義難以實(shí)現(xiàn)。而且讓計(jì)算機(jī)完全理解文本的信息,通過(guò)上下文的語(yǔ)義來(lái)消除部分中文分詞歧義,也會(huì)導(dǎo)致中文分詞效率急劇下降。為此,在本文的研究中主要對(duì)可以借助語(yǔ)用知識(shí)消解的中文分詞歧義進(jìn)行研究。3 中文分詞歧義發(fā)現(xiàn)算法分析當(dāng)前,中文分詞歧義發(fā)現(xiàn)算法的研究成果較多。(1) 雙向最大匹配檢索算法通過(guò)采用fmm算法和rmm算法對(duì)中文文本分詞結(jié)果的對(duì)比,來(lái)發(fā)現(xiàn)中文分詞過(guò)程中所存在的歧義。例如在“他說(shuō)的確實(shí)在理”的分詞過(guò)程中,發(fā)現(xiàn)“的確實(shí)在理”為歧義字段。(2) 逐詞掃描最大匹配法通
6、過(guò)fmm和逐詞掃描相結(jié)合以發(fā)現(xiàn)中文分詞中的歧義字段,其原理為從文本起點(diǎn)取不超過(guò)最大長(zhǎng)度的漢字符進(jìn)行匹配,若在字典庫(kù)中有該匹配字段,則且反一條分詞,并通過(guò)與最近的分詞進(jìn)行比較,對(duì)存在的歧義字段進(jìn)行標(biāo)記;若在字典庫(kù)中沒(méi)有找到該匹配字段,則去掉匹配字段的最后一個(gè)漢字,重新進(jìn)行匹配,直到匹配字段的長(zhǎng)度為零為止,并文本中的下一個(gè)字進(jìn)行同樣處理,直到文本中的漢字全部處理完畢為止。(3) 正向最大匹配結(jié)合回退一字法fmm和逐詞掃描相結(jié)合以發(fā)現(xiàn)中文分詞中歧義字段的新算法,其原理與逐詞掃描最大匹配法類似,若匹配字段在詞典庫(kù)中匹配成果,則將匹配字段回退一字,進(jìn)行重新匹配,如果回退一字的匹配字段在詞典庫(kù)中依然匹配成
7、果,則認(rèn)為中文文本中存在歧義字段。與中文分詞歧義消解的研究類似,由于中文分詞歧義類型眾多,以及中文詞語(yǔ)的不斷發(fā)展,使得中文分詞歧義發(fā)現(xiàn)算法同樣存在諸多難點(diǎn)。在本文中使用算法原理簡(jiǎn)單的fmm和rmm結(jié)合的中文分詞歧義算法進(jìn)行研究。4 中文分詞歧義消解算法設(shè)計(jì)4.1 算法原理通過(guò)構(gòu)建語(yǔ)料庫(kù)來(lái)計(jì)算不同中文詞語(yǔ)的次頻度,然后通過(guò)計(jì)算詞語(yǔ)的互信息和t-信息來(lái)消解中文分詞歧義。(1) 互信息待分詞的漢字串為xy,則詞組x和詞組y的互信息定義如式(1)所示。ix,y=px,ypxpy (1)其中,px、py、px,y分別表示詞語(yǔ)x、y、xy在語(yǔ)料庫(kù)中出現(xiàn)的概率。若ix,y=0,表示詞語(yǔ)xy未在語(yǔ)料庫(kù)中出現(xiàn)過(guò)
8、,在極限狀況下,px=0或py=0,則表示x或y未在語(yǔ)料庫(kù)中,則xy必然成詞(在當(dāng)前語(yǔ)料庫(kù)環(huán)境下)。因此,ixy越大,則xy成詞概率越高。(2) t-信息待分詞的漢字串為xyz,相對(duì)于漢字x和z,漢字y的t-信息定義如式(2)所示。 tx,zy=pzy-pyxp2zy-p2yx其中,pyx、pzy表示兩個(gè)漢字詞組的條件概率。若tx,zy<0,表示xy成詞概率比yz成詞概率要高,而且,tx,zy越大,表示xy成詞概率越大;若tx,zy=0,則表示xy和yz成詞的概率相同,難以確定;若tx,zy>0,表示yz成詞概率比xy成詞概率要高,而且,tx,zy越大,表示yz成詞概率越大。4.2
9、 應(yīng)用示例在一個(gè)中文詞條為64231條,總次頻度為12638035的詞典庫(kù)中,部分中文詞的頻度如表1所示。中文詞串“他說(shuō)的確實(shí)在理”有“他/說(shuō)/的確/實(shí)在/理”(fmm)和“他/說(shuō)/的/確實(shí)/在理”(rmm)兩種分詞方法,即中文詞串存在分詞歧義。在對(duì)“他說(shuō)的確實(shí)在理”歧義中文字段進(jìn)行處理時(shí),計(jì)算互信息分別為“的確”(45.45)、“確實(shí)”(289.69)、“實(shí)在”(47.04)、“在理”(189),根據(jù)互信息,“實(shí)在”和“在理”的成詞概率更高;計(jì)算和t-信息分別為“的確實(shí)”(0.86)、“確實(shí)在”(0.29)、“實(shí)在理”(-0.98)根據(jù)t-信息,可以看出“的確”的成詞概率比“確實(shí)”成詞概率更
10、高,“確實(shí)”的成詞概率比“實(shí)在”的成詞概率更高,“實(shí)在”比“在理”的成詞概率更高。為此,結(jié)合歧義中文字段的互信息和t-信息,將“他說(shuō)的確實(shí)在理”歧義中文字段分詞為“他/說(shuō)/的/確實(shí)/在理”。同樣,中文詞串“結(jié)合成分子時(shí)有”有“結(jié)合/成分/子時(shí)/有”(fmm)和“結(jié)/合成/分子/時(shí)有”(rmm)兩種分詞方法,即中文詞串存在分詞歧義。在對(duì)“結(jié)合成分子時(shí)有”歧義中文字段進(jìn)行處理時(shí),計(jì)算互信息分別為“結(jié)合”(172.53)、“合成”(11.27)、“成分”(4.51)、“分子”(45.53)、“子時(shí)”(0.058)、“時(shí)有”(0.002),根據(jù)互信息,“結(jié)合”和“分子”的成詞概率更高;計(jì)算和t-信息分
11、別為“結(jié)合成”(-4.53)、“合成分”(-0.725)、“成分子”(0.741)、“分子時(shí)”(-0.98)、“子時(shí)有”(-0.93),根據(jù)t-信息,雖然“結(jié)合”、“合成”、“分子”的成詞概率都很高,但是結(jié)合互信息,可以看出“結(jié)合”的互信息非常大,即“結(jié)合”應(yīng)該單獨(dú)成詞,而“成分子”的t-信息為0.741,即“分子”成詞概率更大,為此,結(jié)合歧義中文字段的互信息和t-信息,將“結(jié)合成分子時(shí)有”歧義中文字段分詞為與fmm和rmm算法都不同的分詞結(jié)果“結(jié)合/成/分子/時(shí)有”。如上的分析所示,本文所研究的中文分詞歧義消解算法,不僅可以在多個(gè)中文分詞方案中選擇更優(yōu)的分詞方案,同時(shí)還可以在已有分詞方案的基礎(chǔ)上,發(fā)現(xiàn)更加符合實(shí)際情況的分詞方案。5 結(jié)束語(yǔ)中文文本分詞是中文信息自動(dòng)化處理的基礎(chǔ),同時(shí)由于漢語(yǔ)的特點(diǎn),在中文分詞過(guò)程中,中文分詞的歧義字段處理就成為了人們研究和關(guān)注的重點(diǎn)。當(dāng)前,已經(jīng)有眾多的中文分詞歧義字段的發(fā)現(xiàn)和消解算法,但是這些算法都無(wú)法完全、正確的解決中文分詞歧義字段問(wèn)題。而且,隨著漢語(yǔ)本身的不斷發(fā)展,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化IP開發(fā)師崗位面試問(wèn)題及答案
- 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工程師崗位面試問(wèn)題及答案
- 江西省贛州市四校協(xié)作體2025年高二下化學(xué)期末監(jiān)測(cè)試題含解析
- 河南省輝縣一高2025屆高一化學(xué)第二學(xué)期期末復(fù)習(xí)檢測(cè)試題含解析
- 民工工資管理暫行辦法
- 國(guó)企資產(chǎn)轉(zhuǎn)讓管理辦法
- 北京教師處境管理辦法
- 就業(yè)創(chuàng)業(yè)指導(dǎo)的新策略
- 公園管理良策管理辦法
- 公墓收費(fèi)管理辦法貴州
- 2025年廣西中考語(yǔ)文試題卷(含答案)
- 江蘇省南通市2024-2025學(xué)年高二下學(xué)期6月期末質(zhì)量監(jiān)測(cè)政治試題(含答案)
- (高清版)DB31∕T 1427-2023 首席質(zhì)量官評(píng)價(jià)規(guī)范
- 一級(jí)醫(yī)院醫(yī)保管理制度
- 2025年南京市中考數(shù)學(xué)真題試卷
- 2025年呼倫貝爾農(nóng)墾集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年重慶市中考數(shù)學(xué)試卷真題(含標(biāo)準(zhǔn)答案)
- 2025年內(nèi)蒙古煤炭地質(zhì)勘查(集團(tuán))一零九有限公司招聘筆試參考題庫(kù)含答案解析
- T/CBMCA 039-2023陶瓷大板巖板裝修鑲貼應(yīng)用規(guī)范
- 藥物外滲的嚴(yán)重后果及處理課件
- 2021年軟件開發(fā)管理流程制度(附全套表格模板及填寫指引)58頁(yè)
評(píng)論
0/150
提交評(píng)論