統(tǒng)計(jì)基礎(chǔ)上中文地址位置解析方法深究_第1頁
統(tǒng)計(jì)基礎(chǔ)上中文地址位置解析方法深究_第2頁
統(tǒng)計(jì)基礎(chǔ)上中文地址位置解析方法深究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

為獲得中文自然地點(diǎn)描繪語句中的地點(diǎn)信息,提出一種不依靠于字典的中文地點(diǎn)分詞方法。第一依據(jù)地點(diǎn)語料庫中字串共現(xiàn)的統(tǒng)計(jì)規(guī)律統(tǒng)計(jì)詞頻,而后對(duì)地名地點(diǎn)串進(jìn)行正則表達(dá)式預(yù)辦理,再對(duì)地點(diǎn)串進(jìn)行全切分辦理。經(jīng)過互信息和信息熵獲得最優(yōu)粗分結(jié)果,經(jīng)過置信度對(duì)粗分結(jié)果進(jìn)行過濾獲得最優(yōu)分詞結(jié)果。實(shí)驗(yàn)結(jié)果表示,該方法在不依靠字典的狀況下能有效實(shí)現(xiàn)對(duì)地名地點(diǎn)串的拆分,正確率和召回率分別達(dá)到了80.03%和89.28%。重點(diǎn)詞:中文分詞,地名地點(diǎn)分詞,中文地點(diǎn)地點(diǎn)互聯(lián)網(wǎng)是信息流傳溝通的重要平臺(tái)。網(wǎng)絡(luò)空間中存在海量的中文地點(diǎn)數(shù)據(jù),包含著豐富的空間信息??墒桥c傳統(tǒng)的地理信息或數(shù)據(jù)對(duì)比,文本中的地理信息是非結(jié)構(gòu)化的,只有在形式化辦理后才能進(jìn)行剖析和發(fā)掘。文本中的空間信息形式包含中文地點(diǎn)分詞、空間關(guān)系提取、事件提取等。地名地點(diǎn)分詞作為空間信息形式化最基礎(chǔ)的工作,其正確性將直接影響到后續(xù)工作的有效性和正確性。地名地點(diǎn)分詞是中文分詞在地名地點(diǎn)中的應(yīng)用,它將地名地點(diǎn)串拆分紅若干地理因素[1]。中文分詞算法大概分為3類:鑒于詞庫的分詞算法、鑒于統(tǒng)計(jì)的分詞算法、鑒于理解的分詞算法[2]。鑒于詞庫的方法將待剖析的漢字串與一個(gè)“充分大的”機(jī)器字典中的詞條進(jìn)行般配,若在字典中找到某個(gè)字符串則般配成功。這種方法簡單、分詞效率較高。但漢語語言現(xiàn)象復(fù)雜豐富,字典的齊備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文安分詞辦理。鑒于統(tǒng)計(jì)的方法將相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞。因?yàn)檫@些信息是經(jīng)過真切語料獲得的,因此鑒于統(tǒng)計(jì)的分詞方法擁有較好的適用性。鑒于理解的方法是試圖經(jīng)過計(jì)算機(jī)模擬人對(duì)文字的理解過程來進(jìn)行分詞,但當(dāng)前尚不可熟,實(shí)質(zhì)應(yīng)用中沒法直接使用該算法。中文地點(diǎn)分析方面,文件[3]第一創(chuàng)立一個(gè)切合地點(diǎn)分級(jí)模型的地名庫,并在此基礎(chǔ)上經(jīng)過地點(diǎn)串的拆分和般配達(dá)成地點(diǎn)標(biāo)準(zhǔn)化編碼工作,這種方法的困難在于需要人工保護(hù)基礎(chǔ)地點(diǎn)庫。文件[4]在中文地點(diǎn)編碼研究中采納分段、組合、優(yōu)先規(guī)則,對(duì)中文地點(diǎn)進(jìn)行分段般配。這些規(guī)則在必定程度上減少了地點(diǎn)因素的般配次數(shù),但因?yàn)椴杉{數(shù)據(jù)庫查問方式,使算法整體般配速率不好。文件[5]應(yīng)用自然語言辦理中的中文分詞和語義推理原理(HMM模型)對(duì)非結(jié)構(gòu)化中文地點(diǎn)進(jìn)行辦理,該方法弊端是依靠于訓(xùn)練語料,先期需要進(jìn)行大批的地點(diǎn)訓(xùn)練操作。因?yàn)槲覈攸c(diǎn)名稱多而凌亂,并且地點(diǎn)名稱不停在更新,人工建立一個(gè)標(biāo)準(zhǔn)的涵蓋各級(jí)地點(diǎn)的工作量特別大。所以,本文針對(duì)地名地點(diǎn)串,提出一種鑒于統(tǒng)計(jì)的中文地點(diǎn)分詞方法:第一統(tǒng)計(jì)語料庫詞頻,而后對(duì)地名地點(diǎn)串進(jìn)行正則表達(dá)式預(yù)辦理,再對(duì)地點(diǎn)串進(jìn)行全切分處理,經(jīng)過互信息和信息熵獲得最優(yōu)粗分結(jié)果,最后經(jīng)過置信度對(duì)粗分結(jié)果進(jìn)行過濾,獲得最優(yōu)結(jié)果。該方法地點(diǎn)辨別率高,對(duì)原始地點(diǎn)結(jié)構(gòu)和部分地點(diǎn)元素缺失不敏感,不需要人工構(gòu)建一個(gè)海量地點(diǎn)庫。鑒于統(tǒng)計(jì)的中文地點(diǎn)分析方法本文提出了鑒于無字典的中文地點(diǎn)分詞方法。第一對(duì)互聯(lián)網(wǎng)上爬取的30萬條地點(diǎn)數(shù)據(jù)組成的語料庫詞頻、相鄰詞語之間的互信息、詞語的信息熵進(jìn)行統(tǒng)計(jì),而后對(duì)地名地點(diǎn)串進(jìn)行正則表達(dá)式預(yù)辦理,提拿出“數(shù)字+號(hào)”這種描繪方式以及一些標(biāo)點(diǎn)符號(hào);再對(duì)剩下的地點(diǎn)串進(jìn)行全切分辦理,獲得全部的分詞方案,而后經(jīng)過互信息和信息熵計(jì)算選擇弧度花銷最小的分詞方案;最后經(jīng)過置信度對(duì)該分詞方案進(jìn)行過濾獲得最優(yōu)結(jié)果。1.1統(tǒng)計(jì)詞頻詞是最小的能夠獨(dú)立活動(dòng)的存心義的語言成分[6],是相鄰的字與字組成的穩(wěn)固組合。在語料庫中,相鄰的字同時(shí)出現(xiàn)的頻次越高,就越有可能組成一個(gè)詞。所以字與字相鄰共現(xiàn)的頻次或概率能夠較好地反應(yīng)成詞的可信度。本文對(duì)互聯(lián)網(wǎng)上爬取的30多萬條地點(diǎn)文本進(jìn)行統(tǒng)計(jì)辦理。在沒有地名字典的狀況下,隨意長度的字串都有可能組成一個(gè)地理因素。一個(gè)最長的地理因素長度為8(如新疆維吾爾自治區(qū)),所以將字符串的最大長度設(shè)為8,統(tǒng)計(jì)語料庫中隨意長度(最大為8)字符串的詞頻。在地名地點(diǎn)串比方“武漢市洪山區(qū)珞瑜路312號(hào)”中,312在計(jì)算機(jī)中是3個(gè)字符,而在人們認(rèn)知的地點(diǎn)數(shù)據(jù)中312是一個(gè)整體,所以在預(yù)辦理時(shí)將連續(xù)的數(shù)字認(rèn)定為一個(gè)字符。哈希查找方法是效率較高的查問算法,所以將統(tǒng)計(jì)好的詞頻采納哈希結(jié)構(gòu)儲(chǔ)存。1.2結(jié)構(gòu)切分詞圖給定一此中文地點(diǎn)字符串S,對(duì)S進(jìn)行全切分辦理,那么就有2l-1種切分方法。此中,l是地點(diǎn)字符串S的長度,S的全切分會(huì)合為W={Wi},1≤i≤2l-1,Wi代表一種切分方法。把切分的字符串看作節(jié)點(diǎn),把字符串的切分地點(diǎn)看作弧段,就能夠?qū)⒌攸c(diǎn)語句的全切分會(huì)合表示為圖,稱為地點(diǎn)語句的切分詞圖。1.3設(shè)定弧段花銷中文信息辦理中,統(tǒng)計(jì)方法主要應(yīng)用于自動(dòng)抽詞或未登錄詞辨別,比方串頻、互信息、信息熵、查驗(yàn)值、有關(guān)度等統(tǒng)計(jì)量可用于定量判斷候選詞的界限[7],此中最常用的是互信息和信息熵。互信息胸懷兩個(gè)對(duì)象之間的互相性?;バ畔⑼S脕頇?quán)衡兩個(gè)信號(hào)的互相依靠程度,并可用來權(quán)衡詞語的內(nèi)部聯(lián)合密切程度?;バ畔⒃酱螅f明詞語的內(nèi)部聯(lián)合密切度越大,它們組成詞語的可能性越大。互信息越小,組成詞語的可能性越小。其計(jì)算公式為:MI(x,y)=log2p(x,y)p(x)p(y)(1)此中:p(xy)是字符串xy在語料庫中毗鄰出現(xiàn)的概率,p(x)是x在語料庫出現(xiàn)的概率;p(y)是y在語料庫中出現(xiàn)的概率。當(dāng)MI(x,y)大于必定閾值時(shí),表示字符串xy是一個(gè)詞;當(dāng)MI(x,y)小于必定閾值時(shí),字符串xy不會(huì)聯(lián)合成詞。信息熵是用來權(quán)衡一個(gè)隨機(jī)變量出現(xiàn)的希望值,一個(gè)變量的信息熵越大,它出現(xiàn)的各樣狀況就越多,不確立性就越大,正確預(yù)計(jì)其值的可能性也越小。字符串左右搭配越豐富,選擇越多。在自然語言辦理中,分別利用左信息熵和右信息熵來判斷字符串的界限。一個(gè)字符串的左信息熵指該字符串與它相鄰的左毗鄰字串會(huì)合的信息熵之和,用來表示該字符串的左毗鄰字的不確立性。左信息熵越大,說明該字符串的左毗鄰字越不確立,該字符串成為某一個(gè)詞語左界限的可能性越大。相反,左信息熵越小,該字符串的左毗鄰字越確立,它成為某一個(gè)詞語左界限的可能性就越小。同理,右信息熵能夠確立詞語的右界限。上式中,w表示該字符串,aw表示該字符串和左毗鄰字的組合形式,wb表示該字符串和右毗鄰字的組合形式。本文依據(jù)互信息和信息熵原理將其轉(zhuǎn)變?yōu)榍蟹衷~圖中弧段的開支。一條弧段相鄰字符串之間的互信息越大,越不合適作為詞的界限,弧段開支越大;其連結(jié)左右字串的信息熵越大,越合適作為詞的界限,該弧段開支越小。所以,能夠定義以下弧段花銷計(jì)算公式:c(A,B)=MI(a,b)ER(A)EL(B)(4)A、B表示弧段連結(jié)的左右字串,

a、b表示左字串最右邊的字和右字串最左邊的字。1.4置信度過濾在地點(diǎn)語句中,因?yàn)榈乩硪蛩卮嬖趯蛹?jí)關(guān)系,上述計(jì)算方式簡單產(chǎn)生數(shù)據(jù)稀少問題,不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論