基于統(tǒng)計的中文地址位置語義解析方法研究_第1頁
基于統(tǒng)計的中文地址位置語義解析方法研究_第2頁
基于統(tǒng)計的中文地址位置語義解析方法研究_第3頁
基于統(tǒng)計的中文地址位置語義解析方法研究_第4頁
基于統(tǒng)計的中文地址位置語義解析方法研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于統(tǒng)計的中文地址位置語義解析方法研究

謝婷婷嚴(yán)柯Summary:為獲取中文自然地址描述語句中的位置信息,提出一種不依賴于詞典的中文地址分詞方法。首先根據(jù)地址語料庫中字串共現(xiàn)的統(tǒng)計規(guī)律統(tǒng)計詞頻,然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理,再對地址串進(jìn)行全切分處理。通過互信息和信息熵得到最優(yōu)粗分結(jié)果,通過置信度對粗分結(jié)果進(jìn)行過濾得到最優(yōu)分詞結(jié)果。實驗結(jié)果表明,該方法在不依賴詞典的情況下能有效實現(xiàn)對地名地址串的拆分,正確率和召回率分別達(dá)到了80.03%和89.28%。Key:中文分詞;地名地址分詞;互信息;信息熵DOIDOI:10.11907/rjdk.172069:TP301:A:16727800(2017)0100019030引言互聯(lián)網(wǎng)是信息傳播交流的重要平臺。網(wǎng)絡(luò)空間中存在海量的中文地址數(shù)據(jù),蘊含著豐富的空間信息。但是與傳統(tǒng)的地理信息或數(shù)據(jù)相比,文本中的地理信息是非結(jié)構(gòu)化的,只有在形式化處理后才能進(jìn)行分析和挖掘。文本中的空間信息形式包括中文地址分詞、空間關(guān)系提取、事件提取等。地名地址分詞作為空間信息形式化最基礎(chǔ)的工作,其準(zhǔn)確性將直接影響到后續(xù)工作的有效性和準(zhǔn)確性。地名地址分詞是中文分詞在地名地址中的應(yīng)用,它將地名地址串拆分成若干地理要素[1]。中文分詞算法大體分為3類:基于詞庫的分詞算法、基于統(tǒng)計的分詞算法、基于理解的分詞算法[2]?;谠~庫的方法將待分析的漢字串與一個“充分大的”機器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串則匹配成功。這類方法簡單、分詞效率較高。但漢語語言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文本分詞處理?;诮y(tǒng)計的方法將相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞。由于這些信息是通過真實語料取得的,因而基于統(tǒng)計的分詞方法具有較好的實用性。基于理解的方法是試圖通過計算機模擬人對文字的理解過程來進(jìn)行分詞,但目前尚不成熟,實際應(yīng)用中無法直接使用該算法。中文地址解析方面,文獻(xiàn)[3]首先創(chuàng)建一個符合地址分級模型的地名庫,并在此基礎(chǔ)上通過地址串的拆分和匹配完成地址標(biāo)準(zhǔn)化編碼工作,這種方法的困難在于需要人工維護(hù)基礎(chǔ)地址庫。文獻(xiàn)[4]在中文地址編碼研究中采用分段、組合、優(yōu)先規(guī)則,對中文地址進(jìn)行分段匹配。這些規(guī)則在一定程度上減少了地址要素的匹配次數(shù),但由于采用數(shù)據(jù)庫查詢方式,使算法總體匹配速率不佳。文獻(xiàn)[5]應(yīng)用自然語言處理中的中文分詞和語義推理原理(HMM模型)對非結(jié)構(gòu)化中文地址進(jìn)行處理,該方法缺點是依賴于訓(xùn)練語料,前期需要進(jìn)行大量的地址訓(xùn)練操作。由于我國地址名稱多而雜亂,而且地址名稱不斷在更新,人工構(gòu)建一個標(biāo)準(zhǔn)的涵蓋各級地址的工作量非常大。因此,本文針對地名地址串,提出一種基于統(tǒng)計的中文地址分詞方法:首先統(tǒng)計語料庫詞頻,然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理,再對地址串進(jìn)行全切分處理,通過互信息和信息熵得到最優(yōu)粗分結(jié)果,最后通過置信度對粗分結(jié)果進(jìn)行過濾,得到最優(yōu)結(jié)果。該方法地址識別率高,對原始地址結(jié)構(gòu)和部分地址元素缺失不敏感,不需要人工構(gòu)建一個海量地址庫。1基于統(tǒng)計的中文地址解析方法本文提出了基于無詞典的中文地址分詞方法。首先對互聯(lián)網(wǎng)上爬取的30萬條地址數(shù)據(jù)構(gòu)成的語料庫詞頻、相鄰詞語之間的互信息、詞語的信息熵進(jìn)行統(tǒng)計,然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理,提取出“數(shù)字+號”這類描述方式以及一些標(biāo)點符號;再對剩下的地址串進(jìn)行全切分處理,得到所有的分詞方案,然后通過互信息和信息熵計算選擇弧度花費最小的分詞方案;最后通過置信度對該分詞方案進(jìn)行過濾得到最優(yōu)結(jié)果。步驟如圖1所示。1.1統(tǒng)計詞頻詞是最小的能夠獨立活動的有意義的語言成分[6],是相鄰的字與字構(gòu)成的穩(wěn)定組合。在語料庫中,相鄰的字同時出現(xiàn)的頻率越高,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度。本文對互聯(lián)網(wǎng)上爬取的30多萬條地址文本進(jìn)行統(tǒng)計處理。在沒有地名詞典的情況下,任意長度的字串都有可能構(gòu)成一個地理要素。一個最長的地理要素長度為8(如新疆維吾爾自治區(qū)),所以將字符串的最大長度設(shè)為8,統(tǒng)計語料庫中任意長度(最大為8)字符串的詞頻。在地名地址串比如“武漢市洪山區(qū)珞瑜路312號”中,312在計算機中是3個字符,而在人們認(rèn)知的地址數(shù)據(jù)中312是一個整體,所以在預(yù)處理時將連續(xù)的數(shù)字認(rèn)定為一個字符。哈希查找方法是效率較高的查詢算法,因此將統(tǒng)計好的詞頻采用哈希結(jié)構(gòu)存儲。1.2構(gòu)造切分詞圖給定一個中文地址字符串S,對S進(jìn)行全切分處理,那么就有2l-1種切分方法。其中,l是地址字符串S的長度,S的全切分集合為W={Wi},1≤i≤2l-1,Wi代表一種切分方法。把切分的字符串當(dāng)作節(jié)點,把字符串的切分位置當(dāng)作弧段,就可以將地址語句的全切分集合表示為圖,稱為地址語句的切分詞圖。1.3設(shè)定弧段花費中文信息處理中,統(tǒng)計方法主要應(yīng)用于自動抽詞或未登錄詞識別,比如串頻、互信息、信息熵、檢驗值、相關(guān)度等統(tǒng)計量可用于定量判斷候選詞的邊界[7],其中最常用的是互信息和信息熵?;バ畔⒍攘績蓚€對象之間的相互性。互信息通常用來衡量兩個信號的相互依賴程度,并可用來衡量詞語的內(nèi)部結(jié)合緊密程度?;バ畔⒃酱螅f明詞語的內(nèi)部結(jié)合緊密度越大,它們構(gòu)成詞語的可能性越大?;バ畔⒃叫。瑯?gòu)成詞語的可能性越小。其計算公式為:MI(x,y)=log2p(x,y)p(x)p(y)(1)其中:p(xy)是字符串xy在語料庫中鄰接出現(xiàn)的概率,p(x)是x在語料庫出現(xiàn)的概率;p(y)是y在語料庫中出現(xiàn)的概率。當(dāng)MI(x,y)大于一定閾值時,表明字符串xy是一個詞;當(dāng)MI(x,y)小于一定閾值時,字符串xy不會結(jié)合成詞。信息熵是用來衡量一個隨機變量出現(xiàn)的期望值,一個變量的信息熵越大,它出現(xiàn)的各種情況就越多,不確定性就越大,正確估計其值的可能性也越小。字符串左右搭配越豐富,選擇越多。在自然語言處理中,分別利用左信息熵和右信息熵來判斷字符串的邊界。一個字符串的左信息熵指該字符串與它相鄰的左鄰接字串集合的信息熵之和,用來表示該字符串的左鄰接字的不確定性。左信息熵越大,說明該字符串的左鄰接字越不確定,該字符串成為某一個詞語左邊界的可能性越大。相反,左信息熵越小,該字符串的左鄰接字越確定,它成為某一個詞語左邊界的可能性就越小。同理,右信息熵可以確定詞語的右邊界。endprintEL(w)=-∑a∈AP(aww)log2P(aww)(2)ER(w)=-∑b∈BP(wbw)log2p(wbw)(3)上式中,w表示該字符串,aw表示該字符串和左鄰接字的組合形式,wb表示該字符串和右鄰接字的組合形式。本文根據(jù)互信息和信息熵原理將其轉(zhuǎn)化為切分詞圖中弧段的開銷。一條弧段相鄰字符串之間的互信息越大,越不適合作為詞的邊界,弧段開銷越大;其連接左右字串的信息熵越大,越適合作為詞的邊界,該弧段開銷越小。因此,可以定義如下弧段花費計算公式:c(A,B)=MI(a,b)ER(A)EL(B)(4)A、B表示弧段連接的左右字串,a、b表示左字串最右側(cè)的字和右字串最左側(cè)的字。1.4置信度過濾在地址語句中,由于地理要素存在層級關(guān)系,上述計算方式容易產(chǎn)生數(shù)據(jù)稀疏問題,不能將兩個地理要素切分開,因此引入置信度過濾的計算方法。已知字符串w1為fre(w1),字符串w2的詞頻為fre(w2),字符串w=w1+w2的詞頻為fre(w),則字符串w1相對于字符串w,詞的置信度如公式(5)所示。conf(w1w)=fre(w1)-fre(w)fre(w1)(5)同樣可知字符串w2相對于字符串w的置信度。字符串w1相對于字符串w的置信度,反映了字符串與前綴漢字串或后綴漢字串結(jié)合的穩(wěn)定性,即字符串w2構(gòu)成詞條的可能性。如果字符串w1相對于字符串w的置信度小于閾值α,則認(rèn)為字符串w是真實字符串的可能性比w1大,則從詞頻生成的詞庫中去掉w1字符串。如果字符串w1相對于字符串w的置信度大于閾值β,則認(rèn)為字符串w1是真實字符串的可能性比w大,從詞頻生成的詞庫中去掉w字符串。如果字符串w1相對于字符串w的置信度大于閾值α且小于閾值β,則比較兩個詞的詞頻大小,保留詞頻大的字符串。通過分析不同取值條件下的實驗結(jié)果選取α和β的閾值。一般在α=0.3和β=0.8的情況下分詞結(jié)果更好。比如w1=“武漢”,w=“武漢市”,fre(w1)=7096,fre(w)=7086,則conf(w1w)=(7096-7086)/7096=0.0019,小于閾值α=0.3,所以從詞頻生成的詞庫中去掉“武漢”字符串,保留字符串“武漢市”。再比如w1=“武漢市”,w=“武漢市武”,fre(w1)=7082,fre(w)=1110,則conf(w1w)=(7083-1110)/7082=0.84>β=0.8。所以,應(yīng)從統(tǒng)計語料庫的詞頻生成詞庫中去掉“武漢市武”字符串,保留“武漢市”字符串。2實驗結(jié)果分析實驗采用完全基于統(tǒng)計特征的分詞方法和引入了置信度過濾的分詞方法。前者基于統(tǒng)計考慮,說明了統(tǒng)計分詞方法的有效性,后者通過引入置信度過濾改進(jìn)了統(tǒng)計分詞效果。從互聯(lián)網(wǎng)上爬取30萬條地址數(shù)據(jù)構(gòu)成的語料庫中,隨機選取2000條地址語句,采用上述兩種方法進(jìn)行分詞實驗,統(tǒng)計兩種分詞方法的正確率、召回率和F值,各指標(biāo)計算如公式(6)~(8)所示。通過分析地址解析方法,將最大熵分詞方法與本文方法對比。本文方法雖然在正確率上沒有前者高,但是在召回率和F值上有了較大提升。而且最大熵方法在前期需要人工標(biāo)注大量的語料,工作量大,本文方法則不需要標(biāo)注,實用性更強。兩者對比結(jié)果如表1所示。正確率(P)=切分正確的總詞數(shù)切分出的總詞數(shù)×100%(6)召回率(R)=切分正確的總詞數(shù)標(biāo)準(zhǔn)結(jié)果中的總詞數(shù)×100%(7)F=2×P×RP+R×100%(8)3結(jié)語本文提出了一種無詞典的中文地址分詞方法。在互聯(lián)網(wǎng)上爬取30多萬條地址數(shù)據(jù)構(gòu)成語料庫,通過統(tǒng)計地址文本中各個字的組合頻度,計算待分詞文本的各種參數(shù),判斷漢字之間的緊密程度,通過置信度過濾最后獲得分詞結(jié)果。實驗結(jié)果表明,本文方法不需要依靠人工去構(gòu)建一個地名地址庫,且不需要人工去標(biāo)注訓(xùn)練語料就能實現(xiàn)對地名地址串的切分,且分詞效果較好,實用性強。ReferenceReference:[1]趙陽陽,王亮,仇阿根.地址要素識別機制的地名地址分詞算法[J].測繪科學(xué),2013,38(5):8183.[2]于光.中文分詞系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2012.[3]孫存群,周順平,楊林.基于分級地名庫的中文地理編碼[J].計算機應(yīng)用,2010(7):19531958[4]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論