有特征詞的中文地名識別_第1頁
有特征詞的中文地名識別_第2頁
有特征詞的中文地名識別_第3頁
有特征詞的中文地名識別_第4頁
有特征詞的中文地名識別_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

有特征詞的中文地名識別

一、其他語料庫法名詞識別是中文自動排序的難題之一。目前,國內(nèi)有關中文姓名識別的研究較多,提出了基于統(tǒng)計和基于語料庫的中文姓名識別方法,達到了很好的識別效果。而中文地名識別相對比較少。主要有:文獻采用統(tǒng)計模型,利用屬性矩陣和頻級進行篩選,達到了較高的召回率,但精確率偏低。文獻采用基于語料庫的方法,根據(jù)地名詞典統(tǒng)計分析地名用字的信息以及這些字在真實文本中使用程度信息進行地名識別,對地名識別取得了一定的效果。文獻在文獻的基礎上,提出了一種基于交換的地名識別方法,得到地名上下文的規(guī)律,對規(guī)律再進行篩選,這種方法有效地提高了系統(tǒng)的精確率(精確率提高了7%)。本文闡述的是含地名特征詞的中文地名識別方法,提出了地名構(gòu)詞可信度和地名接續(xù)可信度概念。不僅運用了地名用詞頻度信息,而且還利用從大量的真實文本中統(tǒng)計出來的地名與其上下文之間的接續(xù)頻度信息,較好地解決了召回率和精確率之間的關系。二、地名特征詞的出現(xiàn)中文地名主要有如下特點:1.中文地名數(shù)量大,沒有明確規(guī)范的地名定義。并且隨著經(jīng)濟和社會的發(fā)展,會有新的地名不斷出現(xiàn)。2.中文地名用詞比較自由、分散,同時中文地名用詞又有相對集中的覆蓋能力。3.地名結(jié)尾經(jīng)常有地名特征詞出現(xiàn),如“自治區(qū)、路、水庫”。但地名特征詞出現(xiàn)的情況比較復雜:既可以作為普通用詞出現(xiàn),又可以出現(xiàn)在地名其它位置。4.地名長度沒有嚴格限制,短的如“京”,長的如“雙江拉祜族佤族布朗族傣族自治縣”。5.可作單字詞的漢字在地名中經(jīng)常出現(xiàn),如“西|直|門、馬|家|塔。”6.地名中不同位置可含有多字詞,如“龍王|洞|山、兵書|寶劍|峽”等。7.地名有時同一些介詞、動詞、方位詞之類的指示詞出現(xiàn),但有些指示詞也可以作為地名組成部分。8.經(jīng)常多個地名一起出現(xiàn),如“|~吉林省~|~四平市~|~梨樹縣~|~梨樹鎮(zhèn)~|~霍家店村~|”。其中,1、4增加了地名識別難度,3、7可能使候選地名產(chǎn)生交叉歧義,2、5、6使部分地名邊界模糊,8則有助于地名識別。三、中國地名識別模型3.1地名前詞的分類定義1設SpNameSpecialWord為地名特征詞表,SpNameChar為地名前部詞表。則中文地名(SP)定義為:SΡ=F0F+SSP=F0F+S其中F+=F1…Fn,Fi∈SpNameChar(i=1,…,n),S∈SpNameSpecialWord.F0定義為地名首字,F+為地名中部,F0F+統(tǒng)稱為地名前部詞,S為地名特征詞(如:省、市等),即地名是由地名前部詞和地名特征詞組成的。1.根據(jù)是否可以作為地名的前部詞,地名特征詞分為:(1)只能作為地名特征詞而不能作為地名前部詞(“省”、“開發(fā)區(qū)”、“三角洲”)(2)既能作為地名特征詞,又能作為地名前部詞(“江”、“湖”、“崗”)根據(jù)組成地名的長度,地名特征詞又可以分為:(1)組成的地名可以少于三個單字長度(“縣”、“山”、“盟”)(2)組成的地名至少三個單字長度(“路”、“觀”、“坡”)2.根據(jù)在地名中出現(xiàn)的位置,地名前部詞可以為:(1)不能作為地名首字的詞(“滿族”、“現(xiàn)”、“敢”)(2)不能作為地名中部的詞,這樣的一般也多為多字詞(“黃粱夢”)根據(jù)與特征詞的關系,地名前部詞又可以為:(1)不能單獨和特征詞連用作為地名(“可”、“并”、“個”)(2)只能和特征詞連在一起用,這樣的一般為多字詞(“平等”、“中央”、“勝利”)定義2地名前詞是指在真實文本中地名的前一個詞。如“在|~大連市~|”,“在”是地名“大連市”的地名前詞。其分類如下:1.肯定前詞:地名識別過程中,遇到該詞不需要繼續(xù)向前搜索,如“針對”、“關于”等。2.可能前詞:地名識別過程中,遇到該詞還需其它的信息來判斷究竟是不是地名前詞,這是地名識別的難點。從下列不同的角度,可能前詞可進一步分為:(1)當可能前詞后面的地名前部詞字數(shù)大于等于2時,該可能前詞才可能成為地名前詞,這種多為沒有獨立意義的單字詞。如“起”,在句子“西|起|~嘉峪關~|”中,“起”是前詞,而在地名“|~旺起鎮(zhèn)~|”中,“起”是地名用字。(2)必須根據(jù)地名后面的單詞才能判斷該詞是否為地名的前詞,如“原|~中山區(qū)~|區(qū)長”,根據(jù)“區(qū)長”,可判斷“原”字為地名的前詞。定義3地名后詞是指在真實文本中地名的后一個詞。定義4常規(guī)切分是指不含地名識別的分詞;按地名切分是指含地名識別的分詞。定義5地名構(gòu)詞可信度是根據(jù)地名用字用詞情況,判斷它作為地名的可信度;地名接續(xù)可信度是根據(jù)地名的構(gòu)成及其上下文的接續(xù)關系來判斷它作為地名的可信度。定義6地名構(gòu)詞評價系數(shù)是指根據(jù)地名用詞之間搭配情況,對其構(gòu)詞可信度或增大或減小的評價系數(shù);地名接續(xù)評價系數(shù)是指根據(jù)地名的構(gòu)成以及其上下文對其接續(xù)可信度或增大,或減小的評價系數(shù)。3.2在線給藥量檢測本文根據(jù)《中國地名錄》(含地名約4萬條),建立了地名特征詞表(SpNameSpecialWord)和地名前部詞表(SpNameChar)。其中,地名前部詞表記錄為3655條,地名特征詞表記錄為127條。為評測地名識別效果,從98年《人民日報》上隨機抽取了200萬字的語料,并對其進行人工標注后生成學習語料。其中,對學習語料中出現(xiàn)的專有名詞(中文人名、中文地名、中文機構(gòu)名及其它專有名詞)分別進行了人工標記,之后,對學習語料中每一個單詞出現(xiàn)的頻度進行統(tǒng)計,建立了單詞頻度詞典(Unigram)和雙詞接續(xù)詞典(Bigram)。3.3spnatching,ssp+k-sp-確定模型根據(jù)定義1,SP=F0F+S其中F+=F1…Fn,Fi∈SpNameChar(i=1,…,n),S∈SpNameSpecialWord,下面分別給出模型要用到的公式:1.spnat基因Pl(S)=Pl0(S)∑Pl0(y)y∈SpNameSpecialWordPl0(S)=log(D(S)+2)2(1)D(S)是字串S作為地名特征詞在中國地名庫中出現(xiàn)的次數(shù)。2.ysp三維單位定義Ph(F0)=Ph0(F0)∑Ph0(y)y∈SpNameCharPh0(F0)=log(C(F0)+2)2(2)C(F0)是字串F0作為地名首字在中國地名庫中出現(xiàn)的次數(shù)。3.spnasp事法Pf(F+)=∑ni=11/2n-i-1Pf0(Fi)∑Pf0(y)y∈SpNameCharPf0(Fi)=log(C(Fi)+2)2(3)C(Fi)是字串Fi作為地名中部在中國地名庫中出現(xiàn)的次數(shù)。考慮到每個字離地名特征詞距離的遠近影響整個字串是地名的中部的可能性,故公式前面加了系數(shù)1/2n-i-1。4.papspΡ′w(SΡ)=Ρl(S)×(Ρh(F0)+Ρf(F+))×(1+Ρ′ap(SΡ))(4)P′w(SP)=Pl(S)×(Ph(F0)+Pf(F+))×(1+P′ap(SP))(4)其中:Pl(S)是公式(1)計算出來的地名特征詞S作為地名的可信度。Ph(F0)是公式(2)計算出來的F0作為地名首字的可信度。Pf(F+)是公式(3)計算出來的F+作為地名中部的可信度。P′ap(SP)為地名構(gòu)詞評價系數(shù)。用來作為地名內(nèi)部詞與詞之間搭配的衡量尺度。P′ap(SP)是以規(guī)則的形式來描述的,分為獎勵規(guī)則和懲罰規(guī)則在(-0.9—1)之間取值。如:獎勵規(guī)則1)潛在地名中,如果詞與詞之間的接續(xù)在雙詞接續(xù)詞典(Bigram)中沒有出現(xiàn)。2)潛在地名中,如果詞是未定義詞(沒有詞性的單漢字)或者是名詞。3)有一些詞比較少用,但是,如果出現(xiàn)在潛在地名中,作為地名用字的可能性較大。懲罰規(guī)則4)在地名中,詞與詞之間的接續(xù)在雙詞接續(xù)詞典中出現(xiàn),則要進行相應的懲罰。5)如果潛在地名中出現(xiàn)的詞性接續(xù)是〈量詞+數(shù)詞+名詞〉,或是〈動詞+副詞〉等短語結(jié)構(gòu)且后面不是特征詞或名詞。6)如果潛在地名中出現(xiàn)高頻詞,且詞的長度超過1個漢字長。7)在地名中出現(xiàn)多個不能和特征詞結(jié)合形成地名的單字詞(見地名前部詞分類)。對于地名鏈中的每一潛在地名,根據(jù)滿足的不同規(guī)則,對其P′ap(SP)進行鼓勵或懲罰,例如,“沂0|蒙jv|山區(qū)”,滿足規(guī)則1)的條件,對P′ap(SP)增加0.1;同時,還滿足規(guī)則2),P′ap(SP)增加0.1。又如“|合|鄉(xiāng)|并|鎮(zhèn)|”符合規(guī)則7),進行懲罰后就從潛在地名鏈中過濾掉。5.因公的地名/hs和實理s設進行識別的句子切分序列為:W=W1W2W…Wk-1WkWk+1…,其Wk中為識別出來的地名SP。定義地名SP的接續(xù)可信度為:Ρw(SΡ)=(ω×[Ρw(Wk-1)Ρ′w(Wk)Ρw(Wk+1)]■+(1-ω)×[Ρb(?Wk-1?SΡΝAΜE?)Ρb(?SΡΝAΜE?Wk+1?)]■×(1+Ρap(SΡ))(5)其中:Wk-1和Wk+1分別為地名SP兩邊的詞,當?shù)孛诰涫?句尾)時,Wk-1(Wk+1)按標點符號對待。ω為平衡地名構(gòu)詞可信度和單詞頻度與雙詞接續(xù)頻度可比性系數(shù)。因為地名的用詞比較松散,經(jīng)過測試,發(fā)現(xiàn)雙詞接續(xù)頻度和單詞頻度對它的影響不大,所以,ω取值為0.5。Pw(Wk-1),Pw(Wk+1)分別為單詞Wk-1,Wk+1在Unigram中的單詞頻度。P′w(Wk)為公式(4)計算出來的SP地名構(gòu)詞可信度。Pb(〈Wk-1,SPNAME〉),Pb(〈SPNAME,Wk+1〉)為在Bigram詞典中,地名和Wk-1,Wk+1的前后接續(xù)頻度。Pap(SP)為地名接續(xù)評價系數(shù),用來描述潛在地名與它上下文之間的關系。是通過真實語料中地名上下文獲得,通過規(guī)則的形式描述出來的。在(-0.9—1)之間取值,也分為兩類:獎勵規(guī)則1)潛在地名的前(后)面是潛在地名或其它已識別出來的專有名詞。2)如果潛在地名的前(后)面是表示并列關系的詞或標點符號。3)潛在地名的前詞是可能前詞,且可能前詞和它前面的詞構(gòu)成短語,如“西|起|~嘉峪關~|”?!白遼上|~踏水鄉(xiāng)~|的|路”懲罰規(guī)則4)并列關系中的潛在地名一個已經(jīng)被否決,另一個潛在地名的接續(xù)可信度要受懲罰。5)如果潛在地名以“原”或“任”等既可以做地名首字,又可以做地名前詞的高頻詞作為首字,且其離潛在地名特征詞距離較遠(大于2個漢字的距離)。6)如果潛在地名的首字和潛在地名前詞的接續(xù)頻度比較高,潛在地名前詞在Bigram詞典中有和地名的接續(xù),并且和潛在地名首字接續(xù)頻度較高。四、潛在地名鏈的計算(1)初始化。對輸入文本按常規(guī)切分得到單詞序列W1。(2)從右向左掃描該單詞序列,根據(jù)SpNameSpecialWord詞表、SpNameChar詞表、Unigram與Bigram詞典建立潛在地名鏈。(注意:一個句子可能不只包含一個中文地名,且隨著中文地名邊界如前詞或特征詞的取法不同,可能存在多個相互交叉的潛在地名)(3)根據(jù)公式(4)計算每一個潛在地名的構(gòu)詞可信度P′w(SP)。(4)掃描潛在地名鏈,當潛在地名的構(gòu)詞可信度P′w(SP)<α時,則從將該潛在地名從地名鏈中刪除(這里的α為潛在地名的閾值)。(5)依據(jù)公式(5)計算地名接續(xù)可信度Pw(SP),對地名鏈中的潛在地名按接續(xù)可信度降序排列,依次取出潛在地名,刪除排在它后面并與其交叉的潛在地名。(6)對連在一起的多個地名進行合并。重新建立含地名識別的單詞切分序列W2。五、測試結(jié)果及分析我們從學習語料中隨機抽取了含有1567個地名的1100句子為閉式測試集,又從2000年《人民日報》光盤版(含經(jīng)濟、政治、時事、文藝,體育等題材)中隨機抽取了含有1908個地名的1200句子為開式測試集。為了更好在測試中反映系統(tǒng)的性能,閉式1100句中有100句是地名特征詞作為普通用詞出現(xiàn)的,開式1200句中也有150句的地名特征詞是作為普通用詞出現(xiàn)的。測試結(jié)果如表1:表2給出了閾值α取不同值時,地名識別的精確率與召回率的變化情況。從表2中可以看出,閾值α越大,精確率越高,但召回率降低,根據(jù)實際系統(tǒng)的需要,我們?nèi)ˇ翞?.002。表3為地名識別正確的結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論