轉漢語分詞的主要技術及其應用展望_第1頁
轉漢語分詞的主要技術及其應用展望_第2頁
轉漢語分詞的主要技術及其應用展望_第3頁
轉漢語分詞的主要技術及其應用展望_第4頁
轉漢語分詞的主要技術及其應用展望_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、轉 漢語分詞的主要技術及其應用展望1轉漢語分詞的主要技術及其應用展望12011-05-13 09:41一、漢語自動分詞的提出詞具有語音、語義和結構三大特征,其語義特征表現(xiàn)在必須具備一定的意義,表明客觀現(xiàn)實中的某一事物的性質、特征、行為和關系等,沒有意義的詞是不存在的。詞里包含有兩種不同性質的意義:詞匯意義和語法意義。詞的結構特征表現(xiàn)在詞在結構上是一個不可分割的整體,其意義不是它的幾個構成成分(如果存在的話)的意義的簡單總和。人們在閱讀時,大腦有一個模糊的分詞過程,它是與視覺到聲音的轉換和語義理解交叉或同時進行的,并以語感的形式體現(xiàn)出來,由于文化修養(yǎng)和知識水平的差異,不同的人對詞和非詞,詞和詞組

2、的預感差別很大。因而人工分詞的同一性得不到保證。北京航空學院曾做過一個實驗,三十余個具有高中文化水平的青年對五百字的一個語言材料人工分詞,同一率只有50%左右。在大篇文字材料處理時,人工分詞不僅速度慢,長時間單調枯燥工作也使錯誤切分次數(shù)大大增加。這些都表明人工分詞不能滿足漢字處理現(xiàn)代化的要求,但要對書面漢語實現(xiàn)計算機自動分詞,并非易事,這與漢語特性有很大關系。與印歐語系相比,現(xiàn)代漢語至少在四個方面于分詞不利:第一,漢語的詞不分寫,而且詞無明確的形態(tài)標志,這給計算機進行漢語的詞法分析帶來一大障礙。其次,漢語是一種無形態(tài)變化的分析型語言,缺乏明顯的句法形式標記,其語法主要靠虛詞和不同的詞序來實現(xiàn)。

3、第三,漢語的形態(tài)不發(fā)達,增加了語言的表層結構對語義的依賴性,所以,漢語句子成分的語法作用強烈依賴于該成分的意義。第四,漢語構詞具有極大的靈活性和自由性。只要詞匯意義和語言習慣允許,就能組合起來,沒有限制。如果在自動分詞處理時,既不進行語法分析,也不進行語義理解,只是機械的匹配比較,那很容易實現(xiàn),但必然會出現(xiàn)許多錯誤切分,而要提高分詞精度,就必須進行語法分析和語義理解,于是就引發(fā)了一系列耐人尋味的問題。漢語詞自動切分是計算機中文信息處理的第一步,也是計算機科學界、語言文字學界以及信息管理學界所面臨的挑戰(zhàn)性難題,這一瓶頸的解決是計算機自然語言理解、人工智能、信息檢索、機器翻譯和自動文摘等領域突破的

4、關鍵,長期以來一直困擾著這一研究領域的許多專家學者。盡管漢語詞自動切分研究已經(jīng)取得了可喜的進展,但是在漢語詞的規(guī)范、自動分詞算法突破、切分歧義處理、自然語言理解和人工智能等諸多領域還存在著難以克服的阻礙,仍需要多個學科領域的專家學者們通力協(xié)作,才能獲得新的突破。二、現(xiàn)有的分詞方法為了克服漢語詞計算機自動切分這一難題,許多年來,大量的學者都加入了這一領域的研究,使?jié)h語自動分詞取得了豐碩的研究成果。近年來,語言學界、人工智能領域和情報檢索界的學者們,在漢語自動分詞與自動標引的研究與實踐上進行了大量的研究,找到了許多解決漢語分詞的方法,歸納起來有最大匹配法、逆向最大匹配法、逐詞遍歷法、設立切分標志法

5、、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想-回溯法、雙向掃描法、鄰接約束法、擴充轉移網(wǎng)絡分詞法、語境相關法、全自動詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡的分詞方法等22種。歸納起來,目前國內公開報道過的分詞系統(tǒng)采用的分詞方法主要有三種類型機械分詞法。機械分詞法主要有最大匹配法(MM法、逆向最大匹配法(RMM、OMM、IMM)、逐詞匹配法、部件詞典法、詞頻統(tǒng)計法、設立標志法、并行分詞法、詞庫劃分和聯(lián)想匹配法等。語義分詞法。語義分詞法引入了語義分析,對自然語言自身的語言信息進行更多

6、的處理,如擴充轉移網(wǎng)絡法、知識分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、約束矩陣法、語法分析法等。人工智能法。又稱理解分詞法,人工智能是對信息進行智能化處理的一種模式,主要有兩種處理方式一種是基于心理學的符號處理方法。模擬人腦的功能,像專家系統(tǒng)。即希望模擬人腦的功能,構造推理網(wǎng)絡,經(jīng)過符號轉換,從而可以進行解釋性處理。一種是基于生理學的模擬方法。神經(jīng)網(wǎng)絡旨在模擬人腦的神經(jīng)系統(tǒng)機構的運作機制來實現(xiàn)一定的功能。以上兩種思路也是近年來人工智能領域研究的熱點問題,應用到分詞方法上,產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡分詞法。這些方法又大體上可分為兩類一類是基于規(guī)則的,大多數(shù)中文分詞方法

7、都屬此類;一類是基于語料庫的,如神經(jīng)網(wǎng)絡分詞法部分的屬于此類?;谝?guī)則的分詞算法的計算模型均是概率論中的馬爾可夫過程又稱元語法、隱馬爾可夫過程和通信中的信道噪聲模型。但無論是馬爾可夫過程還是信道噪聲模型,最后都歸結為計算詞頻的統(tǒng)計信息,串頻和互信息是詞頻的另一種表現(xiàn)形式。但遺憾的是自然語言遠不是一個經(jīng)過事先精心規(guī)劃的系統(tǒng),難以用一套完整的規(guī)則去準確地預測正式漢語文本中所出現(xiàn)的各種變異。1.最大匹配法(MM)這種方法又稱5-4-3-2-1查詞法,最長匹配法,回巡檢索法,其基本思想是:假設自動分詞詞典中的最長詞條所含漢字個數(shù)為i,則取被處理材料當前字符串序列中的前i個字作為匹配字段,查找分詞詞典,

8、若詞典中有這樣一個i字詞,則匹配成功,匹配字段作為一個詞被切分出來,如果詞典中找不到這樣的一個i字詞,則匹配失敗,匹配字段去掉最后一個漢字,剩下的字符作為新的匹配字段,再進行匹配,如此進行下去,直到匹配成功為止。有專家統(tǒng)計過,MM法的錯誤切分率為1/169。2.逆向最大匹配法(RMM)這種方法的分詞過程與MM法相同,不過是從句子(或文章)末尾開始處理,每次匹配不成功時去掉的是前面的一個漢字。據(jù)說RMM方法的分詞精度比MM法要高,其錯誤切分率是1/245。3.逐詞遍歷法把詞典中的詞按由長到短遞減的順序逐字搜索整個待處理材料,一直到把全部詞切分出來為止。不論分詞詞典多大,被處理材料多么小,都得把整

9、個分詞詞典匹配一遍。上述三種方法思路清楚,易于機器實現(xiàn),但由于是把詞典作為判詞得唯一標準,忽略了漢語詞匯得靈活多變性,因而局限性大,出錯率高,拒分現(xiàn)象嚴重,時間復雜度高,這是它們不能被單一采用得最主要原因。4.設立切分標志法切分標志有自然和非自然之分。自然切分標志是指文章中出現(xiàn)得非文字符號,如標點符號等。非自然標志是利用詞綴和不構成詞得詞(包括單音詞,復音節(jié)詞以及象聲詞等)。設立切分標志法首先收集眾多得切分標志,分詞時先找出切分標志,把句子切分為一些較短得字段,然后用MM、RMM或其他方法進行細加工。這種方法并非真正意義上得分詞方法,只是自動分詞得一種前處理方式而已,它要額外消耗時間掃描切分標

10、志,增加存貯空間存放那些非自然切分標志。5.最佳匹配法(OM)此法由北京航空航天大學提出,分為正向得最佳匹配和逆向得最佳匹配法。其出發(fā)點是:在詞典中按詞頻的大小順序排列詞條,以求縮短對分詞詞典的檢索時間,達到最佳效果,從而降低分詞的時間復雜度,加快分詞速度。實質上,這種方法也不是一種純粹意義上的分詞方法,它只是一種對分詞詞典的組織方式。OM法的分詞詞典每條詞前面必須有指明長度的數(shù)據(jù)項,所以其空間復雜度有所增加,對提高分詞精度沒有影響,分詞處理的時間復雜度有所降低。6.有窮多層次列舉法其基本思路是:把待處理材料中標點符號區(qū)分的語言片斷作處理對象,先處理不用查詞表的具有特殊標志的字符串,如阿拉伯數(shù)

11、字,拉丁字母等,然后用環(huán)境詞表確定屬于15類可列舉的詞,即先判斷一個詞能否組成多音詞,如五音詞,四音詞,三音詞,雙音詞,最后確定是否為單音詞,這樣便把一個個語段化分成較小語段。這實際上是切分標志法的一種變形方法。7.二次掃描法其基本思想是:取待處理材料中兩個切分標志之間的部分作為樣本串,檢查分詞詞典中是否有一個詞,它的前兩個漢字和該樣本串相同,若有的話,則取樣本串的前三個漢字作為匹配串,重新在分詞詞典中找以匹配串為子串的詞,若有,則重復下去,直到進行到i個漢字為止,(設i為分詞詞典中最長詞所含漢字的個數(shù)),則切分出一個i字詞;若沒有,則完成一次掃描;把匹配串的最后一個漢字去掉,作為新的匹配串,

12、進行第二次掃描,第二次掃描用RMM或MM法進行。8.高頻優(yōu)先分詞法這種方法基于詞頻統(tǒng)計、字與字之間構詞結合力和歧義切分等現(xiàn)象的分析而提出。它不是純粹意義上的機械分詞方法,而是在分詞過程中處理歧義字段的一種方式,例如,AB、BC是兩個詞,如果BC的頻度比AB大,則ABC這一歧義字段應切分為A/BC。該方法的一個明顯缺點是頻度較低的詞,永遠被錯誤切分。如果僅考慮當前正在處理文本中的詞頻的話,將會得到良好效果,問題是如何得到當前正在處理文本的詞頻。這種方法增加分詞的空間復雜度,低頻詞的錯誤切分難以克服,目前尚未見成功的報道。9.基于期望的分詞法該法是基于漢語語法及語用規(guī)律以及人們語言習慣而提出,它認

13、為一個詞的出現(xiàn)對于它后面緊相隨的詞有一種期望。當然是期望大的詞優(yōu)先,分詞時根據(jù)期望,到期望值較大的詞所在的詞庫中找出所對應的詞,從而切分出相對應的詞。這種方法增加了分詞的時空復雜度,但在一定程度上提高了分詞的精度。目前該法仍處于理論探討階段。10.聯(lián)想-回溯法其基本做法是:首先將待切分的漢語言文本,依據(jù)特征庫分割為若干子串,每個子串為詞或詞群(幾個詞組合而成的線性序列),然后再用實詞庫和規(guī)則庫將詞群細分為詞。這種方法實際上采用了設立切分標志法和有窮多層次列舉法的思想,由于實行分級建庫,故增加了分詞的空間復雜度,把分詞過程分解成分割和細分兩個過程,使得分詞的時間復雜度增大。它能提高分詞精度,具備

14、可行性,已在機器上實現(xiàn)。11.雙向掃描法該法重點是放在檢錯和糾錯上,基本做法是將正向掃描(MM)和逆向掃描(RMM)的結果相比較,一致的部分認為是正確的,不一致的部分(稱為疑點)則采用人工干預、記頻算法或上下文相關信息選取一種切分。這種方法對于正、逆向掃描結果一致而被認為正確但實際上切分不正確的字段(例如結合成分子時)沒有強有力的處理手段。時間復雜度比單向掃描至少增加一倍。其分詞詞典必須同時支持正逆兩種順序的檢索,詞典結構無疑是比較復雜的,或者要設立兩種結構的詞典。此方法可作為一種檢查歧義字段的方法,但其效果尚不如詞尾字構詞法。12.鄰接約束法這種方法是利用自然語言中的鄰接約束排除不合適切分以

15、提高分詞精度。由于漢語句法語義或習慣用法的限制,或人們?yōu)榱吮苊庠斐砷喿x上的困難,相鄰詞語之間有一種約束關系,例如那里不能切分成那/里。漢語中某些單詞在句法結構中不擁有或只能條件擁有某些固定位置(如句子或片段的開頭或結尾等),不同類型的單詞之間具有特定的約束(如副詞、助動詞一般不后接名詞等),某些單音動詞只在特定文體或格式中出現(xiàn)(如知一般不單獨出現(xiàn)),等等,這些語言現(xiàn)象可以用來解決部分歧義切分問題。13.擴充轉移網(wǎng)絡分詞法本世紀六十年代末由J.Thome等提出運用狀態(tài)轉移網(wǎng)絡分析自然語言的思想,1970年由W.A.Woods等在前人工作的基礎上提出了擴充轉移網(wǎng)絡(ATN),ATN以有限狀態(tài)機的概

16、念為基礎,用ATN來組織詞典就可以構成一個動態(tài)詞典,它可以帶來靜態(tài)詞典所沒有的好處,它能處理只作為詞頭或詞尾的定位字,區(qū)分詞鏈字串或非詞鏈字串,并使分詞處理和語言理解的句法處理階段的交互成為可能。14.語境相關法這是一種基于擴充轉移網(wǎng)絡(ATN)以知識和理解為基礎的分詞方法,它是通過將詞典組織成為ATN結構,分詞知識分散化,分詞處理與句法語義處理并行等手段,能夠處理現(xiàn)有種種分詞方法所不能處理的詞鏈現(xiàn)象,并實現(xiàn)分詞與理解的并行。該法的基本思想是:系統(tǒng)從左向右掃描句子(漢字串),對于文本中的非詞鏈部分,它按最大匹配原則,選出與文本當前位置匹配的最長的詞;對于詞鏈,分兩個步驟作出切分,第一步是從左到

17、右掃描句子,碰到詞鏈即把切分此詞鏈的分詞知識(字或字串的成詞條件)放到棧工作區(qū)中;第二步是從右向左掃描句子(此時句子是一個詞或詞鏈的序列),對詞或詞串作句法語義分析,分析結果放到公共數(shù)據(jù)區(qū)中供分詞使用。碰到詞鏈,運行棧工作區(qū)中的過程,切分次詞鏈,直至棧工作區(qū)為空。據(jù)稱該法已用語構造一個專家系統(tǒng)的漢語人機接口。與此法類似,有人還提出一種基于分詞和理解并行處理的PTCUS分詞法,它與語境相關法不同之處在于:PTCUS的方法對于句子中的詞鏈,不是先跳過去,而是利用當前可用的動態(tài)句法語義結構信息,進行試探性切分(詞的生成),然后進行多種測試。詞的生成和測試過程是分時并行的。測試過程同時也是一個句法語義

18、分析過程,它可產(chǎn)生句子的語義格結構。15.全自動詞典切詞該法完全使用切詞規(guī)則切詞,規(guī)則中的參數(shù)由詞典提供,包括形式參數(shù),語法參數(shù),語義參數(shù),上下文參數(shù)等,如語法參數(shù),在第一遍掃描中(字與字的組合)中可規(guī)定:名名相聯(lián),動動相聯(lián),形名相聯(lián),動副不聯(lián)等。上下文參數(shù):根據(jù)上下文語義不同區(qū)分字和詞,如把字可作動詞(把著門),名詞(把柄),介詞(把東西取出來),量詞(兩把刀)等,不同的詞根有不同的上下文。16.基于規(guī)則的分詞法這是一種機械切分與語義校正相結合的方法。它包括建立絕對切分標志符表,變長度最大匹配法,2-3-1優(yōu)先規(guī)則集,固有歧義切分校正法等。其分詞算法為:1讀入字符串文本;2第一次掃視,根據(jù)絕

19、對切分標志符表,掃視文本,添加絕對切分標志;3計算兩個間字段長度M及取領頭字詞長N,若M N,則K=M;否則K=N;4若K=4,則轉下一步,否則轉第6步;5第二次掃視(變長度最大匹配法),取長度為K的最大匹配法,對4及4以上字詞進行匹配;6按2-3-1優(yōu)先規(guī)則進行機械分詞;7若有歧義切分標志,作第三次掃視,執(zhí)行語義校正算法,進行校正,否則轉出口。值得一提的是,在這種自動分詞法中,專門設計提供了規(guī)則描述語言(RDL),用以書寫和裝入歧義切分校正規(guī)則。該法已在機器上實現(xiàn)。17.多遍掃描聯(lián)想法這是一種組合方法,其基本做法是:首先用切分標志法把文本切分成若干子串,它也分成兩步,先是用自然切分標志對文本

20、進行預處理,然后用非自然標志結合聯(lián)想庫對文本進行分割;其次,利用實詞詞庫和聯(lián)想庫再將詞群細分為詞。分詞時,利用語法知識特別是詞法知識,聯(lián)想和回朔機制同時作用于分割和細分兩個階段,旨在有效解決歧義組合結構的切分問題,同時兼有自動糾錯功能。該方法需要分級建庫,分別建造特征詞詞庫,實詞詞庫和聯(lián)想規(guī)則庫。18.部件詞典法詞典法的一大問題是冗余度高,且難窮盡所有詞。上海交大提出部件詞典的概念.部件系指構成詞的獨立單元,故可分為詞首、詞尾和詞干等若干類部件,詞部件有點像詞素,但它本身也可是詞或詞組,以存儲部件來代替存儲原詞。這樣,電腦中存儲的不是所有的中文詞,而是所要用到的詞1-3字的詞部件以及由這些部件組詞的部分信息。上海交大利用這種部件詞典,成功對全國報刊索引中的計算機類文獻標題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論