中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)_第1頁
中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)_第2頁
中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)_第3頁
中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)_第4頁
中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)    中文全文信息檢索系統(tǒng)中索引項技術(shù)及分詞系統(tǒng)的實現(xiàn)         摘要:本文對中文全文檢索系統(tǒng)中常用的索引項技術(shù)n元語法,字,n元語法,詞進行了介紹并討論了其各自的特點。然后著重介紹了以詞為索引項的方法及全文檢索中的漢字分詞問題。最后給出了一種混合型最大匹配分詞算法。 關(guān)鍵詞:信息檢索 中文信息處理 分詞 the indexing term technology of chinese information retrie

2、val and implement of segmentation system  abstractthe paper discuss the technology of indexing term ,such as n-gray , character, word ,used in chinese information retrieval . we also introduce the method of using word as indexing term and the problem of segmentation ,then paper presents a mix m

3、ax match algorithm. 1 引言在全文信息檢索系統(tǒng)中,索引項的選擇是一個基本的,也是非常重要的問題。對輸入的文檔及用戶查詢要做的第一件事就是將它們分解為索引項的集合,然后才有可能計算出查詢與文檔的相關(guān)度。在英文的全文信息檢索系統(tǒng)中,將查詢及文檔分解為索引項集合是件非常簡單的事因為通常選用詞為索引項, 而英文中詞與詞之間存在分隔符(如空格)。對中文全文信息檢索系統(tǒng)來說將查詢及文檔分解為索引項集合就復(fù)雜些。首先要確定以什么單位為索引項,是以字,詞還是短語為索引項?現(xiàn)有的研究中大部份認為應(yīng)以詞為索引項。這是因為首先以詞為單位比較符合人的自然思維習(xí)慣,其次以詞為索引項就可以借用英文全文

4、檢索系統(tǒng)中已有的理論及方法。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁         以詞為索引項,就要進行分詞,也就是將由漢字組成的連續(xù)字符串分解為詞的集合,要進行正確的分詞不是一件十分容易的事,首先在中文中字與之間,詞與詞之間是不存在分隔符的,因此分詞一般都要借助詞典來進行,而中文的構(gòu)詞非常靈活,詞的數(shù)目幾乎是無限的,因此要構(gòu)造完備的詞典是不可能的。為了克服以詞為索引項所帶來的困難,人們提出了一些別的方法如以字

5、為索引項,以二元,三元語法為索引項等。 本文首先對各種類型的索引項技術(shù)作簡單介紹,分析它們應(yīng)用于中文檢索中的優(yōu)缺點,然后著重討論以詞為索引項時的分詞系統(tǒng)的設(shè)計及實現(xiàn)。 2 索引項及中文文本的表示方式 2.1 字 使用字為索引項是最簡單的方法,將文本分解為索引項時非常容易實現(xiàn)。按照gb2312的規(guī)定共有6763個漢字。這樣索引集合就非常小,最大不會超過6763。在這一點上與其它索引項技術(shù)(如詞,n元語法)相比優(yōu)點是非明顯的。但以字為索引單位也有其明顯的缺點。首先是匹配的準(zhǔn)確性不高,例如用戶的查詢?yōu)?"識別",而某文檔中存在 "

6、你是否還認別的人?" 這樣一句話。則基于字的檢索方法則會認為該查詢與文檔是相關(guān)的。其次在中文中同一概念可以有多種表達方式如 "中文","漢語","國語"?;谧值臋z索方法是無法處理這類問題的。  2.2 n元語法 在全文檢索中常用的為二元及三元語。二元語法的思想為將文本中所有相鄰漢字均作為索引項,這樣前一個索引項的后一個字與下一索引項頭個字是相同的。例如有一個字符串c1c2c3c4c5,則由它生成的索引項為c1c2,c2c3,c3c4,c4c5。三元語法的思想與二元語法相同,差別僅為三元語法的索引項由三個

7、字構(gòu)成,例如對上面的字符串由其生成的三元語法索引項為c1c2c3,c2c3c4,c3c4c5。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁         同樣n元法的優(yōu)點為將文本分解為索引項集合是十分容易的。但其索引空間是十分巨大的。使用n元語法同樣也會使系統(tǒng)無法利用語言學(xué)知識。 2.3 詞 目前大多數(shù)研究者認為中文全文檢索也應(yīng)以詞為索引單位。也就是索引項應(yīng)該為中文的詞。這樣做的好處是十分明顯的。

8、首先符合人的習(xí)慣,有利于提高查詢的準(zhǔn)確性,也便于系統(tǒng)利用語言學(xué)知識。如果要進一步設(shè)計跨語種查詢系統(tǒng)則非要以詞為索引項不可。但使用詞為索引項則應(yīng)先解決好分詞問題。 3. 一種混合型正向最大匹配算法 中文分詞問題的研究己有二十多年歷吏。其間己提出了多種分詞算法??偟膩碚f這些算法可分為四大類。第一類為基于詞典的機械分詞算法。第二類為基于統(tǒng)計的分詞算法。第三類為第一類和第二類的混合型分詞算法。第四類為基于知識的分詞專家系統(tǒng)。 但各種分詞算法均有其適用領(lǐng)域,針對全文檢索中文檔數(shù)量大,要求速度快的特點。我們設(shè)計了一個混合型正向最大匹配算法,該算法可利用規(guī)則及字頻信息來處理分詞

9、中的歧義并使用了三詞塊方法1。為加快分詞過程中詞的查找速度,按首字索引結(jié)構(gòu)對詞典進行了組織。 3.1 三詞塊及處理歧義的規(guī)則 三詞塊是一種處理分詞歧義的方法。分詞中遇到歧義時(假設(shè)有一字符串c1c2c3c4c5c6,當(dāng)前處理到漢字c1,且c1為詞c1c2也為詞),則向前多找兩個詞,這種由三個詞組成的串稱之為三詞塊。處理中我們將找出所有可能的三詞塊并且認為具有最大長度的三詞塊是最有可能的分詞。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁    

10、60;    假設(shè)有字符串c1c2c3c4c5c6,且c1,c1c2均為詞并有如下一些可能的三詞塊。1 c1 c2 c3c42 c1c2 c3c4 c53 c1c2 c3c4 c5c6具有最大長度的詞塊為第三個。這樣我們就認為第三個詞塊中的c1c2為正確的分法。取其為詞。從c3外再次開始進行分詞,一直到字符串結(jié)束。 我們所設(shè)計的分詞算法以正向最大匹配算法為框架。分詞過程中遇到歧義時則應(yīng)用下例規(guī)則加以解決。 規(guī)則1具有最大長度的詞塊的第一個詞為正確分詞。 規(guī)則2 如具有最大長度的詞塊不唯一則尋找具有最小詞長變化的三詞塊。該規(guī)則的隱含假設(shè)為在文檔中詞長是均勻分布的。 例如: 1 研究 生命 的 起源 2 研究生 命 的 起源 按規(guī)則選取塊1中的"研究"為正確分詞。 規(guī)則3 當(dāng)具有最大長度的詞塊不唯一并且有相同的詞長變化則具最大平均詞的塊中的第一個詞為正確分詞。該規(guī)則的隱含假設(shè)為遇到多字詞的概率大于遇到一字詞的概率。該規(guī)則僅當(dāng)某些詞塊由一個或二個詞構(gòu)成時才有用。 規(guī)則4 當(dāng)前面規(guī)則均不能確定選取那詞塊時,則分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論