版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章文本信息檢索
技術與方法文本是一種極其重要的信息和知識交流媒介。從遠古時期的象形文字開始,人類社會已發(fā)展和創(chuàng)造了各種形式的文字和語言系統。自計算機誕生以來,各種文本數據一直是其處理和加工的主要對象,信息檢索領域也不例外。1PPT課件3.1文本信息概述3.1.1文本信息的基本知識一、文本的概念文本是基于一定的語言符號系統而形成的一個有限符號序列符號是不能再分割的記號單位,如數字符號、字母符號、標點符號等2PPT課件3.1文本信息概述符號表是有限個任意符號組成的非空集合,符號表中的元素即是“符號”,如由所有漢字組成的集合,由所有英語詞匯組成的集合等符號串是指由符號表中的符號組成的長度有限的序列。例如,如果符號表是漢語中所有詞匯的集合,那么,任何漢語句子和短語都是該符號表上的符號串這樣我們就可以將文本定義為某符號表上的符號串的集合3PPT課件二、文本的信息量假設在某一給定的文本片段中共出現有δ個符號,而在該文本段中每個符號的出現概率為pi(i=1,2,…,δ),則該段文本的信息熵定義為:熵的單位是比特例:在某一文本片段中,取δ=16,每個符號以等概率方式出現,則該段文本的信息熵為4比特4PPT課件三、文本文檔的格式與編碼當把文本信息輸入、存放在計算機存儲器中,通常需要結合具體應用任務來指定一定的文檔格式。常用的文檔格式:TXT、RTF、DOC、PDF、MIME、…ARJ、ZIP…5PPT課件3.1.2、自然語言文本中詞匯的頻率與數量分布規(guī)律在基于某種自然語言系統的文本文檔集合中,詞匯的出現頻率和數量是有一定規(guī)律的。6PPT課件一、詞匯的頻率與齊普夫分布模型詞的出現頻率和按照頻率高低降序排列后產生的詞的序號是一個頻率詞典的兩個最基本的數量指標。7PPT課件齊普夫分布模型齊普夫定律即在一個給定的文本文檔集合中,如果將所有單詞按照其出現頻率遞減排列,并用自然數依次給單詞賦予等級序號1、2、3、…,那么,單詞頻率與其等級序號的乘積為一個常數,其數學表達式為
fr=C
或者f=C/r
上式中f為某個單詞的出現頻率,r為該單詞的等級序號,C為常數。8PPT課件齊普夫分布模型詞頻的齊普夫分布模型9PPT課件齊普夫分布模型齊普夫定律的更普遍形式或者上式中的參數因學科樣本等不同而有所變化,其取值范圍約在1.5-2之間對于文本信息檢索來說,齊普夫定律在詞表編制、自動標引、倒排文檔組織等方面有比較重要的理論指導價值10PPT課件二、詞匯的數量與Heaps分布模型在文本文檔集合中,不僅詞匯的頻率分布具有顯著的規(guī)律性,詞匯的數量及其增長變化也表現出一定的規(guī)律性。為了預測自然語言文本中詞匯的增長變化,研究人員提出了Heaps模型該模型認為,在一個長度為n個詞的文本片段中,它的詞匯量V與n之間具有以下關系K通常取10-100,則是小于1的正實數11PPT課件二、詞匯的數量與Heaps分布模型詞匯量的Heaps分布模型12PPT課件3.2、布爾檢索布爾檢索主要以索引文檔為基礎,通過布爾邏輯運算符對檢索詞進行組配,形成檢索提問式,進而以此提問式為匹配依據完成對索引文檔的匹配處理并獲取查詢結果13PPT課件14PPT課件15PPT課件3.2.1布爾邏輯運算符號及其使用一、布爾邏輯運算符及其運算含義布爾邏輯運算符是構造用戶檢索提問式的一組主要連接組配符號,主要包括:邏輯或(OR)邏輯與(AND)邏輯非(NOT)16PPT課件邏輯或(OR)也稱為“析取聯接詞”,形式上還可以寫作“+”檢索詞A和檢索詞B若用“OR”組配,則檢索提問式可表示為
AORB或者A+B17PPT課件邏輯或(OR)
邏輯或(XOR)運算的文氏圖表示18PPT課件邏輯或(OR)例如,研究網絡搜索引擎的用戶,對有關Google、Excite、百度的文獻信息都比較感興趣,就可以使用“OR”構造如下的提問檢索式:
GoogleORExciteOR百度19PPT課件邏輯或(OR)對于檢索提問式“AORB”,假設檢索詞A的所有命中文檔有m篇,檢索詞B的所有命中文檔有n篇,“AORB”的所有命中文檔有s篇,則:當A與B不相關時,s=m+n;當A與B有一定相關性時,s<m+n;當A與B密切相關時,s=Max(m,n);綜合以上三種情況,有
Max(m,n)≤s≤m+n20PPT課件邏輯與(AND)也稱為“合成聯接詞”,形式上還可以寫作“*”檢索詞A和檢索詞B若用“AND”組配,則檢索提問式可表示為
AANDB或者A*B21PPT課件邏輯與(AND)
邏輯與(AND)運算的文氏圖表示22PPT課件邏輯與(AND)例如,研究網絡搜索引擎的用戶,對同時出現Google、Excite、百度的文獻信息比較感興趣,就可以使用“AND”構造如下的提問檢索式:
GoogleANDExciteAND百度23PPT課件邏輯與(AND)對于檢索提問式“AANDB”,假設檢索詞A的所有命中文檔有m篇,檢索詞B的所有命中文檔有n篇,“AANDB”的所有命中文檔有s篇,則:當A與B完全無關時,s=0;當A與B有一定相關性時,
0<s<m或者0<s<n;當A與B密切相關時,s=Min(m,n);綜合以上三種情況,有
0≤s≤Min(m,n)24PPT課件邏輯非(NOT)也稱為“否定聯接詞”,形式上還可以寫作“-”檢索詞A和檢索詞B若用“NOT”組配,則檢索提問式可表示為
ANOTB或者A-B25PPT課件邏輯非(NOT)
邏輯非(NOT)運算的文氏圖表示26PPT課件邏輯非(NOT)例如,查找云南大學的相關信息,但不想了解云大附中的信息,就可以使用“NOT”構造如下的提問檢索式:云南大學NOT云大附中27PPT課件邏輯非(NOT)對于檢索提問式“ANOTB”,假設檢索詞A的所有命中文檔有m篇,檢索詞B的所有命中文檔有n篇,“ANOTB”的所有命中文檔有s篇,則:當A與B完全無關時,s=m;當A與B有一定相關性時,s<m當A與B密切相關時,當m>n時,則s=m–n,當m<n,則s=0綜合以上三種情況,有
0≤s≤m28PPT課件布爾邏輯運算符的使用說明運算規(guī)則同級運算自左向右進行布爾運算AND和NOT先執(zhí)行,OR次之當檢索提問式含有截詞符、位置算符、限制符時,布爾運算最后執(zhí)行先括號內,后括號外,具有多層括號時,按層次從內到外逐層進行29PPT課件3.2.2布爾邏輯檢索提問式的變換處理在以布爾模型為概念基礎的信息檢索系統中,檢索軟件需要對用戶輸入的布爾邏輯提問式進行必要的加工和編輯,以滿足后續(xù)的檢索處理要求。通常,我們在書寫算術(邏輯)表達式時,總是把運算符放在兩個運算項的中間,如“A加上B求和,再乘以C”可以寫成(A+B)*C30PPT課件31PPT課件3.2.2布爾邏輯檢索提問式的變換處理表達式對應的二叉樹結構示意圖32PPT課件3.2.2布爾邏輯檢索提問式的變換處理一般(中綴)表示法 中序遍歷二叉樹:(A+B)*C正波蘭(前綴)表示法前序遍歷二叉樹:*+ABC逆波蘭(后綴)表示法后序遍歷二叉樹:AB+C*33PPT課件3.2.2布爾邏輯檢索提問式的變換處理例:A+B*(C+D)
正波蘭表示法:+A*B+CD
逆波蘭表示法:ABCD+*+(A+B)*(C+D)
正波蘭表示法:*+AB+CD
逆波蘭表示法:AB+CD+*34PPT課件3.2.2布爾邏輯檢索提問式的變換處理準波蘭變換法檢索提問式的準波蘭法處理算法:創(chuàng)建檢索提問式的二叉樹表示比較二叉樹中每一層次上的左、右子樹是否對稱。如不對稱,把大的一枝保留或調到左邊,小的一枝保留或調到右邊,直到全部節(jié)點的左、右子樹都這樣處理完為止后序遍歷該二叉樹,節(jié)點的輸出序列即為檢索提問式的準波蘭式35PPT課件3.2.2布爾邏輯檢索提問式的變換處理例:A+B*(C+D)逆波蘭表示法:ABCD+*+準波蘭表示法:CD+B*A+36PPT課件3.3截詞檢索截詞檢索是基于布爾檢索框架的一種常用聯機檢索技術,尤其是西方語言文本檢索中,更是廣泛使用。西方語言的一個共同特點是:構詞靈活,在詞干上加上不同性質的前綴(或后綴),就可以派生出很多新的詞匯。37PPT課件3.3截詞檢索截詞,是指檢索者將檢索詞匯在他認為合適的地方截斷截詞檢索,是指使用被截斷的詞匯進行檢索匹配,并認為凡滿足這個詞局部中的所有字符(串)要求的記錄,都為命中結果按照截斷的位置,分為:后截斷、前截斷、中截斷按照截斷的字符數量,分為:有限截斷、無限截斷38PPT課件一、后截詞檢索將截詞符號置放在一個字符串右方,以表示其右邊的有限或無限個字符不影響該字符串的檢索匹配。例:檢索提問式“brows*”是一個無限后截詞的例子,可能檢索出來的詞匯有
browsebrowserbrowsablebrowsersbrowsedbrowsing…39PPT課件一、后截詞檢索不難看出,后截詞檢索具有隱含的“邏輯或”(OR)運算特性,上例中的檢索提問式等價于下面的檢索提問式:browseORbrowserORbrowsersORbrowsing…40PPT課件一、后截詞檢索例:檢索提問式“acid??”是一個有限后截詞的例子,可能檢索出來的詞匯有
acidacidicacids…但不能檢出下列詞匯
acidicityacidifyacidity…41PPT課件一、后截詞檢索后截詞檢索主要應用與以下四種情形:詞的單復數,如:book?,potato??年代,如:199?,19??;作者,如Lancaster*同根詞,如:biolog*,physic*注意:使用后截詞檢索有可能檢出無關詞匯,Google就不提供截詞檢索功能42PPT課件二、前截詞檢索將截詞符號置放在一個字符串左方,以表示其左的有限或無限個字符不影響該字符串的檢索匹配。例:檢索提問式“*magnetic”是一個無限前截詞的例子,可能檢索出來的詞匯有
magneticelectromagnetic(電磁的)paramagnetic(順磁的)thermomagnetic(熱磁的)
…43PPT課件二、前截詞檢索前截詞檢索和后截詞檢索一樣,也存在隱含的“邏輯或”(OR)運算特性在有些情況下,前后截詞檢索可以結合起來使用由于技術實現上比較復雜,目前檢索系統中前截詞檢索還比較少見44PPT課件三、中截詞檢索這種截詞方式是把截詞符號放置在一個檢索詞的中間,而不是左右兩側。中截詞檢索一般只允許檢索詞的有限截斷中截詞檢索主要應用于以下兩種情形:英語單詞的英美拼寫方式不同:
defence、defensedefen?e;sulphur、sulfursul??ur某些詞在元音位置上出現單復數的不同
woman、womenwom?n45PPT課件3.4限制檢索在文本檢索系統中,為了提高或保證檢索的準確率,常常提供一些縮小或約束檢索結果的檢索技術,稱之為“限制檢索”。限制檢索一般仍需要建立在布爾檢索的基礎之上,因此可以把它看做是一種受限的布爾檢索46PPT課件3.4限制檢索限制檢索的方式很多,其中最主要的限制技術是通過限制檢索詞在命中結果記錄中的出現位置(主要指文本數據庫記錄的不同字段位置)來實現的,這種限制檢索也因此被稱為“字段檢索”具體指定檢索字段的方式有兩種:菜單選擇方式檢索命令方式47PPT課件3.4限制檢索菜單選擇方式48PPT課件3.4限制檢索檢索命令方式例:"overload"wnAB((seatbelt*OR(seatbelt*))wnTI
用法:Termwncode49PPT課件3.4限制檢索除字段檢索外,對文本信息進行限制檢索的另一種形式是“二次檢索”,即提供用戶在檢索結果中進行再次檢索,50PPT課件51PPT課件52PPT課件位置檢索是一類針對自然語言文本中檢索詞與檢索詞之間特定位置關系而進行的檢索匹配技術。位置檢索允許用戶使用自然語言作為檢索入口,并可深入到原文的章、節(jié)、段、句等文本范圍內進行信息的查找和匹配因此這種檢索技術可以顯著提高文本信息的檢索精度,改善布爾檢索等既有技術特定信息的篩選能力3.5位置檢索53PPT課件目前,聯機檢索系統中提供的位置檢索方法已經非常豐富多樣??偨Y起來看,我們可以將這些位置檢索方法劃分為以下不同類型:鄰接檢索同句檢索同字段檢索同記錄檢索54PPT課件一、鄰接檢索鄰接檢索是一種對檢索詞之間相互位置關系要求最為嚴格的位置檢索方式。一般地,鄰接檢索需要通過專門的位置運算符來規(guī)定檢索提問式中的檢索詞在檢索結果中出現是應滿足的相對位置要求。在鄰接檢索檢索中,經常使用的位置運算符有(W)與(nW)(N)與(nN)55PPT課件一、鄰接檢索(1)(W)與(nW)(W)算符的運算含義是:在檢索提問式中,它所連接的兩個檢索詞必須在文本中按照前后順序緊挨著出現,兩個檢索詞之間除可以有一個空格、一個標點符號和一個連字符外,不得夾有其他任何其他單詞、字母或漢字。(nW)算符是從(W)算符引申出來的,允許在連接的兩個檢索詞之間最多夾入n個其他單詞56PPT課件一、鄰接檢索例1:對于檢索提問式“digital(W)library”來說,可以查找出在文獻中出現“digitallibrary”的相關資料例2:對于檢索提問式“l(fā)arge(W)scale(W)integrated(W)circuit”來說,則可以檢索出含有“l(fā)argescaleintegratedcircuit”的資料例3:對于檢索提問式“云南(3W)大學”,則在檢索結果中,將會出現包含“云南大學”、“云南師范大學”、“位于云南的一些大學”等內容的相關信息57PPT課件一、鄰接檢索(2)(N)與(nN)(N)算符的運算含義是:在檢索提問式中,它所連接的兩個檢索詞必須在文本中緊密相連著出現,兩個檢索詞之間除可以有一個空格、一個標點符號和一個連字符外,不得夾有其他任何其他單詞、字母或漢字。它與(W)的區(qū)別是,(N)算符兩側的檢索詞出現順序可以顛倒(nN)算符是從(N)算符引申出來的,允許在連接的兩個檢索詞之間最多夾入n個其他單詞58PPT課件一、鄰接檢索例4:對于檢索提問式“money(N)supply”的檢索結果中,將會包括含有“mone
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 樣本土地征用協議書示范
- 大學生畢業(yè)實習就業(yè)協議書模板
- 2024年商鋪房屋買賣合同范本
- 新型連鎖商品供貸合同書
- 建筑項目承包合同模版
- 產品責任保險合同條款全新解讀
- 擋土墻工程設計施工總包合同
- 房屋建造安全協議
- 試用期勞動合同維權寶典
- 快遞承包合同的格式與內容
- 高中新課程建設方案
- 醫(yī)學案例分析模板
- 大隱靜脈射頻消融手術
- 第一單元 長度單位復習(課件)二年級上冊數學 人教版(共22張)
- 肩痹(肩袖損傷)中醫(yī)臨床路徑及入院標準2020版
- 協同辦公平臺應用系統接入要求
- 跟蹤審計服務 投標方案(技術方案)
- 醫(yī)療廢物的正確處置
- 加利福尼亞批判性思維技能測試后測試卷班附有答案
- 2024年安徽省合肥市瑤海區(qū)中考語文一模試卷
- 2024四川瀘天化股份有限公司社會招聘筆試參考題庫附帶答案詳解
評論
0/150
提交評論