版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
信息檢索模型信息檢索模型→概念檢索系統(tǒng)中,一般采用索引項來建立文檔的索引和對文檔進行檢索。例如對于文本信息檢索來說,基于字表或詞表的全文檢索方法,已單個的字或詞作為索引項,對其出現(xiàn)位置進行索引,并依據(jù)單字和詞的位置信息進行檢索。用戶在進行信息檢索時,希望獲得與其需求密切相關的檢索結(jié)果,因此信息檢索系統(tǒng)所要解決的中心問題是:基于用戶的需求,對文檔集中的所有文檔作出是否與查詢相關的判斷。這種判斷依賴于排序算法,算法在被檢索的文檔中依據(jù)其與用戶需求的相關程度,建立一個排列順序。這樣看來,排序算法是信息檢索系統(tǒng)的關鍵技術。如何衡量文檔相關性,有不同的方法和模型,由此產(chǎn)生了不同的信息檢索模型。因此,我們把信息檢索模型定義為:是將文檔表示、查詢以及它們之間的關系進行建模的框架,由三元體組成。F{D,Q,R(qi,dj)}D
文檔集中一組文檔邏輯視圖Q 一組用戶信息需求的邏輯視圖R(qi,dj) 排序函數(shù),該函數(shù)輸出一個與查詢qi和文檔表示dj相關的實數(shù)信息檢索模型→分類信息檢索模型檢索模型瀏覽模型內(nèi)容模型結(jié)構(gòu)模型布爾模型矢量模型概率模型非重疊鏈表模型鄰近節(jié)點模型平坦模型結(jié)構(gòu)導向模型超文本模型傳統(tǒng)信息檢索模型→布爾模型布爾模型是基于理論和布爾代數(shù)的一種簡單檢索模型。布爾模型為普通用戶提供了一個容易掌握的框架。在模型中,查詢被描述為具有精確語義的布爾表達式,其特點簡單而整齊,為現(xiàn)代許多商業(yè)系統(tǒng)所用。布爾模型的缺點也是明顯的。首先:它的檢索策略是基于二值決策準則,即一個文檔只被判斷成相關的或不相關的,無任何等級變化;其次:當用布爾表達式表示精確語義的時候,很難將信息表達為一個布爾表達式。盡管如此,布爾模型目前仍然是商業(yè)文檔數(shù)據(jù)庫的主流模型,并為一些新的領域提供了一個好的起點。傳統(tǒng)信息檢索模型→矢量模型I矢量模型通過分派非二值權重給查詢和文檔中的索引項來實現(xiàn)檢索目標。這些權重用于計算系統(tǒng)中的每個文檔與用戶的查詢請求的相似程度,矢量模型通過對文檔按照相似程度降序排列的方式,來實現(xiàn)文檔與查詢項的部分匹配。這樣做的結(jié)果,似的結(jié)果中的文檔排列順序比通過布爾模型得到的結(jié)果要合理得多。在該模型中,與(ki,dj)相關聯(lián)的權重wi,j是一個非二值數(shù)。查詢中的索引項也是有權重的,設wi,q是與(ki,q)相關聯(lián)的權重,且wi,q≥0,則查詢矢量Q被定義成Q=(w1,q,w2,q,w3,q…………wt,q),其中,t是系統(tǒng)中所有索引項的數(shù)目,文檔dj的矢量可以表示為Wj=(w1,j,w2,j,w3,j………wt,j),矢量模型通過Wj和Q的相關度來評價文檔dj和查詢q的相關度。這種關系可以用定量表示,一般使用兩個矢量之間的夾角余弦值來計算。傳統(tǒng)信息檢索模型→矢量模型IIθQWj矢量模型的優(yōu)點:索引項的加權改善了檢索的性能,其部分匹配的策略允許所檢索的文檔與查詢條件相近似,其余弦排序公式按照文檔與查詢的相似程度對文檔進行排序;矢量模型的缺點:索引項被假設為彼此之間相互獨立的,然而在實際中,考慮索引項之間的相關性也許是個缺陷,由于許多索引項之間的相關性具有局限性,不加區(qū)別地將其應用到所有文檔中,可能會影響檢索系統(tǒng)的整體性能。傳統(tǒng)信息檢索模型→概率模型概率模型試圖在一個概率框架中處理信息檢索問題,其基本思想是:給定一個用戶的查詢,則有一個包含相關文檔且不包含不相關文檔的集合。設想這個文檔集合是一個理想的結(jié)果集。給出這個理想結(jié)果集的描述,并用于檢索。這樣,我們可以認為查詢的過程是說明理想結(jié)果集屬性的過程,初始的時候努力的猜測它們是什么,猜測結(jié)果我們將產(chǎn)生一個對理想結(jié)果集的概率描述,檢索出最初的結(jié)果集,然后引入用戶的交互,改善結(jié)果集?;炯僭O:給定一個查詢q和文檔集中一個文檔dj,概率模型試圖找出用戶對其感興趣的概率,模型假設這個概率只是依賴于查詢和文檔的表示,進而模型假設文檔集中存在一個子集,它使得總體相關概率,在集合中的文檔被認為是與查詢相關的,不在集合中的則被認為是不相關的。其主要優(yōu)點是:理論上,文檔按照其與目標集合的相關概率的降序排列。主要缺點是:需要最初將文檔分為相關和不相關的集合;所有權重都是二值的,模型中仍然假設索引項之間是相互獨立的。結(jié)構(gòu)化文本檢索模型→概念有時候,用戶希望能夠?qū)ξ臋n中的某些結(jié)構(gòu)組元中包含的信息進行檢索,例如,對出現(xiàn)在章節(jié)標題的詞進行檢索。那么就需要一種模型,把文檔內(nèi)容與文檔的結(jié)構(gòu)結(jié)合起來,為用戶提供信息檢索的能力。這種模型就被稱為結(jié)構(gòu)化文本檢索模型。在檢索任務中,傳統(tǒng)的結(jié)構(gòu)化文本檢索模型沒有采用相關性的思想,它只是從各個結(jié)構(gòu)組元中匹配用戶的查詢項。從這個意義上看,過去的結(jié)構(gòu)化文檔檢索模型是一個數(shù)據(jù)檢索模型,但是,檢索系統(tǒng)能夠搜索出那些部分匹配查詢條件的文檔,在這種情況下,這種匹配是近似的,并且某些排序也是使用這種近似的結(jié)構(gòu)。因此,結(jié)構(gòu)化文檔檢索算法可以看作是一種信息檢索算法,但排序機制并不健全。在結(jié)構(gòu)化文本檢索模型中,我們使用“匹配點”來表示文本與用戶查詢相匹配的詞串位置;我們使用“區(qū)域”表示文本的塊;使用“節(jié)點”表示文檔的結(jié)構(gòu)化組元。這樣,一個節(jié)點是一個區(qū)域,具有文檔的作者與用戶所共知的、預定義的邏輯屬性。結(jié)構(gòu)化文本檢索模型→非重疊鏈表模型基于非重疊鏈表的模型是把文檔中的整個文本劃分為非重疊文本區(qū)域,并用鏈表連接起來。因為有多種方法將文本分為非重疊的區(qū)域,所以,對于同一個文檔,會產(chǎn)生多個鏈表。這些鏈表清晰的記錄了文檔的數(shù)據(jù)結(jié)構(gòu)。在相同鏈表中的文本區(qū)域沒有重疊,而不同鏈表中的文本區(qū)域可能會重疊。ChapterSectionParagraph為允許對索引項和文本區(qū)域進行搜索,要為每個預定義的鏈表建立一個索引。在索引中每個結(jié)構(gòu)組元作為索引中的一個項目。因為針對每個索引項目,其索引的文本區(qū)域是不重疊的,所以可以提交的查詢是簡單的。 1、選擇一個包含給定詞的區(qū)域; 2、選擇一個不包含在給定區(qū)域的區(qū)域; 3、選擇一個不被包含于任何其他區(qū)域的區(qū)域。結(jié)構(gòu)化文本檢索模型→鄰近節(jié)點模型該模型是一種允許在相同文檔上獨立定義分層索引結(jié)構(gòu)的模型,每個索引結(jié)構(gòu)是一個嚴格的層次結(jié)構(gòu),其中每個結(jié)構(gòu)組元稱為節(jié)點,每個節(jié)點與一個文本區(qū)域相關,兩個不同的層次結(jié)構(gòu)可能涉及到兩個重疊的文本區(qū)域。針對不同層次結(jié)構(gòu)的用戶查詢,所匯集的結(jié)果是由來自其中一個層次結(jié)構(gòu)的節(jié)點組成,因此,一個應答結(jié)果是不能由來自兩個不同層次結(jié)構(gòu)的節(jié)點組成。這樣做的目的是使得查詢處理的速度快。Information22451277892……ChapterSectionParagraph信息瀏覽模型→平坦瀏覽該模型的思想是假設用戶瀏覽一個具有平坦組織的文檔空間,文檔集可以被描述為平面上的點或是鏈表中的元素。用戶在這些文檔上到處瀏覽,以尋找有關信息,在反饋過程中,用戶通過在鄰近文檔中的瀏覽,查找出相關的資料,找出一些感興趣的關鍵詞。這些關鍵詞將被輸入到原始的查詢中,以試圖提供更好的、新的查詢。
同樣,用戶也可以以平面方式,瀏覽單一的文檔。例如使用滾動條來瀏覽一個Web頁面。該模型的一個不足是:在給定的一個頁面或屏幕上,可能沒有任何用戶所處上下文情況的指示。平坦模型缺乏層次性的視圖、用戶的瀏覽行為很容易迷航。信息瀏覽模型→結(jié)構(gòu)向?qū)g覽為了對瀏覽的行為提供更好的支持,文檔應該被組織成為如目錄那樣的結(jié)構(gòu),目錄是類的層次結(jié)構(gòu),對穩(wěn)當按照主題來分類和組織。用這樣的類層次對文檔集進行分類,已經(jīng)延續(xù)了幾個世紀,因此很自然的,它被作為現(xiàn)代瀏覽的一種界面。在這樣的情況下,用戶執(zhí)行一個具有結(jié)構(gòu)向?qū)ь愋偷臑g覽。同樣的思想仍然可以應用到一個單獨的文檔上。一個好的界面能夠以變焦的方式上下查看這些層次,輔助用戶的瀏覽過程,并保持上下問線索。除了用于瀏覽任務導向的結(jié)構(gòu)外,截面也可以提供一些其他的導航工具,如提供瀏覽歷史,指示最近訪問的節(jié)點,這對于瀏覽結(jié)構(gòu)龐大的文檔集是相當有用的。信息瀏覽模型→超文本瀏覽傳統(tǒng)的文本書寫相關的概念是順序的。寫作的順序通常被認為是閱讀的順序,讀者也不期待通過隨機的閱讀某段文本而全部理解作者的思想無論是紙制或計算機中存在的文本,全部都是按順序編排的,這樣提供文檔主要是為了滿足順序閱讀的需要。而且順序閱讀也是大多數(shù)用戶的閱讀習慣,特別是上下文聯(lián)系緊密的文檔。雖然由于制作的緣故,文檔中的文字是順序編排的,但用戶不一定按編排順序進行閱讀,文本的順序存放和管理方式與人的閱讀過程中的聯(lián)想思維方式及相應的活動是不相適應的。我們需要借助某種技術來實現(xiàn)跳躍式閱讀,真正實現(xiàn)非線性閱讀和瀏覽,需要定義一種新的組織結(jié)構(gòu),這種結(jié)構(gòu)就是“超文本”。超文本是一個允許以非順序的方式在計算機上瀏覽文本的高層交互式導航結(jié)構(gòu)。它由節(jié)點和鏈組成,節(jié)點之間的關系由鏈表示,節(jié)點和鏈構(gòu)成一個有向圖。支持用戶的非線性瀏覽和信息存取。超文本的導航過程可以被理解為一個有向圖的游歷過程,圖中被鏈接的節(jié)點表示節(jié)點之間有某種語義關聯(lián)。信息檢索模型→總結(jié)信息檢索中的關鍵問題是如何從文檔集中找出與用戶查詢要求相關的文檔,因此度量穩(wěn)當與查詢之間的相關性是檢索任務的核心。而描述信息檢索中的文檔表示、查詢和它們之間的關系的模型,就稱為信息檢索模型。布爾、矢量和概率模型是三個傳統(tǒng)的內(nèi)容檢索模型。布爾模型是基于集合理論和布爾代數(shù)的一種簡單檢索模型;矢量模型采用非二值的索引項權重,它把穩(wěn)當和查詢用t維權重矢量表示,計算這兩個矢量之間的相似度來實現(xiàn)查詢與文檔的匹配;概率模型是一種規(guī)范的模型,它試圖預測給定查詢的相關文檔,排序原則根據(jù)文檔與集合的相似度進行排序。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇州科技大學天平學院《市場營銷學概論》2022-2023學年第一學期期末試卷
- 土木工程中的建筑結(jié)構(gòu)給水工程考核試卷
- 《口腔衛(wèi)生》課件
- 2024并購貸款合同模板
- 企業(yè)安全生產(chǎn)培訓的團隊協(xié)作與沖突化解考核試卷
- 《古代中國的經(jīng)濟》課件
- 求婚策劃方案及流程
- 固體飲料行業(yè)的投資風險分析考核試卷
- 木材創(chuàng)新技術與環(huán)保應用案例研究探討考核試卷
- 信息系統(tǒng)性能優(yōu)化建議報告總結(jié)考核試卷
- 攝影入門課程-攝影基礎與技巧全面解析
- 251直線與圓的位置關系(第1課時)(導學案)(原卷版)
- XX有限公司人員分流方案
- 大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)
- 期中模擬檢測(1-3單元)2024-2025學年度第一學期西師大版二年級數(shù)學
- 追覓科技在線測評邏輯題
- 2024-2030年中國演藝行業(yè)發(fā)展分析及發(fā)展前景與趨勢預測研究報告
- 2024年重慶市渝北區(qū)數(shù)據(jù)谷八中小升初數(shù)學試卷
- 凝中國心鑄中華魂鑄牢中華民族共同體意識-小學民族團結(jié)愛國主題班會課件
- 2024年AI大模型場景探索及產(chǎn)業(yè)應用調(diào)研報告-前瞻
- 演講學智慧樹知到答案2024年同濟大學
評論
0/150
提交評論