第四章 信息檢索模型_第1頁
第四章 信息檢索模型_第2頁
第四章 信息檢索模型_第3頁
第四章 信息檢索模型_第4頁
第四章 信息檢索模型_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息檢索系統(tǒng)的形式化表示信息檢索系統(tǒng)的形式化表示D, Q, F, R( di, q )D 文檔集合的機(jī)內(nèi)表示文檔集合的機(jī)內(nèi)表示lD=d1, d2 , , dml為了滿足檢索匹配所要求的快速與便利,文檔為了滿足檢索匹配所要求的快速與便利,文檔di通常由通常由從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(xiàng)(如索引從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(xiàng)(如索引項(xiàng)項(xiàng)/檢索詞檢索詞/關(guān)鍵詞)來表示關(guān)鍵詞)來表示l設(shè)設(shè)K=k1, k2 , , kn 為系統(tǒng)索引項(xiàng)集合為系統(tǒng)索引項(xiàng)集合則則di =i1,i2 , ,in (ij0)ij索引詞索引詞kj在文檔在文檔di中的重要性(權(quán)值中的重要性(權(quán)值weight)信息檢

2、索系統(tǒng)的形式化表示信息檢索系統(tǒng)的形式化表示Q用戶查詢的機(jī)內(nèi)表示用戶查詢的機(jī)內(nèi)表示l用戶需求的各種狀態(tài)用戶需求的各種狀態(tài) 潛在的真實(shí)需求(潛在的真實(shí)需求(Real Information Need,RIN) 意識(shí)到或感知到的需求(意識(shí)到或感知到的需求(Perception Information Need,PIN ) 表達(dá)出的需求(表達(dá)出的需求(Request)l用戶查詢(用戶查詢(Query) 用戶查詢一般采用與文檔類似的形式化表示用戶查詢一般采用與文檔類似的形式化表示F 文檔與查詢查詢之間的匹配框架文檔與查詢查詢之間的匹配框架R(di, q)R(di, q)文檔與用戶查詢之間相關(guān)度計(jì)算函數(shù)文

3、檔與用戶查詢之間相關(guān)度計(jì)算函數(shù)R(di, q)R(di, q)結(jié)構(gòu)化文本模型結(jié)構(gòu)化文本模型集合論模型集合論模型文文本本檢檢索索模模型型非重疊鏈表模型非重疊鏈表模型鄰近節(jié)點(diǎn)模型鄰近節(jié)點(diǎn)模型布爾模型布爾模型向量模型向量模型概率模型概率模型瀏覽模型瀏覽模型超文本模型超文本模型基于本體的模型基于本體的模型經(jīng)典模型經(jīng)典模型超文本模型超文本模型知識(shí)檢索模型知識(shí)檢索模型擴(kuò)展布爾模型擴(kuò)展布爾模型模糊集合模型模糊集合模型廣義向量模型廣義向量模型潛語義標(biāo)引模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型語言模型語言模型代數(shù)模型代數(shù)模型概率模型概率模型信息檢索模型的類型

4、信息檢索模型的類型最早的最早的IR模型模型l1957年,年,YBar-Hille就對布爾邏輯應(yīng)用于計(jì)算就對布爾邏輯應(yīng)用于計(jì)算機(jī)信息檢索的可能性進(jìn)行了探討機(jī)信息檢索的可能性進(jìn)行了探討目前仍然應(yīng)用于商業(yè)系統(tǒng)中目前仍然應(yīng)用于商業(yè)系統(tǒng)中典型系統(tǒng):典型系統(tǒng):Lucene不相關(guān)和查詢,表示文獻(xiàn),此時(shí)相關(guān)和查詢,表示文獻(xiàn),此時(shí)QDQQQDQQQDSimjijij01),(無法體現(xiàn)文檔之間的細(xì)微差別無法體現(xiàn)文檔之間的細(xì)微差別相關(guān)度的大小只有兩個(gè)值,模型這種相關(guān)度的大小只有兩個(gè)值,模型這種“非此即彼非此即彼”的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差別別向量空間模型

5、(向量空間模型(Vector Space Model,VSM)是由是由GSalton等人在等人在1958年提出的年提出的代表系統(tǒng)代表系統(tǒng)lSMART( System for the Manipulation and Retrieval of Text)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術(shù)研究的基礎(chǔ)技術(shù)研究的基礎(chǔ)文檔文檔提問提問關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量匹配匹配檢索到文獻(xiàn)檢索到文獻(xiàn)ld1 :土豆的美容功效:土豆的美容功效ld2 :土豆的栽培:土豆的栽培l(xiāng)d3:土豆的后期加工:土豆的后期加工lK=土豆、美容、栽培、加工土

6、豆、美容、栽培、加工體系結(jié)構(gòu)體系結(jié)構(gòu)總線總線計(jì)算機(jī)計(jì)算機(jī)數(shù)據(jù)庫數(shù)據(jù)庫.XML計(jì)算機(jī)科學(xué)計(jì)算機(jī)科學(xué)文檔集文檔集文檔集中的索引項(xiàng)文檔集中的索引項(xiàng)這些索引項(xiàng)是不相關(guān)的這些索引項(xiàng)是不相關(guān)的 (或者說是正交的或者說是正交的) ,形成一個(gè)向量空間,形成一個(gè)向量空間vector space文檔向量空間的表示文檔向量空間的表示:文檔文檔D1(W11,W21,Wn1)查詢查詢Q(W1q,W2q,Wnq)文檔文檔D2(W12,W22,Wn2)特征項(xiàng)特征項(xiàng)1特征項(xiàng)特征項(xiàng)2特征項(xiàng)特征項(xiàng)3文檔向量空間模型:文檔向量空間模型:文檔和文檔之間的相似度文檔和文檔之間的相似度Sim可以表示如下:可以表示如下:nknkjkikn

7、kjkikjiDWDWDWDWDDSim11221) )()()()(cos),(titiiqijtiiqijjWWWWQDSim11221) )(cos),(文檔和查詢之間的相似度文檔和查詢之間的相似度Sim可以表示如可以表示如下:下:文檔文檔D1=2K1+3K2+5K3查詢查詢Q=0K1+0K2+2K3文檔文檔D2=3K1+7K2+K3特征項(xiàng)特征項(xiàng)1特征項(xiàng)特征項(xiàng)2特征項(xiàng)特征項(xiàng)313. 0591)2()173 (210703),(81. 0385)2()532(250302),(2222222221QDSimQDSim文檔中關(guān)鍵詞的權(quán)重文檔中關(guān)鍵詞的權(quán)重兩方面因素兩方面因素l詞表達(dá)文檔內(nèi)容的

8、能力詞表達(dá)文檔內(nèi)容的能力 tfij關(guān)鍵詞的詞頻(關(guān)鍵詞關(guān)鍵詞的詞頻(關(guān)鍵詞tj在文檔在文檔di中的頻率)中的頻率)l詞區(qū)分其所在文檔與其它文檔的能力詞區(qū)分其所在文檔與其它文檔的能力 dfj 關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞tj的文檔數(shù)量)的文檔數(shù)量)ltf-idf(詞頻(詞頻-逆文檔頻率)公式逆文檔頻率)公式Idf計(jì)算示例計(jì)算示例相似度計(jì)算相似度計(jì)算相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間的相似程度,查詢式和文檔都是向量,各的相似程度,查詢式和文檔都是向量,各類相似度存在于:類相似度存在于:l兩個(gè)文檔之間(文本分類,聚類)兩個(gè)文檔之間(文

9、本分類,聚類)l兩個(gè)查詢式之間(常問問題集)兩個(gè)查詢式之間(常問問題集)l一個(gè)查詢式和一個(gè)文檔之間(檢索)一個(gè)查詢式和一個(gè)文檔之間(檢索)人們曾提出大量的相似度計(jì)算方法,因?yàn)槿藗冊岢龃罅康南嗨贫扔?jì)算方法,因?yàn)樽罴训南嗨贫扔?jì)算方法并不存在。最佳的相似度計(jì)算方法并不存在。tk1內(nèi)積的特點(diǎn)內(nèi)積的特點(diǎn)內(nèi)積值沒有界限內(nèi)積值沒有界限l不象概率值,不象概率值,要在要在(0,1)之間之間對長文檔有利對長文檔有利l內(nèi)積用于衡量有多少詞項(xiàng)匹配成功,而不計(jì)算內(nèi)積用于衡量有多少詞項(xiàng)匹配成功,而不計(jì)算有多少詞項(xiàng)匹配失敗有多少詞項(xiàng)匹配失敗l長文檔包含大量獨(dú)立詞項(xiàng),每個(gè)詞項(xiàng)均多次出長文檔包含大量獨(dú)立詞項(xiàng),每個(gè)詞項(xiàng)均多次出

10、現(xiàn),因此一般而言,和查詢式中的詞項(xiàng)匹配成現(xiàn),因此一般而言,和查詢式中的詞項(xiàng)匹配成功的可能性就會(huì)比短文檔大。功的可能性就會(huì)比短文檔大。余弦向量度量法余弦向量度量法用向量夾角的余弦值表示向量的相似度用向量夾角的余弦值表示向量的相似度夾角余弦值越大,相似度越高夾角余弦值越大,相似度越高其實(shí)質(zhì)是利用向量長度對內(nèi)積進(jìn)行歸一化其實(shí)質(zhì)是利用向量長度對內(nèi)積進(jìn)行歸一化2t3t1t2D1D2Q1Jaccard 系數(shù)法系數(shù)法二值化的相似度度量二值化的相似度度量實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的l當(dāng)你在一個(gè)文檔中看到當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)計(jì)算機(jī)”, 非常有可能同時(shí)看到非常有可能同時(shí)看到“科

11、學(xué)科學(xué)”l當(dāng)你在一個(gè)文檔中看到當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)計(jì)算機(jī)”,有中等的可能性同時(shí)看到有中等的可能性同時(shí)看到“商務(wù)商務(wù)”l當(dāng)你在一個(gè)文檔中看到當(dāng)你在一個(gè)文檔中看到“商務(wù)商務(wù)”,只有很少的機(jī)會(huì)同時(shí)看到,只有很少的機(jī)會(huì)同時(shí)看到“科學(xué)科學(xué)”擴(kuò)展布爾模型擴(kuò)展布爾模型擴(kuò)展布爾模型擴(kuò)展布爾模型布爾過濾布爾過濾排序排序布爾查詢式布爾查詢式向量空間模型向量空間模型查詢式查詢式文檔文檔結(jié)果結(jié)果如果忽略布爾關(guān)系的話,向量空間查詢式和布爾如果忽略布爾關(guān)系的話,向量空間查詢式和布爾查詢式是相同的查詢式是相同的(0,0)B(1,0)A(0,1)C(1,1)D(x,y) 在傳統(tǒng)布爾模型中,在傳統(tǒng)布爾模型中,(0,1)

12、、(1,0)、(1,1)幾個(gè)點(diǎn)幾個(gè)點(diǎn)的相關(guān)度都是的相關(guān)度都是1,擴(kuò)展模型中將它們加以區(qū)分,擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為體現(xiàn)為“所有詞都出現(xiàn)比只出現(xiàn)幾個(gè)詞更有價(jià)所有詞都出現(xiàn)比只出現(xiàn)幾個(gè)詞更有價(jià)值值” 一個(gè)文檔在一個(gè)文檔在(1,1)處獲得最高的權(quán)重處獲得最高的權(quán)重,此時(shí)意,此時(shí)意味著文檔包含了全部兩個(gè)查詢詞,并且查味著文檔包含了全部兩個(gè)查詢詞,并且查詢詞在文檔中的權(quán)重也是最高的詢詞在文檔中的權(quán)重也是最高的 函數(shù)函數(shù)sim()度量了從原點(diǎn)出發(fā)的文檔向量度量了從原點(diǎn)出發(fā)的文檔向量長度,長度,距離越大,相似性越大。距離越大,相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的

13、點(diǎn)dx y在傳統(tǒng)布爾模型中,在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(0,0)幾個(gè)點(diǎn)的相關(guān)度都幾個(gè)點(diǎn)的相關(guān)度都是是0,擴(kuò)展模型中將它們加以區(qū),擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為分,體現(xiàn)為“出現(xiàn)幾個(gè)詞總比出現(xiàn)幾個(gè)詞總比一詞都不出現(xiàn)更有價(jià)值一詞都不出現(xiàn)更有價(jià)值” 函數(shù)函數(shù)sim()度量了點(diǎn)度量了點(diǎn)(wx, wy) 到點(diǎn)到點(diǎn)(1, 1)的距離。距離越小,的距離。距離越小,相似性越大。相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)估計(jì)估計(jì)R的特征的特征進(jìn)行檢索進(jìn)行檢索用戶判斷用戶判斷RR)()|()()|()|()|(),(RPRDPRPRDPDRPDRPQDSimjjjjj)|

14、()|(),(RDPRDPQDSimjjj)|()|()|()|(),(0)(1)(0)(1)(RKPRKPRKPRKPQDSimiDgiDgiDgiDgjjijijiji)|()|(1log)|(1)|(log),(1RKPRKPRKPRKPWWQDSimiiiitiijiqjNnRKPRKPiii)|(5 . 0)|()|(RKPi)|(RKPiVNVnRKPVVRKPiiiii)|()|(15 . 0)|(15 . 0)|(VNVnRKPVVRKPiiiii1)|(1)|(VNNnVnRKPVNnVRKPiiiiiii概率模型小結(jié)概率模型小結(jié)優(yōu)點(diǎn)優(yōu)點(diǎn)l有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)l采用相關(guān)反饋原理,可以開發(fā)出理論上更為堅(jiān)實(shí)的系統(tǒng)采用相關(guān)反饋原理,可以開發(fā)出理論上更為堅(jiān)實(shí)的系統(tǒng)l文檔可以按照他們相關(guān)概率遞減的順序來排序文檔可以按照他們相關(guān)概率遞減的順序來排序缺點(diǎn)缺點(diǎn)l開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論