![第四章信息檢索模型_第1頁](http://file4.renrendoc.com/view/2061b98cd928f0b86bd41c7771a5872a/2061b98cd928f0b86bd41c7771a5872a1.gif)
![第四章信息檢索模型_第2頁](http://file4.renrendoc.com/view/2061b98cd928f0b86bd41c7771a5872a/2061b98cd928f0b86bd41c7771a5872a2.gif)
![第四章信息檢索模型_第3頁](http://file4.renrendoc.com/view/2061b98cd928f0b86bd41c7771a5872a/2061b98cd928f0b86bd41c7771a5872a3.gif)
![第四章信息檢索模型_第4頁](http://file4.renrendoc.com/view/2061b98cd928f0b86bd41c7771a5872a/2061b98cd928f0b86bd41c7771a5872a4.gif)
![第四章信息檢索模型_第5頁](http://file4.renrendoc.com/view/2061b98cd928f0b86bd41c7771a5872a/2061b98cd928f0b86bd41c7771a5872a5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四章信息檢索模型南京中醫(yī)藥大學(xué)文獻(xiàn)檢索教研室教學(xué)內(nèi)容1、信息檢索模型概述2、傳統(tǒng)布爾檢索模型3、向量空間模型4、擴(kuò)展布爾檢索模型5、概率模型信息檢索模型概述信息檢索是一門研究從一定規(guī)模的文檔庫中找出滿足用戶需求的信息的學(xué)問,它指的是對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化信息的檢索,半結(jié)構(gòu)化信息檢索人們通常稱為文本信息檢索,而非結(jié)構(gòu)化信息檢索多指多媒體信息檢索。信息檢索是對(duì)信息集合與需求集合的匹配和選擇。信息檢索基本原理:用戶通過一些列關(guān)鍵詞來闡明自己的信息需求,信息檢索系統(tǒng)則檢索與用戶查詢最為匹配的文獻(xiàn),同時(shí)借助某種相關(guān)性指標(biāo)對(duì)檢索出的文獻(xiàn)進(jìn)行排序。信息檢索的實(shí)質(zhì)問題:對(duì)于所有文檔,根據(jù)其與用戶查詢的相關(guān)程度由大到小進(jìn)行排序信息檢索模型概述什么是數(shù)學(xué)模型?為了某種特定目的,通過對(duì)現(xiàn)實(shí)世界的某一特定對(duì)象做出一些必要的簡化與假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具得到的一種數(shù)學(xué)結(jié)構(gòu)。模型是采用數(shù)學(xué)工具,對(duì)現(xiàn)實(shí)世界某種事物或某種運(yùn)動(dòng)的抽象描述面對(duì)相同的輸入,模型的輸出應(yīng)能夠無限地逼近現(xiàn)實(shí)世界的輸出舉例:天氣的預(yù)測模型信息檢索模型概述信息檢索的模型,就是運(yùn)用數(shù)學(xué)的語言和工具,對(duì)信息檢索系統(tǒng)中的信息及其處理過程加以翻譯和抽象,表述為某種數(shù)學(xué)公式,再經(jīng)過演繹、推斷、解釋和實(shí)際檢驗(yàn),反過來指導(dǎo)信息檢索實(shí)踐。即信息檢索模型是指如何對(duì)查詢和文檔進(jìn)行表示,然后對(duì)它們進(jìn)行相似度計(jì)算的框架和方法。信息檢索模型的核心問題是檢測哪些文獻(xiàn)相關(guān),哪些文獻(xiàn)不相關(guān),即判斷一篇文獻(xiàn)是否與用戶的查詢條件相關(guān),以及相關(guān)的程度。信息檢索模型概述本質(zhì)上是對(duì)相關(guān)度建模。信息檢索模型是IR中的核心內(nèi)容之一。信息檢索模型的組成用戶的需求表示:包括用戶查詢信息的獲取與表示。文檔的表示:文檔內(nèi)容的識(shí)別與表示。匹配機(jī)制:用戶需求表示與文檔表示之間的查詢機(jī)制,以及它們之間相關(guān)性排序的準(zhǔn)則反饋修正:對(duì)檢索結(jié)果進(jìn)行優(yōu)化。信息檢索系統(tǒng)的形式化表示[D,Q,F,R(di,q)]D→文檔集合的機(jī)內(nèi)表示D={d1,d2,…,dm}為了滿足檢索匹配所要求的快速與便利,文檔di通常由從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(xiàng)(如索引項(xiàng)/檢索詞/關(guān)鍵詞)來表示設(shè)K={k1,k2,…,kn}為系統(tǒng)索引項(xiàng)集合則di={ωi1,ωi2,…,ωin}(ωij≥0)ωij→索引詞kj在文檔di中的重要性(權(quán)值weight)文檔邏輯視圖D是一個(gè)文檔集合,通常由文檔邏輯視圖來表示??梢允且唤M索引詞或關(guān)鍵詞。既可以自動(dòng)提取,也可以是由人主觀指定。信息檢索系統(tǒng)的形式化表示Q→用戶查詢的機(jī)內(nèi)表示用戶需求的各種狀態(tài)潛在的真實(shí)需求(RealInformationNeed,RIN)意識(shí)到或感知到的需求(PerceptionInformationNeed,PIN)表達(dá)出的需求(Request)用戶查詢(Query)用戶查詢一般采用與文檔類似的形式化表示匹配處理框架(F)F→文檔與查詢查詢之間的匹配框架在信息集合(D)與需求集合(Q)之間建立模型化處理的框架與規(guī)則。不同檢索模型的匹配處理的數(shù)學(xué)機(jī)制是不同的。布爾模型:集合論的基本運(yùn)算向量空間模型:多維向量空間理論和向量線性代數(shù)概率模型:集合論、概率運(yùn)算和Bayes法則匹配計(jì)算函數(shù)R(di,q)R(di,q)→文檔與用戶查詢之間相關(guān)度計(jì)算函數(shù)匹配函數(shù)R(di,q)用于計(jì)算任一信息di(di∈D)與任一提問q(q∈Q)形成的信息—提問對(duì)(di,q)之間的相似度大小。一般地,R(di,q)的函數(shù)值為一實(shí)數(shù),其取值區(qū)間為[0,1]匹配函數(shù)的特點(diǎn):計(jì)算方法簡單,計(jì)算量??;函數(shù)值在取值區(qū)間均勻分布;針對(duì)某一提問所獲取的相關(guān)文檔集合,能夠?qū)崿F(xiàn)合理的排序輸出。結(jié)構(gòu)化文本模型集合論模型文本檢索模型非重疊鏈表模型鄰近節(jié)點(diǎn)模型布爾模型向量模型概率模型瀏覽模型超文本模型基于本體的模型經(jīng)典模型超文本模型知識(shí)檢索模型擴(kuò)展布爾模型模糊集合模型廣義向量模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型語言模型代數(shù)模型概率模型信息檢索模型的類型布爾檢索模型最早的IR模型1957年,Y·Bar-Hille就對(duì)布爾邏輯應(yīng)用于計(jì)算機(jī)信息檢索的可能性進(jìn)行了探討目前仍然應(yīng)用于商業(yè)系統(tǒng)中典型系統(tǒng):Lucene布爾檢索模型布爾(Boolean)模型是基于集合論和布爾代數(shù)的一種簡單檢索模型。用布爾表達(dá)式表示用戶提問,通過對(duì)文獻(xiàn)標(biāo)識(shí)與提問式的邏輯運(yùn)算來檢索文獻(xiàn)。優(yōu)勢:“集合”概念直觀容易被理解和接受文檔表示在傳統(tǒng)的布爾模型中,一個(gè)文檔被表示為關(guān)鍵詞的集合。Dj=(K1,K2,K3,…,Km)表示文獻(xiàn)Dj,式中K1,K2,K3,…,Km表示文獻(xiàn)Dj中的所有標(biāo)引詞集合。布爾檢索模型文檔與標(biāo)引詞建立一個(gè)布爾關(guān)系。用若干標(biāo)引詞的布爾表達(dá)式來表達(dá)和解釋查詢Q。對(duì)于一個(gè)表示為Q=(K1ANDK2)OR(K3AND(NOTK4))的提問式,系統(tǒng)的響應(yīng)必須是這樣一組文獻(xiàn)集合:這些文獻(xiàn)中都含有標(biāo)引詞K1和K2,或者含有標(biāo)引詞K3但不含有標(biāo)引詞K4。常用的布爾邏輯組配運(yùn)算符有:邏輯“與”(AND,常用符號(hào)“∧”表示)、邏輯“或”(OR,常用符號(hào)“∨”表示)、邏輯“非”(NOT,常用符號(hào)“-”表示)。
布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻(xiàn)中要么出現(xiàn)、要么不出現(xiàn),因此標(biāo)引詞Ki在文檔Dj中的權(quán)重全部被設(shè)為二值數(shù)據(jù),即Wij∈(0,1)。用戶提交的查詢條件由若干個(gè)標(biāo)引詞用與、或、非等邏輯符號(hào)相聯(lián)結(jié),在布爾檢索模型中被表示成了布爾表達(dá)式Q=(K1,K2,…),其本質(zhì)可以表示為多個(gè)標(biāo)引詞權(quán)值的合取向量的析取Qi(Qi為表達(dá)式Q的任意合取向量),則文獻(xiàn)Dj和查詢Q的相關(guān)度表示為布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方面的文檔,其相應(yīng)的查詢表達(dá)式為:Q=檢索and(布爾or概率not向量),那么Q可以在其相應(yīng)的(檢索,布爾,概率,向量)標(biāo)引詞向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文檔Dj的向量如果與這中間一個(gè)相等,那么即可認(rèn)為他們之間存在相似關(guān)系,而這種相互關(guān)系也是布爾值,即sim(Q,Dj)只能為0或1。相關(guān)概念合取范式:若干個(gè)互不相同的合取項(xiàng)的析取稱為一個(gè)合取范式例:析取范式:在布爾邏輯中,析取范式(DNF)是邏輯公式的標(biāo)準(zhǔn)化(或規(guī)范化),它是合取子句的析取。
布爾提問的析取范式根據(jù)布爾邏輯的運(yùn)算規(guī)定,提問式q可以被表示成由合取子項(xiàng)(conjunctivecomponents)組成的析取范式(disjunctivenormalform,簡稱dnf)形式。如:提問式q=k1and(k2ornotk3)可寫成等價(jià)的析取范式形式:
qdnf
=(k1andk2andk3)or(k1andk2andnotk3)or(k1andnotk2andnotk3)
這里qdnf是提問式q的主析取范式??蛇M(jìn)一步簡化表示為:qdnf=(1,1,1)or(1,1,0)or(1,0,0)
其中:(1,1,1)or(1,1,0)or(1,0,0)是qdnf的三個(gè)合取子項(xiàng)qcc,他們是一組向量,由對(duì)應(yīng)的三元組(k1,k2,k3)的每一個(gè)分量取0或1得到。簡單實(shí)例Q=病毒AND(計(jì)算機(jī)OR電腦)ANDNOT醫(yī)D1:…據(jù)報(bào)道,計(jì)算機(jī)病毒近日猖獗…D2:…小王雖然是學(xué)醫(yī)的,但對(duì)研究電腦病毒也很感興趣,最近發(fā)明了一種…D3:…計(jì)算機(jī)程序發(fā)現(xiàn)了愛滋病病毒的傳播途徑…D4:…最近我的電腦中病毒了…請(qǐng)問:哪些文檔會(huì)被檢索出來?布爾模型的優(yōu)點(diǎn)到目前為止,布爾模型是最常用的檢索模型,因?yàn)椋河捎诓樵兒唵?,因此容易理解通過使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果相當(dāng)有效的實(shí)現(xiàn)方法相當(dāng)于識(shí)別包含了一個(gè)某個(gè)特定term的文檔經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式布爾模型可以通過擴(kuò)展來包含排序的功能,即“擴(kuò)展的布爾模型”布爾模型存在的問題布爾模型被認(rèn)為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的結(jié)果文檔被返回非常剛性:“與”意味著全部;“或”意味著任何一個(gè)很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回很難對(duì)輸出進(jìn)行排序不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配很難進(jìn)行自動(dòng)的相關(guān)反饋如果一篇文檔被用戶確認(rèn)為相關(guān)或者不相關(guān),怎樣相應(yīng)地修改查詢式呢?無法體現(xiàn)文檔之間的細(xì)微差別相關(guān)度的大小只有兩個(gè)值,模型這種“非此即彼”的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差別向量空間模型向量空間模型(VectorSpaceModel,VSM)是由G·Salton等人在1958年提出的代表系統(tǒng)SMART(SystemfortheManipulationandRetrievalofText)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術(shù)研究的基礎(chǔ)向量空間模型向量模型通過分派非二值權(quán)重給查詢和文檔中的標(biāo)引詞來實(shí)現(xiàn)檢索目標(biāo)。這些權(quán)重用于計(jì)算系統(tǒng)中的每個(gè)文檔與用戶的查詢請(qǐng)求的相似程度,向量模型通過對(duì)文檔按照相似程度降序排列的方式,來實(shí)現(xiàn)文檔與查詢項(xiàng)的部分匹配。這樣做的結(jié)果中的文檔排列順序比通過布爾模型得到的結(jié)果要合理得多。文檔提問關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量匹配檢索到文獻(xiàn)向量空間模型的基本原理模型的描述文檔D(Document):泛指文檔或文檔中的一個(gè)片段(如文檔中的標(biāo)題、摘要、正文等)。索引項(xiàng)K(key):指出現(xiàn)在文檔中能夠代表文檔性質(zhì)的基本語言單位(如字、詞等),也就是通常所指的檢索詞,這樣一個(gè)文檔D就可以表示為D(k1,k2,…,kn),其中n就代表了檢索字的數(shù)量。d1:土豆的美容功效d2:土豆的栽培d3:土豆的后期加工K={土豆、美容、栽培、加工}
特征項(xiàng)權(quán)重Wk(KeyWeight):指特征項(xiàng)kn能夠代表文檔D能力的大小,體現(xiàn)了特征項(xiàng)在文檔中的重要程度。
相似度S(Similarity):指兩個(gè)文檔內(nèi)容相關(guān)程度的大小模型的特點(diǎn)基于關(guān)鍵詞(一個(gè)文本由一個(gè)關(guān)鍵詞列表組成)根據(jù)關(guān)鍵詞的出現(xiàn)頻率計(jì)算相似度例如:文檔的統(tǒng)計(jì)特性用戶規(guī)定一個(gè)詞項(xiàng)(key)集合,可以給每個(gè)詞項(xiàng)附加權(quán)重未加權(quán)的詞項(xiàng):Q=database;text;information加權(quán)的詞項(xiàng):Q=database0.5;text0.8;information0.2查詢式中沒有布爾條件根據(jù)相似度對(duì)輸出結(jié)果進(jìn)行排序支持自動(dòng)的相關(guān)反饋有用的詞項(xiàng)被添加到原始的查詢式中例如:Q
database;text;information;document
模型中的問題怎樣確定文檔中哪些詞是重要的詞?(索引項(xiàng))怎樣確定一個(gè)詞在某個(gè)文檔中或在整個(gè)文檔集中的重要程度?(權(quán)重)怎樣確定一個(gè)文檔和一個(gè)查詢式之間的相似度?索引項(xiàng)的選擇若干獨(dú)立的詞項(xiàng)被選作索引項(xiàng)(indexkeys)or
詞表vocabulary索引項(xiàng)代表了一個(gè)應(yīng)用中的重要詞項(xiàng)計(jì)算機(jī)科學(xué)圖書館中的索引項(xiàng)應(yīng)該是哪些呢?體系結(jié)構(gòu)總線計(jì)算機(jī)數(shù)據(jù)庫….XML計(jì)算機(jī)科學(xué)文檔集文檔集中的索引項(xiàng)這些索引項(xiàng)是不相關(guān)的(或者說是正交的)
,形成一個(gè)向量空間vectorspace向量空間模型定義:
在向量空間模型中,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij是一個(gè)大于0的非二值數(shù)。文檔Dj可以看做是一個(gè)向量:
Dj=(W1j,W2j,W3j………Wtj)其中,t是文檔集中所有標(biāo)引詞的數(shù)目。用戶查詢中的標(biāo)引詞也是有權(quán)重的,設(shè)Wiq是用戶檢索提問式(查詢)Q的標(biāo)引詞Ki的權(quán)重,且Wiq≥0,則查詢向量Q被定義成:
Q=(W1q,W2q,W3q…………Wtq)。衡量文檔和查詢的相關(guān)度轉(zhuǎn)化成計(jì)算文檔向量和查詢向量之間的相似度。一般使用文檔向量和查詢向量之間的夾角余弦值來計(jì)算它們之間的相似度。向量空間模型WijK1k2…KnD101…0D210.8…0.5……………Dn0.20…1文檔向量空間的表示:文檔D1(W11,W21,…Wn1)查詢Q(W1q,W2q,…Wnq)文檔D2(W12,W22,…Wn2)特征項(xiàng)1特征項(xiàng)2特征項(xiàng)3文檔向量空間模型:文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之間的相似度Sim可以表示如下:向量空間模型例子D1=2K1+3K2+5K3D2=3K1+7K2+K3Q=0K1+0K2+2K3文檔D1=2K1+3K2+5K3查詢Q=0K1+0K2+2K3文檔D2=3K1+7K2+K3特征項(xiàng)1特征項(xiàng)2特征項(xiàng)3文檔中關(guān)鍵詞的權(quán)重兩方面因素詞表達(dá)文檔內(nèi)容的能力tfij→關(guān)鍵詞的詞頻(關(guān)鍵詞tj在文檔di中的頻率)詞區(qū)分其所在文檔與其它文檔的能力dfj
→關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞tj的文檔數(shù)量)tf-idf(詞頻-逆文檔頻率)公式標(biāo)引詞的權(quán)重計(jì)算(TF-IDF)N為文檔集合,ni為包含標(biāo)引詞Ki的文檔篇數(shù),TFij表示標(biāo)引詞Ki在文檔Dj中出現(xiàn)的頻數(shù),則文檔Dj中標(biāo)引詞Ki的標(biāo)準(zhǔn)化頻率Fij為
Fij=TFij/maxj
TFij最大值是通過計(jì)算文檔Dj中出現(xiàn)的所有標(biāo)引詞來獲得的。如果標(biāo)引詞Ki沒有出現(xiàn)在文檔Dj中,則Fij=0。標(biāo)引詞Ki的IDF為IDFi=log(N/ni)標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij=Fij*IDFi向量空間模型例如:文檔總數(shù)為1000,出現(xiàn)關(guān)鍵詞k1文檔為100篇,出現(xiàn)關(guān)鍵詞k2文檔為500篇,出現(xiàn)關(guān)鍵詞k3文檔為800篇N=1000,n1=100,n2=500,n3=800根據(jù)公式:idfi=log(N/ni),可計(jì)算出idf1=3-2=1idf2=3–2.7=0.3idf3=3–2.9=0.1Idf越大,表明區(qū)別(分)文檔的能力越強(qiáng)。TF-IDF舉例說明
文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度?!盩FIDFTF-IDFTFIDFTF-IDF俄羅斯2較高高安全1中等高恐怖2較高高部門1較低低的2非常低很低加大1較低低頻繁1較低低打擊1中等高發(fā)生1較低低主義1較低低事件1較低低力度1中等高Idf計(jì)算示例查詢式的詞項(xiàng)權(quán)重如果詞項(xiàng)出現(xiàn)在查詢式中,則該詞項(xiàng)在查詢式中的權(quán)重為1,否則為0也可以用用戶指定查詢式中詞項(xiàng)的權(quán)重一個(gè)自然語言查詢式可以被看成一個(gè)文檔查詢式:“有沒有周杰倫的歌?”
會(huì)被轉(zhuǎn)換為:
<周杰倫,歌>查詢式:“請(qǐng)幫我找關(guān)于俄羅斯和車臣之間的戰(zhàn)爭以及車臣恐怖主義首腦的資料”
會(huì)被轉(zhuǎn)換為:
<俄羅斯2,車臣
2,戰(zhàn)爭1,恐怖主義1,首腦1>過濾掉了:“請(qǐng)幫我找”,“和”,“之間的”,“以及”,“的資料”兩個(gè)文檔之間的相似度可以同理計(jì)算由索引項(xiàng)構(gòu)成向量空間2個(gè)索引項(xiàng)構(gòu)成一個(gè)二維空間,一個(gè)文檔可能包含0,1或2個(gè)索引項(xiàng)di=0,0 (一個(gè)索引項(xiàng)也不包含)dj=0,0.7 (包含其中一個(gè)索引項(xiàng))dk=1,2
(包含兩個(gè)索引項(xiàng))類似的,3個(gè)索引項(xiàng)構(gòu)成一個(gè)三維空間,n個(gè)索引項(xiàng)構(gòu)成n維空間一個(gè)文檔或查詢式可以表示為n個(gè)元素的線性組合相似度計(jì)算相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間的相似程度,查詢式和文檔都是向量,各類相似度存在于:兩個(gè)文檔之間(文本分類,聚類)兩個(gè)查詢式之間(常問問題集)一個(gè)查詢式和一個(gè)文檔之間(檢索)人們?cè)岢龃罅康南嗨贫扔?jì)算方法,因?yàn)樽罴训南嗨贫扔?jì)算方法并不存在。通過計(jì)算查詢式和文檔之間的相似度可以根據(jù)預(yù)定的重要程度對(duì)檢索出來的文檔進(jìn)行排序可以通過強(qiáng)制設(shè)定某個(gè)閾值,控制被檢索出來的文檔的數(shù)量檢索結(jié)果可以被用于相關(guān)反饋中,以便對(duì)原始的查詢式進(jìn)行修正。(例如:將文檔向量和查詢式向量進(jìn)行結(jié)合)相似度度量–內(nèi)積(InnerProduct)文檔D
和查詢式Q
可以通過內(nèi)積進(jìn)行計(jì)算:sim(D
,Q)=
(dik
qk)dik
是文檔di中的詞項(xiàng)k
的權(quán)重,qk
是查詢式Q中詞項(xiàng)k的權(quán)重對(duì)于二值向量,內(nèi)積是查詢式中的詞項(xiàng)和文檔中的詞項(xiàng)相互匹配的數(shù)量對(duì)于加權(quán)向量,內(nèi)積是查詢式和文檔中相互匹配的詞項(xiàng)的權(quán)重乘積之和示例內(nèi)積的特點(diǎn)內(nèi)積值沒有界限不象概率值,要在(0,1)之間對(duì)長文檔有利內(nèi)積用于衡量有多少詞項(xiàng)匹配成功,而不計(jì)算有多少詞項(xiàng)匹配失敗長文檔包含大量獨(dú)立詞項(xiàng),每個(gè)詞項(xiàng)均多次出現(xiàn),因此一般而言,和查詢式中的詞項(xiàng)匹配成功的可能性就會(huì)比短文檔大。余弦向量度量法用向量夾角的余弦值表示向量的相似度夾角余弦值越大,相似度越高其實(shí)質(zhì)是利用向量長度對(duì)內(nèi)積進(jìn)行歸一化2t3t1t2D1D2Q1示例示例Jaccard系數(shù)法二值化的相似度度量向量空間模型的主要優(yōu)點(diǎn)對(duì)標(biāo)引詞的權(quán)重進(jìn)行了改進(jìn),其權(quán)重的計(jì)算可以通過統(tǒng)計(jì)的辦法自動(dòng)完成,使問題的繁雜性大為降低,從而改進(jìn)了檢索效率。把文檔和查詢本身簡化為標(biāo)引詞及其權(quán)重集合的向量表示,把對(duì)文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運(yùn)算。根據(jù)文檔和查詢之間的相似度對(duì)文獻(xiàn)進(jìn)行排序,有效地提高了檢索效率??梢詫?shí)現(xiàn)文檔自動(dòng)分類。(1)標(biāo)引詞仍然被認(rèn)為是相互獨(dú)立,會(huì)丟掉大量的文本結(jié)構(gòu)信息,降低語義準(zhǔn)確性。實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,非常有可能同時(shí)看到“科學(xué)”當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,有中等的可能性同時(shí)看到“商務(wù)”當(dāng)你在一個(gè)文檔中看到“商務(wù)”,只有很少的機(jī)會(huì)同時(shí)看到“科學(xué)”(2)相似度的計(jì)算量大,當(dāng)有新文檔加入時(shí),必須重新計(jì)算詞的權(quán)值。向量空間模型的主要缺點(diǎn)擴(kuò)展布爾模型擴(kuò)展布爾模型布爾模型和VSM各自有著自己的優(yōu)點(diǎn)和不足,能否將兩者結(jié)合起來,克服自身的缺點(diǎn),發(fā)揮相互的長處?1983年G.Salton及其學(xué)生提出一種基于布爾邏輯框架的混合布爾、向量特性的“擴(kuò)展布爾模型”。擴(kuò)展布爾模型布爾模型和向量空間模型相結(jié)合,先做布爾過濾,然后進(jìn)行排序:首先進(jìn)行布爾查詢將全部滿足布爾查詢的文檔匯集成一個(gè)文檔用向量空間法對(duì)布爾檢索結(jié)果進(jìn)行排序布爾過濾排序布爾查詢式向量空間模型查詢式文檔結(jié)果如果忽略布爾關(guān)系的話,向量空間查詢式和布爾查詢式是相同的先“布爾”,后“排序”存在的問題如果
“與”
應(yīng)用于布爾查詢式,結(jié)果集可能太窄,因而影響了后面的排序過程如果
“或”
應(yīng)用于布爾查詢式,
就和純向量空間模型沒有區(qū)別了在第一步,如何最佳地應(yīng)用布爾模型呢?提出擴(kuò)展布爾模型擴(kuò)展布爾模型假定文獻(xiàn)集合中的文獻(xiàn)Dj僅用兩個(gè)標(biāo)引詞Kx和Ky標(biāo)引,并且Kx和Ky允許被賦予一定的權(quán)值,其權(quán)值分別為Wx,j、Wy,j,權(quán)值的取值范圍為[0,1],權(quán)值越接近于1,說明該詞越能反映文本的內(nèi)容,反之,反映文本的內(nèi)容差一些。為了簡單起見,用x,y分別表示權(quán)值Wx,j、Wy,j。我們采用二維圖來表示文獻(xiàn)的提問,用距離的概念表示文獻(xiàn)與提問的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)擴(kuò)展布爾模型中的“或”關(guān)系給定一個(gè)或關(guān)系的查詢式:x
y假設(shè)文檔di中x和y的權(quán)重被歸一化在(0,1)區(qū)間內(nèi):wx,j=(tfx,j/maxl
tfl,j
)
(idfx/maxi
idfi)
sim(qor,
dj)=[(x2+y2)/2]0.5
wherex=
wx,j
andy=
wy,j
在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(1,1)幾個(gè)點(diǎn)的相關(guān)度都是1,擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為“所有詞都出現(xiàn)比只出現(xiàn)幾個(gè)詞更有價(jià)值”一個(gè)文檔在(1,1)處獲得最高的權(quán)重,此時(shí)意味著文檔包含了全部兩個(gè)查詢?cè)~,并且查詢?cè)~在文檔中的權(quán)重也是最高的函數(shù)sim()度量了從原點(diǎn)出發(fā)的文檔向量長度,距離越大,相似性越大。擴(kuò)展布爾模型中的“與”關(guān)系給定一個(gè)聯(lián)合的查詢式
x
ysim(qand,
dj)=1{[(1
x)2+(1
y)2]/2}0.5函數(shù)sim()表示從(1,1)
出發(fā)到d的向量長度(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的點(diǎn)dx
y在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(0,0)幾個(gè)點(diǎn)的相關(guān)度都是0,擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為“出現(xiàn)幾個(gè)詞總比一詞都不出現(xiàn)更有價(jià)值”
函數(shù)sim()度量了點(diǎn)(wx,wy)到點(diǎn)(1,1)的距離。距離越小,相似性越大。示例觀察如果權(quán)值是布爾型的,x出現(xiàn)在文檔dj中,則x在文檔dj中具有權(quán)重1,否則為0當(dāng)dj
包含x和y時(shí)
sim(qand,dj)=sim(qor,dj)=1當(dāng)dj
既不包含x
也不包含y時(shí)
sim(qand,dj)=sim(qor,dj)=0當(dāng)dj
包含x
和y二者之一時(shí)
sim(qand,dj)=1
1/20.5=0.293
sim(qor,dj)=1/20.5=0.707(1,1)wx,jwy,j(1,0)(0,1)(0,0)觀察一個(gè)詞項(xiàng)的存在將對(duì)“或”關(guān)系查詢式提供0.707的增益值,但對(duì)“與”關(guān)系查詢式僅提供0.293的增益值一個(gè)詞項(xiàng)不存在,將給“與”關(guān)系的查詢式提供0.707的罰分當(dāng)x
和y
有權(quán)值0.5,sim(qand,d)=sim(qor,d)=0.5在一個(gè)“與”關(guān)系查詢中,兩個(gè)詞項(xiàng)的權(quán)重均為0.5,則相似度為0.5。其中一個(gè)權(quán)重為1,另一個(gè)為0,相似度為0.293。在“或關(guān)系”查詢中,情況恰好相反在“與關(guān)系”查詢中,如果一個(gè)詞項(xiàng)的權(quán)重低于0.5,將給相似度貢獻(xiàn)一個(gè)較大的罰分p-norm模型擴(kuò)展布爾模型可以被泛化為m
個(gè)查詢項(xiàng):
sim(qor,d)=[(x12+x22+...+xm2)/m]0.5
sim(qand,d)=1{[(1
x1)2+(1
x2)2+...+(1
xm)2]/m}0.5它可以被進(jìn)一步地
泛化為p-normmodel:
sim(qor,d)=[(x1p+x2p
+...+xmp
)/m]1/p
sim(qand,d)=1{[(1
x1)p+(1
x2)p+...+(1
xm)p]/m}1/p當(dāng)p=1時(shí),sim(qor,d)=sim(qand,d)=(x1+x2
+...+xm
)/m通過語詞-文獻(xiàn)權(quán)值的和來求合取和析取查詢的值,和向量空間中的內(nèi)積相似當(dāng)p=,sim(qor,d)=max(xi);sim(qand,d)=min(xi)模糊邏輯模型(Fuzzylogicmodel)擴(kuò)展布爾模型的特點(diǎn):與傳統(tǒng)的布爾檢索中的倒排文檔技術(shù)相兼容,支持使用標(biāo)準(zhǔn)布爾邏輯表達(dá)的提問式結(jié)構(gòu);允許在文檔和提問式中進(jìn)行詞加權(quán)處理;支持按相似度的大小排序輸出檢索結(jié)果;通過調(diào)整參數(shù)p的值,可靈活選擇并得到不同檢索結(jié)果。概率模型概率論模型主要基于概率論原理來理解和解決信息檢索問題。在概率論的基礎(chǔ)上,目前提出的檢索模型主要有經(jīng)典概率模型(二值獨(dú)立檢索模型,BinaryIndependenceRetrieval,BIR)、基于Bayesian網(wǎng)絡(luò)的推理網(wǎng)絡(luò)模型(InterenceNetworkModel)和信念網(wǎng)絡(luò)模型(BeliefNetworkModel)等。概率模型經(jīng)典概率模型最早在1976年由英國城市大學(xué)Robertson和Sparck-Jones提出?;舅枷耄航o定一個(gè)用戶提問,則檢索系統(tǒng)中存在一個(gè)與該提問相關(guān)的理論命中結(jié)果集R。如果能已知R的主要特征及其描述,則用戶的檢索要求便不難實(shí)現(xiàn)。事實(shí)上,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 3-1-Carboxyvinyloxy-benzoic-acid-生命科學(xué)試劑-MCE-7834
- 二零二五年度船舶入股船舶船員培訓(xùn)合作協(xié)議
- 2025年度時(shí)尚產(chǎn)品銷售總額提成與時(shí)尚趨勢合作合同
- 2025年度離職員工保密協(xié)議及競業(yè)禁止條款合同
- 二零二五年度班組承包市場營銷合作協(xié)議
- 2025年度酒店客房裝修風(fēng)格設(shè)計(jì)與施工合同
- 施工現(xiàn)場施工防生物毒素泄漏制度
- 施工日志填寫中的常見錯(cuò)誤及避免方法
- 現(xiàn)代科技下的學(xué)生心理發(fā)展研究
- 學(xué)校如何實(shí)施綠色化教學(xué)與管理
- 《宮頸癌篩查》課件
- 2024年聯(lián)勤保障部隊(duì)第九四〇醫(yī)院社會(huì)招聘考試真題
- 第二章《有理數(shù)的運(yùn)算》單元備課教學(xué)實(shí)錄2024-2025學(xué)年人教版數(shù)學(xué)七年級(jí)上冊(cè)
- DB31-T 596-2021 城市軌道交通合理通風(fēng)技術(shù)管理要求
- 華為智慧園區(qū)解決方案介紹
- 2022年江西省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 【招投標(biāo)管理探究的國內(nèi)外文獻(xiàn)綜述2600字】
- 一例蛇串瘡患者個(gè)案護(hù)理課件
- DB63-T 2269-2024 公路建設(shè)項(xiàng)目安全生產(chǎn)費(fèi)用清單計(jì)量規(guī)范
- 低壓電工理論考試題庫低壓電工考試題
- 國家電網(wǎng)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論