![信息檢索模型課件_第1頁(yè)](http://file4.renrendoc.com/view/9848def39d4ca4edc3e38dda1fc8aac6/9848def39d4ca4edc3e38dda1fc8aac61.gif)
![信息檢索模型課件_第2頁(yè)](http://file4.renrendoc.com/view/9848def39d4ca4edc3e38dda1fc8aac6/9848def39d4ca4edc3e38dda1fc8aac62.gif)
![信息檢索模型課件_第3頁(yè)](http://file4.renrendoc.com/view/9848def39d4ca4edc3e38dda1fc8aac6/9848def39d4ca4edc3e38dda1fc8aac63.gif)
![信息檢索模型課件_第4頁(yè)](http://file4.renrendoc.com/view/9848def39d4ca4edc3e38dda1fc8aac6/9848def39d4ca4edc3e38dda1fc8aac64.gif)
![信息檢索模型課件_第5頁(yè)](http://file4.renrendoc.com/view/9848def39d4ca4edc3e38dda1fc8aac6/9848def39d4ca4edc3e38dda1fc8aac65.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第七章信息檢索模型2023/7/311信息存儲(chǔ)與檢索第七章信息檢索模型2023/7/311信息存儲(chǔ)與檢索第七章信息檢索模型7.1信息檢索模型概述7.2經(jīng)典的信息檢索模型7.3集合論檢索模型7.4代數(shù)檢索模型7.5概率檢索模型7.6結(jié)構(gòu)化文本檢索模型7.7超文本檢索模型2023/7/312信息存儲(chǔ)與檢索*第七章信息檢索模型7.1信息檢索模型概述2023/77.1信息檢索模型概述7.1.1信息檢索概述信息檢索是一門研究從一定規(guī)模的文檔庫(kù)中找出滿足用戶需求的信息的學(xué)問(wèn),它指的是對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化信息的檢索,半結(jié)構(gòu)化信息檢索人們通常稱為文本信息檢索,而非結(jié)構(gòu)化信息檢索多指多媒體信息檢索。信息檢索是對(duì)信息集合與需求集合的匹配和選擇。
信息檢索基本原理:用戶通過(guò)一些列關(guān)鍵詞來(lái)闡明自己的信息需求,信息檢索系統(tǒng)則檢索與用戶查詢最為匹配的文獻(xiàn),同時(shí)借助某種相關(guān)性指標(biāo)對(duì)檢索出的文獻(xiàn)進(jìn)行排序。2023/7/313信息存儲(chǔ)與檢索*7.1信息檢索模型概述7.1.1信息檢索概述2023/7.1.2信息檢索模型1、定義信息檢索模型的核心問(wèn)題是檢測(cè)哪些文獻(xiàn)相關(guān),哪些文獻(xiàn)不相關(guān),即判斷一篇文獻(xiàn)是否與用戶的查詢條件相關(guān),以及相關(guān)的程度。信息檢索的模型,就是運(yùn)用數(shù)學(xué)的語(yǔ)言和工具,對(duì)信息檢索系統(tǒng)中的信息及其處理過(guò)程加以翻譯和抽象,表述為某種數(shù)學(xué)公式,再經(jīng)過(guò)演繹、推斷、解釋和實(shí)際檢驗(yàn),反過(guò)來(lái)指導(dǎo)信息檢索實(shí)踐。2023/7/314信息存儲(chǔ)與檢索*7.1.2信息檢索模型1、定義2023/7/314信息存儲(chǔ)2、信息檢索模型的組成(1)用戶的需求表示:包括用戶查詢信息的獲取與表示。(2)文檔的表示:文檔內(nèi)容的識(shí)別與表示。(3)匹配機(jī)制:用戶需求表示與文檔表示之間的查詢機(jī)制,以及它們之間相關(guān)性排序的準(zhǔn)則和函數(shù)表示。(4)反饋修正:對(duì)檢索結(jié)果進(jìn)行優(yōu)化。7.1.2信息檢索模型2023/7/315信息存儲(chǔ)與檢索*2、信息檢索模型的組成7.1.2信息檢索模型2023/7/結(jié)構(gòu)化文本模型集合論模型文本檢索模型非重疊鏈表模型鄰近節(jié)點(diǎn)模型布爾模型向量模型概率模型瀏覽模型超文本模型基于本體的模型經(jīng)典模型超文本模型知識(shí)檢索模型擴(kuò)展布爾模型模糊集合模型廣義向量模型潛語(yǔ)義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型代數(shù)模型概率模型3、信息檢索模型的類型7.1.2信息檢索模型2023/7/316信息存儲(chǔ)與檢索*結(jié)構(gòu)化文本模型集合論模型文非重疊鏈表模型布爾模型瀏覽模型基于7.2經(jīng)典的信息檢索模型7.2.1定義及假設(shè)定義:令t表示文檔集里所用不同標(biāo)引詞的數(shù)目,Ki表示一個(gè)標(biāo)引詞,K={K1,K2K3,…Kt}表示所有標(biāo)引詞的集合,對(duì)于文檔Dj中存在的標(biāo)引詞Ki,其權(quán)重Wij>0;對(duì)于文檔Dj中沒(méi)有的標(biāo)引詞Ki,其權(quán)重Wij=0。這樣就可以將文檔Dj表示成一個(gè)向量Dj=(W1j,W2j,W3j…Wtj),向量Dj的第i維就對(duì)應(yīng)項(xiàng)Ki在文檔Dj中的權(quán)重。2023/7/317信息存儲(chǔ)與檢索*7.2經(jīng)典的信息檢索模型7.2.1定義及假設(shè)2023/7.2.1定義及假設(shè)在經(jīng)典的信息檢索模型中,還存在以下一些普遍性假設(shè):(1)被檢索對(duì)象主要為文檔對(duì)象。(2)標(biāo)引詞是相互獨(dú)立的。(3)用戶檢索是根據(jù)文檔內(nèi)容的表示及所需信息的表示進(jìn)行的。(4)所有文檔的內(nèi)容和所需信息的表示都是非精確的。2023/7/318信息存儲(chǔ)與檢索*7.2.1定義及假設(shè)在經(jīng)典的信息檢索模型中,還存在以下一7.2經(jīng)典的信息檢索模型7.2.2布爾檢索模型布爾(Boolean)模型是基于集合論和布爾代數(shù)的一種簡(jiǎn)單檢索模型。用布爾表達(dá)式表示用戶提問(wèn),通過(guò)對(duì)文獻(xiàn)標(biāo)識(shí)與提問(wèn)式的邏輯運(yùn)算來(lái)檢索文獻(xiàn)。在傳統(tǒng)的布爾模型中,每一文獻(xiàn)用一組標(biāo)引詞表示。Dj=(K1,K2,K3,…,Km)表示文獻(xiàn)Dj,式中K1,K2,K3,…,Km表示文獻(xiàn)Dj中的所有標(biāo)引詞集合。
2023/7/319信息存儲(chǔ)與檢索*7.2經(jīng)典的信息檢索模型7.2.2布爾檢索模型20237.2.2布爾檢索模型文檔與標(biāo)引詞建立一個(gè)布爾關(guān)系。用若干標(biāo)引詞的布爾表達(dá)式來(lái)表達(dá)和解釋查詢Q。對(duì)于一個(gè)表示為Q=(K1ANDK2)OR(K3AND(NOTK4))的提問(wèn)式,系統(tǒng)的響應(yīng)必須是這樣一組文獻(xiàn)集合:這些文獻(xiàn)中都含有標(biāo)引詞K1和K2,或者含有標(biāo)引詞K3但不含有標(biāo)引詞K4。常用的布爾邏輯組配運(yùn)算符有:邏輯“與”(AND,常用符號(hào)“∧”表示)、邏輯“或”(OR,常用符號(hào)“∨”表示)、邏輯“非”(NOT,常用符號(hào)“-”表示)。2023/7/3110信息存儲(chǔ)與檢索*7.2.2布爾檢索模型文檔與標(biāo)引詞建立一個(gè)布爾關(guān)系。用若干布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻(xiàn)中要么出現(xiàn)、要么不出現(xiàn),因此標(biāo)引詞Ki在文檔Dj中的權(quán)重全部被設(shè)為二值數(shù)據(jù),即Wij∈(0,1)。用戶提交的查詢條件由若干個(gè)標(biāo)引詞用與、或、非等邏輯符號(hào)相聯(lián)結(jié),在布爾檢索模型中被表示成了布爾表達(dá)式Q=(K1,K2,…),其本質(zhì)可以表示為多個(gè)標(biāo)引詞權(quán)值的合取向量的析取Qi(Qi為表達(dá)式Q的任意合取向量),則文獻(xiàn)Dj和查詢Q的相關(guān)度表示為2023/7/3111信息存儲(chǔ)與檢索*布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻(xiàn)中要么出現(xiàn)、要么不出布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方面的文檔,其相應(yīng)的查詢表達(dá)式為:Q=檢索and(布爾or概率not向量),那么Q可以在其相應(yīng)的(檢索,布爾,概率,向量)標(biāo)引詞向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文檔Dj的向量如果與這中間一個(gè)相等,那么即可認(rèn)為他們之間存在相似關(guān)系,而這種相互關(guān)系也是布爾值,即sim(Q,Dj)只能為0或1。這也就是布爾模型的局限性所在,描述所有關(guān)系都是布爾值,而現(xiàn)實(shí)中文檔與標(biāo)引字或者標(biāo)引字與查詢語(yǔ)句之間的關(guān)系都不可能只是有關(guān)系或者沒(méi)關(guān)系,換句話說(shuō)布爾模型中無(wú)法描述關(guān)系的密切程度。
2023/7/3112信息存儲(chǔ)與檢索*布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方簡(jiǎn)單實(shí)例:Q=病毒AND(計(jì)算機(jī)OR電腦)ANDNOT醫(yī)D1:…據(jù)報(bào)道,計(jì)算機(jī)病毒近日猖獗…D2:…小王雖然是學(xué)醫(yī)的,但對(duì)研究電腦病毒也很感興趣,最近發(fā)明了一種…D3:…計(jì)算機(jī)程序發(fā)現(xiàn)了愛(ài)滋病病毒的傳播途徑…D4:…最近我的電腦中病毒了…請(qǐng)問(wèn):哪些文檔會(huì)被檢索出來(lái)?2023/7/3113信息存儲(chǔ)與檢索*簡(jiǎn)單實(shí)例:2023/7/3113信息存儲(chǔ)與檢索*布爾檢索模型Boolean模型存在著一些缺陷:第一,它的檢索策略是基于二元判定標(biāo)準(zhǔn)(例如,對(duì)于檢索來(lái)說(shuō)一篇文檔只有相關(guān)和不相關(guān)兩種狀態(tài)),缺乏文檔分級(jí)(rank)的概念,限制了檢索功能。第二,雖然布爾表達(dá)式具有精確的語(yǔ)義,但常常很難將用戶的信息需求轉(zhuǎn)換為布爾表達(dá)式,實(shí)際上大多數(shù)檢索用戶發(fā)現(xiàn)在把他們所需的查詢信息轉(zhuǎn)換為布爾時(shí)并不是那么容易。2023/7/3114信息存儲(chǔ)與檢索*布爾檢索模型Boolean模型存在著一些缺陷:2023/7/7.2經(jīng)典的信息檢索模型7.2.3向量空間模型向量模型通過(guò)分派非二值權(quán)重給查詢和文檔中的標(biāo)引詞來(lái)實(shí)現(xiàn)檢索目標(biāo)。這些權(quán)重用于計(jì)算系統(tǒng)中的每個(gè)文檔與用戶的查詢請(qǐng)求的相似程度,向量模型通過(guò)對(duì)文檔按照相似程度降序排列的方式,來(lái)實(shí)現(xiàn)文檔與查詢項(xiàng)的部分匹配。這樣做的結(jié)果中的文檔排列順序比通過(guò)布爾模型得到的結(jié)果要合理得多。2023/7/3115信息存儲(chǔ)與檢索*7.2經(jīng)典的信息檢索模型7.2.3向量空間模型2027.2.3向量空間模型定義:
在向量空間模型中,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij是一個(gè)大于0的非二值數(shù)。文檔Dj可以看做是一個(gè)向量:
Dj=(W1j,W2j,W3j………Wtj)其中,t是文檔集中所有標(biāo)引詞的數(shù)目。
用戶查詢中的標(biāo)引詞也是有權(quán)重的,設(shè)Wiq是用戶檢索提問(wèn)式(查詢)Q的標(biāo)引詞Ki的權(quán)重,且Wiq≥0,則查詢向量Q被定義成:
Q=(W1q,W2q,W3q…………Wtq)。衡量文檔和查詢的相關(guān)度轉(zhuǎn)化成計(jì)算文檔向量和查詢向量之間的相似度。一般使用文檔向量和查詢向量之間的夾角余弦值來(lái)計(jì)算它們之間的相似度。2023/7/3116信息存儲(chǔ)與檢索*7.2.3向量空間模型定義:2023/7/3116信息存7.2.3向量空間模型WijK1k2…KnD101…0D210.8…0.5……………Dn0.20…1文檔向量空間的表示:文檔D1(W11,W21,…Wn1)查詢Q(W1q,W2q,…Wnq)文檔D2(W12,W22,…Wn2)特征項(xiàng)1特征項(xiàng)2特征項(xiàng)3文檔向量空間模型:2023/7/3117信息存儲(chǔ)與檢索*7.2.3向量空間模型WijK1k2…KnD101…0D
文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之間的相似度Sim可以表示如下:7.2.3向量空間模型2023/7/3118信息存儲(chǔ)與檢索*文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之例子D1=2K1+3K2+5K3D2=3K1+7K2+K3Q=0K1+0K2+2K3文檔D1=2K1+3K2+5K3查詢Q=0K1+0K2+2K3文檔D2=3K1+7K2+K3特征項(xiàng)1特征項(xiàng)2特征項(xiàng)32023/7/3119信息存儲(chǔ)與檢索*例子D1=2K1+3K2+5K3文檔D1=2K1標(biāo)引詞的權(quán)重計(jì)算(TF-IDF)N為文檔集合,ni為包含標(biāo)引詞Ki的文檔篇數(shù),TFij表示標(biāo)引詞Ki在文檔Dj中出現(xiàn)的頻數(shù),則文檔Dj中標(biāo)引詞Ki的標(biāo)準(zhǔn)化頻率Fij為Fij=TFij/maxjTFij最大值是通過(guò)計(jì)算文檔Dj中出現(xiàn)的所有標(biāo)引詞來(lái)獲得的。如果標(biāo)引詞Ki沒(méi)有出現(xiàn)在文檔Dj中,則Fij=0。標(biāo)引詞Ki的IDF為IDFi=log(N/ni)標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij=Fij*IDFi7.2.3向量空間模型2023/7/3120信息存儲(chǔ)與檢索*標(biāo)引詞的權(quán)重計(jì)算(TF-IDF)7.2.3向量空間模型2TF-IDF舉例說(shuō)明文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度?!盩FIDFTF-IDFTFIDFTF-IDF俄羅斯2較高高安全1中等高恐怖的2較高高部門1較低低的2非常低很低加大1較低低頻繁1較低低打擊1中等高發(fā)生1較低低主義1較低低事件1較低低力度1中等高2023/7/3121信息存儲(chǔ)與檢索*TF-IDF舉例說(shuō)明文本:“俄羅斯頻繁發(fā)生恐怖事7.2.3向量空間模型向量空間模型的主要優(yōu)點(diǎn):對(duì)標(biāo)引詞的權(quán)重進(jìn)行了改進(jìn),其權(quán)重的計(jì)算可以通過(guò)統(tǒng)計(jì)的辦法自動(dòng)完成,使問(wèn)題的繁雜性大為降低,從而改進(jìn)了檢索效率。把文檔和查詢本身簡(jiǎn)化為標(biāo)引詞及其權(quán)重集合的向量表示,把對(duì)文檔內(nèi)容和查詢要求的處理簡(jiǎn)化為向量空間中向量的運(yùn)算。根據(jù)文檔和查詢之間的相似度對(duì)文獻(xiàn)進(jìn)行排序,有效地提高了檢索效率??梢詫?shí)現(xiàn)文檔自動(dòng)分類。2023/7/3122信息存儲(chǔ)與檢索*7.2.3向量空間模型向量空間模型的主要優(yōu)點(diǎn):2023/向量空間模型的主要缺點(diǎn):(1)標(biāo)引詞仍然被認(rèn)為是相互獨(dú)立,會(huì)丟掉大量的文本結(jié)構(gòu)信息,降低語(yǔ)義準(zhǔn)確性。(2)相似度的計(jì)算量大,當(dāng)有新文檔加入時(shí),必須重新計(jì)算詞的權(quán)值。7.2.3向量空間模型2023/7/3123信息存儲(chǔ)與檢索*向量空間模型的主要缺點(diǎn):7.2.3向量空間模型2023/7.2經(jīng)典的信息檢索模型7.2.4概率模型1、基本思想用戶提出了查詢,就有一個(gè)由相關(guān)文檔構(gòu)成的集合,該集合只包括與查詢完全相關(guān)的文檔而不包括其他不相關(guān)的文檔,稱該集合為理想結(jié)果集合,記為R。如果知道R的特征,就可以找到所有的相關(guān)文檔,排除所有的無(wú)關(guān)文檔。因此,可以把查詢看成一個(gè)尋找R的特征的過(guò)程。2023/7/3124信息存儲(chǔ)與檢索*7.2經(jīng)典的信息檢索模型7.2.4概率模型2023/7.2.4概率模型
在第一次查詢時(shí)并不知道R的特征,只能去估計(jì)R的特征來(lái)進(jìn)行查詢。第一次查詢完成后,可以讓用戶判斷一下檢索到的文檔哪些是相關(guān)文檔,根據(jù)用戶的判斷,可以更精確地估計(jì)R的特征。然后系統(tǒng)利用該信息重新定義理想結(jié)果集合的概率描述;重復(fù)以上操作,就會(huì)越來(lái)越接近真正的結(jié)果文檔集。估計(jì)R的特征進(jìn)行檢索用戶判斷2023/7/3125信息存儲(chǔ)與檢索*7.2.4概率模型在第一次查詢時(shí)并不知道R的7.2.4概率模型2、相關(guān)概念貝葉斯定理:詞條的獨(dú)立假設(shè):P(AB)=P(A)P(B)
當(dāng)且僅當(dāng)A與B相互獨(dú)立.若文檔中的各個(gè)索引詞相互獨(dú)立,則有P(Dj)=P(k1)…P(kt)
2023/7/3126信息存儲(chǔ)與檢索*7.2.4概率模型2、相關(guān)概念2023/7/3126信息7.2.4概率模型3、定義:對(duì)于概率檢索模型而言,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij∈{0,1},同時(shí)用戶查詢中的標(biāo)引詞Wiq∈{0,1},查詢Q是標(biāo)引詞空間的一個(gè)子集,用R表示已知的相關(guān)文獻(xiàn)集,用表示R的補(bǔ)集,條件概率P(R∣Dj)表示文檔Dj與查詢Q相關(guān)的概率,條件概率P(∣Dj)表示文檔Dj與查詢Q不相關(guān)的概率。文獻(xiàn)Dj與查詢Q的相似度Sim(Dj,Q)可以定義為兩者的比值,即:2023/7/3127信息存儲(chǔ)與檢索*7.2.4概率模型3、定義:2023/7/3127信息存7.2.4概率模型Sim(Dj,Q)可以近似的表示為:因?yàn)榻?jīng)典的信息檢索模型中假設(shè)標(biāo)引詞之間無(wú)相關(guān)關(guān)系,是獨(dú)立的,則Sim(Dj,Q)可以表示為:取對(duì)數(shù),在相同背景下,忽略對(duì)所有因子保持恒定不變的因子,則有這是概率模型中排序計(jì)算的主要表達(dá)式。
2023/7/3128信息存儲(chǔ)與檢索*7.2.4概率模型Sim(Dj,Q)可以近似的表示為:27.2.4概率模型對(duì)我們的初始估計(jì)R集合相關(guān)的概率賦予初始值:ni為包含標(biāo)引詞Ki的文獻(xiàn)數(shù)目;N為集合中的文獻(xiàn)總數(shù)。初始值確定后,根據(jù)與查詢Q相關(guān)的大小進(jìn)行初步排序,取前若干個(gè)文檔作為相關(guān)查詢集合。之后通過(guò)如下方法進(jìn)行改進(jìn)。2023/7/3129信息存儲(chǔ)與檢索*7.2.4概率模型對(duì)我們的初始估計(jì)R集合相關(guān)的概率賦予初7.2.4概率模型用V表示概率模型初步檢出并經(jīng)過(guò)排序的文檔子集,Vi表示V中包含索引詞ki的文檔集合。根據(jù)V和Vi中包含標(biāo)引詞Ki的文獻(xiàn)數(shù)目來(lái)改進(jìn)初始值,通過(guò)如下假設(shè)完成:根據(jù)已檢索出的文獻(xiàn)中標(biāo)引詞Ki的分布來(lái)估計(jì)的根據(jù)未檢索出的文獻(xiàn)都是不相關(guān)的來(lái)估計(jì)這樣就形成了一個(gè)檢索和學(xué)習(xí)的迭代過(guò)程,也就是概率檢索模型。2023/7/3130信息存儲(chǔ)與檢索*7.2.4概率模型用V表示概率模型對(duì)較小的V和Vi,如V=1,Vi=0,上述計(jì)算會(huì)出現(xiàn)問(wèn)題,所以做以下改進(jìn):也可以為:7.2.4概率模型2023/7/3131信息存儲(chǔ)與檢索*對(duì)較小的V和Vi,如V=1,Vi=0,上述計(jì)算會(huì)出現(xiàn)問(wèn)題,所7.3集合論檢索模型7.3.1模糊集合檢索模型從信息檢索的本質(zhì)上講,文檔和提問(wèn)之間的匹配處理是一個(gè)近似過(guò)程,系統(tǒng)中的每一個(gè)標(biāo)引詞都對(duì)應(yīng)著一個(gè)模糊的命中文檔集合,而每一篇文檔對(duì)于這個(gè)命中集合來(lái)說(shuō),又都具有各自不同的隸屬度值(通常是小于1的)。隸屬度用詞頻加權(quán)法、反文獻(xiàn)頻率加權(quán)法、詞頻-反文獻(xiàn)頻率加權(quán)法等方法確定。將標(biāo)引詞和它在對(duì)應(yīng)文獻(xiàn)中的隸屬度一起作為集合論標(biāo)引的一個(gè)有序?qū)Αz索時(shí)通過(guò)匹配運(yùn)算,得到檢索提問(wèn)詞在每篇文獻(xiàn)中的隸屬度,根據(jù)隸屬度的大小對(duì)文獻(xiàn)排序。
2023/7/3132信息存儲(chǔ)與檢索*7.3集合論檢索模型7.3.1模糊集合檢索模型20237.3集合論檢索模型模糊集合論對(duì)經(jīng)典集合論的推廣,主要表現(xiàn)在它把元素屬于集合的概念模糊化,承認(rèn)論域上存在既不完全屬于某集合、又不完全不屬于某集合的元素,即變經(jīng)典集合論“絕對(duì)的”屬于概念為“相對(duì)的”屬于概念;同時(shí),又進(jìn)一步把屬于概念數(shù)量化,承認(rèn)論域上的不同元素對(duì)于同一集合具有不同的隸屬程度,引入了隸屬度(membership)的概念。模糊集合的嚴(yán)格定義可以表述如下:論域U到實(shí)區(qū)間[0,1]的任一映射μA:U→[0,1],對(duì)于任意x∈U,x→μA(x)都確定U上的一個(gè)模糊集合A,μA稱做A的隸屬函數(shù),μA(x)為元素x對(duì)A的隸屬度。2023/7/3133信息存儲(chǔ)與檢索*7.3集合論檢索模型模糊集合論對(duì)經(jīng)
假設(shè)U={0,1,2,...,9}為代表一個(gè)家庭中,所可能擁有子女個(gè)數(shù)的集合,令三個(gè)模糊集合定義為A:子女?dāng)?shù)眾多,B:子女?dāng)?shù)適中,C:子女?dāng)?shù)很少,其歸屬函數(shù)的定義如表所示。
子女?dāng)?shù)子女眾多(A)子女適中(B)子女很少(C)00011001200.20.8300.70.24010.150.10.7060.30.2070.800810091002023/7/3134信息存儲(chǔ)與檢索*假設(shè)U={0,1,2,...,9}模糊集合理論對(duì)于表示和解決現(xiàn)實(shí)社會(huì)中存在的許多模糊和不精確問(wèn)題非常有效,并已在許多領(lǐng)域取得廣泛應(yīng)用,其中就包括在信息檢索領(lǐng)域中的成功應(yīng)用。以下選擇奧加娃(Y.Ogawa)等人提出的模糊檢索模型,對(duì)其基本原理進(jìn)行介紹。(1)標(biāo)引詞關(guān)聯(lián)矩陣(2)文檔的隸屬度(3)用戶提問(wèn)及表示7.3.1模糊集合檢索模型2023/7/3135信息存儲(chǔ)與檢索*模糊集合理論對(duì)于表示和解決現(xiàn)實(shí)社會(huì)中存在的許多模糊和不精確問(wèn)(1)標(biāo)引詞關(guān)聯(lián)矩陣所謂標(biāo)引詞關(guān)聯(lián)矩陣,是指以標(biāo)引詞集合K中的元素作為行、列,標(biāo)引詞之間語(yǔ)義關(guān)系作為元素值的一個(gè)詞-詞矩陣。假設(shè)關(guān)聯(lián)矩陣用Ct*t表示,矩陣元素cil表示標(biāo)引詞ki、kl之間的關(guān)聯(lián)因子,其值用如下公式計(jì)算:Cil=nil/(ni+nl–nil)式中,ni、nl分別表示文檔集合D中含有索引詞ki和kl的文檔數(shù),而nil表示D中同時(shí)含有索引詞ki、kl的文檔數(shù)。7.3.1模糊集合檢索模型2023/7/3136信息存儲(chǔ)與檢索*(1)標(biāo)引詞關(guān)聯(lián)矩陣7.3.1模糊集合檢索模型2023/77.3.1模糊集合檢索模型(2)文檔的隸屬度在信息檢索處理中,對(duì)于每一個(gè)標(biāo)引詞來(lái)說(shuō),都存在一個(gè)模糊的文檔集合與之相關(guān)。定義與標(biāo)引詞ki相關(guān)的模糊文檔集合為Di,對(duì)于任一文檔dj,其隸屬于集合Di的隸屬度值可以通過(guò)下式計(jì)算:μij=1-∏(1-cil
)如果文檔dj的詞與Ki有聯(lián)系,那么該文檔屬于與Ki相關(guān)聯(lián)的模糊集。無(wú)論何時(shí),文檔dj中只要存在一個(gè)索引詞Kl與索引詞Ki有強(qiáng)聯(lián)系(如cil=1),那么μij=1,并且我們說(shuō)索引Ki對(duì)于文檔dj來(lái)說(shuō)是一個(gè)好的模糊索引。相反,當(dāng)dj中的所有索引詞都與Ki幾乎都沒(méi)有聯(lián)系時(shí),我們說(shuō)索引Ki對(duì)于文檔dj來(lái)說(shuō)不是一個(gè)好的模糊索引。2023/7/3137信息存儲(chǔ)與檢索*7.3.1模糊集合檢索模型(2)文檔的隸屬度2023/7(3)用戶提問(wèn)及表示在模糊檢索模型中,用戶的檢索提問(wèn)仍像布爾模型一樣,用布爾邏輯式表達(dá)。進(jìn)一步地,布爾表達(dá)式還要轉(zhuǎn)換為等價(jià)的析取范式形式。舉例來(lái)說(shuō),查詢寫成這樣的離散的標(biāo)準(zhǔn)形式,其中每一組都是關(guān)聯(lián)于三元組(ka,kb,kc)的一個(gè)(0,1)權(quán)重向量。這些(0,1)權(quán)重向量都是
的連續(xù)組件。設(shè)cci為第i個(gè)連續(xù)組件的一個(gè)引用。那么,其中p是中連續(xù)組件的個(gè)數(shù)。2023/7/3138信息存儲(chǔ)與檢索*(3)用戶提問(wèn)及表示2023/7/3138信息存儲(chǔ)與檢索*集合論檢索模型考慮查詢,設(shè)為關(guān)聯(lián)于索引的文檔模糊集。作為示例,我們不妨設(shè)該集合由所有隸屬度值大于某一閾值K的文檔組成。進(jìn)而,設(shè)是的補(bǔ)集。模糊集與(非)相關(guān)聯(lián)。相似地,我們可以定義與、相關(guān)聯(lián)的模糊集、。由于所有的集合都是模糊集,因此一個(gè)文檔dj屬于集合,即使其文本中根本沒(méi)有提到。2023/7/3139信息存儲(chǔ)與檢索*集合論檢索模型考慮查詢查詢模糊集合是所有與查詢組件相關(guān)聯(lián)的模糊集的并集。文檔dj關(guān)于模糊查詢集的隸屬度計(jì)算如下:2023/7/3140信息存儲(chǔ)與檢索*查詢模糊集合是所有與查詢組件相關(guān)聯(lián)的模糊集的并集。文7.3集合論檢索模型7.3.2擴(kuò)展布爾模型布爾模型和向量空間模型相結(jié)合,先做布爾過(guò)濾,然后進(jìn)行排序:首先進(jìn)行布爾查詢將全部滿足布爾查詢的文檔匯集成一個(gè)文檔用向量空間法對(duì)布爾檢索結(jié)果進(jìn)行排序布爾過(guò)濾排序布爾查詢式向量空間模型查詢式文檔結(jié)果2023/7/3141信息存儲(chǔ)與檢索*7.3集合論檢索模型7.3.2擴(kuò)展布爾模型布爾過(guò)濾排序擴(kuò)展布爾模型假定文獻(xiàn)集合中的文獻(xiàn)Dj僅用兩個(gè)標(biāo)引詞Kx和Ky標(biāo)引,并且Kx和Ky允許被賦予一定的權(quán)值,其權(quán)值分別為Wx,j、Wy,j,權(quán)值的取值范圍為[0,1],權(quán)值越接近于1,說(shuō)明該詞越能反映文本的內(nèi)容,反之,反映文本的內(nèi)容差一些。為了簡(jiǎn)單起見(jiàn),用x,y分別表示權(quán)值Wx,j、Wy,j。我們采用二維圖來(lái)表示文獻(xiàn)的提問(wèn),用距離的概念表示文獻(xiàn)與提問(wèn)的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)2023/7/3142信息存儲(chǔ)與檢索*擴(kuò)展布爾模型假定文獻(xiàn)集合中的文獻(xiàn)Dj僅用兩個(gè)標(biāo)引詞Kx和Ky擴(kuò)展布爾模型中的“或”關(guān)系對(duì)于析取提問(wèn)Q=Kx∨Ky,只有A、B、C三點(diǎn)所代表的文獻(xiàn)才是最理想的,對(duì)于任一文獻(xiàn)Dj而言當(dāng)它離A、B、C三點(diǎn)越接近時(shí)說(shuō)明相似度越大,因而Dj到點(diǎn)(0,0)的矢量距離可以用來(lái)度量與提問(wèn)Q的相似度,為了使相似度控制在0和1之間,相似度可以規(guī)范化為:最不期望的點(diǎn)(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∨y2023/7/3143信息存儲(chǔ)與檢索*擴(kuò)展布爾模型中的“或”關(guān)系對(duì)于析取提問(wèn)Q=Kx∨Ky,只有A擴(kuò)展布爾模型中“與”關(guān)系對(duì)于合取提問(wèn)Q=Kx∧Ky,只有C點(diǎn)才是最理想的文獻(xiàn),則Dj到C點(diǎn)的矢量距離為:它可以作為衡量文獻(xiàn)與提問(wèn)之間相似度的一個(gè)尺度,則相似度可以規(guī)范化為:(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∧y最期望的點(diǎn)2023/7/3144信息存儲(chǔ)與檢索*擴(kuò)展布爾模型中“與”關(guān)系對(duì)于合取提問(wèn)Q=Kx∧Ky,只有C點(diǎn)觀察如果x出現(xiàn)在文檔Dj中,則x在文檔Dj中具有權(quán)重1,否則為0。當(dāng)Dj包含x和y時(shí),Sim(Qand,Dj)=sim(Qor,Dj)=1當(dāng)Dj既不包含x也不包含y時(shí),Sim(Qand,Dj)=Sim(Qor,Dj)=0當(dāng)Dj包含x和y二者之一時(shí),
Sim(Qand,Dj)=1?0.51/2=0.293Sim(Qor,Dj)=0.51/2=0.7072023/7/3145信息存儲(chǔ)與檢索*觀察如果x出現(xiàn)在文檔Dj中,則x在文檔Dj中具有權(quán)重1,否7.4代數(shù)檢索模型7.4.1廣義向量空間模型廣義向量空間模型以標(biāo)引詞向量是線性獨(dú)立而不是兩兩正交的為基礎(chǔ),提出了標(biāo)引詞間的相互依賴性,該依賴性由標(biāo)引詞同時(shí)出現(xiàn)的模式導(dǎo)出。在廣義向量空間模型中,標(biāo)引詞向量由一組更小分量組成的正交基向量來(lái)表示,詞與詞之間的關(guān)系直接由基向量表示。2023/7/3146信息存儲(chǔ)與檢索*7.4代數(shù)檢索模型7.4.1廣義向量空間模型2023/7.4.1廣義向量空間模型假定集合中的標(biāo)引詞的集合為{k1,k2,…kt},wi,j是標(biāo)引詞Ki在文獻(xiàn)Dj中的權(quán)值,如果所有的權(quán)值wi,j都是二值的,t個(gè)標(biāo)引詞生成2t個(gè)互不相同的最小項(xiàng),每個(gè)最小項(xiàng)中只能出現(xiàn)一個(gè)標(biāo)引詞Ki,則在文檔內(nèi)部同時(shí)出現(xiàn)的所有可能的模式可以用2t最小項(xiàng)的集合來(lái)表示。其中m1=(0,0,…,0),m2=(1,0,…,0),…m2t=(1,1,…,1),函數(shù)gi(mj)返回最小項(xiàng)mj中的索引詞ki的權(quán)值{0,1}。因此最小項(xiàng)m2(i=1,g1(m2)=1;i>1,gi(m2)=0)指出了包含唯一標(biāo)引詞K1的文獻(xiàn)。最小項(xiàng)m2t=(1,1,…,1)指出了包含所有標(biāo)引詞的文獻(xiàn)。2023/7/3147信息存儲(chǔ)與檢索*7.4.1廣義向量空間模型假定集合中的標(biāo)引詞的集合為{k1廣義向量空間模型對(duì)于所有的i≠j,有mi·mj=0,因此,根據(jù)定義,mi向量集合是兩兩正交的,所以mi向量集合可以作為廣義向量空間模型的正交基。廣義向量空間模型的中心思想是引入了與最小項(xiàng)集合相關(guān)聯(lián)的兩兩正交向量mi的集合,并采用該向量集合作為目標(biāo)子空間的基。也可以說(shuō),當(dāng)標(biāo)引詞在文檔集合內(nèi)部同時(shí)出現(xiàn)時(shí),就可以推導(dǎo)出這些標(biāo)引詞之間的相互依賴關(guān)系。2023/7/3148信息存儲(chǔ)與檢索*廣義向量空間模型對(duì)于所有的i≠j,有mi·mj=0,因此,根廣義向量空間模型為了確定標(biāo)引詞ki的標(biāo)引向量ki,我們對(duì)最小項(xiàng)mr的向量相加求和,則:公式中索引詞ki的值為1并且已經(jīng)標(biāo)準(zhǔn)化。對(duì)于每一個(gè)mr向量,可以定義一個(gè)關(guān)聯(lián)因子ci,r用于計(jì)算此索引詞ki在文檔Dj中的權(quán)值wi,j之和。2023/7/3149信息存儲(chǔ)與檢索*廣義向量空間模型為了確定標(biāo)引詞ki的標(biāo)引向量ki,我們對(duì)最小7.4.2潛語(yǔ)義標(biāo)引模型問(wèn)題引入自然語(yǔ)言文本中的詞匯(術(shù)語(yǔ))具有一詞多義和一義多詞的特點(diǎn)。由于一詞多義,基于精確匹配的檢索算法會(huì)報(bào)告許多用戶不要的東西:處理什么地方處理舊家具?你去把那個(gè)叛徒處理了處理自然語(yǔ)言很難由于一義多詞,基于精確匹配的檢索算法又會(huì)遺漏許多用戶想要的東西。“互聯(lián)網(wǎng)”,“萬(wàn)維網(wǎng)”,“因特網(wǎng)”,“國(guó)際互聯(lián)網(wǎng)”等2023/7/3150信息存儲(chǔ)與檢索*7.4.2潛語(yǔ)義標(biāo)引模型問(wèn)題引入2023/7/3150信息設(shè)Doc1,Doc2,Doc3是三個(gè)文件,一些標(biāo)引詞在這三個(gè)文件中的出現(xiàn)情況如下表:Doc1Doc2Doc3AccessXdocumentXretrievalXXinformationX*X*theoryXdatabaseXIndexingXcomputerX*X*假定用"information"和“computer”作為主題詞進(jìn)行檢索,
那么Doc2和Doc3與之精確匹配,
因而中選.然而,Doc2是用戶并不想要的文件,Doc1才是想要的查不出來(lái),不想要的倒查了出來(lái).這說(shuō)明精確匹配不能很好地反映用戶的意圖。2023/7/3151信息存儲(chǔ)與檢索*設(shè)Doc1,Doc2,Doc3是三個(gè)文件,一些標(biāo)引詞在這LSA的提出如果能基于自然語(yǔ)言理解來(lái)做這件事,那一切問(wèn)題就都沒(méi)有了。問(wèn)題是:自然語(yǔ)言理解的目前水平還是有限度的;即使用自然語(yǔ)言理解,效率也會(huì)很低我們希望找到一種辦法,既能反映術(shù)語(yǔ)之間內(nèi)在的相關(guān)性,又具有較高的效率。1990年,來(lái)自UniversityofChicago、BellCommunicationsResearch和UniversityofWesternOntario的ScottDeerwester、ThomasK.Landauer等五位學(xué)者共同提出了潛在語(yǔ)義分析(LatentSemanticAnalysis,縮寫為L(zhǎng)SA)這一自然語(yǔ)言處理的方法。2023/7/3152信息存儲(chǔ)與檢索*LSA的提出如果能基于自然語(yǔ)言理解來(lái)做這件事,那一切問(wèn)題就詞匯—文檔LSA將自然語(yǔ)言中的每個(gè)文檔視為以詞匯為維度的空間中的一個(gè)點(diǎn),認(rèn)為一個(gè)包含語(yǔ)義的文檔出現(xiàn)在這種空間中,它的分布絕對(duì)不是隨機(jī)的,而是服從某種語(yǔ)義結(jié)構(gòu)。同樣地,也將每個(gè)詞匯視為以文檔為維度的空間中的一個(gè)點(diǎn)。文檔是由詞匯組成的,而詞匯又要放到文檔中去理解,體現(xiàn)了一種“詞匯-文檔”雙重概率關(guān)系。2023/7/3153信息存儲(chǔ)與檢索*詞匯—文檔LSA將自然語(yǔ)言中的每個(gè)文檔視為以詞匯為維度的空間潛在語(yǔ)義標(biāo)引模型LSA假設(shè)文本中存在某種潛在的語(yǔ)義結(jié)構(gòu),這種潛在的語(yǔ)義結(jié)構(gòu)隱含在文本中詞語(yǔ)的上下文使用模式中,可通過(guò)利用統(tǒng)計(jì)方法獲得。其核心思想是通過(guò)奇異值分解,將文檔向量和詞向量投影到一個(gè)低維空間,使得相互之間有關(guān)聯(lián)的文獻(xiàn)即使沒(méi)有相同的詞時(shí)也能獲得相同的向量表示。LSA技術(shù)主要包括以下幾個(gè)步驟:(1)詞-文檔矩陣的構(gòu)建與優(yōu)化。
(2)奇異值分解SVD-降維(3)基于潛在語(yǔ)義空間模型的查詢2023/7/3154信息存儲(chǔ)與檢索*潛在語(yǔ)義標(biāo)引模型LSA假設(shè)文本中存在某(1)詞-文檔矩陣的構(gòu)建LSA模型中,文檔庫(kù)是用詞-文檔矩陣Amn來(lái)表示的。m為文檔庫(kù)中不同詞的個(gè)數(shù),一個(gè)詞對(duì)應(yīng)矩陣A中的一行;n表示文檔庫(kù)中的文檔數(shù),每個(gè)文檔對(duì)應(yīng)矩陣A中的一列;aij表示第i個(gè)詞在第j個(gè)文檔中出現(xiàn)的頻率TF。第一個(gè)詞在各個(gè)文檔中出現(xiàn)的頻率第一文檔中各個(gè)詞出現(xiàn)的頻率2023/7/3155信息存儲(chǔ)與檢索*(1)詞-文檔矩陣的構(gòu)建LSA模型中,文(2)奇異值分解SVD-降維矩陣的奇異值分解(SVD)計(jì)算是矩陣的一種重要計(jì)算,其SVD原理說(shuō)明如下:設(shè)U∈Rm*n和V∈Rm*n,使得其中,UT為矩陣U的轉(zhuǎn)置,U為m×r矩陣,UTU=I(I表示單位矩陣),V為r×n矩陣,VTV=I,r為矩陣A的秩。∑r為對(duì)角矩陣,表示為且有σ1≥σ2≥σ3≥……≥σr>0。這里,σi稱為矩陣A的奇異值,U的列向量和V的列向量分別稱為A的左、右奇異向量。即:2023/7/3156信息存儲(chǔ)與檢索*(2)奇異值分解SVD-降維矩陣的奇異值分解(SVD)計(jì)算是(2)奇異值分解SVD-降維
取U和V的前k(k<min(m,n))列,使得:
Ak是詞-文檔矩陣A的近似表示,實(shí)際上是一個(gè)低維的語(yǔ)義空間,一方面消減了原詞-文檔矩陣中包含的“噪聲”因素,凸顯了詞與文檔之間的語(yǔ)義關(guān)系,另一方面縮減了詞、文檔向量維數(shù),使得文檔檢索效率得以大大提高。Uk
和Vk的行向量分別表示詞向量和文檔向量。k是語(yǔ)義空間的維數(shù),其大小直接關(guān)系到檢索質(zhì)量和檢索效率的高低,過(guò)小會(huì)丟失有用信息,達(dá)不到區(qū)分文獻(xiàn)或標(biāo)引詞的目的;過(guò)大則捕獲不了詞與詞之間的關(guān)聯(lián)性,達(dá)不到語(yǔ)義檢索的目的,同時(shí)也提高不了檢索速度。2023/7/3157信息存儲(chǔ)與檢索*(2)奇異值分解SVD-降維取U和例子SVD:2023/7/3158信息存儲(chǔ)與檢索*例子SVD:2023/7/3158信息存儲(chǔ)與檢索*(3)基于潛在語(yǔ)義空間模型的查詢對(duì)查詢式的要求潛語(yǔ)義檢索允許用戶提交類似于自然語(yǔ)言的查詢條件,而不一定必須是幾個(gè)分離的詞匯。查詢式越長(zhǎng),提供的信息需求越充分,越明確。對(duì)查詢式的處理同對(duì)文檔的處理一樣,根據(jù)用戶查詢語(yǔ)句中各詞語(yǔ)的出現(xiàn)頻率生成查詢矢量q,其中,第i個(gè)元素qi的數(shù)值表示了第i個(gè)詞語(yǔ)在查詢語(yǔ)句中出現(xiàn)的頻率。對(duì)q進(jìn)行截?cái)嗥娈愔捣纸猓蛊淇梢院臀谋揪仃嘨進(jìn)行比較。得到:Vq=q’*U*∑
得出的Vq即為提問(wèn)式q在k維語(yǔ)義空間內(nèi)的坐標(biāo)向量。這樣,詞匯、文本、提問(wèn)式三者的坐標(biāo)向量,構(gòu)成了我們所需的隱含語(yǔ)義空間。檢索過(guò)程檢索過(guò)程就是把查詢式的集合視為是一個(gè)虛擬的文件,檢索的任務(wù)是把這個(gè)虛擬的文件和其他文件做相似性比較,挑選最相似的出來(lái)。2023/7/3159信息存儲(chǔ)與檢索*(3)基于潛在語(yǔ)義空間模型的查詢對(duì)查詢式的要求2023/7/小結(jié)潛在語(yǔ)義標(biāo)引方法利用統(tǒng)計(jì)計(jì)算的方法來(lái)尋找并導(dǎo)出概念索引,克服因文檔詞語(yǔ)多義性和同義性困擾而帶來(lái)的棘手難題,從而進(jìn)行更有效的信息檢索。通過(guò)奇異值分解計(jì)算和取k-秩近似矩陣,一方面,消減了原始索引詞--文檔矩陣中包含的索引詞之間的“斜交”噪聲,更加凸現(xiàn)出詞和文檔之間隱含的語(yǔ)義結(jié)構(gòu);另一方面,在與原始矩陣所體現(xiàn)的特征信息盡量保持一致的基礎(chǔ)上,又使得索引詞、文檔向量空間大大縮減,簡(jiǎn)化了計(jì)算復(fù)雜性。初步的理論分析和研究試驗(yàn)表明,作為一種自動(dòng)的語(yǔ)義索引方法,LSA所得到的處理結(jié)果是令人鼓舞的。2023/7/3160信息存儲(chǔ)與檢索*小結(jié)潛在語(yǔ)義標(biāo)引方法利用統(tǒng)計(jì)計(jì)算的方法來(lái)尋找并導(dǎo)出概念索引,7.4.3神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型被描繪成一個(gè)三層結(jié)構(gòu):第一層為用戶提問(wèn)詞語(yǔ)結(jié)點(diǎn);第二層為文檔詞語(yǔ)結(jié)點(diǎn):第三層為文檔結(jié)點(diǎn)。每一個(gè)節(jié)點(diǎn)表示一個(gè)處理單元,相當(dāng)于神經(jīng)元;節(jié)點(diǎn)間連線起到神經(jīng)元突觸的作用;而連線的權(quán)值則用來(lái)模擬神經(jīng)元之間的連接強(qiáng)度。
1、神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)2023/7/3161信息存儲(chǔ)與檢索*7.4.3神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型被描繪成一個(gè)三層結(jié)構(gòu):2、信息檢索處理過(guò)程首先由第一層的提問(wèn)詞語(yǔ)結(jié)點(diǎn)啟動(dòng),提問(wèn)詞語(yǔ)結(jié)點(diǎn)ka、kb和kc分別向?qū)?yīng)的第二層文檔詞語(yǔ)結(jié)點(diǎn)發(fā)出信息。緊跟著文檔詞語(yǔ)結(jié)點(diǎn)ka、kb和kc又產(chǎn)生信息并向第三層的相關(guān)文檔結(jié)點(diǎn)傳送。文檔結(jié)點(diǎn)會(huì)在收到文檔詞語(yǔ)結(jié)點(diǎn)發(fā)送的信號(hào)后產(chǎn)生新的信號(hào)并返回到文檔詞語(yǔ)結(jié)點(diǎn),而且這種相互作用的信號(hào)傳遞過(guò)程將會(huì)重復(fù)進(jìn)行直到信號(hào)不斷衰減而終止。2023/7/3162信息存儲(chǔ)與檢索*2、信息檢索處理過(guò)程首先由第一層的提問(wèn)詞語(yǔ)結(jié)點(diǎn)啟動(dòng),提問(wèn)詞語(yǔ)神經(jīng)網(wǎng)絡(luò)模型提問(wèn)結(jié)點(diǎn)向文檔詞語(yǔ)結(jié)點(diǎn)發(fā)送信號(hào),其作用強(qiáng)度分量由向量模型中提問(wèn)詞的權(quán)值派生出來(lái):文檔詞語(yǔ)結(jié)點(diǎn)向文檔結(jié)點(diǎn)傳遞信號(hào),其作用分量由向量模型中文檔詞語(yǔ)的權(quán)值派生出來(lái):2023/7/3163信息存儲(chǔ)與檢索*神經(jīng)網(wǎng)絡(luò)模型提問(wèn)結(jié)點(diǎn)向文檔詞語(yǔ)結(jié)點(diǎn)發(fā)送信號(hào),其作用強(qiáng)度分量由7.5概率檢索模型7.5.1推理網(wǎng)絡(luò)檢索模型推理網(wǎng)絡(luò)模型(InferenceNetworkModel)建立在Bayesian可信度網(wǎng)絡(luò)理論基礎(chǔ)之上,1990年由美國(guó)學(xué)者H.R.Turtle和W.B.Croft最早提出。貝葉斯(Bayesian)網(wǎng)絡(luò)是概率理論的一個(gè)主要研究分支。通常,貝葉斯網(wǎng)絡(luò)可以看作是一個(gè)有向無(wú)環(huán)圖(DirectedAcyclicGraph,DAG)。2023/7/3164信息存儲(chǔ)與檢索*7.5概率檢索模型7.5.1推理網(wǎng)絡(luò)檢索模型2023/貝葉斯網(wǎng)絡(luò)圖中的結(jié)點(diǎn)一般用來(lái)表示隨機(jī)變量,有向邊用于描述隨機(jī)變量之間的因果關(guān)系,它由表示原因的隨機(jī)變量(父結(jié)點(diǎn))指向代表結(jié)果的隨機(jī)變量(子結(jié)點(diǎn)),而因果關(guān)系影響力的大?。ɑ驒?quán)值)則用條件概率來(lái)表示。圖中沒(méi)有父結(jié)點(diǎn)的結(jié)點(diǎn)稱為根(Root)。
2023/7/3165信息存儲(chǔ)與檢索*貝葉斯網(wǎng)絡(luò)圖中的結(jié)點(diǎn)一般用來(lái)表示隨機(jī)變量,有向邊用于描述隨機(jī)貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)可以用聯(lián)合概率分布的方式表達(dá)結(jié)點(diǎn)之間的依賴關(guān)系。式中P(x1)稱為網(wǎng)絡(luò)的先驗(yàn)概率,它由具體應(yīng)用系統(tǒng)的已有知識(shí)和語(yǔ)義來(lái)定義或決定;其余各項(xiàng)則稱為條件概率;2023/7/3166信息存儲(chǔ)與檢索*貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)可以用聯(lián)合概率分布的方式表達(dá)結(jié)點(diǎn)之間的推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型是這樣來(lái)理解和處理信息檢索問(wèn)題的:首先把文檔、索引詞和用戶提問(wèn)等信息項(xiàng)都看作是隨機(jī)變量,并分別對(duì)應(yīng)到Bayesian網(wǎng)絡(luò)中的不同節(jié)點(diǎn),不同節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系通過(guò)有向邊來(lái)表示。在此基礎(chǔ)上,把文檔內(nèi)容和用戶提問(wèn)的匹配過(guò)程轉(zhuǎn)化為一個(gè)從文檔節(jié)點(diǎn)到提問(wèn)節(jié)點(diǎn)的推理過(guò)程,以文檔節(jié)點(diǎn)作為推理的起點(diǎn),給定文檔節(jié)點(diǎn)的先驗(yàn)概率、索引詞節(jié)點(diǎn)的條件概率,通過(guò)一系列中間環(huán)節(jié)的概率計(jì)算,最后即可計(jì)算出用戶提問(wèn)被滿足的后驗(yàn)概率。將這個(gè)概率值作為文檔與用戶查詢提問(wèn)的匹配程度,并根據(jù)匹配程度的大小對(duì)文檔進(jìn)行排序。2023/7/3167信息存儲(chǔ)與檢索*推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型是這樣來(lái)理解和處理信息檢索問(wèn)題的:2文獻(xiàn)DjK1K2KiKtQQ2Q1文獻(xiàn)Dj…………andOROR2023/7/3168信息存儲(chǔ)與檢索*文獻(xiàn)DjK1K2KiKtQQ2Q1文獻(xiàn)Dj…………andOR7.5、概率檢索模型7.5.2信任度網(wǎng)絡(luò)檢索模型信任度網(wǎng)絡(luò)模型(BeliefNetworkModel)和推理網(wǎng)絡(luò)模型具有共同的理論基礎(chǔ),是基于Bayesian網(wǎng)絡(luò)理論的另一個(gè)概率論檢索模型,1996年由B.A.Ribeiro-Neto和R.Muntz共同提出。信任度網(wǎng)絡(luò)模型與推理網(wǎng)絡(luò)模型具有不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。在信任網(wǎng)絡(luò)模型中,文檔部分和用戶提問(wèn)部分在網(wǎng)絡(luò)中是被分離開的。這樣的設(shè)計(jì)一方面簡(jiǎn)化了信任度網(wǎng)絡(luò)的建模任務(wù),另一方面也導(dǎo)致了兩個(gè)模型在性能上的一些差異。目前,尚未有基于信任度網(wǎng)絡(luò)模型開發(fā)的試驗(yàn)或?qū)嵱孟到y(tǒng)。理論上的分析結(jié)論是,信任度網(wǎng)絡(luò)模型具有更強(qiáng)的通用和擴(kuò)展性能。2023/7/3169信息存儲(chǔ)與檢索*7.5、概率檢索模型7.5.2信任度網(wǎng)絡(luò)檢索模型2023/信任度網(wǎng)絡(luò)模型文獻(xiàn)D1K1K2KiKt查詢Q…………文獻(xiàn)Dj文獻(xiàn)Dt用戶查詢和文獻(xiàn)都被模型化為標(biāo)引詞的子集。2023/7/3170信息存儲(chǔ)與檢索*信任度網(wǎng)絡(luò)模型文獻(xiàn)D1K1K2KiKt查詢Q…………文獻(xiàn)Dj7.6結(jié)構(gòu)化文本檢索模型結(jié)構(gòu)化文本指和表達(dá)的思想內(nèi)容相對(duì)應(yīng),在物理形式上有明顯的組織結(jié)構(gòu)和層次關(guān)系的文本,一般在文本信息中按照元素的包含關(guān)系加入文本的結(jié)構(gòu)信息。結(jié)構(gòu)化文本檢索將文本中的內(nèi)容信息與文獻(xiàn)結(jié)構(gòu)信息相結(jié)合的檢索模型。文本的結(jié)構(gòu)化分析標(biāo)記語(yǔ)言方法非重疊鏈表方法基于鄰接節(jié)點(diǎn)的方法2023/7/3171信息存儲(chǔ)與檢索*7.6結(jié)構(gòu)化文本檢索模型結(jié)構(gòu)化文本2023/7/3171信7.6.1標(biāo)記語(yǔ)言結(jié)構(gòu)化文本方法基本思想用語(yǔ)言來(lái)定義和說(shuō)明文本的結(jié)構(gòu),這些語(yǔ)言對(duì)文本結(jié)構(gòu)化的基本手段是設(shè)置標(biāo)記,使用一些附加的具有文本語(yǔ)法的標(biāo)記將文本格式化,描述文本的格式、結(jié)構(gòu)、語(yǔ)義和屬性。如SGML、HTML、XMLSGML(StandardGeneralizedMarkupLanguage,標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言)HTML(HypertextMarkupLanguage,超文本標(biāo)記語(yǔ)言)XML(ExtensibleMarkupLanguage,可擴(kuò)展標(biāo)記語(yǔ)言)2023/7/3172信息存儲(chǔ)與檢索*7.6.1標(biāo)記語(yǔ)言結(jié)構(gòu)化文本方法基本思想2023/7/31HTML句法結(jié)構(gòu)2023/7/3173信息存儲(chǔ)與檢索*HTML句法結(jié)構(gòu)2023/7/3173信息存儲(chǔ)與檢索*HTML句法結(jié)構(gòu)Google首頁(yè)的部分源代碼<html><head><METAHTTP-EQUIV="content-type"CONTENT="text/html;charset=GB2312"><title>Google</title>...</head>標(biāo)記(Tag)是用一對(duì)尖括號(hào)“<>”括起來(lái)的文本串。2023/7/3174信息存儲(chǔ)與檢索*HTML句法結(jié)構(gòu)Google首頁(yè)的部分源代碼2023/7/3三個(gè)元素一起構(gòu)成完整的HTML文檔結(jié)構(gòu)模板,所有的HTML文檔都應(yīng)該遵循這個(gè)模板:<HTML><HEAD>Headerelement</HEAD><BODY>bodyofDocument</BODY></HTML>
<title>text</title>:這個(gè)元素是文檔的抬頭,類似書籍的頁(yè)眉。<table></table>表示表格。2023/7/3175信息存儲(chǔ)與檢索*三個(gè)元素一起構(gòu)成完整的HTML文檔結(jié)構(gòu)模板,所有的HTML文XML示例
<?xmlversion="1.0"encoding="ISO-8859-1"?>
<bookstore>
<bookcatalog="Programming">
<titlelang="en">C++ProgrammingLanguage</title>
<author>BjarneStroustrup</author>
<year>1998</year>
<price>98.0</price>
</book>
<bookcatalog="Networking">
<titlelang="en">TCP/IPIllustrated</title>
<author>RichardStevens</author>
<year>1996</year>
<price>56.0</price>
</book>
</bookstore>2023/7/3176信息存儲(chǔ)與檢索*XML示例<?xmlversion="1.0"enco標(biāo)記語(yǔ)言結(jié)構(gòu)化文本方法標(biāo)記語(yǔ)言結(jié)構(gòu)化方法可以有效地按文本格式分解文本本身,是面向文本格式的,對(duì)于文本內(nèi)容難于表達(dá),不能有效查詢到用戶需求的知識(shí),因此,并不是面向問(wèn)題的。輔助信息和知識(shí)檢索方法先將用戶提問(wèn)語(yǔ)句進(jìn)行分詞處理,然后通過(guò)倒排文檔索引在文本中搜索,查找到包含用戶需要的信息和知識(shí)。2023/7/3177信息存儲(chǔ)與檢索*標(biāo)記語(yǔ)言結(jié)構(gòu)化文本方法標(biāo)記語(yǔ)言結(jié)構(gòu)化方法可以有效地按文本格式7.6.2非重疊鏈表結(jié)構(gòu)化文本方法基本思想把文檔中的整個(gè)文本分為無(wú)重疊的文本區(qū)域,并用鏈表鏈接起來(lái)。鏈表0:章鏈表1:節(jié)鏈表2:小節(jié)非重疊鏈表結(jié)構(gòu)化方法從文本的自身結(jié)構(gòu)將文本格式結(jié)構(gòu)化,但是對(duì)于一些非文字文本沒(méi)有嚴(yán)格的描述方法。2023/7/3178信息存儲(chǔ)與檢索*7.6.2非重疊鏈表結(jié)構(gòu)化文本方法基本思想鏈表0:章鏈表17.6.3基于鄰接節(jié)點(diǎn)的方法基本思想在相同文本中定義獨(dú)立的分層索引結(jié)構(gòu),每個(gè)索引結(jié)構(gòu)是一個(gè)嚴(yán)格的層次結(jié)構(gòu),由章、節(jié)、小節(jié)、段和行組成,其中每個(gè)結(jié)構(gòu)組員稱為節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)與一個(gè)文本區(qū)域相關(guān)。兩個(gè)不同層次結(jié)構(gòu)可能涉及到兩個(gè)重疊的文本區(qū)域?!鹿?jié)小節(jié)2023/7/3179信息存儲(chǔ)與檢索*7.6.3基于鄰接節(jié)點(diǎn)的方法基本思想…………章節(jié)小節(jié)2027.7超文本檢索模型WWW檢索模型類型基于超文本的瀏覽模型基于搜索引擎的關(guān)鍵字檢索模型基于超鏈接的鏈接結(jié)構(gòu)分析模型小知識(shí):SEO(SearchengineOptimization)2023/7/3180信息存儲(chǔ)與檢索*7.7超文本檢索模型WWW檢索模型類型小知識(shí):SEO(Se7.7.1瀏覽模型
指基于超文本文件結(jié)構(gòu)的信息瀏覽。即用戶在閱讀超文本文檔時(shí),利用文檔中的超鏈接從一個(gè)網(wǎng)頁(yè)轉(zhuǎn)向另一個(gè)相關(guān)網(wǎng)頁(yè)。在順“鏈”而行的過(guò)程中發(fā)現(xiàn)、搜索信息。個(gè)人用戶在網(wǎng)絡(luò)瀏覽的過(guò)程中常常創(chuàng)建書簽或熱鏈表,來(lái)將一些常用的、優(yōu)秀的站點(diǎn)地址記錄下來(lái),組織成目錄以備今后之需。2023/7/3181信息存儲(chǔ)與檢索*7.7.1瀏覽模型指基于超文本文件結(jié)構(gòu)的信息瀏2023/7/3182信息存儲(chǔ)與檢索*2023/7/3182信息存儲(chǔ)與檢索*2023/7/3183信息存儲(chǔ)與檢索*2023/7/3183信息存儲(chǔ)與檢索*瀏覽模型存在問(wèn)題偶然發(fā)現(xiàn):盲目、不可預(yù)見(jiàn)失控:由網(wǎng)絡(luò)的超鏈接控制迷航:在順連而行中偏離檢索目標(biāo)2023/7/3184信息存儲(chǔ)與檢索*瀏覽模型存在問(wèn)題2023/7/3184信息存儲(chǔ)與檢索*7.7.2超鏈接分析模型合理利用鏈接信息對(duì)提高檢索的查全率和查準(zhǔn)率起著重要的作用。2023/7/3185信息存儲(chǔ)與檢索*7.7.2超鏈接分析模型合理利用鏈接信息對(duì)提高檢索的查全7.7.2超鏈接分析模型基本思想:鏈接信息與被鏈接的對(duì)象之間存在著某種可信的映射關(guān)系,一個(gè)頁(yè)面被其他站點(diǎn)引用的次數(shù)基本上反映了該頁(yè)面的受歡迎程度。1、PageRank算法
PageRank算法是由Google公司兩個(gè)創(chuàng)始人SergeyBrin及LarryPage提出的一種搜索引擎排序算法。先給每個(gè)網(wǎng)頁(yè)賦予一個(gè)PageRank值,那么對(duì)于用戶查詢串分詞后得到關(guān)鍵字的集合,Q=(k1,k2,…,kn),通過(guò)搜索引擎中的索引器,得到一個(gè)匹配的網(wǎng)頁(yè)集合PageSet=(pi,pk,pm,pn,…),然后對(duì)(pi,pk,pm,pn,…)中的網(wǎng)頁(yè)按PageRank值高低進(jìn)行排序,把排序高的前面K個(gè)網(wǎng)頁(yè)返回給用戶。2023/7/3186信息存儲(chǔ)與檢索*7.7.2超鏈接分析模型基本思想:鏈接信息與被鏈接的對(duì)象之Google的PageRank
Google的PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量來(lái)衡量網(wǎng)站的價(jià)值。PageRank背后的概念是每個(gè)到頁(yè)面的鏈接都是對(duì)該頁(yè)面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個(gè)就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個(gè)概念引自學(xué)術(shù)中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。此外,PageRank還會(huì)評(píng)估每個(gè)投票網(wǎng)頁(yè)的重要性,因?yàn)槟承┚W(wǎng)頁(yè)的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁(yè)就能獲得較高的價(jià)值。重要網(wǎng)頁(yè)獲得的PageRank(網(wǎng)頁(yè)排名)較高。2023/7/3187信息存儲(chǔ)與檢索*Google的PageRankGoogle簡(jiǎn)單算法:
例如一個(gè)由4個(gè)頁(yè)面組成的小團(tuán)體:A,B,C和D。如果所有頁(yè)面都鏈向A,那么A的PR(PageRank)值將是B,C及D的和。PR(A)=PR(B)+PR(C)+PR(D)PageRank會(huì)將網(wǎng)頁(yè)B上指向網(wǎng)頁(yè)A的鏈接解釋為由網(wǎng)頁(yè)B對(duì)網(wǎng)頁(yè)A所投的一票,而不是計(jì)算直接的鏈接數(shù)。這樣,PageRank根據(jù)網(wǎng)頁(yè)收到的投票數(shù)來(lái)評(píng)估其重要性。PageRank算法2023/7/3188信息存儲(chǔ)與檢索*簡(jiǎn)單算法:
例如一個(gè)由4個(gè)頁(yè)面組成的小團(tuán)體:A,BGoogle有一套自動(dòng)化方法來(lái)計(jì)算這些投票。Google的PageRank分值從0到10;PageRank為10表示最佳,但非常少見(jiàn),類似里氏震級(jí)(Richterscale),PageRank級(jí)別也不是線性的,而是按照一種指數(shù)刻度。這是一種奇特的數(shù)學(xué)術(shù)語(yǔ),意思是PageRank4不是比PageRank3好一級(jí)——而可能會(huì)好6到7倍。因此,一個(gè)PageRank5的網(wǎng)頁(yè)和PageRank8的網(wǎng)頁(yè)之間的差距會(huì)比你可能認(rèn)為的要大的多。2023/7/3189信息存儲(chǔ)與檢索*Google有一套自動(dòng)化方法來(lái)計(jì)算這些投票。Google的PPageRank算法繼續(xù)假設(shè)B也鏈接到C,并且D也鏈接到包括A的3個(gè)頁(yè)面。一個(gè)頁(yè)面不能投票2次。所以B給每個(gè)頁(yè)面半票。以同樣的邏輯,D投出的票只有三分之一算到了A的PageRank上。根據(jù)鏈出總數(shù)平分一個(gè)頁(yè)面的PR值。
2023/7/3190信息存儲(chǔ)與檢索*PageRank算法繼續(xù)假設(shè)B也鏈接到C,并且D也鏈接到包括最后,所有這些被換算為一個(gè)百分比再乘上一個(gè)系數(shù)q。由于沒(méi)有頁(yè)面的PageRank會(huì)是0。所以,Google通過(guò)數(shù)學(xué)系統(tǒng)給了每個(gè)頁(yè)面一個(gè)最小值1?q。所以一個(gè)頁(yè)面的PageRank是由其他頁(yè)面的PageRank計(jì)算得到。Google不斷的重復(fù)計(jì)算每個(gè)頁(yè)面的PageRank。如果您給每個(gè)頁(yè)面一個(gè)隨機(jī)PageRank值(非0),那么經(jīng)過(guò)不斷的重復(fù)計(jì)算,這些頁(yè)面的PR值會(huì)趨向于正常和穩(wěn)定。PageRank算法2023/7/3191信息存儲(chǔ)與檢索*最后,所有這些被換算為一個(gè)百分比再乘上一個(gè)系數(shù)q。由于沒(méi)有頁(yè)P(yáng)ageRank算法完整的算法:這個(gè)方程式引入了隨機(jī)瀏覽的概念,即有人上網(wǎng)無(wú)聊隨機(jī)打開一些頁(yè)面,點(diǎn)一些鏈接。一個(gè)頁(yè)面的PageRank值也影響了它被隨機(jī)瀏覽的概率。為了便于理解,這里假設(shè)上網(wǎng)者不斷點(diǎn)網(wǎng)頁(yè)上的鏈接,最終到了一個(gè)沒(méi)有任何鏈出頁(yè)面的網(wǎng)頁(yè),這時(shí)候上網(wǎng)者會(huì)隨機(jī)到另外的網(wǎng)頁(yè)開始瀏覽。為了對(duì)那些有鏈出的頁(yè)面公平,d=0.15的算法被用到了所有頁(yè)面上,估算頁(yè)面可能被上網(wǎng)者放入書簽的概率。所以,這個(gè)等式如下:p1,p2,…,pN是被研究的頁(yè)面,M(pi)是鏈入pi頁(yè)面的數(shù)量,L(pj)是pj鏈出頁(yè)面的數(shù)量,而N是所有頁(yè)面的數(shù)量。2023/7/3192信息存儲(chǔ)與檢索*PageRank算法完整的算法:2023/7/3192信息存PageRank算法1LarryPage和SergeyBrin在個(gè)別場(chǎng)合描述了PageRank最初的算法。這就是式中:PR(A):網(wǎng)頁(yè)A頁(yè)的PageRank值;PR(Ti):鏈接到A頁(yè)的網(wǎng)頁(yè)Ti的PageRank值;C(Ti):網(wǎng)頁(yè)Ti的出站鏈接數(shù)量;d:阻尼系數(shù),0<d<1。2023/7/3193信息存儲(chǔ)與檢索*PageRank算法1LarryPage和SergeyPageRank思想的簡(jiǎn)單表述:如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/C(T)其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T的頁(yè)面重要性得分值的累加。2023/7/3194信息存儲(chǔ)與檢索*PageRank思想的簡(jiǎn)單表述:2023/7/3194信息存例如:現(xiàn)在求網(wǎng)頁(yè)W的PageRank(p),已知有三個(gè)網(wǎng)頁(yè)A、B、C鏈接到W,這三個(gè)網(wǎng)頁(yè)的PageRank(p)值分別為8、5、3,它們的出度(即從此網(wǎng)頁(yè)鏈出的網(wǎng)頁(yè)數(shù))分別為4、5、2,而總網(wǎng)頁(yè)數(shù)有4個(gè),設(shè)d=0.85,那么網(wǎng)頁(yè)W的PageRank:2023/7/3195信息存儲(chǔ)與檢索*例如:現(xiàn)在求網(wǎng)頁(yè)W的PageRank(p),已知有三個(gè)網(wǎng)頁(yè)A兩個(gè)技術(shù)問(wèn)題網(wǎng)頁(yè)A、B、C的PR值是未知的,首先要分別計(jì)算出A、B、C的PR值,而要得到A、B、C的PR值,必須先得到所有鏈入到網(wǎng)頁(yè)A的網(wǎng)頁(yè)的PR值,還有所有鏈入到網(wǎng)頁(yè)B的網(wǎng)頁(yè)的PR值,以及所有鏈入到網(wǎng)頁(yè)C的網(wǎng)頁(yè)的PR值。鏈接A、B、C的網(wǎng)頁(yè)也有很多,萬(wàn)維網(wǎng)彼此互聯(lián),且通常鏈入一個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)遠(yuǎn)多于三個(gè),這樣想得到一個(gè)網(wǎng)頁(yè)的PR值而產(chǎn)生的計(jì)算似乎沒(méi)有止境。為了PageRank算法收斂,通常采用的方法是冪法(PowerMethod)。2023/7/3196信息存儲(chǔ)與檢索*兩個(gè)技術(shù)問(wèn)題網(wǎng)頁(yè)A、B、C的PR值是未知的,首先要分別計(jì)算出理論問(wèn)題的解決計(jì)算搜索結(jié)果的網(wǎng)頁(yè)排名過(guò)程中需要用到網(wǎng)頁(yè)本身的排名,拉里·佩奇(LarryPage)和謝爾蓋·布林(SergeyBrin)把這個(gè)問(wèn)題變成了一個(gè)二維矩陣相乘的問(wèn)題,并且用迭代的方法解決了這個(gè)問(wèn)題。他們先假定所有網(wǎng)頁(yè)的排名是相同的,并且根據(jù)這個(gè)初始值,算出各個(gè)網(wǎng)頁(yè)的第一次迭代排名,然后再根據(jù)第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都保證了網(wǎng)頁(yè)排名的估計(jì)值能收斂到他們的真實(shí)值。2023/7/3197信息存儲(chǔ)與檢索*理論問(wèn)題的解決計(jì)算搜索結(jié)果的網(wǎng)頁(yè)排名過(guò)程中需要用到網(wǎng)頁(yè)本身的實(shí)際問(wèn)題的解決因?yàn)榛ヂ?lián)網(wǎng)上網(wǎng)頁(yè)的數(shù)量是巨大的,上面提到的二維矩陣從理論上講有網(wǎng)頁(yè)數(shù)目平方之多個(gè)元素。如果我們假定有十億個(gè)網(wǎng)頁(yè),那么這個(gè)矩陣就有一百億億個(gè)元素。這樣大的矩陣相乘,計(jì)算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計(jì)算的技巧,大大的簡(jiǎn)化了計(jì)算量,并實(shí)現(xiàn)了這個(gè)網(wǎng)頁(yè)排名算法。今天Google的工程師把這個(gè)算法移植到并行的計(jì)算機(jī)中,進(jìn)一步縮短了計(jì)算時(shí)間,使網(wǎng)頁(yè)更新的周期比以前短了許多。
2023/7/3198信息存儲(chǔ)與檢索*實(shí)際問(wèn)題的解決因?yàn)榛ヂ?lián)網(wǎng)上網(wǎng)頁(yè)的數(shù)量是巨大的,上面提到的二維影響googlePageRank的因素
1、與PR高的網(wǎng)站做鏈接
2、內(nèi)容質(zhì)量高的網(wǎng)站鏈接
3、加入搜索引擎分類目錄
4、加入免費(fèi)開源目錄
5、你的鏈接出現(xiàn)在流量大、知名度高、頻繁更新的重要網(wǎng)站上6、google對(duì)PDF格式的文件比較看重7、安裝Google工具條
8、域名和tilte標(biāo)題出現(xiàn)關(guān)鍵詞與meta標(biāo)簽等9、反向連接數(shù)量和反向連接的等級(jí)10、Google抓取您網(wǎng)站的頁(yè)面數(shù)量11、導(dǎo)出鏈接數(shù)量2023/7/3199信息存儲(chǔ)與檢索*影響googlePageRank的因素1、與PR高的網(wǎng)HITS(Hyperlink-InducedTopicSearch)超鏈接主題查找算法通過(guò)對(duì)網(wǎng)絡(luò)中鏈接的分析,利用頁(yè)面的被引用次數(shù)及其鏈接數(shù)目來(lái)決定不同網(wǎng)頁(yè)的價(jià)值。HITS算法是基于主題來(lái)衡量網(wǎng)頁(yè)的重要程度,相對(duì)不同主題,同一網(wǎng)頁(yè)的重要程度也是不同的。例如,百度對(duì)于主題“搜索引擎”和主題“湖南SEO”的重要程度是不同的。例如:Google、Baidu、Yahoo!、sogou、soso等這些搜索引擎相對(duì)于主題“搜索引擎”來(lái)說(shuō)就是權(quán)威網(wǎng)頁(yè)(authority),因?yàn)檫@些網(wǎng)頁(yè)會(huì)被大量的超鏈接指向。/post/Hits-Algorithm.html這個(gè)頁(yè)面鏈接了這些權(quán)威網(wǎng)頁(yè)(authority),則這個(gè)頁(yè)面可以稱為主題“搜索引擎”的中心網(wǎng)頁(yè)(hub)。2、HITS算法2023/7/31100信息存儲(chǔ)與檢索*HITS(Hyperlink-InducedTopicS2023/7/31101信息存儲(chǔ)與檢索*2023/7/31101信息存儲(chǔ)與檢索*HITS算法HITS算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威網(wǎng)頁(yè)(authority)之間并不存在相互的鏈接。所以,權(quán)威網(wǎng)頁(yè)(authority)通常都是通過(guò)中心網(wǎng)頁(yè)(hub)發(fā)生關(guān)聯(lián)的?;舅枷耄阂粋€(gè)好的Hub網(wǎng)頁(yè)指向很多Authority網(wǎng)頁(yè),一個(gè)好的Authority網(wǎng)頁(yè)也有很多好的Hub網(wǎng)頁(yè)指向它。Authority網(wǎng)頁(yè)是相對(duì)某主題來(lái)說(shuō)權(quán)威的網(wǎng)頁(yè),Hub網(wǎng)頁(yè)是指向很多相對(duì)某主題來(lái)說(shuō)權(quán)威網(wǎng)頁(yè)的網(wǎng)頁(yè)。2023/7/31102信息存儲(chǔ)與檢索*HITS算法HITS算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威HITS算法HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。內(nèi)容權(quán)威度與網(wǎng)頁(yè)自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁(yè)所引用的網(wǎng)頁(yè),其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與網(wǎng)頁(yè)提供的超鏈接頁(yè)面的質(zhì)量相關(guān),引用越多高質(zhì)量頁(yè)面的網(wǎng)頁(yè),其鏈接權(quán)威度越高。HITS算法認(rèn)為對(duì)每一個(gè)網(wǎng)頁(yè)應(yīng)該將其內(nèi)容權(quán)威度和鏈接權(quán)威度分開來(lái)考慮,在對(duì)網(wǎng)頁(yè)內(nèi)容權(quán)威度做出評(píng)價(jià)的基礎(chǔ)上再對(duì)頁(yè)面的鏈接權(quán)威度進(jìn)行評(píng)價(jià),然后給出該頁(yè)面的綜合評(píng)價(jià)。2023/7/31103信息存儲(chǔ)與檢索*HITS算法HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(AuHITS算法算法思路:(1)將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎。搜索引擎返回很多網(wǎng)頁(yè),從中取前n個(gè)網(wǎng)頁(yè)作為根集(rootset),用S表示。S滿足如下3個(gè)條件:S中網(wǎng)頁(yè)數(shù)量相對(duì)較小。S中網(wǎng)頁(yè)大多數(shù)是與查詢q相關(guān)的網(wǎng)頁(yè)。S中網(wǎng)頁(yè)包含較多的權(quán)威網(wǎng)頁(yè)。
(2)通過(guò)向S中加入被S引用的網(wǎng)頁(yè)和引用S的網(wǎng)頁(yè)將S擴(kuò)展成一個(gè)更大的集合。(3)對(duì)擴(kuò)展集里的每個(gè)文檔進(jìn)行中心權(quán)重H和權(quán)威權(quán)重A的計(jì)算。(4)返回一張排好序的網(wǎng)頁(yè)列表,列表中的網(wǎng)頁(yè)有些具有較高的中心權(quán)重,有些則具有較高的權(quán)威權(quán)重,這樣用戶自己就可以選出他們認(rèn)為是最好的那種類型的網(wǎng)頁(yè)(K
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年油基型密封膠合作協(xié)議書
- 人教版 八年級(jí)英語(yǔ)下冊(cè) Unit 6 單元綜合測(cè)試卷(2025年春)
- 部編版小學(xué)六年級(jí)語(yǔ)文(上冊(cè))第三單元集體備課發(fā)言稿
- 2025年個(gè)人律師見(jiàn)證委托合同范文(2篇)
- 山西省2024七年級(jí)道德與法治上冊(cè)第四單元追求美好人生第十一課確立人生目標(biāo)情境基礎(chǔ)小練新人教版
- 2025年買狗簽合同格式版(2篇)
- 2025年九年級(jí)班主任年終個(gè)人教學(xué)工作總結(jié)范例(三篇)
- 2025年二年級(jí)班主任個(gè)人總結(jié)例文(3篇)
- 2025年二級(jí)域名合作協(xié)議簡(jiǎn)單版(4篇)
- 房屋美化施工合同范例
- 2024年黑龍江農(nóng)業(yè)職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 部編版小學(xué)語(yǔ)文四年級(jí)下冊(cè)教師教學(xué)用書(教學(xué)參考)完整版
- 基于數(shù)據(jù)驅(qū)動(dòng)的鋰離子電池剩余使用壽命預(yù)測(cè)方法研究
- 《內(nèi)臟疾病康復(fù)》課件
- 串通招投標(biāo)法律問(wèn)題研究
- 高原鐵路建設(shè)衛(wèi)生保障
- 家具廠各崗位責(zé)任制匯編
- 顳下頜關(guān)節(jié)盤復(fù)位固定術(shù)后護(hù)理查房
- 硝苯地平控釋片
- 部編版語(yǔ)文六年級(jí)下冊(cè)全套單元基礎(chǔ)??紲y(cè)試卷含答案
- 提高檢驗(yàn)標(biāo)本合格率品管圈PDCA成果匯報(bào)
評(píng)論
0/150
提交評(píng)論