信息檢索 第02章 信息檢索模型專業(yè)課課件_第1頁
信息檢索 第02章 信息檢索模型專業(yè)課課件_第2頁
信息檢索 第02章 信息檢索模型專業(yè)課課件_第3頁
信息檢索 第02章 信息檢索模型專業(yè)課課件_第4頁
信息檢索 第02章 信息檢索模型專業(yè)課課件_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索

第02章信息檢索模型軟件學(xué)院教研室陳鄞本章內(nèi)容2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型2.7潛在語義索引模型2.1信息檢索模型的定義和分類信息檢索模型是用來描述文檔和用戶查詢的表示形式以及它們之間相關(guān)性的框架IR模型的形式化表示[D,Q,F,R(di,q)]D→文檔集合的機(jī)內(nèi)表示D={d1,

d2,…,

dm}T={t1,

t2,…,

tn}→系統(tǒng)索引項(xiàng)(關(guān)鍵詞)集合di=(ωi1,

ωi2,…,

ωin)

(ωij≥0,1≤i≤m)ωij→索引項(xiàng)tj和文檔di的相關(guān)程度(權(quán)重weight)IR模型的形式化表示[D,Q,F,R(di,q)]D→文檔集合的機(jī)內(nèi)表示Q

→用戶查詢的機(jī)內(nèi)表示F→文檔與查詢之間的匹配框架R(di,q)

→文檔與用戶查詢之間相關(guān)度計(jì)算函數(shù)IR模型的分類信息檢索模型布爾模型擴(kuò)展布爾模型模糊集合模型集合論代數(shù)論向量空間模型廣義向量空間模型潛在語義索引神經(jīng)網(wǎng)絡(luò)概率模型語言模型推理網(wǎng)絡(luò)信念網(wǎng)絡(luò)概率論提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型2.7潛在語義索引模型2.2布爾模型(BooleanModel)最早的IR模型1957年,Y·Bar-Hille就對(duì)布爾邏輯應(yīng)用于計(jì)算機(jī)信息檢索的可能性進(jìn)行了探討20世紀(jì)60年代末,正式被大型文獻(xiàn)檢索系統(tǒng)所采用20世紀(jì)70年代,逐漸成為各種商業(yè)性聯(lián)機(jī)檢索服務(wù)系統(tǒng)的標(biāo)準(zhǔn)檢索模式目前,仍具有頑強(qiáng)的生命力主要特點(diǎn)查詢式形式:關(guān)鍵詞的布爾組合例:q=病毒and(計(jì)算機(jī)or

電腦)andnot醫(yī)典型系統(tǒng):Lucene,Westlaw布爾模型的定義[D,Q,F,R(di,q)]D設(shè)T={t1,

t2,…,

tn}則di=(ωi1,

ωi2,…,

ωin)

(ωij

∈{0,1})

布爾模型的定義[D,Q,F,R(di,q)]DQ

合取子項(xiàng)(ConjunctiveComponent)“q=病毒and(計(jì)算機(jī)or

電腦)andnot醫(yī)”的析取范式形式?布爾表達(dá)式 例: q=(k1∨k2

)∧k3

析取范式形式 qDNF=(k1∧k3)∨(k2∧k3

)

(DisjunctiveNormalForm,DNF)簡(jiǎn)化形式 qDNF=(1,0,1)∨(1,1,1)∨(0,1,1)布爾模型的定義[D,Q,F,R(di,q)]DQ

合取子項(xiàng)(ConjunctiveComponent)課后練習(xí):編寫一個(gè)計(jì)算機(jī)程序,將輸入的布爾表達(dá)式自動(dòng)轉(zhuǎn)化成析取范式的形式布爾表達(dá)式 例: q=(k1∨k2

)∧k3

析取范式形式 qDNF=(k1∧k3)∨(k2∧k3

)

(DisjunctiveNormalForm,DNF)簡(jiǎn)化形式 qDNF=(1,0,1)∨(1,1,1)∨(0,1,1)布爾模型的定義[D,Q,F,R(di,q)]DQF

例 q=(a∨b)∧z d1

:abcfgh d2

:afbxyz

d1=(1,1,0)d2=(1,1,1)→qDNF=(1,0,1)∨(0,1,1)∨(1,1,1)√布爾模型的定義[D,Q,F,R(di,q)]DQFR

布爾模型的性能分析優(yōu)點(diǎn)簡(jiǎn)單、容易理解很多專業(yè)用戶更喜歡布爾查詢模型,因?yàn)樗磉_(dá)上更精確缺點(diǎn)關(guān)鍵詞權(quán)重:二值沒有體現(xiàn)不同關(guān)鍵詞對(duì)文檔貢獻(xiàn)程度的差別相關(guān)度大小:二值沒有體現(xiàn)文檔之間的細(xì)微差別布爾模型的性能分析優(yōu)點(diǎn)簡(jiǎn)單、容易理解通過“與”“或”“非”等操作支持較復(fù)雜的語義條件查詢,可以很方便的表達(dá)用戶的查詢需求缺點(diǎn)關(guān)鍵詞權(quán)重:二值沒有體現(xiàn)不同關(guān)鍵詞對(duì)文檔貢獻(xiàn)程度的差別相關(guān)度大?。憾禌]有體現(xiàn)文檔之間的細(xì)微差別例“飛碟”AND“小說”:只能檢索出D4,無法體現(xiàn)D1,D2,D3的差異“飛碟”O(jiān)R“小說”:可以檢出D1,D2,D4,但無法體現(xiàn)它們的差異布爾模型的性能分析優(yōu)點(diǎn)簡(jiǎn)單、容易理解通過“與”“或”“非”等操作支持較復(fù)雜的語義條件查詢,可以很方便的表達(dá)用戶的查詢需求缺點(diǎn)關(guān)鍵詞權(quán)重:二值沒有體現(xiàn)不同關(guān)鍵詞對(duì)文檔貢獻(xiàn)程度的差別相關(guān)度大小:二值沒有體現(xiàn)文檔之間的細(xì)微差別很難對(duì)輸出進(jìn)行排序查詢表達(dá)式非常剛性“與”意味著全部;“或”意味著任何一個(gè)很難控制返回文檔的數(shù)量嚴(yán)格的布爾運(yùn)算得到的結(jié)果遠(yuǎn)遠(yuǎn)不能使用戶滿意,大型商業(yè)布爾搜索系統(tǒng)中往往加入更多的操作,如“詞項(xiàng)近鄰”(termproximity)操作例:

Westlaw(法律搜索服務(wù)提供商)Informationneed:Informationonthelegaltheoriesinvolvedinpreventingthedisclosureoftradesecretsbyemployeesformerlyemployedbyacompetingcompany.(有關(guān)防止先前受雇于競(jìng)爭(zhēng)對(duì)手的員工泄露商業(yè)機(jī)密的法律理論信息)Query:

"tradesecret"/sdisclos!/sprevent/semploye!Informationneed:Requirementsfordisabledpeopletobeabletoaccessaworkplace.(關(guān)于殘疾人士能夠進(jìn)入工作場(chǎng)所的要求)Query:disab!/paccess!/swork-sitework-place(employment/3place)Informationneed:Casesaboutahost’sresponsibilityfordrunkguests.

(關(guān)于主人對(duì)客人醉酒負(fù)責(zé)的案例)Query:

host!/p(responsib!liab!)/p(intoxicat!drunk!)/pguest

雙引號(hào)表示短語查詢感嘆號(hào)表示尾通配符查詢

/s,/p,和/k分別表示處于同一個(gè)句子、段落和k個(gè)詞之內(nèi)(近鄰操作符)空格表示“或”運(yùn)算work-place表示可以和workplace、

work

place及work-place匹配&表示“與”運(yùn)算提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型2.7潛在語義索引模型2.3向量空間模型向量空間模型(VectorSpaceModel,VSM)是由G·Salton等人在1958年提出的主要特點(diǎn)查詢式形式:由一個(gè)或多個(gè)詞項(xiàng)構(gòu)成的自由文本代表系統(tǒng)SMART(

SystemfortheManipulationandRetrievalofText)這一系統(tǒng)理論框架到現(xiàn)在仍然是IR技術(shù)研究的基礎(chǔ)2.3.1向量空間模型的定義D={d1,d2,…}di=(wi1,wi2,…,win)

wij≥0

Qq=(wq1,wq2,…,wqn

)

wqj≥0

F包含查詢?cè)~的文檔R向量相似度計(jì)算公式sim(di,q)ωij值的確定詞的描述能力tfij→關(guān)鍵詞tj在文檔di

中出現(xiàn)的頻率(termfrequency)詞的區(qū)分能力dfj

→文檔頻率(documentfrequency),包含關(guān)鍵詞tj的文檔的個(gè)數(shù)

例子d1

:土豆的美容功效d2

:土豆的栽培d3

:土豆的后期加工ωij值的確定詞的描述能力tfij→關(guān)鍵詞tj在文檔di

中出現(xiàn)的頻率(termfrequency)詞的區(qū)分能力dfj

→文檔頻率(documentfrequency),包含關(guān)鍵詞tj的文檔的個(gè)數(shù) 當(dāng)詞項(xiàng)t只在少數(shù)幾篇文檔中多次出現(xiàn)時(shí),其權(quán)重取值最大

ωij值的確定

ωij值的確定詞的描述能力tfij→關(guān)鍵詞tj在文檔di

中出現(xiàn)的頻率(termfrequency)詞的區(qū)分能力dfj

→文檔頻率(documentfrequency),包含關(guān)鍵詞tj的文檔的個(gè)數(shù)idfj

→逆文檔頻率(inversedocumentfrequency)tf-idf(詞頻-逆文檔頻率)公式

wij

=tfij

idfjidfj

計(jì)算示例idfj其他tf-idf權(quán)重計(jì)算方法

其他tf-idf權(quán)重計(jì)算方法

用戶查詢的表示q=(ωq1,ωq2,…,ωqn)ωqj≥0tf權(quán)重ωij

∈{0,1}tf-idf權(quán)重例:q=“bestcarinsurance”tjtfqjdfjωqjbest1500001.31.3car1100002.02.0insurance110003.03.0N=10000002.3.2

文檔和用戶查詢的相關(guān)度計(jì)算1.重合度評(píng)分指標(biāo)(overlapscoremeasure)基本思想文檔d的得分是所有查詢?cè)~項(xiàng)在文檔中的權(quán)重之和內(nèi)積越大,文檔與查詢的相關(guān)度越高

wij

→文檔dj中的關(guān)鍵詞j

的權(quán)重

wqj

→查詢式q中的關(guān)鍵詞j的權(quán)重2.3.2

文檔和用戶查詢的相關(guān)度計(jì)算1.重合度評(píng)分指標(biāo)(overlapscoremeasure)基本思想文檔d的得分是所有查詢?cè)~項(xiàng)在文檔中的權(quán)重之和d1=2T1+3T2+5T3d2=3T1+7T2+T3q

=0T1+0T2+2T3sim(d1

,q)=2*0+3*0+5*2=10sim(d2

,q)=3*0+7*0+1*2=2內(nèi)積的特點(diǎn)內(nèi)積值沒有界限,不像概率值在[0,1]之間對(duì)長(zhǎng)文檔有利內(nèi)積用于衡量有多少詞項(xiàng)匹配成功,而不計(jì)算有多少詞項(xiàng)匹配失敗例:q=abcde

d1=abcfghijklmnopq(15個(gè)詞,3個(gè)匹配上)d2=abfgh(5個(gè)詞,2個(gè)匹配上)2.余弦向量度量法利用向量的長(zhǎng)度對(duì)內(nèi)積進(jìn)行歸一化用向量夾角的余弦值表示向量的相似度向量之間的夾角越小,其余弦值越大,相似度越大2.余弦向量度量法利用向量的長(zhǎng)度對(duì)內(nèi)積進(jìn)行歸一化用向量夾角的余弦值表示向量的相似度也可以看成是兩個(gè)歸一化以后的向量的內(nèi)積t1t23.Jaccard系數(shù)法Exampled1=2T1+3T2+5T3d2=3T1+7T2+T3q=0T1+0T2+2T3

Sim(d1

,q)=10/(38+4-10)=10/32=0.312

Sim(d2

,q)=2/(59+4-2)=2/61=0.033二值化的相似度度量InnerProduct:Cosine:Jaccard:diandqherearesetsofkeywordsdi

and

qherearevector例:q=abcded1=abcfghijklmnopqd2=abfghSimJac(d1,q)=3/17=0.18SimJac(d2,q)=2/8=0.25相似度計(jì)算在IR中的應(yīng)用一個(gè)查詢式和一個(gè)文檔之間(檢索)兩個(gè)文檔之間(文本分類,聚類)兩個(gè)查詢式之間(常問問題集)向量空間模型的優(yōu)點(diǎn)反映出不同關(guān)鍵詞對(duì)文檔貢獻(xiàn)程度的差別可以根據(jù)結(jié)果文檔對(duì)于查詢串的相關(guān)度通過CosineRanking等公式對(duì)結(jié)果文檔進(jìn)行排序可以控制輸出結(jié)果的數(shù)量向量空間模型的不足認(rèn)為關(guān)鍵詞之間是相互獨(dú)立的,這一假設(shè)有時(shí)不符合自然語言的實(shí)際情況從查詢式角度,不能體現(xiàn)查詢?cè)~之間的邏輯關(guān)系例:“計(jì)算機(jī)或電腦病毒而非醫(yī)學(xué)病毒”從文檔角度,忽略了詞項(xiàng)在文檔中的出現(xiàn)次序例MaryisquickerthanJohnJohnisquickerthanMary提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型2.7潛在語義索引模型2.4擴(kuò)展布爾模型擴(kuò)展布爾模型的提出G·Saltonetal.,1983函數(shù)sim()度量了點(diǎn)(wx,wy)到點(diǎn)(0,0)的距離距離越遠(yuǎn),相似性越大可以擺脫“文檔中關(guān)鍵詞權(quán)重為二值分布”的限制wxwy(1,1)(1,0)擴(kuò)展布爾模型中的“或”關(guān)系q=tx∨tyd所有詞都出現(xiàn)比只出現(xiàn)幾個(gè)詞更有價(jià)值10.7070.7070(0,1)(0,0)最不期望的點(diǎn)0.50.5函數(shù)sim()度量了點(diǎn)(wx,wy)到點(diǎn)(1,1)的距離距離越近,相似性越大(1,1)wy(1,0)(0,1)(0,0)q=tx

ty擴(kuò)展布爾模型中的“與”關(guān)系wxd最期望的點(diǎn)出現(xiàn)幾個(gè)詞總比一個(gè)詞都不出現(xiàn)更有價(jià)值100.2930.2930.5觀察一個(gè)詞項(xiàng)的存在將對(duì)“或”關(guān)系查詢式提供0.707的增益值,但對(duì)“與”關(guān)系查詢式僅提供0.293的增益值wxwy(1,1)(1,0)q=tx∨ty10.7070.7070(0,1)(0,0)(1,1)wy(1,0)(0,1)(0,0)q=tx

tywx100.2930.293例從“一刀切”到“合理拉開距離”泛化模型推廣到n

個(gè)查詢項(xiàng)

sim(qor,d)=[(w12+w22+...+wn2

)/n]1/2

sim(qand,d)=1

{[(1

w1)2+(1

w2)2+...+(1

xn)2]/n}1/2進(jìn)一步地泛化為p-normmodel

sim(qor,d)=[(w1p+w2p

+...+wnp

)/n]1/p(1≤p≤∞)

sim(qand,d)=1

{[(1

w1)p+(1

w2)p+...+(1

wn)p]/n}1/p當(dāng)p=1時(shí),sim(qor,d)=sim(qand,d)=(w1+w2

+...+wn

)/nor與and之間的差別消失與VSM等價(jià)當(dāng)p=

時(shí),sim(qor,d)=max(wj);sim(qand,d)=min(wj)模糊邏輯模型(Fuzzylogicmodel)擴(kuò)展布爾模型的性能分析文本中關(guān)鍵詞權(quán)重相關(guān)度取值能否表示查詢?cè)~之間邏輯關(guān)系布爾模型{0,1}{0,1}能向量空間模型[0,1][0,1]不能擴(kuò)展布爾模型[0,1][0,1]現(xiàn)能提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型2.7潛在語義索引模型2.5概率模型基本思想如果已知一些相關(guān)文檔和不相關(guān)文檔,那么就可以直接估計(jì)詞項(xiàng)t在相關(guān)文檔中的出現(xiàn)概率P(t|R=1),基于這些概率可以構(gòu)造一個(gè)分類器來判定某文檔是否相關(guān)二值獨(dú)立模型

常數(shù)因子

樸素貝葉斯條件獨(dú)立性假設(shè)=

假定沒有在查詢中出現(xiàn)的詞項(xiàng)t在相關(guān)和不相關(guān)文檔中出現(xiàn)的概率相等,即當(dāng)qt=0時(shí),pt=ut====常數(shù)因子=最后用于排序的量稱為檢索狀態(tài)值(RetrievalStatusValue,RSV)ct:在相關(guān)文檔中查詢?cè)~項(xiàng)出現(xiàn)的優(yōu)勢(shì)率ct:查詢?cè)~項(xiàng)的優(yōu)勢(shì)率比率(oddsratio)的對(duì)數(shù)值如果詞項(xiàng)在相關(guān)和不相關(guān)文檔中出現(xiàn)的優(yōu)勢(shì)率相等,那么ct

=0如果詞項(xiàng)更可能出現(xiàn)在相關(guān)文檔中,那么ct

>0如果詞項(xiàng)更可能出現(xiàn)在不相關(guān)文檔中,那么ct

<0ct

:模型中詞項(xiàng)的權(quán)重:在不相關(guān)文檔中查詢?cè)~項(xiàng)出現(xiàn)的優(yōu)勢(shì)率()詞t狀態(tài)相關(guān)文檔不相關(guān)文檔合計(jì)t出現(xiàn)rtdft

rtdftt

不出現(xiàn)R-rtN-dft-(R-rt)N-dft合計(jì)RN-RNct:查詢?cè)~項(xiàng)的優(yōu)勢(shì)率比率(oddsratio)的對(duì)數(shù)值()詞t狀態(tài)相關(guān)文檔不相關(guān)文檔合計(jì)t出現(xiàn)rtdft

rtdftt

不出現(xiàn)R-rtN-dft-(R-rt)N-dft合計(jì)RN-RNct:查詢?cè)~項(xiàng)的優(yōu)勢(shì)率比率(oddsratio)的對(duì)數(shù)值()期望查詢?cè)~項(xiàng)出現(xiàn)在很多但并非所有的相關(guān)文檔中詞t狀態(tài)相關(guān)文檔不相關(guān)文檔合計(jì)t出現(xiàn)rtdft

rtdftt

不出現(xiàn)R-rtN-dft-(R-rt)N-dft合計(jì)RN-RNct:查詢?cè)~項(xiàng)的優(yōu)勢(shì)率比率(oddsratio)的對(duì)數(shù)值()基于偽相關(guān)反饋的概率估計(jì)方法第1步:初始化第2步:第3步:詞t狀態(tài)相關(guān)文檔不相關(guān)文檔合計(jì)t出現(xiàn)rtdft

rtdftt

不出現(xiàn)R-rtN-dft-(R-rt)N-dft合計(jì)RN-RN第4步:重復(fù)以上兩步直至收斂零概率現(xiàn)象的處理在減少出現(xiàn)事件的概率估計(jì)值的同時(shí)提高未出現(xiàn)事件的概率估計(jì)值的方法稱為平滑(smoothing)最簡(jiǎn)單的平滑方法:對(duì)每個(gè)所觀察事件的數(shù)目都加上一個(gè)很小的正數(shù)κ。同時(shí),總數(shù)也做相應(yīng)改變將新信息和原有估計(jì)組合在一起二值獨(dú)立模型BIM的特點(diǎn)文檔和查詢都表示為詞項(xiàng)出現(xiàn)與否的布爾向量文檔相關(guān)性是二值的文檔和查詢中,關(guān)鍵詞之間是相互獨(dú)立的每篇文檔的相關(guān)性與其它文檔的相關(guān)性無關(guān)BIM模型性能分析優(yōu)點(diǎn)文檔可以按照它們相關(guān)概率遞減的順序來排序有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)采用相關(guān)反饋原理,可以開發(fā)出理論上更為堅(jiān)實(shí)的系統(tǒng)缺點(diǎn)沒有反映出不同關(guān)鍵詞對(duì)文檔貢獻(xiàn)程度的差別假設(shè)關(guān)鍵詞之間相互獨(dú)立開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合,一般來說很難OkapiBM25:一個(gè)非二值的模型

OkapiBM25:一個(gè)非二值的模型

提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的檢索模型2.7潛在語義索引模型2.6基于統(tǒng)計(jì)語言模型的信息檢索模型語言模型用來描述某種語言中句子的統(tǒng)計(jì)分布特征的數(shù)學(xué)模型語言模型(LanguageModel)產(chǎn)生于20世紀(jì)80年代初,早期主要應(yīng)用于語音識(shí)別中1998年,Ponte和Croft首次把統(tǒng)計(jì)語言模型應(yīng)用于IR領(lǐng)域語言模型的主要用途詞串(句子)概率的計(jì)算LM應(yīng)用舉例——智能拼音輸入問題

p(“一只小花貓”)>p(“一枝小花貓”)>p(任何其它候選字串)

yi

zhi

xiao

hua

mao

一之小華毛 以只校話貿(mào) 異汁銷化貓 已枝…

花…

值…

…2.6.1語言模型如何計(jì)算詞串的概率?語言模型的建立(1)確定模型的參數(shù)集合(2)確定模型各參數(shù)的值(參數(shù)訓(xùn)練)wi的“歷史(history)”每一個(gè)條件概率都是模型的一個(gè)參數(shù)根據(jù)鏈規(guī)則(ChainRule)

最大似然估計(jì)(MLE)2.6.1語言模型如何計(jì)算詞串的概率?存在的問題參數(shù)空間過大根據(jù)鏈規(guī)則(ChainRule)i=1,Vi=2,V×Vi=3,V×V×V…i=l,Vl2.6.1語言模型如何計(jì)算詞串的概率?存在的問題參數(shù)空間過大數(shù)據(jù)稀疏嚴(yán)重隨著i的增長(zhǎng),wi的歷史在訓(xùn)練語料中出現(xiàn)的概率幾乎為0根據(jù)鏈規(guī)則(ChainRule)P(“itswaterissotransparentthatthe”)=P(its)×P(water|its)×P(is|itswater)×P(so|itswateris)×P(transparent|itswaterisso)×P(that|itswaterissotransparent)×P(the|itswaterissotransparentthat)2.6.1語言模型如何計(jì)算詞串的概率?存在的問題參數(shù)空間過大數(shù)據(jù)稀疏嚴(yán)重解決辦法n元語法根據(jù)鏈規(guī)則(ChainRule)n元語法馬爾可夫假設(shè)直覺上講,下一個(gè)詞的出現(xiàn)僅依賴于它前面的一個(gè)或幾個(gè)詞。受離它較近的詞的影響較大。

或AndreiMarkov二元語法模型(Bigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞例

二元語法模型(Bigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞三元語法模型(Trigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞

二元語法模型(Bigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞三元語法模型(Trigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞n元語法模型(n-grammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的n-1個(gè)詞

二元語法模型(Bigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞三元語法模型(Trigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞n元語法模型(n-grammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的n-1個(gè)詞一元語法模型(Unigrammodel)假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的0個(gè)詞

為文檔建立語言模型原始文本<s0><s>Hecanbuyyouthecanofsoda</s>一元模型:(8wordsinvocabulary)p(He)=p(buy)=p(you)=p(the)=p(of)=p(soda)=0.125p(can)=0.25二元模型p(He|<s>)=1,p(can|He)=1,p(buy|can)=0.5,p(of|can)=0.5,p(you|buy)=1,...三元模型p(He|<s0>,<s>)=1,p(can|<s>,He)=1,p(buy|He,can)=1,p(of|the,can)=1,...,p(</s>|of,soda)=1.2.6.2基于LM的IR模型理論上,每篇文檔di都可以提供任何一個(gè)查詢q所需要的信息,只不過是提供的信息量(相關(guān)性)有大有小將檢索問題看作是求條件概率P(d|q)的問題P(d|q):給定查詢q,文檔d能夠提供相關(guān)信息的概率P(d):文檔的先驗(yàn)概率,用來表征文檔d提供相關(guān)信息的能力可以考慮權(quán)威度、長(zhǎng)度、類型、新鮮度和以前閱讀過該文檔的用戶數(shù)目等因素也可以視為均勻分布,因此可以被省略P(q|d):在文檔d對(duì)應(yīng)的語言模型Md下生成查詢q的概率檢索過程舉例假設(shè)文檔集合中只有1和2兩個(gè)文本文本1產(chǎn)生的語言模型p1(a)=0.25,p1(b)=0.5,p1(β)=1/64,β∈{c..r},剩下的s,t,u,v,w,x,y,z均為0文本2產(chǎn)生的語言模型p2(a)=0.7,p2(b)=0.05,p2(β)=1/64,β∈{c..r},剩下的s,t,u,v,w,x,y,z均為0查詢式:q=abacaadp1(q)=0.25*0.5*0.25*1/64*0.25*0.25*1/64

4.8*10-7p2(q)=0.7*0.05*0.7*1/64*0.7*0.7*1/64

2.9*10-6查詢似然模型(querylikelihoodmodel)P(q|Md)

IR中的語言建模方法實(shí)際上是在對(duì)查詢的生成過程進(jìn)行建模:首先推導(dǎo)出每篇文檔對(duì)應(yīng)的文檔語言模型LM然后計(jì)算查詢被視為每個(gè)文檔模型的隨機(jī)抽樣樣本的概率最后根據(jù)這些概率對(duì)文檔排序模型的直觀意義用戶腦子里有一篇原型文檔,然后按照該文檔中的詞語用法來生成查詢。通常,用戶對(duì)感興趣的文檔中可能出現(xiàn)的詞項(xiàng)有一些合理的想法,然后他們會(huì)選擇那些最能夠區(qū)分其他文檔的查詢項(xiàng)構(gòu)成查詢查詢生成概率的估計(jì)一元語言模型假設(shè)樸素貝葉斯條件獨(dú)立性假設(shè)最大似然估計(jì)存在的問題

概率分布的平滑方法加法平滑對(duì)每個(gè)觀察到的事件的數(shù)目都加上一個(gè)數(shù)α。同時(shí),總數(shù)也做相應(yīng)改變概率分布的平滑方法

概率分布的平滑方法加法平滑線性插值方法三概率分布的平滑方法加法平滑線性插值方法三平滑對(duì)于模型的良好性能具有實(shí)質(zhì)性的影響在上述兩種方法中,如何設(shè)置正確的λ及α是獲得良好性能的關(guān)鍵較小的λ及較大的α意味加重平滑的權(quán)重參數(shù)λ及α的值也不必一定是常數(shù)將參數(shù)定義為查詢長(zhǎng)度的一個(gè)函數(shù)短查詢:輕度平滑(類似于“與”搜索)長(zhǎng)查詢:加重平滑的權(quán)重與傳統(tǒng)的VSM相比,基于LM的IR模型取得了較好的檢索效果,已經(jīng)成為IR研究的一個(gè)新方向例:q=計(jì)算機(jī)病毒Dd1

:小王雖然是學(xué)醫(yī)的,但對(duì)研究計(jì)算機(jī)病毒也感興趣…d2

:計(jì)算機(jī)程序發(fā)現(xiàn)了艾滋病病毒傳播途徑上述文檔哪一個(gè)會(huì)被檢索到?提綱2.1信息檢索模型的定義和分類2.2布爾模型2.3向量空間模型2.4擴(kuò)展布爾模型2.5概率模型2.6基于統(tǒng)計(jì)語言模型的檢索模型2.7潛在語義索引模型2.7潛在語義索引模型基于關(guān)鍵詞匹配方法存在的問題一詞多義(polysemy)現(xiàn)象例:“處理”什么地方處理舊家具?你去把那個(gè)叛徒處理了處理自然語言很難2.7潛在語義索引模型基于關(guān)鍵詞匹配方法存在的問題一詞多義(polysemy)現(xiàn)象一義多詞(synonymy)現(xiàn)象例:car、automobile2.7潛在語義索引模型基于關(guān)鍵詞匹配方法存在的問題一詞多義(polysemy)現(xiàn)象一義多詞(synonymy)現(xiàn)象兩篇文檔是否相關(guān)往往不只決定于字面上的詞語重復(fù),還取決于文字背后的語義關(guān)聯(lián)例1“喬布斯離我們而去了?!薄疤O果價(jià)格會(huì)不會(huì)降?”例2“李世石與AlphaGo會(huì)進(jìn)行五次圍棋大戰(zhàn)?!薄叭斯ぶ悄芘c人類到底誰更加厲害?”能否利用詞項(xiàng)的同現(xiàn)情況來獲得詞項(xiàng)的隱性語義關(guān)聯(lián)?潛在語義索引(LSI)模型的提出潛在語義索引模型(latentsemanticindexing,LSI)也稱為隱性語義索引模型,由UniversityofChicago、BellCommunicationsResearch等五家單位的學(xué)者在1999年共同提出ScottDeerwester,

SusanT.Dumais,

GeorgeW.Furnas,

ThomasK.Landauer,

RichardHarshman

(1990).

"IndexingbyLatentSemanticAnalysis".

JournaloftheAmericanSocietyforInformationScience

41

(6):391–407.

矩陣-向量乘法d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmnt1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnnq1nq2...nqn=Sim(d1,q)Sim(d2,q)...Sim(dm,q)矩陣-向量乘法與特征值之間的關(guān)系

矩陣-向量乘法與特征值之間的關(guān)系方陣S乘以一個(gè)任意向量的效果取決于S的特征值及特征向量

矩陣分解技術(shù)矩陣對(duì)角化定理令S為M×M的實(shí)方陣,并且它有M個(gè)線性無關(guān)的特征向量,那么存在如下一個(gè)對(duì)角化分解:

S=U

U?1其中,

λ1,λ2,…,λM為S的M個(gè)特征值,U中各列是各特征值對(duì)應(yīng)的特征向量稱S與對(duì)角陣diag(λ1,

λ2,…,

λM)相似若矩陣S與一個(gè)對(duì)角陣相似,則稱S可以相似對(duì)角化λ1

λ2

λM

矩陣對(duì)角化分解的意義λ1

λ2

λn

例:詞匯-文檔矩陣X

XTX=?對(duì)稱陣的分解d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmnt1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn文檔相似矩陣(實(shí)對(duì)稱陣)例:詞匯-文檔矩陣X

XXT=?對(duì)稱陣的分解t1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn詞相似矩陣(實(shí)對(duì)稱陣)d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn對(duì)稱陣的分解對(duì)于對(duì)稱陣S,不同特征值所對(duì)應(yīng)的特征向量之間是正交的(orthogonal)對(duì)于正交矩陣A,有:A?1=AT對(duì)稱對(duì)角化定理令S為M×M的實(shí)對(duì)稱陣,并且它有M個(gè)線性無關(guān)的特征向量,那么存在如下一個(gè)對(duì)稱對(duì)角化分解:

S=Q

QT其中,

λ1,λ2,…,λM為S的M個(gè)特征值,Q中各列是S的互相正交且歸一化(單位長(zhǎng)度)的特征向量λ1

λ2

λM

奇異值分解

(SingularValueDecomposition,SVD)任何一個(gè)矩陣,比如說一個(gè)n×m的詞匯-文檔矩陣Xn×m,均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論