信息檢索導(dǎo)論-王斌-第二次課后作業(yè)(6-12)_第1頁
信息檢索導(dǎo)論-王斌-第二次課后作業(yè)(6-12)_第2頁
信息檢索導(dǎo)論-王斌-第二次課后作業(yè)(6-12)_第3頁
信息檢索導(dǎo)論-王斌-第二次課后作業(yè)(6-12)_第4頁
信息檢索導(dǎo)論-王斌-第二次課后作業(yè)(6-12)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、習(xí)題6-10tf-idf = tf * idfcar的tf-idf值在三篇文檔中分別為:doc1:27*1.65= 44.55 ; doc2:4*1.65= 6.6; doc: 24*1.65= 39.6 ;auto的tf-idf值在三篇文檔中分別為:doc1:3*2.08= 6.24 ; doc2:33*2.08= 68.64 ; doc : 0*2.08= 0;insurance 的tf-idf 值在三篇文檔中分別為:doc1:0*1.62= 0; doc2:33*1.62= 53.46 ; doc : 29*1.62= 46.98 ;best的tf-idf值在三篇文檔中分別為:doc

2、1:14*1.5= 21.0 ; doc2:0*1.5= 0; doc : 17*1.5= 25.5 ;2、習(xí)題6-191/1.922 = 0.521301/1.922 = 0.677詞查詢文檔qi*d itfwfdfidfq i=wf-idftfwfd i=歸一化的wfdigital111000033110.521.56video0010000020110.520cameras11500002.3012.30121.3010.6771.558所用公式:wf = 1+ ?裨?w 0i0?idf?log ?歸一化: x2 + 12 + 1.301 2 = 1.922-可編輯修改-最后的相似度結(jié)果

3、為:1.56+1.558=3.1183、習(xí)題7-2勝者表是提出的一種更快獲取得分較高文檔的一種方法,基本思路是考慮r篇白tf tf值。但在實(shí)際應(yīng)用中,還應(yīng)考慮到文檔長度以及用戶對搜索結(jié)果的關(guān)注程度等因素,并希望只關(guān)注那些不僅相關(guān)度高并且權(quán)威度也大的文檔。如果只根據(jù)tf值來選取最后的結(jié)果文檔,很可能導(dǎo)致的情況是,搜索結(jié)果和查詢雖然相關(guān),但會有文檔長度過長且不是用戶想得到的結(jié)果的問題。因此在考慮到全局的情況下,引入了 g(d)和tf-idf來對勝者表進(jìn)一步擴(kuò)展和精確。這樣高分文檔更可能在倒排索引的前期出現(xiàn)。4、習(xí)題7-8-可編輯修改-5、習(xí)題8-8m 心詼l mizmn nnner 鴨相小而;nr

4、/jnr rrnmn 吵。4. ma匕=(t+ 4+ 尹告)忤 0。方十用十對/* n邨m牙修尸ob.系統(tǒng)1的返回結(jié)果中相關(guān)文檔比較集中,靠前兩個(gè),靠后兩個(gè)。系統(tǒng) 2的返回結(jié)果中相 關(guān)文檔比較分散。系統(tǒng) 1比系統(tǒng)2獲得較高的map值。排名靠前的相關(guān)文檔對 map值影響較大,相關(guān)文檔位置越靠前,系統(tǒng)能獲得越高的map值。c. ri=2/4=0.5r2=1/4=0.25按照r正確性值來看,與 map的排序結(jié)果一致。6、習(xí)題9-34-3 以;l 股限。居0山,四-3): %:江+日看 自彼賒始有響丸” 3_加%脛根%!lq.。)十僅15k(w0.5 lq)0。球hr也。i)二(3玨50.波2山5.卜

5、0。兄.075小沙)二(卷 五二血l (?, 7510 _.斜陽曲&闕變網(wǎng) 遍玳牛,祝由百7、習(xí)題9-7矩陣c里的元素表示該詞項(xiàng)是否在這些文檔中同時(shí)出現(xiàn),1表示同時(shí)出現(xiàn),0表示沒有同時(shí)出現(xiàn)。-可編輯修改-8、習(xí)題11-3(l-j mlj和型仕甘物ld蕈大返峽,gl撤既心) 烝卡力3)噌征林產(chǎn)務(wù)三九犀小利g -他心加-閨但會嘴也4l復(fù)扁f 帕-)叼產(chǎn)i s7r辟一者卜多抵二帚9、習(xí)題12-6d=(, , ,landed, 1, , , ,sensation, 1, ,martin, 1)a. p(the) = 2/11 = 0.182, p(martian) = 1/11 = 0.091b. p

6、(sensation|pop) = 1, p(pop|the) = 010、習(xí)題 12-7該文檔集的查詢似然模型為:clickgotheshearsboysmetalhere模型11/21/81/81/81/800模型21000000模型3000001/21/2模型41/4001/401/41/4文檔集模型7/161/161/162/161/162/162/16每篇文檔模型對應(yīng)的概率:p(d|q) 8p(d) n?r?(1 - ? + ?(?)-可編輯修改-querydoc1doc2doc3doc4click15/3223/327/3211/32shears2/161/161/163/16click shears15/25623/5127/51233/512p(click|doc1)=1/2*1/2+7/16*1/2=15/32,p(click|doc2)=1*1/2+7/16*1/2=23/32p(shears|doc1)=1/8*1/2+2/16*1/2=2/16,p(click shears|doc1)=15/32*2/16=15/256對于查詢click shear

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論