信息檢索試題

上傳人：小*** IP屬地：上海上傳時(shí)間：2022-05-04 格式：DOCX 頁(yè)數(shù)：3 大?。?2.57KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1內(nèi)容安全概念模型2 Jaccard系數(shù)的缺陷，tf-idf要考慮哪些因素3 產(chǎn)生式與判別式的區(qū)別4索引的建立，倒排索引5檢索評(píng)價(jià)指標(biāo)計(jì)算6 極大似然估計(jì)，使用加1平滑答案：1. 信息安全的框架包括內(nèi)容安全（信息利用的安全）、數(shù)據(jù)安全（信息自身的安全）、運(yùn)行安全（信息系統(tǒng)的安全）、物理安全（信息系統(tǒng)的安全）。如圖所示：內(nèi)容安全涉及的是對(duì)流動(dòng)的數(shù)據(jù)進(jìn)行限制，包括可以對(duì)指定的數(shù)據(jù)進(jìn)行選擇性的阻斷、修改、轉(zhuǎn)發(fā)等特定的行為以及信息對(duì)抗，即針對(duì)信息中的信息熵而進(jìn)行的隱藏、掩蓋，或發(fā)現(xiàn)、分析的行為。它是指對(duì)信息真實(shí)內(nèi)容的隱藏、發(fā)現(xiàn)、選擇性阻斷。主要的處置手段是信息識(shí)別與挖掘技術(shù)、過(guò)濾技術(shù)、隱藏技術(shù)等。2.

2、 Jaccard系數(shù)的缺陷：（1）不考慮詞項(xiàng)頻率，即詞項(xiàng)在文檔中的出現(xiàn)次數(shù)；（2）罕見詞比高頻詞的信息量更大，Jaccard系數(shù)沒(méi)有考慮這個(gè)信息；（3）沒(méi)有仔細(xì)考慮文檔的長(zhǎng)度因素。tf-idf要考慮的因素：（1）詞項(xiàng)頻率，即詞t在文檔d中出現(xiàn)的次數(shù)；（2）文檔頻率，指出現(xiàn)詞項(xiàng)t的文檔數(shù)。（3）歸一化向量3.判別式模型（ discriminative model ）產(chǎn)生式模型（ generative model ）特點(diǎn)尋找不同類別之間的最優(yōu)分類面，反映的是異類數(shù)據(jù)之間的差異對(duì)后驗(yàn)概率建模，從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況，能夠反映同類數(shù)據(jù)本身的相似度區(qū)別 ( 假定輸入 x,類別標(biāo)簽 y)估計(jì)的是

3、條件概率分布 (conditional distribution) : P(y|x)估計(jì)的是聯(lián)合概率分布（ joint probability distribution: P(x, y),聯(lián)系由產(chǎn)生式模型可以得到判別式模型，但由判別式模型得不到產(chǎn)生式模型。常見模型 logistic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks,

4、 Bayesian networks Markov random fields 優(yōu)點(diǎn)1 ）分類邊界更靈活，比使用純概率方法或產(chǎn)生式模型更高級(jí)；2 ）能清晰的分辨出多類或某一類與其他類之間的差異特征；3 ）在聚類、 viewpoint changes, partial occlusion and scale variations 中的效果較好；4 ）適用于較多類別的識(shí)別；5 ）判別模型的性能比產(chǎn)生式模型要簡(jiǎn)單，比較容易學(xué)習(xí)。1 ）實(shí)際上帶的信息要比判別模型豐富；2 ）研究單類問(wèn)題比判別模型靈活性強(qiáng)；3 ）模型可以通過(guò)增量學(xué)習(xí)得到；4 ）能用于數(shù)據(jù)不完整（ missing data）情況。缺點(diǎn)1

5、）不能反映訓(xùn)練數(shù)據(jù)本身的特性。能力有限，可以告訴你的是 1 還是 2，但沒(méi)有辦法把整個(gè)場(chǎng)景描述出來(lái)；2 ） Lack elegance of generative: Priors, 結(jié)構(gòu) , 不確定性； 3 ） Alternative notions of penalty functions, regularization, 核函數(shù)； 4 ）黑盒操作 : 變量間的關(guān)系不清楚，不可視。1) Tend to produce a significant number of false positives. This is particularly true for object classes w

6、hich share a high visual similarity such as horses and cows； 2) 學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜。性能較好（性能比生成模型稍好些，因?yàn)槔昧擞?xùn)練數(shù)據(jù)的類別標(biāo)識(shí)信息，缺點(diǎn)是不能反映訓(xùn)練數(shù)據(jù)本身的特性）較差主要應(yīng)用Image and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 設(shè)有兩個(gè)文檔D1,D2其文本內(nèi)容分別如下：D1=abfcdgecfcdeagD2=dacfggfcbbaafc對(duì)文檔D1,D2建立倒排索

7、引，并寫出倒排索引結(jié)構(gòu)。用偽代碼寫出上述建立倒排索引的建立過(guò)程。給定查詢Q=fc如果采用向量u 空間模型檢索，請(qǐng)寫出檢索過(guò)程。（3）對(duì)于查詢Q：（<f, 1>, <c, 1>）文檔D1：（<a, 2>, <b, 1> <c, 3>, <d, 2>, <e, 2>, <f, 2>, <g, 2>）文檔D2：（<a, 3>, <b, 2> <c, 3>, <d, 1>, <e, 0>, <f, 3>, <g, 2>）所以可得到，文檔向量為D1： D2: Q：查詢文檔相似度計(jì)算：采用內(nèi)積計(jì)算：文檔D1和Q的內(nèi)積：3*1 + 2*1 = 5；文檔D2和Q的內(nèi)積：3*1 +

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

信息檢索試題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

信息檢索試題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔