第三章--信息檢索系統(tǒng)的評價-課件PPT_第1頁
第三章--信息檢索系統(tǒng)的評價-課件PPT_第2頁
第三章--信息檢索系統(tǒng)的評價-課件PPT_第3頁
第三章--信息檢索系統(tǒng)的評價-課件PPT_第4頁
第三章--信息檢索系統(tǒng)的評價-課件PPT_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息組織、存儲與檢索信息組織、存儲與檢索第三章第三章 信息檢索系統(tǒng)的評價信息檢索系統(tǒng)的評價12021/8/26信息組織、存儲與檢索信息組織、存儲與檢索評價評價n評價一般是指評估某個系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項技術(shù)的價值,或者是某項政策的效果等等;n競技體育:世界記錄 vs. 世界最好成績n110米欄世界記錄:梅里特,美國,1280n男子馬拉松世界最好成績:保羅 特爾加特,肯尼亞,2小時4分55秒22021/8/26信息組織、存儲與檢索信息組織、存儲與檢索為什么要對為什么要對IR進行評價?進行評價?n信息檢索評價則是指對信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進行評估的活動;n從

2、信息檢索系統(tǒng)誕生以來,對檢索系統(tǒng)的評價就一直是推動其研究、開發(fā)與應(yīng)用的一種主要力量;32021/8/26信息組織、存儲與檢索信息組織、存儲與檢索IR的評價指標(biāo)的評價指標(biāo)n針對一個檢索系統(tǒng),可以從功能和性能兩個方面對其進行分析評價n功能評價n可通過測試系統(tǒng)來判定是否支持某項功能,因此相對來說較容易n性能評價n對于檢索系統(tǒng)的性能來說,除了系統(tǒng)的時間和空間因素之外,要求檢索結(jié)果能夠按照相關(guān)度進行排序42021/8/26信息組織、存儲與檢索信息組織、存儲與檢索性能評價指標(biāo)性能評價指標(biāo)n 在評價和比較檢索系統(tǒng)的檢索性能需要以下條件:n 一個文檔集合C;n 系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔。n 一

3、組用戶查詢要求q1, q2, , qn;n 每個查詢要求qi描述了用戶的信息需求。n 對應(yīng)每個用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集R1, R2, Rn;n 該集合可由人工方式構(gòu)造。n 一組評價指標(biāo);n 這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對它們的相似性進行量化,得到這些指標(biāo)值。52021/8/26信息組織、存儲與檢索信息組織、存儲與檢索評價任務(wù)示例評價任務(wù)示例系統(tǒng)&查詢1234系統(tǒng)1,查詢1d3d6d8d10系統(tǒng)1,查詢2d1d4d7d11系統(tǒng)2,查詢1d6d7d3d9系統(tǒng)2,查詢2d1d2d4d1362021/8/26信息組織、存儲與檢索信息組織、

4、存儲與檢索整個文檔集合的劃分整個文檔集合的劃分Ra未檢索出的不相關(guān)文檔檢索出的不相關(guān)文檔檢索出的相關(guān)文檔未檢索出的相關(guān)文檔檢索出(Retrieved)未檢索出(Not Retrieved)不相關(guān)(Not Relevant)相關(guān)(Relevant)整個文檔集合C72021/8/26信息組織、存儲與檢索信息組織、存儲與檢索四種關(guān)系的表示四種關(guān)系的表示檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)相關(guān)文本相關(guān)文本檢出相關(guān)文檔相關(guān)文檔檢出文檔檢出不相關(guān)文檔未檢出相關(guān)文檔82021/8/26信息組織、存儲與檢索信息組織、存儲與檢索準(zhǔn)確率和召回率準(zhǔn)確率和召回率n正確率正確率(Prec

5、ision): 檢出的檢出的相關(guān)文檔數(shù)相關(guān)文檔數(shù)與與檢出檢出文檔數(shù)文檔數(shù)的比值,也稱為的比值,也稱為查準(zhǔn)率查準(zhǔn)率;n召回率召回率(Recall): 系統(tǒng)檢出的相關(guān)文檔數(shù)相關(guān)文檔數(shù)與實實際相關(guān)文檔數(shù)目際相關(guān)文檔數(shù)目的比值,也稱為查全率查全率。ARaPRRaR92021/8/26信息組織、存儲與檢索信息組織、存儲與檢索示例示例n假設(shè)用戶查詢q為一個給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合: Rq=d2,d5,d9,d12,d23 而針對q的檢出相關(guān)文檔集合為: Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23求檢索的準(zhǔn)確率和召回率。102021/8/26信

6、息組織、存儲與檢索信息組織、存儲與檢索準(zhǔn)確率和召回率的關(guān)系準(zhǔn)確率和召回率的關(guān)系101準(zhǔn)確率召回率返回最相關(guān)的文本返回最相關(guān)的文本但是漏掉了很多但是漏掉了很多相關(guān)文本相關(guān)文本理想情況理想情況返回了大多數(shù)相關(guān)文檔返回了大多數(shù)相關(guān)文檔但是包含很多垃圾但是包含很多垃圾112021/8/26信息組織、存儲與檢索信息組織、存儲與檢索準(zhǔn)確率準(zhǔn)確率/召回率曲線召回率曲線n假設(shè)用戶查詢q為一個給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合: Rq=d2,d5,d9,d12,d23 檢索系統(tǒng)對查詢q返回的前10個文檔Aq的排序為:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d1

7、0 8.d12 9.d19 10.d20122021/8/26信息組織、存儲與檢索信息組織、存儲與檢索準(zhǔn)確率準(zhǔn)確率/召回率曲線召回率曲線準(zhǔn)確率00.80.81召回率132021/8/26信息組織、存儲與檢索信息組織、存儲與檢索11點標(biāo)準(zhǔn)召回率點標(biāo)準(zhǔn)召回率n計算召回率分別為0、10%、20%, 100%下的準(zhǔn)確率準(zhǔn)確率00.80.81召回率142021/8/26信息組織、存儲與檢索信息組織、存儲與檢索平均準(zhǔn)確率平均準(zhǔn)確率n 上述準(zhǔn)確率召回率的值對應(yīng)一個查詢n 每個查詢對應(yīng)不同的準(zhǔn)確/召回率曲線n 為了評價某一算法對于所有

8、測試查詢的檢索性能,對每個召回率水平下的準(zhǔn)確率進行平均化處理,公式如下:1( )( )qNiiqP rP rNNq: 是使用的查詢總數(shù)Pi(r):是召回率為r時的第i個查詢的準(zhǔn)確率152021/8/26信息組織、存儲與檢索信息組織、存儲與檢索單值評價方法單值評價方法n已檢出相關(guān)文檔的已檢出相關(guān)文檔的平均準(zhǔn)確率均值(平均準(zhǔn)確率均值(MAP)n逐個考察檢出新的相關(guān)文獻,將準(zhǔn)確率平均逐個考察檢出新的相關(guān)文獻,將準(zhǔn)確率平均r為相關(guān)文檔數(shù)。riirMAP11?第i個相關(guān)文檔的位置162021/8/26信息組織、存儲與檢索信息組織、存儲與檢索計算計算MAP舉例舉例n假設(shè)有兩個查詢,查詢假設(shè)有兩個查詢,查詢

9、1有有4個相關(guān)文檔,查個相關(guān)文檔,查詢詢2有有5個相關(guān)文檔。某系統(tǒng)對于查詢個相關(guān)文檔。某系統(tǒng)對于查詢1檢索檢索出出4個相關(guān)文檔,其排序分別為個相關(guān)文檔,其排序分別為1,2,4,7;對;對于查詢于查詢2檢索出檢索出3個相關(guān)文檔,其排序分別為個相關(guān)文檔,其排序分別為1,3,5。計算的值。計算的值。172021/8/26信息組織、存儲與檢索信息組織、存儲與檢索單值評價方法單值評價方法nP10nP10是是系統(tǒng)對于查詢返回的前系統(tǒng)對于查詢返回的前10個結(jié)果的個結(jié)果的準(zhǔn)確率。準(zhǔn)確率。n例:檢索系統(tǒng)對查詢q返回的前10個文檔Aq的排序為:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.

10、d10 8.d12 9.d19 10.d20nP10=30%(共有10篇檢出文檔,其中3篇為相關(guān)文檔)182021/8/26信息組織、存儲與檢索信息組織、存儲與檢索單值評價方法單值評價方法nR準(zhǔn)確率(準(zhǔn)確率(R-Precision)n單個查詢的單個查詢的R準(zhǔn)確率是檢索出篇相關(guān)文檔時準(zhǔn)確率是檢索出篇相關(guān)文檔時的準(zhǔn)確率;的準(zhǔn)確率;n查詢集合中所有查詢的準(zhǔn)確率是每個查詢的查詢集合中所有查詢的準(zhǔn)確率是每個查詢的準(zhǔn)確率的平均值。準(zhǔn)確率的平均值。nR-Precision前前R篇文檔中相關(guān)文檔數(shù)篇文檔中相關(guān)文檔數(shù)R192021/8/26信息組織、存儲與檢索信息組織、存儲與檢索計算計算R準(zhǔn)確率舉例準(zhǔn)確率舉例n

11、假設(shè)有兩個查詢,第1個查詢有50個相關(guān)文檔,第2個查詢有10個相關(guān)文檔。某個系統(tǒng)對于第1個查詢返回的前50個結(jié)果中有17個是相關(guān)的,對于第2個查詢返回的前10個結(jié)果中有7個事相關(guān)的。分別計算查詢1、查詢2和查詢集合的R準(zhǔn)確率。202021/8/26信息組織、存儲與檢索信息組織、存儲與檢索單值評價方法單值評價方法n 準(zhǔn)確率直方圖n多個查詢的R-Precision測度n用來比較兩個算法的檢索紀(jì)錄nRPA-B=0:對于第i個查詢,兩個算法有相同的性能nRPA-B0:對于第i個查詢,算法A有較好的性能nRPA-B0:對于第i個查詢,算法B有較好的性能)()()(iRPiRPiRPBABA212021/

12、8/26信息組織、存儲與檢索信息組織、存儲與檢索單值概括單值概括0.00.51.01.5-0.5-1.0-1.512345678910Query Number28222021/8/26信息組織、存儲與檢索信息組織、存儲與檢索作業(yè)作業(yè)n 假設(shè)查詢q為一個給定的用戶查詢,與q相關(guān)的文檔集合Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n 通過某一個檢索算法得到的排序結(jié)果: 1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d

13、25 15. d3 要求1.分別計算檢索到相關(guān)文檔時的召回率和準(zhǔn)確率,并繪制準(zhǔn)確率/召回率曲線; 2.采用11點標(biāo)準(zhǔn)召回率方法計算召回率和準(zhǔn)確率,并繪制插補后的準(zhǔn)確率/召回率曲線; 3.計算MAP值; 4.分別計算檢索返回前10個結(jié)果和返回前15個結(jié)果時的R準(zhǔn)確率。232021/8/26信息組織、存儲與檢索信息組織、存儲與檢索測試集測試集 (Test Collections)n 組成要素n文件集 (Document Set; Document Collection)n查詢問題 (Query; Topic)n相關(guān)判斷 (Relevant Judgment)n 用途n設(shè)計與發(fā)展: 系統(tǒng)測試n評估:

14、 系統(tǒng)效能(Effectiveness)之測量n比較: 不同系統(tǒng)與不同技術(shù)間之比較n 評比n根據(jù)不同的目的而有不同的評比項目n量化的測量準(zhǔn)則,如Precision與Recall242021/8/26信息組織、存儲與檢索信息組織、存儲與檢索國外的評測國外的評測n TREC評測評測 n 文本檢索會議(文本檢索會議(Text Retrieval Conference,TREC)是信息檢索)是信息檢索( IR) 界為進行檢索系統(tǒng)和用戶評價而舉行的活動界為進行檢索系統(tǒng)和用戶評價而舉行的活動, 它由美國國家標(biāo)準(zhǔn)技它由美國國家標(biāo)準(zhǔn)技術(shù)協(xié)會術(shù)協(xié)會(NIST) 和美國高級研究計劃局和美國高級研究計劃局(DARP

15、A)(美國國防部)(美國國防部) 共同共同資助,開始于資助,開始于1992年。年。 n NTCIR評測n NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本國立信息學(xué)研究所(National Institute of Informatics,簡稱NII)主辦的搜索引擎評價型國際會議 n CLEF評測n CLEF于2000年開始籌辦,是歐洲各國共同合作進行的一項長期研究計劃,主要想通過評測信息科技技術(shù),促進歐洲語言中的各種單一語言以及多語言信息技術(shù)的發(fā)展, n CLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面 252021/8

16、/26信息組織、存儲與檢索信息組織、存儲與檢索TREC評測評測n TREC: Text REtrieval Conference (/)n1992年開始,每年一次n由美國國防部Defense Advanced Research Projects Agency (DARPA)和美國國家標(biāo)準(zhǔn)技術(shù)研究所National Institute of Standards and Technology (NIST)聯(lián)合發(fā)起n參加者免費獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)n參加者在參加比賽時收到最新的測試數(shù)據(jù),并在限定時間內(nèi)作出答案,返給組織者n組織者對各參賽者的結(jié)果進行評價n包括檢索

17、、過濾、問答等多個主題262021/8/26信息組織、存儲與檢索信息組織、存儲與檢索TREC測試集測試集n文檔集合n英語文檔集合n非英語文檔集合n文檔內(nèi)容:主要來自報紙、新聞及政府文檔n文檔格式:采用SGML標(biāo)記語言進行標(biāo)記n主題n對檢索系統(tǒng)用戶的信息需求進行仿真,稱為主題對檢索系統(tǒng)用戶的信息需求進行仿真,稱為主題n相關(guān)性判斷272021/8/26信息組織、存儲與檢索信息組織、存儲與檢索文檔格式文檔格式WSJ880406-0090AT&T Unveils Services to Upgrade Phone Networks Under Global Plan Janet Guyon (

18、WSJ staff) American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for computer and communications . .282021/8/26信息組織、存儲與檢索信息組織、存儲與檢索TREC評測的評價方法評測的評價方法n概括表統(tǒng)計n準(zhǔn)確率-召回率平均值n文獻級別平均值n平均準(zhǔn)確率292021/8/26信息組織、存儲與檢索信息組織、存儲與檢索TREC評測的任務(wù)(評測的任務(wù)(Track

19、s)n2013 TREC Tracks(8個)nContextual Suggestion TracknMicroblog TracknWeb TracknTemporal Summarization Trackn302021/8/26信息組織、存儲與檢索信息組織、存儲與檢索國內(nèi)國內(nèi)863評測介紹評測介紹n 全名:n863計劃中文信息處理與智能人機接口技術(shù)評測n 組織者:國家高技術(shù)研究發(fā)展計劃(863計劃)n 方式n通過網(wǎng)絡(luò)進行n各單位在自己的環(huán)境中運行參評系統(tǒng)n2005年11月召開研討會n 2005年度評測內(nèi)容n機器翻譯n信息檢索n語音識別312021/8/26信息組織、存儲與檢索信息組織、存儲與檢索863評測介紹評測介紹信息檢索評測信息檢索評測n項目:相關(guān)網(wǎng)頁檢索n任務(wù)定義:給定主題,返回數(shù)據(jù)中與該主題相關(guān)的網(wǎng)頁。 n數(shù)據(jù):CWT100g (中文Web測試集100g)n根據(jù)天網(wǎng)搜索引擎截止2004年2月1日發(fā)現(xiàn)的中國范圍

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論