信息檢索系統(tǒng)的評價_第1頁
信息檢索系統(tǒng)的評價_第2頁
信息檢索系統(tǒng)的評價_第3頁
信息檢索系統(tǒng)的評價_第4頁
信息檢索系統(tǒng)的評價_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

信息檢索系統(tǒng)的評價第一頁,共三十五頁,2022年,8月28日評價評價一般是指評估某個系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項技術(shù)的價值,或者是某項政策的效果等等;競技體育:世界記錄vs.世界最好成績110米欄世界記錄:梅里特,美國,12’’80男子馬拉松世界最好成績:保羅·特爾加特,肯尼亞,2小時4分55秒第二頁,共三十五頁,2022年,8月28日為什么要對IR進行評價?信息檢索評價則是指對信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進行評估的活動;從信息檢索系統(tǒng)誕生以來,對檢索系統(tǒng)的評價就一直是推動其研究、開發(fā)與應(yīng)用的一種主要力量;第三頁,共三十五頁,2022年,8月28日IR的評價指標(biāo)針對一個檢索系統(tǒng),可以從功能和性能兩個方面對其進行分析評價功能評價可通過測試系統(tǒng)來判定是否支持某項功能,因此相對來說較容易性能評價對于檢索系統(tǒng)的性能來說,除了系統(tǒng)的時間和空間因素之外,要求檢索結(jié)果能夠按照相關(guān)度進行排序第四頁,共三十五頁,2022年,8月28日

性能評價指標(biāo)

在評價和比較檢索系統(tǒng)的檢索性能需要以下條件:一個文檔集合C;系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔。一組用戶查詢要求{q1,q2,…,qn};每個查詢要求qi描述了用戶的信息需求。對應(yīng)每個用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn};該集合可由人工方式構(gòu)造。一組評價指標(biāo);這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對它們的相似性進行量化,得到這些指標(biāo)值。第五頁,共三十五頁,2022年,8月28日評價任務(wù)示例系統(tǒng)&查詢1234…系統(tǒng)1,查詢1d3d6d8d10系統(tǒng)1,查詢2d1d4d7d11系統(tǒng)2,查詢1d6d7d3d9系統(tǒng)2,查詢2d1d2d4d13第六頁,共三十五頁,2022年,8月28日整個文檔集合的劃分Ra未檢索出的不相關(guān)文檔檢索出的不相關(guān)文檔檢索出的相關(guān)文檔未檢索出的相關(guān)文檔檢索出(Retrieved)未檢索出(NotRetrieved)不相關(guān)(NotRelevant)相關(guān)(Relevant)整個文檔集合C第七頁,共三十五頁,2022年,8月28日四種關(guān)系的表示檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)相關(guān)文本檢出相關(guān)文檔相關(guān)文檔檢出文檔檢出不相關(guān)文檔未檢出相關(guān)文檔第八頁,共三十五頁,2022年,8月28日準(zhǔn)確率和召回率正確率(Precision):檢出的相關(guān)文檔數(shù)與檢出文檔數(shù)的比值,也稱為查準(zhǔn)率;召回率(Recall):系統(tǒng)檢出的相關(guān)文檔數(shù)與實際相關(guān)文檔數(shù)目的比值,也稱為查全率。第九頁,共三十五頁,2022年,8月28日示例假設(shè)用戶查詢q為一個給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合:Rq={d2,d5,d9,d12,d23}而針對q的檢出相關(guān)文檔集合為:Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}求檢索的準(zhǔn)確率和召回率。10第十頁,共三十五頁,2022年,8月28日準(zhǔn)確率和召回率的關(guān)系11101準(zhǔn)確率召回率返回最相關(guān)的文本但是漏掉了很多相關(guān)文本理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾第十一頁,共三十五頁,2022年,8月28日準(zhǔn)確率/召回率曲線假設(shè)用戶查詢q為一個給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合:Rq={d2,d5,d9,d12,d23}檢索系統(tǒng)對查詢q返回的前10個文檔Aq的排序為:1.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20第十二頁,共三十五頁,2022年,8月28日準(zhǔn)確率/召回率曲線準(zhǔn)確率00.80.81召回率第十三頁,共三十五頁,2022年,8月28日11點標(biāo)準(zhǔn)召回率計算召回率分別為0、10%、20%…,100%下的準(zhǔn)確率準(zhǔn)確率00.80.81召回率第十四頁,共三十五頁,2022年,8月28日平均準(zhǔn)確率上述準(zhǔn)確率召回率的值對應(yīng)一個查詢每個查詢對應(yīng)不同的準(zhǔn)確/召回率曲線為了評價某一算法對于所有測試查詢的檢索性能,對每個召回率水平下的準(zhǔn)確率進行平均化處理,公式如下:Nq:是使用的查詢總數(shù)Pi(r):是召回率為r時的第i個查詢的準(zhǔn)確率第十五頁,共三十五頁,2022年,8月28日單值評價方法已檢出相關(guān)文檔的平均準(zhǔn)確率均值(MAP)逐個考察檢出新的相關(guān)文獻,將準(zhǔn)確率平均r為相關(guān)文檔數(shù)。第i個相關(guān)文檔的位置第十六頁,共三十五頁,2022年,8月28日計算MAP舉例假設(shè)有兩個查詢,查詢1有4個相關(guān)文檔,查詢2有5個相關(guān)文檔。某系統(tǒng)對于查詢1檢索出4個相關(guān)文檔,其排序分別為1,2,4,7;對于查詢2檢索出3個相關(guān)文檔,其排序分別為1,3,5。計算MAP的值。第十七頁,共三十五頁,2022年,8月28日單值評價方法P@10P@10是系統(tǒng)對于查詢返回的前10個結(jié)果的準(zhǔn)確率。例:檢索系統(tǒng)對查詢q返回的前10個文檔Aq的排序為:1.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20P@10=30%(共有10篇檢出文檔,其中3篇為相關(guān)文檔)第十八頁,共三十五頁,2022年,8月28日單值評價方法R準(zhǔn)確率(R-Precision)單個查詢的R準(zhǔn)確率是檢索出R篇相關(guān)文檔時的準(zhǔn)確率;查詢集合中所有查詢的R準(zhǔn)確率是每個查詢的R準(zhǔn)確率的平均值。R-Precision=前R篇文檔中相關(guān)文檔數(shù)R第十九頁,共三十五頁,2022年,8月28日計算R準(zhǔn)確率舉例假設(shè)有兩個查詢,第1個查詢有50個相關(guān)文檔,第2個查詢有10個相關(guān)文檔。某個系統(tǒng)對于第1個查詢返回的前50個結(jié)果中有17個是相關(guān)的,對于第2個查詢返回的前10個結(jié)果中有7個事相關(guān)的。分別計算查詢1、查詢2和查詢集合的R準(zhǔn)確率。第二十頁,共三十五頁,2022年,8月28日單值評價方法準(zhǔn)確率直方圖多個查詢的R-Precision測度用來比較兩個算法的檢索紀(jì)錄RPA-B=0:對于第i個查詢,兩個算法有相同的性能RPA-B>0:對于第i個查詢,算法A有較好的性能RPA-B<0:對于第i個查詢,算法B有較好的性能第二十一頁,共三十五頁,2022年,8月28日單值概括0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28第二十二頁,共三十五頁,2022年,8月28日作業(yè)假設(shè)查詢q為一個給定的用戶查詢,與q相關(guān)的文檔集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個檢索算法得到的排序結(jié)果:1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25

15.d3

要求1.分別計算檢索到相關(guān)文檔時的召回率和準(zhǔn)確率,并繪制準(zhǔn)確率/召回率曲線;

2.采用11點標(biāo)準(zhǔn)召回率方法計算召回率和準(zhǔn)確率,并繪制插補后的準(zhǔn)確率/召回率曲線;3.計算MAP值;4.分別計算檢索返回前10個結(jié)果和返回前15個結(jié)果時的R準(zhǔn)確率。第二十三頁,共三十五頁,2022年,8月28日測試集(TestCollections)組成要素文件集(DocumentSet;DocumentCollection)查詢問題(Query;Topic)相關(guān)判斷(RelevantJudgment)用途設(shè)計與發(fā)展:系統(tǒng)測試評估:系統(tǒng)效能(Effectiveness)之測量比較:不同系統(tǒng)與不同技術(shù)間之比較評比根據(jù)不同的目的而有不同的評比項目量化的測量準(zhǔn)則,如Precision與Recall第二十四頁,共三十五頁,2022年,8月28日國外的評測TREC評測文本檢索會議(TextRetrievalConference,TREC)是信息檢索(IR)界為進行檢索系統(tǒng)和用戶評價而舉行的活動,它由美國國家標(biāo)準(zhǔn)技術(shù)協(xié)會(NIST)和美國高級研究計劃局(DARPA)(美國國防部)共同資助,開始于1992年。

NTCIR評測NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本國立信息學(xué)研究所(NationalInstituteofInformatics,簡稱NII)主辦的搜索引擎評價型國際會議CLEF評測CLEF于2000年開始籌辦,是歐洲各國共同合作進行的一項長期研究計劃,主要想通過評測信息科技技術(shù),促進歐洲語言中的各種單一語言以及多語言信息技術(shù)的發(fā)展,CLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面第二十五頁,共三十五頁,2022年,8月28日TREC評測TREC:TextREtrievalConference(/)1992年開始,每年一次由美國國防部DefenseAdvancedResearchProjectsAgency(DARPA)和美國國家標(biāo)準(zhǔn)技術(shù)研究所NationalInstituteofStandardsandTechnology(NIST)聯(lián)合發(fā)起參加者免費獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)參加者在參加比賽時收到最新的測試數(shù)據(jù),并在限定時間內(nèi)作出答案,返給組織者組織者對各參賽者的結(jié)果進行評價包括檢索、過濾、問答等多個主題第二十六頁,共三十五頁,2022年,8月28日TREC測試集文檔集合英語文檔集合非英語文檔集合文檔內(nèi)容:主要來自報紙、新聞及政府文檔文檔格式:采用SGML標(biāo)記語言進行標(biāo)記主題對檢索系統(tǒng)用戶的信息需求進行仿真,稱為主題相關(guān)性判斷第二十七頁,共三十五頁,2022年,8月28日文檔格式<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>第二十八頁,共三十五頁,2022年,8月28日TREC評測的評價方法概括表統(tǒng)計準(zhǔn)確率-召回率平均值文獻級別平均值平均準(zhǔn)確率第二十九頁,共三十五頁,2022年,8月28日TREC評測的任務(wù)(Tracks)2013TRECTracks(8個)ContextualSuggestionTrackMicroblogTrackWebTrackTemporalSummarizationTrack……30第三十頁,共三十五頁,2022年,8月28日國內(nèi)863評測介紹全名:863計劃中文信息處理與智能人機接口技術(shù)評測組織者:國家高技術(shù)研究發(fā)展計劃(863計劃)方式通過網(wǎng)絡(luò)進行各單位在自己的環(huán)境中運行參評系統(tǒng)2005年11月召開研討會2005年度評測內(nèi)容機器翻譯信息檢索語音識別第三十一頁,共三十五頁,2022年,8月28日863評測介紹—信息檢索評測項目:相關(guān)網(wǎng)頁檢索任務(wù)定義:給定主題,返回數(shù)據(jù)中與該主題相關(guān)的網(wǎng)頁。數(shù)據(jù):CWT100g(中文Web測試集100g)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論