信息檢索第07章信息檢索評(píng)價(jià)專業(yè)課課件

上傳人：1*** IP屬地：未知上傳時(shí)間：2025-03-01 格式：PPTX 頁數(shù)：72 大?。?.04MB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩67頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索

第07章信息檢索評(píng)價(jià)軟件學(xué)院教研室陳鄞引言IR評(píng)價(jià)的意義驗(yàn)證系統(tǒng)性能改進(jìn)系統(tǒng)比較各種檢索技術(shù)的優(yōu)劣幫助用戶選擇和掌握合適的檢索工具開發(fā)新的應(yīng)用領(lǐng)域……IR評(píng)價(jià)一直是推動(dòng)IR研究、開發(fā)與應(yīng)用的主要力量IR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá))：{q1,q2,…,qn}例：信息需求：whetherdrinkingredwineismoreeffectiveatreducingyourriskofheartattacksthandrinkingwhitewine（在降低心臟病發(fā)作的風(fēng)險(xiǎn)方面，飲用紅葡萄酒是否比飲用白葡萄酒更有效）可能的查詢：wineANDredANDwhiteANDheartANDattackANDeffectiveIR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá))：{q1,q2,…,qn}對(duì)應(yīng)每個(gè)信息需求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn}

測(cè)試集中的文檔及信息需求的數(shù)目必須要合理開發(fā)測(cè)試集（developmenttestcollection）和最終測(cè)試集（developmenttestcollection）IR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá))：{q1,q2,…,qn}對(duì)應(yīng)每個(gè)信息需求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn}

一組評(píng)價(jià)指標(biāo)本章內(nèi)容7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集對(duì)信息檢索系統(tǒng)的效果進(jìn)行精確定量評(píng)價(jià)的首個(gè)測(cè)試集，但是對(duì)現(xiàn)在來說它的規(guī)模上已經(jīng)非常小，只能用于最基本的試驗(yàn)性工作。該測(cè)試集于20世紀(jì)50年代末期在英國(guó)收集而得，總共包含1398篇空氣動(dòng)力學(xué)期刊的文章摘要、225個(gè)查詢以及所有的（查詢,文檔）對(duì)的相關(guān)性判定結(jié)果。7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC（TextRetrievalConference，文本檢索會(huì)議）1992年開始由NIST（NationalInstituteofStandardsandTechnology，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所）組織的大型IR系統(tǒng)的年度評(píng)測(cè)會(huì)議。該框架定義了很多任務(wù)，每個(gè)任務(wù)都有自己的測(cè)試集。但是，其中最著名的測(cè)試集還是用于1992到1999年間的最早8次TRECAdHoc任務(wù)的測(cè)試集。189萬篇文檔（主要是新聞?lì)愇恼拢?50個(gè)信息需求（在TREC中每個(gè)信息需求也稱為主題topic）及相關(guān)性判定相關(guān)性判定：Pooling技術(shù)給定信息需求，將各個(gè)系統(tǒng)的前k篇返回文檔匯集起來，僅針對(duì)該集合做相關(guān)性判定7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC（TextRetrievalConference，文本檢索會(huì)議）GOV2NIST提供2500萬網(wǎng)頁7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC（TextRetrievalConference，文本檢索會(huì)議）GOV2NTCIR（NIITestCollectionsforIRSystems）日本國(guó)立情報(bào)研究所NII的信息檢索測(cè)試集和TREC文檔集規(guī)模相當(dāng)其中大部分文檔都集中關(guān)注東亞語言和跨語言檢索任務(wù)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC（TextRetrievalConference，文本檢索會(huì)議）GOV2NTCIR（NIITestCollectionsforIRSystems）CLEF（CrossLanguageEvaluationForum）跨語言評(píng)價(jià)論壇主要關(guān)注歐洲語言及它們之間的跨語言檢索任務(wù)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC（TextRetrievalConference，文本檢索會(huì)議）GOV2NTCIR（NIITestCollectionsforIRSystems）CLEF（CrossLanguageEvaluationForum）Reuters語料Reuters-21578語料21578篇新聞報(bào)道文本分類任務(wù)RCV1（ReutersCorpusVolume1）806791篇文檔提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率和召回率（查準(zhǔn)率和查全率）相關(guān)文檔集合檢出文檔集合全部文檔集合準(zhǔn)確率(Precision)=tp/(tp+fp)fptntpfn精確率(acc)=(tp+tn)/(tp+fp+fn+tn)相關(guān)(relevant)不相關(guān)(nonrelevant)檢出(retrieved)真正例tp(truepositives)假正例fp(falsepositives)未檢出(notretrieved)假反例

fn(falsenegatives)真反例

tn(truenegatives)召回率(Recall)=tp/(tp+fn)誤判率=fp/(fp+tn)例標(biāo)準(zhǔn)相關(guān)文檔集合

Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果

1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8

10.d25

15.d3

Precision=5/15=33%Recall=5/10=50%準(zhǔn)確率和召回率的關(guān)系10召回率準(zhǔn)確率理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾1返回最相關(guān)的文本但是漏掉了很多相關(guān)文本例系統(tǒng)1系統(tǒng)2P80%60%R50%70%Whichoneisbetter?調(diào)和平均值F-meatureF∈[0,1]當(dāng)P=R=0時(shí)，F(xiàn)=0當(dāng)P=R=1時(shí)，F(xiàn)=1只有當(dāng)P和R都比較高時(shí)，系統(tǒng)才會(huì)有較高的F值當(dāng)找到P和R之間的最大可能折中時(shí)，F(xiàn)可以取得最大值F指數(shù)反映了系統(tǒng)的綜合性能例系統(tǒng)1系統(tǒng)2P80%60%R50%70%F61.5%64.6%更關(guān)注正確率的用戶典型的Web檢索用戶更關(guān)注召回率的用戶專業(yè)的搜索人士（如律師助手、情報(bào)分析師等）對(duì)本機(jī)硬盤進(jìn)行搜索的個(gè)人用戶調(diào)和平均值的更一般的公式b是用戶指定的參數(shù)，可以允許用戶調(diào)整P和R的相對(duì)重要程度b>1時(shí)，表示召回率R的重要性大于準(zhǔn)確率P

b<1時(shí)，表示準(zhǔn)確率P的重要性大于召回率R調(diào)和因子提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)P和R是在對(duì)所有返回結(jié)果進(jìn)行檢查的基礎(chǔ)上計(jì)算的。實(shí)際應(yīng)用中，返回結(jié)果很多，通常不會(huì)將所有結(jié)果都檢查完再給出評(píng)價(jià)結(jié)果。用戶通常只關(guān)注在已檢查過的文檔里P和R各達(dá)到什么水平7.3.1準(zhǔn)確率-召回率曲線準(zhǔn)確率和召回率指標(biāo)會(huì)隨著用戶對(duì)排序列表的檢查而變化例標(biāo)準(zhǔn)相關(guān)文檔集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果

1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8

10.d25

15.d3

(50%,30%)(100%,10%)(precision,recall)(67%,20%)(40%,40%)(33%,50%)準(zhǔn)確率-召回率曲線往往會(huì)表現(xiàn)出明顯的鋸齒形狀如果返回的第k+1篇文檔不相關(guān)，則召回率不變，正確率下降如果返回的第k+1篇文檔相關(guān)，則召回率和正確率都上升插值的準(zhǔn)確率在某個(gè)召回率水平r上的插值準(zhǔn)確率（interpolatedprecision，記為pinterp）定義為對(duì)于任意不小于r的召回率水平r′所對(duì)應(yīng)的最大準(zhǔn)確率，即11點(diǎn)標(biāo)準(zhǔn)召回率下的準(zhǔn)確率曲線根據(jù)召回率分別是0%,10%,20%,…,100%（共11點(diǎn)）時(shí)的準(zhǔn)確率，繪制準(zhǔn)確率-召回率曲線7.3.2單值評(píng)價(jià)方法對(duì)于搜索引擎系統(tǒng)來講，由于沒有一個(gè)搜索引擎系統(tǒng)能夠保證搜集到所有的網(wǎng)頁，所以召回率很難計(jì)算，因而準(zhǔn)確率成為目前的搜索引擎系統(tǒng)主要關(guān)心的指標(biāo)。平均準(zhǔn)確率均值（MeanAveragePrecision

，MAP

）P@kR-Precision平均排序倒數(shù)MRR①平均準(zhǔn)確率均值MAP平均準(zhǔn)確率（AP）系統(tǒng)檢索到各相關(guān)文檔時(shí)的準(zhǔn)確率的平均值 Ranking#1

AP=(+++++)/6=0.78如果系統(tǒng)沒有返回相關(guān)文檔，則準(zhǔn)確率默認(rèn)為0AP取值在[0,1]之間1/12/33/44/55/66/10①平均準(zhǔn)確率均值MAP平均準(zhǔn)確率（AP）系統(tǒng)檢索到各相關(guān)文檔時(shí)的準(zhǔn)確率的平均值 Ranking#1

Ranking#2

AP=(?+2/5+3/6+4/7+5/9+6/10)/6=0.52 Ranking#3

AP=(?+2/5+3/7+0+0+0)/6=0.22系統(tǒng)檢索出來的相關(guān)文檔位置越靠前，AP就越高AP=(+++++)/6=0.781/12/33/44/55/66/10平均準(zhǔn)確率均值（MAP）例②

P@kP@k系統(tǒng)對(duì)于測(cè)試查詢返回的前k個(gè)結(jié)果的準(zhǔn)確率例：k=10 1.d123

(1)

6.d9

(0.5)

2.d84 7.d511

3.d56

(0.66)

8.d129

4.d6 9.d187

5.d8

10.d25

(0.4)

P@10=0.4②

P@kP@k系統(tǒng)對(duì)于測(cè)試查詢返回的前k個(gè)結(jié)果的準(zhǔn)確率優(yōu)點(diǎn)不需要計(jì)算相關(guān)文檔集合的數(shù)目缺點(diǎn)在通常所用的指標(biāo)中是最不穩(wěn)定的，這是因?yàn)橄嚓P(guān)文檔的總數(shù)會(huì)對(duì)P@k有非常強(qiáng)的影響。例：一個(gè)完美系統(tǒng)的P@20值可以達(dá)到1，而對(duì)于一個(gè)只包含8個(gè)相關(guān)文檔的信息需求而言，最完美的系統(tǒng)的P@20值也只能達(dá)到0.4③R-PrecisionR-Precision對(duì)于單個(gè)測(cè)試查詢對(duì)于測(cè)試查詢集合各個(gè)測(cè)試查詢的R-Precision的平均值R-Precision能夠適應(yīng)不同查詢的相關(guān)文檔集大小的變化。因此，對(duì)于R-Precsion指標(biāo)來說，在不同查詢上求平均才更有意義。對(duì)于某查詢，如果在前R個(gè)返回結(jié)果中有r篇相關(guān)文檔，那么根據(jù)定義，不僅此時(shí)的正確率為r/R，而且召回率也等于這個(gè)值因此，R-Precsion和有時(shí)候用到的正確率召回率等值點(diǎn)（break-evenpoint）的概念是一樣的，后者指的是正確率和召回率相等的點(diǎn)P@k和R-Precision描述的也是正確率—召回率曲線上的一個(gè)點(diǎn)MAP是對(duì)整條曲線求概括值雖然R-Precision只度量了曲線上的一個(gè)點(diǎn)，但是在經(jīng)驗(yàn)上卻證實(shí)它和MAP高度相關(guān)④平均排序倒數(shù)MRR當(dāng)用戶在使用Web搜索引擎的時(shí)候，用戶常常在找到一個(gè)好的頁面后就不再繼續(xù)察看排序列表其他結(jié)果。盡管后面的列表中可能含有一些更相關(guān)的信息，用戶也會(huì)覺得其它頁面沒有更多想要的信息排序倒數(shù)（ReciprocalRanking，RR）第一個(gè)相關(guān)文檔出現(xiàn)位置的倒數(shù) RR=1/r1 r1→第一個(gè)相關(guān)文檔在結(jié)果中排序數(shù) 如果檢索結(jié)果中沒有相關(guān)文檔，那么RR值為0④平均排序倒數(shù)MRR當(dāng)用戶在使用Web搜索引擎的時(shí)候，用戶常常在找到一個(gè)好的頁面后就不再繼續(xù)察看排序列表其他結(jié)果。盡管后面的列表中可能含有一些更相關(guān)的信息，用戶也會(huì)覺得其它頁面沒有更多想要的信息排序倒數(shù)（ReciprocalRanking，RR）第一個(gè)相關(guān)文檔出現(xiàn)位置的倒數(shù) RR=1/r1 r1→第一個(gè)相關(guān)文檔在結(jié)果中排序數(shù)平均排序倒數(shù)（

MeanReciprocalRanking，MRR）例如MRR=0.25就意味著檢索系統(tǒng)平均在返回結(jié)果的第四個(gè)位置找到相關(guān)文檔。7.3.3基于文檔權(quán)重的評(píng)價(jià)方法目前廣泛采用的二元相關(guān)判斷并沒有考慮文檔實(shí)際具有不同的相關(guān)度，應(yīng)該在返回結(jié)果中對(duì)高相關(guān)性文檔優(yōu)先排序NDCG（NormalizedDiscountedCumulatedGain）O-meatureNWRR（Normalized

WeightedReciprocalRank）①NDCG系統(tǒng)檢索結(jié)果 S={d1,d2,d3,d4,d5,d6,d7,d8,d9,d10

} G={3,2,3,0,0,1,2,2,3,0}算法步驟①CG（CumulatedGain）②DCG（DiscountedCumulatedGain）③NDCG（NormalizedDiscountedCumulatedGain）

G={3，2，3，0，0，1，2，2，3，0}CG={3，5，8，8，8，9，11，13，16，16}

CG（CumulatedGain）

G={3，2，3，0，0，1，2，2，3，0}CG={3，5，8，8，8，9，11，13，16，16}DCG={3，5，6.89，6.89，6.89，7.28，7.99，8.66，9.61，9.61}

CG（CumulatedGain）DCG（DiscountedCumulatedGain）折扣因子b模擬了用戶在查看檢索結(jié)果時(shí)的耐心程度底數(shù)b的選擇不同，折扣函數(shù)的曲線斜率就不同，對(duì)累積權(quán)值的影響也不同設(shè)b=2

G={3，2，3，0，0，1，2，2，3，0}CG={3，5，8，8，8，9，11，13，16，16}DCG={3，5，6.89，6.89，6.89，7.28，7.99，8.66，9.61，9.61}

NCG={1，0.83，0.89，0.73，0.62，0.6，0.69，0.81，1，1}NDCG={1，0.83，0.87，0.78，0.71，0.69，0.73，0.80，0.88，0.88}CG（CumulatedGain）DCG（DiscountedCumulatedGain）NDCG（NormalizedDiscountedCumulatedGain）理想情況

GI={3，3，3，2，2，2，1，0，0，0} CGI={3，6，9，11，13，15，16，16，16，16}DCGI={3，6，7.89，8.89，9.75，10.52，10.88，10.88，10.88，10.88}②O-meatureRR評(píng)價(jià)是基于2元相關(guān)判斷基礎(chǔ)上的，只能判斷是否相關(guān)，因此RR與MRR都不能區(qū)分一個(gè)高相關(guān)性的文檔與低相關(guān)性文檔之間的區(qū)別。③NWRRβ(L)值為無窮大時(shí)，WRR與RR相等WRR（WeightedReciprocalRank，加權(quán)排序倒數(shù)）③NWRRWRR（WeightedReciprocalRank，加權(quán)排序倒數(shù)）NWRR（

NormalizedWeightedReciprocalRank）提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)一篇檢出文檔是否具有相關(guān)性，很大程度上取決于用戶的主觀判斷用戶的知識(shí)狀態(tài)待處理和解決的問題、任務(wù)及所處的情境用戶的目標(biāo)、動(dòng)機(jī)等常用的面向用戶的評(píng)價(jià)方法新穎率覆蓋率相對(duì)查全率召回率負(fù)擔(dān)新穎率與覆蓋率新穎率在檢出的相關(guān)文檔集合中，用戶以前未知的相關(guān)文檔所占的比例覆蓋率在用戶已知的相關(guān)文檔集合中，被檢出的文檔所占的比例

用戶已知的相關(guān)文獻(xiàn)|U|檢出的用戶已知的相關(guān)文獻(xiàn)|Rk|檢出的用戶以前未知的相關(guān)文獻(xiàn)|Ru|結(jié)果集|A|相關(guān)文獻(xiàn)|R|高的新穎率意味著檢索系統(tǒng)在一次檢索中可以為用戶發(fā)現(xiàn)或提供更多以前未知的新的相關(guān)文檔高的覆蓋率意味著檢索系統(tǒng)可以為用戶發(fā)現(xiàn)大多數(shù)期望得到的相關(guān)文檔相對(duì)查全率檢出的相關(guān)文檔數(shù)量÷用戶期望得到的相關(guān)文檔數(shù)量召回率負(fù)擔(dān)用戶期望得到的相關(guān)文檔數(shù)量與要得到這些相關(guān)文檔所需檢索的文檔總數(shù)的比值本節(jié)小結(jié)標(biāo)準(zhǔn)測(cè)試集無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率和召回率調(diào)和平均值F有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率/召回率曲線單值評(píng)價(jià)法平均準(zhǔn)確率均值MAPP@10R-Precision平均排序倒數(shù)MRR基于文檔權(quán)重的評(píng)價(jià)方法NDCGO-meatureNWRR面向用戶的評(píng)價(jià)指標(biāo)新穎率覆蓋率相對(duì)查全率召回率負(fù)擔(dān)結(jié)束7.5國(guó)外信息檢索評(píng)測(cè)技術(shù)評(píng)測(cè)的意義提供統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合節(jié)省各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)勞動(dòng)對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推動(dòng)作用主要的國(guó)際IR評(píng)測(cè)TREC評(píng)測(cè)NTCIR評(píng)測(cè)CLEF評(píng)測(cè)共同特點(diǎn)提供科學(xué)的、統(tǒng)一的測(cè)試標(biāo)準(zhǔn)、訓(xùn)練語料、測(cè)試語料和評(píng)測(cè)軟件，在公開公正的基礎(chǔ)上進(jìn)行評(píng)測(cè)為大家提供一個(gè)交流研究開發(fā)經(jīng)驗(yàn)的論壇7.5.1TREC評(píng)測(cè)(1)TREC簡(jiǎn)介TextREtrievalConference（文本檢索會(huì)議）/是國(guó)際文本檢索領(lǐng)域最具權(quán)威性的年度評(píng)測(cè)活動(dòng)由NIST

(NationalInstituteofStandardsandTechnology，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì))和DARPA

(DefenseAdvancedResearchProjectsAgency，美國(guó)國(guó)防部高級(jí)研究計(jì)劃局)共同資助始于1992年最初，主要針對(duì)文本信息的檢索評(píng)測(cè)。如今，其研究?jī)?nèi)容早已超越了它的名字所能涵蓋的內(nèi)容，包括檢索、過濾、問答等多個(gè)任務(wù)（Tracks）參加機(jī)構(gòu)由1992年初的22家發(fā)展到近年來的上百家，一直保持逐年增加的勢(shì)頭。國(guó)內(nèi)，清華、北大、中科院、復(fù)旦、哈工大等多家單位參加了近幾年的各種TREC任務(wù)。TREC的誕生截至90年代初，檢索評(píng)價(jià)活動(dòng)存在的問題和缺陷檢索評(píng)價(jià)項(xiàng)目多是為了個(gè)別的測(cè)試計(jì)劃而設(shè)計(jì)并分散進(jìn)行，彼此之間各有不同的測(cè)試對(duì)象和評(píng)價(jià)規(guī)則使用的實(shí)驗(yàn)數(shù)據(jù)量較小，其規(guī)模及特性與真實(shí)的檢索環(huán)境之間存在著相當(dāng)大的差異等等這樣的評(píng)價(jià)研究，不僅造成評(píng)價(jià)結(jié)果的可比性差，其有效性也受到許多質(zhì)疑，因而很難證明其實(shí)用價(jià)值評(píng)測(cè)過程確定任務(wù)（Tracks）。由NIST選擇某些任務(wù)，制定規(guī)范參加者報(bào)名。參加者根據(jù)自己的興趣選擇任務(wù)，免費(fèi)獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)參加者在參加比賽時(shí)收到最新的測(cè)試數(shù)據(jù)，并在限定時(shí)間內(nèi)作出答案，返給組織者NIST使用固定的評(píng)測(cè)軟件和工具（trec_eval軟件包）對(duì)各參賽者的結(jié)果進(jìn)行評(píng)價(jià)，并將結(jié)果返回給參加者春季發(fā)布數(shù)據(jù)夏季展開實(shí)驗(yàn)在11月份召開的年會(huì)上提交結(jié)果(2)TREC測(cè)試集TREC定義了很多任務(wù)（track），每個(gè)任務(wù)都有自己的測(cè)試集。但是其中最著名的測(cè)試集還是用于1992到1999年間的最早8次TRECAdHoc任務(wù)的測(cè)試集該測(cè)試集包括189萬篇文檔（主要是新聞?lì)愇恼拢?50個(gè)信息需求（在TREC中每個(gè)信息需求也稱為主題topic）及其相關(guān)性判定TREC測(cè)試集的組成測(cè)試文檔集合（Documents）檢索主題集合（Topics）正確答案集合（RelevanceJudgements）①文檔集合語言類型英語文檔集合非英語文檔集合漢語、西班牙語、法語、德語、意大利語等來源新聞和報(bào)紙TheWallStreetJournal（1987-1992全文文獻(xiàn)）……政府文檔美國(guó)聯(lián)邦法規(guī)全文文獻(xiàn)，1988，1989，1994能源報(bào)告、專利、…………57DocumentFormatStandardGeneralizedMark-upLanguage,SGML<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCo.introducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>TREC實(shí)驗(yàn)數(shù)據(jù)的特點(diǎn)全文文獻(xiàn)占主導(dǎo)，文摘文獻(xiàn)為補(bǔ)充文獻(xiàn)主體包羅萬象實(shí)驗(yàn)數(shù)據(jù)規(guī)模大（GB級(jí)），個(gè)別項(xiàng)目的數(shù)據(jù)規(guī)模還達(dá)到了100GB動(dòng)態(tài)更新、來源多樣、類型與語種多樣②檢索主題檢索主題（topic）是對(duì)用戶需求信息的描述，一般用自然語言描述Topic和Query的區(qū)別Topic是對(duì)信息需求的陳述Query是IR系統(tǒng)采用某種檢索語言形成的結(jié)構(gòu)化的檢索提問一般情況下，參賽系統(tǒng)需要自行把用自然語言描述的Topic轉(zhuǎn)換成符合自己系統(tǒng)要求的Query，即查詢構(gòu)造手工轉(zhuǎn)換方式自動(dòng)轉(zhuǎn)換方式Topic組成唯一的序列編號(hào)（number）標(biāo)題（title）通常由幾個(gè)單詞組成描述（description）用來描述滿足要求的文檔必須涉及的內(nèi)容簡(jiǎn)短介紹（narrative）更詳細(xì)地描述哪些文檔是相關(guān)的，哪些文檔是不相關(guān)的TREC-1及TREC-2共有150個(gè)Topic，之后每屆TREC均建構(gòu)50個(gè)新Topic，目前已超過600個(gè)Topic例③正確答案集合主要是根據(jù)主題的簡(jiǎn)短介紹（narrative）字段完成的二值判斷模式在早期的檢索實(shí)驗(yàn)集合中,相關(guān)性判斷是全方位的，就是說，

由專家事先對(duì)集合中每一篇文檔與每一個(gè)主題的相關(guān)性做出判斷。但是，由于TREC的文獻(xiàn)集合如此龐大,全方位的判斷是不可行的。因此TREC相關(guān)性判斷基于檢索問題所來自的測(cè)試文檔集合，并采用一種“pooling”的技術(shù)來完成。Pooling技術(shù)Pooling技術(shù)針對(duì)每個(gè)查詢，將各個(gè)系統(tǒng)返回的前n個(gè)結(jié)果匯總，去除重復(fù)的內(nèi)容，剩下的內(nèi)容組成該查詢的相關(guān)文檔集合具體操作方法針對(duì)某一檢索問題，所有參與其檢索試驗(yàn)的系統(tǒng)分別給出各自檢索結(jié)果中的前K個(gè)文檔（例如K=100），將這些結(jié)果文檔匯集起來，得到一個(gè)可能相關(guān)的文檔池“pool”由檢索評(píng)價(jià)專家進(jìn)行人工判斷，最終評(píng)判出每一文檔的相關(guān)性(3)評(píng)價(jià)指標(biāo)Trec-eval軟件包插值后的召回率-準(zhǔn)確率曲線MAP概括統(tǒng)計(jì)表……(4)TREC評(píng)測(cè)的任務(wù)早期的TREC評(píng)測(cè)任務(wù)task（TREC-1至TREC-3）AdhocRetrieval使用不同的提問式，在同一文檔集合中進(jìn)行檢索參賽前參賽者只得到文檔數(shù)據(jù)庫，可以先對(duì)數(shù)據(jù)庫作各種各樣的分析（包括建立詞表）和準(zhǔn)備工作（檢索式的構(gòu)造）。參賽后才獲得檢索問題1998年終止InformationRouting使用同樣的一批提問式，在不同的文檔集合中進(jìn)行檢索參賽前參賽者只得到自然語言檢索查詢和訓(xùn)練語料，可以先對(duì)數(shù)據(jù)庫作各種各樣的分析（包括建立詞表）和準(zhǔn)備工作（檢索式的構(gòu)造）。參賽后才獲得測(cè)試語料2000年終止TREC曾舉辦的評(píng)測(cè)項(xiàng)目tracktrackstimeCross-Language1997-2003Filtering

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

信息檢索第07章信息檢索評(píng)價(jià)專業(yè)課課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

信息檢索 第07章 信息檢索評(píng)價(jià)專業(yè)課課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

信息檢索第07章信息檢索評(píng)價(jià)專業(yè)課課件