




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息檢索
第07章信息檢索評(píng)價(jià)軟件學(xué)院教研室陳鄞引言IR評(píng)價(jià)的意義驗(yàn)證系統(tǒng)性能改進(jìn)系統(tǒng)比較各種檢索技術(shù)的優(yōu)劣幫助用戶選擇和掌握合適的檢索工具開發(fā)新的應(yīng)用領(lǐng)域……IR評(píng)價(jià)一直是推動(dòng)IR研究、開發(fā)與應(yīng)用的主要力量IR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá)):{q1,q2,…,qn}例:信息需求:whetherdrinkingredwineismoreeffectiveatreducingyourriskofheartattacksthandrinkingwhitewine(在降低心臟病發(fā)作的風(fēng)險(xiǎn)方面,飲用紅葡萄酒是否比飲用白葡萄酒更有效)可能的查詢:wineANDredANDwhiteANDheartANDattackANDeffectiveIR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá)):{q1,q2,…,qn}對(duì)應(yīng)每個(gè)信息需求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn}
測(cè)試集中的文檔及信息需求的數(shù)目必須要合理開發(fā)測(cè)試集(developmenttestcollection)和最終測(cè)試集(developmenttestcollection)IR評(píng)價(jià)的實(shí)施條件測(cè)試集一個(gè)文檔集合C一組用于測(cè)試的信息需求(信息需求可以通過查詢表達(dá)):{q1,q2,…,qn}對(duì)應(yīng)每個(gè)信息需求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn}
一組評(píng)價(jià)指標(biāo)本章內(nèi)容7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集對(duì)信息檢索系統(tǒng)的效果進(jìn)行精確定量評(píng)價(jià)的首個(gè)測(cè)試集,但是對(duì)現(xiàn)在來說它的規(guī)模上已經(jīng)非常小,只能用于最基本的試驗(yàn)性工作。該測(cè)試集于20世紀(jì)50年代末期在英國(guó)收集而得,總共包含1398篇空氣動(dòng)力學(xué)期刊的文章摘要、225個(gè)查詢以及所有的(查詢,文檔)對(duì)的相關(guān)性判定結(jié)果。7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC(TextRetrievalConference,文本檢索會(huì)議)1992年開始由NIST(NationalInstituteofStandardsandTechnology,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所)組織的大型IR系統(tǒng)的年度評(píng)測(cè)會(huì)議。該框架定義了很多任務(wù),每個(gè)任務(wù)都有自己的測(cè)試集。但是,其中最著名的測(cè)試集還是用于1992到1999年間的最早8次TRECAdHoc任務(wù)的測(cè)試集。189萬篇文檔(主要是新聞?lì)愇恼拢?50個(gè)信息需求(在TREC中每個(gè)信息需求也稱為主題topic)及相關(guān)性判定相關(guān)性判定:Pooling技術(shù)給定信息需求,將各個(gè)系統(tǒng)的前k篇返回文檔匯集起來,僅針對(duì)該集合做相關(guān)性判定7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC(TextRetrievalConference,文本檢索會(huì)議)GOV2NIST提供2500萬網(wǎng)頁7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC(TextRetrievalConference,文本檢索會(huì)議)GOV2NTCIR(NIITestCollectionsforIRSystems)日本國(guó)立情報(bào)研究所NII的信息檢索測(cè)試集和TREC文檔集規(guī)模相當(dāng)其中大部分文檔都集中關(guān)注東亞語言和跨語言檢索任務(wù)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC(TextRetrievalConference,文本檢索會(huì)議)GOV2NTCIR(NIITestCollectionsforIRSystems)CLEF(CrossLanguageEvaluationForum)跨語言評(píng)價(jià)論壇主要關(guān)注歐洲語言及它們之間的跨語言檢索任務(wù)7.1標(biāo)準(zhǔn)測(cè)試集Cranfield測(cè)試集TREC(TextRetrievalConference,文本檢索會(huì)議)GOV2NTCIR(NIITestCollectionsforIRSystems)CLEF(CrossLanguageEvaluationForum)Reuters語料Reuters-21578語料21578篇新聞報(bào)道文本分類任務(wù)RCV1(ReutersCorpusVolume1)806791篇文檔提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率和召回率(查準(zhǔn)率和查全率)相關(guān)文檔集合檢出文檔集合全部文檔集合準(zhǔn)確率(Precision)=tp/(tp+fp)fptntpfn精確率(acc)=(tp+tn)/(tp+fp+fn+tn)相關(guān)(relevant)不相關(guān)(nonrelevant)檢出(retrieved)真正例tp(truepositives)假正例fp(falsepositives)未檢出(notretrieved)假反例
fn(falsenegatives)真反例
tn(truenegatives)召回率(Recall)=tp/(tp+fn)誤判率=fp/(fp+tn)例標(biāo)準(zhǔn)相關(guān)文檔集合
Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果
1.d123
6.d9
11.d38
2.d84 7.d511 12.d48
3.d56
8.d129 13.d250
4.d6 9.d187 14.d113
5.d8
10.d25
15.d3
Precision=5/15=33%Recall=5/10=50%準(zhǔn)確率和召回率的關(guān)系10召回率準(zhǔn)確率理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾1返回最相關(guān)的文本但是漏掉了很多相關(guān)文本例系統(tǒng)1系統(tǒng)2P80%60%R50%70%Whichoneisbetter?調(diào)和平均值F-meatureF∈[0,1]當(dāng)P=R=0時(shí),F(xiàn)=0當(dāng)P=R=1時(shí),F(xiàn)=1只有當(dāng)P和R都比較高時(shí),系統(tǒng)才會(huì)有較高的F值當(dāng)找到P和R之間的最大可能折中時(shí),F(xiàn)可以取得最大值F指數(shù)反映了系統(tǒng)的綜合性能例系統(tǒng)1系統(tǒng)2P80%60%R50%70%F61.5%64.6%更關(guān)注正確率的用戶典型的Web檢索用戶更關(guān)注召回率的用戶專業(yè)的搜索人士(如律師助手、情報(bào)分析師等)對(duì)本機(jī)硬盤進(jìn)行搜索的個(gè)人用戶調(diào)和平均值的更一般的公式b是用戶指定的參數(shù),可以允許用戶調(diào)整P和R的相對(duì)重要程度b>1時(shí),表示召回率R的重要性大于準(zhǔn)確率P
b<1時(shí),表示準(zhǔn)確率P的重要性大于召回率R調(diào)和因子提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)P和R是在對(duì)所有返回結(jié)果進(jìn)行檢查的基礎(chǔ)上計(jì)算的。實(shí)際應(yīng)用中,返回結(jié)果很多,通常不會(huì)將所有結(jié)果都檢查完再給出評(píng)價(jià)結(jié)果。用戶通常只關(guān)注在已檢查過的文檔里P和R各達(dá)到什么水平7.3.1準(zhǔn)確率-召回率曲線準(zhǔn)確率和召回率指標(biāo)會(huì)隨著用戶對(duì)排序列表的檢查而變化例標(biāo)準(zhǔn)相關(guān)文檔集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果
1.d123
6.d9
11.d38
2.d84 7.d511 12.d48
3.d56
8.d129 13.d250
4.d6 9.d187 14.d113
5.d8
10.d25
15.d3
(50%,30%)(100%,10%)(precision,recall)(67%,20%)(40%,40%)(33%,50%)準(zhǔn)確率-召回率曲線往往會(huì)表現(xiàn)出明顯的鋸齒形狀如果返回的第k+1篇文檔不相關(guān),則召回率不變,正確率下降如果返回的第k+1篇文檔相關(guān),則召回率和正確率都上升插值的準(zhǔn)確率在某個(gè)召回率水平r上的插值準(zhǔn)確率(interpolatedprecision,記為pinterp)定義為對(duì)于任意不小于r的召回率水平r′所對(duì)應(yīng)的最大準(zhǔn)確率,即11點(diǎn)標(biāo)準(zhǔn)召回率下的準(zhǔn)確率曲線根據(jù)召回率分別是0%,10%,20%,…,100%(共11點(diǎn))時(shí)的準(zhǔn)確率,繪制準(zhǔn)確率-召回率曲線7.3.2單值評(píng)價(jià)方法對(duì)于搜索引擎系統(tǒng)來講,由于沒有一個(gè)搜索引擎系統(tǒng)能夠保證搜集到所有的網(wǎng)頁,所以召回率很難計(jì)算,因而準(zhǔn)確率成為目前的搜索引擎系統(tǒng)主要關(guān)心的指標(biāo)。平均準(zhǔn)確率均值(MeanAveragePrecision
,MAP
)P@kR-Precision平均排序倒數(shù)MRR①平均準(zhǔn)確率均值MAP平均準(zhǔn)確率(AP)系統(tǒng)檢索到各相關(guān)文檔時(shí)的準(zhǔn)確率的平均值 Ranking#1
AP=(+++++)/6=0.78如果系統(tǒng)沒有返回相關(guān)文檔,則準(zhǔn)確率默認(rèn)為0AP取值在[0,1]之間1/12/33/44/55/66/10①平均準(zhǔn)確率均值MAP平均準(zhǔn)確率(AP)系統(tǒng)檢索到各相關(guān)文檔時(shí)的準(zhǔn)確率的平均值 Ranking#1
Ranking#2
AP=(?+2/5+3/6+4/7+5/9+6/10)/6=0.52 Ranking#3
AP=(?+2/5+3/7+0+0+0)/6=0.22系統(tǒng)檢索出來的相關(guān)文檔位置越靠前,AP就越高AP=(+++++)/6=0.781/12/33/44/55/66/10平均準(zhǔn)確率均值(MAP)例②
P@kP@k系統(tǒng)對(duì)于測(cè)試查詢返回的前k個(gè)結(jié)果的準(zhǔn)確率例:k=10 1.d123
(1)
6.d9
(0.5)
2.d84 7.d511
3.d56
(0.66)
8.d129
4.d6 9.d187
5.d8
10.d25
(0.4)
P@10=0.4②
P@kP@k系統(tǒng)對(duì)于測(cè)試查詢返回的前k個(gè)結(jié)果的準(zhǔn)確率優(yōu)點(diǎn)不需要計(jì)算相關(guān)文檔集合的數(shù)目缺點(diǎn)在通常所用的指標(biāo)中是最不穩(wěn)定的,這是因?yàn)橄嚓P(guān)文檔的總數(shù)會(huì)對(duì)P@k有非常強(qiáng)的影響。例:一個(gè)完美系統(tǒng)的P@20值可以達(dá)到1,而對(duì)于一個(gè)只包含8個(gè)相關(guān)文檔的信息需求而言,最完美的系統(tǒng)的P@20值也只能達(dá)到0.4③R-PrecisionR-Precision對(duì)于單個(gè)測(cè)試查詢對(duì)于測(cè)試查詢集合各個(gè)測(cè)試查詢的R-Precision的平均值R-Precision能夠適應(yīng)不同查詢的相關(guān)文檔集大小的變化。因此,對(duì)于R-Precsion指標(biāo)來說,在不同查詢上求平均才更有意義。對(duì)于某查詢,如果在前R個(gè)返回結(jié)果中有r篇相關(guān)文檔,那么根據(jù)定義,不僅此時(shí)的正確率為r/R,而且召回率也等于這個(gè)值因此,R-Precsion和有時(shí)候用到的正確率召回率等值點(diǎn)(break-evenpoint)的概念是一樣的,后者指的是正確率和召回率相等的點(diǎn)P@k和R-Precision描述的也是正確率—召回率曲線上的一個(gè)點(diǎn)MAP是對(duì)整條曲線求概括值雖然R-Precision只度量了曲線上的一個(gè)點(diǎn),但是在經(jīng)驗(yàn)上卻證實(shí)它和MAP高度相關(guān)④平均排序倒數(shù)MRR當(dāng)用戶在使用Web搜索引擎的時(shí)候,用戶常常在找到一個(gè)好的頁面后就不再繼續(xù)察看排序列表其他結(jié)果。盡管后面的列表中可能含有一些更相關(guān)的信息,用戶也會(huì)覺得其它頁面沒有更多想要的信息排序倒數(shù)(ReciprocalRanking,RR)第一個(gè)相關(guān)文檔出現(xiàn)位置的倒數(shù) RR=1/r1 r1→第一個(gè)相關(guān)文檔在結(jié)果中排序數(shù) 如果檢索結(jié)果中沒有相關(guān)文檔,那么RR值為0④平均排序倒數(shù)MRR當(dāng)用戶在使用Web搜索引擎的時(shí)候,用戶常常在找到一個(gè)好的頁面后就不再繼續(xù)察看排序列表其他結(jié)果。盡管后面的列表中可能含有一些更相關(guān)的信息,用戶也會(huì)覺得其它頁面沒有更多想要的信息排序倒數(shù)(ReciprocalRanking,RR)第一個(gè)相關(guān)文檔出現(xiàn)位置的倒數(shù) RR=1/r1 r1→第一個(gè)相關(guān)文檔在結(jié)果中排序數(shù)平均排序倒數(shù)(
MeanReciprocalRanking,MRR)例如MRR=0.25就意味著檢索系統(tǒng)平均在返回結(jié)果的第四個(gè)位置找到相關(guān)文檔。7.3.3基于文檔權(quán)重的評(píng)價(jià)方法目前廣泛采用的二元相關(guān)判斷并沒有考慮文檔實(shí)際具有不同的相關(guān)度,應(yīng)該在返回結(jié)果中對(duì)高相關(guān)性文檔優(yōu)先排序NDCG(NormalizedDiscountedCumulatedGain)O-meatureNWRR(Normalized
WeightedReciprocalRank)①NDCG系統(tǒng)檢索結(jié)果 S={d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
} G={3,2,3,0,0,1,2,2,3,0}算法步驟①CG(CumulatedGain)②DCG(DiscountedCumulatedGain)③NDCG(NormalizedDiscountedCumulatedGain)
G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}
CG(CumulatedGain)
G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}DCG={3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61}
CG(CumulatedGain)DCG(DiscountedCumulatedGain)折扣因子b模擬了用戶在查看檢索結(jié)果時(shí)的耐心程度底數(shù)b的選擇不同,折扣函數(shù)的曲線斜率就不同,對(duì)累積權(quán)值的影響也不同設(shè)b=2
G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}DCG={3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61}
NCG={1,0.83,0.89,0.73,0.62,0.6,0.69,0.81,1,1}NDCG={1,0.83,0.87,0.78,0.71,0.69,0.73,0.80,0.88,0.88}CG(CumulatedGain)DCG(DiscountedCumulatedGain)NDCG(NormalizedDiscountedCumulatedGain)理想情況
GI={3,3,3,2,2,2,1,0,0,0} CGI={3,6,9,11,13,15,16,16,16,16}DCGI={3,6,7.89,8.89,9.75,10.52,10.88,10.88,10.88,10.88}②O-meatureRR評(píng)價(jià)是基于2元相關(guān)判斷基礎(chǔ)上的,只能判斷是否相關(guān),因此RR與MRR都不能區(qū)分一個(gè)高相關(guān)性的文檔與低相關(guān)性文檔之間的區(qū)別。③NWRRβ(L)值為無窮大時(shí),WRR與RR相等WRR(WeightedReciprocalRank,加權(quán)排序倒數(shù))③NWRRWRR(WeightedReciprocalRank,加權(quán)排序倒數(shù))NWRR(
NormalizedWeightedReciprocalRank)提綱7.1標(biāo)準(zhǔn)測(cè)試集7.2無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.3有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)7.4面向用戶的評(píng)價(jià)指標(biāo)一篇檢出文檔是否具有相關(guān)性,很大程度上取決于用戶的主觀判斷用戶的知識(shí)狀態(tài)待處理和解決的問題、任務(wù)及所處的情境用戶的目標(biāo)、動(dòng)機(jī)等常用的面向用戶的評(píng)價(jià)方法新穎率覆蓋率相對(duì)查全率召回率負(fù)擔(dān)新穎率與覆蓋率新穎率在檢出的相關(guān)文檔集合中,用戶以前未知的相關(guān)文檔所占的比例覆蓋率 在用戶已知的相關(guān)文檔集合中,被檢出的文檔所占的比例
用戶已知的相關(guān)文獻(xiàn)|U|檢出的用戶已知的相關(guān)文獻(xiàn)|Rk|檢出的用戶以前未知的相關(guān)文獻(xiàn)|Ru|結(jié)果集|A|相關(guān)文獻(xiàn)|R|高的新穎率意味著檢索系統(tǒng)在一次檢索中可以為用戶發(fā)現(xiàn)或提供更多以前未知的新的相關(guān)文檔高的覆蓋率意味著檢索系統(tǒng)可以為用戶發(fā)現(xiàn)大多數(shù)期望得到的相關(guān)文檔相對(duì)查全率檢出的相關(guān)文檔數(shù)量÷用戶期望得到的相關(guān)文檔數(shù)量召回率負(fù)擔(dān)用戶期望得到的相關(guān)文檔數(shù)量與要得到這些相關(guān)文檔所需檢索的文檔總數(shù)的比值本節(jié)小結(jié)標(biāo)準(zhǔn)測(cè)試集無序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率和召回率調(diào)和平均值F有序檢索結(jié)果集合的評(píng)價(jià)指標(biāo)準(zhǔn)確率/召回率曲線單值評(píng)價(jià)法平均準(zhǔn)確率均值MAPP@10R-Precision平均排序倒數(shù)MRR基于文檔權(quán)重的評(píng)價(jià)方法NDCGO-meatureNWRR面向用戶的評(píng)價(jià)指標(biāo)新穎率覆蓋率相對(duì)查全率召回率負(fù)擔(dān)結(jié)束7.5國(guó)外信息檢索評(píng)測(cè)技術(shù)評(píng)測(cè)的意義提供統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合節(jié)省各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)勞動(dòng)對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推動(dòng)作用主要的國(guó)際IR評(píng)測(cè)TREC評(píng)測(cè)NTCIR評(píng)測(cè)CLEF評(píng)測(cè)共同特點(diǎn)提供科學(xué)的、統(tǒng)一的測(cè)試標(biāo)準(zhǔn)、訓(xùn)練語料、測(cè)試語料和評(píng)測(cè)軟件,在公開公正的基礎(chǔ)上進(jìn)行評(píng)測(cè)為大家提供一個(gè)交流研究開發(fā)經(jīng)驗(yàn)的論壇7.5.1TREC評(píng)測(cè)(1)TREC簡(jiǎn)介TextREtrievalConference(文本檢索會(huì)議)/是國(guó)際文本檢索領(lǐng)域最具權(quán)威性的年度評(píng)測(cè)活動(dòng)由NIST
(NationalInstituteofStandardsandTechnology,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì))和DARPA
(DefenseAdvancedResearchProjectsAgency,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局)共同資助始于1992年最初,主要針對(duì)文本信息的檢索評(píng)測(cè)。如今,其研究?jī)?nèi)容早已超越了它的名字所能涵蓋的內(nèi)容,包括檢索、過濾、問答等多個(gè)任務(wù)(Tracks)參加機(jī)構(gòu)由1992年初的22家發(fā)展到近年來的上百家,一直保持逐年增加的勢(shì)頭。國(guó)內(nèi),清華、北大、中科院、復(fù)旦、哈工大等多家單位參加了近幾年的各種TREC任務(wù)。TREC的誕生截至90年代初,檢索評(píng)價(jià)活動(dòng)存在的問題和缺陷檢索評(píng)價(jià)項(xiàng)目多是為了個(gè)別的測(cè)試計(jì)劃而設(shè)計(jì)并分散進(jìn)行,彼此之間各有不同的測(cè)試對(duì)象和評(píng)價(jià)規(guī)則使用的實(shí)驗(yàn)數(shù)據(jù)量較小,其規(guī)模及特性與真實(shí)的檢索環(huán)境之間存在著相當(dāng)大的差異等等這樣的評(píng)價(jià)研究,不僅造成評(píng)價(jià)結(jié)果的可比性差,其有效性也受到許多質(zhì)疑,因而很難證明其實(shí)用價(jià)值評(píng)測(cè)過程確定任務(wù)(Tracks)。由NIST選擇某些任務(wù),制定規(guī)范參加者報(bào)名。參加者根據(jù)自己的興趣選擇任務(wù),免費(fèi)獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)參加者在參加比賽時(shí)收到最新的測(cè)試數(shù)據(jù),并在限定時(shí)間內(nèi)作出答案,返給組織者NIST使用固定的評(píng)測(cè)軟件和工具(trec_eval軟件包)對(duì)各參賽者的結(jié)果進(jìn)行評(píng)價(jià),并將結(jié)果返回給參加者春季發(fā)布數(shù)據(jù)夏季展開實(shí)驗(yàn)在11月份召開的年會(huì)上提交結(jié)果(2)TREC測(cè)試集TREC定義了很多任務(wù)(track),每個(gè)任務(wù)都有自己的測(cè)試集。但是其中最著名的測(cè)試集還是用于1992到1999年間的最早8次TRECAdHoc任務(wù)的測(cè)試集該測(cè)試集包括189萬篇文檔(主要是新聞?lì)愇恼拢?50個(gè)信息需求(在TREC中每個(gè)信息需求也稱為主題topic)及其相關(guān)性判定TREC測(cè)試集的組成測(cè)試文檔集合(Documents)檢索主題集合(Topics)正確答案集合(RelevanceJudgements)①文檔集合語言類型英語文檔集合非英語文檔集合漢語、西班牙語、法語、德語、意大利語等來源新聞和報(bào)紙TheWallStreetJournal(1987-1992全文文獻(xiàn))……政府文檔美國(guó)聯(lián)邦法規(guī)全文文獻(xiàn),1988,1989,1994能源報(bào)告、專利、…………57DocumentFormatStandardGeneralizedMark-upLanguage,SGML<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCo.introducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>TREC實(shí)驗(yàn)數(shù)據(jù)的特點(diǎn)全文文獻(xiàn)占主導(dǎo),文摘文獻(xiàn)為補(bǔ)充文獻(xiàn)主體包羅萬象實(shí)驗(yàn)數(shù)據(jù)規(guī)模大(GB級(jí)),個(gè)別項(xiàng)目的數(shù)據(jù)規(guī)模還達(dá)到了100GB動(dòng)態(tài)更新、來源多樣、類型與語種多樣②檢索主題檢索主題(topic)是對(duì)用戶需求信息的描述,一般用自然語言描述Topic和Query的區(qū)別Topic是對(duì)信息需求的陳述Query是IR系統(tǒng)采用某種檢索語言形成的結(jié)構(gòu)化的檢索提問一般情況下,參賽系統(tǒng)需要自行把用自然語言描述的Topic轉(zhuǎn)換成符合自己系統(tǒng)要求的Query,即查詢構(gòu)造手工轉(zhuǎn)換方式自動(dòng)轉(zhuǎn)換方式Topic組成唯一的序列編號(hào)(number)標(biāo)題(title)通常由幾個(gè)單詞組成描述(description)用來描述滿足要求的文檔必須涉及的內(nèi)容簡(jiǎn)短介紹(narrative)更詳細(xì)地描述哪些文檔是相關(guān)的,哪些文檔是不相關(guān)的TREC-1及TREC-2共有150個(gè)Topic,之后每屆TREC均建構(gòu)50個(gè)新Topic,目前已超過600個(gè)Topic例③正確答案集合主要是根據(jù)主題的簡(jiǎn)短介紹(narrative)字段完成的二值判斷模式在早期的檢索實(shí)驗(yàn)集合中,相關(guān)性判斷是全方位的,就是說,
由專家事先對(duì)集合中每一篇文檔與每一個(gè)主題的相關(guān)性做出判斷。但是,由于TREC的文獻(xiàn)集合如此龐大,全方位的判斷是不可行的。因此TREC相關(guān)性判斷基于檢索問題所來自的測(cè)試文檔集合,并采用一種“pooling”的技術(shù)來完成。Pooling技術(shù)Pooling技術(shù)針對(duì)每個(gè)查詢,將各個(gè)系統(tǒng)返回的前n個(gè)結(jié)果匯總,去除重復(fù)的內(nèi)容,剩下的內(nèi)容組成該查詢的相關(guān)文檔集合具體操作方法針對(duì)某一檢索問題,所有參與其檢索試驗(yàn)的系統(tǒng)分別給出各自檢索結(jié)果中的前K個(gè)文檔(例如K=100),將這些結(jié)果文檔匯集起來,得到一個(gè)可能相關(guān)的文檔池“pool”由檢索評(píng)價(jià)專家進(jìn)行人工判斷,最終評(píng)判出每一文檔的相關(guān)性(3)評(píng)價(jià)指標(biāo)Trec-eval軟件包插值后的召回率-準(zhǔn)確率曲線MAP概括統(tǒng)計(jì)表……(4)TREC評(píng)測(cè)的任務(wù)早期的TREC評(píng)測(cè)任務(wù)task(TREC-1至TREC-3)AdhocRetrieval使用不同的提問式,在同一文檔集合中進(jìn)行檢索參賽前參賽者只得到文檔數(shù)據(jù)庫,可以先對(duì)數(shù)據(jù)庫作各種各樣的分析(包括建立詞表)和準(zhǔn)備工作(檢索式的構(gòu)造)。參賽后才獲得檢索問題1998年終止InformationRouting使用同樣的一批提問式,在不同的文檔集合中進(jìn)行檢索參賽前參賽者只得到自然語言檢索查詢和訓(xùn)練語料,可以先對(duì)數(shù)據(jù)庫作各種各樣的分析(包括建立詞表)和準(zhǔn)備工作(檢索式的構(gòu)造)。參賽后才獲得測(cè)試語料2000年終止TREC曾舉辦的評(píng)測(cè)項(xiàng)目tracktrackstimeCross-Language1997-2003Filtering
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司品牌轉(zhuǎn)讓合同范本
- 互聯(lián)網(wǎng)戰(zhàn)略合作合同范本
- 發(fā)電站煤渣供銷合同范本
- 合同范本鎳礦
- 出資金合同范本
- 同行材料供貨合同范本
- 兩個(gè)人合伙臺(tái)球廳合同范例
- 包工合作提成合同范本
- 合法種植養(yǎng)殖合同范本
- 倉庫協(xié)議合同范例
- 《基于STM32的公交車智能終端設(shè)計(jì)與實(shí)現(xiàn)》
- 護(hù)理禮儀與人文關(guān)懷
- 護(hù)-學(xué)-崗-簽-到-簿
- 運(yùn)維服務(wù)體系建立實(shí)施方案(5篇)
- 路面基層(級(jí)配碎石)施工方案
- 四川政采評(píng)審專家入庫考試基礎(chǔ)題復(fù)習(xí)試題及答案(一)
- 患者手術(shù)風(fēng)險(xiǎn)評(píng)估與術(shù)前準(zhǔn)備制度
- 口腔執(zhí)業(yè)醫(yī)師定期考核試題(資料)帶答案
- 2024年三八婦女節(jié)婦女權(quán)益保障法律知識(shí)競(jìng)賽題庫及答案(共260題)
- 2023年7月浙江省普通高中學(xué)業(yè)水平考試(學(xué)考)語文試題答案
- 2024年計(jì)算機(jī)軟件水平考試-初級(jí)信息處理技術(shù)員考試近5年真題集錦(頻考類試題)帶答案
評(píng)論
0/150
提交評(píng)論