第八章相關(guān)排序與質(zhì)量評(píng)估_第1頁
第八章相關(guān)排序與質(zhì)量評(píng)估_第2頁
第八章相關(guān)排序與質(zhì)量評(píng)估_第3頁
第八章相關(guān)排序與質(zhì)量評(píng)估_第4頁
第八章相關(guān)排序與質(zhì)量評(píng)估_第5頁
已閱讀5頁,還剩114頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章相關(guān)排序與質(zhì)量評(píng)估第一頁,共一百一十九頁,2022年,8月28日相關(guān)排序的概念信息檢索中的相關(guān)排序信息檢索系統(tǒng)返回結(jié)果的排序各個(gè)條目的順序反映了結(jié)果和查詢的相關(guān)程度第二頁,共一百一十九頁,2022年,8月28日相關(guān)排序的概念搜索引擎中的相關(guān)排序反映多種因素的綜合統(tǒng)計(jì)優(yōu)先序搜索引擎維護(hù)的內(nèi)容十分繁雜且不規(guī)范,不像傳統(tǒng)的圖書、文獻(xiàn)等有很好的分類體系管理搜索引擎面對(duì)的用戶背景廣闊、層次多樣,不像傳統(tǒng)的圖書館所面對(duì)的用戶通常有相對(duì)比較整齊的用戶第三頁,共一百一十九頁,2022年,8月28日主要內(nèi)容傳統(tǒng)IR的相關(guān)排序技術(shù)鏈接分析與相關(guān)排序相關(guān)排序的一種實(shí)現(xiàn)方案搜索引擎系統(tǒng)質(zhì)量評(píng)估第四頁,共一百一十九頁,2022年,8月28日主要內(nèi)容傳統(tǒng)IR的相關(guān)排序技術(shù)鏈接分析與相關(guān)排序相關(guān)排序的一種實(shí)現(xiàn)方案搜索引擎系統(tǒng)質(zhì)量評(píng)估第五頁,共一百一十九頁,2022年,8月28日布爾模型文檔表示一個(gè)文檔被表示為關(guān)鍵詞的集合查詢式表示查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與、或、非”連接起來,并用括弧指示優(yōu)先次序匹配一個(gè)文檔當(dāng)且僅當(dāng)它能夠滿足布爾查詢式時(shí),才將其檢索出來檢索策略基于二值判定標(biāo)準(zhǔn)第六頁,共一百一十九頁,2022年,8月28日布爾模型—舉例Q=病毒AND(計(jì)算機(jī)OR電腦)ANDNOT醫(yī)文檔:D1:…據(jù)報(bào)道計(jì)算機(jī)病毒最近猖獗D2:小王雖然是學(xué)醫(yī)的,但對(duì)研究電腦病毒也感興趣…D3:計(jì)算機(jī)程序發(fā)現(xiàn)了艾滋病病毒傳播途徑上述文檔哪一個(gè)會(huì)被檢索到?第七頁,共一百一十九頁,2022年,8月28日布爾模型—優(yōu)點(diǎn)到目前為止,布爾模型是最常用的檢索模型,因?yàn)椋河捎诓樵兒?jiǎn)單,因此容易理解通過使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果相當(dāng)有效的實(shí)現(xiàn)方法相當(dāng)于識(shí)別包含了一個(gè)某個(gè)特定term的文檔經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式布爾模型可以通過擴(kuò)展來包含排序的功能,即“擴(kuò)展的布爾模型”第八頁,共一百一十九頁,2022年,8月28日布爾模型—問題布爾模型被認(rèn)為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的結(jié)果文檔被返回非常剛性:“與”意味著全部;“或”意味著任何一個(gè)很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回很難對(duì)輸出進(jìn)行排序不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配很難進(jìn)行自動(dòng)的相關(guān)反饋如果一篇文檔被用戶確認(rèn)為相關(guān)或者不相關(guān),怎樣相應(yīng)地修改查詢式呢?第九頁,共一百一十九頁,2022年,8月28日向量空間模型GerardSalton在上世紀(jì)60年代提出的向量空間模型進(jìn)行特征表達(dá)成功應(yīng)用于SMART(SystemfortheManipulationandRetrievalofText)文本檢索系統(tǒng)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術(shù)研究的基礎(chǔ)第十頁,共一百一十九頁,2022年,8月28日給定某個(gè)文檔集合D,大小為M;設(shè)兩篇文檔d1,d2

∈D,一個(gè)查詢q,用什么來衡量“d1與d2相比,哪個(gè)和q更相關(guān)”向量空間模型該模型作出如下假設(shè):文檔d和查詢q的相關(guān)性可以由它們包含的共有詞匯情況來刻畫向量空間模型第十一頁,共一百一十九頁,2022年,8月28日文檔d和查詢q被簡(jiǎn)化成詞匯的集合(多重集)Σ為一個(gè)詞典,ti

為詞項(xiàng),N為詞典的規(guī)模mi,ni(i=1,2,……N)表示相應(yīng)詞項(xiàng)出現(xiàn)的次數(shù),即詞頻。向量空間模型第十二頁,共一百一十九頁,2022年,8月28日詞項(xiàng)在文檔和查詢中出現(xiàn)的次數(shù)是一個(gè)基本量,稱為“詞頻”模型為簡(jiǎn)便起見,mi,ni值在集合{0,1}中取值,表示詞項(xiàng)出現(xiàn)與否,不關(guān)心出現(xiàn)的次數(shù),此時(shí)的模型稱為“二元模型”若一個(gè)詞項(xiàng)ti在許多文檔中出現(xiàn),它對(duì)于不同文檔的區(qū)分能力就不會(huì)很強(qiáng),因此它的權(quán)重應(yīng)該相對(duì)較小向量空間模型第十三頁,共一百一十九頁,2022年,8月28日文檔頻率DFki表示詞項(xiàng)ti在文檔集合D中涉及的文檔個(gè)數(shù),M表示集合D的大小,則倒置文檔頻率IDF向量空間模型第十四頁,共一百一十九頁,2022年,8月28日TF*IDF詞項(xiàng)權(quán)重文檔和查詢的相關(guān)性變成了求d和q向量的距離向量空間模型第十五頁,共一百一十九頁,2022年,8月28日文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度?!盩FIDFTFIDFTFIDFTFIDF俄羅斯2較高高安全1中等高恐怖2較高高部門1較低低的2非常低很低加大1較低低頻繁1較低低打擊1中等高發(fā)生1較低低主義1較低低事件1較低低力度1中等高文檔的詞項(xiàng)權(quán)重TF*IDF舉例第十六頁,共一百一十九頁,2022年,8月28日IDF計(jì)算示例第十七頁,共一百一十九頁,2022年,8月28日模型中的問題怎樣確定文檔中哪些詞是重要的詞?(索引項(xiàng))怎樣確定一個(gè)詞在某個(gè)文檔中或在整個(gè)文檔集中的重要程度?(權(quán)重)怎樣確定一個(gè)文檔和一個(gè)查詢式之間的相似度?第十八頁,共一百一十九頁,2022年,8月28日若干獨(dú)立的詞項(xiàng)被選作索引項(xiàng)(indexterms)

or詞表vocabulary索引項(xiàng)代表了一個(gè)應(yīng)用中的重要詞項(xiàng)計(jì)算機(jī)科學(xué)圖書館中的索引項(xiàng)應(yīng)該是哪些呢?體系結(jié)構(gòu)總線計(jì)算機(jī)數(shù)據(jù)庫….XML計(jì)算機(jī)科學(xué)文檔集文檔集中的索引項(xiàng)索引項(xiàng)的選擇第十九頁,共一百一十九頁,2022年,8月28日這些索引項(xiàng)是不相關(guān)的

(或者說是正交的)

,形成一個(gè)向量空間vectorspace實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,非常有可能同時(shí)看到“科學(xué)”當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,有中等的可能性同時(shí)看到“商務(wù)”當(dāng)你在一個(gè)文檔中看到“商務(wù)”,只有很少的機(jī)會(huì)同時(shí)看到“科學(xué)”“計(jì)算機(jī)”“科學(xué)”“商務(wù)”計(jì)算機(jī)科學(xué)文檔集該文檔集中的全部重要詞項(xiàng)索引項(xiàng)的選擇第二十頁,共一百一十九頁,2022年,8月28日由索引項(xiàng)構(gòu)成向量空間2個(gè)索引項(xiàng)構(gòu)成一個(gè)二維空間,一個(gè)文檔可能包含0,1或2個(gè)索引項(xiàng)di=<0,0> (一個(gè)索引項(xiàng)也不包含)?dj=<0,0.7> (包含其中一個(gè)索引項(xiàng))?dk=<1,2> (包含兩個(gè)索引項(xiàng))?類似的,3個(gè)索引項(xiàng)構(gòu)成一個(gè)三維空間,n個(gè)索引項(xiàng)構(gòu)成n維空間一個(gè)文檔或查詢式可以表示為n個(gè)元素的線性組合第二十一頁,共一百一十九頁,2022年,8月28日向量空間中的N個(gè)文檔可以用一個(gè)矩陣表示矩陣中的一個(gè)元素對(duì)應(yīng)于文檔中一個(gè)詞項(xiàng)的權(quán)重?!?”意味著該詞項(xiàng)在文檔中沒有意義,或該詞項(xiàng)不在文檔中出現(xiàn)T1T2….TtD1

d11d12…d1tD2

d21d22…d2t

:

:::

:

:::Dn

dn1dn2…dnt文檔集—一般表示第二十二頁,共一百一十九頁,2022年,8月28日舉例:D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T3T3T1T2D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T37325D1比D2更接近Q嗎?怎樣衡量相似程度?夾角還是投影圖示第二十三頁,共一百一十九頁,2022年,8月28日相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間的相似程度,查詢式和文檔都是向量,各類相似度存在于:兩個(gè)文檔之間(文本分類,聚類)兩個(gè)查詢式之間(常問問題集)一個(gè)查詢式和一個(gè)文檔之間(檢索)人們?cè)岢龃罅康南嗨贫扔?jì)算方法,因?yàn)樽罴训南嗨贫扔?jì)算方法并不存在相似度計(jì)算第二十四頁,共一百一十九頁,2022年,8月28日術(shù)語權(quán)重的算法提高了檢索的性能部分匹配的策略使得檢索的結(jié)果文檔集更接近用戶的檢索需求可以根據(jù)結(jié)果文檔對(duì)于查詢串的相關(guān)度通過CosineRanking等公式對(duì)結(jié)果文檔進(jìn)行排序向量空間模型的優(yōu)點(diǎn)第二十五頁,共一百一十九頁,2022年,8月28日標(biāo)引詞之間被認(rèn)為是相互獨(dú)立隨著Web頁面信息量的增大、Web格式的多樣化,這種方法查詢的結(jié)果往往會(huì)與用戶真實(shí)的需求相差甚遠(yuǎn),而且產(chǎn)生的無用信息量會(huì)非常大隱含語義索引模型是向量空間模型的延伸向量空間模型的不足第二十六頁,共一百一十九頁,2022年,8月28日傳統(tǒng)IR方法的成功有兩個(gè)重要的內(nèi)在假設(shè)被索引的信息本身有很高的質(zhì)量,至少在信息的組織和內(nèi)容上有著比較高的質(zhì)量很多IR產(chǎn)品都是針對(duì)特殊的領(lǐng)域可以對(duì)這個(gè)領(lǐng)域進(jìn)行算法的優(yōu)化,避免了對(duì)一詞多義的處理檢索信息的用戶有一定的相關(guān)技能和知識(shí)用戶知道通過什么樣的手段去提高檢索的準(zhǔn)確率傳統(tǒng)的IR系統(tǒng)總是提供一套相當(dāng)復(fù)雜的檢索語法來滿足用戶的不同要求傳統(tǒng)IR的相關(guān)排序技術(shù)第二十七頁,共一百一十九頁,2022年,8月28日這些假設(shè)在web上已經(jīng)不再成立Web上網(wǎng)頁的質(zhì)量參差不齊,大量的網(wǎng)頁組織性、結(jié)構(gòu)性比較差。同時(shí),Web又是一個(gè)無所不包的載體,它涉及政治、經(jīng)濟(jì)、教育等各個(gè)層面IR中的很多技術(shù)都沒有了用武之地網(wǎng)絡(luò)上充斥著很多沒有任何意義的網(wǎng)頁、很多鏡像的網(wǎng)頁,如果不采取相應(yīng)的技術(shù)處理,會(huì)影響檢索的質(zhì)量大部分檢索用戶是沒有任何經(jīng)驗(yàn)的通常只輸入一個(gè)或者兩個(gè)檢索詞來檢索他們需要的網(wǎng)頁,但會(huì)得到大量的返回結(jié)果,很難達(dá)到滿意的程度很少有用戶愿意使用邏輯運(yùn)算來提高檢索的質(zhì)量傳統(tǒng)IR的相關(guān)排序技術(shù)第二十八頁,共一百一十九頁,2022年,8月28日傳統(tǒng)IR的相關(guān)排序技術(shù)鏈接分析與相關(guān)排序相關(guān)排序的一種實(shí)現(xiàn)方案搜索引擎系統(tǒng)質(zhì)量評(píng)估主要內(nèi)容第二十九頁,共一百一十九頁,2022年,8月28日Web的復(fù)雜性帶來的機(jī)會(huì)利用網(wǎng)頁間的鏈接關(guān)系進(jìn)行鏈接分析,量化網(wǎng)頁信息在web查詢模式下產(chǎn)生了許多新的信息可以利用,如web用戶行為信息鏈接分析與相關(guān)排序第三十頁,共一百一十九頁,2022年,8月28日鏈接分析HTML標(biāo)簽標(biāo)簽?zāi)芙o我們提示其中文字的重要程度比較大的字體往往是作者比較強(qiáng)調(diào)的內(nèi)容放在前面和中間的應(yīng)該是作者比較強(qiáng)調(diào)的Alta,infoseek等搜索引擎在網(wǎng)頁的預(yù)處理階段記錄了這些信息用于結(jié)果的排序鏈接分析與相關(guān)排序第三十一頁,共一百一十九頁,2022年,8月28日鏈接分析(續(xù))網(wǎng)頁之間的超鏈接鏈接反映的是網(wǎng)頁之間形成的“參考”、“引用”和“推薦”關(guān)系如果一篇網(wǎng)頁被較多的其他網(wǎng)頁鏈接,則它相對(duì)較被人關(guān)注,其內(nèi)容應(yīng)該是較重要的網(wǎng)頁的“出度”對(duì)分析網(wǎng)上信息的情況也很有意義的,因此可以同時(shí)考慮用兩個(gè)指標(biāo)來衡量網(wǎng)頁這些想法即是google和IBM(clever)小組提出PageRank技術(shù)和HITS技術(shù)的基礎(chǔ)鏈接分析與相關(guān)排序第三十二頁,共一百一十九頁,2022年,8月28日“隨機(jī)沖浪”模型(PageRank的理論基礎(chǔ))用戶隨機(jī)的選擇一個(gè)網(wǎng)頁作為上網(wǎng)的起始網(wǎng)頁看完這個(gè)網(wǎng)頁后,從該網(wǎng)頁內(nèi)所含的超鏈接內(nèi)隨機(jī)的選擇一個(gè)頁面繼續(xù)進(jìn)行瀏覽沿著鏈接前進(jìn)了一定數(shù)目的網(wǎng)頁后,用戶對(duì)這個(gè)主題感到厭倦,重新隨機(jī)選擇一個(gè)網(wǎng)頁進(jìn)行瀏覽,如此往復(fù)鏈接分析與相關(guān)排序第三十三頁,共一百一十九頁,2022年,8月28日網(wǎng)頁的權(quán)值(PageRank)每個(gè)網(wǎng)頁可能被訪問到的次數(shù)越多就越重要“可能被訪問的次數(shù)”也就定義為網(wǎng)頁的權(quán)值wj表示第j個(gè)網(wǎng)頁的權(quán)值;li,j只取0、1,代表從網(wǎng)頁i到網(wǎng)頁j是否存在鏈接ni代表網(wǎng)頁i有多少個(gè)指向其他網(wǎng)頁的鏈接d代表“隨機(jī)沖浪”中沿著鏈接訪問網(wǎng)頁的平均次數(shù)鏈接分析與相關(guān)排序第三十四頁,共一百一十九頁,2022年,8月28日HITS(Hyperlink-InducedTopicSearch)權(quán)威型網(wǎng)頁(authority)對(duì)于一個(gè)特定的檢索,該網(wǎng)頁提供最好的相關(guān)信息目錄型網(wǎng)頁(hub)該網(wǎng)頁提供很多指向其他高質(zhì)量權(quán)威型網(wǎng)頁的超鏈鏈接分析與相關(guān)排序第三十五頁,共一百一十九頁,2022年,8月28日算法過程利用檢索的關(guān)鍵詞得到一個(gè)網(wǎng)頁的根集合根據(jù)這個(gè)集合在整個(gè)網(wǎng)頁有向圖中的位置來擴(kuò)展這個(gè)根集合將被鏈接(包括鏈出和鏈入)的網(wǎng)頁加入到這個(gè)根集合中,形成一個(gè)新的集合依據(jù)指定的網(wǎng)頁規(guī)模作擴(kuò)展得到這個(gè)集合后,計(jì)算集合中每個(gè)網(wǎng)頁的目錄型權(quán)值和權(quán)威型權(quán)值按照這兩個(gè)不同的權(quán)值,分別取出前k個(gè)結(jié)果返回給用戶鏈接分析與相關(guān)排序第三十六頁,共一百一十九頁,2022年,8月28日PageRank算法&HITS算法利用了網(wǎng)頁和超鏈組成的有向圖,根據(jù)相互鏈接的關(guān)系進(jìn)行遞歸的運(yùn)算運(yùn)算的時(shí)機(jī)PageRank在網(wǎng)頁搜集告一段落時(shí),離線的使用一定的算法計(jì)算每個(gè)網(wǎng)頁權(quán)值速度快,但喪失了檢索的靈活性HITS采用即時(shí)分析運(yùn)算策略,每得到一個(gè)檢索,它都要從數(shù)據(jù)庫中找到相應(yīng)的網(wǎng)頁和超鏈構(gòu)成的有向子圖,再運(yùn)算獲得各個(gè)網(wǎng)頁的相應(yīng)鏈接權(quán)值靈活性強(qiáng),更加精確;但效率較低鏈接分析與相關(guān)排序第三十七頁,共一百一十九頁,2022年,8月28日Web查詢模式下的新信息新出現(xiàn)的網(wǎng)頁盡管重要,但由于時(shí)間短,被鏈接的次數(shù)不可能很高PageRank值就不會(huì)高除網(wǎng)頁本身的特性外用戶行為新詞的產(chǎn)生鏈接分析與相關(guān)排序第三十八頁,共一百一十九頁,2022年,8月28日用戶行為用戶經(jīng)驗(yàn)少,但數(shù)量巨大Google、AltaVista、百度、雅虎每天都有超過1000萬次的用戶檢索可以從中獲取許多有用的信息,這些信息可以大大提高搜索引擎檢索結(jié)果的準(zhǔn)確率,提高檢索質(zhì)量DirectHit技術(shù)就是基于該思想創(chuàng)立的鏈接分析與相關(guān)排序第三十九頁,共一百一十九頁,2022年,8月28日DirectHit跟蹤用戶對(duì)檢索結(jié)果的后繼型為:哪些站點(diǎn)被用戶選擇瀏覽了?用戶在這個(gè)站點(diǎn)上花費(fèi)了多少時(shí)間?根據(jù)統(tǒng)計(jì)結(jié)果,改變網(wǎng)頁的權(quán)值提高哪些經(jīng)常被用戶選擇、花大量時(shí)間瀏覽站點(diǎn)的權(quán)值,降低哪些不太被用戶關(guān)心的站點(diǎn)的權(quán)值對(duì)于新加入系統(tǒng)的網(wǎng)頁,系統(tǒng)則先給它們一個(gè)缺省的權(quán)值對(duì)一個(gè)固定的用戶的行為進(jìn)行跟蹤和統(tǒng)計(jì),發(fā)現(xiàn)這個(gè)用戶的喜好,從而產(chǎn)生專門針對(duì)該用戶的檢索結(jié)果(個(gè)性化檢索)鏈接分析與相關(guān)排序第四十頁,共一百一十九頁,2022年,8月28日四種技術(shù)的比較網(wǎng)頁本身信息(Author)超鏈接關(guān)系(OtherAuthor)人工編輯產(chǎn)生的目錄系統(tǒng)(Editor)用戶行為(User)鏈接分析與相關(guān)排序第四十一頁,共一百一十九頁,2022年,8月28日新詞的產(chǎn)生詞典傳統(tǒng)的信息檢索信息資源相對(duì)穩(wěn)定,信息內(nèi)容相對(duì)成熟,詞典也就相對(duì)穩(wěn)定網(wǎng)絡(luò)環(huán)境下時(shí)代感很強(qiáng)如果詞典中沒有相應(yīng)的詞,就不可能(不能有效地)查到含有它們的網(wǎng)頁。因此,獲得新詞,將它們及時(shí)加入到詞典中,是維護(hù)搜索引擎的一個(gè)重要工作鏈接分析與相關(guān)排序第四十二頁,共一百一十九頁,2022年,8月28日詞典在系統(tǒng)中的地位鏈接分析與相關(guān)排序第四十三頁,共一百一十九頁,2022年,8月28日詞典的設(shè)計(jì)采用Hash表來實(shí)現(xiàn)系統(tǒng)的詞典h_size為Hash表的大小Fkey為散列函數(shù)Dinput為輸入數(shù)據(jù)鏈接分析與相關(guān)排序第四十四頁,共一百一十九頁,2022年,8月28日如何擴(kuò)大詞典的容量?系統(tǒng)和外界數(shù)據(jù)的接口Web用戶檢索(天網(wǎng)選擇用戶的檢索進(jìn)行學(xué)習(xí),擴(kuò)大詞典容量)學(xué)習(xí)詞匯是為了滿足用戶的檢索需求,提高檢索的質(zhì)量統(tǒng)計(jì)上看,web上的數(shù)據(jù)和用戶檢索的字符串有著很大的差別用戶輸入的大部分是詞匯和詞匯組成的斷語,經(jīng)過簡(jiǎn)單的處理,可以方便的學(xué)習(xí)到新的詞匯Web網(wǎng)頁中的中文大部分是連寫在一起的句子,很難從中提取新詞鏈接分析與相關(guān)排序第四十五頁,共一百一十九頁,2022年,8月28日新詞學(xué)習(xí)鏈接分析與相關(guān)排序第四十六頁,共一百一十九頁,2022年,8月28日詞匯統(tǒng)計(jì)復(fù)雜的邏輯檢索用戶輸入的檢索有一部分是復(fù)雜的邏輯檢索(大約20%),我們應(yīng)該首先將這些帶有邏輯運(yùn)算符號(hào)的檢索字符串轉(zhuǎn)化為簡(jiǎn)單檢索形式中英文混合檢索檢索中有大量的英文檢索和中英文混合檢索,我們這里處理的是中文新詞的學(xué)習(xí),因此我們要將所有的英文詞匯過濾掉新詞的最大長(zhǎng)度對(duì)于過長(zhǎng)的中文字符串,它是一個(gè)詞匯的可能性極小。定義一個(gè)學(xué)習(xí)詞匯的最大長(zhǎng)度n,把所有檢索字符串串長(zhǎng)大于n的過濾掉檢索頻率我們對(duì)這些合法的“可能新詞”進(jìn)行學(xué)習(xí),統(tǒng)計(jì)出每個(gè)詞匯的檢索頻率鏈接分析與相關(guān)排序第四十七頁,共一百一十九頁,2022年,8月28日詞匯篩選詞頻篩選低頻的檢索排除在新詞之外生僻詞匯不必加入到新詞詞典中檢索時(shí)不小心的輸入錯(cuò)誤搜狐搜虎兩個(gè)或多個(gè)合法詞匯組成的短語,需要過濾掉,如“計(jì)算機(jī)網(wǎng)絡(luò)”鏈接分析與相關(guān)排序第四十八頁,共一百一十九頁,2022年,8月28日新詞學(xué)習(xí)對(duì)檢索效率的影響鏈接分析與相關(guān)排序第四十九頁,共一百一十九頁,2022年,8月28日傳統(tǒng)IR的相關(guān)排序技術(shù)鏈接分析與相關(guān)排序相關(guān)排序的一種實(shí)現(xiàn)方案搜索引擎系統(tǒng)質(zhì)量評(píng)估主要內(nèi)容第五十頁,共一百一十九頁,2022年,8月28日URL權(quán)值的評(píng)價(jià)對(duì)一個(gè)URL地址進(jìn)行被鏈接次數(shù)的統(tǒng)計(jì),確定該URL獲得的其他網(wǎng)頁的評(píng)價(jià),Wl當(dāng)一個(gè)網(wǎng)頁屬于重要網(wǎng)站時(shí),賦予另外一個(gè)權(quán)值Ws根據(jù)不同的編碼類型,給相應(yīng)的網(wǎng)頁賦予編碼權(quán)值Wc相關(guān)排序的一種實(shí)現(xiàn)方案第五十一頁,共一百一十九頁,2022年,8月28日形成網(wǎng)頁中詞項(xiàng)的基本權(quán)重向量空間模型不能應(yīng)用于搜索引擎系統(tǒng)網(wǎng)頁文本和正文信息最重要的區(qū)別在于HTML標(biāo)簽有些標(biāo)簽影響文本的權(quán)值<FONT>、<H1>等不影響文本權(quán)值的標(biāo)簽<IMG>、<FRAME>等相關(guān)排序的一種實(shí)現(xiàn)方案第五十二頁,共一百一十九頁,2022年,8月28日影響權(quán)值的HTML標(biāo)簽第五十三頁,共一百一十九頁,2022年,8月28日一個(gè)特征項(xiàng)的權(quán)值HTML標(biāo)簽影響的絕對(duì)權(quán)值首先給每一個(gè)特征項(xiàng)賦予一個(gè)初始權(quán)值W0如果一個(gè)特征項(xiàng)被其他有權(quán)標(biāo)簽包圍,這些標(biāo)簽的權(quán)值會(huì)影響特征項(xiàng)的權(quán)值例如:<H3><b>hello</b></H3>WBT=W0+Wt(H3)+Wt(b)相關(guān)排序的一種實(shí)現(xiàn)方案第五十四頁,共一百一十九頁,2022年,8月28日網(wǎng)頁大小對(duì)權(quán)值的影響網(wǎng)頁的長(zhǎng)度越長(zhǎng),特征項(xiàng)可能獲得的權(quán)值特征項(xiàng)出現(xiàn)頻率對(duì)權(quán)值的影響區(qū)分高頻詞和低頻詞對(duì)網(wǎng)頁的影響程度Smax表示最大的網(wǎng)頁可索引文本大小S(p)代表網(wǎng)頁p的可索引文本大小N代表被索引網(wǎng)頁的總量T(t)包含特征項(xiàng)t的網(wǎng)頁數(shù)量相關(guān)排序的一種實(shí)現(xiàn)方案第五十五頁,共一百一十九頁,2022年,8月28日歸一化處理WBmax代表對(duì)于所有k,p而言,WB(k,p)的最大值相關(guān)排序的一種實(shí)現(xiàn)方案第五十六頁,共一百一十九頁,2022年,8月28日利用鏈接結(jié)構(gòu)網(wǎng)頁之間的超鏈接是Web的基本特點(diǎn)海量網(wǎng)頁之間構(gòu)成了一個(gè)巨大的有向圖我們更關(guān)心網(wǎng)頁的入度(鏈接命中數(shù),linkhitnumber,LHN)相關(guān)排序的一種實(shí)現(xiàn)方案第五十七頁,共一百一十九頁,2022年,8月28日天網(wǎng)將網(wǎng)頁的超鏈分為兩類鏈向本網(wǎng)站內(nèi)部的網(wǎng)頁超鏈(忽略)鏈向其它網(wǎng)站上的網(wǎng)頁的超鏈通過統(tǒng)計(jì)發(fā)現(xiàn),很多網(wǎng)站的頁面都是運(yùn)用一定的頁面模版實(shí)現(xiàn)的模版中會(huì)包含大量的該網(wǎng)站的索引超鏈,這些超鏈會(huì)跟隨模版被繼承到該網(wǎng)站的每一個(gè)網(wǎng)頁中有些大型網(wǎng)站的主頁會(huì)被本站點(diǎn)的其他網(wǎng)頁大量鏈接,而獲得很高的LHN,盡管它有可能被極少的其他網(wǎng)站所鏈接考慮網(wǎng)頁編輯的欺騙行為他們?cè)谝恍┚W(wǎng)頁中包含大量的不可見鏈接指向自己的頁面相關(guān)排序的一種實(shí)現(xiàn)方案第五十八頁,共一百一十九頁,2022年,8月28日新網(wǎng)頁的LHN新網(wǎng)頁即使質(zhì)量很高,知道它的網(wǎng)頁編輯很少,只能得到很小的LHN值LHN補(bǔ)償算法可以獲得網(wǎng)頁的發(fā)布時(shí)間T(p)?令當(dāng)前的時(shí)間為Tnow補(bǔ)償?shù)拈撝禃r(shí)間為Tst得到新的LHN值相關(guān)排序的一種實(shí)現(xiàn)方案第五十九頁,共一百一十九頁,2022年,8月28日歸一化WLmax表示系統(tǒng)對(duì)所有的p的WL’(p)的最大值相關(guān)排序的一種實(shí)現(xiàn)方案第六十頁,共一百一十九頁,2022年,8月28日收集用戶反饋信息用戶點(diǎn)擊數(shù)(userhitnumber,UHN)對(duì)于一個(gè)查詢q會(huì)得到很多檢索結(jié)果網(wǎng)頁p0,p1,p2,……,pn假定檢索q在一天內(nèi)被提交了m次定義檢索q對(duì)應(yīng)的一個(gè)網(wǎng)頁p的UHN相關(guān)排序的一種實(shí)現(xiàn)方案第六十一頁,共一百一十九頁,2022年,8月28日上述的方法忽略了返回結(jié)果中URL的位置信息統(tǒng)計(jì)結(jié)果:47.3%的用戶只訪問搜索引擎返回的第一頁,12.2%的用戶會(huì)繼續(xù)訪問第二頁一個(gè)結(jié)果在返回網(wǎng)頁中的位置將會(huì)很大程度的影響用戶點(diǎn)擊的可能性采用補(bǔ)償算法來彌補(bǔ)這個(gè)缺陷按照用戶對(duì)每個(gè)返回頁面訪問的概率進(jìn)行補(bǔ)償相關(guān)排序的一種實(shí)現(xiàn)方案第六十二頁,共一百一十九頁,2022年,8月28日補(bǔ)償因子定義表第六十三頁,共一百一十九頁,2022年,8月28日考慮長(zhǎng)時(shí)期的用戶評(píng)價(jià)考慮n+1天的數(shù)據(jù)WUD0,WUD1,……,WUDn存在的問題用戶在不同的時(shí)間感興趣的網(wǎng)頁是不同的奧運(yùn)前,用戶關(guān)心的是奧運(yùn)會(huì)的準(zhǔn)備情況和參賽運(yùn)動(dòng)員情況奧運(yùn)后,用戶關(guān)心的事世界紀(jì)錄打破的情況、各個(gè)國(guó)家獲得的獎(jiǎng)牌數(shù)和排名情況相關(guān)排序的一種實(shí)現(xiàn)方案第六十四頁,共一百一十九頁,2022年,8月28日衰減算法衰減系數(shù)kk值越大,先前的數(shù)據(jù)對(duì)結(jié)果的影響就越大k=0,表示歷史數(shù)據(jù)不被考慮k=1,表示所有的歷史數(shù)據(jù)都和現(xiàn)在的數(shù)據(jù)有相同的重要性對(duì)于新的網(wǎng)頁,需要考慮補(bǔ)償相關(guān)排序的一種實(shí)現(xiàn)方案第六十五頁,共一百一十九頁,2022年,8月28日計(jì)算最終的權(quán)重計(jì)算每個(gè)網(wǎng)頁和查詢q的相關(guān)度基本權(quán)值鏈接權(quán)值用戶評(píng)價(jià)權(quán)值相關(guān)排序的一種實(shí)現(xiàn)方案第六十六頁,共一百一十九頁,2022年,8月28日該方法的優(yōu)點(diǎn)幾乎所有的網(wǎng)頁擁有者,尤其是商業(yè)網(wǎng)站,期望他們的網(wǎng)頁被排在搜索結(jié)果的前列如果忽略一個(gè)站點(diǎn)內(nèi)部的鏈接,這就使得網(wǎng)站的作者很難通過超鏈接權(quán)值對(duì)搜索引擎進(jìn)行欺騙用戶評(píng)價(jià)也是一個(gè)容易被用來欺騙搜索引擎的特性相關(guān)排序的一種實(shí)現(xiàn)方案第六十七頁,共一百一十九頁,2022年,8月28日傳統(tǒng)IR的相關(guān)排序技術(shù)鏈接分析與相關(guān)排序相關(guān)排序的一種實(shí)現(xiàn)方案搜索引擎系統(tǒng)質(zhì)量評(píng)估主要內(nèi)容第六十八頁,共一百一十九頁,2022年,8月28日評(píng)價(jià)一般是指評(píng)估某個(gè)系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項(xiàng)技術(shù)的價(jià)值,或者是某項(xiàng)政策的效果等等信息檢索評(píng)價(jià)則是指對(duì)信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進(jìn)行評(píng)估的活動(dòng)從信息檢索系統(tǒng)誕生以來,對(duì)檢索系統(tǒng)的評(píng)價(jià)就一直是推動(dòng)其研究、開發(fā)與應(yīng)用的一種主要力量評(píng)價(jià)第六十九頁,共一百一十九頁,2022年,8月28日針對(duì)一個(gè)檢索系統(tǒng),可以從功能和性能兩個(gè)方面對(duì)其進(jìn)行分析評(píng)價(jià)功能評(píng)價(jià)可通過測(cè)試系統(tǒng)來判定是否支持某項(xiàng)功能,因此相對(duì)來說較容易性能評(píng)價(jià)對(duì)于檢索系統(tǒng)的性能來說,除了系統(tǒng)的時(shí)間和空間因素之外,要求檢索結(jié)果能夠按照相關(guān)度進(jìn)行排序信息檢索的評(píng)價(jià)第七十頁,共一百一十九頁,2022年,8月28日相關(guān)度理論假定:對(duì)于一個(gè)給定的文檔集合和一個(gè)用戶查詢,存在并且只存在一個(gè)與該查詢相關(guān)的文檔集合檢索系統(tǒng)的目標(biāo)就在于檢出相關(guān)文檔而排除不相關(guān)文檔相關(guān)度第七十一頁,共一百一十九頁,2022年,8月28日相關(guān)性是一種主觀評(píng)價(jià)是不是正確的主題輸入:“和服”;輸出:“···咨詢和服務(wù)···”由于分詞錯(cuò)誤,導(dǎo)致檢索結(jié)果偏離主題是否滿足用戶特定的信息需求(informationneed)?時(shí)效性,是不是新的信息輸入:“美國(guó)總統(tǒng)是誰”;輸出:“克林頓”信息已經(jīng)過時(shí)權(quán)威性,是否來自可靠的信息源相關(guān)性第七十二頁,共一百一十九頁,2022年,8月28日相關(guān)性不是二值評(píng)價(jià),而是一個(gè)連續(xù)的量即使進(jìn)行二值評(píng)價(jià),很多時(shí)候也很難從人的立場(chǎng)上看,相關(guān)性是:主觀的,依賴于特定用戶的判斷和情景相關(guān)的,依賴于用戶的需求認(rèn)知的,依賴于人的認(rèn)知和行為能力時(shí)變的,隨著時(shí)間而變化評(píng)價(jià)IR系統(tǒng)的困難第七十三頁,共一百一十九頁,2022年,8月28日檢索性能的評(píng)價(jià)檢索結(jié)果的準(zhǔn)確度檢索任務(wù)批處理查詢交互式查詢實(shí)驗(yàn)室環(huán)境下主要是批處理查詢,具有良好的可重復(fù)性和可擴(kuò)展性檢索的評(píng)價(jià)第七十四頁,共一百一十九頁,2022年,8月28日GRE詞匯精選考研毛主席語錄PAIR:客戶端個(gè)性化檢索工具點(diǎn)擊第七十五頁,共一百一十九頁,2022年,8月28日第七十六頁,共一百一十九頁,2022年,8月28日一個(gè)文檔集合C。系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔一組用戶查詢要求{q1,q2,…,qn}。每個(gè)查詢要求qi描述了用戶的信息需求對(duì)應(yīng)每個(gè)用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn}。該集合可由人工方式構(gòu)造一組評(píng)價(jià)指標(biāo)。這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實(shí)際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對(duì)它們的相似性進(jìn)行量化,得到這些指標(biāo)值評(píng)價(jià)和比較檢索系統(tǒng)的檢索性能需要以下條件:第七十七頁,共一百一十九頁,2022年,8月28日在早期的檢索實(shí)驗(yàn)集合中,相關(guān)性判斷是全方位的,就是說,由專家事先對(duì)集合中每一篇文獻(xiàn)與每一個(gè)主題的相關(guān)性做出判斷由于TREC的文獻(xiàn)集合如此龐大,全方位的判斷是不可行的。因此TREC相關(guān)性判斷基于檢索問題所來自的測(cè)試文檔集合,并采用一種“pooling”的技術(shù)來完成相關(guān)性判斷第七十八頁,共一百一十九頁,2022年,8月28日假設(shè)絕大多數(shù)的相關(guān)文檔都收錄在這個(gè)文檔池中沒有進(jìn)行判斷的文檔即未被認(rèn)為是不相關(guān)的“pooling”技術(shù)的具體操作方法是:針對(duì)某一檢索問題,所有參與其檢索試驗(yàn)的系統(tǒng)分別給出各自檢索結(jié)果中的前K個(gè)文檔(例如K=100),將這些結(jié)果文檔匯集起來,得到一個(gè)可能相關(guān)的文檔池“pool”由檢索評(píng)價(jià)專家進(jìn)行人工判斷,最終評(píng)判出每一文檔的相關(guān)性“Pooling”方法有以下兩個(gè)假設(shè)第七十九頁,共一百一十九頁,2022年,8月28日相關(guān)文本檢索出的文本全部文本集合檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)召回率(Recall)=檢出的相關(guān)文檔數(shù)/相關(guān)文檔數(shù)準(zhǔn)確率(Precision)=檢出的相關(guān)文檔數(shù)/檢出文檔數(shù)假設(shè):文本集中所有文獻(xiàn)已進(jìn)行了檢查準(zhǔn)確率和召回率第八十頁,共一百一十九頁,2022年,8月28日101準(zhǔn)確率召回率返回最相關(guān)的文本但是漏掉了很多相關(guān)文本理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾準(zhǔn)確率和召回率之間的關(guān)系第八十一頁,共一百一十九頁,2022年,8月28日Example

Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果:1.d123 6.d9 11.d38

2.d84 7.d511 12.d48

3.d56 8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25 15.d3(precision,recall)?(100%,10%)?(66%,20%)?(50%,30%)?(40%,40%)?(33%,50%)?舉例第八十二頁,共一百一十九頁,2022年,8月28日11個(gè)標(biāo)準(zhǔn)查全率水平所對(duì)應(yīng)的查準(zhǔn)率:0%,10%,20%,…,100%02040608010012020406080100120interpolationprecision一個(gè)查詢的11個(gè)標(biāo)準(zhǔn)查準(zhǔn)率第八十三頁,共一百一十九頁,2022年,8月28日上述準(zhǔn)確率召回率的值對(duì)應(yīng)一個(gè)查詢每個(gè)查詢對(duì)應(yīng)不同的準(zhǔn)確/召回率曲線為了評(píng)價(jià)某一算法對(duì)于所有測(cè)試查詢的檢索性能,對(duì)每個(gè)召回率水平下的準(zhǔn)確率進(jìn)行平均化處理,公式如下:Nq:thenumberofqueriesusedPi(r):theprecisionatrecalllevelrforthei-thquery平均準(zhǔn)確率第八十四頁,共一百一十九頁,2022年,8月28日對(duì)多個(gè)查詢,進(jìn)行平均,有時(shí)該曲線也稱為:查準(zhǔn)率/查全率的值如下為兩個(gè)檢索算法在多個(gè)查詢下的查準(zhǔn)率/查全率的值第一個(gè)檢索算法在低查全率下,其查準(zhǔn)率較高。另一個(gè)檢索算法在高查全率下,其查準(zhǔn)率較高多個(gè)查詢下進(jìn)行檢索算法的比較第八十五頁,共一百一十九頁,2022年,8月28日合理估計(jì)需要了解集合的所有文獻(xiàn)這兩個(gè)指標(biāo)相互關(guān)聯(lián),評(píng)價(jià)不同方面,結(jié)合在一起形成單個(gè)測(cè)度更合適測(cè)的是批處理模式下查詢集合性能,對(duì)現(xiàn)代信息檢索系統(tǒng),交互式是重要特征,對(duì)量化檢索過程的性指標(biāo)可能會(huì)更合適適應(yīng)性第八十六頁,共一百一十九頁,2022年,8月28日隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)單值概括新的評(píng)價(jià)指標(biāo)第八十七頁,共一百一十九頁,2022年,8月28日已檢出的相關(guān)文獻(xiàn)的平均準(zhǔn)確率逐個(gè)考察檢出新的相關(guān)文獻(xiàn),將準(zhǔn)確率平均Example

1.d123(1) 6.d9(0.5) 11.d38

2.d84 7.d511 12.d48

3.d56(0.66)8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25(0.4) 15.d3(0.3)?(1+0.66+0.5+0.4+0.3)/5=0.57單值概括(1)第八十八頁,共一百一十九頁,2022年,8月28日R-Precision計(jì)算序列中前R個(gè)位置文獻(xiàn)的準(zhǔn)確率R指與當(dāng)前查詢相關(guān)的文獻(xiàn)總數(shù)1.d123 6.d9

2.d84 7.d511 3.d56 8.d129 4.d6 9.d187

5.d8 10.d25R=10and#relevant=4R-precision=4/10=0.41. d123

2. d84

3. 56

R=3and#relevant=1R-precision=1/3=0.33單值概括(2)第八十九頁,共一百一十九頁,2022年,8月28日準(zhǔn)確率直方圖多個(gè)查詢的R-Precision測(cè)度用來比較兩個(gè)算法的檢索紀(jì)錄RPA/B=0:對(duì)于第i個(gè)查詢,兩個(gè)算法有相同的性能RPA/B>0:對(duì)于第i個(gè)查詢,算法A有較好的性能RPA/B<0:對(duì)于第i個(gè)查詢,算法B有較好的性能單值概括(3)第九十頁,共一百一十九頁,2022年,8月28日0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28單值概括(3-1)第九十一頁,共一百一十九頁,2022年,8月28日概括統(tǒng)計(jì)表查詢數(shù)檢出的所有文獻(xiàn)數(shù)量相關(guān)文獻(xiàn)數(shù)應(yīng)檢出的相關(guān)文獻(xiàn)數(shù)……單值概括(4)第九十二頁,共一百一十九頁,2022年,8月28日前面提到的一些評(píng)價(jià)指標(biāo),如R-準(zhǔn)確率,MAP,P@10等,都只考慮經(jīng)過pooling技術(shù)之后判斷的相關(guān)文檔的排序?qū)ε袛嗖幌嚓P(guān)文檔與未經(jīng)判斷的文檔的差別并沒有考慮而目前隨著互聯(lián)網(wǎng)的發(fā)展,測(cè)試集越來越大,由于相關(guān)性判斷還基本上是人工判斷,因此建立完整的相關(guān)性判斷變得越來越難評(píng)價(jià)指標(biāo)的不足第九十三頁,共一百一十九頁,2022年,8月28日只考慮對(duì)返回結(jié)果列表中的經(jīng)過判斷后的文檔進(jìn)行評(píng)價(jià)在相關(guān)性判斷完整的情況下,bpref具有與MAP相一致的評(píng)價(jià)結(jié)果在測(cè)試集相關(guān)性判斷不完全的情況下,bpref依然具有很好的應(yīng)用這個(gè)評(píng)價(jià)指標(biāo)主要關(guān)心不相關(guān)文檔在相關(guān)文檔之前出現(xiàn)的次數(shù)。具體公式為:Bpref指標(biāo)第九十四頁,共一百一十九頁,2022年,8月28日下面舉個(gè)例子來說明bpref的性能,假設(shè)檢索結(jié)果集S為:S={D1,D2·,D3*,D4*,D5·,D6,D7·,D8,D9,D10}其中D2、D5和D7是相關(guān)文檔,D3和D4為未經(jīng)判斷的文檔。對(duì)這個(gè)例子來說,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]Bpref舉例第九十五頁,共一百一十九頁,2022年,8月28日對(duì)于搜索引擎系統(tǒng)來講,由于沒有一個(gè)搜索引擎系統(tǒng)能夠保證搜集到所有的網(wǎng)頁,所以召回率很難計(jì)算,因而準(zhǔn)確率成為目前的搜索引擎系統(tǒng)主要關(guān)心的指標(biāo)。而當(dāng)用戶在使用Web搜索引擎的時(shí)候,用戶常常在找到一個(gè)好的頁面后就不再繼續(xù)察看排序列表其他結(jié)果。只找出一個(gè)相關(guān)的文檔的高準(zhǔn)確率就是信息檢索系統(tǒng)的一個(gè)重要任務(wù)單一相關(guān)文檔檢索的評(píng)價(jià)第九十六頁,共一百一十九頁,2022年,8月28日RR(ReciprocalRanking)是第一個(gè)相關(guān)文檔出現(xiàn)位置的倒數(shù)經(jīng)常用于評(píng)價(jià)只找到一個(gè)相關(guān)文檔的情況RR值具體為1/r,其中r為第一個(gè)相關(guān)文檔在結(jié)果中排序數(shù)如果檢索結(jié)果中沒有相關(guān)文檔,那么RR值為0RR排序倒數(shù)和MRR平均排序倒數(shù)第九十七頁,共一百一十九頁,2022年,8月28日MRR是在RR的基礎(chǔ)上對(duì)多個(gè)查詢的RR結(jié)果取平均值。即對(duì)一個(gè)檢索系統(tǒng)輸入多個(gè)查詢,分別得到每個(gè)查詢的排序倒數(shù),取平均即為MRR。計(jì)算公式如下:例如MRR=0.25就意味著檢索系統(tǒng)平均在返回結(jié)果的第四個(gè)位置找到相關(guān)文檔然而RR評(píng)價(jià)是基于2元相關(guān)判斷基礎(chǔ)上的,因此RR與MRR都不能區(qū)分一個(gè)高相關(guān)性的文檔與低相關(guān)性文檔之間的區(qū)別MRR(MeanReciprocalRanking)平均排序倒數(shù)第九十八頁,共一百一十九頁,2022年,8月28日調(diào)和平均值R(j):therecallforthej-thdocumentintherankingP(j):theprecisionforthej-thdocumentintheranking其它測(cè)度方法第九十九頁,共一百一十九頁,2022年,8月28日 1.d123 6.d9 11.d38

2.d84 7.d511 12.d48

3.d56 8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25 15.d3(33.3%,33.3%)?(25%,66.6%)?(20%,100%)?Example第一百頁,共一百一十九頁,2022年,8月28日E指標(biāo)允許用戶根據(jù)需要調(diào)整精確率和召回率的比例其它測(cè)度方法(cont.)第一百零一頁,共一百一十九頁,2022年,8月28日面向用戶的測(cè)度方法覆蓋率:實(shí)際檢出的相關(guān)文獻(xiàn)中用戶一致的相關(guān)文獻(xiàn)所占比例新穎率:檢出的相關(guān)文獻(xiàn)中用戶未知的相關(guān)文獻(xiàn)所占的比例其它測(cè)度方法(cont.)第一百零二頁,共一百一十九頁,2022年,8月28日相關(guān)文獻(xiàn)|R|結(jié)果集|A|用戶已知的相關(guān)文獻(xiàn)|U|檢出的用戶以前未知的相關(guān)文獻(xiàn)|Ru|檢出的用戶已知的相關(guān)文獻(xiàn)|Rk|覆蓋率和新穎率(圖示)第一百零三頁,共一百一十九頁,2022年,8月28日組成要素文件集(DocumentSet;DocumentCollection)?查詢問題(Query;Topic)?相關(guān)判斷(RelevantJudgment)?用途設(shè)計(jì)與發(fā)展:系統(tǒng)測(cè)試評(píng)估:系統(tǒng)效能(Effectiveness)之測(cè)量比較:不同系統(tǒng)與不同技術(shù)間之比較評(píng)比根據(jù)不同的目的而有不同的評(píng)比項(xiàng)目量化的測(cè)量準(zhǔn)則,如Precision與Recall測(cè)試集(TestCollection)第一百零四頁,共一百一十九頁,2022年,8月28日TREC評(píng)測(cè)文本檢索會(huì)議(TextRetrievalConference,TREC)是信息檢索(IR)界為進(jìn)行檢索系統(tǒng)和用戶評(píng)價(jià)而舉行的活動(dòng),它由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì)(NIST)和美國(guó)高級(jí)研究計(jì)劃局(DARPA)(美國(guó)國(guó)防部)共同資助,開始于1992年。NTCIR評(píng)測(cè)NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本國(guó)立信息學(xué)研究所(NationalInstituteofInformatics,簡(jiǎn)稱NII)主辦的搜索引擎評(píng)價(jià)型國(guó)際會(huì)議CLEF評(píng)測(cè)CLEF于2000年開始籌辦,是歐洲各國(guó)共同合作進(jìn)行的一項(xiàng)長(zhǎng)期研究計(jì)劃,主要想通過評(píng)測(cè)信息科技技術(shù),促進(jìn)歐洲語言中的各種單一語言以及多語言信息技術(shù)的發(fā)展,CLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面國(guó)外的評(píng)測(cè)第一百零五頁,共一百一十九頁,2022年,8月28日TREC:TextREtrievalConference(/)?1992年開始,每年一次由美國(guó)國(guó)防部DefenseAdvancedResearchProjectsAgency(DARPA)和美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所NationalInstituteofStandardsandTechnology(NIST)聯(lián)合發(fā)起參加者免費(fèi)獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)參加者在參加比賽時(shí)收到最新的測(cè)試數(shù)據(jù),并在限定時(shí)間內(nèi)作出答案,返給組織者組織者對(duì)各參賽者的結(jié)果進(jìn)行評(píng)價(jià)包括檢索、過濾、問答等多個(gè)主題TREC評(píng)測(cè)(Benchmark)第一百零六頁,共一百一十九頁,2022年,8月28日StandardGeneralizedMark-upLanguage,SGML<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>DocumentFormat第一百零七頁,共一百一十九頁,2022年,8月28日概括表統(tǒng)計(jì)準(zhǔn)確率-召回率平均值文獻(xiàn)級(jí)別平均值平均準(zhǔn)確率TREC會(huì)議評(píng)價(jià)測(cè)度第一百零八頁,共一百一十九頁,2022年,8月28日全名:863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)組織者:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)方式通過網(wǎng)絡(luò)進(jìn)行各單位在自己的環(huán)境中運(yùn)行參評(píng)系統(tǒng)2005年11月召開研討會(huì)2005年度評(píng)測(cè)內(nèi)容機(jī)器翻譯信息檢索語音識(shí)別國(guó)內(nèi)863評(píng)測(cè)介紹第一百零九頁,共一百一十九頁,2022年,8月28

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論