海量規(guī)模網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
海量規(guī)模網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
海量規(guī)模網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
海量規(guī)模網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
海量規(guī)模網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 多少人在使用搜索引擎 全球范圍內(nèi)84%的互聯(lián)網(wǎng)用戶使用搜索引擎,其中超過(guò)一半的人幾乎每天使用。 95%以上的中國(guó)網(wǎng)民使用過(guò)搜索引擎,84.5%的用戶將搜索引擎作為得知新網(wǎng)站的主要途徑。 商用搜索引擎競(jìng)爭(zhēng)日趨激烈(市場(chǎng)規(guī)模約56億元)。 從2007年9月開(kāi)始,中國(guó)成為全球首個(gè)每月搜索請(qǐng)求超過(guò)100億次的國(guó)家 搜索引擎與性能評(píng)價(jià) 對(duì)搜索引擎用戶:選擇最有效獲取信息的媒介 對(duì)廣告商:選擇最有效的盈利平臺(tái) 對(duì)研究人員:算法改進(jìn)、性能監(jiān)控 效果評(píng)價(jià)是信息檢索相關(guān)研究的基礎(chǔ)內(nèi)容 評(píng)價(jià)在信息檢索系統(tǒng)的研發(fā)中一直處于核心的地位,以致于算法與它們的效果評(píng)價(jià)方式是合二為一的。 (Saracevic, 1995)

2、 如何對(duì)網(wǎng)絡(luò)信息檢索系統(tǒng)進(jìn)行評(píng)價(jià) Cranfield評(píng)價(jià)方法 被應(yīng)用在包括TREC在內(nèi)的幾乎所有主流的信息檢索研究工作中。 評(píng)價(jià)組成: 文本語(yǔ)料庫(kù),查詢樣例集,標(biāo)準(zhǔn)答案集 Cranfield評(píng)價(jià)方式的優(yōu)勢(shì) 有效控制系統(tǒng)變量 可以跨系統(tǒng)比較的評(píng)價(jià)結(jié)果 網(wǎng)絡(luò)信息檢索評(píng)測(cè)語(yǔ)料庫(kù) 建立評(píng)測(cè)語(yǔ)料庫(kù)的必要性 信息檢索是實(shí)證學(xué)科 真實(shí)規(guī)模的評(píng)測(cè)語(yǔ)料是算法有效性的保證 研究人員獨(dú)立構(gòu)建存在困難 海量網(wǎng)絡(luò)資源抓取 真實(shí)用戶需求獲取 大規(guī)模用戶查詢的答案標(biāo)注 建立評(píng)測(cè)語(yǔ)料庫(kù)的可能性 產(chǎn)業(yè)界與研究界的合作 搜索引擎日志被合理應(yīng)用 文本信息檢索會(huì)議(TREC) NIST組織的研討文本檢索技術(shù)的國(guó)際性論壇 大規(guī)模文本檢

3、索系統(tǒng)的標(biāo)準(zhǔn)評(píng)測(cè)平臺(tái) 與網(wǎng)絡(luò)信息檢索相關(guān)的評(píng)測(cè)語(yǔ)料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機(jī)接口評(píng)測(cè) 語(yǔ)料庫(kù)規(guī)模 30G 數(shù)據(jù) 30個(gè)查詢,pooling方式確定答案 4個(gè)系統(tǒng)參加評(píng)測(cè) 現(xiàn)場(chǎng)評(píng)測(cè) 參與系統(tǒng)少 側(cè)重系統(tǒng)穩(wěn)定

4、性和效率 SEWM評(píng)測(cè) 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室組織 類(lèi)似TREC的評(píng)測(cè)架構(gòu) 文本語(yǔ)料庫(kù):CWT100g, CWT200g 去重、去除垃圾,37M網(wǎng)頁(yè) 查詢語(yǔ)料庫(kù):來(lái)自天網(wǎng)查詢?nèi)罩?2005-2007 三年的時(shí)間 1185 導(dǎo)航類(lèi)查詢 285 信息類(lèi)查詢 標(biāo)注方式:人工標(biāo)注,pooling方法 經(jīng)驗(yàn)總結(jié) 文本語(yǔ)料 抓取相對(duì)高質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù) VLC2 = WT10g,.GOV, .GOV2,CWT200g 查詢語(yǔ)料 真實(shí)反映用戶需求 TREC Web, Terabyte;SEWM 標(biāo)注語(yǔ)料 規(guī)模保證 TREC million query track: efficiency, not effective

5、ness 主要困難 文本語(yǔ)料庫(kù)構(gòu)建 規(guī)模問(wèn)題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 達(dá)到Billion/Terabyte量級(jí),保證研究成果的可信性 網(wǎng)頁(yè)質(zhì)量篩選 網(wǎng)頁(yè)質(zhì)量相對(duì)較高:重復(fù)語(yǔ)料、垃圾語(yǔ)料的處理。 輔助語(yǔ)料的構(gòu)建問(wèn)題 鏈接關(guān)系語(yǔ)料 網(wǎng)頁(yè)質(zhì)量評(píng)估數(shù)據(jù) 點(diǎn)擊日志信息 主要困難 查詢語(yǔ)料庫(kù)構(gòu)建 規(guī)模問(wèn)題 有充分的代表性 考慮到標(biāo)注工作量 查詢樣例選擇 真實(shí)用戶需求 有充分的代表性 覆蓋不同用戶信息需求 主要困難 標(biāo)注語(yǔ)料庫(kù)構(gòu)建 Voorhees 估計(jì),對(duì)一個(gè)規(guī)模為800萬(wàn)的文檔集合進(jìn)行針對(duì)1個(gè)查詢

6、主題的相關(guān)性評(píng)判需要耗費(fèi)1名標(biāo)注人員9個(gè)月的工作時(shí)間 TREC提出pooling方法,在保證評(píng)價(jià)結(jié)果可靠性的基礎(chǔ)上大大減少了評(píng)判工作量 缺點(diǎn):處理的查詢數(shù)目少,針對(duì)小規(guī)模的查詢集合,仍需要耗費(fèi)十余名標(biāo)注人員1-2個(gè)月的工作時(shí)間 設(shè)計(jì)思路 海量規(guī)模、符合大多數(shù)研究機(jī)構(gòu)的處理能力 能夠代表中文互聯(lián)網(wǎng)的基本情況 能夠代表中文搜索引擎用戶的需求情況 客觀全面評(píng)價(jià)網(wǎng)絡(luò)信息檢索系統(tǒng)性能 實(shí)現(xiàn)思路 利用搜索引擎資源 網(wǎng)頁(yè)抓取、查詢?nèi)罩精@取、網(wǎng)頁(yè)質(zhì)量評(píng)估數(shù)據(jù)獲取 使用自動(dòng)化的查詢語(yǔ)料標(biāo)注方法 構(gòu)建過(guò)程網(wǎng)頁(yè)文本語(yǔ)料庫(kù)標(biāo)注語(yǔ)料庫(kù)查詢語(yǔ)料庫(kù)檢索結(jié)果結(jié)果池手工標(biāo)注網(wǎng)頁(yè)文本語(yǔ)料庫(kù)查詢語(yǔ)料庫(kù)標(biāo)注語(yǔ)料庫(kù)用戶查詢?nèi)罩咀ト鹘y(tǒng)

7、方式傳統(tǒng)方式SogouT構(gòu)建方式構(gòu)建方式自動(dòng)標(biāo)注生成 查詢語(yǔ)料庫(kù)構(gòu)建 用戶查詢頻度的分布情況 2008年6月的日志數(shù)據(jù) 查詢頻度最高的前10000個(gè)查詢?cè)~ 用戶查詢總數(shù)的萬(wàn)分之六點(diǎn)五,覆蓋超過(guò)56%的用戶需求 抽樣方式 2008年6月搜狗搜索引擎查詢?nèi)罩?選取查詢量最高的10000個(gè)用戶查詢 用戶查詢需求 抽樣標(biāo)注 導(dǎo)航類(lèi)約占30.6%,信息類(lèi)約占69.4% 具有充分的代表性 規(guī)模大: 我們所知最大規(guī)模的信息檢索評(píng)測(cè)查詢集合 覆蓋率高:覆蓋%以上的用戶查詢需求 核心問(wèn)題: 如何提高結(jié)果標(biāo)注的自動(dòng)化程度 利用偽相關(guān)反饋的方法進(jìn)行結(jié)果自動(dòng)標(biāo)注 偽相關(guān)反饋的結(jié)果被認(rèn)為是答案 Soboroff et.

8、al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標(biāo)注的準(zhǔn)確程度和可靠性不高 對(duì)查詢?cè)~的近義詞集合進(jìn)行標(biāo)注 根據(jù)結(jié)果網(wǎng)頁(yè)的查詢?cè)~及近義詞詞頻進(jìn)行評(píng)判 Amitay et.al, 2004 初始標(biāo)注工作量大,評(píng)判的可靠性不高 核心問(wèn)題: 如何提高結(jié)果標(biāo)注的自動(dòng)化程度 利用用戶行為分析方法 Joachims et.al.(1997) 創(chuàng)建了一個(gè)元搜索接口,將不同搜索引擎的結(jié)果加以混雜,把用戶點(diǎn)擊不同結(jié)果的情況加以記錄,并以此作為評(píng)判依據(jù) 用戶行為分析的思路值得肯定 缺點(diǎn):改變用戶檢索習(xí)慣、個(gè)體用戶行為不可靠等 我們的研究思路 通過(guò)對(duì)搜索引擎記錄下的

9、用戶行為日志進(jìn)行分析,不額外增加用戶負(fù)擔(dān)。 使用用戶群體,而不是個(gè)體的點(diǎn)擊行為作為依據(jù) 對(duì)查詢集合結(jié)果進(jìn)行標(biāo)注 個(gè)體用戶可能在點(diǎn)擊過(guò)程中出現(xiàn)謬誤 用戶群體的點(diǎn)擊信息則是很大程度上可靠的 統(tǒng)計(jì)用戶群體的點(diǎn)擊行為,進(jìn)而對(duì)查詢對(duì)應(yīng)的結(jié)果進(jìn)行標(biāo)注 結(jié)果標(biāo)注的可靠性分析 結(jié)果標(biāo)注是否準(zhǔn)確 結(jié)果標(biāo)注是否全面 用戶行為的可靠性分析 對(duì)導(dǎo)航類(lèi)查詢 結(jié)果唯一,不存在“找不全”的問(wèn)題 搜索引擎檢索性能高,點(diǎn)擊準(zhǔn)確度較可靠 能夠發(fā)現(xiàn)用戶的關(guān)注熱點(diǎn),如“163” = “搜狗” = 適合作為搜索性能自動(dòng)評(píng)測(cè)的對(duì)象 用戶行為的可靠性分析 對(duì)信息事務(wù)類(lèi)查詢(以查詢?cè)~”電影”為例) 不同搜索引擎的點(diǎn)擊分布差異大 存在著搜索引

10、擎對(duì)用戶行為的偏置性影響 索引數(shù)據(jù)偏置 檢索策略偏置 結(jié)果不唯一,全面性難以保證 不適合使用單一搜索引擎的日志信息,作為完全自動(dòng)評(píng)測(cè)的對(duì)象00.05123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對(duì)導(dǎo)航類(lèi)查詢的結(jié)果自動(dòng)標(biāo)注 利用單個(gè)搜索引擎的點(diǎn)擊信息即可完成 焦點(diǎn)假設(shè):不同用戶具有相同的導(dǎo)航類(lèi)別檢索需求時(shí),他們的點(diǎn)擊都會(huì)集中在其檢索目標(biāo)網(wǎng)頁(yè)(或其鏡像)上。 網(wǎng)頁(yè)r 針對(duì)查詢q的點(diǎn)擊集中度 q的點(diǎn)擊集中度最高的r即為其檢索目標(biāo)頁(yè)面)

11、(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對(duì)導(dǎo)航類(lèi)查詢的結(jié)果自動(dòng)標(biāo)注 標(biāo)注算法:尋找針對(duì)q的ClickFocus值最大的r 標(biāo)注樣例查詢自動(dòng)標(biāo)注的URL讀寫(xiě)網(wǎng)http:/ 針對(duì)信息事務(wù)類(lèi)查詢需求的答案自動(dòng)標(biāo)注 基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎用戶行為挖掘方式,進(jìn)行各自獨(dú)立的標(biāo)注2. 借鑒Pooling做法,綜合不同標(biāo)注者(這里為搜索引擎用戶的宏觀行為)的意見(jiàn) 需要考慮的因素 用戶點(diǎn)擊行為差異 用戶訪問(wèn)量差異 搜索引擎相對(duì)重要性的差異 基于多搜索引擎用戶行為挖掘的標(biāo)注算法 需要考慮的因素 用戶點(diǎn)擊

12、行為差異 用戶訪問(wèn)量差異 查詢分布差異 搜索引擎相對(duì)重要性的差異 綜合考慮以上因素,計(jì)算某個(gè)結(jié)果對(duì)于某個(gè)查詢的置信度)/(qurlPi 合并計(jì)算結(jié)果url對(duì)于查詢q的置信度 基于單搜索引擎進(jìn)行答案標(biāo)注的可信度 依據(jù)查詢用戶數(shù)來(lái)計(jì)算jjjiiqSEPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨(dú)某個(gè)搜索引擎標(biāo)注答案的可信程度 依據(jù)此搜索引擎的用戶點(diǎn)擊的宏觀集中程度來(lái)確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEin

13、urlclickthatqofSessionsqSEurlCDqSEurlP 查詢點(diǎn)擊分布合并模型其中, 反映不同搜索引擎的在結(jié)果標(biāo)注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSessionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例:查詢“瘋狂英語(yǔ)”BaiduGoogleY/ / //

14、Sogou合并后的答案標(biāo)注結(jié)果合并后的答案標(biāo)注結(jié)果/ / 實(shí)驗(yàn)數(shù)據(jù) Sogou搜索8個(gè)月查詢?nèi)罩?超過(guò)7億條日志信息) 針對(duì)其中高頻導(dǎo)航類(lèi)查詢進(jìn)行自動(dòng)標(biāo)注 對(duì)每個(gè)時(shí)間段抽取約5%的數(shù)據(jù)進(jìn)行手工檢查時(shí)間段時(shí)間段標(biāo)注查詢數(shù)標(biāo)注查詢數(shù)檢驗(yàn)樣例檢驗(yàn)樣例數(shù)數(shù)樣例集合樣例集合準(zhǔn)確度準(zhǔn)確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評(píng)價(jià)結(jié)果類(lèi)似 利用用戶群體行為分析方法

15、進(jìn)行搜索引擎自動(dòng)性能評(píng)價(jià)是可行的 SogouT自動(dòng)標(biāo)注語(yǔ)料庫(kù) 10000個(gè)查詢主題,65465個(gè)標(biāo)注答案 抽樣其中5%的查詢進(jìn)行檢查(500個(gè)) 由兩名標(biāo)注人員手工檢查(1人標(biāo)注,1人檢查)總數(shù)標(biāo)注錯(cuò)誤 標(biāo)注正確正確率信息類(lèi)查詢對(duì)應(yīng)的答案10114296995.85%導(dǎo)航類(lèi)查詢對(duì)應(yīng)的答案3652534093.15% 文本語(yǔ)料庫(kù)構(gòu)建 網(wǎng)頁(yè)抓取 網(wǎng)絡(luò)爬蟲(chóng)種子選取策略 標(biāo)注語(yǔ)料庫(kù)所包含的65465個(gè)網(wǎng)頁(yè) Sogou網(wǎng)絡(luò)爬蟲(chóng)種子集合所包含的網(wǎng)站 防止爬蟲(chóng)黑洞 必要的垃圾網(wǎng)頁(yè)過(guò)濾(黑名單) 必要的低質(zhì)量頁(yè)面、無(wú)內(nèi)容網(wǎng)頁(yè)過(guò)濾(爬蟲(chóng)判斷) 只抓取HTML網(wǎng)頁(yè)內(nèi)容 抓取到約1億網(wǎng)頁(yè)時(shí)停止 文本語(yǔ)料庫(kù)構(gòu)成 1.

16、387億網(wǎng)頁(yè) 存儲(chǔ)空間約5 Terabyte,gzip壓縮后約1.01 Terabyte 鏈接關(guān)系圖 鏈接關(guān)系數(shù)目約33.4億條 存儲(chǔ)空間約24 Gigabyte (gzip壓縮) 網(wǎng)頁(yè)質(zhì)量評(píng)估數(shù)據(jù) 所有網(wǎng)頁(yè)對(duì)應(yīng)的SogouRank值(site-based PageRank) SogouT語(yǔ)料獲取 文本語(yǔ)料:http:/ 7z壓縮后約500G,硬盤(pán)方式發(fā)布,需交納硬盤(pán)成本費(fèi)約500元。 鏈接關(guān)系:http:/ 與文本語(yǔ)料共同發(fā)布 查詢語(yǔ)料與標(biāo)注語(yǔ)料 訓(xùn)練集:http:/ 500個(gè)經(jīng)過(guò)手工檢驗(yàn)的查詢及對(duì)應(yīng)答案 更大規(guī)模的查詢與標(biāo)注語(yǔ)料如何獲取? “搜索儀”在線評(píng)測(cè)系統(tǒng) http:/searchE

17、 2008年11月底左右推出 SogouE1:500個(gè)查詢對(duì)應(yīng)的標(biāo)注語(yǔ)料 SogouE2:3000個(gè)查詢對(duì)應(yīng)的標(biāo)注語(yǔ)料 SogouE3:6500個(gè)查詢對(duì)應(yīng)的標(biāo)注語(yǔ)料 “搜索儀”在線評(píng)測(cè)系統(tǒng) 用戶注冊(cè)后,即可獲取SogouE1 SogouE3對(duì)應(yīng)的查詢語(yǔ)料(只有SogouE1對(duì)應(yīng)的標(biāo)注語(yǔ)料) 用戶根據(jù)SogouE1對(duì)檢索系統(tǒng)進(jìn)行訓(xùn)練,并改進(jìn)系統(tǒng)設(shè)計(jì)與算法 用戶隨時(shí)提交對(duì)查詢語(yǔ)料進(jìn)行檢索得到的檢索結(jié)果,并獲得根據(jù)SogouE2即時(shí)反饋的檢索評(píng)價(jià) 搜索儀網(wǎng)站根據(jù)評(píng)價(jià)結(jié)果對(duì)用戶系統(tǒng)進(jìn)行排名并隨時(shí)公布、更新。 “搜索儀”在線評(píng)測(cè)系統(tǒng) 定期召開(kāi)的信息檢索與內(nèi)容安全全國(guó)會(huì)議(NCIRCS)上,組織專(zhuān)門(mén)的評(píng)測(cè)論壇 使用SogouE3對(duì)用戶提交的結(jié)果進(jìn)行進(jìn)一步驗(yàn)證 邀請(qǐng)系統(tǒng)性能領(lǐng)先的研究人員進(jìn)行交流 Http:/searchE Http:/searchE 主要特點(diǎn) 客觀真實(shí)反映搜索引擎總體性能 近似即時(shí)反饋 查詢語(yǔ)料規(guī)模大,且隨用戶關(guān)注情況更新,反映熱點(diǎn) 功能演示!搜狗實(shí)驗(yàn)室網(wǎng)站:http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Au

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論