《華南木棉信息檢索》PPT課件_第1頁(yè)
《華南木棉信息檢索》PPT課件_第2頁(yè)
《華南木棉信息檢索》PPT課件_第3頁(yè)
《華南木棉信息檢索》PPT課件_第4頁(yè)
《華南木棉信息檢索》PPT課件_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、全國(guó)搜索引擎與網(wǎng)上信息學(xué)術(shù)研討會(huì) SEWM 2006-中文Web檢索,華南木棉信息檢索,木棉檢索隊(duì):張?jiān)S,陳曉志,陳曉鋒 http:/,2,目錄,木棉搜索引擎現(xiàn)狀 數(shù)據(jù)格式轉(zhuǎn)換 關(guān)鍵技術(shù)介紹 結(jié)果提交 分析與展望,3,木棉搜索引擎現(xiàn)狀,基于Nutch的實(shí)現(xiàn); 對(duì)URL、Title、Anchor、Content進(jìn)行索引; PageRank算法的應(yīng)用; 中文分詞; 基于集群系統(tǒng)的并行化搜索引擎,4,木棉搜索引擎現(xiàn)狀,網(wǎng) 頁(yè) 預(yù) 處 理,中 文 分 詞,鏈 接 分 析,文檔庫(kù),索引庫(kù),噪音模板庫(kù),鏈接庫(kù),綜合采用多種去噪算法,噪音的去除,可以減少索引量,可以避免噪音對(duì)檢索結(jié)果的影響,對(duì)站內(nèi)站外鏈接

2、賦予不同的權(quán)重,保留錨點(diǎn)文本信息,鏈入錨點(diǎn)文本 網(wǎng)頁(yè)url 網(wǎng)頁(yè)標(biāo)題 網(wǎng)頁(yè)主題內(nèi)容 鏈出錨點(diǎn)文本,基于詞頻的中文分詞,Google pagerank算法 簡(jiǎn)單pagerank算法,5,木棉搜索引擎現(xiàn)狀,用戶輸入查詢?cè)~,索引庫(kù),二次排序,結(jié)果,6,目錄,木棉搜索引擎現(xiàn)狀 數(shù)據(jù)格式轉(zhuǎn)換 關(guān)鍵技術(shù)介紹 結(jié)果提交 分析與展望,7,數(shù)據(jù)格式轉(zhuǎn)換,8,數(shù)據(jù)格式轉(zhuǎn)換,將3700萬(wàn)網(wǎng)頁(yè)分成70個(gè)part進(jìn)行處理 對(duì)每個(gè)part建立Web DB 合并所有的Web DB 用完整的Web DB更新每一個(gè)part的數(shù)據(jù) 對(duì)每個(gè)part分別建立索引 合并索引,9,目錄,木棉搜索引擎現(xiàn)狀 數(shù)據(jù)格式轉(zhuǎn)換 關(guān)鍵技術(shù)介紹 結(jié)果

3、提交 分析與展望,10,關(guān)鍵技術(shù)介紹,TD 搜索相關(guān)主題的文章,主要查找入口頁(yè)面。 NPHP 查找首頁(yè)或者指定頁(yè)面,11,關(guān)鍵技術(shù)介紹,TD 擴(kuò)展查詢 利用Description對(duì)查詢?cè)~進(jìn)行擴(kuò)展,比如: Number:TD146 股票分析 Description:股票分析的網(wǎng)站,專家評(píng)論,論壇和軟件 擴(kuò)展后為:股票分析、股票論壇、股票評(píng)論、股票軟件; 用擴(kuò)展后的查詢?cè)~搜索,每個(gè)查詢?cè)~均返回300條結(jié)果; 合并擴(kuò)展查詢結(jié)果,12,關(guān)鍵技術(shù)介紹,TD 二次查詢優(yōu)化 截取每個(gè)查詢結(jié)果的前200條結(jié)果; 對(duì)這200條結(jié)果進(jìn)行站內(nèi)聚合,并將每個(gè)網(wǎng)站內(nèi)的ROOT、SUBROOT、url深度小于3的PATH

4、的url提前; 對(duì)所有被提前的網(wǎng)頁(yè)按照得分排序,并盡量保證前十條出現(xiàn)不同網(wǎng)站的url,將這些網(wǎng)頁(yè)放在結(jié)果集的前面; 對(duì)其他網(wǎng)頁(yè)按照得分進(jìn)行排序,順序排列在得到的結(jié)果之后,13,關(guān)鍵技術(shù)介紹,NPHP 對(duì)于所給的查詢集,我們根據(jù)查詢?cè)~很容易就可以分辨出該查詢的意圖:HP or NP。我們手工對(duì)查詢?cè)~進(jìn)行判斷(RANK4 和 RANK5沒(méi)有這一步驟),添加H(homepage)或N(namepage)標(biāo)記。這一步驟主要是查詢優(yōu)化時(shí)使用; 在索引庫(kù)中查詢,并返回200條搜索結(jié)果; 對(duì)搜索結(jié)果進(jìn)行二次排序。算法主要是基于華南理工大學(xué)胡俊剛等的基于URL類型優(yōu)先級(jí)入口頁(yè)面查詢算法。同時(shí)判斷查詢?cè)~的H標(biāo)記

5、或者N標(biāo)記,把結(jié)果中的主頁(yè)提取到前面(H)或放到后面(N,14,關(guān)鍵技術(shù)介紹,Page Rank Google Page Rank 在要求不高的情況下,迭代計(jì)算5次即可。 簡(jiǎn)單 Page Rank 可以反映網(wǎng)頁(yè)的重要程度,15,目錄,木棉搜索引擎現(xiàn)狀 數(shù)據(jù)格式轉(zhuǎn)換 關(guān)鍵技術(shù)介紹 結(jié)果提交 分析與展望,16,結(jié)果提交,CWT200gTD,17,結(jié)果提交,CWT200gNPHP,18,結(jié)果提交,CWT20gTD,19,結(jié)果提交,CWT20gNPHP,20,目錄,木棉搜索引擎現(xiàn)狀 數(shù)據(jù)格式轉(zhuǎn)換 關(guān)鍵技術(shù)介紹 結(jié)果提交 分析與展望,21,分析與展望,對(duì)網(wǎng)頁(yè)各組成部分進(jìn)行索引并賦予不同的權(quán)重可以提高檢索精度; NPHP查詢結(jié)果好;TD查詢?cè)谝恍┣闆r下不能很好的將用戶引導(dǎo)到最有價(jià)值的頁(yè)面; 人工標(biāo)記和二次排序?qū)μ岣邫z索準(zhǔn)確率有很大的幫助; 查詢響應(yīng)時(shí)間相對(duì)較長(zhǎng)(平均23s,22,分析與展望,TD查詢時(shí),采用合理的輔

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論