




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、搜索引擎的信息覆蓋率評測模型研究孟濤 09808049指導教師:李曉明教授2002年6月1引言互聯(lián)網(wǎng)信息資源數(shù)量的指數(shù)級增長、網(wǎng)絡信息博物館對網(wǎng)頁資源的要求需要一套有效的辦法評測搜集系統(tǒng)的搜集性能,本文的工作由此展開234網(wǎng)頁搜集的不完全性WWW有向圖結構結構本身所致(入度為0或不存在路徑)優(yōu)先排序、搜集系統(tǒng)資源所限導致不斷出現(xiàn)的新網(wǎng)頁無法搜集5三類重要的信息覆蓋率數(shù)量覆蓋率質(zhì)量覆蓋率可視信息覆蓋率6模型建立覆蓋率=搜集網(wǎng)頁數(shù)/實際WWW網(wǎng)頁數(shù)覆蓋率=樣本覆蓋數(shù)/樣本容量模型圖示7數(shù)量覆蓋率:隨機IP法8模型修正與誤差分析結果:5.72%缺點:無法區(qū)別該IP地址的網(wǎng)站大小,存在大量的無效IP地
2、址改進方法:利用鏈接關系作鏈接擴展,減小上述的不利影響修正結果:23.5%9數(shù)量覆蓋率:廣度優(yōu)先法10試驗結果與誤差分析局部角度,利用網(wǎng)頁間鏈接關系結果:選取5組樣本求覆蓋率均值41.6%誤差修正:大約10%的網(wǎng)頁無法通過鏈接到達,對結果乘以90%處理得37.4%11誤差修正原理12網(wǎng)頁重要性評價因素網(wǎng)頁URL屬性:域名長短,目錄深度網(wǎng)頁作為有向圖的節(jié)點:鏈接表示著認可度的傳遞,通常入度越大越重要網(wǎng)頁本身的內(nèi)容:與查詢用戶寬主題查詢詞的匹配程度13兩類重要的權值算法之一:PageRank學術論文引用統(tǒng)計原理在WWW上的擴展PR(A)= 14兩類重要的權值算法之二:HITS(Hyperlink-
3、Induced Topic Search )權威型權值目錄型權值A(p)= H(p)=15質(zhì)量覆蓋率:廣度優(yōu)先法PageRank算法需要與WWW相近的鏈接結構,采用廣度優(yōu)先遍歷取樣初始樣本對得到的數(shù)十萬網(wǎng)頁用PageRank算法計算權值,得到前面約5%的網(wǎng)頁作為重要網(wǎng)頁樣本選取5組樣本,計算均值得到結果為47%對其中的兩組樣本,改變重要性標準(百分比),分析覆蓋率的變化情況(5%平緩)16圖示17質(zhì)量覆蓋率:主題查詢法遞交若干查詢詞給搜索引擎,返回的結果集,進行鏈接擴展(目的)用HITS算法分別計算目錄型權值和權威型權值在前列的網(wǎng)頁集合作為樣本八組查詢詞得樣本均值:42.9%和53%18模型修
4、正與誤差分析缺點:對所有的鏈接一視同仁改進方法:考察導向詞與查詢詞的匹配度,實現(xiàn)擴展HITS算法修正結果:46.2%和50.3%19兩類質(zhì)量覆蓋率評測方法評價兩種評測方法的結果很好的吻合它們分別從客觀與主觀的角度著手證明此評測模型是有效的得到WebInfoMall有效信息覆蓋率數(shù)據(jù)20我的主要工作(1)實現(xiàn)通過HTTP1.0協(xié)議抓取網(wǎng)頁實現(xiàn)從網(wǎng)頁中提取所有的URL鏈接實現(xiàn)隨機IP產(chǎn)生器,IP掃描器實現(xiàn)反向域名兩級解析(DNS、DB)21我的主要工作(2)實現(xiàn)PageRank算法實現(xiàn)HITS算法旨在改進天網(wǎng)系統(tǒng)的網(wǎng)頁權值排序問題22我的主要工作(3)實現(xiàn)多播程序?qū)ebinfomall服務器群驗證URL是否已被覆蓋實現(xiàn)“多生產(chǎn)者多消費者”的多進程運行模型進行巨量Web信息處理23總結提出了質(zhì)量覆蓋率概念,建立了一個有效的網(wǎng)絡信息質(zhì)量覆蓋率評測模型依據(jù)該模型,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 度森林資源使用權轉(zhuǎn)讓合同
- 裝修工程勞動合同合同樣本
- 區(qū)域合作分銷合同協(xié)議
- 合同履行完畢確認聲明書
- 黃山風景區(qū)國內(nèi)旅游合同
- 私人借款合同樣本及還款細則
- 境外就業(yè)派遣合同
- 商業(yè)綜合體停車位租賃合同范本
- 商標糾紛和解合同細則
- 木材加工企業(yè)的品牌形象宣傳與公關活動考核試卷
- 罪犯教育學課程
- 紀檢監(jiān)察辦案談話應注意的問題研討
- 超實用工程結算單excel模板
- 一年級小學生新學期開學計劃
- ISO9001-2015質(zhì)量手冊和全套程序文件
- 醫(yī)療器械產(chǎn)品放行程序
- 07j306排水溝圖集標準
- 裝飾材料復試清單
- GB/T 10089-1988圓柱蝸桿、蝸輪精度
- 國際商法 吳建斌課件 思考題答案
- 高等儀器分析第1章-緒論課件
評論
0/150
提交評論