網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第1頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第2頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第3頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第4頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)摘要:隨著信息的不斷膨脹,人們?cè)絹碓诫x不開搜索引擎。通用搜索引擎如百度、Google給人們提供了很多便利,得到了極大的流行。但是隨著人們需求的多樣化,和對(duì)搜索結(jié)果質(zhì)量的要求越來越高,通用搜索引擎在一些專門化的領(lǐng)域己經(jīng)不能滿足人們的要求,于是垂直搜索引擎就應(yīng)運(yùn)而生。盡管垂直搜索引擎很多技術(shù)與通用搜索引擎很類似,但是還是有很多自己獨(dú)特的技術(shù),和一些新的需要解決的問題,URL爬蟲就是其中的一個(gè)重點(diǎn)需要解決的問題。關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲,URL提取目錄第一章關(guān)于web檢索URL相關(guān)問題1.1知識(shí)背景研究意義1.3國內(nèi)外發(fā)展概況本章小結(jié)第二章知識(shí)背景2.1經(jīng)濟(jì)可行性2.2技術(shù)可行性2.3操作可行性2.4法律可行性本章小結(jié)第三章總體設(shè)計(jì)3.1系統(tǒng)設(shè)計(jì)原理3.1.1系統(tǒng)功能設(shè)計(jì)配上類與類之間的UML圖3.2數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì)規(guī)則數(shù)據(jù)庫概念結(jié)構(gòu)3.2.4數(shù)據(jù)庫實(shí)體關(guān)系模型還有實(shí)體關(guān)系圖(ER圖)3.2.4數(shù)據(jù)庫邏輯結(jié)構(gòu)詳細(xì)設(shè)計(jì)3.3.1URL的提取第四章具體實(shí)現(xiàn)系統(tǒng)實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)原理4.2功能模塊設(shè)計(jì)本章小結(jié)第五章評(píng)價(jià)自己的畢業(yè)設(shè)計(jì)實(shí)現(xiàn)的目標(biāo)5.2學(xué)到了哪些東西如果還有時(shí)間設(shè)計(jì),今后你會(huì)添加哪些功能第六章關(guān)于軟件測(cè)試6.1軟件測(cè)試的目的和意義6.2軟件測(cè)試的步驟軟件測(cè)試的具體實(shí)現(xiàn)6.4軟件測(cè)試結(jié)論6.5評(píng)價(jià)本章小結(jié)總結(jié)謝辭參考文獻(xiàn)附錄功能模塊1、網(wǎng)絡(luò)爬蟲模塊網(wǎng)絡(luò)爬蟲實(shí)際上是一個(gè)基于web的程序。它從一個(gè)初始的網(wǎng)頁集出發(fā),遍歷Internet自動(dòng)的采集網(wǎng)絡(luò)信息。當(dāng)爬蟲打開某個(gè)HTML頁面后,它會(huì)分析HTML標(biāo)記結(jié)構(gòu)來獲取信息,并獲取指向其它頁面的超級(jí)鏈接,然后通過既定的搜索策略選擇下一個(gè)要訪問的站點(diǎn)。從理論上講,如果為Spider指定個(gè)適當(dāng)?shù)某跏嘉臋n集和個(gè)適當(dāng)?shù)木W(wǎng)絡(luò)搜索策略,它就可以遍歷整個(gè)網(wǎng)絡(luò)。它的性能在很大程度上影響了搜索引擎站點(diǎn)的規(guī)模。2、索引模塊網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁上的信息以固定的格式獲取到本地后,索引建立程序?qū)π畔⑦M(jìn)行分析,針對(duì)頁面中出現(xiàn)的關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu),即索引,以供搜索引擎使用。搜索引擎在選擇索引數(shù)據(jù)結(jié)構(gòu)時(shí)通??紤]兩個(gè)因素:緊湊的數(shù)據(jù)結(jié)構(gòu)和高效的檢索能力。由于搜索引擎在建立索引的時(shí)候是面對(duì)海量的信息,因此在考慮記錄大小時(shí)要具體到字節(jié)中的位,這樣才能達(dá)到一種比較合理科學(xué)性的空間膨脹比。合理的數(shù)據(jù)結(jié)構(gòu)將使對(duì)關(guān)鍵詞的檢索更加迅速。通常有三種索引的建立基本技術(shù):倒排文件、后綴數(shù)組和簽名文件。倒排文件在當(dāng)前大多數(shù)信息獲取系統(tǒng)中得到應(yīng)用,它對(duì)于關(guān)鍵詞的搜索非常有效。后綴數(shù)組在短語查詢中具有較快的速度,但是該結(jié)構(gòu)在維護(hù)上相對(duì)比較麻煩。簽名文檔如今已被倒排索引技術(shù)替代。處理網(wǎng)頁的過程主要包括這幾部分:文檔特征向量提取、網(wǎng)頁篩選、相關(guān)度分析、文檔分類和入庫操作。以下是部分界面圖,如圖片不清,請(qǐng)直接點(diǎn)擊圖片,如需要看更詳細(xì)的資料,請(qǐng)直接聯(lián)系客服!用戶交互程序墾vpg-www.bysjhomexom用戶卍搜索般務(wù)器屮圖1(雙擊并最大化圖片,可看清晰圖片)那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii丁 ] |IW就]三UFunflEc-n*Li.list^oorJs-匕,二■舒 Mii.ni.fla.aa*T:i“圖2(雙擊并最大化圖片,可看清晰圖片)則計(jì)T此是善九吟.站“r義取地點(diǎn)叩卍詞為域龍之JT-字風(fēng)畢設(shè)矽www.bysjhom?Tconi■■卜—略1iJlIY叩Im為序威名熬合判is記丁人陽.堆若為啟斥了字戦牛睜?臣ia下t曰盤

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論