下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)摘要:隨著信息的不斷膨脹,人們?cè)絹碓诫x不開搜索引擎。通用搜索引擎如百度、Google給人們提供了很多便利,得到了極大的流行。但是隨著人們需求的多樣化,和對(duì)搜索結(jié)果質(zhì)量的要求越來越高,通用搜索引擎在一些專門化的領(lǐng)域己經(jīng)不能滿足人們的要求,于是垂直搜索引擎就應(yīng)運(yùn)而生。盡管垂直搜索引擎很多技術(shù)與通用搜索引擎很類似,但是還是有很多自己獨(dú)特的技術(shù),和一些新的需要解決的問題,URL爬蟲就是其中的一個(gè)重點(diǎn)需要解決的問題。關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲,URL提取目錄第一章關(guān)于web檢索URL相關(guān)問題1.1知識(shí)背景研究意義1.3國內(nèi)外發(fā)展概況本章小結(jié)第二章知識(shí)背景2.1經(jīng)濟(jì)可行性2.2技術(shù)可行性2.3操作可行性2.4法律可行性本章小結(jié)第三章總體設(shè)計(jì)3.1系統(tǒng)設(shè)計(jì)原理3.1.1系統(tǒng)功能設(shè)計(jì)配上類與類之間的UML圖3.2數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì)規(guī)則數(shù)據(jù)庫概念結(jié)構(gòu)3.2.4數(shù)據(jù)庫實(shí)體關(guān)系模型還有實(shí)體關(guān)系圖(ER圖)3.2.4數(shù)據(jù)庫邏輯結(jié)構(gòu)詳細(xì)設(shè)計(jì)3.3.1URL的提取第四章具體實(shí)現(xiàn)系統(tǒng)實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)原理4.2功能模塊設(shè)計(jì)本章小結(jié)第五章評(píng)價(jià)自己的畢業(yè)設(shè)計(jì)實(shí)現(xiàn)的目標(biāo)5.2學(xué)到了哪些東西如果還有時(shí)間設(shè)計(jì),今后你會(huì)添加哪些功能第六章關(guān)于軟件測(cè)試6.1軟件測(cè)試的目的和意義6.2軟件測(cè)試的步驟軟件測(cè)試的具體實(shí)現(xiàn)6.4軟件測(cè)試結(jié)論6.5評(píng)價(jià)本章小結(jié)總結(jié)謝辭參考文獻(xiàn)附錄功能模塊1、網(wǎng)絡(luò)爬蟲模塊網(wǎng)絡(luò)爬蟲實(shí)際上是一個(gè)基于web的程序。它從一個(gè)初始的網(wǎng)頁集出發(fā),遍歷Internet自動(dòng)的采集網(wǎng)絡(luò)信息。當(dāng)爬蟲打開某個(gè)HTML頁面后,它會(huì)分析HTML標(biāo)記結(jié)構(gòu)來獲取信息,并獲取指向其它頁面的超級(jí)鏈接,然后通過既定的搜索策略選擇下一個(gè)要訪問的站點(diǎn)。從理論上講,如果為Spider指定個(gè)適當(dāng)?shù)某跏嘉臋n集和個(gè)適當(dāng)?shù)木W(wǎng)絡(luò)搜索策略,它就可以遍歷整個(gè)網(wǎng)絡(luò)。它的性能在很大程度上影響了搜索引擎站點(diǎn)的規(guī)模。2、索引模塊網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁上的信息以固定的格式獲取到本地后,索引建立程序?qū)π畔⑦M(jìn)行分析,針對(duì)頁面中出現(xiàn)的關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu),即索引,以供搜索引擎使用。搜索引擎在選擇索引數(shù)據(jù)結(jié)構(gòu)時(shí)通??紤]兩個(gè)因素:緊湊的數(shù)據(jù)結(jié)構(gòu)和高效的檢索能力。由于搜索引擎在建立索引的時(shí)候是面對(duì)海量的信息,因此在考慮記錄大小時(shí)要具體到字節(jié)中的位,這樣才能達(dá)到一種比較合理科學(xué)性的空間膨脹比。合理的數(shù)據(jù)結(jié)構(gòu)將使對(duì)關(guān)鍵詞的檢索更加迅速。通常有三種索引的建立基本技術(shù):倒排文件、后綴數(shù)組和簽名文件。倒排文件在當(dāng)前大多數(shù)信息獲取系統(tǒng)中得到應(yīng)用,它對(duì)于關(guān)鍵詞的搜索非常有效。后綴數(shù)組在短語查詢中具有較快的速度,但是該結(jié)構(gòu)在維護(hù)上相對(duì)比較麻煩。簽名文檔如今已被倒排索引技術(shù)替代。處理網(wǎng)頁的過程主要包括這幾部分:文檔特征向量提取、網(wǎng)頁篩選、相關(guān)度分析、文檔分類和入庫操作。以下是部分界面圖,如圖片不清,請(qǐng)直接點(diǎn)擊圖片,如需要看更詳細(xì)的資料,請(qǐng)直接聯(lián)系客服!用戶交互程序墾vpg-www.bysjhomexom用戶卍搜索般務(wù)器屮圖1(雙擊并最大化圖片,可看清晰圖片)那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii丁 ] |IW就]三UFunflEc-n*Li.list^oorJs-匕,二■舒 Mii.ni.fla.aa*T:i“圖2(雙擊并最大化圖片,可看清晰圖片)則計(jì)T此是善九吟.站“r義取地點(diǎn)叩卍詞為域龍之JT-字風(fēng)畢設(shè)矽www.bysjhom?Tconi■■卜—略1iJlIY叩Im為序威名熬合判is記丁人陽.堆若為啟斥了字戦牛睜?臣ia下t曰盤
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品研發(fā)與技術(shù)轉(zhuǎn)移制度
- 第2課《臘八粥》第一課時(shí)(教學(xué)設(shè)計(jì))-【上好課】六年級(jí)語文下冊(cè)部編版
- 2024年陜西客運(yùn)技能鑒定題庫
- 算法設(shè)計(jì)與分析 課件 4.7-分治法 - 典型應(yīng)用 - 歸并排序
- 2024年葫蘆島道路旅客運(yùn)輸考卷
- 2024年嘉峪關(guān)客運(yùn)資格證考試題庫下載
- 2024年玉林客運(yùn)從業(yè)資格證考試網(wǎng)
- 2024年安徽客運(yùn)資格證應(yīng)用能力考試題答案
- 2024年上饒a1客運(yùn)資格證
- 吉首大學(xué)《工程荷載與可靠度設(shè)計(jì)原理》2021-2022學(xué)年第一學(xué)期期末試卷
- 工會(huì)法人變更登記申請(qǐng)表
- 2019新人教必修1unit2Travelling-Around整單元完整教案
- 大學(xué)生辯論賽評(píng)分標(biāo)準(zhǔn)表
- 《藥品生物檢定技術(shù)》說課 課件
- 名著導(dǎo)讀《紅星照耀中國》知識(shí)點(diǎn)梳理
- 安全培訓(xùn)資料:燃?xì)獾男再|(zhì)
- 江蘇開放大學(xué)2023年秋《馬克思主義基本原理 060111》形成性考核作業(yè)2-實(shí)踐性環(huán)節(jié)(占過程性考核成績(jī)的30%)參考答案
- 設(shè)備試機(jī)(驗(yàn)收)報(bào)告
- 石材廠設(shè)計(jì)方案范本
- 租賃機(jī)械設(shè)備施工方案
- GB/T 43153-2023居家養(yǎng)老上門服務(wù)基本規(guī)范
評(píng)論
0/150
提交評(píng)論