網(wǎng)絡(luò)爬蟲-詳細(xì)解讀_第1頁
網(wǎng)絡(luò)爬蟲-詳細(xì)解讀_第2頁
網(wǎng)絡(luò)爬蟲-詳細(xì)解讀_第3頁
網(wǎng)絡(luò)爬蟲-詳細(xì)解讀_第4頁
網(wǎng)絡(luò)爬蟲-詳細(xì)解讀_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)爬蟲-詳細(xì)解讀

網(wǎng)絡(luò)爬蟲(重定向自網(wǎng)絡(luò)蜘蛛)目錄1什么是網(wǎng)絡(luò)爬蟲2網(wǎng)絡(luò)爬蟲的分類及工作原理[1]3網(wǎng)絡(luò)爬蟲的搜索策略[2]4Reference什么是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲又名“網(wǎng)絡(luò)蜘蛛”,是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到按照某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取完為止的技術(shù)。網(wǎng)絡(luò)爬蟲的分類及工作原理[1]網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)、主題網(wǎng)絡(luò)爬蟲(TopicalWebCrawler)、深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)。實(shí)際應(yīng)用中通常是將系統(tǒng)幾種爬蟲技術(shù)相互結(jié)合。(一)通用網(wǎng)絡(luò)爬蟲(generalpurposewebcrawler)通用網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL開始,以此獲得初始網(wǎng)頁上的URL列表,在爬行過程中不斷從URL隊(duì)列中獲一個(gè)的URL,進(jìn)而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標(biāo)記后得到頁面內(nèi)容,將Summary、URL等信息保存到Web數(shù)據(jù)庫中,同時(shí)抽取當(dāng)前頁面上新的URL,保存到URL隊(duì)列,直到滿足系統(tǒng)停止條件。其工作流程如圖1所示。通用爬蟲主要存在以下幾方面的局限性:1)由于抓取目標(biāo)是盡可能大的覆蓋網(wǎng)絡(luò),所以爬行的結(jié)果中包含大量用戶不需要的網(wǎng)頁;2)不能很好地搜索和獲取信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù);3)通用搜索引擎大多是基于關(guān)鍵字的檢索,對于支持語義信息的查詢和索引擎智能化的要求難以實(shí)現(xiàn)。由此可見,通用爬蟲想在爬行網(wǎng)頁時(shí),既保證網(wǎng)頁的質(zhì)量和數(shù)量,又要保證網(wǎng)頁的時(shí)效性是很難實(shí)現(xiàn)的。(二)主題網(wǎng)絡(luò)爬蟲(TopicalWebCrawler)1.主題爬蟲原理主題爬蟲并不追求大的覆蓋率,也不是全盤接受所有的網(wǎng)頁和URL,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息,不僅客服了通用爬蟲存在的問題,而H-返回的數(shù)據(jù)資源更精確。主題爬蟲的基本工作原理是按照預(yù)先確定的主題,分析超鏈接和剛剛抓取的網(wǎng)頁內(nèi)容,獲取下一個(gè)要爬行的URL,盡可能保證多爬行與主題相關(guān)的網(wǎng)頁,因此主題爬蟲要解決以下關(guān)鍵問題:1)如何判定一個(gè)已經(jīng)抓取的網(wǎng)頁是否與主題相關(guān);2)如何過濾掉海量的網(wǎng)頁中與主題不相關(guān)的或者相關(guān)度較低的網(wǎng)頁;3)如何有目的、有控制的抓取與特定主題相關(guān)的web頁面信息;4)如何決定待訪問URL的訪問次序;5)如何提高主題爬蟲的覆蓋度;6)如何協(xié)調(diào)抓取目標(biāo)的描述或定義與網(wǎng)頁分析算法及候選URL排序算法之問的關(guān)系;7)如何尋找和發(fā)現(xiàn)高質(zhì)量網(wǎng)頁和關(guān)鍵資源。高質(zhì)量網(wǎng)頁和關(guān)鍵資源不僅可以大大提高主題爬蟲搜集Web頁面的效率和質(zhì)量,還可以為主題表示模型的優(yōu)化等應(yīng)用提供支持。2.主題爬蟲模塊設(shè)計(jì)主題爬蟲的目標(biāo)是盡可能多的發(fā)現(xiàn)和搜集與預(yù)定主題相關(guān)的網(wǎng)頁,其最大特點(diǎn)在于具備分析網(wǎng)頁內(nèi)容和判別主題相關(guān)度的能力。根據(jù)主題爬蟲的工作原理,下面設(shè)計(jì)了一個(gè)主題爬蟲系統(tǒng),主要有頁面采集模塊、頁面分析模塊、相關(guān)度計(jì)算模塊、頁面過濾模塊和鏈接排序模塊幾部分組成,其總體功能模塊結(jié)構(gòu)如圖2所示。頁面采集模塊:主要是根據(jù)待訪問URL隊(duì)列進(jìn)行頁面下載,再交給網(wǎng)頁分析模型處理以抽取網(wǎng)頁主題向量空間模型。該模塊是任何爬蟲系統(tǒng)都必不可少的模塊。頁面分析模塊:該模塊的功能是對采集到的頁面進(jìn)行分析,主要用于連接超鏈接排序模塊和頁面相關(guān)度計(jì)算模塊。頁面相關(guān)度計(jì)算模塊:該模塊是整個(gè)系統(tǒng)的核心模塊,主要用于評估與主題的相關(guān)度,并提供相關(guān)的爬行策略用以指導(dǎo)爬蟲的爬行過程。URL的超鏈接評價(jià)得分越高,爬行的優(yōu)先級就越高。其主要思想是,在系統(tǒng)爬行之前,頁面相關(guān)度計(jì)算模塊根據(jù)用戶輸入的關(guān)鍵字和初始文本信息進(jìn)行學(xué)習(xí),訓(xùn)練一個(gè)頁面相關(guān)度評價(jià)模型。當(dāng)一個(gè)被認(rèn)為是主題相關(guān)的頁面爬行下來之后,該頁面就被送入頁面相關(guān)度評價(jià)器計(jì)算其主題相關(guān)度值,若該值大于或等于給定的某閡值,則該頁面就被存入頁面庫,否則丟棄¨。頁面過濾模塊:過濾掉與主題無關(guān)的鏈接,同時(shí)將該URL及其所有隱含的子鏈接一并去除。通過過濾,爬蟲就無需遍歷與主題不相關(guān)的頁面,從而保證了爬行效率。排序模塊:將過濾后頁面按照優(yōu)先級高低加入到待訪問的URL隊(duì)列里。3.主題爬蟲流程設(shè)計(jì)主題爬蟲需要根據(jù)一定的網(wǎng)頁分析算法,過濾掉與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它會(huì)根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL,并重復(fù)上述過程,直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁都會(huì)被系統(tǒng)存儲(chǔ),經(jīng)過一定的分析、過濾,然后建立索引,以便用戶查詢和檢索;這一過程所得到的分析結(jié)果可以對以后的抓取過程提供反饋和指導(dǎo)。其工作流程如圖3所示。4.深度網(wǎng)絡(luò)爬蟲(DeepWebCrawler)1994年Dr.jillEllsworth提出DeepWeb(深層頁面)的概念,即DeepWeb是指普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容的Web頁面¨。DeepWeb中的信息量比普通的網(wǎng)頁信息量多,而且質(zhì)量更高。但是普通的搜索引擎由于技術(shù)限制而搜集不到這些高質(zhì)量、高權(quán)威的信息。這些信息通常隱藏在深度Web頁面的大型動(dòng)態(tài)數(shù)據(jù)庫中,涉及數(shù)據(jù)集成、中文語義識別等諸多領(lǐng)域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取,將是巨大的損失。因此,對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現(xiàn)實(shí)意義和理論價(jià)值。常規(guī)的網(wǎng)絡(luò)爬蟲在運(yùn)行中無法發(fā)現(xiàn)隱藏在普通網(wǎng)頁中的信息和規(guī)律,缺乏一定的主動(dòng)性和智能性。比如需要輸入用戶名和密碼的頁面,或者包含頁碼導(dǎo)航的頁面均無法爬行。深度爬蟲的設(shè)計(jì)針對常規(guī)網(wǎng)絡(luò)爬蟲的這些不足,將其結(jié)構(gòu)做以改進(jìn),增加了表單分析和頁面狀態(tài)保持兩個(gè)部分,其結(jié)構(gòu)如圖4所示,通過分析網(wǎng)頁的結(jié)構(gòu)并將其歸類為普通網(wǎng)頁或存在更多信息的深度網(wǎng)頁,針對深度網(wǎng)頁構(gòu)造合適的表單參數(shù)并且提交,以得到更多的頁面。深度爬蟲的流程圖如圖4所示。深度爬蟲與常規(guī)爬蟲的不同是,深度爬蟲在下載完成頁面之后并沒有立即遍歷其中的所有超鏈接,而是使用一定的算法將其進(jìn)行分類,對于不同的類別采取不同的方法計(jì)算查詢參數(shù),并將參數(shù)再次提交到服務(wù)器。如果提交的查詢參數(shù)正確,那么將會(huì)得到隱藏的頁面和鏈接。深度爬蟲的目標(biāo)是盡可能多地訪問和收集互聯(lián)網(wǎng)上的網(wǎng)頁,由于深度頁面是通過提交表單的方式訪問,因此爬行深度頁面存在以下三個(gè)方面的困難:1)深度爬蟲需要有高效的算法去應(yīng)對數(shù)量巨大的深層頁面數(shù)據(jù);2)很多服務(wù)器端DeepWeb要求校驗(yàn)表單輸入,如用戶名、密碼、校驗(yàn)碼等,如果校驗(yàn)失敗,將不能爬到DeepWeb數(shù)據(jù);3)需要JavaScript等腳本支持分析客戶端DeepWeb。網(wǎng)絡(luò)爬蟲的搜索策略[2](1)IP地址搜索策略IP地址搜索策略是先給爬蟲一個(gè)起始的IP地址,然后根據(jù)IP地址以遞增的方式搜索本IP地址段后的每一個(gè)地址中的文檔,它完全不考慮各文檔中指向其它Web站點(diǎn)的超級鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面,因此能夠發(fā)現(xiàn)那些沒被其它文檔引用的新文檔的信息源;但是缺點(diǎn)是不適合大規(guī)模搜索。(2)深度優(yōu)先搜索策略深度優(yōu)先搜索是一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)(即那些不包含任何超鏈的HTML文件)。例如,在一個(gè)HTML文件中,當(dāng)一個(gè)超鏈被選擇后,被鏈接的HTML文件將執(zhí)行深度優(yōu)先搜索,也就是說在搜索其余的超鏈結(jié)果之前必須先完整地搜索單獨(dú)的一條鏈。深度優(yōu)先搜索沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個(gè)HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時(shí),說明搜索已經(jīng)結(jié)束。(3)寬度優(yōu)先搜索策略寬度優(yōu)先搜索的過程是先搜索完一個(gè)Web頁面中所有的超級鏈接,然后再繼續(xù)搜索下一層,直到底層為止。例如,一個(gè)HTML文件中有三個(gè)超鏈,選擇其中之一并處理相應(yīng)的HTML文件,然后不再選擇第二個(gè)HTML文件中的任何超鏈,而是返回并選擇第二個(gè)超鏈,處理相應(yīng)的HTML文件,再返回,選擇第三個(gè)超鏈并處理相應(yīng)的HTML文件。當(dāng)一層上的所有超鏈都已被選擇過,就可以開始在剛才處理過的HIML文件中搜索其余的超鏈。寬度優(yōu)先搜索策略的優(yōu)點(diǎn):一個(gè)是保證了對淺層的優(yōu)先處理,當(dāng)遇到一個(gè)無窮盡的深層分支時(shí),不會(huì)導(dǎo)致陷進(jìn)www中的深層文檔中出現(xiàn)出不來的情況發(fā)生;另一個(gè)是它能在兩個(gè)HTML文件之間找到最短路徑。寬度優(yōu)先搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論