網(wǎng)絡(luò)爬蟲-詳細(xì)解讀

上傳人：楊*** IP屬地：上海上傳時(shí)間：2022-11-29 格式：DOCX 頁數(shù)：9 大?。?04.82KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)爬蟲-詳細(xì)解讀

網(wǎng)絡(luò)爬蟲(重定向自網(wǎng)絡(luò)蜘蛛)目錄1什么是網(wǎng)絡(luò)爬蟲2網(wǎng)絡(luò)爬蟲的分類及工作原理[1]3網(wǎng)絡(luò)爬蟲的搜索策略[2]4Reference什么是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲又名“網(wǎng)絡(luò)蜘蛛”，是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個(gè)頁面開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁，這樣一直循環(huán)下去，直到按照某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取完為止的技術(shù)。網(wǎng)絡(luò)爬蟲的分類及工作原理[1]網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)、主題網(wǎng)絡(luò)爬蟲(TopicalWebCrawler)、深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)。實(shí)際應(yīng)用中通常是將系統(tǒng)幾種爬蟲技術(shù)相互結(jié)合。(一)通用網(wǎng)絡(luò)爬蟲(generalpurposewebcrawler)通用網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL開始，以此獲得初始網(wǎng)頁上的URL列表，在爬行過程中不斷從URL隊(duì)列中獲一個(gè)的URL，進(jìn)而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標(biāo)記后得到頁面內(nèi)容，將Summary、URL等信息保存到Web數(shù)據(jù)庫中，同時(shí)抽取當(dāng)前頁面上新的URL，保存到URL隊(duì)列，直到滿足系統(tǒng)停止條件。其工作流程如圖1所示。通用爬蟲主要存在以下幾方面的局限性：1)由于抓取目標(biāo)是盡可能大的覆蓋網(wǎng)絡(luò)，所以爬行的結(jié)果中包含大量用戶不需要的網(wǎng)頁；2)不能很好地搜索和獲取信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)；3)通用搜索引擎大多是基于關(guān)鍵字的檢索，對于支持語義信息的查詢和索引擎智能化的要求難以實(shí)現(xiàn)。由此可見，通用爬蟲想在爬行網(wǎng)頁時(shí)，既保證網(wǎng)頁的質(zhì)量和數(shù)量，又要保證網(wǎng)頁的時(shí)效性是很難實(shí)現(xiàn)的。(二)主題網(wǎng)絡(luò)爬蟲(TopicalWebCrawler)1.主題爬蟲原理主題爬蟲并不追求大的覆蓋率，也不是全盤接受所有的網(wǎng)頁和URL，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息，不僅客服了通用爬蟲存在的問題，而H-返回的數(shù)據(jù)資源更精確。主題爬蟲的基本工作原理是按照預(yù)先確定的主題，分析超鏈接和剛剛抓取的網(wǎng)頁內(nèi)容，獲取下一個(gè)要爬行的URL，盡可能保證多爬行與主題相關(guān)的網(wǎng)頁，因此主題爬蟲要解決以下關(guān)鍵問題：1)如何判定一個(gè)已經(jīng)抓取的網(wǎng)頁是否與主題相關(guān)；2)如何過濾掉海量的網(wǎng)頁中與主題不相關(guān)的或者相關(guān)度較低的網(wǎng)頁；3)如何有目的、有控制的抓取與特定主題相關(guān)的web頁面信息；4)如何決定待訪問URL的訪問次序；5)如何提高主題爬蟲的覆蓋度；6)如何協(xié)調(diào)抓取目標(biāo)的描述或定義與網(wǎng)頁分析算法及候選URL排序算法之問的關(guān)系；7)如何尋找和發(fā)現(xiàn)高質(zhì)量網(wǎng)頁和關(guān)鍵資源。高質(zhì)量網(wǎng)頁和關(guān)鍵資源不僅可以大大提高主題爬蟲搜集Web頁面的效率和質(zhì)量，還可以為主題表示模型的優(yōu)化等應(yīng)用提供支持。2.主題爬蟲模塊設(shè)計(jì)主題爬蟲的目標(biāo)是盡可能多的發(fā)現(xiàn)和搜集與預(yù)定主題相關(guān)的網(wǎng)頁，其最大特點(diǎn)在于具備分析網(wǎng)頁內(nèi)容和判別主題相關(guān)度的能力。根據(jù)主題爬蟲的工作原理，下面設(shè)計(jì)了一個(gè)主題爬蟲系統(tǒng)，主要有頁面采集模塊、頁面分析模塊、相關(guān)度計(jì)算模塊、頁面過濾模塊和鏈接排序模塊幾部分組成，其總體功能模塊結(jié)構(gòu)如圖2所示。頁面采集模塊：主要是根據(jù)待訪問URL隊(duì)列進(jìn)行頁面下載，再交給網(wǎng)頁分析模型處理以抽取網(wǎng)頁主題向量空間模型。該模塊是任何爬蟲系統(tǒng)都必不可少的模塊。頁面分析模塊：該模塊的功能是對采集到的頁面進(jìn)行分析，主要用于連接超鏈接排序模塊和頁面相關(guān)度計(jì)算模塊。頁面相關(guān)度計(jì)算模塊：該模塊是整個(gè)系統(tǒng)的核心模塊，主要用于評估與主題的相關(guān)度，并提供相關(guān)的爬行策略用以指導(dǎo)爬蟲的爬行過程。URL的超鏈接評價(jià)得分越高，爬行的優(yōu)先級就越高。其主要思想是，在系統(tǒng)爬行之前，頁面相關(guān)度計(jì)算模塊根據(jù)用戶輸入的關(guān)鍵字和初始文本信息進(jìn)行學(xué)習(xí)，訓(xùn)練一個(gè)頁面相關(guān)度評價(jià)模型。當(dāng)一個(gè)被認(rèn)為是主題相關(guān)的頁面爬行下來之后，該頁面就被送入頁面相關(guān)度評價(jià)器計(jì)算其主題相關(guān)度值，若該值大于或等于給定的某閡值，則該頁面就被存入頁面庫，否則丟棄¨。頁面過濾模塊：過濾掉與主題無關(guān)的鏈接，同時(shí)將該URL及其所有隱含的子鏈接一并去除。通過過濾，爬蟲就無需遍歷與主題不相關(guān)的頁面，從而保證了爬行效率。排序模塊：將過濾后頁面按照優(yōu)先級高低加入到待訪問的URL隊(duì)列里。3.主題爬蟲流程設(shè)計(jì)主題爬蟲需要根據(jù)一定的網(wǎng)頁分析算法，過濾掉與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它會(huì)根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL，并重復(fù)上述過程，直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁都會(huì)被系統(tǒng)存儲(chǔ)，經(jīng)過一定的分析、過濾，然后建立索引，以便用戶查詢和檢索；這一過程所得到的分析結(jié)果可以對以后的抓取過程提供反饋和指導(dǎo)。其工作流程如圖3所示。4.深度網(wǎng)絡(luò)爬蟲(DeepWebCrawler)1994年Dr．jillEllsworth提出DeepWeb(深層頁面)的概念，即DeepWeb是指普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容的Web頁面¨。DeepWeb中的信息量比普通的網(wǎng)頁信息量多，而且質(zhì)量更高。但是普通的搜索引擎由于技術(shù)限制而搜集不到這些高質(zhì)量、高權(quán)威的信息。這些信息通常隱藏在深度Web頁面的大型動(dòng)態(tài)數(shù)據(jù)庫中，涉及數(shù)據(jù)集成、中文語義識別等諸多領(lǐng)域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取，將是巨大的損失。因此，對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現(xiàn)實(shí)意義和理論價(jià)值。常規(guī)的網(wǎng)絡(luò)爬蟲在運(yùn)行中無法發(fā)現(xiàn)隱藏在普通網(wǎng)頁中的信息和規(guī)律，缺乏一定的主動(dòng)性和智能性。比如需要輸入用戶名和密碼的頁面，或者包含頁碼導(dǎo)航的頁面均無法爬行。深度爬蟲的設(shè)計(jì)針對常規(guī)網(wǎng)絡(luò)爬蟲的這些不足，將其結(jié)構(gòu)做以改進(jìn)，增加了表單分析和頁面狀態(tài)保持兩個(gè)部分，其結(jié)構(gòu)如圖4所示，通過分析網(wǎng)頁的結(jié)構(gòu)并將其歸類為普通網(wǎng)頁或存在更多信息的深度網(wǎng)頁，針對深度網(wǎng)頁構(gòu)造合適的表單參數(shù)并且提交，以得到更多的頁面。深度爬蟲的流程圖如圖4所示。深度爬蟲與常規(guī)爬蟲的不同是，深度爬蟲在下載完成頁面之后并沒有立即遍歷其中的所有超鏈接，而是使用一定的算法將其進(jìn)行分類，對于不同的類別采取不同的方法計(jì)算查詢參數(shù)，并將參數(shù)再次提交到服務(wù)器。如果提交的查詢參數(shù)正確，那么將會(huì)得到隱藏的頁面和鏈接。深度爬蟲的目標(biāo)是盡可能多地訪問和收集互聯(lián)網(wǎng)上的網(wǎng)頁，由于深度頁面是通過提交表單的方式訪問，因此爬行深度頁面存在以下三個(gè)方面的困難：1)深度爬蟲需要有高效的算法去應(yīng)對數(shù)量巨大的深層頁面數(shù)據(jù)；2)很多服務(wù)器端DeepWeb要求校驗(yàn)表單輸入，如用戶名、密碼、校驗(yàn)碼等，如果校驗(yàn)失敗，將不能爬到DeepWeb數(shù)據(jù)；3)需要JavaScript等腳本支持分析客戶端DeepWeb。網(wǎng)絡(luò)爬蟲的搜索策略[2](1)IP地址搜索策略IP地址搜索策略是先給爬蟲一個(gè)起始的IP地址，然后根據(jù)IP地址以遞增的方式搜索本IP地址段后的每一個(gè)地址中的文檔，它完全不考慮各文檔中指向其它Web站點(diǎn)的超級鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面，因此能夠發(fā)現(xiàn)那些沒被其它文檔引用的新文檔的信息源；但是缺點(diǎn)是不適合大規(guī)模搜索。(2)深度優(yōu)先搜索策略深度優(yōu)先搜索是一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)(即那些不包含任何超鏈的HTML文件)。例如，在一個(gè)HTML文件中，當(dāng)一個(gè)超鏈被選擇后，被鏈接的HTML文件將執(zhí)行深度優(yōu)先搜索，也就是說在搜索其余的超鏈結(jié)果之前必須先完整地搜索單獨(dú)的一條鏈。深度優(yōu)先搜索沿著HTML文件上的超鏈走到不能再深入為止，然后返回到某一個(gè)HTML文件，再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時(shí)，說明搜索已經(jīng)結(jié)束。(3)寬度優(yōu)先搜索策略寬度優(yōu)先搜索的過程是先搜索完一個(gè)Web頁面中所有的超級鏈接，然后再繼續(xù)搜索下一層，直到底層為止。例如，一個(gè)HTML文件中有三個(gè)超鏈，選擇其中之一并處理相應(yīng)的HTML文件，然后不再選擇第二個(gè)HTML文件中的任何超鏈，而是返回并選擇第二個(gè)超鏈，處理相應(yīng)的HTML文件，再返回，選擇第三個(gè)超鏈并處理相應(yīng)的HTML文件。當(dāng)一層上的所有超鏈都已被選擇過，就可以開始在剛才處理過的HIML文件中搜索其余的超鏈。寬度優(yōu)先搜索策略的優(yōu)點(diǎn)：一個(gè)是保證了對淺層的優(yōu)先處理，當(dāng)遇到一個(gè)無窮盡的深層分支時(shí)，不會(huì)導(dǎo)致陷進(jìn)www中的深層文檔中出現(xiàn)出不來的情況發(fā)生；另一個(gè)是它能在兩個(gè)HTML文件之間找到最短路徑。寬度優(yōu)先搜

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)爬蟲-詳細(xì)解讀

文檔簡介

溫馨提示

最新文檔

評論

網(wǎng)絡(luò)爬蟲-詳細(xì)解讀

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔