![網(wǎng)絡(luò)爬蟲簡介_第1頁](http://file4.renrendoc.com/view/82d493e7a7c2526ab119a7f12056b138/82d493e7a7c2526ab119a7f12056b1381.gif)
![網(wǎng)絡(luò)爬蟲簡介_第2頁](http://file4.renrendoc.com/view/82d493e7a7c2526ab119a7f12056b138/82d493e7a7c2526ab119a7f12056b1382.gif)
![網(wǎng)絡(luò)爬蟲簡介_第3頁](http://file4.renrendoc.com/view/82d493e7a7c2526ab119a7f12056b138/82d493e7a7c2526ab119a7f12056b1383.gif)
![網(wǎng)絡(luò)爬蟲簡介_第4頁](http://file4.renrendoc.com/view/82d493e7a7c2526ab119a7f12056b138/82d493e7a7c2526ab119a7f12056b1384.gif)
![網(wǎng)絡(luò)爬蟲簡介_第5頁](http://file4.renrendoc.com/view/82d493e7a7c2526ab119a7f12056b138/82d493e7a7c2526ab119a7f12056b1385.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
網(wǎng)絡(luò)爬蟲簡介第1頁/共48頁網(wǎng)絡(luò)爬蟲教育技術(shù)系第2頁/共48頁網(wǎng)絡(luò)爬蟲1、網(wǎng)絡(luò)爬蟲簡介2、通用網(wǎng)絡(luò)爬蟲和聚焦爬蟲3、網(wǎng)絡(luò)爬蟲的抓取策略4、幾種常見的網(wǎng)絡(luò)爬蟲5、Metaseeker第3頁/共48頁1、網(wǎng)絡(luò)爬蟲簡介
1.1定義1.2用途1.3原理第4頁/共48頁1.1網(wǎng)絡(luò)爬蟲定義網(wǎng)絡(luò)爬蟲(Crawler)又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中,更經(jīng)常的被稱為網(wǎng)頁追逐者,它是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。
另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。第5頁/共48頁1.2用途很多站點,尤其是搜索引擎,都使用爬蟲提供最新的數(shù)據(jù),它主要用于提供它訪問過頁面的一個副本,然后,搜索引擎就可以對得到的頁面進行索引,以提供快速訪問。蜘蛛也可以在web上用來自動執(zhí)行一些任務(wù),例如檢查鏈接,確認html代碼;也可以用來抓取網(wǎng)頁上某種特定類型信息,例如抓取電子郵件地址(通常用于垃圾郵件)。
第6頁/共48頁1.3原理一個網(wǎng)絡(luò)蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪問的URL鏈接開始,可以稱這些URL為種子。爬蟲訪問這些鏈接,它辨認出這些頁面的所有超鏈接,然后添加到這個URL列表,可以稱作檢索前沿。這些URL按照一定的策略反復(fù)訪問。第7頁/共48頁2、通用網(wǎng)絡(luò)爬蟲和聚焦爬蟲2.1前言2.2通用網(wǎng)絡(luò)爬蟲2.3聚焦爬蟲2.4兩種爬蟲比較第8頁/共48頁2.1前言隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。第9頁/共48頁為了解決通用搜索引擎的局限性,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。第10頁/共48頁2.2通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。
第11頁/共48頁2.3聚焦爬蟲聚焦爬蟲根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。第12頁/共48頁2.4兩種爬蟲比較通用網(wǎng)絡(luò)爬蟲
聚焦爬蟲
目標
通用網(wǎng)絡(luò)爬蟲的目標是盡可能多的采集信息頁面,而在這一過程中它并不太在意頁面采集的順序和被采集頁面的相關(guān)主題。這需要消耗很多的系統(tǒng)資源和網(wǎng)絡(luò)帶寬,并且對這些資源的消耗并沒有換來采集頁面的較高利用率。
聚焦爬蟲的目標是盡可能快地爬行、采集盡可能多的與預(yù)先定義好的主題相關(guān)的網(wǎng)頁。聚焦爬蟲可以通過對整個Web按主題分塊采集,并將不同塊的采集結(jié)果整合到一起,以提高整個Web的采集覆蓋率和頁面利用率。第13頁/共48頁相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:(1)對抓取目標的描述或定義;
(2)對網(wǎng)頁或數(shù)據(jù)的分析與過;
(3)對URL的搜索策略。抓取目標的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。第14頁/共48頁3、網(wǎng)絡(luò)爬蟲的抓取策略3.1網(wǎng)頁搜索策略3.2爬行策略
第15頁/共48頁3.1網(wǎng)頁搜索策略網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導致爬蟲的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。第16頁/共48頁3.1.1廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。第17頁/共48頁
另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。第18頁/共48頁3.1.2最佳優(yōu)先搜索策略最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。
第19頁/共48頁存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進行改進,以跳出局部最優(yōu)點。研究表明,這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%-90%。
第20頁/共48頁3.2爬行策略更新頻率太快了數(shù)據(jù)量好大啊頁面是動態(tài)的呀以上三種網(wǎng)絡(luò)特征使得設(shè)計網(wǎng)頁爬蟲抓取策略變得很難。第21頁/共48頁網(wǎng)頁爬蟲的行為通常是四種策略組合的結(jié)果:(a)選擇策略,決定所要下載的頁面;(b)重新訪問策略,決定什么時候檢查頁面的更新變化;(c)平衡禮貌策略,指出怎樣避免站點超載;(d)并行策略,指出怎么協(xié)同達到分布式抓取的效果。第22頁/共48頁4、幾種常見的網(wǎng)絡(luò)爬蟲
4.1Google爬蟲
4.2Mercator
4.3北大天網(wǎng)4.4InternetArchive
4.5UbiCrawler
4.6IRLBOT
第23頁/共48頁4.1Google爬蟲斯坦福大學設(shè)計了用于Google的爬蟲第24頁/共48頁
早期的Google爬蟲系統(tǒng)由5個模塊處理不同的任務(wù)。一個URL服務(wù)器從磁盤文件讀URL列表并將其轉(zhuǎn)發(fā)到Crawler上。每個Crawler單獨運行在一臺機器上,采用單線程異步10方式,一次維持300個連接并行爬行。Crawler將網(wǎng)頁傳輸?shù)酱鎯Ψ?wù)器上壓縮并保存。索引進程從HTML頁面中抽取鏈接并存放在不同的文件中。一個URL解析器讀取這些鏈接文件并轉(zhuǎn)化為絕對路徑,由URL服務(wù)器讀取。
第25頁/共48頁后期Google的改進主要有:(1)采用自有的文件系統(tǒng)(GFS)和數(shù)據(jù)庫系統(tǒng)(BigTable)來存取數(shù)據(jù);(2)采用MapReduce技術(shù)來分布式處理各種數(shù)據(jù)的運算。第26頁/共48頁4.2Mercator
康柏系統(tǒng)研究中心的AIlanHeydon和MarcNajork設(shè)計了名叫Mercator的爬行器。系統(tǒng)采用Java的多線程同步方式實現(xiàn)并行處理,并加入了很多優(yōu)化策略如DNS緩沖、延遲存儲等以提升爬行器運行效率。它采用的數(shù)據(jù)結(jié)構(gòu)可以不管爬行規(guī)模的大小,在內(nèi)存中只占有限的空間。這些數(shù)據(jù)結(jié)構(gòu)的大部分都在磁盤上,在內(nèi)存中只存放有限的部分,伸縮性很強。
第27頁/共48頁4.3北大天網(wǎng)北大天網(wǎng)是國內(nèi)高性能網(wǎng)絡(luò)爬蟲的先行者,它的架構(gòu)經(jīng)歷了集中式向分布式的改進,能夠勝任10億級的網(wǎng)頁搜索,其基于站點的兩階段哈希機制有效地解決了搜索過程中Crawler動態(tài)加入和退出的問題。
第28頁/共48頁4.4
InternetArchiveInternetArchive的每臺Crawler同時對64個站點進行爬行,每個站點被唯一分派到一個Crawler上。Crawler從磁盤上讀取URL列表,采取異步10方式下載網(wǎng)頁,并抽取鏈接。如果該鏈接屬于本機抓取,則放人待抓取列表,存到磁盤上,并周期性地傳送到其它Crawler上。第29頁/共48頁4.5UbiCrawlerUbiCrawler項目是一個高性能的爬蟲,主要側(cè)重于完全分布性和高容錯率。它的主要特性包括:平臺獨立性、良好的伸縮性、高效的分配函數(shù)、各功能模塊的完全分布式、沒有單點故障的問題。
第30頁/共48頁4.6IRLBOTIRLBOT是TAMU開發(fā)的大規(guī)模網(wǎng)絡(luò)Crawler,它們宣稱已經(jīng)抓取了60億網(wǎng)頁。該爬蟲能勝任100億級網(wǎng)頁爬行,可伸縮性很強,在“禮貌”爬行和反垃圾頁面上做了很多工作。
第31頁/共48頁5、Metaseeker5.1Metaseeker的特點5.2Metaseeker的使用
5.2.1第32頁/共48頁5.1Metaseeker的特點5.1.1定義MetaSeeker是一個Web網(wǎng)頁抓取/數(shù)據(jù)抽取/頁面信息提取工具包,能夠按照用戶的指導,從Web頁面上篩選出需要的信息,并輸出含有語義結(jié)構(gòu)的提取結(jié)果文件(XML文件)。第33頁/共48頁
5.1.2優(yōu)點眾所周知,Web頁面顯示的信息是給人閱讀的,對于機器來說,是無結(jié)構(gòu)的,MetaSeeker解決了一個關(guān)鍵問題:將無結(jié)構(gòu)的Web頁面信息轉(zhuǎn)換成有結(jié)構(gòu)的適于機器處理的信息。可以應(yīng)用于專業(yè)搜索、Mashup和Web數(shù)據(jù)挖掘領(lǐng)域。第34頁/共48頁5.1.3工具包的組成(a)MetaStudio:是Web頁面信息結(jié)構(gòu)描述工具,提供GUI界面,作為Firefox擴展(Firefoxextension)發(fā)行,推薦與MetaCamp和DataStore配套使用,這樣信息結(jié)構(gòu)描述文件和各種信息提取指令文件就可以上載到MetaCamp和DataStore服務(wù)器,以擁有協(xié)同描述頁面信息結(jié)構(gòu)和分享信息提取成果的能力。第35頁/共48頁(b)DataScraper:是Web頁面信息提取(網(wǎng)頁抓取/抽取)工具,利用MetaStudio生成的各種信息提取指令文件,對特定頁面的信息進行連續(xù)提取,并將信息存儲在DataStore服務(wù)器中。提供GUI界面,作為Firefox擴展發(fā)行,技術(shù)核心是一個自研的工作流引擎,由信息提取工作流指令文件驅(qū)動。第36頁/共48頁(c)MetaCamp:是存儲和管理信息結(jié)構(gòu)描述文件的服務(wù)器。作為一個應(yīng)用(application)部署在Tomcat等Servlet容器中。(d)DataStore:是存儲和管理信息提取線索、各種信息提取指令文件和信息提取結(jié)果文件的服務(wù)器,集成Lucenev2.3.2技術(shù),能夠為結(jié)果文件建立索引。作為一個應(yīng)用(application)部署在Tomcat等Servlet容器中。
第37頁/共48頁5.2Metaseeker的使用5.2.1安裝5.2.1.1硬件環(huán)境要求Web頁面語義結(jié)構(gòu)描述工具MetaStudio的工作臺比較復(fù)雜,顯示器的分辨率在1280X1024以上才能完整展現(xiàn)。
Web頁面信息提取工具DataScraper對顯示器分辨率沒有特別的要求。第38頁/共48頁5.2.1.2軟件環(huán)境要求雖然語義結(jié)構(gòu)描述和網(wǎng)頁數(shù)據(jù)抓取規(guī)則生成軟件MetaStudio和網(wǎng)頁數(shù)據(jù)抓取和格式化軟件DataScraper都作為Firefox的擴展發(fā)行的,但兩者對軟件環(huán)境要求是不一樣的,同一個DataScraper軟件包可以安裝在不同操作系統(tǒng)和不同版本的Firefox上,而MetaStudio針對不同的系統(tǒng)軟件環(huán)境有不同的發(fā)行包,需要區(qū)別對待。第39頁/共48頁5.2.1.3下載和安裝下載和安裝方式有兩種:
(1)下載的同時進行安裝:在下載彈出窗口中選擇“運行”,并指定運行程序Firefox
(2)下載保存后安裝:在下載彈出窗口中選擇“保存”,以后安裝第40頁/共48頁5.2.2使用方法Metaseeker的一位使用者免費提供了Metaseeker的使用教程。下面介紹一下學習總結(jié)以及使用中的一些問題。第41頁/共48頁
5.2.2.1三種映射的區(qū)別抓取網(wǎng)頁信息時需要將各字段值映射到已構(gòu)建好的信息屬性(我們要抓取的內(nèi)容名稱)中,有內(nèi)容映射、FreeFormat映射和樣例復(fù)制品映射三種。下面用一個表格來說明一下三者的區(qū)別。第42頁/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年世界民俗文化節(jié)展品陳列合作協(xié)議
- 2025年閉式冷卻塔項目申請報告
- 2025年企業(yè)招投標合同管理權(quán)威指導
- 2025年信貸業(yè)務(wù)代理合同
- 2025年道路橋梁工程建設(shè)安全合同協(xié)議
- 2025年勞動力合同績效管理性簽訂
- 2025年停車場所停車位租賃合同范文
- 2025年臨翔區(qū)互聯(lián)網(wǎng)產(chǎn)業(yè)合作框架協(xié)議
- 2025年飲品供應(yīng)長期合同
- 2025年工程用瓷磚訂購合同示范
- 2025年工貿(mào)企業(yè)春節(jié)復(fù)工復(fù)產(chǎn)方案
- 安防監(jiān)控工程施工方案(3篇)
- 2025年藍莓種苗行業(yè)深度研究分析報告
- 【道法】歷久彌新的思想理念課件 2024-2025學年統(tǒng)編版道德與法治七年級下冊
- 《糖尿病診療規(guī)范》課件
- 2025年度消防工程安全防護措施設(shè)計固定總價合同范本3篇
- 2025年事業(yè)單位財務(wù)工作計劃(三篇)
- Unit 2 Know your body(說課稿)-2024-2025學年外研版(三起)(2024)英語三年級下冊
- 名師工作室建設(shè)課件
- 《電子技術(shù)應(yīng)用》課程標準(含課程思政)
- 紙尿褲使用管理制度內(nèi)容
評論
0/150
提交評論