終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了_第1頁(yè)
終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了_第2頁(yè)
終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了_第3頁(yè)
終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了_第4頁(yè)
終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了導(dǎo)讀人們正在以前所未有的速度轉(zhuǎn)向互聯(lián)網(wǎng)哉們?cè)诨ヂ?lián)網(wǎng)上所做的很多行為產(chǎn) 生了大量的用戶(hù)數(shù)據(jù)”,比如微博、購(gòu)買(mǎi)記錄等?;ヂ?lián)網(wǎng)成了海量信息的載體;互聯(lián)網(wǎng)目前是分析市場(chǎng)趨勢(shì)、監(jiān)視競(jìng)爭(zhēng)對(duì)手 或者獲取銷(xiāo)售線(xiàn)索的最佳場(chǎng)所,數(shù)據(jù)采集以及分析能力已成為驅(qū)動(dòng)業(yè)務(wù)決策的 關(guān)鍵技能。如何有效地提取并利用這些信息成了一個(gè)巨大的挑戰(zhàn),而網(wǎng)絡(luò)爬蟲(chóng)是一種 很好的自動(dòng)采集數(shù)據(jù)的通用手段。本文將會(huì)對(duì)爬蟲(chóng)的類(lèi)型、爬蟲(chóng)的抓取策略以 及深入學(xué)習(xí)爬蟲(chóng)所需的網(wǎng)絡(luò)基礎(chǔ)等相關(guān)知識(shí)進(jìn)行介紹。一,爬蟲(chóng)是什么網(wǎng)絡(luò)爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中,更經(jīng)常地 稱(chēng)為網(wǎng)頁(yè)追逐者)是一種按照一定的規(guī)則,自動(dòng)抓取萬(wàn)

2、維網(wǎng)信息的程序或者腳 本另夕卜一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)通過(guò)爬取互聯(lián)網(wǎng)上網(wǎng)站服務(wù)器的內(nèi)容來(lái)工作。它是用計(jì)算機(jī)語(yǔ)言 編寫(xiě)的程序或腳本,用于自動(dòng)從Internet上獲取信息或數(shù)據(jù),掃描并抓取每個(gè) 所需頁(yè)面上的某些信息,直到處理完所有能正常打開(kāi)的頁(yè)面。作為搜索引擎的重要組成部分,爬蟲(chóng)首要的功能就是爬取網(wǎng)頁(yè)數(shù)據(jù)(如圖 1-1所示),目前市面流行的采集器軟件都是運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)的原理或功能。圖1-1網(wǎng)絡(luò)爬蟲(chóng)象形圖二爬蟲(chóng)的意義現(xiàn)如今大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),網(wǎng)絡(luò)爬蟲(chóng)技術(shù)成為這個(gè)時(shí)代不可或缺的一部 分,企業(yè)需要數(shù)據(jù)來(lái)分析用戶(hù)行為、自己產(chǎn)品的不足之處以及競(jìng)爭(zhēng)對(duì)手的信息 等,而這一切

3、的首要條件就是數(shù)據(jù)的采集。網(wǎng)絡(luò)爬蟲(chóng)的價(jià)值其實(shí)就是數(shù)據(jù)的價(jià)值,在互聯(lián)網(wǎng)社會(huì)中,數(shù)據(jù)是無(wú)價(jià)之 寶,一切皆為數(shù)據(jù),誰(shuí)擁有了大量有用的數(shù)據(jù),誰(shuí)就擁有了決策的主動(dòng)權(quán)。網(wǎng) 絡(luò)爬蟲(chóng)的應(yīng)用領(lǐng)域很多,如搜索引擎、數(shù)據(jù)采集、廣告過(guò)濾、大數(shù)據(jù)分析等。1、抓取各大電商網(wǎng)站的商品銷(xiāo)量信息及用戶(hù)評(píng)價(jià)來(lái)進(jìn)行分析,如圖2-1所 示。曜UE計(jì)=,直 J : _1-T * =,直 J : _1-T * *導(dǎo) 4 ggm擺描品鹽 M3- M-h,默 mskf51 * 上 k I 1- L L _1OZIBM Ei + J *g| Era iLflBAI E Is-.- : F l # LtMMf mm tllHLO ,HHH W4

4、 AUEM V:91T/V sn:B- rTiA史狂“必氣s ;-% .zuf/1/at D-” t - 5m”.曲:t,, * f i*illT/i/il lUM lik.吁Yrl. #, 冒air/4/21 SisSl JPLt*T*rR-*1*;|j;|. ii If j fi | . &.- I-U; T # . AHMT/fcnt * mmr?n我:*:iz zv ribeflirt-nw-f1srr-mt事n :? ? :fa-9. *Tf B* L-4 l 5ig * fl T C 9 t t 鼻4 ,志if. i* =! fl BPJk, % 的:日l(shuí)FlU 嗎上 TJI K7

5、*fihL 用US 尸用,白普宅孑瀏*“V *!lirtt 忡mrsfli tiijaRHif QBtlRS#HUM。舊;】1整甘,f,!T:1Jt* lLRW4 t*T-siLTt/ii iTsiii TT f 7 r i T7TT77跪 ts itju airrmnfuh m ir:H#rff m. fih * r? f w-fcJi*7?ri-rfc1 Rnn*id. (hk.T,*lri *_ s b j ri - * _ . T .D / * 土( Hi ar u 圖2-1電商網(wǎng)站的商品銷(xiāo)售信息2、分析大眾點(diǎn)評(píng)、美團(tuán)網(wǎng)等餐飲類(lèi)網(wǎng)站的用戶(hù)消費(fèi)、評(píng)價(jià)和發(fā)展趨勢(shì),如圖2-2所示。圖2-2餐

6、飲類(lèi)網(wǎng)站的用戶(hù)消費(fèi)信息仕慝3、分析各個(gè)城市中學(xué)區(qū)房的比例,以及學(xué)區(qū)房比普通二手房?jī)r(jià)格高出多少,圖2-3所示。圖2-3圖2-3學(xué)區(qū)房的比例與價(jià)格對(duì)比以上數(shù)據(jù)是通過(guò)前嗅ForeSpider數(shù)據(jù)采集軟件爬下來(lái)的,有興趣的讀者 可以嘗試自己爬一些數(shù)據(jù)。三、爬蟲(chóng)的我們通常會(huì)將網(wǎng)絡(luò)爬蟲(chóng)的組成模塊分為初鏈接庫(kù)、網(wǎng)絡(luò)抓取模塊、網(wǎng)頁(yè)處 理模塊、網(wǎng)頁(yè)分析模塊、DNS模塊、待抓取鏈接隊(duì)列、網(wǎng)頁(yè)庫(kù)等,網(wǎng)絡(luò)爬蟲(chóng)的 各系模塊可形成一個(gè)循壞體系,從而不斷地進(jìn)行分析和抓取。爬蟲(chóng)的工作原理可以很簡(jiǎn)單地解釋為先找到目標(biāo)信息網(wǎng),然后頁(yè)面抓取模世 JfWRLDN淵:析。止MT網(wǎng)頁(yè)解析 有用信息存儲(chǔ)圖2-4爬蟲(chóng)原理圖塊,接著頁(yè)面分析模

7、塊,最后數(shù)據(jù)存儲(chǔ)模塊。其具體詳情如圖2-4所示。的URL世 JfWRLDN淵:析。止MT網(wǎng)頁(yè)解析 有用信息存儲(chǔ)圖2-4爬蟲(chóng)原理圖塊,接著頁(yè)面分析模塊,最后數(shù)據(jù)存儲(chǔ)模塊。其具體詳情如圖2-4所示。的URL該虱RL DN3解析 網(wǎng)頁(yè)下載提政出URL并皿任務(wù) 魅列已抓取 的網(wǎng)頁(yè) 皿5 WHIURI X 刊 神 PVRLL.抓取UK1.恥列3【瀚的網(wǎng)頁(yè)M扮取新的URI 成入U(xiǎn)EL隊(duì)列START挾取啊貝初始URIttFURL爬蟲(chóng)工作基本流程:首先在互聯(lián)網(wǎng)中選出一部分網(wǎng)頁(yè),以這些網(wǎng)頁(yè)的鏈接地址作為種子URL ;將這些種子URL放入待抓取的URL隊(duì)列中,爬蟲(chóng)從待抓取的URL隊(duì)列 依次讀??;將URL通過(guò)DNS

8、解析;把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址;網(wǎng)頁(yè)下載器通過(guò)網(wǎng)站服務(wù)器對(duì)網(wǎng)頁(yè)進(jìn)行下載;下載的網(wǎng)頁(yè)為網(wǎng)頁(yè)文檔形式;對(duì)網(wǎng)頁(yè)文檔中的URL進(jìn)行抽??;過(guò)濾掉已經(jīng)抓取的URL;對(duì)未進(jìn)行抓取的URL繼續(xù)循環(huán)抓取,直至待抓取URL隊(duì)列為空。四爬蟲(chóng)技術(shù)的類(lèi)型-聚焦網(wǎng)絡(luò)爬蟲(chóng):是“面向特定主題需求”的一種爬蟲(chóng)程序,而通用網(wǎng)絡(luò) 爬蟲(chóng)則是搜索引擎抓取系統(tǒng)(Baidu、Google、Yaho。等)的重要組成 部分,主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容 的鏡像備份。增量抓?。阂饧瘁槍?duì)某個(gè)站點(diǎn)的數(shù)據(jù)進(jìn)行抓取,當(dāng)網(wǎng)站的新增數(shù)據(jù)或者 該站點(diǎn)的數(shù)據(jù)發(fā)生變化后,自動(dòng)地抓取它新增的或者變化后的數(shù)據(jù)。Web頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(surface Web )和深層網(wǎng)頁(yè)(deep Web,也稱(chēng) invisible Web

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論