《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲_第1頁
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲_第2頁
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲_第3頁
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲_第4頁
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)爬蟲Contents素養(yǎng)目標(biāo)熟悉國內(nèi)比較常用的網(wǎng)絡(luò)爬蟲工具技能目標(biāo)能夠根據(jù)需要使用網(wǎng)絡(luò)爬蟲工具對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集知識目標(biāo)了解網(wǎng)絡(luò)爬蟲的概念、原理、分類及應(yīng)用網(wǎng)絡(luò)爬蟲的概念網(wǎng)絡(luò)爬蟲(又稱網(wǎng)絡(luò)蜘蛛)提取信息訪問網(wǎng)站瀏覽網(wǎng)頁時的行為模擬人類是一種自動地在互聯(lián)網(wǎng)上收集信息的程序。網(wǎng)絡(luò)爬蟲的基本原理工作原理解析網(wǎng)頁代碼,找到鏈接。繼續(xù)訪問其他網(wǎng)頁。網(wǎng)頁上的信息被提取并存儲在數(shù)據(jù)庫中供后續(xù)使用。網(wǎng)絡(luò)爬蟲的工作原理預(yù)先設(shè)定一個或若干初始網(wǎng)頁的URL,將初始URL加入待爬取的URL列表。1從待爬取的URL列表中逐個讀取URL,并將URL加入已爬取的URL列表中,然后下載網(wǎng)頁。2解析已下載的網(wǎng)頁,提取所需的數(shù)據(jù)和新的URL,并存儲提取的數(shù)據(jù)。3將新的URL與已提取的URL列表進(jìn)行比對,檢查該網(wǎng)頁是否已爬取,如果網(wǎng)頁沒有被爬取,則將新的URL放入待爬取URL列表的末尾,等待讀取。4如此往復(fù),直到待爬取URL列表為空或者滿足設(shè)定的停止條件,最后達(dá)到遍歷網(wǎng)頁的目的。5網(wǎng)絡(luò)爬蟲的類型通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲深層頁面爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)劃分:WWW.通用網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲的類型又稱全網(wǎng)爬蟲,是根據(jù)網(wǎng)絡(luò)爬蟲的基本原理實(shí)現(xiàn)的。初始設(shè)定的URL擴(kuò)充到全網(wǎng)主要應(yīng)用于門戶網(wǎng)站、搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商的數(shù)據(jù)采集。聚焦網(wǎng)絡(luò)爬蟲目標(biāo)是與預(yù)先定義好的主題相關(guān)的網(wǎng)頁。爬取目標(biāo)極大節(jié)省硬件和網(wǎng)絡(luò)資源主要應(yīng)用于對特定領(lǐng)域信息有需求的場景。只爬取與主題相關(guān)的網(wǎng)頁爬取目標(biāo)增量式網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲的類型有更新的已下載網(wǎng)頁爬取目標(biāo)新產(chǎn)生的網(wǎng)頁+深層頁面爬蟲爬取目標(biāo)不能通過靜態(tài)鏈接獲取隱藏在搜索表單后只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁如用戶注冊后才可顯示的內(nèi)容。爬蟲程序監(jiān)測網(wǎng)站數(shù)據(jù)更新的情況,然后在需要的時候只爬取發(fā)生更新或新產(chǎn)生的網(wǎng)頁。網(wǎng)絡(luò)爬蟲的應(yīng)用網(wǎng)絡(luò)爬蟲的應(yīng)用爬蟲程序每天連續(xù)地爬取相關(guān)網(wǎng)站。百度爬蟲Baiduspider谷歌爬蟲Googlebot每個獨(dú)立的搜索引擎都有自己的爬蟲程序1網(wǎng)絡(luò)爬蟲的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時也時常會借助網(wǎng)絡(luò)爬蟲2以確定爬取產(chǎn)品的用戶信息目標(biāo)客戶群體以制定爬取同類產(chǎn)品的銷售信息營銷策略普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù)3例如:WWW.通過爬蟲程序保存下來實(shí)現(xiàn)可見即可得。網(wǎng)絡(luò)爬蟲的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時也時常會借助網(wǎng)絡(luò)爬蟲2以確定分析產(chǎn)品的用戶信息目標(biāo)客戶群體以制定分析同類產(chǎn)品的銷售信息營銷策略普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù)3例如:例如:爬取網(wǎng)站上的圖片學(xué)術(shù)網(wǎng)站的論文團(tuán)購網(wǎng)站的價格及點(diǎn)評各種電商平臺的商品信息招聘網(wǎng)站的招聘信息網(wǎng)絡(luò)爬蟲工具的工作流程瀏覽器提交請求下載網(wǎng)頁代碼解析成頁面模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)提取有用的數(shù)據(jù)存放于數(shù)據(jù)庫或文件中爬蟲一般是使用第二種方式。用戶獲取網(wǎng)絡(luò)數(shù)據(jù)有兩種方式:第一種:第二種:網(wǎng)絡(luò)爬蟲工具的工作流程爬取流程如下圖所示:發(fā)送請求獲取響應(yīng)內(nèi)容解析內(nèi)容保存數(shù)據(jù)網(wǎng)絡(luò)爬蟲工具的工作流程爬取網(wǎng)頁解析網(wǎng)頁存儲數(shù)據(jù)分為三個步驟:網(wǎng)絡(luò)爬蟲工具的工作流程爬取網(wǎng)頁解析網(wǎng)頁存儲數(shù)據(jù)分為三個步驟:即獲取網(wǎng)頁的源代碼,源代碼里包含了網(wǎng)頁的有用信息。網(wǎng)絡(luò)爬蟲工具的工作流程爬取網(wǎng)頁解析網(wǎng)頁存儲數(shù)據(jù)分為三個步驟:指根據(jù)網(wǎng)頁結(jié)構(gòu),分析網(wǎng)頁源代碼,從中提取想要的數(shù)據(jù)。最常用的方法是正則表達(dá)式。變得雜亂的數(shù)據(jù)條理清晰網(wǎng)絡(luò)爬蟲工具的工作流程爬取網(wǎng)頁解析網(wǎng)頁存儲數(shù)據(jù)分為三個步驟:保存數(shù)據(jù)的方式有很多種。也可以保存到數(shù)據(jù)庫中,如MySQL和MongoDB等??梢院唵伪4娴絁SON或CSV文件八爪魚采集器常用的網(wǎng)絡(luò)爬蟲工具是由深圳視界信息技術(shù)有限公司自主研發(fā)的。一款集網(wǎng)頁數(shù)據(jù)采集、移動互聯(lián)網(wǎng)數(shù)據(jù)及API服務(wù)等于一體的數(shù)據(jù)服務(wù)平臺。數(shù)據(jù)爬蟲數(shù)據(jù)優(yōu)化數(shù)據(jù)挖掘數(shù)據(jù)存儲數(shù)據(jù)備份后羿采集器常用的網(wǎng)絡(luò)爬蟲工具是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件。特點(diǎn)功能強(qiáng)大,操作簡單。適合行業(yè)用戶群:無編程基礎(chǔ)者運(yùn)營銷售金融新聞電商數(shù)據(jù)分析政府機(jī)關(guān)學(xué)術(shù)研究法律法規(guī)網(wǎng)絡(luò)爬蟲目前還處于早期的蠻荒階段處于建設(shè)之中“允許哪些行為”如果抓取數(shù)據(jù)的行為用于個人使用通常不存在問題如果數(shù)據(jù)用來轉(zhuǎn)載需要注意原創(chuàng)作品的版權(quán)問題爬取數(shù)據(jù)時需要注意:應(yīng)當(dāng)約束自己的抓取行為。盡量不要高強(qiáng)度、高頻率的下載數(shù)據(jù)。從目前的實(shí)踐來看:法律法規(guī)很多網(wǎng)站都會定義robots.txt文件讓爬蟲了解爬取該網(wǎng)站時,存在哪些限制,下面的地址列出一些知名網(wǎng)站的robots.txt訪問地址:/robots.txt(淘寶)/robots.txt (京東)/robots.txt

(亞馬遜)法律法規(guī)例如通過訪問京東的robots.txt內(nèi)容,可以看出標(biāo)識了哪些地址允許訪問,哪些不允許,以及所允許的爬蟲類別。很多網(wǎng)站都會定義robots.txt文件robots.txt文件沒有實(shí)際的約束力,可以選擇不遵守。Robots協(xié)議只是一種建議但可能存在一定的法律風(fēng)險思政意識提升爬取數(shù)據(jù)的過程中,遵守法律法規(guī)和網(wǎng)站的使用協(xié)議,尊重網(wǎng)站的版權(quán)和隱私,不進(jìn)行違法違規(guī)的爬取行為。防爬蟲應(yīng)對策略并發(fā)發(fā)送上百個重復(fù)的請求響應(yīng)啊,又是剛剛那個家伙客戶端服務(wù)器很多網(wǎng)絡(luò)爬蟲對網(wǎng)頁的爬取能力很差,現(xiàn)在的網(wǎng)站會采取一些防爬蟲措施來阻止爬蟲的不當(dāng)爬取行為。防爬蟲應(yīng)對策略偽裝成瀏覽器發(fā)送請求響應(yīng)對于采取了防爬蟲措施的網(wǎng)站,爬蟲程序需要采取相應(yīng)的應(yīng)對策略,才能成功地爬取到網(wǎng)站上的數(shù)據(jù)。客戶端服務(wù)器用戶代理啊,原來這個家伙是瀏覽器呀!防爬蟲應(yīng)對策略User-agent表示用戶代理,是HTTP協(xié)議中的一個字段。作用描述發(fā)出HTTP請求的終端信息。每個正規(guī)的爬蟲都有固定的User-agent,字段設(shè)為知名的用戶代理成功偽裝偽裝User-agent防爬蟲應(yīng)對策略同時用多個代理IP,可以降低單個IP地址的訪問量,極有可能逃過一劫。用戶代理IP發(fā)送請求轉(zhuǎn)發(fā)請求視為爬蟲的IP網(wǎng)站使用代理IP防爬蟲應(yīng)對策略為了彌補(bǔ)這個缺點(diǎn),可以基于這個思想適時調(diào)整具體的操作。降低訪問頻率沒有找到既免費(fèi)又穩(wěn)定的代理IP降低訪問網(wǎng)站的頻率防止被認(rèn)出爬蟲的身份會差很多爬取效率例如,每抓取一個頁面就休息若干秒,或者限制每天抓取的頁面數(shù)量。防爬蟲應(yīng)對策略需要采取相應(yīng)的技術(shù)識別驗(yàn)證碼驗(yàn)證碼限制訪問IP網(wǎng)站(不登陸就能訪問)訪問檢測訪問量有異常正確輸入驗(yàn)證碼才能繼續(xù)爬取網(wǎng)站提出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論