分布式網(wǎng)絡(luò)爬蟲平臺(tái)技術(shù)方案_第1頁
分布式網(wǎng)絡(luò)爬蟲平臺(tái)技術(shù)方案_第2頁
分布式網(wǎng)絡(luò)爬蟲平臺(tái)技術(shù)方案_第3頁
分布式網(wǎng)絡(luò)爬蟲平臺(tái)技術(shù)方案_第4頁
分布式網(wǎng)絡(luò)爬蟲平臺(tái)技術(shù)方案_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)羅數(shù)據(jù)大智若漁

網(wǎng)絡(luò)爬蟲平臺(tái)建設(shè)方案

爬蟲工具驅(qū)動(dòng)力1分布式爬蟲能力介紹2分布式爬蟲應(yīng)用場(chǎng)景3巨量非結(jié)構(gòu)化數(shù)據(jù)為企業(yè)帶來機(jī)遇超過7.51億網(wǎng)民分散在526萬余個(gè)網(wǎng)站里*數(shù)據(jù)來源:CNNIC第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告用戶意見觀點(diǎn)客戶潛在需求行業(yè)市場(chǎng)變化行業(yè)競(jìng)爭(zhēng)趨勢(shì)分散的非結(jié)構(gòu)化數(shù)據(jù)……數(shù)據(jù)爬取分析變互聯(lián)網(wǎng)數(shù)據(jù)為資源,加速驅(qū)動(dòng)大數(shù)據(jù)探索及應(yīng)用!當(dāng)前市面工具難以滿足爬取效率需求難以應(yīng)對(duì)各類網(wǎng)站反爬策略單機(jī)模式爬取,軟件性能及容錯(cuò)性低爬取配置繁瑣,學(xué)習(xí)成本和專業(yè)要求高針對(duì)不同爬取內(nèi)容需要定制開發(fā),缺乏通用爬取能力目前市場(chǎng)上的通用爬蟲工具繁多,主要為輕量級(jí)的單機(jī)采集版本,對(duì)于運(yùn)營(yíng)商級(jí)的互聯(lián)網(wǎng)大數(shù)據(jù)爬取效率難以滿足。漁夫——網(wǎng)羅互聯(lián)網(wǎng)信息,構(gòu)建大數(shù)據(jù)森林漁夫——互聯(lián)網(wǎng)信息采集工具,提供規(guī)則自定義和靈活配置功能,將互聯(lián)網(wǎng)大數(shù)據(jù)為己所用,幫助補(bǔ)充企業(yè)大數(shù)據(jù)維度,輔助運(yùn)營(yíng)。配置方式簡(jiǎn)潔明了,使用操作簡(jiǎn)單高性能分布式爬取模式抗反爬能力強(qiáng),解決封IP等問題智能爬取異步加載數(shù)據(jù)實(shí)時(shí)監(jiān)控爬取狀態(tài)節(jié)點(diǎn)1節(jié)點(diǎn)2節(jié)點(diǎn)3節(jié)點(diǎn)N已爬取URL記錄待爬取URL倉庫資源庫爬蟲控制器隊(duì)列爬取策略存儲(chǔ)爬取內(nèi)容更新待爬取記錄URL篩選規(guī)則配置爬取入口適配爬蟲工具驅(qū)動(dòng)力1分布式爬蟲能力介紹2分布式爬蟲應(yīng)用場(chǎng)景3整體架構(gòu)-分布式架構(gòu)設(shè)計(jì)分布式爬蟲框架:采用webMagic+redisMVC技術(shù)框架:采用Springboot+mybatis爬取配置權(quán)限管理監(jiān)控展示redis內(nèi)存數(shù)據(jù)庫爬蟲DRIVER調(diào)度器爬蟲節(jié)點(diǎn)1爬蟲節(jié)點(diǎn)2爬蟲節(jié)點(diǎn)3FTPHDFSRDSRDS數(shù)據(jù)庫結(jié)果分析展示IP代理服務(wù)器資源配置展現(xiàn)層存儲(chǔ)層調(diào)度層存儲(chǔ)適配器監(jiān)控器分布式架構(gòu)部署拓?fù)涫纠{(diào)度中心中央控制器監(jiān)控器IP代理服務(wù)器爬蟲節(jié)點(diǎn)1爬蟲節(jié)點(diǎn)2爬蟲節(jié)點(diǎn)3爬蟲節(jié)點(diǎn)4..............RDS數(shù)據(jù)庫HDFS非關(guān)系型數(shù)據(jù)庫FTP/SFTP存儲(chǔ)適配器URL倉庫下發(fā)爬取命令到各節(jié)點(diǎn)從倉庫獲取待爬URL將新的URL放入倉庫獲取代理IP上傳爬取狀態(tài)分布式多線程爬蟲,萃取數(shù)據(jù)效率高;單個(gè)節(jié)點(diǎn)宕機(jī),不影響其他爬蟲正常工作;維護(hù)方便快捷;支持節(jié)點(diǎn)熱拔插。爬蟲控制調(diào)度產(chǎn)品功能模塊系統(tǒng)管理采集狀態(tài)采集數(shù)量趨勢(shì)網(wǎng)站采集概覽任務(wù)采集明細(xì)任務(wù)執(zhí)行狀態(tài)系統(tǒng)配置集群管理資源管理策略管理配置項(xiàng)管理采集配置采集類型監(jiān)控采集策略配置偽造Header用戶管理權(quán)限管理日志管理自身監(jiān)控Sleep代理IP模擬登錄驗(yàn)證碼識(shí)別JS插件爬取定向內(nèi)容爬取主題內(nèi)容爬取網(wǎng)站附件爬取爬取規(guī)則定義輸出模板選擇爬取預(yù)覽配置文件導(dǎo)入輸出模板修改輸出模板管理適配規(guī)則停用適配規(guī)則新增適配規(guī)則查詢適配規(guī)則管理采集監(jiān)控任務(wù)調(diào)度新增任務(wù)配置采集頻次設(shè)置采集周期設(shè)置線程資源設(shè)置執(zhí)行時(shí)間設(shè)置任務(wù)執(zhí)行停止任務(wù)管理采集狀態(tài)監(jiān)控監(jiān)控時(shí)間選擇監(jiān)控粒度選擇監(jiān)控指標(biāo)選擇任務(wù)明細(xì)查看明細(xì)檢查索引庫數(shù)據(jù)采集處理邏輯后臺(tái)邏輯配置爬取規(guī)則調(diào)取爬取任務(wù)網(wǎng)頁內(nèi)容采集去噪、萃取存儲(chǔ)索引模塊主要數(shù)據(jù)索引文件文本分析搜索模塊熱點(diǎn)分析主題聚類情感分析……數(shù)據(jù)補(bǔ)充基礎(chǔ)庫自定義查詢數(shù)據(jù)結(jié)果查看爬蟲管理員數(shù)據(jù)使用者數(shù)據(jù)分析師前臺(tái)應(yīng)用支持靈活多種爬取入口,想你所想,隨心所欲為用戶提供多種爬取需求的入口支持,支持單網(wǎng)址爬取適配、URL列表導(dǎo)入、定向內(nèi)容爬取適配、熱點(diǎn)話題和主題的爬取適配、配置文件的爬取入口適配。URL列表導(dǎo)入配置文件參數(shù)配置輸入適配主題/話題框選自定義爬取規(guī)則配置主題:XXX大會(huì)定向網(wǎng)址

RDS關(guān)系型數(shù)據(jù)庫

FTP/SFTP文本存儲(chǔ)支持各類頁面內(nèi)容采集和存儲(chǔ)方式,降低使用門檻針對(duì)頁面內(nèi)容,可通過選擇采集模板、參數(shù)格式配置、下鉆鏈接采集等方式進(jìn)行目標(biāo)內(nèi)容采集,且具備網(wǎng)頁內(nèi)容智能去噪等功能,輸出存儲(chǔ)到指定路徑,支持多種類型存儲(chǔ)方式。指定模板采集指定格式采集多網(wǎng)頁合并網(wǎng)頁智能去噪采集處理非關(guān)系型數(shù)據(jù)庫HDFS存儲(chǔ)URL下鉆采集存儲(chǔ)方式支持多類頁面數(shù)據(jù)采集,提升爬蟲通用能力,即見即所得圖片視頻流商品評(píng)論論壇評(píng)論附件導(dǎo)航分類主題/標(biāo)題文本信息正文內(nèi)容提供高度集成封裝的可配置化界面,提升用戶體驗(yàn)資源配置管理地址過濾策略萃取模板配置爬取任務(wù)調(diào)度網(wǎng)站萃取內(nèi)容模板管理形成網(wǎng)站爬取規(guī)則的模板庫支持模板的快速配置更新爬取任務(wù)可定義采集頻率和時(shí)間配置任務(wù)狀態(tài)可控分布式集群管理節(jié)點(diǎn)、進(jìn)程數(shù)可管理資源連接及存儲(chǔ)模塊管理非目標(biāo)網(wǎng)頁可過濾URL地址可監(jiān)測(cè)過濾地址可管理爬蟲設(shè)計(jì)遵從“高集成、深封裝、高可配”設(shè)計(jì)原則,盡可能的減少復(fù)雜配置,降低非專業(yè)人士的操作難度,在即滿足多樣化需求的同時(shí),又提升用戶體驗(yàn),從而通過配置爬取規(guī)則和策略,快速、準(zhǔn)確獲取目標(biāo)數(shù)據(jù)。可配置化界面示例規(guī)則配置采集主題配置采集采集狀態(tài)任務(wù)調(diào)度實(shí)時(shí)監(jiān)控采集狀態(tài),運(yùn)籌帷幄可從采集任務(wù)、規(guī)則、URL級(jí)進(jìn)行采集監(jiān)控,支持不同監(jiān)控指標(biāo)和監(jiān)控時(shí)間段選擇查看:采集任務(wù)監(jiān)控任務(wù)執(zhí)行狀態(tài)成功/失敗數(shù)執(zhí)行時(shí)長(zhǎng)執(zhí)行次數(shù)……網(wǎng)站采集情況采集數(shù)量趨勢(shì)爬取網(wǎng)頁總數(shù)各大網(wǎng)站采集數(shù)量多類采集能力機(jī)制封裝,為爬蟲順利采集數(shù)據(jù)保駕護(hù)航反爬問題:有些網(wǎng)站要求登錄訪問,或者會(huì)用cookie跟蹤訪問過程。需要用戶在網(wǎng)站上保持登錄狀態(tài),需要在多個(gè)頁面中使用同一個(gè)cookie解決方案:在web上登錄之后取下cookie,將這些Cookie信息加入爬蟲代碼里即可模擬登錄??捎瞄_發(fā)者工具或一些瀏覽器插件(EditThisCookie)顯示訪問網(wǎng)站時(shí)的cookie信息模擬登錄反爬問題:網(wǎng)站登錄時(shí)要求輸入驗(yàn)證碼,或在超過訪問量時(shí)彈出驗(yàn)證碼,去阻止網(wǎng)絡(luò)爬蟲解決方案:把驗(yàn)證碼down到本地之后,手動(dòng)輸入驗(yàn)證,但不能做到自動(dòng)抓取,需要人為干預(yù);圖像識(shí)別驗(yàn)證碼,自動(dòng)填寫驗(yàn)證,需要用到圖像處理和模式識(shí)別等技術(shù),學(xué)習(xí)成本高接入自動(dòng)打碼平臺(tái)(最實(shí)用)

驗(yàn)證碼識(shí)別反爬問題:文件加密,如異步請(qǐng)求通過js的加密庫生成動(dòng)態(tài)的token,這種URL通常跟瀏覽器參數(shù)綁定在一起,并帶有時(shí)效性解決方案:編寫瀏覽器JS插件,獲取到下一請(qǐng)求的URL,直接爬取。selenium+phantomJS框架,調(diào)用瀏覽器內(nèi)核,利用phantomJS執(zhí)行js來模擬人為操作觸發(fā)JS插件爬取反爬問題:存在需要對(duì)請(qǐng)求頭進(jìn)行驗(yàn)證的網(wǎng)站解決方案:只要請(qǐng)求時(shí)加入Header,則可騙過驗(yàn)證配置被大多數(shù)瀏覽器用來初始化網(wǎng)絡(luò)請(qǐng)求的參數(shù)反爬問題:網(wǎng)站設(shè)定訪問次數(shù)閾值,超過閾值時(shí)禁止請(qǐng)求解決方案:如訪問58同城網(wǎng)站頻繁時(shí),會(huì)彈出一個(gè)驗(yàn)證碼。只要有規(guī)律的sleep,就可以繞過這條限制。反爬問題:sleep降低了爬取效率解決方案:購買高質(zhì)量的代理IP服務(wù),使用多線程或分布式爬取,提高效率并解決網(wǎng)站封IP問題。偽造Headersleep代理IP同類產(chǎn)品競(jìng)爭(zhēng)對(duì)比--我們不一樣比較項(xiàng)漁夫主流工具架構(gòu)&性能分布式架構(gòu),多線程爬取性能具備高穩(wěn)定、高可靠性維護(hù)方便快捷,資源可配置,支持節(jié)點(diǎn)熱拔插大部分是單機(jī)版,性能較低多線程爬取時(shí),穩(wěn)定性較差,維護(hù)較麻煩爬取入口多入口爬取適配、靈活方便支持單個(gè)URL錄入或者批量URL批量導(dǎo)入定向爬取方式支持話題搜索方式支持自定義參數(shù)配置爬取方式支持模板導(dǎo)入方法爬取方式大部分只支持單個(gè)目標(biāo)網(wǎng)址和關(guān)鍵字配置爬取爬取規(guī)則模板化對(duì)爬取規(guī)則定義進(jìn)行模板化管理且對(duì)配置好的規(guī)則也模板化爬取規(guī)則不能模板化,需單獨(dú)配置采集數(shù)據(jù)類型網(wǎng)頁文本內(nèi)容采集附件嗅探及采集流文件(語音/視頻)大部分支持文本內(nèi)容采集存儲(chǔ)類型多樣性輸出介質(zhì)可配置,支持文本存儲(chǔ)、非關(guān)系性數(shù)據(jù)庫、關(guān)系性數(shù)據(jù)庫、索引庫、Hadoop文件系統(tǒng)輸出介質(zhì)主要為文本和關(guān)系性數(shù)據(jù)庫采集能力封裝內(nèi)置多種采集能力機(jī)制:偽造瀏覽器、代理IP、繞過頁面“陷阱”,驗(yàn)證碼識(shí)別等主要為代理IP、自動(dòng)登錄較常用方案數(shù)據(jù)關(guān)聯(lián)分析為DPI數(shù)據(jù)解析注智,更為深如精準(zhǔn)分析用戶行為無DPI解析能力,不可關(guān)聯(lián)DPI分析易用性界面集成封裝、適應(yīng)不同業(yè)務(wù)場(chǎng)景操作需求、配置可簡(jiǎn)可繁,以盡量保證非專業(yè)人士使用操作配置復(fù)雜,非專業(yè)人員不能使用衍生產(chǎn)品成熟產(chǎn)品鏈,可封裝應(yīng)用于多種行業(yè)、企業(yè)和場(chǎng)景屬于獨(dú)立工具,產(chǎn)品體系單一爬蟲工具驅(qū)動(dòng)力1分布式爬蟲能力介紹2分布式爬蟲應(yīng)用場(chǎng)景3產(chǎn)品客戶價(jià)值同業(yè)競(jìng)爭(zhēng)分析輿情監(jiān)測(cè)分析企業(yè)洞察畫像輔助內(nèi)容運(yùn)營(yíng)行業(yè)數(shù)據(jù)報(bào)告等開展數(shù)據(jù)運(yùn)營(yíng)采集泛行業(yè)基礎(chǔ)數(shù)據(jù)跨域整合數(shù)據(jù)資源構(gòu)建基礎(chǔ)信息庫構(gòu)建大數(shù)據(jù)資源池補(bǔ)強(qiáng)內(nèi)部數(shù)據(jù)維度等進(jìn)行數(shù)據(jù)整合通過爬蟲萃取并積累,構(gòu)建各個(gè)行業(yè)信息庫、產(chǎn)品庫等,比如終端信息、汽車信息庫、競(jìng)品信息庫、電商信息庫等等。與內(nèi)容數(shù)據(jù)融合,進(jìn)行社會(huì)/輿情、熱點(diǎn)事件、企業(yè)洞察等分析應(yīng)用,服務(wù)于行業(yè)精細(xì)化運(yùn)營(yíng)和精細(xì)化管理,開展數(shù)據(jù)運(yùn)營(yíng)??蛻魞r(jià)值孵化數(shù)據(jù)產(chǎn)品生態(tài)體系以爬蟲為基礎(chǔ)能力,構(gòu)建互聯(lián)網(wǎng)大數(shù)據(jù)生態(tài),孵化上層應(yīng)用級(jí)數(shù)據(jù)產(chǎn)品鏈,以服務(wù)于電信、手機(jī)終端等泛行業(yè)的經(jīng)營(yíng)管理活動(dòng)。大數(shù)據(jù)生態(tài)體系URL過濾URL標(biāo)簽DPI數(shù)據(jù)關(guān)聯(lián)規(guī)則庫標(biāo)簽庫詞庫基礎(chǔ)能力互聯(lián)網(wǎng)數(shù)據(jù)爬取目標(biāo)爬取數(shù)據(jù)處理數(shù)據(jù)存儲(chǔ)文本分類聚類分析文本內(nèi)容分析數(shù)據(jù)資源更新熱點(diǎn)監(jiān)測(cè)輿情監(jiān)測(cè)數(shù)據(jù)分析報(bào)告用戶體驗(yàn)分析用戶需求標(biāo)簽產(chǎn)品體系情感分析……目標(biāo)市場(chǎng)電信運(yùn)營(yíng)商廣告運(yùn)營(yíng)游戲運(yùn)營(yíng)電商平臺(tái)互聯(lián)網(wǎng)企業(yè)終端生產(chǎn)商提供軟件產(chǎn)品提供產(chǎn)品維護(hù)產(chǎn)品交付數(shù)據(jù)交付提供目標(biāo)數(shù)據(jù)定期輸出更新產(chǎn)品應(yīng)用競(jìng)爭(zhēng)分析行業(yè)發(fā)展趨勢(shì)營(yíng)銷效果分析應(yīng)用場(chǎng)景——熱點(diǎn)分析自動(dòng)關(guān)聯(lián)DPI瀏覽數(shù)據(jù),將用戶訪問行為和熱度計(jì)算模型融合計(jì)算,捕捉市場(chǎng)熱點(diǎn)與用戶興趣,進(jìn)行分類展現(xiàn)。包括:熱點(diǎn)地圖分布綜合熱點(diǎn)排名搜索熱點(diǎn)分析地域關(guān)注分析用戶情感分析熱點(diǎn)來源分析……應(yīng)用場(chǎng)景——

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論