網(wǎng)絡(luò)礦工采集配置高級(jí)設(shè)置教程_第1頁(yè)
網(wǎng)絡(luò)礦工采集配置高級(jí)設(shè)置教程_第2頁(yè)
網(wǎng)絡(luò)礦工采集配置高級(jí)設(shè)置教程_第3頁(yè)
網(wǎng)絡(luò)礦工采集配置高級(jí)設(shè)置教程_第4頁(yè)
網(wǎng)絡(luò)礦工采集配置高級(jí)設(shè)置教程_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)礦工采集器采集配置高級(jí)功能教程此教程適合于中級(jí)用戶,在掌握了網(wǎng)絡(luò)礦工基礎(chǔ)配置之后,閱讀此教程,如果您是初學(xué)者,建議您首先閱讀網(wǎng)絡(luò)礦工入門教程。網(wǎng)址參數(shù)網(wǎng)址參數(shù)支持三個(gè)類:遞增遞減類、字典類、外部參數(shù);解變呈{Num::[陰1}遞減Num100..1,-1}NumZero:1.100.1}謹(jǐn)減目源禺NumZero:100rl?-l}字母連增Letter:孔可字母遞3認(rèn)Letterzz,a}每日期{ShortDate:2013-1-1,2013-3-8}上日期■[LongDate:2013-01-01,2013-03-00}PO5T前綴即OST、POST后綴打POST》手工捕挪0疋娠羽胡4編碼前綴cBASE64>西胡4編碼后綴w/BME54:>訥:{Diet:新^猱博分類}字典:{Dict:百度貼口馳區(qū)}宇典:{Diet:人民和田宇典:{Diet測(cè)試熱詞}字典:{Diet:淘寶商品}字典:{Diet:域名}宇典:{Diet當(dāng)當(dāng)ID}遞增遞減類參數(shù):數(shù)字遞增遞減,字母遞增遞減,數(shù)字自動(dòng)補(bǔ)零遞增遞減,舉例:/sale/p{Num:1,271,1}/用數(shù)字參數(shù)替換頁(yè)碼,可以實(shí)現(xiàn)271頁(yè)數(shù)據(jù)的采集。字典類:網(wǎng)址參數(shù)不規(guī)律的替換,用戶可以建立自己的字典用于網(wǎng)址替換實(shí)現(xiàn)網(wǎng)址成批采集,譬如:采集百度貼吧,建立字典百度貼吧地區(qū),然后設(shè)置需要采集的貼吧信息,配置采集網(wǎng)址時(shí)進(jìn)行參數(shù)設(shè)置/f?kw={Dict:百度貼吧地區(qū)},實(shí)現(xiàn)百度貼吧指定數(shù)據(jù)的采集;外部參數(shù):配置時(shí)參數(shù)值不固定,在運(yùn)行采集時(shí)由用戶指定輸入?yún)?shù)值。詳細(xì)可參見:

/article.aspx2idn1026?網(wǎng)址的復(fù)制與粘貼為何要提供網(wǎng)址的復(fù)制粘貼功能?在大量配置網(wǎng)址時(shí)需要,如果網(wǎng)址的導(dǎo)航規(guī)則不同,但又需要多個(gè)入口的地址(譬如:很多網(wǎng)站的第一頁(yè)和后續(xù)的頁(yè)面網(wǎng)址是不同的),可配置第一個(gè)網(wǎng)址的信息,復(fù)制粘貼出來(lái),修改入口地址即可快速完成第二個(gè)網(wǎng)址的配置,在導(dǎo)航或多頁(yè)配置時(shí)即為有用;http./7dstai.tmmlLoDnT4ta<nhtrn?gpm=a23岸莉匚迢是http./7dstai.tmmlLoDnT4ta<nhtrn?gpm=a23岸莉匚迢曲復(fù)制采東弼址Ctil-C粘!![^縛51址CMN選中網(wǎng)址,點(diǎn)擊鼠標(biāo)右鍵,即可復(fù)制粘貼。?參數(shù)傳遞配置網(wǎng)址在導(dǎo)航和多頁(yè)配置中,參數(shù)傳遞將非常有用。在部分網(wǎng)站中,導(dǎo)航或多頁(yè)的網(wǎng)址是通過(guò)js來(lái)實(shí)現(xiàn)跳轉(zhuǎn)的,我們可以模擬這種js操作,將需要傳遞的參數(shù)采集出來(lái),然后將參數(shù)匹配給導(dǎo)航出來(lái)的網(wǎng)址,即可實(shí)現(xiàn)js跳轉(zhuǎn)操作。以采集淘寶評(píng)論數(shù)據(jù)為例,通過(guò)淘寶的商品頁(yè)進(jìn)行評(píng)論數(shù)據(jù)的導(dǎo)航,此過(guò)程需要傳遞三個(gè)參數(shù):itemid、spuid和sellerid,此三個(gè)參數(shù)可以通過(guò)產(chǎn)品頁(yè)獲取,獲取后傳遞給評(píng)論頁(yè)url,即可實(shí)現(xiàn)評(píng)論頁(yè)的采集,此下載實(shí)例可參見網(wǎng)絡(luò)礦工資源任務(wù);?導(dǎo)航翻頁(yè)對(duì)于連續(xù)頁(yè)面的采集有兩種方法:1、用url中的頁(yè)碼參數(shù)進(jìn)行頁(yè)面翻頁(yè);2、采用網(wǎng)頁(yè)提供的下一頁(yè)翻頁(yè)參數(shù)進(jìn)行。導(dǎo)航翻頁(yè)可以配置兩種翻頁(yè)規(guī)則。假如入口頁(yè)面是一個(gè)列表頁(yè),我們可以通過(guò)頁(yè)碼參數(shù)實(shí)現(xiàn)翻頁(yè),但也可以配置翻頁(yè)規(guī)則來(lái)實(shí)現(xiàn)翻頁(yè)。這是第一個(gè)翻頁(yè)規(guī)則。同時(shí)第一層導(dǎo)航頁(yè)導(dǎo)航出來(lái)的也是一個(gè)列表頁(yè),此時(shí)還需翻頁(yè),這是第二個(gè)翻頁(yè)規(guī)則。第一種翻頁(yè)規(guī)則我們稱之為:導(dǎo)航頁(yè)翻頁(yè)規(guī)則,第二種翻頁(yè)規(guī)則我們稱之為:導(dǎo)航頁(yè)獲取的頁(yè)面翻頁(yè)規(guī)則。請(qǐng)仔細(xì)對(duì)應(yīng)界面。

譜導(dǎo)航規(guī)剛臣導(dǎo)航頁(yè)采隼設(shè)蠱下一頁(yè)導(dǎo)航規(guī)卿提取范國(guó)(如不填寫,起始于:| 一猱備曲進(jìn)行匹配導(dǎo)航規(guī)則苗譜導(dǎo)航規(guī)剛臣導(dǎo)航頁(yè)采隼設(shè)蠱下一頁(yè)導(dǎo)航規(guī)卿提取范國(guó)(如不填寫,起始于:| 一猱備曲進(jìn)行匹配導(dǎo)航規(guī)則苗面翻頁(yè)廁腎房同=小陽(yáng)="t日電直亍此導(dǎo)航頁(yè)需進(jìn)行自云"創(chuàng)e='b斷蠱導(dǎo)航規(guī)則0通過(guò)導(dǎo)航規(guī)貝I]獲取的頁(yè)面^曜頁(yè),翻頁(yè)規(guī)則:終止于:[ 頁(yè)翻翻頁(yè)規(guī)貝I]:下一頁(yè)1有關(guān)導(dǎo)航翻頁(yè)的實(shí)際案例分析請(qǐng)參見:/bbs/showtopic-50.aspxCookie管理通常理解下,只有在登錄采集的時(shí)候才會(huì)需要Cookie信息,但某些網(wǎng)站對(duì)于訪客也會(huì)判斷cookie信息。對(duì)于需要cookie信息方可采集的網(wǎng)站,我們可配置Cookie進(jìn)行數(shù)據(jù)采集。但對(duì)于網(wǎng)路礦工有一個(gè)比較糾結(jié)的問(wèn)題:在配置任務(wù)時(shí),獲取cookie集成的方法是瀏覽器,用戶只需要用內(nèi)置的瀏覽器登錄網(wǎng)站,系統(tǒng)即可捕獲cookie信息。內(nèi)置瀏覽器在某些情況下會(huì)出現(xiàn)獲取cookie不完整。而這種不完整用戶是無(wú)法判斷的。通過(guò)嗅探器獲取的cookie可以確保完整無(wú)誤,這樣在操作的時(shí)候會(huì)非常的尷尬。所以,在此請(qǐng)各位用戶非常注意:如果需要cookie采集的網(wǎng)站,在設(shè)置了cookie信息后,通過(guò)“采集規(guī)則分析"功能確定系統(tǒng)是否正確返回了源碼,如果沒(méi)有,請(qǐng)使用嗅探器進(jìn)行cookie的重設(shè)。書命農(nóng)誹于生尺而丼抿 “11詰土出:斯醫(yī)頁(yè)I不做任意格式..書命農(nóng)誹于生尺而丼抿 “11詰土出:斯醫(yī)頁(yè)I不做任意格式..不做任意格弍神壬宜格式仃齊;吿曲:|土空詞二=ii二愉血 | 猛■眉采轉(zhuǎn)礎(chǔ)t|冷采隼亦訂年斟蹴1E|+餉雜:iilir-s 熙期宀1|十丄岸|"|碓| |*勻:出:+r招加-111世再協(xié)宜網(wǎng)裁聲1釆隼林確,■匪蟲求采卑規(guī)曲必頂憤昭屈頁(yè)順斥鴻行起苦“Nonrial<dvdaes-'to-d...M3?馳j曉馴沖衣袞..節(jié)點(diǎn)風(fēng)性idtecZ跟制鮒數(shù)塀秦耒規(guī)則□動(dòng)玳出即二力百址:丄農(nóng)口工丘:巫聯(lián)亡荒冃l(wèi).-.^1ii_: C辻鞘丄三至「寸'HNonrialNcinr^lNonroilNonralratsContert\"Nonral汕巨工工刁泊+tW>刪鈾癖]二航吊號(hào)輸出捉則|F圧1-||町山4||屈止用 ± i采集規(guī)則分析先講下采集規(guī)則分析,采集規(guī)則分析是網(wǎng)絡(luò)礦工提供的一個(gè)對(duì)采集網(wǎng)址配置、采集規(guī)則配置正確性校驗(yàn)的一個(gè)工具。如果采集網(wǎng)址配置正確,系統(tǒng)會(huì)自動(dòng)根據(jù)采集網(wǎng)址配置的信息自動(dòng)獲取需要采集的網(wǎng)址,并將此網(wǎng)址的源碼獲取,在此可判斷1)網(wǎng)址規(guī)則是否正確?2)采集的數(shù)據(jù)是否在源碼中存在?3)如果獲取錯(cuò)誤,源碼中的錯(cuò)誤信息是什么?譬如:需要登錄;當(dāng)網(wǎng)址正確后,可以檢驗(yàn)采集數(shù)據(jù)規(guī)則本身是否正確,按“F5”系統(tǒng)可進(jìn)行數(shù)據(jù)匹配,匹配成功后會(huì)顯示,如果無(wú)匹配的數(shù)據(jù),表示規(guī)則失??;正則分析,同時(shí)這個(gè)工具也是一個(gè)正則分析器,可以用來(lái)分析正則表達(dá)式的正確性和匹配的結(jié)果。崛估口詛出iEi正瞬14或1 叭ELij-t-'li?rliri^iri"3-rfc3 ■' I Hillir:d-??i:曲:XPIttlF吠”弗疋H吉琵氏.橫豔闇戶配萱的規(guī)則生踴:工玄U耳 網(wǎng)囲好認(rèn) Srt:曲GH左'J.??:1:--:>:?■:*<■£:■■IW|:tf:■ ■<:'-*.)I ■:?. ■■-.聴■電皿如‘hHndM?dwd>^*<hnri■下NFS;場(chǎng)里ESP力石卓 皿如‘hHndM?dwd>^*<hnri■下NFS;場(chǎng)里ESP力石卓 ■■&GP即更fl:?r,?TPC*S=-=ESAttlwT垃站,云巴哼±BT:??:注切 網(wǎng)JJfc也虐■.^*iSrEEttSzIMEfltMtt^r-iEEtt^衣學(xué)2tUn''':Mrta3iM"~!iri!i-i?~=:El?Tl*'aZZ2c-.,':'-!1MLi?.S*±!E-£El!T939&iE*il^il!Ol:.±ii.Ztl:A.crSSTSttBEA—IbbIL. RLi?Ci:rlrl>"iB!i=*.e_?cttP.B"iatc-ITInSr*DrillO'l.MM£hlj^1x33m4--w:^.!-Fa. *:』l.^idtaEd^L^^ErULXX^F?|a:i:*i-M^rSG;GMJeuxiEiLzri.^hT-if-J/L.tbc^.aa.iwUimA.p-:a.ijp*:**&*.nl::inM■*wlb?r?vl"sfewwhnwicwq-rM[|]k.^EiE-iPrf^riU.iSES-lIIU'i:-:i,Ii'iF-.LBH.fa^iX/u^X'111fcIT■*El..MM-r.一…Hu器苛E;!j沁口去昭工;.cqf*I?£2:itiin*;kA^snijciL'!IRf3i?(ktIp1il.- L*Hd=Ji.■m_'uILiag:a^l.|4屜d■■:aiLK"32K^nJ>:.'hMl>CECdTtliUI:i-:lemrtSmO???ewh1???d.CM,?叭■hbh.fl3-FtCkL:d:」HC lKka?dL^n.,'ll>,^^,m,'l4i4R~ll2H^>'TIT9L:EEi::^|CKkE.dCELflJ-:LintCBLz^tIMIIIE1*KT^Tz'IiECFIILllacjli.EIi1"^u!:nEIBIn|;IoL*|-Ej.EBL,J?i.LeuLLSlriEll!_>'-kOfn £XL :i'4.:pBul.CU.Ej:p?Ul1>1<£133||4E¥i.''l:Ui'lFELUff.iLLL9FF4>UIliMT:aLLil4.D|^l'CUj'MM.!:J-L屮如"<M:.LM'LhIli'M. LUJJXiCf.L■1uPF.「?L1d .Ob.'Eiai'ahxcthum-'wLIdrl^u.--a..?vur?.-c-、*?— ■、士p,、lZa|E"^UtHr?i1'KE■占hnp:JJH.MIX血ChIff1"IBO^.'JlC111'U*■_d*14h1LCEE"li'SaEiJJX^TdElE^dpjiXibJ£afrEUd*pM:ELEiMm-ia'1EaEaEramtTapai r , 、 r r r.'l.J.^'■■■d-alnjfi£sa>ltaiLLl',aiL>l3.:*'taLl,l>^~K.E.JnB.l'HLLa'bU4.lEMiL"*2.J'nuroi■"tH-1.''hvdir:'■fce■.i'h?n4*Jaa?4>luTlm.>>:MCBrkw=,ladirE4!w-d?aaiz*-sji-xjKJ^5UE5£l^-:icrLFCiypACJcacci':Lr.-AJX3XFEa}SflnciIebM:'''.-jo*izd.evial-気HlA11=Lkiti:'-REKUfii-■nrt-HKcr-LrretsrKSKZ-F^曲'自第當(dāng)V:牛世驗(yàn)i"-S?-L<4ri?WWIt2Ei.rKllwi-L44B-MWW?i%_LwC■「:?_ks■:■ian^E-*---1]H?^im.n:'?iMcL,,anwk<田尸』邸口_ 舌」《耳[購(gòu)」皐」■'j>?!止1碩典:TjM:'aEiEE.!>*,.'U£rLFCilr!fLne.,:LEi:町■沁aeir^.:T-ui-tfLaHE^l/j^TlFc"^clijp4E'aEacsi'5?,.'AurLFC,aitkm.tt?:efiK^ir-?^5EiiK,?:WMiE^r?WWttLZ33eii|ip3Wirdtifc5dWK!*3E4is^UdtfBEEFiBUdM1.EEE.aR^L.'TU:Li■■■W.'JttCfaEBI3"14:rWhKEhkir?:i-i-.nc£i"aa:IdirlatL■;:t*?4?.,,^el£e9iILrrii■££■■■!Ldna^L*4 ■£■:ufi■的■l£OiifU:*1i'?un.ylA:iuL^uckp-fud-caldo':■£?■!£!uckp'i:^^r:rMP碎■匸:加\hick|rs6-iid-T-t^iai:E=-r-tpWi7EaEi|ruirid-FCB^D¥i-i<¥i=:'lMia:c-±MkM9£j xh+rf3Di?rd=7:4ZGui-rf.i+UEE:JEC7ipiJ:e.E!*pACJijHCi,JajcuxTipnJe.ainvcimEEG:LU+j^i:^Ex'ibrbdaE:■-E?m-4-'flr;42HWtiTihdfiiOiria?f*.i[4l.UEariThll.d"ci」i >.-'KTln.".aEt^n,■:4IdzlLrUCWLJfdEl.bMAlULEdEI'■MiUSBU'*.":jn-fcKUr:tElAuf^ClQJj???lMMrLdMirtw?i"LLZ*tft_D^?M-M&_md-14B154^RaMt_LBb-lifart_ta:fcBtL>rtwiitWi!ltSCc_bEM!i"e3r!*t^M4?t2=?Mllwi-L44f?B4a$Wiit.i?tTWPM.,%!e"L42BlWifc'j-be:"2、 e? . ?&r.. ■■■rr. ■■h”r._? ■1 ?—* --_. ,——— <_nr-r *_ -■.?■ <■ . r? ■. ..r.e?采集數(shù)據(jù)配置注意事項(xiàng)1、如果采用規(guī)則配置的方式,一定要按照網(wǎng)頁(yè)代碼的順序配置,這點(diǎn)很重要,系統(tǒng)匹配數(shù)據(jù)是從上至下,所以,如果順序顛倒,可能又部分?jǐn)?shù)據(jù)采集不到,盡管規(guī)則配置正確;2、如果采用可視化配置,可以不用考慮順序的問(wèn)題,隨意配置即可;3、系統(tǒng)提供了通配符,通配符實(shí)際是正則表達(dá)式,用戶也可手工輸入正則表達(dá)式的通配符,但一定要用<Wildcard></Wildcard>包含,這樣系統(tǒng)可以識(shí)別這是一個(gè)正則表達(dá)式進(jìn)行處理;?靜默運(yùn)行方式靜默運(yùn)行方式是一種不打擾運(yùn)行,系統(tǒng)不會(huì)將日志信息和采集的數(shù)據(jù)進(jìn)行輸出,同時(shí)系統(tǒng)也不會(huì)再?gòu)棾鐾斜P菜單氣泡提示,所有信息都將由系統(tǒng)處理,而且會(huì)把相關(guān)系統(tǒng)信息以日志的方式進(jìn)行輸出。靜默運(yùn)行方式是一種不打擾方式,當(dāng)用戶需要采集數(shù)據(jù)而且還有其他工作同時(shí)進(jìn)行時(shí),建議采用此種方式,啟動(dòng)靜默采集時(shí),系統(tǒng)好像是一個(gè)后臺(tái)服務(wù),始終運(yùn)行,卻不干擾用戶的其他工作。?排重的處理

一個(gè)采集任務(wù)可以多次運(yùn)行,如果采集一個(gè)每日變化得數(shù)據(jù)時(shí),不免會(huì)造成重復(fù)采集的情況,所以,礦工可以甚至排重庫(kù),將已經(jīng)采集的數(shù)據(jù)記錄下來(lái),無(wú)論再運(yùn)行幾次,已經(jīng)采集的數(shù)據(jù)將不會(huì)再進(jìn)行采集。這是網(wǎng)絡(luò)礦工設(shè)計(jì)排重的主要作用,但排重還可以作為另一個(gè)作用進(jìn)行應(yīng)用,當(dāng)進(jìn)行大量數(shù)據(jù)采集時(shí),可能會(huì)由于對(duì)方網(wǎng)站的問(wèn)題造成某些網(wǎng)址無(wú)法訪問(wèn),但如果隔幾分鐘再重試時(shí),網(wǎng)站又可以恢復(fù)正常,如果出現(xiàn)這樣的情況,由于網(wǎng)站的臨時(shí)錯(cuò)誤會(huì)導(dǎo)致數(shù)據(jù)漏采,所以,此時(shí)可以用排重庫(kù)記錄。采集完成后在此采集,將只采集發(fā)生錯(cuò)誤的網(wǎng)址數(shù)據(jù)了。如果需要重新采集數(shù)據(jù),清除排重庫(kù)即可。枉務(wù)常禰:折民分塑=肓F~-Tv>rt采3_B~-Tv>rt采3_B東草口]隔細(xì)7:巨工J冃矢圧蟲?戲:3J 汕旱是疋址無(wú):汰甘咲口.迅睛互討至杪顔冃隔是指越傘獨(dú)立箜程耳雨一尿Htp語(yǔ)求后停頓槻閆「代連設(shè)S:I采用代理碣進(jìn)行此任務(wù)信息秦隼□禁用代理輪詢機(jī)制,諄用一劉卿倩身進(jìn)日志頑:21自功拆存出錯(cuò)信息到日志存諱路甩:DiZiherZdG出Sa怖“binl%啟用阿址唾:二I啟用阿址唾后比采集任舟運(yùn)行複貳將改幀瑩薇|?証fl湮犀倍拗喊ft旨:盜羽文件隅;*毗甘誓(0蜃次運(yùn)行,是否將乘翩!拒惶存孚—傘文件中{瓠;毗任誓皿1國(guó)了寶倍拗喊ft旨:容環(huán)F可:惑腳加:,且無(wú)法吃史<-HTTPHBacera詩(shī)愛''解畀葉Z□險(xiǎn)辭碗悴黑淮矚需醫(yī)的翩1倉(cāng)孵躺計(jì)。&盂|丨曹有匯I|了確定||町取消||指應(yīng)用關(guān)于數(shù)據(jù)文件的設(shè)置網(wǎng)絡(luò)礦工采集的數(shù)據(jù)默認(rèn)情況下是系統(tǒng)自動(dòng)保存,以xml文件形式保

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論