網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程_第1頁
網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程_第2頁
網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程_第3頁
網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程_第4頁
網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)礦工復(fù)雜數(shù)據(jù)采集教程(圖文版)復(fù)雜數(shù)據(jù)并不一定是采集數(shù)據(jù)有多難,數(shù)據(jù)本身可能會很容易采集,但想成批的將數(shù)據(jù)采集、并按照網(wǎng)站的數(shù)據(jù)關(guān)系組織輸出,可能會有很大的難度?;蛘吒揪蜔o法實(shí)現(xiàn)這樣的采集,或者說采集下來的只是一些沒有關(guān)系的零散數(shù)據(jù),不具備使用價值。當(dāng)前很多網(wǎng)站在防采方面都做了限制,其中將數(shù)據(jù)打散,分布到各個網(wǎng)頁中,然后通過url請求并將數(shù)據(jù)重新組織起來進(jìn)行展示,這也是一種防采限制,數(shù)據(jù)分散了,對于采集軟件如何識別這種數(shù)據(jù)關(guān)系將是很大的考驗(yàn),如果識別不了這種數(shù)據(jù)對應(yīng)關(guān)系,那么采集下來的數(shù)據(jù)就是一堆無意義的數(shù)據(jù)。網(wǎng)絡(luò)礦工在這方面有突出的優(yōu)勢,通過導(dǎo)航和多頁的操作,可以將這種復(fù)雜的數(shù)據(jù)關(guān)系在采集的過程中根據(jù)網(wǎng)站的規(guī)則自動關(guān)聯(lián)起來進(jìn)行輸出。我們先以一個比較簡單的數(shù)據(jù)采集為例,后續(xù)我們會將更加復(fù)雜的數(shù)據(jù)對應(yīng)關(guān)系的采集,當(dāng)前先通過這個例子讓大家熟悉網(wǎng)絡(luò)礦工在這方面的采集應(yīng)用。今天的講解會比較復(fù)雜一些,請先熟悉網(wǎng)絡(luò)礦工的基本操作及數(shù)據(jù)采集的基礎(chǔ)概念,再閱讀本文。有關(guān)網(wǎng)絡(luò)礦工的基本使用,可參見網(wǎng)絡(luò)礦工的基本使用圖文教程,在此不再進(jìn)行過多講解。我們需要采集的網(wǎng)站為:/BuildList.pub,這是一個導(dǎo)航頁(列表頁),點(diǎn)擊每一個樓盤的名稱,可以打開樓盤的詳細(xì)頁,如:/BuildInfo.pub?blid=101903,我們將需要采集的數(shù)據(jù)在下圖中標(biāo)明:同時在此頁面,點(diǎn)擊“房屋明細(xì)”,打開此樓盤房屋明細(xì)表,并采集明細(xì)表數(shù)據(jù),如下:通過上面的介紹,這個數(shù)據(jù)采集貌似不復(fù)雜,實(shí)際做兩層導(dǎo)航即可實(shí)現(xiàn)。通過列表頁導(dǎo)航進(jìn)行樓盤信息頁,再通過樓盤詳細(xì)頁導(dǎo)航進(jìn)行房屋明細(xì)頁,但如果我們繼續(xù)分析,就遠(yuǎn)不是這樣就可以實(shí)現(xiàn)的,下面我們進(jìn)行采集分析講解。1、樓盤的導(dǎo)航頁,這個頁面直接導(dǎo)航即可;并不復(fù)雜;2、再看樓盤的詳細(xì)頁,/BuildInfo.pubfblich101903,這個頁面中有一個iframe,在iframe中顯示樓盤的詳細(xì)信息,iframe請求的網(wǎng)址是/ifrm_BuildBasic.pub?blid=101903,這個頁面是樓盤真正的詳細(xì)頁面,對此,通常的做法是還可以再做一層導(dǎo)航進(jìn)行采集,但我們還要采集樓盤的房屋明細(xì),所以,在此我們不做導(dǎo)航,而是做多頁處理;3、再看樓盤的房屋明細(xì),樓盤的房屋明細(xì)是一個iframe請求了房屋的明細(xì),通過嗅探器我們可以找到此地址為:/ifrm_HouseList.pub?blid=101903這個頁面顯示了房屋的明細(xì)列表,也就是我們需要采集的數(shù)據(jù);4、小結(jié):通過樓盤的詳細(xì)頁,實(shí)際是做了兩次導(dǎo)航操作,兩次平級的導(dǎo)航,第一次請求樓盤的詳細(xì)信息,第二次請求樓盤房屋的明細(xì),而且是屬于1*N的關(guān)系,一個樓盤對應(yīng)多個房屋信息,針對此種需求,我們無法再用導(dǎo)航來實(shí)現(xiàn),所以,我們采用多頁的形式進(jìn)行配置;下面我們進(jìn)行此采集規(guī)則的配置,新建一個采集任務(wù),首先配置采集網(wǎng)址,采集網(wǎng)址為:/BuildList.pub,我們做一層導(dǎo)航,進(jìn)入樓盤詳細(xì)頁的主頁面,/BuildInfo.pub?blid=101903,然后在此進(jìn)行多頁采集的配置,多頁采集為兩個頁面,第一個為樓盤詳細(xì)頁,第二個為樓盤房屋頁,因?yàn)槭且粚Χ嗟年P(guān)系,所有首先配置樓盤詳細(xì)頁,再配置樓盤房屋頁,如下

點(diǎn)擊“確定”退出,下一步我們配置采集數(shù)據(jù)規(guī)則,我們需要根據(jù)配置的多頁進(jìn)行相應(yīng)規(guī)則的配置,樓盤名稱所屬采集頁;預(yù)(銷)售許可證、開發(fā)商、行政區(qū)、區(qū)位屬于第一個多頁,樓盤詳細(xì)頁;房屋代碼、幢號、單元號、室號、用途、戶型、建筑面積屬于第二個多頁,樓盤房屋頁;配置如下:柔集數(shù)據(jù)名稱所屬頁面數(shù)據(jù)類型規(guī)則類別xPath表...節(jié)點(diǎn)屬性樓盤名稱預(yù)售許可證號開發(fā)商行政區(qū)區(qū)位柔集數(shù)據(jù)名稱所屬頁面數(shù)據(jù)類型規(guī)則類別xPath表...節(jié)點(diǎn)屬性樓盤名稱預(yù)售許可證號開發(fā)商行政區(qū)區(qū)位房屋代碼幢號采隼頁NormalNormalNormalNormalNormalNormalNormal<tddass='Tont_...<Ad>不做任意格m浮耕凈售許可...<Ad>不做任意格口開發(fā)商:<M><Ad>不做任意格日行政區(qū):<M><Ad>不做任意格壬區(qū)位:<Ad><Ad>不做任意格日自定義正貝摳自定義正則四限制條件起始位置結(jié)束位置號元,3-.-nlr面號途型筑室用戶建頁頁頁頁多多多多本本本本

文京文文Normal自定義正貝摳Normal自定義正則qNormal自定義正貝加Normal自定義正則四Normal自定義正貝加配置完成后,測試一下:可以看到,系統(tǒng)會自動將數(shù)據(jù)進(jìn)行合并輸出,而且是按照我們需要的形式進(jìn)行數(shù)據(jù),沒有問題。保存退出,這個采集任務(wù)講解告一段落。從我們今天講解的復(fù)雜關(guān)系數(shù)據(jù)采集的角度而言,我們的講解已經(jīng)結(jié)束,但從實(shí)際的角度講,這個采集規(guī)則,還沒有真正配置完成,因?yàn)闃潜P房屋信息頁存在翻頁的情況,我們需要逐一翻頁將所有的房屋信息采集下來,這樣才能滿足我們的實(shí)際需求。多頁的配置不存在翻頁的處理,那該如何進(jìn)行?這樣我們就又回到了最初所講,通過導(dǎo)航進(jìn)行關(guān)系處理,但同一個頁面要進(jìn)行兩次平級導(dǎo)航,那該如何進(jìn)行呢?在此我們簡單講解一下,請有興趣的朋友自行配置,我們還是進(jìn)行多層導(dǎo)航,進(jìn)行3層導(dǎo)航,第一層,從樓盤列表頁導(dǎo)航進(jìn)行樓盤詳細(xì)頁的主頁,第二層,從樓盤詳細(xì)頁的主頁進(jìn)行樓盤詳細(xì)頁(就是獲取iframe的地址),第三層導(dǎo)航從樓盤的詳細(xì)頁進(jìn)行樓盤房屋信息頁,第三層導(dǎo)航對于網(wǎng)站而言是不存在的,是我們虛構(gòu)出來為了處理數(shù)據(jù)一對多關(guān)系的,網(wǎng)址構(gòu)建可以通過網(wǎng)絡(luò)礦工提供的自定義進(jìn)行處理,在第三層導(dǎo)航進(jìn)行自動翻頁處理,實(shí)現(xiàn)房屋信息頁的翻頁數(shù)據(jù)采集,采集數(shù)據(jù)規(guī)則一樣,但所屬頁面就不是多頁了,而是導(dǎo)航頁,進(jìn)行跨層采集處理,即可實(shí)現(xiàn)我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論