小豬采集器規(guī)則制作_第1頁
小豬采集器規(guī)則制作_第2頁
小豬采集器規(guī)則制作_第3頁
小豬采集器規(guī)則制作_第4頁
小豬采集器規(guī)則制作_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上1.何時才需要做小豬采集規(guī)則小豬內(nèi)置了數(shù)百種采集規(guī)則(內(nèi)置規(guī)則無法修改),方便了用戶使用,不過網(wǎng)頁(模板)是千變?nèi)f化的,當(dāng)Ctrl+b預(yù)覽不到內(nèi)容、或者預(yù)覽到的內(nèi)容不符合您要求的時候,就需要制作采集規(guī)則了。注意點:小豬采集規(guī)則主要功能是提取字符、網(wǎng)址; 采集回復(fù)數(shù)量、關(guān)鍵詞SEO、偽原創(chuàng)、圖片/附件下載、發(fā)布切換用戶、發(fā)布時間間隔等是通過“采集方案”來控制,并且這些是運行均是自動化的。2.小豬采集規(guī)則的作用采集規(guī)則,顧名思義,就是采集用的,將網(wǎng)頁上的內(nèi)容提取整理成適合的形式,以便于發(fā)布到網(wǎng)站或者存儲到CSV數(shù)據(jù)表格里面。補充: 小豬采集規(guī)則實際包含了 采集規(guī)則+發(fā)布規(guī)

2、則 ,這么設(shè)計的好處,可以處理交互式的網(wǎng)頁,實現(xiàn)自動登錄、回復(fù)、購買等互動采集,普通采集器很難實現(xiàn)這些互動處理,比如在論壇的帖子頁,可以采集這個帖子,也可以對這個帖子進行回復(fù)后再采集,當(dāng)然,大部分情況下是不需要做發(fā)布規(guī)則的,請按需選擇。3.小豬采集規(guī)則的兼容性小豬的采集規(guī)則處理的對象是“網(wǎng)頁模板”,普通的網(wǎng)站一般只用一套模板,這種網(wǎng)頁就有規(guī)律可循,比如相同模板的列表頁只需要制作一條列表采集規(guī)則。小結(jié) : 網(wǎng)站的發(fā)布內(nèi)容展示在網(wǎng)頁上,通過“網(wǎng)頁模板”展示出來,軟件則是通過對應(yīng)的“采集規(guī)則”來解密出網(wǎng)頁的內(nèi)容,小豬規(guī)則相當(dāng)于是“鑰匙”,不同的鑰匙打開不同的“網(wǎng)頁模板”。4.小豬采集規(guī)則的獨立性與調(diào)

3、用小豬軟件采集規(guī)則,是互相獨立,又互相配合的,并且規(guī)則和任務(wù)也是獨立的。小豬的各個任務(wù)會自動調(diào)用“已經(jīng)打鉤”的本地規(guī)則、內(nèi)置規(guī)則、云規(guī)則等,所以制作好規(guī)則后,就可以測試采集了,任務(wù)會自動調(diào)用,無需手工再次選擇。5.采集頁面深度小豬理論上支持采集支持無限深度,原理是通過不同的規(guī)則識別不同的網(wǎng)頁模板,也就是抓取不同的頁面深度。對于更復(fù)雜的需求,還可以通過p語言來實現(xiàn),比如通過p語言抓取相關(guān)的網(wǎng)頁頁面字符和當(dāng)前頁面字符進行拼接組合。第四節(jié) 實戰(zhàn)編寫小豬規(guī)則有些用戶可能比較心急,這一節(jié)講解如何操作,不過我們建議大家有空的話還是看全 五節(jié)教程的文字部分,這樣能基本掌握小豬規(guī)則的制作方法。 (0 Byte

4、s, 下載次數(shù): 862) 2011-12-19 13:03:56 上傳下載次數(shù): 862 ,新手可以參考此表來編寫小豬規(guī)則。建議按順序看以下視頻教程:序號視頻教程說明視頻下載地址本地下載教程規(guī)則下載1編輯規(guī)則相關(guān)界面介紹2正文采集規(guī)則制作方法 (428 Bytes, 下載次數(shù): 641) 2011-12-19 14:44:17 上傳下載次數(shù): 641 3列表采集規(guī)則制作方法 (481 Bytes, 下載次數(shù): 607) 2011-12-19 14:44:30 上傳下載次數(shù): 607 4論壇帖子采集規(guī)則制作 5視頻采集規(guī)則制作(包含采集視頻評論) 以下為文字說明和相關(guān)注意點:正文規(guī)則制作教程正

5、文規(guī)則是為了采集到 標(biāo)題、內(nèi)容(包括圖片、附件網(wǎng)址),以及獲取正確的翻頁網(wǎng)址,便于實時發(fā)布。一、在文章頁面,CTRL+B 測試獲取內(nèi)容不正確,就需要做正文規(guī)則二、右鍵點“本地規(guī)則庫”-制作當(dāng)前網(wǎng)頁采集規(guī)則編輯正文規(guī)則方法如下:操作順序配置名操作方法和注意點1全局區(qū)設(shè)置規(guī)則名稱和規(guī)則類型,一般是選擇源代碼,正文頁類型2標(biāo)題鼠標(biāo)框選網(wǎng)頁上標(biāo)題區(qū)域,右鍵菜單-內(nèi)容采集-此處取標(biāo)題,其他配置名均可以如此操作3正文注意:只有在要采集回復(fù)、評論,才需要設(shè)置“首帖區(qū)域”“單元區(qū)域” 4正文下一頁網(wǎng)址如果有翻頁,設(shè)置翻頁地址,便于軟件自動采集文章分頁注意:如果是論壇帖子的翻頁,需要設(shè)置為“下一頁網(wǎng)址”5識別區(qū)

6、回過頭來,用正文的 class屬性,設(shè)置 識別區(qū)內(nèi)容必包含保存規(guī)則,打開其他正文頁面測試是否獲取正常,是否調(diào)用到了此正文采集規(guī)則。小結(jié): 制作文章類型的正文規(guī)則,主要設(shè)置“配置名”中的識別區(qū)、標(biāo)題、正文、正文下一頁。注意點:識別區(qū)務(wù)必要設(shè)置,識別區(qū)的重要性在第二節(jié)中有相關(guān)說明。列表規(guī)則的制作教程列表規(guī)則起到導(dǎo)航的作用,便于軟件抓取到正文網(wǎng)址,采集正文內(nèi)容。一、打開版塊列表頁,CTRL+B 測試獲取內(nèi)容不正確,就需要做列表規(guī)則此教程中,內(nèi)置規(guī)則能正常識別到列表,只是演示制作方法二、右鍵點“本地規(guī)則庫”-制作當(dāng)前網(wǎng)頁采集規(guī)則編輯列表規(guī)則方法如下:操作順序配置名操作方法和注意點1全局區(qū)設(shè)置規(guī)則名稱和

7、類型,一般是選擇源代碼,列表頁類型2單元區(qū)域單元區(qū)域:重復(fù)的HTML塊,比如列表上的標(biāo)題一般都有規(guī)律可循鼠標(biāo)框選網(wǎng)頁上第一個文章鏈接區(qū)域,右鍵送入“單元區(qū)域”小技巧:列表規(guī)則單元區(qū)域可以直接輸入 “正文網(wǎng)址”的特征,軟件會自動抓取這些鏈接檢查標(biāo)題、正文顯示內(nèi)容是否正確,如果不對需要修改3有效區(qū)域可以通過“有效區(qū)域”來限定獲取內(nèi)容的范圍,比如排除置頂帖4下一頁網(wǎng)址找到翻頁地址并設(shè)置,便于軟件自動翻頁采集5識別區(qū)回過頭來,用單元區(qū)域的 class屬性,設(shè)置 識別區(qū)內(nèi)容必包含如果一時找不到,可以將正文規(guī)則的class屬性,設(shè)置到 識別區(qū)-內(nèi)容不包含 里面這樣就簡單實現(xiàn)2個規(guī)則互不干擾注意:要在列表頁

8、源代碼中搜索一下class屬性,檢查并確定沒有此字段,才可用此方法保存規(guī)則,打開其他列表頁面測試是否獲取正常,是否調(diào)用到了此列表采集規(guī)則。小結(jié): 制作列表采集規(guī)則,主要設(shè)置了“配置名”中的單元區(qū)域、下一頁網(wǎng)址、識別區(qū)。注意點:尋找單元區(qū)域有一定的技巧,需要耐心,同樣,識別區(qū)非常重要,務(wù)必設(shè)置好識別區(qū)第二節(jié) 小豬瀏覽器采集規(guī)則執(zhí)行原理小豬瀏覽器常用的采集規(guī)則主要有三類:列表規(guī)則、正文規(guī)則(根據(jù)是否采集回復(fù)、評論,還可以分2種)、下載規(guī)則。首先理解要做哪些規(guī)則:序號網(wǎng)頁類型制作規(guī)則類型及注意點1版塊列表頁面列表規(guī)則,“單元區(qū)域”設(shè)置列表網(wǎng)址的特征值,或者正文網(wǎng)址所在重復(fù)區(qū)塊的特征值2文章類頁面(不

9、采集回復(fù))正文規(guī)則,不需要用到單元區(qū)域3帖子類頁面(需回復(fù)、評論)正文規(guī)則,需要用到單元區(qū)域?qū)τ谟行┚W(wǎng)頁評論和回復(fù)不在重復(fù)區(qū)塊內(nèi),還需要用到首帖區(qū)域4跳轉(zhuǎn)的附件下載頁面下載規(guī)則自編采集規(guī)則可以和軟件內(nèi)置采集規(guī)則配合使用,比如軟件內(nèi)置規(guī)則能識別出列表頁面,但是無法識別正文頁面,那么我們只需要制作正文采集規(guī)則就可以了。為了讓這些規(guī)則互相不沖突,需要用到“識別區(qū)”,識別區(qū)的意義,是讓規(guī)則只識別某一類網(wǎng)址、某一種模板,讓規(guī)則分工協(xié)調(diào)。和普通采集器不一樣的是,小豬規(guī)則是智能調(diào)用的,規(guī)則打鉤即生效,軟件通過識別區(qū)來自動匹配網(wǎng)頁所對應(yīng)的規(guī)則。識別區(qū)有4個特征選項序號識別區(qū)說明(特征字符是固定的字符,請按行填

10、寫,不支持通配符號)1網(wǎng)址必包含只有網(wǎng)址包含了這些特征字符,才調(diào)用此規(guī)則技巧:新建規(guī)則時,軟件會自動填入完整域名,有時候可以去掉二級前綴來擴大規(guī)則識別范圍2網(wǎng)址不包含當(dāng)網(wǎng)址包含這些特征字符的時候,則不調(diào)用此規(guī)則3內(nèi)容必包含當(dāng)網(wǎng)頁代碼中帶有網(wǎng)頁模板特征字符、文字,調(diào)用此規(guī)則網(wǎng)頁代碼:制作規(guī)則所針對的網(wǎng)頁代碼來源,如網(wǎng)頁源代碼技巧:我們常用 標(biāo)題、正文、或者區(qū)域的 class=* 等HTML屬性,這些一般是網(wǎng)頁模板的特征字符4內(nèi)容不包含當(dāng)網(wǎng)頁代碼中包含了這些特征字符,則不調(diào)用此規(guī)則根據(jù)排列組合原理,小豬識別區(qū)理論上可以識別無限個網(wǎng)頁(模板),利用好識別區(qū),可以讓規(guī)則匹配不同的網(wǎng)頁生效。相關(guān)html

11、代碼屬性,可以參考下面的第五節(jié)學(xué)習(xí)。采集規(guī)則編輯流程圖如下,紅線示意了規(guī)則循環(huán)執(zhí)行原理擴展一下:一級列表規(guī)則也可以指向二級列表規(guī)則,直至抓到最終的正文頁面;類似于蜘蛛爬行原理,而我們需要更精確和可控的內(nèi)容,所以需要制作對應(yīng)的小豬采集規(guī)則。(蜘蛛爬行是順著網(wǎng)頁鏈接來抓取對應(yīng)的內(nèi)容,有一定“隨機性”)2011-12-11 18:48:32 上傳 小豬瀏覽器采集規(guī)則流程圖 當(dāng)前在線 在線時間5027 小時最后登錄2013-3-21154 活力14464 論壇幣2275 注冊時間2010-7-7閱讀權(quán)限200帖子主題精華6積分40199UID7164 TA的每日心情奮斗2013-3-3 13:02:5

12、7簽到天數(shù): 206 天LV.7常住居民III最后登錄2013-3-21154 注冊時間2010-7-7積分40199主題帖子 發(fā)表于 2011-12-11 22:22:58 | 第三節(jié)規(guī)則編輯操作簡述一、規(guī)則編輯,相關(guān)界面介紹:序號功能區(qū)名稱位置作用及相關(guān)功能介紹1規(guī)則管理區(qū)工具欄-規(guī)則標(biāo)簽管理規(guī)則的地方,可以執(zhí)行新建、刪除規(guī)則等操作(打鉤的規(guī)則才生效)Misc:自動整理的規(guī)則會放到此文件夾Poster:發(fā)布子規(guī)則文件夾,可以新建和管理發(fā)布子規(guī)則Recycle:此文件夾內(nèi)的規(guī)則不參與規(guī)則沖突檢查,可以用此文件夾屏蔽規(guī)則2規(guī)則編輯器編輯規(guī)則窗口編輯、調(diào)試具體的規(guī)則左邊:規(guī)則總覽區(qū),一覽檢查規(guī)則

13、完成度中間:配置代碼編輯區(qū),快速編輯配置名 輸出:實時顯示配置名的測試結(jié)果右邊:p語言函數(shù)說明3代碼及抓包工具(快捷鍵F8)html代碼窗口查看網(wǎng)頁HTML代碼,內(nèi)置抓包工具,便于調(diào)試和測試代碼樹:根據(jù)源代碼和瀏覽器代碼生成的樹狀目錄結(jié)構(gòu)源代碼:網(wǎng)頁服務(wù)器端代碼,一般針對源代碼做規(guī)則瀏覽器代碼:經(jīng)過瀏覽器解釋過的客戶端網(wǎng)頁代碼(效率偏低)瀏覽包:用戶訪問網(wǎng)頁產(chǎn)生的數(shù)據(jù)包軟件包:軟件自動執(zhí)行相關(guān)的數(shù)據(jù)包小豬規(guī)則編輯器新特性:所見即所得,編輯的代碼可以在瀏覽網(wǎng)頁中同步高亮顯示,便于檢查結(jié)果。二、編輯規(guī)則基本操作方法:1.瀏覽器中,打開需要制作規(guī)則的網(wǎng)頁2.右鍵點擊“本地規(guī)則庫”,新建采集規(guī)則3.在

14、瀏覽器中,鼠標(biāo)框選內(nèi)容,通過右鍵菜單送入相應(yīng)的“配置名”中(單元區(qū)域選第一個重復(fù)區(qū)域,識別成功率會較高)4.檢查“配置名”獲取到的內(nèi)容是否正確分析方法:1.分析代碼樹,鼠標(biāo)框選內(nèi)容,定位到代碼樹,比如:通過代碼樹快速分析出重復(fù)的“單元區(qū)域”;2.在網(wǎng)頁上,選擇一定的區(qū)域,右鍵菜單查看網(wǎng)頁代碼,可以快速查看源代碼片段,比如分析下一頁代碼,或者在源代碼中搜索,分析相關(guān)的源代碼。檢查結(jié)果的方法:1.點擊配置名,檢查瀏覽器網(wǎng)頁上對應(yīng)高亮顯示區(qū)域;2.規(guī)則編輯器下方“輸出”窗口會顯示測試內(nèi)容;3.規(guī)則保存后,預(yù)覽結(jié)果(ctrl+b)是最終驗證規(guī)則是否有效的手段。 當(dāng)前在線 在線時間5027 小時最后登錄

15、2013-3-21154 活力14464 論壇幣2275 注冊時間2010-7-7閱讀權(quán)限200帖子主題精華6積分40199UID7164 TA的每日心情奮斗2013-3-3 13:02:57簽到天數(shù): 206 天LV.7常住居民III最后登錄2013-3-21154 注冊時間2010-7-7積分40199主題帖子 發(fā)表于 2011-12-11 22:27:30 | 第五節(jié) 小豬規(guī)則編輯器中,獲取及處理內(nèi)容“配置名”的編輯方法這邊說的“配置名”,主要側(cè)重預(yù)置的“配置名”如 “標(biāo)題”“正文”等,“自定義標(biāo)簽”對應(yīng)的配置名請看第六節(jié)。小豬規(guī)則編輯器 的采集 “配置名”,一般有1-4種普通處理方法(

16、普通情況下用不到p語言),并且大部分時候只需通過 在網(wǎng)頁上取值就可以,這邊主要講解如何手工編輯:注意:類似 id=idwebpig*這樣的代碼,是規(guī)則管理器生成代碼樹用的,并非源代碼,做規(guī)則的時候一定不能帶這樣的代碼,否則規(guī)則會失效。2011-12-19 23:12:27 上傳 如圖紅色箭頭標(biāo)出了“總覽區(qū)”和“配置名編輯”的對應(yīng)關(guān)系,藍(lán)色框子是配置名的處理方法,具體講解如下:一、獲取內(nèi)容:獲取內(nèi)容是小豬規(guī)則里最常用的方法,大部分時候,通過“獲取內(nèi)容”就可以制作出需要的規(guī)則代碼了。了解一些html代碼知識會有幫助(見下面補充說明)。 1. 這是標(biāo)題 12. 段落13. 4. 這是標(biāo)題25. 段落

17、26. 復(fù)制代碼如上面源代碼,html代碼是閉合的,開始,閉合,兩個代碼成對出現(xiàn),我們一般稱之為一個HTML塊。在小豬編輯器里面,輸入 1. h1復(fù)制代碼,就能提取到標(biāo)題了,不需要寫結(jié)尾,規(guī)則編輯器會自動匹配結(jié)尾。精準(zhǔn)定位的方法:上例中,有2個段落,需要獲得 段落2,可以這樣寫,這樣是用 class=news 屬性來進行一次定位,指定獲取第二個p 1. class=news2. p語言-塊刪除-p語言-標(biāo)簽過濾=UBB2. 第二階段 UBB代碼處理:UBB=正則過濾-p語言=結(jié)果(ubb)3. 第三階段 UBB代碼處理:結(jié)果(ubb)=后處理(p語言)=最終結(jié)果(ubb)復(fù)制代碼小豬規(guī)則解釋器

18、采集過程是將網(wǎng)頁內(nèi)容先進行標(biāo)準(zhǔn)化處理,轉(zhuǎn)換成 UBB代碼后,再按發(fā)布網(wǎng)站源程序,自動選擇對應(yīng)的編碼發(fā)布。補充:為了縮小獲取內(nèi)容(不包括標(biāo)題和下一頁)的范圍,小豬編輯器引入了有效區(qū)域概念,限定采集內(nèi)容的范圍(不包括標(biāo)題、版塊地圖、翻頁),注意:有效區(qū)域設(shè)置不當(dāng)會獲取不到內(nèi)容。有效區(qū)域的技巧:只想采集從 “版塊主題” 之后正文網(wǎng)址,可以用第3行序號有效區(qū)域開始有效區(qū)域結(jié)束有效區(qū)域含義1只寫代碼開頭空表示循環(huán)獲取此html塊為有效區(qū)域,針對列表規(guī)則獲取鏈接非常有效2版塊主題從網(wǎng)頁開頭到“版塊主題”結(jié)束的代碼區(qū)域,是普通網(wǎng)頁的開始代碼3版塊主題從“版塊主題”開始直到代碼結(jié)束的代碼區(qū)域,是普通網(wǎng)頁的結(jié)束

19、代碼下面表格列出了一些常用的html代碼,了解這些代碼定義,能極大的提高規(guī)則制作效率,主要看序號1-5代碼,其中 標(biāo)準(zhǔn)屬性(常用部分),是我們經(jīng)常用到的定位特征代碼,如class=*(因為這個屬性通常來說是唯一的,并且??梢宰鳛樽R別區(qū)-內(nèi)容識別代碼) 。序號名稱/定義HTML代碼標(biāo)準(zhǔn)屬性(常用部分)鏈接代碼結(jié)束1標(biāo)題h1-6id, class, title2文檔中的分區(qū)或節(jié)divid, class, title3組合文檔中的行內(nèi)元素spanid, class, title4錨,鏈接aid, class, titlehref=鏈接5向網(wǎng)頁中嵌入一幅圖像imgid, class, titlesrc=圖片鏈接6段落id, class, title7塊引用id, class, title8列表項目id, class, title9定義列表id, class, title10列表中的項目(即術(shù)語部分)id, class, title11無序列表id, class, title12表格id, class, title13表格內(nèi)的表頭單元格id, class, title14表格中的標(biāo)準(zhǔn)單元格id, class, title15表格中的行id, class, title16規(guī)定文本的字體、字體尺寸、字體顏色id, class, title17f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論