網(wǎng)文章正文采集方法,以微信文章采集為例_第1頁
網(wǎng)文章正文采集方法,以微信文章采集為例_第2頁
網(wǎng)文章正文采集方法,以微信文章采集為例_第3頁
網(wǎng)文章正文采集方法,以微信文章采集為例_第4頁
網(wǎng)文章正文采集方法,以微信文章采集為例_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、網(wǎng)頁文章正文采集方法,以及微信文章采集為例當我們想要將今日頭條上的新聞、搜狗微信上的文章正文內(nèi)容保存下來的時候,怎么辦?一篇篇復(fù)制粘貼?選擇一款通用的網(wǎng)頁數(shù)據(jù)采集器,將會使工作簡單很多。八爪魚是一款通用的網(wǎng)頁數(shù)據(jù)采集器,可采集互聯(lián)網(wǎng)上的公開數(shù)據(jù)。用戶可以設(shè)置從哪個網(wǎng)站爬取數(shù)據(jù),爬取那些數(shù)據(jù),爬取什么范圍的數(shù)據(jù),什么時候去爬取數(shù)據(jù),爬取的數(shù)據(jù)如何保存等等。言歸正傳,本文將以搜狗微信的文章正文采集為例,講解使用八爪魚采集網(wǎng)頁文章正文的方法。文章正文采集,主要有兩大類情況:一、采集文章正文中的文本,不含圖片;二、采集文章正文中的文本和圖片URL。示例網(wǎng)站: HYPERLINK / /使用功能點:Xp

2、ath HYPERLINK /search?query=XPath /search?query=XPath判斷條件 HYPERLINK /tutorialdetail-1/judge.html /tutorialdetail-1/judge.html分頁列表信息采集 HYPERLINK /tutorial/fylb-70.aspx?t=1 /tutorial/fylb-70.aspx?t=1AJAX滾動教程 HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.htmlAJAX點擊和翻頁/tutorialdetail-

3、1/ajaxdjfy_7.html采集文章正文中的文本,不含圖片具體步驟:步驟1:創(chuàng)建采集任務(wù)1)進入主界面,選擇“自定義模式”網(wǎng)頁文章正文采集步驟12)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點擊“保存網(wǎng)址”網(wǎng)頁文章正文采集步驟2 HYPERLINK /article/javascript:; 步驟2:創(chuàng)建翻頁循環(huán)在頁面右上角,打開“流程”,以展現(xiàn)出“流程設(shè)計器”和“定制當前操作”兩個板塊。網(wǎng)頁打開后,默認顯示“熱門”文章。下拉頁面,找到并點擊“加載更多內(nèi)容”按鈕,在操作提示框中,選擇“更多操作”網(wǎng)頁文章正文采集步驟3選擇“循環(huán)點擊單個元素”,以創(chuàng)建一個翻頁循環(huán)網(wǎng)頁文章正文采集步驟4由于

4、此網(wǎng)頁涉及Ajax技術(shù),我們需要進行一些高級選項的設(shè)置。選中“點擊元素”步驟,打開“高級選項”,勾選“Ajax加載數(shù)據(jù)”,設(shè)置時間為“2秒”網(wǎng)頁文章正文采集步驟5注:AJAX即延時加載、異步更新的一種腳本技術(shù),通過在后臺與服務(wù)器進行少量數(shù)據(jù)交換,可以在不重新加載整個網(wǎng)頁的情況下,對網(wǎng)頁的某部分進行更新。具體請看AJAX點擊和翻頁教程:/tutorialdetail-1/ajaxdjfy_7.html觀察網(wǎng)頁,我們發(fā)現(xiàn),通過5次點擊“加載更多內(nèi)容”,頁面加載到最底部,一共顯示100篇文章。因此,我們設(shè)置整個“循環(huán)翻頁”步驟執(zhí)行5次。選中“循環(huán)翻頁”步驟,打開“高級選項”,打開“滿足以下條件時退出

5、循環(huán)”,設(shè)置循環(huán)次數(shù)等于“5次”,點擊“確定”網(wǎng)頁文章正文采集步驟6步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù) HYPERLINK /article/javascript:; 移動鼠標,選中頁面里第一條文章鏈接。系統(tǒng)會自動識別相似鏈接,在操作提示框中,選擇“選中全部”網(wǎng)頁文章正文采集步驟7選擇“循環(huán)點擊每個鏈接”網(wǎng)頁文章正文采集步驟8系統(tǒng)會自動進入文章詳情頁。點擊需要采集的字段(這里先點擊了文章標題),在操作提示框中,選擇“采集該元素的文本”。文章發(fā)布時間、文章來源字段的采集方法同理網(wǎng)頁文章正文采集步驟9接下來開始采集文章正文。先點擊文章正文的第一段,系統(tǒng)會自動識別頁面內(nèi)的同類元素,選擇“選中全部”網(wǎng)頁文

6、章正文采集步驟105)可以看到,所有的正文段落均被選中,變?yōu)榫G色。選擇“采集以下元素文本”網(wǎng)頁文章正文采集步驟11注意:在字段表中,可進行字段的自定義修改網(wǎng)頁文章正文采集步驟126)經(jīng)過如上操作,正文就會被全部采集下來(默認為每一段正文為一個單元格)。一般而言,我們希望采集的正文,合并為同一個單元格。點擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,勾選“同一字段多次提取合并為一行,即追加到同一字段,例如正文分頁合并”,再點擊“確定”網(wǎng)頁文章正文采集步驟13“自定義數(shù)據(jù)字段”按鈕網(wǎng)頁文章正文采集步驟14選擇“自定義數(shù)據(jù)合并方式”網(wǎng)頁文章正文采集步驟15如圖進行勾選步驟4:修改Xpath1

7、)選中整個“循環(huán)步驟”,打開“高級選項”,可以看到,八爪魚默認生成的是固定元素列表,定位的是前20篇文章的鏈接網(wǎng)頁文章正文采集步驟162)在火狐瀏覽器中打開要采集的網(wǎng)頁并觀察源碼。我們發(fā)現(xiàn),通過此條Xpath:/DIVclass=main-left/DIV3/UL/LI/DIV2/H31/A,頁面中所需的100篇文章均被定位了網(wǎng)頁文章正文采集步驟173)將修改后的Xpath,復(fù)制粘貼到八爪魚中所示位置,然后點擊“確定”網(wǎng)頁文章正文采集步驟18步驟5:修改流程圖結(jié)構(gòu)我們繼續(xù)觀察,通過5次點擊“加載更多內(nèi)容”后,此網(wǎng)頁加載出全部100篇文章。因而我們配置規(guī)則的思路是,先建立翻頁循環(huán),加載出全部10

8、0篇文章,再建立循環(huán)列表,提取數(shù)據(jù)1)選中整個“循環(huán)”步驟,將其拖出“循環(huán)翻頁”步驟。如果不進行此項操作,那么將會出現(xiàn)很多重復(fù)數(shù)據(jù)網(wǎng)頁文章正文采集步驟19拖動完成后,如下圖所示網(wǎng)頁文章正文采集步驟20步驟6:數(shù)據(jù)采集及導(dǎo)出1)點擊左上角的“保存”,然后點擊“開始采集”,選擇“啟動本地采集”網(wǎng)頁文章正文采集步驟21采集完成后,會跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出網(wǎng)頁文章正文采集步驟223)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖網(wǎng)頁文章正文采集步驟23如上圖,部分文章的正文沒有采集到。那是因為,系統(tǒng)自動生成的文章正文的循環(huán)列表的Xpath:/id

9、=js_content/P,定位不到此篇文章的正文。將Xpath修改為:/id=js_content/P,所有的文章正文均可被定位到。再次啟動采集,所有文章的正文內(nèi)容,均被采集到了網(wǎng)頁文章正文采集步驟24修改Xpath前網(wǎng)頁文章正文采集步驟25修改Xpath后經(jīng)過如上操作,目標網(wǎng)址中的微信文章正文中的全部文本被采集下來。如果還需采集圖片,則需往已有的規(guī)則中,加入一個判斷條件。采集文章正文中的文本和圖片URL接一中的步驟6步驟7:增加判斷條件經(jīng)過前6個步驟,我們僅采集了微信文章里的文本內(nèi)容,并不包括文章里的圖片。如果需要采集圖片,則需往規(guī)則里加入一個判斷條件:對文章內(nèi)容列表進行判斷,如果包含im

10、g元素(圖片),則執(zhí)行圖片采集分支;如果不包含img元素(圖片),則執(zhí)行文本采集分支。同時,在八爪魚中,默認對左側(cè)分支,設(shè)置判斷條件,滿足此判斷條件,則執(zhí)行左側(cè)分支;默認最右側(cè)分支為“不判斷,總是執(zhí)行該分支”,即當不滿足左側(cè)分支的判斷條件時,則執(zhí)行最右側(cè)分支?;氐酱艘?guī)則,即對左側(cè)分支設(shè)置條件:如果包含img元素(圖片),則執(zhí)行左側(cè)分支;如果不滿足左側(cè)條件分支的條件(即不包含img元素),則執(zhí)行右側(cè)分支。具體操作如下:從左側(cè)工具欄,往流程中拖入一個“判斷條件”步驟(選定圖標拖住不放,拖入箭頭所示的綠色加號位置)網(wǎng)頁文章正文采集步驟26流程圖中出現(xiàn)判斷條件。我們將“提取數(shù)據(jù)”步驟,移動到右側(cè)分支中

11、(綠色加號處)。再點擊右側(cè)分支,在出現(xiàn)的結(jié)果頁面(分支條件檢測結(jié)果-檢測結(jié)果總是True)點擊“確定”網(wǎng)頁文章正文采集步驟27將“提取元素”步驟,拖入右側(cè)分支網(wǎng)頁文章正文采集步驟28右側(cè)分支-檢測結(jié)果總是True點擊左側(cè)分支,在出現(xiàn)的結(jié)果頁面(分支條件檢測結(jié)果-檢測結(jié)果總是True)點擊“確定”。然后對其設(shè)置判斷條件:勾選“當前循環(huán)項包含元素”,輸入元素Xpath:/img(代表圖片),再點擊“確定”網(wǎng)頁文章正文采集步驟29點擊左側(cè)分支對左側(cè)分支,設(shè)置判斷條件網(wǎng)頁文章正文采集步驟304)左側(cè)分支條件設(shè)置完畢后,再進行提取數(shù)據(jù)步驟。從左側(cè)工具欄,拖入一個“提取數(shù)據(jù)”步驟,到流程圖中的左側(cè)分支中(

12、綠色加號處),然后選中頁面內(nèi)一張圖片,在操作提示框中,選擇“采集該圖片地址”拖入新的“提取數(shù)據(jù)”步驟,到左側(cè)分支網(wǎng)頁文章正文采集步驟31采集圖片地址網(wǎng)頁文章正文采集步驟325)選中右側(cè)分支的“提取數(shù)據(jù)”步驟,點擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,將紅框中的“元素匹配的Xpath”:/*id=js_content/p1/span1與“相對Xpath”:/span1,記錄下來自定義定位元素方式網(wǎng)頁文章正文采集步驟33元素匹配的Xpath、“相對Xpath”網(wǎng)頁文章正文采集步驟346)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,參照右側(cè)分

13、支相同位置的Xpath進行修改:“元素匹配的Xpath”改為:/*id=js_content/p1/img1,“相對Xpath”改為:/img1,然后點擊“確定”網(wǎng)頁文章正文采集步驟357)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,如圖進行勾選。勾選后,多次提取的正文將追加為一個字段網(wǎng)頁文章正文采集步驟368)注意,在八爪魚中,判斷條件里各分支中的“提取數(shù)據(jù)”步驟中的字段名需相同,字段個數(shù)需一致。這里,我們將左右兩個分支中,提取的字段名均改為“正文”(判斷條件教程,請參考: HYPERLINK /tutorialdetail-1/judge.htm

14、l /tutorialdetail-1/judge.html)網(wǎng)頁文章正文采集步驟379)如上,整個判斷條件設(shè)置完畢。點擊左上角的“保存”并“開始采集”。我們發(fā)現(xiàn),在導(dǎo)出的excel表格中,圖片地址為一堆亂碼。這是為什么呢?繼續(xù)觀察網(wǎng)頁搜狗微信文章正文里的圖片,需下拉滾動,才能加載出來,加載出來后才能采集到正確的圖片地址。因而,在打開文章后,需對其進行設(shè)置“頁面加載完成后向下滾動”。在這里,設(shè)置滾動次數(shù)為“30次”,每次間隔“2秒”,滾動方式為“向下滾動一屏”網(wǎng)頁文章正文采集步驟38微信文章正文里的圖片,需下拉滾動,才能加載出來設(shè)置“頁面加載完成后向下滾動”網(wǎng)頁文章正文采集步驟39注意:這里的

15、滾動次數(shù)、時間、方式的設(shè)置,會影響采集數(shù)據(jù)的速度、質(zhì)量。本文僅做參考,大家可按需設(shè)置可參考AJAX滾動教程: HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.html10)重新啟動采集,并導(dǎo)出數(shù)據(jù),數(shù)據(jù)導(dǎo)出后如圖所示:網(wǎng)頁文章正文采集步驟40導(dǎo)出數(shù)據(jù)網(wǎng)頁文章正文采集步驟41數(shù)據(jù)示例說明:因搜狗微信文章中的圖片,需經(jīng)過下拉滾動,方可加載出來。在采集過程中,大量時間用在等待圖片加載,因而采集速度較慢。如果沒有采集圖片的需求,直接使用文本采集,無需等待圖片加載,采集速度會快很多。相關(guān)采集教程:百度搜索結(jié)果采集新浪微博數(shù)據(jù)采集豆瓣電影短評采集八爪魚70萬用戶選擇的網(wǎng)頁數(shù)據(jù)采集器。1、操作簡單,任何人都可以用:無需技術(shù)背景,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論