《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第1頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第2頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第3頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第4頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

公眾號(hào)文章信息采集公眾號(hào)文章信息的采集

本實(shí)例主要采集公眾號(hào)內(nèi)的所有文章信息,如圖所示。通過搜索“讀悅文摘”公眾號(hào),采集公眾號(hào)內(nèi)的所有文章,要求使用提取數(shù)據(jù)的“自定義數(shù)據(jù)合并方式”保留文章格式,文章圖片位置轉(zhuǎn)化為圖片鏈接保存,并且在鏈接前加“<img>”標(biāo)簽,后加“</img>”標(biāo)簽。采集字段為文章標(biāo)題、文章正文、采集時(shí)間及頁(yè)面網(wǎng)址。步驟1:新建自定義采集任務(wù)

輸入公眾號(hào)名稱。單擊網(wǎng)頁(yè)界面中的輸入框,在“操作提示”面板中單擊“輸入文字”選項(xiàng),輸入公眾號(hào)名稱“讀悅文摘”,單擊“確定”按鈕。步驟2:輸入實(shí)例網(wǎng)址并保存網(wǎng)址步驟3公眾號(hào)文章信息的采集步驟4

單擊搜公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“搜公眾號(hào)”按鈕,在“操作提示”面板中單擊“點(diǎn)擊該按鈕”選項(xiàng)。公眾號(hào)文章信息的采集步驟5

單擊進(jìn)入公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“讀悅文摘”公眾號(hào)標(biāo)題,并在“操作提示”面板中單擊“點(diǎn)擊該元素”選項(xiàng)。步驟6

循環(huán)單擊商品標(biāo)題。連續(xù)單擊兩個(gè)文章標(biāo)題,八爪魚采集器會(huì)選中所有標(biāo)題,在“操作提示”面板中單擊“循環(huán)點(diǎn)擊每個(gè)元素”選項(xiàng)。公眾號(hào)文章信息的采集步驟7

提取標(biāo)題。單擊網(wǎng)頁(yè)界面中的文章標(biāo)題,在“操作提示”面板中單擊“采集該元素的文本”選項(xiàng),修改字段名稱為“文章標(biāo)題”,單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟8

建立文章內(nèi)容循環(huán)。為了保留文章原格式,需要對(duì)文章每一段內(nèi)容單獨(dú)提取,然后追加至一個(gè)字段內(nèi)容。從流程圖左側(cè)的工具欄中拖動(dòng)一個(gè)循環(huán)放入指定位置,選中“不固定元素列表”單選項(xiàng),如圖所示。在下方的“不固定元素列表”文本框中輸入對(duì)應(yīng)XPath來匹配文章的每一段內(nèi)容。本實(shí)例的XPath為“//div[@class="rich_media_content"]//p”。公眾號(hào)文章信息的采集步驟9

判斷每段內(nèi)容是否為圖片。數(shù)據(jù)采集需要將文章內(nèi)的圖片保存為鏈接,可使用判斷條件來判斷每段內(nèi)容是否為圖片。添加判斷條件如圖所示。從流程圖左側(cè)的工具欄中拖動(dòng)判斷條件放入指定位置,在左側(cè)的條件分支中選擇當(dāng)前循環(huán)項(xiàng)包含元素,然后在“元素XPath”文本框中輸入“//img”,單擊“確定”按鈕進(jìn)行保存。公眾號(hào)文章信息的采集步驟10

配置圖片提取數(shù)據(jù)。圖片的提取內(nèi)容為圖片鏈接,并且需要進(jìn)行字段內(nèi)容的格式化,添加前綴“<img>”和后綴“</img>”。單擊文章內(nèi)的任一圖片,在“操作提示”面板中單擊“采集該圖片地址”選項(xiàng),如上圖所示。將“提取數(shù)據(jù)”模塊拖動(dòng)至左側(cè)的條件分支中,并修改“字段名稱”為文章內(nèi)容,在“高級(jí)選項(xiàng)”區(qū)域中設(shè)置“使用循環(huán)”,這里選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框,如下圖所示。公眾號(hào)文章信息的采集步驟10

要修改“提取數(shù)據(jù)”模塊的自定義元素方式,首先選中文章內(nèi)容字段,待字段變藍(lán)后單擊下方的“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框,在右側(cè)的文本框中輸入“//img”,最后單擊“確定”按鈕進(jìn)行保存,如上圖所示。單擊“自定義數(shù)據(jù)字段”按鈕,選擇“格式化數(shù)據(jù)”選項(xiàng),在打開的界面中單擊“添加步驟”按鈕,選擇“添加前綴”選項(xiàng),輸入前綴內(nèi)容“<img>”后單擊“確定”按鈕,如下圖所示。添加后綴的方法和添加前綴的方法類似,選擇“添加后綴”選項(xiàng),輸入后綴內(nèi)容“</img>”。公眾號(hào)文章信息的采集步驟11

正文文本采集。單擊文字部分進(jìn)行提取,拖動(dòng)“提取數(shù)據(jù)”模塊至右側(cè)的分支條件中,無須修改分支內(nèi)容,修改“字段名稱”為“文章內(nèi)容”,在彈出的提示框中詢問已存在同名字段是否繼續(xù)進(jìn)行命名操作,單擊“是”按鈕,選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框。選中文章內(nèi)容字段,待字段變藍(lán)后單擊“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框。公眾號(hào)文章信息的采集步驟12

修改自定義數(shù)據(jù)合并方式。分別單擊兩側(cè)“提取數(shù)據(jù)”模塊中的文章內(nèi)容字段,單擊下方的“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”選項(xiàng),然后選中“同一字段多次提取合并為一行,即追加到同一字段。例如正文頁(yè)合并?!眴芜x項(xiàng),單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟

13

啟動(dòng)本地采集。單擊“開始采集”按鈕,單擊“啟動(dòng)本地采集”按鈕。公眾號(hào)文章信息的采集步驟

14

導(dǎo)出數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論