《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集

上傳人：青*** IP屬地：福建上傳時(shí)間：2024-09-14 格式：PPTX 頁(yè)數(shù)：15 大?。?.18MB 積分：2.4 舉報(bào) 版權(quán)申訴

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第2頁(yè)

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第3頁(yè)

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第4頁(yè)

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

公眾號(hào)文章信息采集公眾號(hào)文章信息的采集

本實(shí)例主要采集公眾號(hào)內(nèi)的所有文章信息，如圖所示。通過搜索“讀悅文摘”公眾號(hào)，采集公眾號(hào)內(nèi)的所有文章，要求使用提取數(shù)據(jù)的“自定義數(shù)據(jù)合并方式”保留文章格式，文章圖片位置轉(zhuǎn)化為圖片鏈接保存，并且在鏈接前加“<img>”標(biāo)簽，后加“</img>”標(biāo)簽。采集字段為文章標(biāo)題、文章正文、采集時(shí)間及頁(yè)面網(wǎng)址。步驟1：新建自定義采集任務(wù)

輸入公眾號(hào)名稱。單擊網(wǎng)頁(yè)界面中的輸入框，在“操作提示”面板中單擊“輸入文字”選項(xiàng)，輸入公眾號(hào)名稱“讀悅文摘”，單擊“確定”按鈕。步驟2：輸入實(shí)例網(wǎng)址并保存網(wǎng)址步驟3公眾號(hào)文章信息的采集步驟4

單擊搜公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“搜公眾號(hào)”按鈕，在“操作提示”面板中單擊“點(diǎn)擊該按鈕”選項(xiàng)。公眾號(hào)文章信息的采集步驟5

單擊進(jìn)入公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“讀悅文摘”公眾號(hào)標(biāo)題，并在“操作提示”面板中單擊“點(diǎn)擊該元素”選項(xiàng)。步驟6

循環(huán)單擊商品標(biāo)題。連續(xù)單擊兩個(gè)文章標(biāo)題，八爪魚采集器會(huì)選中所有標(biāo)題，在“操作提示”面板中單擊“循環(huán)點(diǎn)擊每個(gè)元素”選項(xiàng)。公眾號(hào)文章信息的采集步驟7

提取標(biāo)題。單擊網(wǎng)頁(yè)界面中的文章標(biāo)題，在“操作提示”面板中單擊“采集該元素的文本”選項(xiàng)，修改字段名稱為“文章標(biāo)題”，單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟8

建立文章內(nèi)容循環(huán)。為了保留文章原格式，需要對(duì)文章每一段內(nèi)容單獨(dú)提取，然后追加至一個(gè)字段內(nèi)容。從流程圖左側(cè)的工具欄中拖動(dòng)一個(gè)循環(huán)放入指定位置，選中“不固定元素列表”單選項(xiàng)，如圖所示。在下方的“不固定元素列表”文本框中輸入對(duì)應(yīng)XPath來匹配文章的每一段內(nèi)容。本實(shí)例的XPath為“//div[@class="rich_media_content"]//p”。公眾號(hào)文章信息的采集步驟9

判斷每段內(nèi)容是否為圖片。數(shù)據(jù)采集需要將文章內(nèi)的圖片保存為鏈接，可使用判斷條件來判斷每段內(nèi)容是否為圖片。添加判斷條件如圖所示。從流程圖左側(cè)的工具欄中拖動(dòng)判斷條件放入指定位置，在左側(cè)的條件分支中選擇當(dāng)前循環(huán)項(xiàng)包含元素，然后在“元素XPath”文本框中輸入“//img”，單擊“確定”按鈕進(jìn)行保存。公眾號(hào)文章信息的采集步驟10

配置圖片提取數(shù)據(jù)。圖片的提取內(nèi)容為圖片鏈接，并且需要進(jìn)行字段內(nèi)容的格式化，添加前綴“<img>”和后綴“</img>”。單擊文章內(nèi)的任一圖片，在“操作提示”面板中單擊“采集該圖片地址”選項(xiàng)，如上圖所示。將“提取數(shù)據(jù)”模塊拖動(dòng)至左側(cè)的條件分支中，并修改“字段名稱”為文章內(nèi)容，在“高級(jí)選項(xiàng)”區(qū)域中設(shè)置“使用循環(huán)”，這里選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框，如下圖所示。公眾號(hào)文章信息的采集步驟10

要修改“提取數(shù)據(jù)”模塊的自定義元素方式，首先選中文章內(nèi)容字段，待字段變藍(lán)后單擊下方的“自定義數(shù)據(jù)字段”按鈕，然后選擇“自定義定位元素方式”選項(xiàng)，在打開的界面中選中“相對(duì)XPath”復(fù)選框，在右側(cè)的文本框中輸入“//img”，最后單擊“確定”按鈕進(jìn)行保存，如上圖所示。單擊“自定義數(shù)據(jù)字段”按鈕，選擇“格式化數(shù)據(jù)”選項(xiàng)，在打開的界面中單擊“添加步驟”按鈕，選擇“添加前綴”選項(xiàng)，輸入前綴內(nèi)容“<img>”后單擊“確定”按鈕，如下圖所示。添加后綴的方法和添加前綴的方法類似，選擇“添加后綴”選項(xiàng)，輸入后綴內(nèi)容“</img>”。公眾號(hào)文章信息的采集步驟11

正文文本采集。單擊文字部分進(jìn)行提取，拖動(dòng)“提取數(shù)據(jù)”模塊至右側(cè)的分支條件中，無須修改分支內(nèi)容，修改“字段名稱”為“文章內(nèi)容”，在彈出的提示框中詢問已存在同名字段是否繼續(xù)進(jìn)行命名操作，單擊“是”按鈕，選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框。選中文章內(nèi)容字段，待字段變藍(lán)后單擊“自定義數(shù)據(jù)字段”按鈕，然后選擇“自定義定位元素方式”選項(xiàng)，在打開的界面中選中“相對(duì)XPath”復(fù)選框。公眾號(hào)文章信息的采集步驟12

修改自定義數(shù)據(jù)合并方式。分別單擊兩側(cè)“提取數(shù)據(jù)”模塊中的文章內(nèi)容字段，單擊下方的“自定義數(shù)據(jù)字段”按鈕，選擇“自定義數(shù)據(jù)合并方式”選項(xiàng)，然后選中“同一字段多次提取合并為一行，即追加到同一字段。例如正文頁(yè)合并?！眴芜x項(xiàng)，單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟

啟動(dòng)本地采集。單擊“開始采集”按鈕，單擊“啟動(dòng)本地采集”按鈕。公眾號(hào)文章信息的采集步驟

導(dǎo)出數(shù)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《各平臺(tái)數(shù)據(jù)采集及方法》課件-公眾號(hào)文章信息采集

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔