《各平臺(tái)數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第1頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第2頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第3頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第4頁(yè)
《各平臺(tái)數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

銀保監(jiān)官網(wǎng)

政策公告采集官網(wǎng)政策公告采集采集場(chǎng)景進(jìn)入中國(guó)銀行保險(xiǎn)監(jiān)督管理委員會(huì)【新聞資訊】版塊下的【監(jiān)管動(dòng)態(tài)】欄目,進(jìn)入每條監(jiān)管動(dòng)態(tài)詳情,采集其詳情頁(yè)信息。采集字段當(dāng)前位置、標(biāo)題、標(biāo)題鏈接、發(fā)布時(shí)間、來(lái)源、正文、當(dāng)前采集時(shí)間。采集背景官網(wǎng)政策公告采集

在首頁(yè)【輸入框】中輸入目標(biāo)網(wǎng)址,點(diǎn)擊【開(kāi)始采集】,八爪魚(yú)自動(dòng)打開(kāi)網(wǎng)頁(yè)。步驟一打開(kāi)網(wǎng)頁(yè)官網(wǎng)政策公告采集

1、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動(dòng)態(tài)的詳情頁(yè)通過(guò)以下3步,實(shí)現(xiàn)循環(huán)點(diǎn)擊每個(gè)鏈接,進(jìn)入詳情頁(yè):①選中頁(yè)面上第1條監(jiān)管動(dòng)態(tài)鏈接(注意一定要選中鏈接)②點(diǎn)擊【循環(huán)點(diǎn)擊每個(gè)鏈接】,進(jìn)入第1條監(jiān)管動(dòng)態(tài)的詳情頁(yè)

步驟二、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動(dòng)態(tài)的詳情頁(yè)官網(wǎng)政策公告采集

2、修改【循環(huán)-點(diǎn)擊元素】Xpath為了精準(zhǔn)定位到所有的監(jiān)管動(dòng)態(tài)鏈接,需修改一下【循環(huán)翻頁(yè)】的XPath。進(jìn)入【循環(huán)翻頁(yè)】設(shè)置頁(yè)面,選擇【循環(huán)方式】為【不固定元素列表】,修改XPath為://span[@class="title"]/a,然后點(diǎn)擊【應(yīng)用】保存。改完后,再次點(diǎn)擊【點(diǎn)擊元素】步驟,進(jìn)入問(wèn)題詳情頁(yè)。

步驟二、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動(dòng)態(tài)的詳情頁(yè)官網(wǎng)政策公告采集步驟三、提取詳情頁(yè)中的文本字段

進(jìn)入詳情頁(yè)后,選中頁(yè)面中的文本,然后在操作提示框中,點(diǎn)擊【采集該元素文本】。文本類字段都可以按照這樣的方式提取。示例中我們提取了當(dāng)前位置、發(fā)布時(shí)間、來(lái)源、標(biāo)題、正文等字段。。官網(wǎng)政策公告采集步驟四、編輯字段。1、編輯字段在【當(dāng)前頁(yè)面數(shù)據(jù)預(yù)覽】面板中,可刪除多余字段,修改字段名,移動(dòng)字段順序等,請(qǐng)按需調(diào)整官網(wǎng)政策公告采集步驟四、編輯字段。2、修改字段XPath針對(duì)【正文】這個(gè)字段,默認(rèn)生成的字段XPath,無(wú)法精準(zhǔn)定位到所有監(jiān)管動(dòng)態(tài)的正文內(nèi)容,需手動(dòng)修改。進(jìn)入【提取列表數(shù)據(jù)】步驟設(shè)置頁(yè)面,修改正文XPath為://div[@class="Section0"]官網(wǎng)政策公告采集步驟四、編輯字段。3、格式化字段格式化數(shù)據(jù),對(duì)【當(dāng)前位置】、【發(fā)布時(shí)間】和【來(lái)源】字段進(jìn)行格式化數(shù)據(jù),去除多余內(nèi)容。具體步驟如下圖所示:官網(wǎng)政策公告采集步驟五、創(chuàng)建循環(huán)翻頁(yè)。1、創(chuàng)建循環(huán)翻頁(yè)如果只是采集一頁(yè)數(shù)據(jù),可跳過(guò)此步驟。如果需要翻頁(yè)以采集多頁(yè)數(shù)據(jù):①先點(diǎn)擊流程中的【循環(huán)列表】步驟,以回到列表頁(yè)(如果已在列表頁(yè)可直接繼續(xù)操作)②再選擇頁(yè)面中的【下一頁(yè)】按鈕,在操作提示上單擊【循環(huán)點(diǎn)擊下一頁(yè)】,創(chuàng)建【循環(huán)翻頁(yè)】。

官網(wǎng)政策公告采集步驟五、創(chuàng)建循環(huán)翻頁(yè)。2、設(shè)置執(zhí)行前等待時(shí)間①進(jìn)入【循環(huán)翻頁(yè)1】設(shè)置頁(yè)面,設(shè)置【執(zhí)行前等待】3s②進(jìn)入【點(diǎn)擊翻頁(yè)1】設(shè)置頁(yè)面,設(shè)置【執(zhí)行前等待】3s和【Ajax超時(shí)】7s官網(wǎng)政策公告采集1、單擊【采集】并【啟動(dòng)本地采集】。啟動(dòng)后八爪魚(yú)開(kāi)始自動(dòng)采集數(shù)據(jù)。步驟六、啟動(dòng)采集官網(wǎng)政策公告采集2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出數(shù)據(jù)。支持導(dǎo)出為Excel

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論