下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1/1知乎回答采集方法http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法
本文介紹使用八爪魚(yú)采集知乎回答的方法
采集網(wǎng)站:https://http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html/question/29727952
規(guī)則下載:
使用功能點(diǎn):
●分頁(yè)列表信息采集
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html/tutorialdetail-1/fylb-70.html
●AJAX點(diǎn)擊和翻頁(yè)教程
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html/tutorial/ajaxdjfy_7.aspx?t=1
步驟1:創(chuàng)建采集任務(wù)
1)進(jìn)入主界面,選擇“自定義模式”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖1
2)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存網(wǎng)址”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖2
步驟2:創(chuàng)建翻頁(yè)循環(huán)
1)在頁(yè)面右上角,打開(kāi)“流程”,以展現(xiàn)出“流程設(shè)計(jì)器”和“定制當(dāng)前操作”兩個(gè)板塊。點(diǎn)擊問(wèn)題,在操作提示框中,選擇“采集該元素的文本”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖3
2)將頁(yè)面下拉到底部,點(diǎn)擊“查看更多回答”按鈕,在右側(cè)的操作提示框中,選擇“更多操作”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖4
選擇“循環(huán)點(diǎn)擊單個(gè)按鈕”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖5
我們發(fā)現(xiàn),系統(tǒng)自動(dòng)打開(kāi)要采集的網(wǎng)頁(yè),進(jìn)入知乎問(wèn)題回答區(qū)。經(jīng)過(guò)一次自動(dòng)下拉加載,此頁(yè)面達(dá)到最底部,出現(xiàn)“查看更多回答”按鈕。因而,我們?cè)趫?zhí)行翻頁(yè)操作前,需等待網(wǎng)頁(yè)完全加載出來(lái),即需要設(shè)置執(zhí)行前等待
選中整個(gè)“循環(huán)翻頁(yè)”步驟,打開(kāi)高級(jí)選項(xiàng),設(shè)置執(zhí)行前等待為“3秒”,然后點(diǎn)擊
“確定”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html“點(diǎn)擊元素”操作同理,設(shè)置執(zhí)行前等待為“3秒”。同時(shí),“點(diǎn)擊元素”步驟還涉及Ajax加載技術(shù),需勾選“Ajax加載數(shù)據(jù)”,設(shè)置時(shí)間為“2秒”知乎回答采集方法圖
7
注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過(guò)在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下,對(duì)網(wǎng)頁(yè)的某部分進(jìn)行更新。表現(xiàn)特征:a、點(diǎn)擊網(wǎng)頁(yè)中某個(gè)選項(xiàng)時(shí),大部分網(wǎng)站的網(wǎng)址不會(huì)改變;b、網(wǎng)頁(yè)不是完全加載,只是局部進(jìn)行了數(shù)據(jù)加載,有所變化。
驗(yàn)證方式:點(diǎn)擊操作后,在瀏覽器中,網(wǎng)址輸入欄不會(huì)出現(xiàn)加載中的狀態(tài)或者轉(zhuǎn)圈狀態(tài)。
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
步驟3:提取知乎回答
1)移動(dòng)鼠標(biāo),選中頁(yè)面里第一個(gè)回答區(qū)塊。系統(tǒng)會(huì)識(shí)別此區(qū)塊中的子元素,在操作提示框中,選擇“選中子元素”
知乎回答采集方法圖8
2)系統(tǒng)會(huì)并識(shí)別出頁(yè)面中的其他同類元素。在操作提示框中,選擇“選中全部”
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖9
3)選擇“采集以下數(shù)據(jù)”
知乎回答采集方法圖10
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html4)選中字段,點(diǎn)擊垃圾桶圖標(biāo),可將其刪除
知乎回答采集方法圖11
5)選中相應(yīng)的字段,可以進(jìn)行字段的自定義命名
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖12
步驟4:調(diào)整流程圖結(jié)構(gòu)
回顧采集過(guò)程,我們配置規(guī)則的思路是,先通過(guò)循環(huán)點(diǎn)擊“查看更多回答”按鈕,建立翻頁(yè)循環(huán),加載出全部回答,然后再建立循環(huán)列表,提取數(shù)據(jù)。
1)選中整個(gè)“循環(huán)”步驟,將其拖出“循環(huán)翻頁(yè)”步驟。如果不進(jìn)行此項(xiàng)操作,那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知
乎回答采集方法圖13
拖動(dòng)完成后,如下圖所示
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖14
2)點(diǎn)擊左上角的“保存并啟動(dòng)”,選擇“啟動(dòng)本地采集”
知乎回答采集方法圖15
步驟5:數(shù)據(jù)采集及導(dǎo)出
1)采集完成后,會(huì)跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖16
2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖
http://./doc/35b2c6a4d5d8d15abe23482fb4daa58da0111c85.html
知乎回答采集方法圖17
相關(guān)采集教程:
天貓商品信息采集
新浪微博數(shù)據(jù)采集
1688熱門(mén)商品采集
八爪魚(yú)——70萬(wàn)用戶選擇的網(wǎng)頁(yè)數(shù)據(jù)采集器。
1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景,會(huì)上網(wǎng)就能采集。完全可視化流程,點(diǎn)擊鼠標(biāo)完成操作,2分鐘即可快速入門(mén)。
2、功能強(qiáng)大,任何網(wǎng)站都可以采:對(duì)于點(diǎn)擊、登陸、翻頁(yè)、識(shí)別驗(yàn)證碼、瀑布流、Ajax腳本異步加載數(shù)據(jù)的網(wǎng)頁(yè),均可經(jīng)過(guò)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 8 Knowing the world Lesson 2 My home country英文版說(shuō)課稿 -2024-2025學(xué)年冀教版(2024)七年級(jí)英語(yǔ)上冊(cè)
- 2025年大班年級(jí)組工作計(jì)劃示例
- 2025年醫(yī)院醫(yī)師工作計(jì)劃
- 2025年開(kāi)學(xué)學(xué)期教師工作計(jì)劃
- 2025年高校工會(huì)工作計(jì)劃
- 2025年幼兒園園長(zhǎng)工作計(jì)劃表
- 2025年物業(yè)下半年工作計(jì)劃
- Unit 1 What's he like?(說(shuō)課稿)-2024-2025學(xué)年人教版PEP英語(yǔ)五年級(jí)上冊(cè)
- 2025年春季學(xué)校安全工作計(jì)劃范文例文
- 2025收銀員個(gè)人工作計(jì)劃范文
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2025年中央歌劇院畢業(yè)生公開(kāi)招聘11人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 北京市高校課件 開(kāi)天辟地的大事變 中國(guó)近代史綱要 教學(xué)課件
- 監(jiān)事會(huì)年度工作計(jì)劃
- 2024中國(guó)近海生態(tài)分區(qū)
- 山東省濟(jì)南市2023-2024學(xué)年高一上學(xué)期1月期末考試化學(xué)試題(解析版)
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí)
- 大貓英語(yǔ)分級(jí)閱讀 六級(jí)1 Arthur's Fantastic Party課件
- SCA自動(dòng)涂膠系統(tǒng)培訓(xùn)講義
- LEC法取值標(biāo)準(zhǔn)對(duì)照表
- 華中數(shù)控車床編程及操作
評(píng)論
0/150
提交評(píng)論