版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
微博搜索關(guān)鍵詞采集【微博】搜索關(guān)鍵詞采集
在微博主頁登錄后,輸入關(guān)鍵詞搜索,采集得到的搜索結(jié)果列表數(shù)據(jù)。支持按【高級(jí)搜索】中設(shè)置的條件進(jìn)搜索。?!疚⒉克阉麝P(guān)鍵詞采集在首頁搜索框輸入微博首頁網(wǎng)址然后點(diǎn)【開始采集】,八爪魚自動(dòng)打開網(wǎng)頁。步驟1打開網(wǎng)頁【微博】搜索關(guān)鍵詞采集
1、打開瀏覽器模式點(diǎn)擊按鈕,打開瀏覽器模式。在瀏覽器模式中,點(diǎn)擊頁面的登錄按鈕,打開手機(jī)微博app掃碼登錄。步驟2微博登錄【微博】搜索關(guān)鍵詞采集2、使用Cookie登錄微博進(jìn)入【打開網(wǎng)頁】設(shè)置界面,勾選【使用指定的Cookie】,點(diǎn)擊【獲取當(dāng)前頁面Cookie】并保存。這樣就獲取到了登錄后的Cookie,啟動(dòng)時(shí)直接以登錄狀態(tài)打開網(wǎng)頁步驟2微博登錄【微博】搜索關(guān)鍵詞采集步驟三、在【高級(jí)搜索】中選擇搜索條件。
先在瀏覽器中測(cè)試一下。打開微博首頁,輸入關(guān)鍵詞【三體】,在【高級(jí)搜索】中選擇條件:【原創(chuàng)】【2023-03-0100時(shí)至2023-03-3000時(shí)】,得到網(wǎng)址:1、獲得帶有搜索關(guān)鍵詞和篩選條件的網(wǎng)址【微博】搜索關(guān)鍵詞采集步驟3:XPath軸翻頁。2、將1中的網(wǎng)址,輸入進(jìn)八爪魚中在【打開網(wǎng)頁】后,增加一個(gè)步驟【打開網(wǎng)頁1】。雙擊進(jìn)入【打開網(wǎng)頁1】設(shè)置頁面,輸入網(wǎng)址,然后保存,八爪魚自動(dòng)打開這個(gè)網(wǎng)頁?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表頁和翻頁1、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表和翻頁網(wǎng)頁打開后,點(diǎn)擊【自動(dòng)識(shí)別網(wǎng)頁內(nèi)容】,等待一段時(shí)間,成功識(shí)別了文章列表中的數(shù)據(jù)和翻頁。點(diǎn)擊【生成采集設(shè)置】,將自動(dòng)識(shí)別出的列表數(shù)據(jù)和翻頁,生成為采集流程,方便我們使用和修改?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表頁和翻頁2、修改【循環(huán)列表1】和【循環(huán)翻頁XPath自動(dòng)識(shí)別生成【循環(huán)列表】和【循環(huán)翻頁】存在不通用的情況,需要手動(dòng)修改。進(jìn)入【循環(huán)翻頁】設(shè)置頁面,修改XPath為://li[@class='cur']/a/../following-sibling::li[1]/a,然后點(diǎn)擊【應(yīng)用】保存。進(jìn)入【循環(huán)列表1】設(shè)置頁面,修改XPath為://div[@class="card-wrap"and@mid],然后點(diǎn)擊【應(yīng)用】保存?!疚⒉克阉麝P(guān)鍵詞采集
在【當(dāng)前頁面數(shù)據(jù)預(yù)覽】面板中,可刪除多余字段,修改字段名,移動(dòng)字段順序等。步驟五、編輯字段【微博】搜索關(guān)鍵詞采集
1、改【博文內(nèi)容】字段XPath【博文內(nèi)容】字段默認(rèn)的XPath,無法精準(zhǔn)定位到展開后的全部博文,需修改XPath。點(diǎn)擊【提取列表數(shù)據(jù)】進(jìn)入對(duì)應(yīng)的數(shù)據(jù)預(yù)覽界面,點(diǎn)擊【博文內(nèi)容】字段右上方的...按鈕,選擇【修改元素定位】,修改XPath為://div[@class="content"]//*[@class='txt'][last()],然后應(yīng)用步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集2、格式化字段【轉(zhuǎn)發(fā)數(shù)】、【評(píng)論數(shù)】和【點(diǎn)贊數(shù)】三個(gè)字段,默認(rèn)會(huì)帶上轉(zhuǎn)發(fā)、評(píng)論、贊的文本。如果需要去掉文本,只保留數(shù)字,可以通過格式化實(shí)現(xiàn):點(diǎn)擊【轉(zhuǎn)發(fā)數(shù)】字段右上方的【...】按鈕,選擇【格式化數(shù)據(jù)】→【添加步驟】→【正則表達(dá)式匹配】,輸入正則表達(dá)式【\d+】后保存?!驹u(píng)論數(shù)】、【點(diǎn)贊數(shù)】的格式化數(shù)據(jù)過程相同。步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集1、單擊【采集】并【啟動(dòng)本地采集】。啟動(dòng)后八爪魚開始自動(dòng)采集數(shù)據(jù)。步驟七、啟動(dòng)采集【微博】搜索關(guān)鍵詞采集2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 3 江南教學(xué)設(shè)計(jì)-2023-2024學(xué)年一年級(jí)上冊(cè)語文統(tǒng)編版
- 三年級(jí)信息技術(shù)上冊(cè) 我們生活在信息世界里-認(rèn)識(shí)什么是信息教案 鄂教版
- 卡通交通安全公益主題宣傳課件
- 北師大版約分教學(xué)設(shè)計(jì)案例研究
- 新版人教教材乘法教學(xué)心得
- 蘇教版三年級(jí)上冊(cè)科學(xué)期末練習(xí)卷
- 小班學(xué)習(xí)字母RST-幼兒園小班英語教案
- 四年級(jí)上冊(cè)北師大版數(shù)學(xué)教學(xué)計(jì)劃制定創(chuàng)新思考
- 數(shù)的拓展北師大版小數(shù)教學(xué)設(shè)計(jì)思路探索與實(shí)踐
- 高校礦泉水教學(xué)設(shè)計(jì)案例
- 《中非合作論壇》課件
- 實(shí)驗(yàn)室質(zhì)量管理體系建立及其運(yùn)行課件
- 新兵心理知識(shí)講座
- 會(huì)展中心設(shè)計(jì)技術(shù)方案
- 《疾病預(yù)防控制管理》課件
- 骨角質(zhì)文物保護(hù)研究進(jìn)展
- 科普知識(shí)講座:火箭
- 《信息科技》學(xué)科新課標(biāo)《義務(wù)教育信息科技課程標(biāo)準(zhǔn)(2022年版)》
- 醫(yī)療技術(shù)培訓(xùn)
- 運(yùn)營管理完整教學(xué)課件
- 消防管道跨越建筑伸縮縫的做法詳解
評(píng)論
0/150
提交評(píng)論