《各平臺(tái)數(shù)據(jù)采集及方法》課件-微博搜索關(guān)鍵詞采集_第1頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-微博搜索關(guān)鍵詞采集_第2頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-微博搜索關(guān)鍵詞采集_第3頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-微博搜索關(guān)鍵詞采集_第4頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-微博搜索關(guān)鍵詞采集_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

微博搜索關(guān)鍵詞采集【微博】搜索關(guān)鍵詞采集

在微博主頁登錄后,輸入關(guān)鍵詞搜索,采集得到的搜索結(jié)果列表數(shù)據(jù)。支持按【高級(jí)搜索】中設(shè)置的條件進(jìn)搜索。?!疚⒉克阉麝P(guān)鍵詞采集在首頁搜索框輸入微博首頁網(wǎng)址然后點(diǎn)【開始采集】,八爪魚自動(dòng)打開網(wǎng)頁。步驟1打開網(wǎng)頁【微博】搜索關(guān)鍵詞采集

1、打開瀏覽器模式點(diǎn)擊按鈕,打開瀏覽器模式。在瀏覽器模式中,點(diǎn)擊頁面的登錄按鈕,打開手機(jī)微博app掃碼登錄。步驟2微博登錄【微博】搜索關(guān)鍵詞采集2、使用Cookie登錄微博進(jìn)入【打開網(wǎng)頁】設(shè)置界面,勾選【使用指定的Cookie】,點(diǎn)擊【獲取當(dāng)前頁面Cookie】并保存。這樣就獲取到了登錄后的Cookie,啟動(dòng)時(shí)直接以登錄狀態(tài)打開網(wǎng)頁步驟2微博登錄【微博】搜索關(guān)鍵詞采集步驟三、在【高級(jí)搜索】中選擇搜索條件。

先在瀏覽器中測(cè)試一下。打開微博首頁,輸入關(guān)鍵詞【三體】,在【高級(jí)搜索】中選擇條件:【原創(chuàng)】【2023-03-0100時(shí)至2023-03-3000時(shí)】,得到網(wǎng)址:1、獲得帶有搜索關(guān)鍵詞和篩選條件的網(wǎng)址【微博】搜索關(guān)鍵詞采集步驟3:XPath軸翻頁。2、將1中的網(wǎng)址,輸入進(jìn)八爪魚中在【打開網(wǎng)頁】后,增加一個(gè)步驟【打開網(wǎng)頁1】。雙擊進(jìn)入【打開網(wǎng)頁1】設(shè)置頁面,輸入網(wǎng)址,然后保存,八爪魚自動(dòng)打開這個(gè)網(wǎng)頁?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表頁和翻頁1、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表和翻頁網(wǎng)頁打開后,點(diǎn)擊【自動(dòng)識(shí)別網(wǎng)頁內(nèi)容】,等待一段時(shí)間,成功識(shí)別了文章列表中的數(shù)據(jù)和翻頁。點(diǎn)擊【生成采集設(shè)置】,將自動(dòng)識(shí)別出的列表數(shù)據(jù)和翻頁,生成為采集流程,方便我們使用和修改?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動(dòng)識(shí)別,自動(dòng)識(shí)別列表頁和翻頁2、修改【循環(huán)列表1】和【循環(huán)翻頁XPath自動(dòng)識(shí)別生成【循環(huán)列表】和【循環(huán)翻頁】存在不通用的情況,需要手動(dòng)修改。進(jìn)入【循環(huán)翻頁】設(shè)置頁面,修改XPath為://li[@class='cur']/a/../following-sibling::li[1]/a,然后點(diǎn)擊【應(yīng)用】保存。進(jìn)入【循環(huán)列表1】設(shè)置頁面,修改XPath為://div[@class="card-wrap"and@mid],然后點(diǎn)擊【應(yīng)用】保存?!疚⒉克阉麝P(guān)鍵詞采集

在【當(dāng)前頁面數(shù)據(jù)預(yù)覽】面板中,可刪除多余字段,修改字段名,移動(dòng)字段順序等。步驟五、編輯字段【微博】搜索關(guān)鍵詞采集

1、改【博文內(nèi)容】字段XPath【博文內(nèi)容】字段默認(rèn)的XPath,無法精準(zhǔn)定位到展開后的全部博文,需修改XPath。點(diǎn)擊【提取列表數(shù)據(jù)】進(jìn)入對(duì)應(yīng)的數(shù)據(jù)預(yù)覽界面,點(diǎn)擊【博文內(nèi)容】字段右上方的...按鈕,選擇【修改元素定位】,修改XPath為://div[@class="content"]//*[@class='txt'][last()],然后應(yīng)用步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集2、格式化字段【轉(zhuǎn)發(fā)數(shù)】、【評(píng)論數(shù)】和【點(diǎn)贊數(shù)】三個(gè)字段,默認(rèn)會(huì)帶上轉(zhuǎn)發(fā)、評(píng)論、贊的文本。如果需要去掉文本,只保留數(shù)字,可以通過格式化實(shí)現(xiàn):點(diǎn)擊【轉(zhuǎn)發(fā)數(shù)】字段右上方的【...】按鈕,選擇【格式化數(shù)據(jù)】→【添加步驟】→【正則表達(dá)式匹配】,輸入正則表達(dá)式【\d+】后保存?!驹u(píng)論數(shù)】、【點(diǎn)贊數(shù)】的格式化數(shù)據(jù)過程相同。步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集1、單擊【采集】并【啟動(dòng)本地采集】。啟動(dòng)后八爪魚開始自動(dòng)采集數(shù)據(jù)。步驟七、啟動(dòng)采集【微博】搜索關(guān)鍵詞采集2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論