大數(shù)據(jù)采集與預(yù)處理課件:requests技術(shù)應(yīng)用案例-業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)采集1_第1頁(yè)
大數(shù)據(jù)采集與預(yù)處理課件:requests技術(shù)應(yīng)用案例-業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)采集1_第2頁(yè)
大數(shù)據(jù)采集與預(yù)處理課件:requests技術(shù)應(yīng)用案例-業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)采集1_第3頁(yè)
大數(shù)據(jù)采集與預(yù)處理課件:requests技術(shù)應(yīng)用案例-業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)采集1_第4頁(yè)
大數(shù)據(jù)采集與預(yù)處理課件:requests技術(shù)應(yīng)用案例-業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)采集1_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

requests庫(kù)技術(shù)應(yīng)用案例——?jiǎng)討B(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)采集本章學(xué)習(xí)目標(biāo)分析業(yè)務(wù)網(wǎng)站A,B,C和D的網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容使用requests庫(kù)編寫(xiě)爬蟲(chóng)代碼獲取指定的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)使用BeautifulSoup實(shí)現(xiàn)數(shù)據(jù)的解析使用pymysql庫(kù)和pandas實(shí)現(xiàn)數(shù)據(jù)的持久化4.3業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)進(jìn)入網(wǎng)址:/notebook_index/subcate16_0_list_1_0_99_2_0_1.html

我們可以觀(guān)察到網(wǎng)頁(yè)主頁(yè)顯示的主要的內(nèi)容,有筆記本電腦型號(hào)、價(jià)格、配置、評(píng)價(jià)分?jǐn)?shù)等,本次任務(wù)案例,我們將要獲取該頁(yè)的所有筆記本電腦信息。圖4.3-1網(wǎng)址主頁(yè)

判斷此數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動(dòng)態(tài)數(shù)據(jù)。如圖4.3-2所示,由此可知,我們想要獲取的內(nèi)容被標(biāo)簽直接包含在內(nèi),為靜態(tài)數(shù)據(jù),所以可以編寫(xiě)爬蟲(chóng)獲取網(wǎng)頁(yè)標(biāo)簽內(nèi)容即可圖4.3-2標(biāo)簽檢查數(shù)據(jù)類(lèi)型天問(wèn)一號(hào)成功登陸火星,對(duì)于靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)整體把控和分析要求極高。充分體現(xiàn)勞模精神:勞模精神,是指“愛(ài)崗敬業(yè)、爭(zhēng)創(chuàng)一流、艱苦奮斗、勇于創(chuàng)新、淡泊名利、甘于奉獻(xiàn)”的勞動(dòng)模范的精神。

使用python編寫(xiě)爬蟲(chóng)獲取網(wǎng)頁(yè)靜態(tài)數(shù)據(jù),有針對(duì)性地獲得在網(wǎng)頁(yè)中的筆記本電腦型號(hào)、價(jià)格、配置、評(píng)價(jià)分?jǐn)?shù)。具體步驟如下。在python中導(dǎo)入requests庫(kù)和bs4庫(kù)中的BeautifulSoup,并且定義一個(gè)空列表new_list,用于存儲(chǔ)爬取下來(lái)的靜態(tài)數(shù)據(jù),并自定義第一個(gè)列表,這個(gè)列表將作為對(duì)應(yīng)數(shù)據(jù)的字段名和后續(xù)數(shù)據(jù)的存儲(chǔ)。importrequestsfrombs4importBeautifulSoupnew_list=[['電腦型號(hào)','價(jià)格','配置','評(píng)分']]構(gòu)造爬蟲(chóng)代碼請(qǐng)求該URL的Headers頭部信息。在“開(kāi)發(fā)者工具”的Network欄目下的Headers中得到該默認(rèn)URL的Headers頭部信息。其目的是為了向業(yè)務(wù)網(wǎng)站A網(wǎng)址的后臺(tái)服務(wù)器隱藏爬蟲(chóng)代碼的真實(shí)身份,讓爬蟲(chóng)代碼帶著這些請(qǐng)求信息偽裝成瀏覽器正常訪(fǎng)問(wèn)該網(wǎng)站服務(wù)器的狀態(tài)而不被服務(wù)器的反爬措施發(fā)現(xiàn)。headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.108Safari/537.36'}3)定義變量complete_url用于指定的URL網(wǎng)址complete_url="/notebook_index/subcate16_0_list_1_0_99_2_0_1.html"4)使用requests庫(kù)的get()方法獲得網(wǎng)址的Response對(duì)象,并設(shè)置headers參數(shù),并定義變量req進(jìn)行保存。req=requests.get(url=complete_url,headers=headers)5)使用encoding方法,設(shè)置req變量的編碼方式。req.encoding='GBK'6)使用BeautifulSoup庫(kù)解析HTML文檔的代碼。req.txt是一個(gè)包含HTML內(nèi)容的字符串,features定義了解析器為’html.parser’,用于將HTML轉(zhuǎn)換為Python對(duì)象,定義變量soup進(jìn)行保存。soup=BeautifulSoup(req.text,features="html.parser")7)定位數(shù)據(jù)圖4.3-3包含數(shù)據(jù)的標(biāo)簽結(jié)構(gòu)8)獲取數(shù)據(jù)圖4.3-4數(shù)據(jù)存儲(chǔ)的標(biāo)簽dd第一步:在網(wǎng)頁(yè)結(jié)構(gòu)中,通過(guò)分析,我們可以發(fā)現(xiàn),我們獲取的數(shù)據(jù)都統(tǒng)一存儲(chǔ)在一個(gè)ID名叫J_PicMode的標(biāo)簽中,所以我們只需要找到并保存這個(gè)標(biāo)簽就可以實(shí)現(xiàn)靜態(tài)數(shù)據(jù)的爬取。第二步:聲明及定義4個(gè)空列表,用于分別保存筆記本電腦型號(hào)、價(jià)格、配置、評(píng)價(jià)分?jǐn)?shù)的數(shù)據(jù)。使用for循環(huán)方式將select()方法獲得的數(shù)據(jù)遍歷提取,并使用append()方法追加到4個(gè)空列表中,同時(shí)使用zip()方法將數(shù)組中的數(shù)據(jù)整合在一起,完成靜態(tài)數(shù)據(jù)爬取。運(yùn)行測(cè)試,由以上代碼可知,列表a,b,c,d中的數(shù)據(jù)被整合在new_list中保存的就是我們從網(wǎng)頁(yè)爬取的靜態(tài)數(shù)據(jù),我們打印出來(lái)觀(guān)察是否正確圖4.3-5運(yùn)行測(cè)試1)導(dǎo)入Pandas庫(kù)importpandasaspd2)把列表new_list轉(zhuǎn)換為pandas的數(shù)據(jù)結(jié)構(gòu)DataFrame類(lèi)型,由dataframe保存。dataframe=pd.DataFrame(new_

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論