python爬取網(wǎng)易云音樂排行榜實(shí)例代碼_第1頁(yè)
python爬取網(wǎng)易云音樂排行榜實(shí)例代碼_第2頁(yè)
python爬取網(wǎng)易云音樂排行榜實(shí)例代碼_第3頁(yè)
python爬取網(wǎng)易云音樂排行榜實(shí)例代碼_第4頁(yè)
python爬取網(wǎng)易云音樂排行榜實(shí)例代碼_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第python爬取網(wǎng)易云音樂排行榜實(shí)例代碼目錄網(wǎng)易云音樂排行榜歌曲及評(píng)論爬取一、模擬登錄二、排行榜數(shù)據(jù)爬取三、排行榜評(píng)論獲取總結(jié)

網(wǎng)易云音樂排行榜歌曲及評(píng)論爬取

主要注意問題:selenium模擬登錄、iframe標(biāo)簽定位、頁(yè)面元素提取。

在利用selenium定位元素并取值的過程中遇到問題。比如xpath正確但無法定位,在進(jìn)行翻頁(yè)提取評(píng)論的過程中,利用selenium似乎不能提取不同頁(yè)的數(shù)據(jù),比如,明明定位的第三頁(yè)的評(píng)論數(shù)據(jù),而只能返回第一頁(yè)的評(píng)論數(shù)據(jù)。

一、模擬登錄

selenium定位元素模擬人的操作進(jìn)行登錄,直接上代碼:

//模擬登錄

importpandasaspd

fromseleniumimportwebdriver

fromselenium.webdriver.support.uiimportWebDriverWait

frommon.byimportBy

fromselenium.webdriver.supportimportexpected_conditionsasEC

fromselenium.webdriver.chrome.optionsimportOptions

fromselenium.webdriverimportActionChains

fromlxmlimportetree

importtime

fromdatetimeimportdatetime,timedelta

wyy_url='/'

driver=webdriver.Chrome()

driver.get(wyy_url)

driver.maximize_window()#全屏

time.sleep(2)

driver.find_element_by_xpath("http://a[@class='links-fc3']").click()

time.sleep(2)

driver.find_element_by_xpath("http://a[@]").click()#選擇其他方式登錄

#賬號(hào)、密碼登錄

driver.find_element_by_xpath("http://input[@type='checkbox']").click()#同意條款

time.sleep(0.5)

driver.find_element_by_xpath("http://a[@]").click()

#選擇手機(jī)號(hào)密碼登錄

driver.find_element_by_xpath("http://a[@]").click()

time.sleep(1)

driver.find_element_by_id("p").send_keys('xxx')#這里輸入你的id

driver.find_element_by_id("pw").send_keys('xxx')#這里輸入密碼

time.sleep(1)

#點(diǎn)擊登錄

driver.find_element_by_xpath("http://a[@]").click()

time.sleep(1)

二、排行榜數(shù)據(jù)爬取

當(dāng)時(shí)嘗試直接用selenium定位標(biāo)簽取值,并沒有返回有效結(jié)果。在后面爬取評(píng)論時(shí),也遇到此問題。于是先獲取頁(yè)面內(nèi)容在進(jìn)行分析。

//排行榜

base_url="/#/discover/toplistid="

bang_typical={'飆升榜':19723756,'新歌榜':3779629,'原創(chuàng)榜':2884035,'熱歌榜':3778678}

#選擇榜單

bang=input('請(qǐng)輸入榜單:')

#構(gòu)造榜單對(duì)應(yīng)的鏈接

url=base_url+str(bang_typical[bang])

print('開始分析:-%s'%(bang))

#進(jìn)入榜單

driver.get(url)

time.sleep(3)

#iframe標(biāo)簽定位,必要的,否則無法定位其他標(biāo)簽

_iframe=driver.find_element_by_xpath("http://iframe[@id='g_iframe']")#找到iframe標(biāo)簽

driver.switch_to.frame(_iframe)

time.sleep(1)

page_text=driver.execute_script("returndocument.documentElement.outerHTML")

#獲取頁(yè)面

html=etree.HTML(page_text)

trs=html.xpath('//tbody/tr')

rank_list=[]

title_list=[]

span_list=[]

singer_list=[]

fortrintrs:

rank=tr.xpath(".//span[@]/text()")[0]#注意xpath獲取到的是列表,需提取其元素

title=tr.xpath(".//b/@title")[0]

span=tr.xpath(".//td[@]/span[@]/text()")[0]

singer=tr.xpath(".//div[@]/span/@title")[0]

rank_list.append(rank)

title_list.append(title)

span_list.append(span)

singer_list.append(singer)

#輸出榜單結(jié)果

df_bang=pd.DataFrame({'排名':rank_list,'歌名':title_list,'時(shí)長(zhǎng)':span_list,'歌手':singer_list})

三、排行榜評(píng)論獲取

主要是評(píng)論日期的格式轉(zhuǎn)換,評(píng)論內(nèi)容的清洗

//評(píng)論

#日期清洗函數(shù)

defchange_time(time):

now=datetime.now()

day_y=datetime.strftime(now-timedelta(1),'%Y-%m-%d')#計(jì)算昨天

day=now.strftime('%Y-%m-%d')

year=now.strftime('%Y')

if'年'intime:#非今年

new_time=time.replace('年','-').replace('月','-').replace('日','')

elif'昨天'intime:

new_time=time.replace('昨天',day_y+'')

elif'前'intime:#前天

minut=int(time[:time.index('分')])

new_time=(now+timedelta(minutes=-minut)).strftime('%Y-%m-%d%H:%M')

eliflen(time)==5:#今天

new_time=day+''+time

else:#最近**月**日**:**

y='2025-'

time=time.replace('月','-').replace('日','')

new_time=y+time

returnnew_time

#評(píng)論清洗

defchange_review(r):

if':'inr:

r_=r.split(':')[1]

else:

r_=r

returnr_

#評(píng)論點(diǎn)贊

defchange_likes(l):

ifl!=[]:

l_=int(l.split('(')[1].split(')')[0])

else:

l_=0

returnl_

#拉動(dòng)滾動(dòng)條至翻頁(yè)按鈕處

driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

#獲取頁(yè)面信息

num=input('請(qǐng)輸入需要爬取的頁(yè)面總數(shù):')#想要爬取評(píng)論的頁(yè)數(shù),

#這里的思路是先通過翻頁(yè)將獲取到的所有頁(yè)面的所有內(nèi)容存至列表,再對(duì)列表遍歷。

#因?yàn)楫?dāng)時(shí)直接用selenium定位返回結(jié)果不對(duì),當(dāng)然你們也可以用selenium直接試試。

html_list=[]

foriinrange(int(num)):

page_text=driver.execute_script("returndocument.documentElement.outerHTML")

html=etree.HTML(page_text)#獲取頁(yè)面

html_list.append(html)

driver.find_elements_by_xpath("http://div[contains(@class,'u')]/a")[-1].click()

time.sleep(4)

WebDriverWait(driver,300,0.1).until(EC.presence_of_element_located((By.XPATH,"http://div[@]")))

print(f'第{i+1}頁(yè)爬取成功')

rev_list=[]#所有評(píng)論的列表

dat_list=[]#對(duì)應(yīng)日期的列表

forreview_pageinhtml_list:

raw_reviews=review_page.xpath("http://div[@]//div[@]/text()")#提取頁(yè)面所有評(píng)論

raw_reviews_=[iforiinraw_reviewsif":"ini]#保證長(zhǎng)度一致

rv_date=review_page.xpath("http://div[@]//div[@]/div[@]/div[@]/text()")

review_list=[change_review(r)forrinraw_reviews_]

date_list=[change_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論