版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................1
1.2.1Python簡(jiǎn)介..........................................................................................1
1.2.2Selenium簡(jiǎn)介......................................................................................2
1.2.3Jypyternotebook簡(jiǎn)介......................................................................2
1.2.4MicrosoftExcel簡(jiǎn)介........................................................................2
2需求分析....................................................................................................................2
2.1可行性需求分析..........................................................................................2
2.2關(guān)鍵技術(shù)分析..............................................................................................3
2.2.1動(dòng)態(tài)網(wǎng)絡(luò)爬蟲技術(shù)...............................................................................3
2.2.2文件存取技術(shù).......................................................................................3
2.2.3數(shù)據(jù)可視化技術(shù)...................................................................................3
3數(shù)據(jù)采集....................................................................................................................3
3.1采集頁面分析..............................................................................................3
3.2爬蟲分析......................................................................................................4
3.3目標(biāo)字段分析..............................................................................................6
3.4數(shù)據(jù)存儲(chǔ)......................................................................................................7
4數(shù)據(jù)清洗與處理........................................................................................................9
4.1數(shù)據(jù)清洗需求分析......................................................................................9
4.2數(shù)據(jù)儲(chǔ)存進(jìn)Excel.....................................................................................10
5數(shù)據(jù)分析與可視化..................................................................................................10
5.1數(shù)據(jù)分析....................................................................................................10
5.1.1統(tǒng)計(jì)各個(gè)價(jià)格段商品數(shù)量.................................................................10
5.1.2統(tǒng)計(jì)各個(gè)價(jià)格段商品評(píng)論數(shù)量.........................................................11
5.1.3統(tǒng)計(jì)每個(gè)店鋪的評(píng)論數(shù)并取評(píng)論數(shù)最多的前十店鋪.....................11
5.2數(shù)據(jù)可視化................................................................................................12
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.1根據(jù)商品標(biāo)題繪制關(guān)鍵詞詞云圖.....................................................12
5.2.2根據(jù)店鋪銷量繪制銷量條形圖.........................................................14
5.2.3繪制各個(gè)價(jià)格段手機(jī)銷量占比圖.....................................................15
5.2.4統(tǒng)計(jì)銷量前十的手機(jī)商品.................................................................16
5.3可視化分析....................................................................................................17
6總結(jié)..........................................................................................................................18
參考資料.........................................................................................................................19
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
京東手機(jī)商品數(shù)據(jù)采集與分析
1引言
隨著大數(shù)據(jù)時(shí)代的到來,每時(shí)每刻都有非常龐大的數(shù)據(jù)量產(chǎn)生,海量數(shù)據(jù)
的分析成了重點(diǎn)與難點(diǎn),誰掌握了數(shù)據(jù),誰就掌握了主動(dòng)權(quán)。使用大數(shù)據(jù)技術(shù)
進(jìn)行數(shù)據(jù)分析的時(shí)代發(fā)展的必然趨勢(shì),大數(shù)據(jù)技術(shù)挖掘與分析借助計(jì)算機(jī)來對(duì)
大量的信息進(jìn)行獲取、剔除無用數(shù)據(jù)、并將有用的數(shù)據(jù)進(jìn)行聯(lián)系整合計(jì)算與分
析總結(jié)。數(shù)據(jù)分析能夠?qū)Ω餍懈鳂I(yè)的數(shù)據(jù)進(jìn)行預(yù)測(cè),了解市場(chǎng)動(dòng)態(tài)變化,從而
制定更加完善的策略,提升策略的成功率。
手機(jī)作為當(dāng)代無論是年輕人還是老年人都人手必備的一樣?xùn)|西,幾乎成為
了絕大多數(shù)人的生活必備品。通過對(duì)大眾消費(fèi)者購買需求,偏好的分析,就可
以更好的把握住消費(fèi)者的心理,從而達(dá)到更加精準(zhǔn)的營銷。
1.1項(xiàng)目背景
信息時(shí)代,許多人都以網(wǎng)絡(luò)平臺(tái)作為交易的渠道,買賣雙方不需見面交流
就能完成交易。這個(gè)方式操作簡(jiǎn)單并且效率高,既節(jié)省雙方時(shí)間,又不會(huì)被空
間所約束,加快了我國經(jīng)濟(jì)全球化的步伐。
當(dāng)今社會(huì),幾乎人手一臺(tái)或者多臺(tái)手機(jī),手機(jī)的利潤可想而知,而我們需
要更加了解消費(fèi)者對(duì)手機(jī)市場(chǎng)選擇的需求,就需要我們對(duì)多數(shù)人的偏好進(jìn)行分
析。本項(xiàng)目就是通過采集電商網(wǎng)站京東上的手機(jī)數(shù)據(jù),根據(jù)這些數(shù)據(jù)可以獲取
消費(fèi)者的消費(fèi)心理、行為等數(shù)據(jù),獲取有價(jià)值的信息,從而讓商家更加了解消
費(fèi)者的消費(fèi)偏重,為市場(chǎng)精準(zhǔn)化營銷奠定了基礎(chǔ),保證消費(fèi)者能享受到多元化
服務(wù)。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python是由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的GuidovanRossum于1990
年代初所設(shè)計(jì)。Python的優(yōu)點(diǎn)主要有:簡(jiǎn)單易學(xué);速度較快,python的底層語
言是C語言;免費(fèi)開源;python提供了高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),還能簡(jiǎn)單而有效
的面向?qū)ο缶幊?;可擴(kuò)展性和可擴(kuò)充性,它提供了豐富的API和工具,python
語言也被稱之為“膠水語言“;豐富的庫等。但相較于C和C++相比,它的運(yùn)
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
行速度相對(duì)較慢。
python的設(shè)計(jì)目標(biāo)之一是讓代碼具備高度的可閱讀性,代碼看起來整潔美
觀,不需要像pascal那樣需要重復(fù)書寫聲明語句,語法規(guī)范,清晰。
1.2.2Selenium簡(jiǎn)介
Selenium是基于Web應(yīng)用程序并且支持瀏覽器驅(qū)動(dòng)的開源自動(dòng)化測(cè)試框架,
可以模擬真實(shí)用戶輸入網(wǎng)址、滾動(dòng)鼠標(biāo)、點(diǎn)擊等動(dòng)態(tài)操作。所支持的瀏覽器有
IE,MozillaFirefox,Safari,GoogleChrome,Edge等等,支持Python、Java、C#
主流編程語言二次開發(fā)。它的主要功能如下。
測(cè)試與瀏覽器的兼容性,測(cè)試應(yīng)用程序能否很好的在不同的瀏覽器和操作
系統(tǒng)中工作。測(cè)試系統(tǒng)功能,創(chuàng)建回歸測(cè)試檢驗(yàn)軟件功能和用戶需求。
1.2.3Jypyternotebook簡(jiǎn)介
JupyterNotebook是利用瀏覽器遠(yuǎn)程訪問方式進(jìn)行編程的一個(gè)交互式應(yīng)用平
臺(tái),支持Python、R、Julia、C等40多種編程語言,可以通過網(wǎng)頁訪問Jupyter
Notebook平臺(tái),創(chuàng)建支持實(shí)時(shí)代碼和數(shù)學(xué)公式的程序文檔,在網(wǎng)頁中進(jìn)行編寫
與運(yùn)行,并直接將結(jié)果展示在網(wǎng)頁里。它的本質(zhì)是一個(gè)Web應(yīng)用程序,能夠創(chuàng)
建和共享程序文檔,支持實(shí)時(shí)代碼,數(shù)學(xué)方程,可視化和markdown。用途有:
數(shù)據(jù)清洗和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計(jì)建模,機(jī)器學(xué)習(xí)。
1.2.4MicrosoftExcel簡(jiǎn)介
MicrosoftExcel是微軟公司1982年推出的一款電子制表軟件。由于它直觀
的頁面、出色的計(jì)算功能和圖表工具,以及成功的市場(chǎng)營銷,Excel成為最流行
的個(gè)人計(jì)算機(jī)數(shù)據(jù)處理軟件。1993年,Excel就開始成為所適用操作平臺(tái)上的電
子制表軟件的第一,直到現(xiàn)在它依舊被人們廣泛使用。
2需求分析
2.1可行性需求分析
由于京東電商網(wǎng)站是一個(gè)動(dòng)態(tài)網(wǎng)頁,所以我選擇使用selenium進(jìn)行模擬真
實(shí)用戶搜索并進(jìn)行爬取。下載相關(guān)瀏覽器驅(qū)動(dòng),對(duì)目標(biāo)網(wǎng)址發(fā)起get請(qǐng)求,使用
By庫解析并獲取頁面中的相關(guān)數(shù)據(jù),存儲(chǔ)為json格式的文件。將采集的數(shù)據(jù)進(jìn)
行處理并存入excel表格中,使用jupyternotebook對(duì)excel中的數(shù)據(jù)進(jìn)行分析,
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
將分析結(jié)果使用pythonmatplotlib,pyecharts進(jìn)行可視化展示。
2.2關(guān)鍵技術(shù)分析
2.2.1動(dòng)態(tài)網(wǎng)絡(luò)爬蟲技術(shù)
我們只需要安裝selenium以及相關(guān)瀏覽器驅(qū)動(dòng),導(dǎo)入需要使用的庫就可以
編寫相關(guān)爬取語句并進(jìn)行批量爬取。
2.2.2文件存取技術(shù)
對(duì)爬取的數(shù)據(jù)存儲(chǔ)格式為json格式,json是一種輕量級(jí)的數(shù)據(jù)交換格式,
json易于閱讀和編寫,也易于機(jī)器解析和生成,可以有效地提升網(wǎng)絡(luò)傳輸效率。
清洗后的數(shù)據(jù)存入excel,然后進(jìn)行讀取分析。
2.2.3數(shù)據(jù)可視化技術(shù)
數(shù)據(jù)可視化時(shí)數(shù)據(jù)處理的一項(xiàng)關(guān)鍵技術(shù),它通過不同的圖形對(duì)數(shù)據(jù)進(jìn)行展
示,我們可以通過這些圖形所提供的內(nèi)容進(jìn)行分析與應(yīng)用。數(shù)據(jù)可視化就是把
數(shù)據(jù)與信息以圖形的形式更清晰有效的展現(xiàn)出來。
在本次項(xiàng)目中我們需要用到pyecharts、matplotlib兩個(gè)庫進(jìn)行數(shù)據(jù)可視化展
示,繪制相關(guān)詞云圖,餅圖,條形圖等等。
3數(shù)據(jù)采集
3.1采集頁面分析
打開本次爬取的目標(biāo)網(wǎng)站京東手機(jī)商品網(wǎng)頁
/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq
=%E6%89%8B%E6%9C%BA&pvid=8a1d8447fc7a45eca0990957933be5c5,可以
在右上方看到總頁數(shù)為63,如圖3-1。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-1京東手機(jī)商品頁面
打開開發(fā)工具,點(diǎn)擊網(wǎng)絡(luò)面板再次刷新頁面,查看標(biāo)頭可以看到頁面的請(qǐng)
求方法為get方法,如圖3-2。
圖3-2請(qǐng)求方法頁面
3.2爬蟲分析
由于目標(biāo)網(wǎng)站是一個(gè)含有多張頁面的一個(gè)動(dòng)態(tài)網(wǎng)頁,所以我選擇使用web
自動(dòng)化測(cè)試工具selenium模擬用戶來進(jìn)行頁面的逐個(gè)點(diǎn)擊爬取。首先我們要先
安裝瀏覽器驅(qū)動(dòng),Chrome瀏覽器的驅(qū)動(dòng)下載頁面
/index.html,需要根據(jù)瀏覽器的版本下
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
載對(duì)應(yīng)驅(qū)動(dòng),如圖3-3,圖3-4。
圖3-3瀏覽器版本
圖3-4驅(qū)動(dòng)版本
導(dǎo)入相關(guān)庫(圖3-5),定義一個(gè)使用selenium訪問京東手機(jī)商品頁面的方
法(圖3-6),打開京東頁面后定位搜索框輸入”手機(jī)”,等待幾秒后單擊銷量降
序排序,調(diào)用爬取商品數(shù)據(jù)方法。
圖3-5seleuimu爬取使用相關(guān)庫
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-6訪問頁面方法
3.3目標(biāo)字段分析
根據(jù)需求需要爬取的字段有:商品名稱、店鋪、價(jià)格、評(píng)論數(shù)。打開開發(fā)
工具,元素面板選中商品后我們可以看到每一個(gè)商品的類名都是gl-item。
點(diǎn)擊定位到商品名稱標(biāo)簽,可以看到商品名稱字段在em標(biāo)簽中(圖3-7),
根據(jù)一樣的方法找到店鋪、價(jià)格、評(píng)論數(shù)所在標(biāo)簽。
圖3-7商品名稱標(biāo)簽
定義一個(gè)商品數(shù)據(jù)爬取方法(圖3-8),使用selenium的
find_elements(By.CLASS_NAME,'gl-item')獲取50頁全部商品的數(shù)據(jù),通過for循
環(huán)遍歷后從中提取每一條數(shù)據(jù)。使用BY.CSS_SELETOR,XPATH方法進(jìn)行爬取。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-8數(shù)據(jù)爬取方法
爬取頁面數(shù)為50頁,所以需要每爬完一頁后點(diǎn)擊下一頁按鈕。
圖3-9下一頁
3.4數(shù)據(jù)存儲(chǔ)
每提取出一件商品的數(shù)據(jù)后,先將它存入字典,以字典的格式存入json文
件。
圖3-10數(shù)據(jù)存儲(chǔ)
代碼實(shí)現(xiàn)如下。
fromseleniumimportwebdriver
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
frommon.byimportBy
frommon.keysimportKeys
importtime
importjson
#訪問京東頁面
defspider(url,keyword):
driver=webdriver.Chrome()
driver.get(url)
input=driver.find_element(By.ID,'key')#定位搜索框
input.clear()
input.send_keys(keyword,Keys.ENTER)#輸入手機(jī)
time.sleep(5)#強(qiáng)制等待3s
num=driver.find_element(By.XPATH,'//*[@id="J_filter"]/div[1]/div[1]/a[2]')
num.click()#單擊銷量降序
time.sleep(3)
get_goods(driver)#抓取商品數(shù)據(jù)d
#抓取商品數(shù)據(jù)
defget_goods(driver):
withopen("phone.json",'a+',encoding='utf-8')asf:
f.write('[')
#通過類名獲取對(duì)象
forxinrange(50):
lis=driver.find_elements(By.CLASS_NAME,'gl-item')
time.sleep(3)
foriinlis:
title=i.find_element(By.CSS_SELECTOR,'.p-nameem').text.replace('\n','')#商品
名稱
price=i.find_element(By.CSS_SELECTOR,'.p-pricei').text#價(jià)格
volume=i.find_element(By.CSS_SELECTOR,'.p-commita:last-child').text#
評(píng)論數(shù)量
#由于店鋪有空值寫入異常拋出語句程序繼續(xù)運(yùn)行
try:
shop=i.find_element(By.XPATH,'./div[1]/div[7]/span/a').text#店鋪
except:
pass
#存儲(chǔ)為字典
data={'商品名稱':title,'店鋪':shop,'價(jià)格':price,'評(píng)論數(shù)':volume}
#將字典存入json文件
new_data=json.dumps(data,ensure_ascii=False,indent=4)
withopen('phone.json','a+',encoding='utf-8')asf:
f.write(new_data+',')
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
time.sleep(5)
#獲取多頁數(shù)據(jù)
t=driver.find_element(By.PARTIAL_LINK_TEXT,'下一頁')
t.click()
time.sleep(5)
print("---------------第",x+1,"頁-----------------")
withopen("phone.json",'a+',encoding='utf-8')asf:
f.write(']')
spider('',keyword='手機(jī)')
4數(shù)據(jù)清洗與處理
4.1數(shù)據(jù)清洗需求分析
從爬取下來的數(shù)據(jù)中可以看出商品標(biāo)題中存在著一些多余的內(nèi)容,比如方
括號(hào)以及一些換行符,商品價(jià)格的后綴.00對(duì)我們來說并沒有太大用,還會(huì)占據(jù)
更多的空間,所以我們選擇對(duì)無用數(shù)據(jù)進(jìn)行去除,并將評(píng)論數(shù)數(shù)據(jù)中的“萬+”
去除加號(hào)后,將萬替換為對(duì)應(yīng)的數(shù)值型字符。實(shí)現(xiàn)代碼如下。
importjson
importpandasaspd
lists=[]
#讀取文件
withopen("phone.json",'r',encoding='utf-8')asf:
data=json.load(f)
#print(len(data))#輸出數(shù)據(jù)條數(shù)
#處理數(shù)據(jù)
foriindata:
i['商品名稱']=i['商品名稱'].replace('【','').replace('】','').replace('/','')\
.replace('\\','').strip('愛心東東').strip('拍拍')#去除商品名稱中的無用字符
i['價(jià)格']=i['價(jià)格'].strip('.00')
pl=i['評(píng)論數(shù)'].replace('+','')#去除加號(hào)
if'萬'inpl:
pl1=pl.replace('萬','')#將萬替換成數(shù)值
pl1=int(pl1)*10000
i['評(píng)論數(shù)']=pl1
lists.append(i)
else:
i['評(píng)論數(shù)']=pl
lists.append(i)
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4.2數(shù)據(jù)儲(chǔ)存進(jìn)Excel
數(shù)據(jù)存儲(chǔ)的方式有很多種,比如存入hive、mysql、json、csv等等。這里我
選擇將數(shù)據(jù)存入excel文件。實(shí)現(xiàn)代碼如下。
#將數(shù)據(jù)寫入excel
d=pd.DataFrame(lists)
print(len(d))
d.to_excel('phone.xlsx',index=False)
圖4-1數(shù)據(jù)存儲(chǔ)excel頁面
5數(shù)據(jù)分析與可視化
5.1數(shù)據(jù)分析
使用jupyternotebook導(dǎo)入相關(guān)庫,這里使用的是pandas,對(duì)爬取的數(shù)據(jù)進(jìn)行
簡(jiǎn)單的分析。開始進(jìn)行分析前需要對(duì)整體數(shù)據(jù)進(jìn)行讀取,以確保能夠成功讀取
數(shù)據(jù)。如圖
圖5-1數(shù)據(jù)讀取頁面
5.1.1統(tǒng)計(jì)各個(gè)價(jià)格段商品數(shù)量
通過自行定義商品價(jià)格區(qū)間來對(duì)各個(gè)價(jià)格段的商品數(shù)量進(jìn)行求和,可以了
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
解京東手機(jī)商品價(jià)格的大致趨勢(shì)。
圖5-2各個(gè)價(jià)格段商品數(shù)量數(shù)據(jù)
5.1.2統(tǒng)計(jì)各個(gè)價(jià)格段商品評(píng)論數(shù)量
商品評(píng)論數(shù)是交易數(shù)據(jù)的一種體現(xiàn)形式,自行定義商品價(jià)格區(qū)間,對(duì)各個(gè)
價(jià)格區(qū)間的商品評(píng)論數(shù)進(jìn)行求和,通過消費(fèi)者交易數(shù)據(jù)來甄別客戶的價(jià)值,以
此來滿足消費(fèi)者不同的需求,制定不同的營銷策略來促成消費(fèi)者達(dá)成交易。
圖5-3商品評(píng)論數(shù)量
5.1.3統(tǒng)計(jì)每個(gè)店鋪的評(píng)論數(shù)并取評(píng)論數(shù)最多的前十店鋪
通過對(duì)每個(gè)店鋪的評(píng)論數(shù)進(jìn)行分類匯總,并取評(píng)論數(shù)排名前十的店鋪名稱。
對(duì)于店鋪銷量的分析可以看出消費(fèi)者對(duì)于各個(gè)店鋪、品牌的選擇傾向,通過不
同客戶群體的選擇傾向推送客戶更感興趣的商品,針對(duì)不同的客戶制定不同的
廣告策略,從而促成交易。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-4銷量前十店鋪
5.2數(shù)據(jù)可視化
進(jìn)行可視化展示前需要對(duì)所用的庫進(jìn)行導(dǎo)入,如圖5-5。
圖5-5可視化相關(guān)庫
5.2.1根據(jù)商品標(biāo)題繪制關(guān)鍵詞詞云圖
在商品標(biāo)題中有許多的空格來隔開商品標(biāo)題中的關(guān)鍵詞,將關(guān)鍵詞進(jìn)行分
割,去重后統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的次數(shù)來繪制詞云圖可以看出手機(jī)類商品的銷售賣
點(diǎn),相應(yīng)代碼如下。
data=pd.read_excel("phone.xlsx")
name=data['商品名稱']
lis=[]
#分割關(guān)鍵詞存儲(chǔ)進(jìn)列表
foriinname:
y=i.split('')
forxiny:
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
lis.append(x)
#去重計(jì)算出現(xiàn)次數(shù)
k=[]
foriinset(lis):
x=lis.count(i)
k.append((i,x))
#取出現(xiàn)次數(shù)最多的前50位
list_t=sorted(k,key=lambdat:t[1],reverse=True)[0:50]
#畫詞云圖
defwordcloud()->WordCloud:
c=(
WordCloud()
.add('',k)
.set_global_opts(title_opts=opt.TitleOpts(title='京東手機(jī)商品名稱關(guān)鍵詞詞云'),
toolbox_opts=opt.ToolboxOpts())
)
returnc
wordcloud().render('ciyun.html')
可視化展示。
圖5-6京東手機(jī)商品名稱關(guān)鍵字
從圖5-6可以看出,京東手機(jī)商品名稱中最常出現(xiàn)的關(guān)鍵字是Pro、Apple、
iPhone、5G手機(jī),從關(guān)鍵字出現(xiàn)次數(shù)我們可以判斷出現(xiàn)階段京東手機(jī)商品賣點(diǎn)
的主要趨勢(shì),從而制定相應(yīng)的運(yùn)營策略。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2根據(jù)店鋪銷量繪制銷量條形圖
評(píng)論數(shù)是商品銷量的表現(xiàn),所以可以通過店鋪和評(píng)論數(shù)兩個(gè)字段來統(tǒng)計(jì)每
個(gè)店鋪的總銷量,取前十并繪制店鋪銷量統(tǒng)計(jì)條形圖。代碼如下。
data=pd.read_excel("phone.xlsx")
xls=data.groupby('店鋪')['評(píng)論數(shù)'].sum()
xl=xls.sort_values(ascending=False).head(10)
plt.bar(xl.index,xl,color='SteelBlue')
plt.xticks(rotation=90)
plt.subplots_adjust(bottom=0.4)
plt.xlabel('店鋪名稱')
plt.ylabel('銷量')
plt.ylim(400000,8000000)
forx,yinenumerate(xl):
plt.text(x,y+10,'%s'%round(y,1),ha='center')
plt.title('各店鋪銷量排行前10統(tǒng)計(jì)圖')
plt.show()
可視化展示。
圖5-7商品銷量前十店鋪統(tǒng)計(jì)圖
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
從圖5-7可以看出京東手機(jī)銷量前十店鋪名稱與銷量數(shù)據(jù),Apple產(chǎn)品京東
自營旗艦店的銷量最高,銷量700萬+,其次是小米京東自營旗艦店,銷量400
萬+。通過統(tǒng)計(jì)各店鋪的銷量數(shù)據(jù),可以判斷消費(fèi)者對(duì)于不同店鋪、品牌的選擇
傾向。
5.2.3繪制各個(gè)價(jià)格段手機(jī)銷量占比圖
通過評(píng)論數(shù)和手機(jī)的價(jià)格分段區(qū)間,可以看出消費(fèi)者對(duì)于手機(jī)價(jià)格傾向,
從而根據(jù)消費(fèi)者的購買能力來推送不同的商品。代碼如下。
data=pd.read_excel("phone.xlsx")
#添加價(jià)格分區(qū)一列
bins=[500,2500,5000,7500,10000,30000]
data['價(jià)格分區(qū)']=pd.cut(x=data.價(jià)格,bins=bins,retbins=False,right=True)
jg=data.groupby('價(jià)格分區(qū)')['評(píng)論數(shù)'].sum()
plt.pie(jg,labels=jg.index,autopct='%10.1f%%')
plt.title('各個(gè)價(jià)格段手機(jī)銷量比例餅圖')
plt.show()
可視化展示。
圖5-8手機(jī)銷量占比圖
通過圖5-8可以看出,價(jià)格段在500~2500選擇的消費(fèi)者最多,占了43.4%,
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
其次是選擇5000~7500價(jià)格區(qū)間的,所占比例32.7%。通過分析消費(fèi)者對(duì)于手機(jī)
商品的選擇趨向,可以分析消費(fèi)者的消費(fèi)偏好與購買能力,從而進(jìn)行精準(zhǔn)推送,
提高消費(fèi)者購買欲望。
5.2.4統(tǒng)計(jì)銷量前十的手機(jī)商品
根據(jù)評(píng)論數(shù)的數(shù)量可以統(tǒng)計(jì)出京東手機(jī)銷量前十的手機(jī)商品。代碼如下。
data=pd.read_excel("phone.xlsx")
sales=data.sort_values(by=['評(píng)論數(shù)'],ascending=False).head(10)
plt.bar(sales['商品名稱'],sales['評(píng)論數(shù)'])
plt.xlabel('商品名稱')
plt.ylabel('評(píng)論數(shù)')
plt.subplots_adjust(bottom=0.5)
plt.xticks(rotation=90,fontsize=5)
forx,yinenumerate(sales['評(píng)論數(shù)']):
plt.text(x,y+10,'%s'%round(y,1),ha='center')
plt.title('評(píng)論數(shù)前10商品排行')
plt.show()
可視化展示。
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-9銷量前十手機(jī)商品名稱
通過圖5-9可以看出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上海市安全員C證考試(專職安全員)題庫附答案
- 貴州城市職業(yè)學(xué)院《中級(jí)財(cái)務(wù)會(huì)計(jì)Ⅱ》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州財(cái)經(jīng)大學(xué)《面料認(rèn)知與再造》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽學(xué)院《音樂作品分析(一)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025黑龍江建筑安全員-C證(專職安全員)考試題庫
- 貴陽信息科技學(xué)院《東方文學(xué)專題研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025湖北省安全員B證(項(xiàng)目經(jīng)理)考試題庫
- 2025年湖南省建筑安全員知識(shí)題庫附答案
- 廣州幼兒師范高等專科學(xué)?!稛艄庠煨汀?023-2024學(xué)年第一學(xué)期期末試卷
- 廣州新華學(xué)院《接口自動(dòng)化》2023-2024學(xué)年第一學(xué)期期末試卷
- 專項(xiàng)債券培訓(xùn)課件
- CNAS-CL01-G001:2024檢測(cè)和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則的應(yīng)用要求
- 校園重點(diǎn)防火部位消防安全管理規(guī)定(3篇)
- 臨時(shí)施工圍擋安全應(yīng)急預(yù)案
- ICP-網(wǎng)絡(luò)與信息安全保障措施-1.信息安全管理組織機(jī)構(gòu)設(shè)置及工作職責(zé)
- 碼頭安全生產(chǎn)管理制度
- 部隊(duì)冬季常見病的防治
- 4《古詩三首》(說課稿)2024-2025學(xué)年統(tǒng)編版語文三年級(jí)上冊(cè)
- 醫(yī)院改擴(kuò)建工程可行性研究報(bào)告(論證后)
- 市政給水管道工程監(jiān)理細(xì)則
- 2024廣東省基本醫(yī)療保險(xiǎn)門診特定病種業(yè)務(wù)經(jīng)辦規(guī)程-申請(qǐng)表
評(píng)論
0/150
提交評(píng)論