京東手機(jī)商品數(shù)據(jù)采集與分析_第1頁
京東手機(jī)商品數(shù)據(jù)采集與分析_第2頁
京東手機(jī)商品數(shù)據(jù)采集與分析_第3頁
京東手機(jī)商品數(shù)據(jù)采集與分析_第4頁
京東手機(jī)商品數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................1

1.2.1Python簡(jiǎn)介..........................................................................................1

1.2.2Selenium簡(jiǎn)介......................................................................................2

1.2.3Jypyternotebook簡(jiǎn)介......................................................................2

1.2.4MicrosoftExcel簡(jiǎn)介........................................................................2

2需求分析....................................................................................................................2

2.1可行性需求分析..........................................................................................2

2.2關(guān)鍵技術(shù)分析..............................................................................................3

2.2.1動(dòng)態(tài)網(wǎng)絡(luò)爬蟲技術(shù)...............................................................................3

2.2.2文件存取技術(shù).......................................................................................3

2.2.3數(shù)據(jù)可視化技術(shù)...................................................................................3

3數(shù)據(jù)采集....................................................................................................................3

3.1采集頁面分析..............................................................................................3

3.2爬蟲分析......................................................................................................4

3.3目標(biāo)字段分析..............................................................................................6

3.4數(shù)據(jù)存儲(chǔ)......................................................................................................7

4數(shù)據(jù)清洗與處理........................................................................................................9

4.1數(shù)據(jù)清洗需求分析......................................................................................9

4.2數(shù)據(jù)儲(chǔ)存進(jìn)Excel.....................................................................................10

5數(shù)據(jù)分析與可視化..................................................................................................10

5.1數(shù)據(jù)分析....................................................................................................10

5.1.1統(tǒng)計(jì)各個(gè)價(jià)格段商品數(shù)量.................................................................10

5.1.2統(tǒng)計(jì)各個(gè)價(jià)格段商品評(píng)論數(shù)量.........................................................11

5.1.3統(tǒng)計(jì)每個(gè)店鋪的評(píng)論數(shù)并取評(píng)論數(shù)最多的前十店鋪.....................11

5.2數(shù)據(jù)可視化................................................................................................12

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.1根據(jù)商品標(biāo)題繪制關(guān)鍵詞詞云圖.....................................................12

5.2.2根據(jù)店鋪銷量繪制銷量條形圖.........................................................14

5.2.3繪制各個(gè)價(jià)格段手機(jī)銷量占比圖.....................................................15

5.2.4統(tǒng)計(jì)銷量前十的手機(jī)商品.................................................................16

5.3可視化分析....................................................................................................17

6總結(jié)..........................................................................................................................18

參考資料.........................................................................................................................19

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

京東手機(jī)商品數(shù)據(jù)采集與分析

1引言

隨著大數(shù)據(jù)時(shí)代的到來,每時(shí)每刻都有非常龐大的數(shù)據(jù)量產(chǎn)生,海量數(shù)據(jù)

的分析成了重點(diǎn)與難點(diǎn),誰掌握了數(shù)據(jù),誰就掌握了主動(dòng)權(quán)。使用大數(shù)據(jù)技術(shù)

進(jìn)行數(shù)據(jù)分析的時(shí)代發(fā)展的必然趨勢(shì),大數(shù)據(jù)技術(shù)挖掘與分析借助計(jì)算機(jī)來對(duì)

大量的信息進(jìn)行獲取、剔除無用數(shù)據(jù)、并將有用的數(shù)據(jù)進(jìn)行聯(lián)系整合計(jì)算與分

析總結(jié)。數(shù)據(jù)分析能夠?qū)Ω餍懈鳂I(yè)的數(shù)據(jù)進(jìn)行預(yù)測(cè),了解市場(chǎng)動(dòng)態(tài)變化,從而

制定更加完善的策略,提升策略的成功率。

手機(jī)作為當(dāng)代無論是年輕人還是老年人都人手必備的一樣?xùn)|西,幾乎成為

了絕大多數(shù)人的生活必備品。通過對(duì)大眾消費(fèi)者購買需求,偏好的分析,就可

以更好的把握住消費(fèi)者的心理,從而達(dá)到更加精準(zhǔn)的營銷。

1.1項(xiàng)目背景

信息時(shí)代,許多人都以網(wǎng)絡(luò)平臺(tái)作為交易的渠道,買賣雙方不需見面交流

就能完成交易。這個(gè)方式操作簡(jiǎn)單并且效率高,既節(jié)省雙方時(shí)間,又不會(huì)被空

間所約束,加快了我國經(jīng)濟(jì)全球化的步伐。

當(dāng)今社會(huì),幾乎人手一臺(tái)或者多臺(tái)手機(jī),手機(jī)的利潤可想而知,而我們需

要更加了解消費(fèi)者對(duì)手機(jī)市場(chǎng)選擇的需求,就需要我們對(duì)多數(shù)人的偏好進(jìn)行分

析。本項(xiàng)目就是通過采集電商網(wǎng)站京東上的手機(jī)數(shù)據(jù),根據(jù)這些數(shù)據(jù)可以獲取

消費(fèi)者的消費(fèi)心理、行為等數(shù)據(jù),獲取有價(jià)值的信息,從而讓商家更加了解消

費(fèi)者的消費(fèi)偏重,為市場(chǎng)精準(zhǔn)化營銷奠定了基礎(chǔ),保證消費(fèi)者能享受到多元化

服務(wù)。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的GuidovanRossum于1990

年代初所設(shè)計(jì)。Python的優(yōu)點(diǎn)主要有:簡(jiǎn)單易學(xué);速度較快,python的底層語

言是C語言;免費(fèi)開源;python提供了高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),還能簡(jiǎn)單而有效

的面向?qū)ο缶幊?;可擴(kuò)展性和可擴(kuò)充性,它提供了豐富的API和工具,python

語言也被稱之為“膠水語言“;豐富的庫等。但相較于C和C++相比,它的運(yùn)

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

行速度相對(duì)較慢。

python的設(shè)計(jì)目標(biāo)之一是讓代碼具備高度的可閱讀性,代碼看起來整潔美

觀,不需要像pascal那樣需要重復(fù)書寫聲明語句,語法規(guī)范,清晰。

1.2.2Selenium簡(jiǎn)介

Selenium是基于Web應(yīng)用程序并且支持瀏覽器驅(qū)動(dòng)的開源自動(dòng)化測(cè)試框架,

可以模擬真實(shí)用戶輸入網(wǎng)址、滾動(dòng)鼠標(biāo)、點(diǎn)擊等動(dòng)態(tài)操作。所支持的瀏覽器有

IE,MozillaFirefox,Safari,GoogleChrome,Edge等等,支持Python、Java、C#

主流編程語言二次開發(fā)。它的主要功能如下。

測(cè)試與瀏覽器的兼容性,測(cè)試應(yīng)用程序能否很好的在不同的瀏覽器和操作

系統(tǒng)中工作。測(cè)試系統(tǒng)功能,創(chuàng)建回歸測(cè)試檢驗(yàn)軟件功能和用戶需求。

1.2.3Jypyternotebook簡(jiǎn)介

JupyterNotebook是利用瀏覽器遠(yuǎn)程訪問方式進(jìn)行編程的一個(gè)交互式應(yīng)用平

臺(tái),支持Python、R、Julia、C等40多種編程語言,可以通過網(wǎng)頁訪問Jupyter

Notebook平臺(tái),創(chuàng)建支持實(shí)時(shí)代碼和數(shù)學(xué)公式的程序文檔,在網(wǎng)頁中進(jìn)行編寫

與運(yùn)行,并直接將結(jié)果展示在網(wǎng)頁里。它的本質(zhì)是一個(gè)Web應(yīng)用程序,能夠創(chuàng)

建和共享程序文檔,支持實(shí)時(shí)代碼,數(shù)學(xué)方程,可視化和markdown。用途有:

數(shù)據(jù)清洗和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計(jì)建模,機(jī)器學(xué)習(xí)。

1.2.4MicrosoftExcel簡(jiǎn)介

MicrosoftExcel是微軟公司1982年推出的一款電子制表軟件。由于它直觀

的頁面、出色的計(jì)算功能和圖表工具,以及成功的市場(chǎng)營銷,Excel成為最流行

的個(gè)人計(jì)算機(jī)數(shù)據(jù)處理軟件。1993年,Excel就開始成為所適用操作平臺(tái)上的電

子制表軟件的第一,直到現(xiàn)在它依舊被人們廣泛使用。

2需求分析

2.1可行性需求分析

由于京東電商網(wǎng)站是一個(gè)動(dòng)態(tài)網(wǎng)頁,所以我選擇使用selenium進(jìn)行模擬真

實(shí)用戶搜索并進(jìn)行爬取。下載相關(guān)瀏覽器驅(qū)動(dòng),對(duì)目標(biāo)網(wǎng)址發(fā)起get請(qǐng)求,使用

By庫解析并獲取頁面中的相關(guān)數(shù)據(jù),存儲(chǔ)為json格式的文件。將采集的數(shù)據(jù)進(jìn)

行處理并存入excel表格中,使用jupyternotebook對(duì)excel中的數(shù)據(jù)進(jìn)行分析,

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

將分析結(jié)果使用pythonmatplotlib,pyecharts進(jìn)行可視化展示。

2.2關(guān)鍵技術(shù)分析

2.2.1動(dòng)態(tài)網(wǎng)絡(luò)爬蟲技術(shù)

我們只需要安裝selenium以及相關(guān)瀏覽器驅(qū)動(dòng),導(dǎo)入需要使用的庫就可以

編寫相關(guān)爬取語句并進(jìn)行批量爬取。

2.2.2文件存取技術(shù)

對(duì)爬取的數(shù)據(jù)存儲(chǔ)格式為json格式,json是一種輕量級(jí)的數(shù)據(jù)交換格式,

json易于閱讀和編寫,也易于機(jī)器解析和生成,可以有效地提升網(wǎng)絡(luò)傳輸效率。

清洗后的數(shù)據(jù)存入excel,然后進(jìn)行讀取分析。

2.2.3數(shù)據(jù)可視化技術(shù)

數(shù)據(jù)可視化時(shí)數(shù)據(jù)處理的一項(xiàng)關(guān)鍵技術(shù),它通過不同的圖形對(duì)數(shù)據(jù)進(jìn)行展

示,我們可以通過這些圖形所提供的內(nèi)容進(jìn)行分析與應(yīng)用。數(shù)據(jù)可視化就是把

數(shù)據(jù)與信息以圖形的形式更清晰有效的展現(xiàn)出來。

在本次項(xiàng)目中我們需要用到pyecharts、matplotlib兩個(gè)庫進(jìn)行數(shù)據(jù)可視化展

示,繪制相關(guān)詞云圖,餅圖,條形圖等等。

3數(shù)據(jù)采集

3.1采集頁面分析

打開本次爬取的目標(biāo)網(wǎng)站京東手機(jī)商品網(wǎng)頁

/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq

=%E6%89%8B%E6%9C%BA&pvid=8a1d8447fc7a45eca0990957933be5c5,可以

在右上方看到總頁數(shù)為63,如圖3-1。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-1京東手機(jī)商品頁面

打開開發(fā)工具,點(diǎn)擊網(wǎng)絡(luò)面板再次刷新頁面,查看標(biāo)頭可以看到頁面的請(qǐng)

求方法為get方法,如圖3-2。

圖3-2請(qǐng)求方法頁面

3.2爬蟲分析

由于目標(biāo)網(wǎng)站是一個(gè)含有多張頁面的一個(gè)動(dòng)態(tài)網(wǎng)頁,所以我選擇使用web

自動(dòng)化測(cè)試工具selenium模擬用戶來進(jìn)行頁面的逐個(gè)點(diǎn)擊爬取。首先我們要先

安裝瀏覽器驅(qū)動(dòng),Chrome瀏覽器的驅(qū)動(dòng)下載頁面

/index.html,需要根據(jù)瀏覽器的版本下

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

載對(duì)應(yīng)驅(qū)動(dòng),如圖3-3,圖3-4。

圖3-3瀏覽器版本

圖3-4驅(qū)動(dòng)版本

導(dǎo)入相關(guān)庫(圖3-5),定義一個(gè)使用selenium訪問京東手機(jī)商品頁面的方

法(圖3-6),打開京東頁面后定位搜索框輸入”手機(jī)”,等待幾秒后單擊銷量降

序排序,調(diào)用爬取商品數(shù)據(jù)方法。

圖3-5seleuimu爬取使用相關(guān)庫

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-6訪問頁面方法

3.3目標(biāo)字段分析

根據(jù)需求需要爬取的字段有:商品名稱、店鋪、價(jià)格、評(píng)論數(shù)。打開開發(fā)

工具,元素面板選中商品后我們可以看到每一個(gè)商品的類名都是gl-item。

點(diǎn)擊定位到商品名稱標(biāo)簽,可以看到商品名稱字段在em標(biāo)簽中(圖3-7),

根據(jù)一樣的方法找到店鋪、價(jià)格、評(píng)論數(shù)所在標(biāo)簽。

圖3-7商品名稱標(biāo)簽

定義一個(gè)商品數(shù)據(jù)爬取方法(圖3-8),使用selenium的

find_elements(By.CLASS_NAME,'gl-item')獲取50頁全部商品的數(shù)據(jù),通過for循

環(huán)遍歷后從中提取每一條數(shù)據(jù)。使用BY.CSS_SELETOR,XPATH方法進(jìn)行爬取。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-8數(shù)據(jù)爬取方法

爬取頁面數(shù)為50頁,所以需要每爬完一頁后點(diǎn)擊下一頁按鈕。

圖3-9下一頁

3.4數(shù)據(jù)存儲(chǔ)

每提取出一件商品的數(shù)據(jù)后,先將它存入字典,以字典的格式存入json文

件。

圖3-10數(shù)據(jù)存儲(chǔ)

代碼實(shí)現(xiàn)如下。

fromseleniumimportwebdriver

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

frommon.byimportBy

frommon.keysimportKeys

importtime

importjson

#訪問京東頁面

defspider(url,keyword):

driver=webdriver.Chrome()

driver.get(url)

input=driver.find_element(By.ID,'key')#定位搜索框

input.clear()

input.send_keys(keyword,Keys.ENTER)#輸入手機(jī)

time.sleep(5)#強(qiáng)制等待3s

num=driver.find_element(By.XPATH,'//*[@id="J_filter"]/div[1]/div[1]/a[2]')

num.click()#單擊銷量降序

time.sleep(3)

get_goods(driver)#抓取商品數(shù)據(jù)d

#抓取商品數(shù)據(jù)

defget_goods(driver):

withopen("phone.json",'a+',encoding='utf-8')asf:

f.write('[')

#通過類名獲取對(duì)象

forxinrange(50):

lis=driver.find_elements(By.CLASS_NAME,'gl-item')

time.sleep(3)

foriinlis:

title=i.find_element(By.CSS_SELECTOR,'.p-nameem').text.replace('\n','')#商品

名稱

price=i.find_element(By.CSS_SELECTOR,'.p-pricei').text#價(jià)格

volume=i.find_element(By.CSS_SELECTOR,'.p-commita:last-child').text#

評(píng)論數(shù)量

#由于店鋪有空值寫入異常拋出語句程序繼續(xù)運(yùn)行

try:

shop=i.find_element(By.XPATH,'./div[1]/div[7]/span/a').text#店鋪

except:

pass

#存儲(chǔ)為字典

data={'商品名稱':title,'店鋪':shop,'價(jià)格':price,'評(píng)論數(shù)':volume}

#將字典存入json文件

new_data=json.dumps(data,ensure_ascii=False,indent=4)

withopen('phone.json','a+',encoding='utf-8')asf:

f.write(new_data+',')

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

time.sleep(5)

#獲取多頁數(shù)據(jù)

t=driver.find_element(By.PARTIAL_LINK_TEXT,'下一頁')

t.click()

time.sleep(5)

print("---------------第",x+1,"頁-----------------")

withopen("phone.json",'a+',encoding='utf-8')asf:

f.write(']')

spider('',keyword='手機(jī)')

4數(shù)據(jù)清洗與處理

4.1數(shù)據(jù)清洗需求分析

從爬取下來的數(shù)據(jù)中可以看出商品標(biāo)題中存在著一些多余的內(nèi)容,比如方

括號(hào)以及一些換行符,商品價(jià)格的后綴.00對(duì)我們來說并沒有太大用,還會(huì)占據(jù)

更多的空間,所以我們選擇對(duì)無用數(shù)據(jù)進(jìn)行去除,并將評(píng)論數(shù)數(shù)據(jù)中的“萬+”

去除加號(hào)后,將萬替換為對(duì)應(yīng)的數(shù)值型字符。實(shí)現(xiàn)代碼如下。

importjson

importpandasaspd

lists=[]

#讀取文件

withopen("phone.json",'r',encoding='utf-8')asf:

data=json.load(f)

#print(len(data))#輸出數(shù)據(jù)條數(shù)

#處理數(shù)據(jù)

foriindata:

i['商品名稱']=i['商品名稱'].replace('【','').replace('】','').replace('/','')\

.replace('\\','').strip('愛心東東').strip('拍拍')#去除商品名稱中的無用字符

i['價(jià)格']=i['價(jià)格'].strip('.00')

pl=i['評(píng)論數(shù)'].replace('+','')#去除加號(hào)

if'萬'inpl:

pl1=pl.replace('萬','')#將萬替換成數(shù)值

pl1=int(pl1)*10000

i['評(píng)論數(shù)']=pl1

lists.append(i)

else:

i['評(píng)論數(shù)']=pl

lists.append(i)

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4.2數(shù)據(jù)儲(chǔ)存進(jìn)Excel

數(shù)據(jù)存儲(chǔ)的方式有很多種,比如存入hive、mysql、json、csv等等。這里我

選擇將數(shù)據(jù)存入excel文件。實(shí)現(xiàn)代碼如下。

#將數(shù)據(jù)寫入excel

d=pd.DataFrame(lists)

print(len(d))

d.to_excel('phone.xlsx',index=False)

圖4-1數(shù)據(jù)存儲(chǔ)excel頁面

5數(shù)據(jù)分析與可視化

5.1數(shù)據(jù)分析

使用jupyternotebook導(dǎo)入相關(guān)庫,這里使用的是pandas,對(duì)爬取的數(shù)據(jù)進(jìn)行

簡(jiǎn)單的分析。開始進(jìn)行分析前需要對(duì)整體數(shù)據(jù)進(jìn)行讀取,以確保能夠成功讀取

數(shù)據(jù)。如圖

圖5-1數(shù)據(jù)讀取頁面

5.1.1統(tǒng)計(jì)各個(gè)價(jià)格段商品數(shù)量

通過自行定義商品價(jià)格區(qū)間來對(duì)各個(gè)價(jià)格段的商品數(shù)量進(jìn)行求和,可以了

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

解京東手機(jī)商品價(jià)格的大致趨勢(shì)。

圖5-2各個(gè)價(jià)格段商品數(shù)量數(shù)據(jù)

5.1.2統(tǒng)計(jì)各個(gè)價(jià)格段商品評(píng)論數(shù)量

商品評(píng)論數(shù)是交易數(shù)據(jù)的一種體現(xiàn)形式,自行定義商品價(jià)格區(qū)間,對(duì)各個(gè)

價(jià)格區(qū)間的商品評(píng)論數(shù)進(jìn)行求和,通過消費(fèi)者交易數(shù)據(jù)來甄別客戶的價(jià)值,以

此來滿足消費(fèi)者不同的需求,制定不同的營銷策略來促成消費(fèi)者達(dá)成交易。

圖5-3商品評(píng)論數(shù)量

5.1.3統(tǒng)計(jì)每個(gè)店鋪的評(píng)論數(shù)并取評(píng)論數(shù)最多的前十店鋪

通過對(duì)每個(gè)店鋪的評(píng)論數(shù)進(jìn)行分類匯總,并取評(píng)論數(shù)排名前十的店鋪名稱。

對(duì)于店鋪銷量的分析可以看出消費(fèi)者對(duì)于各個(gè)店鋪、品牌的選擇傾向,通過不

同客戶群體的選擇傾向推送客戶更感興趣的商品,針對(duì)不同的客戶制定不同的

廣告策略,從而促成交易。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-4銷量前十店鋪

5.2數(shù)據(jù)可視化

進(jìn)行可視化展示前需要對(duì)所用的庫進(jìn)行導(dǎo)入,如圖5-5。

圖5-5可視化相關(guān)庫

5.2.1根據(jù)商品標(biāo)題繪制關(guān)鍵詞詞云圖

在商品標(biāo)題中有許多的空格來隔開商品標(biāo)題中的關(guān)鍵詞,將關(guān)鍵詞進(jìn)行分

割,去重后統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的次數(shù)來繪制詞云圖可以看出手機(jī)類商品的銷售賣

點(diǎn),相應(yīng)代碼如下。

data=pd.read_excel("phone.xlsx")

name=data['商品名稱']

lis=[]

#分割關(guān)鍵詞存儲(chǔ)進(jìn)列表

foriinname:

y=i.split('')

forxiny:

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

lis.append(x)

#去重計(jì)算出現(xiàn)次數(shù)

k=[]

foriinset(lis):

x=lis.count(i)

k.append((i,x))

#取出現(xiàn)次數(shù)最多的前50位

list_t=sorted(k,key=lambdat:t[1],reverse=True)[0:50]

#畫詞云圖

defwordcloud()->WordCloud:

c=(

WordCloud()

.add('',k)

.set_global_opts(title_opts=opt.TitleOpts(title='京東手機(jī)商品名稱關(guān)鍵詞詞云'),

toolbox_opts=opt.ToolboxOpts())

)

returnc

wordcloud().render('ciyun.html')

可視化展示。

圖5-6京東手機(jī)商品名稱關(guān)鍵字

從圖5-6可以看出,京東手機(jī)商品名稱中最常出現(xiàn)的關(guān)鍵字是Pro、Apple、

iPhone、5G手機(jī),從關(guān)鍵字出現(xiàn)次數(shù)我們可以判斷出現(xiàn)階段京東手機(jī)商品賣點(diǎn)

的主要趨勢(shì),從而制定相應(yīng)的運(yùn)營策略。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2根據(jù)店鋪銷量繪制銷量條形圖

評(píng)論數(shù)是商品銷量的表現(xiàn),所以可以通過店鋪和評(píng)論數(shù)兩個(gè)字段來統(tǒng)計(jì)每

個(gè)店鋪的總銷量,取前十并繪制店鋪銷量統(tǒng)計(jì)條形圖。代碼如下。

data=pd.read_excel("phone.xlsx")

xls=data.groupby('店鋪')['評(píng)論數(shù)'].sum()

xl=xls.sort_values(ascending=False).head(10)

plt.bar(xl.index,xl,color='SteelBlue')

plt.xticks(rotation=90)

plt.subplots_adjust(bottom=0.4)

plt.xlabel('店鋪名稱')

plt.ylabel('銷量')

plt.ylim(400000,8000000)

forx,yinenumerate(xl):

plt.text(x,y+10,'%s'%round(y,1),ha='center')

plt.title('各店鋪銷量排行前10統(tǒng)計(jì)圖')

plt.show()

可視化展示。

圖5-7商品銷量前十店鋪統(tǒng)計(jì)圖

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

從圖5-7可以看出京東手機(jī)銷量前十店鋪名稱與銷量數(shù)據(jù),Apple產(chǎn)品京東

自營旗艦店的銷量最高,銷量700萬+,其次是小米京東自營旗艦店,銷量400

萬+。通過統(tǒng)計(jì)各店鋪的銷量數(shù)據(jù),可以判斷消費(fèi)者對(duì)于不同店鋪、品牌的選擇

傾向。

5.2.3繪制各個(gè)價(jià)格段手機(jī)銷量占比圖

通過評(píng)論數(shù)和手機(jī)的價(jià)格分段區(qū)間,可以看出消費(fèi)者對(duì)于手機(jī)價(jià)格傾向,

從而根據(jù)消費(fèi)者的購買能力來推送不同的商品。代碼如下。

data=pd.read_excel("phone.xlsx")

#添加價(jià)格分區(qū)一列

bins=[500,2500,5000,7500,10000,30000]

data['價(jià)格分區(qū)']=pd.cut(x=data.價(jià)格,bins=bins,retbins=False,right=True)

jg=data.groupby('價(jià)格分區(qū)')['評(píng)論數(shù)'].sum()

plt.pie(jg,labels=jg.index,autopct='%10.1f%%')

plt.title('各個(gè)價(jià)格段手機(jī)銷量比例餅圖')

plt.show()

可視化展示。

圖5-8手機(jī)銷量占比圖

通過圖5-8可以看出,價(jià)格段在500~2500選擇的消費(fèi)者最多,占了43.4%,

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

其次是選擇5000~7500價(jià)格區(qū)間的,所占比例32.7%。通過分析消費(fèi)者對(duì)于手機(jī)

商品的選擇趨向,可以分析消費(fèi)者的消費(fèi)偏好與購買能力,從而進(jìn)行精準(zhǔn)推送,

提高消費(fèi)者購買欲望。

5.2.4統(tǒng)計(jì)銷量前十的手機(jī)商品

根據(jù)評(píng)論數(shù)的數(shù)量可以統(tǒng)計(jì)出京東手機(jī)銷量前十的手機(jī)商品。代碼如下。

data=pd.read_excel("phone.xlsx")

sales=data.sort_values(by=['評(píng)論數(shù)'],ascending=False).head(10)

plt.bar(sales['商品名稱'],sales['評(píng)論數(shù)'])

plt.xlabel('商品名稱')

plt.ylabel('評(píng)論數(shù)')

plt.subplots_adjust(bottom=0.5)

plt.xticks(rotation=90,fontsize=5)

forx,yinenumerate(sales['評(píng)論數(shù)']):

plt.text(x,y+10,'%s'%round(y,1),ha='center')

plt.title('評(píng)論數(shù)前10商品排行')

plt.show()

可視化展示。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-9銷量前十手機(jī)商品名稱

通過圖5-9可以看出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論