基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析_第1頁(yè)
基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析_第2頁(yè)
基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析_第3頁(yè)
基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析_第4頁(yè)
基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言1

1.1項(xiàng)目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Python簡(jiǎn)介2

1.2.2MySQL簡(jiǎn)介3

1.2.3Jypyternotebook簡(jiǎn)介3

1.2.4Python第三方庫(kù)簡(jiǎn)介4

2需求分析4

2.1可行性需求分析4

2.2采集目標(biāo)功能分析5

2.3關(guān)鍵技術(shù)分析5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5

2.3.2文件存取技術(shù)6

2.3.3可視化技術(shù)6

3數(shù)據(jù)采集7

3.1采集頁(yè)面分析7

3.2字段分析10

3.3編程實(shí)現(xiàn)11

4數(shù)據(jù)清洗與處理15

4.1數(shù)據(jù)清洗15

4.2數(shù)據(jù)儲(chǔ)存18

4.3編程實(shí)現(xiàn)19

5數(shù)據(jù)統(tǒng)計(jì)與分析20

5.1數(shù)據(jù)準(zhǔn)備20

5.2數(shù)據(jù)展示24

5.2.1依據(jù)二手車車系數(shù)量進(jìn)行統(tǒng)計(jì)和分析24

5.2.2依據(jù)二手車車齡進(jìn)行統(tǒng)計(jì)和分析25

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3依據(jù)二手車車輛行駛里程分布進(jìn)行統(tǒng)計(jì)和分析26

5.2.4依據(jù)二手車車輛價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析27

5.3綜述28

6小結(jié)28

參考資料29

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析

1引言

隨著當(dāng)今時(shí)代的發(fā)展,全球現(xiàn)在已經(jīng)進(jìn)入了一個(gè)信息高速發(fā)展的階段。自

2012年以來(lái),‘大數(shù)據(jù)’這個(gè)詞語(yǔ)就開始在我們的生活中越來(lái)越多地被提及,

而現(xiàn)在科技技術(shù)的不斷的發(fā)展,移動(dòng)互聯(lián)網(wǎng)的發(fā)展越發(fā)的快速和成熟??萍技?/p>

術(shù)的發(fā)展伴隨著信息呈現(xiàn)一個(gè)爆炸式的增長(zhǎng),如今我們的生活每天產(chǎn)生的數(shù)據(jù)

是我們常人無(wú)法統(tǒng)計(jì)計(jì)算的。當(dāng)今時(shí)代的各種技術(shù)在信息大爆炸和社會(huì)需求的

引導(dǎo)下不斷誕生?;ヂ?lián)網(wǎng)技術(shù)在當(dāng)今社會(huì)從各個(gè)方面為我們提供了各種的技術(shù)

基礎(chǔ)?,F(xiàn)在我們的生活中日常購(gòu)物,出行,交流都會(huì)伴隨著數(shù)據(jù)的產(chǎn)生,而這

便為我們提供了主要的數(shù)據(jù)來(lái)源,這些數(shù)據(jù)便能讓我們?nèi)パ芯亢烷_發(fā)新的技術(shù),

從而投入應(yīng)用到我們的生活中。

衣食住行,醫(yī)療發(fā)展,安全保障,社會(huì)福利等等方面產(chǎn)生的數(shù)據(jù)在我們當(dāng)

今社會(huì)有著極大的開發(fā)價(jià)值。我們正處于信息快速發(fā)展的階段,我們這一代的

年輕人應(yīng)該抓住這次機(jī)會(huì),社會(huì)上大數(shù)據(jù)的報(bào)導(dǎo)和相關(guān)從業(yè)者的經(jīng)歷,吸引了

許多人往這個(gè)方向發(fā)展。大數(shù)據(jù)相關(guān)的從業(yè)者都深知在這大量的數(shù)據(jù)當(dāng)中隱藏

許多沒有被人發(fā)掘的發(fā)展方向和研究方向。大數(shù)據(jù)技術(shù)目前也是當(dāng)前信息發(fā)展

領(lǐng)域的一個(gè)熱門話題,盡管現(xiàn)在大數(shù)據(jù)技術(shù)的發(fā)展還不夠成熟,但是隨著時(shí)間

發(fā)展會(huì)越發(fā)趨向成熟,大部分的人認(rèn)為大數(shù)據(jù)在之后會(huì)是大勢(shì)所向!

1.1項(xiàng)目背景

長(zhǎng)沙作為我們國(guó)家的特大城市之一,也是湖南省經(jīng)濟(jì)發(fā)展的重心,在幾十

年的艱苦建設(shè)以來(lái),也具有了一定的經(jīng)濟(jì)實(shí)力。衡量一座城市的經(jīng)濟(jì)實(shí)力不僅

僅只是從城市化水平以及城市間的三大產(chǎn)業(yè)的比例來(lái)看,還要關(guān)注居民的吃穿

住行以及消費(fèi)能力。

出行作為我們每天生活中必不可少的一環(huán),出行的方式有許多,如步行,

駕車,地鐵出行等等,而長(zhǎng)沙城市規(guī)模已經(jīng)十分巨大,這次我們就從駕車這一

方面來(lái)進(jìn)行分析。

居民用車現(xiàn)在已經(jīng)開始慢慢的在每家每戶開始普及,而二手車市場(chǎng)恰恰能

夠反映居民對(duì)需求車輛的要求,同時(shí)也能夠體現(xiàn)居民的消費(fèi)能力和購(gòu)買需求,

以及反映出居民對(duì)不同車系的喜好程度。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

二手車網(wǎng)站上涉及到的車系很多,我們需要對(duì)網(wǎng)頁(yè)進(jìn)行分析獲取我們需要

的字段和內(nèi)容,然后通過(guò)Python的爬蟲技術(shù)獲取到我們需要的資料

本次項(xiàng)目我是對(duì)第一車網(wǎng)這個(gè)網(wǎng)站中針對(duì)長(zhǎng)沙二手車數(shù)據(jù)的爬取,將長(zhǎng)沙

二手車數(shù)據(jù)爬取下來(lái)后,對(duì)其進(jìn)行處理,分析,最后可視化。眾多的數(shù)據(jù)經(jīng)過(guò)

清洗,統(tǒng)計(jì)和分析后,展示在我們面前的結(jié)果就是經(jīng)過(guò)可視化的數(shù)據(jù),透過(guò)可

視化我們能了解到長(zhǎng)沙居民對(duì)車系的選擇,購(gòu)買能力以及從側(cè)面進(jìn)而反映出長(zhǎng)

沙的經(jīng)濟(jì)能力。我的項(xiàng)目包括數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)存以及數(shù)據(jù)可視化

四個(gè)部分。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

20世紀(jì)80年代末,荷蘭的龜叔(GuidoRossum)創(chuàng)造了Python。Python

的誕生是具有戲劇性的,據(jù)龜叔自述,Python是他在圣誕節(jié)期間為了打發(fā)無(wú)聊

的時(shí)間而開發(fā)出來(lái)的,之所以會(huì)選擇Python作為該編程語(yǔ)言的名字,是因?yàn)樗?/p>

是一個(gè)大蟒蛇飛行馬戲團(tuán)的愛好者。Python在1991年左右出現(xiàn)在公眾面前,從

那時(shí)起就演變?yōu)槭钱?dāng)今全球最流行的語(yǔ)言之一。

Python初期并沒有引起大多數(shù)人們的關(guān)注,在21世紀(jì)初Google在大量的

業(yè)務(wù)上開始應(yīng)用Python,而這也因此讓Python走進(jìn)大眾了的視野,促使了

Python的發(fā)展。

Python提供了高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),還能簡(jiǎn)單有效地面向?qū)ο缶幊?。Python

語(yǔ)法和動(dòng)態(tài)類型,以及解釋型語(yǔ)言的本質(zhì),使它成為多數(shù)平臺(tái)上寫腳本和快速

開發(fā)應(yīng)用的編程語(yǔ)言,隨著版本的不斷更新和語(yǔ)言新功能的添加,逐漸被用于

獨(dú)立的、大型項(xiàng)目的開發(fā)。

Python解釋器易于擴(kuò)展,可以使用C語(yǔ)言或C++(或者其他可以通過(guò)C調(diào)

用的語(yǔ)言)擴(kuò)展新的功能和數(shù)據(jù)類型。Python也可用于可定制化軟件中的擴(kuò)展

程序語(yǔ)言。Python豐富的標(biāo)準(zhǔn)庫(kù),提供了適用于各個(gè)主要系統(tǒng)平臺(tái)的源碼或機(jī)

器碼。

Python入門難度相較于JAVA、C++等面向?qū)ο蟮恼Z(yǔ)言而言更加簡(jiǎn)單容易入

門、所以它很快的便走進(jìn)了大眾的視野中。

如今Python的排名已經(jīng)與老牌的C語(yǔ)言和JAVA語(yǔ)言不相上下,它也逐漸

走進(jìn)非IT行業(yè)工作者的視野內(nèi)?,F(xiàn)如今,人們用它開發(fā)簡(jiǎn)單的小腳本用來(lái)做一

些自動(dòng)化處理或者開發(fā)小程序。這也再次突出Python的特點(diǎn)就是易學(xué)、第三方

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

庫(kù)足夠豐富、并且免費(fèi)開源、支持跨多平臺(tái)并且可移植性比較強(qiáng)。

1.2.2MySQL簡(jiǎn)介

MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),由瑞典MySQLAB公司開發(fā),屬于

Oracle旗下產(chǎn)品。MySQL是當(dāng)今最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)之一,在WEB

應(yīng)用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,

關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))應(yīng)用軟件之一。

MySQL是一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),關(guān)系數(shù)據(jù)庫(kù)將數(shù)據(jù)保存在不同的表中,

而不是將所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性。

MySQL數(shù)據(jù)庫(kù)的標(biāo)志是一個(gè)小海豚,它象征著這個(gè)數(shù)據(jù)庫(kù)的讀取、存取速度

和優(yōu)秀準(zhǔn)確的含義。它所使用的SQL語(yǔ)言是用于訪問數(shù)據(jù)庫(kù)的最常用標(biāo)準(zhǔn)化語(yǔ)

言,它不僅高效而且安全、能與多款主流的計(jì)算機(jī)語(yǔ)言緊密結(jié)合,十分方便開

發(fā)人員對(duì)其進(jìn)行操作。與其他的大型數(shù)據(jù)庫(kù)例如Oracle,SQLServer等相比,

MySQL自有它的不足之處,但是這絲毫也沒有減少它受歡迎的程度。對(duì)于一般的

個(gè)人使用者和中小型企業(yè)來(lái)說(shuō),MySQL提供的功能已經(jīng)能夠滿足大部分的需求,

而且MySQL是開放源碼軟件,因此可以大幅度降低總體成本。

1.2.3Jypyternotebook簡(jiǎn)介

JupyterNotebook是一個(gè)支持實(shí)時(shí)代碼、數(shù)學(xué)方程、可視化和Markdown的

Web應(yīng)用程序,它支持40多種編程語(yǔ)言。對(duì)于數(shù)據(jù)分析來(lái)說(shuō),JupyterNotebook

最大的優(yōu)點(diǎn)是可以重現(xiàn)整個(gè)分析過(guò)程,并將說(shuō)明文字、代碼、圖表、公式和結(jié)

論都整合在一個(gè)文檔中,用戶可以通過(guò)電子郵件、Dropbox、GitHub和Jupyter

NotebookViewer將分析結(jié)構(gòu)分享給他人。

JupyterNotebook在數(shù)據(jù)分析的過(guò)程中,編程時(shí)具有語(yǔ)法高亮、縮進(jìn)、tab

補(bǔ)全的功能,可直接通過(guò)瀏覽器運(yùn)行代碼,同時(shí)在代碼塊下方展示運(yùn)行結(jié)果。

JupyterNoterbook在教學(xué)人員和開發(fā)人員講解項(xiàng)目時(shí)由于其簡(jiǎn)潔的展示界

面,方便的提供注釋,大大的節(jié)約了他們的時(shí)間同時(shí)也減去了一些繁雜的步驟。

Jupyternotebook在我們大數(shù)據(jù)方面應(yīng)用比較廣泛,特別適合用來(lái)做數(shù)據(jù)

的清洗和處理,能夠簡(jiǎn)潔明了的展示我們?cè)跀?shù)據(jù)清洗和處理時(shí)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù),

因此應(yīng)用在我們進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)可視化上是十分便捷的。

1.2.4Python第三方庫(kù)簡(jiǎn)介

Requests:是最友好的網(wǎng)絡(luò)爬蟲功能庫(kù),是一個(gè)原生的HTTP庫(kù),相比于

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

urllib3更容易使用的,Requests庫(kù)擁有完全自動(dòng)化的Keep-Alive和HTTP連

接池的功能。

lxml:lxml使用它可以輕松處理XML和HTML文件,還可以用于web爬取,

在解析大型文檔時(shí)處理速度較快,并且提供了簡(jiǎn)單的轉(zhuǎn)換方法來(lái)將數(shù)據(jù)轉(zhuǎn)換為

Python數(shù)據(jù)類型,從而使文件操作更容易。本項(xiàng)目中用其內(nèi)置的xpath用于數(shù)

據(jù)的爬取。

csv:csv屬于python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)

據(jù)存入到csv表格中。Csv文件是電子表格和數(shù)據(jù)庫(kù)中最常見的輸入、輸出文件

格式。

pandas:是一個(gè)基于NumPy的Python庫(kù),是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建

的,他納入了大量的庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效操作大型數(shù)據(jù)集所

需的工具,在本次項(xiàng)目中主要用于數(shù)據(jù)的讀取,存儲(chǔ),清洗以及數(shù)據(jù)的統(tǒng)計(jì)。

Pyecharts:是一個(gè)將Python和Echarts相結(jié)合的強(qiáng)大數(shù)據(jù)可視化的第三

方庫(kù),可以高度靈活配置繪畫出一些常見的如折線圖,條形圖,環(huán)形圖以及一

些復(fù)雜的的圖。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python是面向?qū)ο笳Z(yǔ)言中的一門通俗易懂的計(jì)算機(jī)編程語(yǔ)言,本項(xiàng)目中使

用Python編寫程序來(lái)實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗,數(shù)據(jù)統(tǒng)計(jì)預(yù)處理,數(shù)據(jù)可視化。

隨后通過(guò)對(duì)網(wǎng)頁(yè)分析發(fā)現(xiàn)第一車網(wǎng)長(zhǎng)沙二手車頁(yè)面的數(shù)據(jù)是靜態(tài)的,所以我們

通過(guò)瀏覽器控制臺(tái)獲取請(qǐng)求和其參數(shù)。然后就可以得到網(wǎng)頁(yè)面源碼。隨后轉(zhuǎn)成

html對(duì)象,將需要爬取出來(lái)的字段以csv格式儲(chǔ)存起來(lái),在后續(xù)的數(shù)據(jù)統(tǒng)計(jì),

數(shù)據(jù)可視化中再進(jìn)行調(diào)用。同時(shí)會(huì)將準(zhǔn)確的數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)中做持久化

儲(chǔ)存。

以上為此次項(xiàng)目的技術(shù)可行性,將在后續(xù)的工作中將所有的步驟實(shí)現(xiàn)到位,

以確保數(shù)據(jù)的準(zhǔn)確性和安全性。

2、項(xiàng)目可行性

出行的方式隨著時(shí)代的發(fā)展現(xiàn)在已經(jīng)涌現(xiàn)出了許多的出行方式,如駕車、

火車、高鐵、空航、地鐵,而在這些出行方式中,駕車出行似乎已經(jīng)逐漸發(fā)展

到大部分的人民生活中,而二手車的的出現(xiàn)便能夠反映出經(jīng)濟(jì)條件的變化,居

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

民的經(jīng)濟(jì)條件往往能夠反映一座城市的經(jīng)濟(jì)狀況。

本次項(xiàng)目通過(guò)采集了第一車網(wǎng)長(zhǎng)沙二手車的數(shù)據(jù),來(lái)分析長(zhǎng)沙居民家庭用

車和個(gè)人用車的變化。我將從車系、車齡、車齡行駛距離、車輛價(jià)格等四個(gè)方

面對(duì)其進(jìn)行剖析,分析出有價(jià)值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是第一車網(wǎng)長(zhǎng)沙二手車部分,是通過(guò)python爬取

長(zhǎng)沙二手車的車系,車齡,行駛里程,價(jià)格四種數(shù)據(jù)。數(shù)據(jù)清洗后共1997條記

錄,爬取完成后盡量的檢查數(shù)據(jù)的準(zhǔn)確性,確定爬取出來(lái)的數(shù)據(jù)無(wú)誤并且是屬

于長(zhǎng)沙二手車的信息。

分析第一車網(wǎng)長(zhǎng)沙二手車網(wǎng)頁(yè)部分,我們需要爬取的參數(shù)有車系,車齡、

里程、價(jià)格,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后我會(huì)將處理后數(shù)據(jù)再次分成四個(gè)部分

從這四個(gè)部分來(lái)進(jìn)行分析。如,從不同車系的數(shù)量對(duì)其進(jìn)行分析,查看每種車

系分別有多少輛,這樣能明顯的看出居民對(duì)車系的大多數(shù)選擇;又如我們需要

知道所有車輛的價(jià)格分布區(qū)間,那么我們只要對(duì)每輛車的價(jià)格劃分一個(gè)區(qū)間,

那么我們就可以整合出每個(gè)價(jià)格區(qū)間的車輛有多少。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

在我們的日常生活中瀏覽網(wǎng)頁(yè)時(shí)常會(huì)遇到需要緩存在本地的數(shù)據(jù),當(dāng)數(shù)據(jù)

量較小時(shí)我們可以自己手動(dòng)下載去獲取需要的數(shù)據(jù),而在大數(shù)據(jù)領(lǐng)域通常用到

的數(shù)據(jù)體量都很大,而這時(shí)采取手動(dòng)下載會(huì)使一個(gè)十分漫長(zhǎng)且愚蠢的過(guò)程,同

時(shí)部分?jǐn)?shù)據(jù)我們還不能獲取到,因此在這個(gè)時(shí)候我們可以采取網(wǎng)絡(luò)爬蟲的方式

去自動(dòng)化的下載數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲的英文即WebSpider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一

個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬行的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地

址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到

在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直

循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成

一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái),

網(wǎng)絡(luò)爬蟲按照實(shí)現(xiàn)的原理可以分為:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)

絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等形式。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

在大家的印象中常常將普通的網(wǎng)絡(luò)爬蟲與黑客混為一談,其實(shí)二者之間有

很大的區(qū)別。黑客屬于違法肆意竊取個(gè)人或者組織內(nèi)有價(jià)值的信息以此獲利,而

爬蟲只是用來(lái)代替重復(fù)且沒有意義的動(dòng)作,在合法的范圍內(nèi)去獲得我們需要的

信息,在某種程度上網(wǎng)絡(luò)爬蟲和普通用戶瀏覽是區(qū)別的,但是爬蟲確實(shí)可以作為

一種攻擊的手段。在編寫網(wǎng)絡(luò)爬蟲時(shí)故意不設(shè)置緩沖時(shí)間,從而達(dá)到極高的頻率

來(lái)反復(fù)訪問網(wǎng)站會(huì)使得服務(wù)器持續(xù)在高強(qiáng)度環(huán)境下工作,這會(huì)對(duì)服務(wù)器造成很

大的壓力,如果在這個(gè)時(shí)候沒有處理好服務(wù)器往往會(huì)宕機(jī)。

網(wǎng)站所有者從所有網(wǎng)站來(lái)訪者中識(shí)別出爬蟲并對(duì)其做出相應(yīng)處理(通常為

封禁IP)的過(guò)程,而這就被稱為反爬蟲。對(duì)網(wǎng)站所有者而言,爬蟲并不是一個(gè)

受歡迎的客人。爬蟲會(huì)消耗大量的服務(wù)器資源,而這會(huì)影響服務(wù)器的穩(wěn)定性,

增加服務(wù)器的運(yùn)營(yíng)成本,因此通常會(huì)設(shè)置一些反爬手段,如設(shè)置User-Agent校

驗(yàn)反爬,通過(guò)訪問頻率反爬,通過(guò)驗(yàn)證碼校驗(yàn)反爬,變換網(wǎng)頁(yè)結(jié)構(gòu)反爬,賬號(hào)

權(quán)限反爬等等。而這些手段會(huì)加大爬蟲工作者和網(wǎng)站的開發(fā)成本。而對(duì)于我們

獲取的數(shù)據(jù)通常相對(duì)簡(jiǎn)單和容易,不會(huì)需要投入太多的成本。

在本次項(xiàng)目中主要運(yùn)用到requests庫(kù)和lxml庫(kù)來(lái)進(jìn)行網(wǎng)頁(yè)的獲取以及目

標(biāo)數(shù)據(jù)的爬取。

2.3.2文件存取技術(shù)

文件存儲(chǔ)在本次項(xiàng)目中用到的是pandas庫(kù)中自帶的DataFrame()方法和

to_csv()方法,DataFrame()用于將對(duì)象轉(zhuǎn)換成dataframe對(duì)象,to_csv()用于

存儲(chǔ)到指定的目標(biāo)路徑當(dāng)中如圖2-1顯示

圖2-1python自帶的to_csv方法

2.3.3可視化技術(shù)

爬取下來(lái)的數(shù)據(jù)通過(guò)預(yù)處理、保存為csv文件格式。而這個(gè)數(shù)據(jù)集并不能

反映我們需要得知的結(jié)論。

而這個(gè)時(shí)候我們就需要通過(guò)數(shù)據(jù)可視化技術(shù)將我們統(tǒng)計(jì)好的數(shù)據(jù)轉(zhuǎn)化成統(tǒng)

計(jì)學(xué)圖形的方式展現(xiàn)出來(lái),而這個(gè)時(shí)候我們便能夠通過(guò)圖形來(lái)得到我們需要的

結(jié)論。

我們獲取到的數(shù)據(jù)僅僅只是一連串字符串,上面信息或許我們通過(guò)肉眼或

許都能夠看懂,但是當(dāng)它們累計(jì)成一定量的時(shí)候我們?cè)诙虝r(shí)間內(nèi)很難看出不同,

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

而這就需要我們進(jìn)行深層次的了解和分析。對(duì)這一坨數(shù)據(jù)集進(jìn)行處理完畢后,

我們就可以導(dǎo)入第三方庫(kù)將數(shù)據(jù)進(jìn)行合理的整合和判斷,來(lái)使用什么樣的統(tǒng)計(jì)

學(xué)圖形才能最直觀的表達(dá)出數(shù)據(jù)集的信息。

本次項(xiàng)目中是將得到的數(shù)據(jù)通過(guò)簡(jiǎn)單的可視化手段來(lái)實(shí)現(xiàn)數(shù)據(jù)可視化,具

體使用的是python第三方庫(kù)pyecharts去進(jìn)行可視化,pyecharts中包含了許

多庫(kù),分別對(duì)應(yīng)直方圖、條形圖、環(huán)形圖、折線圖等圖形,能夠?qū)?shù)據(jù)高效率

的表現(xiàn)出來(lái),可視化圖形呈現(xiàn)出來(lái)后數(shù)據(jù)的表達(dá)就十分明顯,從而得出需要的

結(jié)論。

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

我們首先通過(guò)谷歌瀏覽器搜索第一車網(wǎng)的官方網(wǎng)頁(yè),然后進(jìn)入長(zhǎng)沙二手車

頁(yè)面觀察圖3-1,其中url為:

/changsha/p1asdsvepcatcpbnscac/#buyCars然后點(diǎn)擊

頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察圖3-2,這時(shí)url為:

/changsha/p2asdsvepcatcpbnscac/#buyCars發(fā)現(xiàn)url

通過(guò)一個(gè)數(shù)字進(jìn)行改變。由于是通過(guò)單個(gè)數(shù)子來(lái)改變網(wǎng)頁(yè)鏈接,因此我們可以

利用循環(huán)將我們需要爬取的網(wǎng)頁(yè)鏈接存儲(chǔ)到一個(gè)列表當(dāng)中,以便后面爬取網(wǎng)頁(yè)

數(shù)據(jù)。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面(一)

圖3-2數(shù)據(jù)網(wǎng)頁(yè)界面(二)

按F12調(diào)出開發(fā)者工具,刷新頁(yè)面,如圖3-3。

圖3-3開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字

段,發(fā)現(xiàn)這個(gè)是一個(gè)GET請(qǐng)求,那我們需要找到請(qǐng)求頭的設(shè)置如圖3-4和圖

3-5。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4請(qǐng)求頭設(shè)置(一)

圖3-5請(qǐng)求頭設(shè)置(二)

3.2字段分析

我們首先來(lái)到網(wǎng)頁(yè)面打開網(wǎng)頁(yè)的選擇欄,然后利用全局搜索工具定位到其

中一組數(shù)據(jù)的位置上,然后會(huì)在Elemnts界面跳轉(zhuǎn)到我們需要的那組數(shù)據(jù)的位

置,通過(guò)觀我們會(huì)發(fā)現(xiàn)如圖3-6中標(biāo)注出來(lái)的4個(gè)字段就是我們需要爬取的其

中一組數(shù)據(jù),而這一組數(shù)據(jù)就是在一個(gè)大的板塊中,這一個(gè)大的板塊就包括了

我們?cè)谶@一頁(yè)中我們需要爬取的數(shù)據(jù),因此我們可以先獲取網(wǎng)頁(yè)數(shù)據(jù),利用循

環(huán)通過(guò)Requests庫(kù)中的get方法獲取到所有需要處理的網(wǎng)頁(yè)數(shù)據(jù),然后通過(guò)循

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

環(huán)和xpath將網(wǎng)頁(yè)數(shù)據(jù)中我們需要的數(shù)據(jù)所需要的板塊爬取下來(lái),然后在每一

個(gè)板塊中通過(guò)xpath爬取我們需要的每一組小的數(shù)據(jù),將爬取的下的數(shù)據(jù)存入

一個(gè)列表當(dāng)中,然后將列表轉(zhuǎn)成DataFrame對(duì)象,最后在通過(guò)pandas自帶的

to_csv()方法轉(zhuǎn)存為csv文件的格式。

圖3-6字段分析頁(yè)面

3.3編程實(shí)現(xiàn)

導(dǎo)入所需庫(kù)如圖3-7所示:

圖3-7導(dǎo)入所需庫(kù)頁(yè)面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問服務(wù)器,如圖3-8所示:

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-8請(qǐng)求頭內(nèi)容頁(yè)面

代碼實(shí)現(xiàn)如下:

#-*-codeing=utf_8_sig-*-

#@Time:2023/01/2319:35

#@Author:吳志豪

#@File:primary_data.py

#@Software:Pycharm

importrequests

importpandasaspd

fromlxmlimportetree

url_list=[]##用于存儲(chǔ)爬取的網(wǎng)頁(yè)鏈接

foriinrange(1,51):

url_list.append('/changsha/p{}asdsvepcatcpbnscac/#buyCars'.format(i))

##將網(wǎng)頁(yè)鏈接存入列表

headers={###設(shè)置請(qǐng)求頭

'authority':'',

'method':'GET',

'path':'/changsha/p1asdsvepcatcpbnscac/',

'scheme':'https',

'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,

image/webp,image/apng,*/*;'

'q=0.8,application/signed-exchange;v=b3;q=0.7',

'accept-encoding':'gzip,deflate,br',

'accept-language':'zh-CN,zh;q=0.9',

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

'cookie':'__bid_n=18428aca74b2eca5f34207;

FPTOKEN=30$LZShMS5nSKqFojYv2XuKXa8E7zhWfev/7iDCMHEdrro0NlWMlXg30bk

CqyaLStwP9Us+hRgnWuO8WFXON'\

'Hy0/mXvbzU9r2WGQkgoBZPHDf0BhWhurvShfXv+RNaw1Hg/L8E7BybDLzzu7KNph/Z

nNE3hmX9aI0TfF9/N5OSutqbqbuTNSxAMTZnLQEAUrlqvCVRPF0oX7T9OJu'\

'OBE4bajtiucgmjqHRXiyFAZhQot3JuMpyhw8tHQSD5OKJUg9SfDSQqLxjwrTEKxEp2e/

xY9lwh7q30LrG1zvRvk58NEEDBRrYv4x8AdZYMJ5lit2G3BNlvXVwZRxK'\

'VxTw/YR02gVCXFMRCyhHO1LuaHefe8uB1zgCq1uWvp0ikqgZP2tC8|43L39Y4WZeXuj

R7V7QSxXoM2v4VaejNiSfXnMZwX2MU=|10|d3b02e869425e30ebd060d7'\

'de927d016;_ga=GA1.2.1352334700.1667129715;

pt_6c76c030=uid=o9uxhfe4zDXqnaoJaMapAg&nid=0&vid=rexXg7uLWSbpKAOgkP28YQ

&vn=2&pvn='\

'2&sact=1667129882476&to_flag=1&pl=71qPOE-8iL8jcTYy88Sd1g*pt*1667129827765;

FPTOKEN=uEBDhxnO3fuWlscKJiRcrnwpnRQg1UG3Orgu5Hni1c'\

'XWhUU64Je0au7GeDOAu+NL4xCU85TjDHdGR4u3ItXpBxEIti8ZbyqnlMUU3+lethXcG

8mmj84Mre9Nb/dbiCRtd01yJJAgMA3zJ4fVxStDLUXomZ8GDmuljvU6HDk'\

'AOgr/yD9QTjclW3rC9iwDsoVz2eBmOhEgbcu8GaQ1yCZP0XLTwVxja5Nwi9M9Q9fod30

HWQ/oRkP5xyYbQwIR8QxcPOCj8V9C7At0x1ZmlZdV+iJN0GI41pRVFpcH'\

'Ghs/N6dX/EyLUXJ7ref00pZ011KURwVI7bHfrGAe09P3P6B2lmQ8B4P3yYZTugBUzErT

k6v+BMztV+RX9WblcgBkbvz2mQwzNGJSVT41I2qjJ/YsDg==|Fp1ZfqQA'\

'Xm+OFbah0nyclfUCEGCJLl3XHmhXZ5bp77E=|10|1ad9d9d8ac2d87fe6648a69a21a745c8;

Hm_lvt_561c1d73e7a5e5611b5a93fe18365726=1676687118;'\

'_gid=GA1.2.727558783.1676687118;

_df_id=1_ffe4dc2488b0492bad54c6103ca0c7e5_1676688368;

_df=17219c4c0ad5afd8184cf'\

'8dc679061e5;_pk_ses.3.9483=*;_gat=1;

_pk_id.3.9483=890cda5f008822ed.1667129715.4.1676708018.1676701985.;

Hm_lpvt_561c1d73e7'\

'a5e5611b5a93fe18365726=1676708018',

'sec-ch-ua':'"Chromium";v="110","NotA(Brand";v="24","Google

Chrome";v="110"',

'sec-ch-ua-mobile':'?0',

'sec-ch-ua-platform':'"Windows"',

'sec-fetch-dest':'document',

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

'sec-fetch-mode':'navigate',

'sec-fetch-site':'none',

'sec-fetch-user':'?1',

'upgrade-insecure-requests':'1',

'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/Safari/537.36'

}

data_list=[]##定義一個(gè)用于儲(chǔ)存總數(shù)居的列表

a=0

foriinurl_list:

a+=1

get_data=requests.get(i,headers=headers)##獲取每一頁(yè)的網(wǎng)頁(yè)源代碼

text=get_data.content.decode('utf-8')##將網(wǎng)頁(yè)源代碼編碼

html_text=etree.HTML(text)##轉(zhuǎn)換成html對(duì)象

page_data=html_text.xpath('//*[@id="buyCars"]/div[2]/ul[2]')##截取出需要爬取的

部分

print('正在爬取第{}頁(yè)'.format(a))

foriinpage_data:

name_list=i.xpath('//li/a/h6/text()')##每一頁(yè)的車系名稱列表

age_list=i.xpath('//li/a/div[3]/span[1]/text()')##每一頁(yè)的車齡列表

long_list=i.xpath('//li/a/div[3]/span[2]/text()')##每一頁(yè)的里程列表

price_list=i.xpath('//li/a/div[4]/strong/text()')##每一頁(yè)的價(jià)格列表

foriinrange(len(name_list)):

page_list=[]##儲(chǔ)存每一頁(yè)的數(shù)據(jù)

page_list.append(name_list[i].strip())##.strip()用于去除字符串前后的空白

page_list.append(age_list[i].strip())

page_list.append(long_list[i][:-4].strip())

page_list.append(price_list[i].strip())

data_list.append(page_list)##存入總列表

dataframe_one=pd.DataFrame(data_list,columns=['車系','車齡','里程(萬(wàn)公里)','價(jià)格(萬(wàn)

元)'])##將數(shù)據(jù)列表轉(zhuǎn)成dataframe對(duì)象

dataframe_one.to_csv(r'F:\Python_pycharm\Graduate\total_data.csv',index=False,

encoding='utf_8_sig')##將數(shù)據(jù)源保存為csv文件

print(dataframe_one)##打印保存的數(shù)據(jù)

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

獲得到需要的數(shù)據(jù)集之后需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和檢

查,需要確定爬取過(guò)來(lái)的數(shù)據(jù)是否存在無(wú)效值、重復(fù)值以及空值,需要保證數(shù)

據(jù)的一致和正確,這在數(shù)據(jù)數(shù)據(jù)分析的過(guò)程中是十分重要的一環(huán),一個(gè)數(shù)據(jù)的

錯(cuò)誤都會(huì)導(dǎo)致可視化結(jié)果不準(zhǔn)確,結(jié)論差距過(guò)大。同時(shí)我們還需要對(duì)數(shù)據(jù)進(jìn)行

有序化和有理化的處理,這樣在后面的數(shù)據(jù)調(diào)用過(guò)程中會(huì)減少相對(duì)應(yīng)的開發(fā)時(shí)

間和陳本。

在這次項(xiàng)目中會(huì)將獲取下來(lái)的數(shù)據(jù)和網(wǎng)頁(yè)原數(shù)據(jù)進(jìn)行比對(duì),同時(shí)檢查數(shù)據(jù)

中是否包含有空值和錯(cuò)誤值,還有數(shù)據(jù)是否處于正確的位置。最后根據(jù)不同的

需求要對(duì)數(shù)據(jù)集進(jìn)行不同的數(shù)據(jù)統(tǒng)計(jì)。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面

加載好準(zhǔn)備數(shù)據(jù)如圖4-1所示,然后使用pandas庫(kù)中的duplicated()方法

來(lái)判斷元數(shù)據(jù)中是否含有重復(fù)值,duplicated()會(huì)將所有重復(fù)值標(biāo)記為true,

如圖4-2所示:

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2判斷是否含有重復(fù)值

由于JupyterNotebook不會(huì)顯示所有的數(shù)據(jù),因此再通過(guò)

drop_duplicates方法來(lái)刪除重復(fù)值來(lái)判斷,drop_duplicates方法會(huì)將

duplicated方法中標(biāo)記為true的數(shù)據(jù)刪除,經(jīng)過(guò)比對(duì),發(fā)現(xiàn)獲取到的數(shù)據(jù)中含

有3條重復(fù)值數(shù)據(jù),如圖4-3所示保留有1997條數(shù)據(jù)。

圖4-3刪除重復(fù)值后的數(shù)據(jù)

然后對(duì)去除重復(fù)值后的數(shù)據(jù)判斷是否含有空值和缺失值,使用isnull()來(lái)

將所有空值和重復(fù)值標(biāo)記為true,如圖4-4所示:

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4判斷是否含有空值和缺失值

由于JupyterNotebook不會(huì)顯示所有的數(shù)據(jù),因此再通過(guò)dropna()方法來(lái)

刪除空值和缺失值來(lái)判斷,刪除空值和缺失之后經(jīng)過(guò)對(duì)比后保留有1997條數(shù)據(jù),

因此該數(shù)據(jù)中不包含有空值和缺失值,如圖4-5所示:

圖4-5刪除空值和缺失值后的數(shù)據(jù)

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

將清出重復(fù)值,空值和缺失值后的數(shù)據(jù)存入一個(gè)新的csv文件,新的csv

文件便是用于后面再次劃分統(tǒng)計(jì)和分析的調(diào)用數(shù)據(jù),數(shù)據(jù)清洗完成后的數(shù)據(jù)如

圖4-6所示:

圖4-6數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)儲(chǔ)存得方法有很多種,常見有記事本格式儲(chǔ)存(txt),或者存儲(chǔ)成

csv、excel、json等文件格式,這些數(shù)據(jù)存儲(chǔ)方式保存的數(shù)據(jù)通常而言數(shù)據(jù)量

比較少。如果需要儲(chǔ)存較大的數(shù)據(jù)量就可以用到數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)

據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。常見的關(guān)系型數(shù)據(jù)庫(kù)有MySQL和Oracle等,非關(guān)系型

數(shù)據(jù)庫(kù)常見的有以鍵值對(duì)形式來(lái)存儲(chǔ)數(shù)據(jù)的有Mongodb、Redis、Hbase。本次項(xiàng)

目用到的是csv和MySql用來(lái)保存數(shù)據(jù)清洗后的數(shù)據(jù),如圖4-7和圖4-8所示:

圖4-7數(shù)據(jù)存儲(chǔ)為csv頁(yè)面

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-8數(shù)據(jù)存儲(chǔ)MySQL后頁(yè)面

4.3數(shù)據(jù)存儲(chǔ)的編程實(shí)現(xiàn)

創(chuàng)建數(shù)據(jù)庫(kù)(注意要修改好字符集,否則可能出現(xiàn)亂碼)如圖4-9所示:

圖4-9Mysql創(chuàng)建數(shù)據(jù)庫(kù)修改字符集頁(yè)面

創(chuàng)建數(shù)據(jù)表,如圖4-10所示:

圖4-10Mysql建表頁(yè)面

導(dǎo)入本地csv表格數(shù)據(jù),因?yàn)閙ysql軟件有自帶的導(dǎo)入功能可以直接將文

件數(shù)據(jù)存入表中因此創(chuàng)建好數(shù)據(jù)表后可以直接導(dǎo)入數(shù)據(jù),導(dǎo)入后驗(yàn)證數(shù)據(jù)是否

正確,如圖4-11所示:

圖4-11存儲(chǔ)MySQL后驗(yàn)證頁(yè)面

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)庫(kù),使用pandas加載源數(shù)據(jù),如圖5-1所示:

圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面

對(duì)車系進(jìn)行分析時(shí),對(duì)數(shù)據(jù)進(jìn)行第一次處理,首先提取出原數(shù)據(jù)中車系那

一列,如圖5-2所示:

圖5-2車系數(shù)據(jù)準(zhǔn)備頁(yè)面

由于同種車系有多種版本,所以將車系簡(jiǎn)化,如圖5-3所示:

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-3車系數(shù)據(jù)處理后頁(yè)面

將車系數(shù)據(jù)保存到另一個(gè)csv文件。

對(duì)車齡進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)中的車齡一列進(jìn)行提取,如圖5-4所示:

圖5-4車齡數(shù)據(jù)準(zhǔn)備頁(yè)面

由于根據(jù)車輛使用一般都是根據(jù)使用年份來(lái)進(jìn)行判斷,因此對(duì)每行數(shù)據(jù)提

取年份,如圖5-5所示:

圖5-5車齡數(shù)據(jù)處理后頁(yè)面

20

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

將處理后的車齡數(shù)據(jù)保存到csv文件中。

對(duì)行駛里程來(lái)進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)集中的里程(萬(wàn)公里)這一列進(jìn)行提取,

如圖5-6所示:

圖5-6行駛里程數(shù)據(jù)準(zhǔn)備頁(yè)面

由于每輛車的行駛里程是不同的且部分?jǐn)?shù)據(jù)相差細(xì)微,因此對(duì)車的行駛里

程劃分一個(gè)區(qū)間,處理后如圖5-7所示:

圖5-7行駛里程數(shù)據(jù)處理后頁(yè)面

將處理后的行駛里程保存到csv文件。

根據(jù)車輛價(jià)格來(lái)進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)集中價(jià)格(萬(wàn)元)一列,如圖5-8所

示:

圖5-8價(jià)格數(shù)據(jù)準(zhǔn)備頁(yè)面

由于部分車量?jī)r(jià)格相差不是特別大,且數(shù)據(jù)分布太多,因此對(duì)價(jià)格進(jìn)行一

21

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

個(gè)區(qū)間的劃分,如圖5-9所示:

圖5-9價(jià)格數(shù)據(jù)處理后頁(yè)面

將處理后的價(jià)格數(shù)據(jù)保存到csv文件。

將所有整理的數(shù)據(jù)整合以一下,就是這次項(xiàng)目使用到的所有數(shù)據(jù),如圖5-10

所示:

圖5-10所有數(shù)據(jù)整合后頁(yè)面

22

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2數(shù)據(jù)展示

5.2.1依據(jù)二手車車系數(shù)量進(jìn)行統(tǒng)計(jì)和分析

圖5-11數(shù)據(jù)展示頁(yè)面(一)

將表格中車系字段數(shù)據(jù)進(jìn)行處理和匯總后將每種車系出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),

統(tǒng)計(jì)后會(huì)獲得我們需要的列表,通過(guò)pyecharts中wordcloud()方法結(jié)合統(tǒng)計(jì)好

的列表生成圖5-11展示的界面。通過(guò)圖5-11我們可以看出寶馬3系和奧迪A6L

占據(jù)了整個(gè)圖的大部分地區(qū),再其次就是奔馳C級(jí),凱迪拉克XT5和奧迪A7掀

背,可以看出這幾種車系是長(zhǎng)沙大部分居民購(gòu)車的第一選擇,然后在結(jié)合這幾

種車系的市場(chǎng)價(jià)格寶馬3系和奔馳C系價(jià)格在29萬(wàn)到40萬(wàn)之間,凱迪拉克XT5

在35萬(wàn)到45萬(wàn)之間,奧迪A6L在42萬(wàn)到65萬(wàn)之間,通過(guò)這幾種車系的價(jià)格

我們不難發(fā)現(xiàn)長(zhǎng)沙部分居民的經(jīng)濟(jì)狀況還是可以的,這幾中車系為大部分家庭

經(jīng)濟(jì)不錯(cuò)的首要選擇。

通過(guò)這張圖我們還可以發(fā)現(xiàn)奧迪,寶馬,奔馳這幾個(gè)詞在圖中出現(xiàn)的頻率

是比較高的,而這三種車我們能夠發(fā)現(xiàn)都是屬于德國(guó)品牌的車,并且都被冠以

豪車品牌,而這三種車我們能夠發(fā)現(xiàn)不僅僅實(shí)在長(zhǎng)沙地區(qū)受歡迎,在全球地區(qū)

也是比較受歡迎的,因此家庭經(jīng)濟(jì)條件好的這三種車系是大部分人的第一首選。

而其他有出現(xiàn)但頻率不高的車系價(jià)格可能要高于或低于這三種品牌,當(dāng)然這三

種車系也存在平價(jià)車或者低價(jià)的車,因此從這張圖我們能夠得知長(zhǎng)沙居民的經(jīng)

濟(jì)水平相對(duì)還是比較平穩(wěn)的。

23

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2依據(jù)二手車車齡進(jìn)行統(tǒng)計(jì)和分析

圖5-12數(shù)據(jù)展示頁(yè)面(二)

從圖5-12可以看出長(zhǎng)沙居民更愿意掛售車齡在2017年到2020年的車系,

車齡在2017年之前和車齡在2020年之后的二手車數(shù)量加起來(lái)不超過(guò)我們獲取

到數(shù)據(jù)的百分之44,而車齡在2017年到2020年之后的車數(shù)量占據(jù)了一半以上,

為何車齡對(duì)二手車價(jià)格有何影響呢?為何車齡為影響人們對(duì)二手車的選擇呢?

原因十分簡(jiǎn)單,因?yàn)殡S著二手車車齡的增加,車輛的性能,外觀以及內(nèi)飾

等方面的質(zhì)量會(huì)隨之下降,這將會(huì)影響到買家對(duì)車輛的興趣。此外,隨著車齡

的增加,車輛的維修費(fèi)用會(huì)變得越來(lái)越高,而這也會(huì)影響到賣家對(duì)車輛的興趣。

因此,車齡越長(zhǎng)車輛的價(jià)格就會(huì)越低。還有一個(gè)重要因素,就是大部分的賣家

都會(huì)選擇為車購(gòu)買保險(xiǎn),而隨著車齡的增長(zhǎng),車輛的保險(xiǎn)費(fèi)用也會(huì)越高,而買

家不會(huì)因?yàn)閮r(jià)格低去購(gòu)買一個(gè)后續(xù)保險(xiǎn)費(fèi)用高的二手車。而在2017年到2020

年這段車齡的車的車齡剛好適中并且剛好是處于一個(gè)價(jià)格適中,車輛維護(hù)費(fèi)用

較低,保險(xiǎn)費(fèi)用較低的一個(gè)狀態(tài),而車齡過(guò)小會(huì)導(dǎo)致價(jià)格過(guò)高超過(guò)買家預(yù)算,

車齡過(guò)大會(huì)導(dǎo)致價(jià)格過(guò)低但是后續(xù)維護(hù)過(guò)高。因此車齡在2017年到2020年二

手車將會(huì)是大多數(shù)買家的選擇。而從這些方面可以看出長(zhǎng)沙居民的經(jīng)濟(jì)狀況而

言都是相對(duì)穩(wěn)定的,居民經(jīng)濟(jì)狀況穩(wěn)定也能夠反映出長(zhǎng)沙的經(jīng)濟(jì)實(shí)力是處于一

個(gè)相對(duì)穩(wěn)定的狀態(tài)的。

24

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3依據(jù)二手車車輛行駛里程分布進(jìn)行統(tǒng)計(jì)和分析

圖5-13數(shù)據(jù)展示頁(yè)面(三)

從圖5-13我們可以得知在車輛行駛距離在5到10萬(wàn)公里的車的數(shù)量占據(jù)

了我們這次獲取數(shù)量的83.25%,這是一個(gè)十分龐大的占比輛,而通過(guò)這里我們

可能會(huì)知道,為何車輛的行駛里程會(huì)影響人們對(duì)二手車購(gòu)買的選擇呢,而行駛

距離會(huì)影響到車輛的哪些方面呢?

車輛行駛距離對(duì)二手車的影響是十分明顯的,它會(huì)影響到二手車的價(jià)格變

化。首先,車輛行駛的距離越長(zhǎng),車輛的價(jià)格就會(huì)越低,這是因?yàn)檐囕v行駛的

距離越長(zhǎng),就表明了車輛的磨損是十分嚴(yán)重的,而這些磨損則會(huì)導(dǎo)致買家在后

續(xù)會(huì)增加一些不必要的花費(fèi),而買家通常是不想為這些東西而去買單的。除了

會(huì)影響價(jià)格外,車輛的行駛距離會(huì)影響車輛的性能和使用壽命,因?yàn)殡S著行駛

距離的增加,車輛的發(fā)動(dòng)機(jī),變速箱和剎車系統(tǒng)都會(huì)伴隨著不同程度的磨損,

而這些關(guān)鍵部件的磨損則會(huì)導(dǎo)致車輛的總體性能發(fā)生變化,而壽命也會(huì)有不同

程度的下降,而這則會(huì)為買家埋下一筆未來(lái)需要支付的隱形費(fèi)用。車輛的行駛

距離還會(huì)對(duì)車輛有另一個(gè)影響,那就是車輛的外觀和內(nèi)飾。車輛行駛距離越長(zhǎng),

車漆面的光澤度會(huì)有不同程度的降低,在行駛過(guò)程中,車輛表面難免還會(huì)有一

些刮蹭,和一些無(wú)法去除的污漬,而內(nèi)飾會(huì)有部分的老化,如果前主人不加以

保養(yǎng)的話,內(nèi)飾的老化是不可避免的,車漆面的修復(fù)需要重新刷漆,內(nèi)飾會(huì)需

要進(jìn)行重新的更換,而這也為二手車的買家無(wú)形的增加了后續(xù)的費(fèi)用。而作為

25

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

一名二手車的買家,自然是想購(gòu)買一輛性能和使用壽命相對(duì)正常,零件壽命正

常的車輛,而車的外觀能帶給買家好的觀感,車的內(nèi)飾會(huì)給買家一個(gè)好的感受。

而車輛行駛距離在0到10萬(wàn)公里的車會(huì)是大部分賣家的掛售選擇,再結(jié)合上一

部分車齡的分析,可以得知車齡2017到2020年的二手車大部分都處于這個(gè)階

段,從而我們可以得知車齡2017年到2020年且行駛距離在0到10萬(wàn)公里是買

家最好的選擇,而這一部分的價(jià)格不會(huì)過(guò)高,不會(huì)過(guò)低,是處于一個(gè)適中的價(jià)

位,而這可以得知長(zhǎng)沙居民的經(jīng)濟(jì)實(shí)力是相對(duì)穩(wěn)定的,從而從側(cè)面可以的得知

長(zhǎng)沙的經(jīng)濟(jì)發(fā)展的狀況還算穩(wěn)定。

5.2.4依據(jù)二手車車輛價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析

圖5-14數(shù)據(jù)展示頁(yè)面(四)

我通過(guò)對(duì)每輛車劃分到相應(yīng)的相應(yīng)的價(jià)格區(qū)間,通過(guò)環(huán)形圖展示出來(lái)如圖

5-14所示。我們弄夠從圖中的得知到二手車的價(jià)格主要分布

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論