版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言1
1.1項(xiàng)目背景1
1.2開發(fā)環(huán)境與工具2
1.2.1Python簡(jiǎn)介2
1.2.2MySQL簡(jiǎn)介3
1.2.3Jypyternotebook簡(jiǎn)介3
1.2.4Python第三方庫(kù)簡(jiǎn)介4
2需求分析4
2.1可行性需求分析4
2.2采集目標(biāo)功能分析5
2.3關(guān)鍵技術(shù)分析5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5
2.3.2文件存取技術(shù)6
2.3.3可視化技術(shù)6
3數(shù)據(jù)采集7
3.1采集頁(yè)面分析7
3.2字段分析10
3.3編程實(shí)現(xiàn)11
4數(shù)據(jù)清洗與處理15
4.1數(shù)據(jù)清洗15
4.2數(shù)據(jù)儲(chǔ)存18
4.3編程實(shí)現(xiàn)19
5數(shù)據(jù)統(tǒng)計(jì)與分析20
5.1數(shù)據(jù)準(zhǔn)備20
5.2數(shù)據(jù)展示24
5.2.1依據(jù)二手車車系數(shù)量進(jìn)行統(tǒng)計(jì)和分析24
5.2.2依據(jù)二手車車齡進(jìn)行統(tǒng)計(jì)和分析25
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3依據(jù)二手車車輛行駛里程分布進(jìn)行統(tǒng)計(jì)和分析26
5.2.4依據(jù)二手車車輛價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析27
5.3綜述28
6小結(jié)28
參考資料29
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
基于Python的第一車網(wǎng)長(zhǎng)沙二手車數(shù)據(jù)爬取與分析
1引言
隨著當(dāng)今時(shí)代的發(fā)展,全球現(xiàn)在已經(jīng)進(jìn)入了一個(gè)信息高速發(fā)展的階段。自
2012年以來(lái),‘大數(shù)據(jù)’這個(gè)詞語(yǔ)就開始在我們的生活中越來(lái)越多地被提及,
而現(xiàn)在科技技術(shù)的不斷的發(fā)展,移動(dòng)互聯(lián)網(wǎng)的發(fā)展越發(fā)的快速和成熟??萍技?/p>
術(shù)的發(fā)展伴隨著信息呈現(xiàn)一個(gè)爆炸式的增長(zhǎng),如今我們的生活每天產(chǎn)生的數(shù)據(jù)
是我們常人無(wú)法統(tǒng)計(jì)計(jì)算的。當(dāng)今時(shí)代的各種技術(shù)在信息大爆炸和社會(huì)需求的
引導(dǎo)下不斷誕生?;ヂ?lián)網(wǎng)技術(shù)在當(dāng)今社會(huì)從各個(gè)方面為我們提供了各種的技術(shù)
基礎(chǔ)?,F(xiàn)在我們的生活中日常購(gòu)物,出行,交流都會(huì)伴隨著數(shù)據(jù)的產(chǎn)生,而這
便為我們提供了主要的數(shù)據(jù)來(lái)源,這些數(shù)據(jù)便能讓我們?nèi)パ芯亢烷_發(fā)新的技術(shù),
從而投入應(yīng)用到我們的生活中。
衣食住行,醫(yī)療發(fā)展,安全保障,社會(huì)福利等等方面產(chǎn)生的數(shù)據(jù)在我們當(dāng)
今社會(huì)有著極大的開發(fā)價(jià)值。我們正處于信息快速發(fā)展的階段,我們這一代的
年輕人應(yīng)該抓住這次機(jī)會(huì),社會(huì)上大數(shù)據(jù)的報(bào)導(dǎo)和相關(guān)從業(yè)者的經(jīng)歷,吸引了
許多人往這個(gè)方向發(fā)展。大數(shù)據(jù)相關(guān)的從業(yè)者都深知在這大量的數(shù)據(jù)當(dāng)中隱藏
許多沒有被人發(fā)掘的發(fā)展方向和研究方向。大數(shù)據(jù)技術(shù)目前也是當(dāng)前信息發(fā)展
領(lǐng)域的一個(gè)熱門話題,盡管現(xiàn)在大數(shù)據(jù)技術(shù)的發(fā)展還不夠成熟,但是隨著時(shí)間
發(fā)展會(huì)越發(fā)趨向成熟,大部分的人認(rèn)為大數(shù)據(jù)在之后會(huì)是大勢(shì)所向!
1.1項(xiàng)目背景
長(zhǎng)沙作為我們國(guó)家的特大城市之一,也是湖南省經(jīng)濟(jì)發(fā)展的重心,在幾十
年的艱苦建設(shè)以來(lái),也具有了一定的經(jīng)濟(jì)實(shí)力。衡量一座城市的經(jīng)濟(jì)實(shí)力不僅
僅只是從城市化水平以及城市間的三大產(chǎn)業(yè)的比例來(lái)看,還要關(guān)注居民的吃穿
住行以及消費(fèi)能力。
出行作為我們每天生活中必不可少的一環(huán),出行的方式有許多,如步行,
駕車,地鐵出行等等,而長(zhǎng)沙城市規(guī)模已經(jīng)十分巨大,這次我們就從駕車這一
方面來(lái)進(jìn)行分析。
居民用車現(xiàn)在已經(jīng)開始慢慢的在每家每戶開始普及,而二手車市場(chǎng)恰恰能
夠反映居民對(duì)需求車輛的要求,同時(shí)也能夠體現(xiàn)居民的消費(fèi)能力和購(gòu)買需求,
以及反映出居民對(duì)不同車系的喜好程度。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
二手車網(wǎng)站上涉及到的車系很多,我們需要對(duì)網(wǎng)頁(yè)進(jìn)行分析獲取我們需要
的字段和內(nèi)容,然后通過(guò)Python的爬蟲技術(shù)獲取到我們需要的資料
本次項(xiàng)目我是對(duì)第一車網(wǎng)這個(gè)網(wǎng)站中針對(duì)長(zhǎng)沙二手車數(shù)據(jù)的爬取,將長(zhǎng)沙
二手車數(shù)據(jù)爬取下來(lái)后,對(duì)其進(jìn)行處理,分析,最后可視化。眾多的數(shù)據(jù)經(jīng)過(guò)
清洗,統(tǒng)計(jì)和分析后,展示在我們面前的結(jié)果就是經(jīng)過(guò)可視化的數(shù)據(jù),透過(guò)可
視化我們能了解到長(zhǎng)沙居民對(duì)車系的選擇,購(gòu)買能力以及從側(cè)面進(jìn)而反映出長(zhǎng)
沙的經(jīng)濟(jì)能力。我的項(xiàng)目包括數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)存以及數(shù)據(jù)可視化
四個(gè)部分。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
20世紀(jì)80年代末,荷蘭的龜叔(GuidoRossum)創(chuàng)造了Python。Python
的誕生是具有戲劇性的,據(jù)龜叔自述,Python是他在圣誕節(jié)期間為了打發(fā)無(wú)聊
的時(shí)間而開發(fā)出來(lái)的,之所以會(huì)選擇Python作為該編程語(yǔ)言的名字,是因?yàn)樗?/p>
是一個(gè)大蟒蛇飛行馬戲團(tuán)的愛好者。Python在1991年左右出現(xiàn)在公眾面前,從
那時(shí)起就演變?yōu)槭钱?dāng)今全球最流行的語(yǔ)言之一。
Python初期并沒有引起大多數(shù)人們的關(guān)注,在21世紀(jì)初Google在大量的
業(yè)務(wù)上開始應(yīng)用Python,而這也因此讓Python走進(jìn)大眾了的視野,促使了
Python的發(fā)展。
Python提供了高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),還能簡(jiǎn)單有效地面向?qū)ο缶幊?。Python
語(yǔ)法和動(dòng)態(tài)類型,以及解釋型語(yǔ)言的本質(zhì),使它成為多數(shù)平臺(tái)上寫腳本和快速
開發(fā)應(yīng)用的編程語(yǔ)言,隨著版本的不斷更新和語(yǔ)言新功能的添加,逐漸被用于
獨(dú)立的、大型項(xiàng)目的開發(fā)。
Python解釋器易于擴(kuò)展,可以使用C語(yǔ)言或C++(或者其他可以通過(guò)C調(diào)
用的語(yǔ)言)擴(kuò)展新的功能和數(shù)據(jù)類型。Python也可用于可定制化軟件中的擴(kuò)展
程序語(yǔ)言。Python豐富的標(biāo)準(zhǔn)庫(kù),提供了適用于各個(gè)主要系統(tǒng)平臺(tái)的源碼或機(jī)
器碼。
Python入門難度相較于JAVA、C++等面向?qū)ο蟮恼Z(yǔ)言而言更加簡(jiǎn)單容易入
門、所以它很快的便走進(jìn)了大眾的視野中。
如今Python的排名已經(jīng)與老牌的C語(yǔ)言和JAVA語(yǔ)言不相上下,它也逐漸
走進(jìn)非IT行業(yè)工作者的視野內(nèi)?,F(xiàn)如今,人們用它開發(fā)簡(jiǎn)單的小腳本用來(lái)做一
些自動(dòng)化處理或者開發(fā)小程序。這也再次突出Python的特點(diǎn)就是易學(xué)、第三方
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
庫(kù)足夠豐富、并且免費(fèi)開源、支持跨多平臺(tái)并且可移植性比較強(qiáng)。
1.2.2MySQL簡(jiǎn)介
MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),由瑞典MySQLAB公司開發(fā),屬于
Oracle旗下產(chǎn)品。MySQL是當(dāng)今最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)之一,在WEB
應(yīng)用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,
關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))應(yīng)用軟件之一。
MySQL是一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),關(guān)系數(shù)據(jù)庫(kù)將數(shù)據(jù)保存在不同的表中,
而不是將所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性。
MySQL數(shù)據(jù)庫(kù)的標(biāo)志是一個(gè)小海豚,它象征著這個(gè)數(shù)據(jù)庫(kù)的讀取、存取速度
和優(yōu)秀準(zhǔn)確的含義。它所使用的SQL語(yǔ)言是用于訪問數(shù)據(jù)庫(kù)的最常用標(biāo)準(zhǔn)化語(yǔ)
言,它不僅高效而且安全、能與多款主流的計(jì)算機(jī)語(yǔ)言緊密結(jié)合,十分方便開
發(fā)人員對(duì)其進(jìn)行操作。與其他的大型數(shù)據(jù)庫(kù)例如Oracle,SQLServer等相比,
MySQL自有它的不足之處,但是這絲毫也沒有減少它受歡迎的程度。對(duì)于一般的
個(gè)人使用者和中小型企業(yè)來(lái)說(shuō),MySQL提供的功能已經(jīng)能夠滿足大部分的需求,
而且MySQL是開放源碼軟件,因此可以大幅度降低總體成本。
1.2.3Jypyternotebook簡(jiǎn)介
JupyterNotebook是一個(gè)支持實(shí)時(shí)代碼、數(shù)學(xué)方程、可視化和Markdown的
Web應(yīng)用程序,它支持40多種編程語(yǔ)言。對(duì)于數(shù)據(jù)分析來(lái)說(shuō),JupyterNotebook
最大的優(yōu)點(diǎn)是可以重現(xiàn)整個(gè)分析過(guò)程,并將說(shuō)明文字、代碼、圖表、公式和結(jié)
論都整合在一個(gè)文檔中,用戶可以通過(guò)電子郵件、Dropbox、GitHub和Jupyter
NotebookViewer將分析結(jié)構(gòu)分享給他人。
JupyterNotebook在數(shù)據(jù)分析的過(guò)程中,編程時(shí)具有語(yǔ)法高亮、縮進(jìn)、tab
補(bǔ)全的功能,可直接通過(guò)瀏覽器運(yùn)行代碼,同時(shí)在代碼塊下方展示運(yùn)行結(jié)果。
JupyterNoterbook在教學(xué)人員和開發(fā)人員講解項(xiàng)目時(shí)由于其簡(jiǎn)潔的展示界
面,方便的提供注釋,大大的節(jié)約了他們的時(shí)間同時(shí)也減去了一些繁雜的步驟。
Jupyternotebook在我們大數(shù)據(jù)方面應(yīng)用比較廣泛,特別適合用來(lái)做數(shù)據(jù)
的清洗和處理,能夠簡(jiǎn)潔明了的展示我們?cè)跀?shù)據(jù)清洗和處理時(shí)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù),
因此應(yīng)用在我們進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)可視化上是十分便捷的。
1.2.4Python第三方庫(kù)簡(jiǎn)介
Requests:是最友好的網(wǎng)絡(luò)爬蟲功能庫(kù),是一個(gè)原生的HTTP庫(kù),相比于
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
urllib3更容易使用的,Requests庫(kù)擁有完全自動(dòng)化的Keep-Alive和HTTP連
接池的功能。
lxml:lxml使用它可以輕松處理XML和HTML文件,還可以用于web爬取,
在解析大型文檔時(shí)處理速度較快,并且提供了簡(jiǎn)單的轉(zhuǎn)換方法來(lái)將數(shù)據(jù)轉(zhuǎn)換為
Python數(shù)據(jù)類型,從而使文件操作更容易。本項(xiàng)目中用其內(nèi)置的xpath用于數(shù)
據(jù)的爬取。
csv:csv屬于python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)
據(jù)存入到csv表格中。Csv文件是電子表格和數(shù)據(jù)庫(kù)中最常見的輸入、輸出文件
格式。
pandas:是一個(gè)基于NumPy的Python庫(kù),是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建
的,他納入了大量的庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效操作大型數(shù)據(jù)集所
需的工具,在本次項(xiàng)目中主要用于數(shù)據(jù)的讀取,存儲(chǔ),清洗以及數(shù)據(jù)的統(tǒng)計(jì)。
Pyecharts:是一個(gè)將Python和Echarts相結(jié)合的強(qiáng)大數(shù)據(jù)可視化的第三
方庫(kù),可以高度靈活配置繪畫出一些常見的如折線圖,條形圖,環(huán)形圖以及一
些復(fù)雜的的圖。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
Python是面向?qū)ο笳Z(yǔ)言中的一門通俗易懂的計(jì)算機(jī)編程語(yǔ)言,本項(xiàng)目中使
用Python編寫程序來(lái)實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗,數(shù)據(jù)統(tǒng)計(jì)預(yù)處理,數(shù)據(jù)可視化。
隨后通過(guò)對(duì)網(wǎng)頁(yè)分析發(fā)現(xiàn)第一車網(wǎng)長(zhǎng)沙二手車頁(yè)面的數(shù)據(jù)是靜態(tài)的,所以我們
通過(guò)瀏覽器控制臺(tái)獲取請(qǐng)求和其參數(shù)。然后就可以得到網(wǎng)頁(yè)面源碼。隨后轉(zhuǎn)成
html對(duì)象,將需要爬取出來(lái)的字段以csv格式儲(chǔ)存起來(lái),在后續(xù)的數(shù)據(jù)統(tǒng)計(jì),
數(shù)據(jù)可視化中再進(jìn)行調(diào)用。同時(shí)會(huì)將準(zhǔn)確的數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)中做持久化
儲(chǔ)存。
以上為此次項(xiàng)目的技術(shù)可行性,將在后續(xù)的工作中將所有的步驟實(shí)現(xiàn)到位,
以確保數(shù)據(jù)的準(zhǔn)確性和安全性。
2、項(xiàng)目可行性
出行的方式隨著時(shí)代的發(fā)展現(xiàn)在已經(jīng)涌現(xiàn)出了許多的出行方式,如駕車、
火車、高鐵、空航、地鐵,而在這些出行方式中,駕車出行似乎已經(jīng)逐漸發(fā)展
到大部分的人民生活中,而二手車的的出現(xiàn)便能夠反映出經(jīng)濟(jì)條件的變化,居
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
民的經(jīng)濟(jì)條件往往能夠反映一座城市的經(jīng)濟(jì)狀況。
本次項(xiàng)目通過(guò)采集了第一車網(wǎng)長(zhǎng)沙二手車的數(shù)據(jù),來(lái)分析長(zhǎng)沙居民家庭用
車和個(gè)人用車的變化。我將從車系、車齡、車齡行駛距離、車輛價(jià)格等四個(gè)方
面對(duì)其進(jìn)行剖析,分析出有價(jià)值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是第一車網(wǎng)長(zhǎng)沙二手車部分,是通過(guò)python爬取
長(zhǎng)沙二手車的車系,車齡,行駛里程,價(jià)格四種數(shù)據(jù)。數(shù)據(jù)清洗后共1997條記
錄,爬取完成后盡量的檢查數(shù)據(jù)的準(zhǔn)確性,確定爬取出來(lái)的數(shù)據(jù)無(wú)誤并且是屬
于長(zhǎng)沙二手車的信息。
分析第一車網(wǎng)長(zhǎng)沙二手車網(wǎng)頁(yè)部分,我們需要爬取的參數(shù)有車系,車齡、
里程、價(jià)格,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后我會(huì)將處理后數(shù)據(jù)再次分成四個(gè)部分
從這四個(gè)部分來(lái)進(jìn)行分析。如,從不同車系的數(shù)量對(duì)其進(jìn)行分析,查看每種車
系分別有多少輛,這樣能明顯的看出居民對(duì)車系的大多數(shù)選擇;又如我們需要
知道所有車輛的價(jià)格分布區(qū)間,那么我們只要對(duì)每輛車的價(jià)格劃分一個(gè)區(qū)間,
那么我們就可以整合出每個(gè)價(jià)格區(qū)間的車輛有多少。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
在我們的日常生活中瀏覽網(wǎng)頁(yè)時(shí)常會(huì)遇到需要緩存在本地的數(shù)據(jù),當(dāng)數(shù)據(jù)
量較小時(shí)我們可以自己手動(dòng)下載去獲取需要的數(shù)據(jù),而在大數(shù)據(jù)領(lǐng)域通常用到
的數(shù)據(jù)體量都很大,而這時(shí)采取手動(dòng)下載會(huì)使一個(gè)十分漫長(zhǎng)且愚蠢的過(guò)程,同
時(shí)部分?jǐn)?shù)據(jù)我們還不能獲取到,因此在這個(gè)時(shí)候我們可以采取網(wǎng)絡(luò)爬蟲的方式
去自動(dòng)化的下載數(shù)據(jù)。
網(wǎng)絡(luò)爬蟲的英文即WebSpider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一
個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬行的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地
址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到
在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直
循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成
一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái),
網(wǎng)絡(luò)爬蟲按照實(shí)現(xiàn)的原理可以分為:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)
絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等形式。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
在大家的印象中常常將普通的網(wǎng)絡(luò)爬蟲與黑客混為一談,其實(shí)二者之間有
很大的區(qū)別。黑客屬于違法肆意竊取個(gè)人或者組織內(nèi)有價(jià)值的信息以此獲利,而
爬蟲只是用來(lái)代替重復(fù)且沒有意義的動(dòng)作,在合法的范圍內(nèi)去獲得我們需要的
信息,在某種程度上網(wǎng)絡(luò)爬蟲和普通用戶瀏覽是區(qū)別的,但是爬蟲確實(shí)可以作為
一種攻擊的手段。在編寫網(wǎng)絡(luò)爬蟲時(shí)故意不設(shè)置緩沖時(shí)間,從而達(dá)到極高的頻率
來(lái)反復(fù)訪問網(wǎng)站會(huì)使得服務(wù)器持續(xù)在高強(qiáng)度環(huán)境下工作,這會(huì)對(duì)服務(wù)器造成很
大的壓力,如果在這個(gè)時(shí)候沒有處理好服務(wù)器往往會(huì)宕機(jī)。
網(wǎng)站所有者從所有網(wǎng)站來(lái)訪者中識(shí)別出爬蟲并對(duì)其做出相應(yīng)處理(通常為
封禁IP)的過(guò)程,而這就被稱為反爬蟲。對(duì)網(wǎng)站所有者而言,爬蟲并不是一個(gè)
受歡迎的客人。爬蟲會(huì)消耗大量的服務(wù)器資源,而這會(huì)影響服務(wù)器的穩(wěn)定性,
增加服務(wù)器的運(yùn)營(yíng)成本,因此通常會(huì)設(shè)置一些反爬手段,如設(shè)置User-Agent校
驗(yàn)反爬,通過(guò)訪問頻率反爬,通過(guò)驗(yàn)證碼校驗(yàn)反爬,變換網(wǎng)頁(yè)結(jié)構(gòu)反爬,賬號(hào)
權(quán)限反爬等等。而這些手段會(huì)加大爬蟲工作者和網(wǎng)站的開發(fā)成本。而對(duì)于我們
獲取的數(shù)據(jù)通常相對(duì)簡(jiǎn)單和容易,不會(huì)需要投入太多的成本。
在本次項(xiàng)目中主要運(yùn)用到requests庫(kù)和lxml庫(kù)來(lái)進(jìn)行網(wǎng)頁(yè)的獲取以及目
標(biāo)數(shù)據(jù)的爬取。
2.3.2文件存取技術(shù)
文件存儲(chǔ)在本次項(xiàng)目中用到的是pandas庫(kù)中自帶的DataFrame()方法和
to_csv()方法,DataFrame()用于將對(duì)象轉(zhuǎn)換成dataframe對(duì)象,to_csv()用于
存儲(chǔ)到指定的目標(biāo)路徑當(dāng)中如圖2-1顯示
圖2-1python自帶的to_csv方法
2.3.3可視化技術(shù)
爬取下來(lái)的數(shù)據(jù)通過(guò)預(yù)處理、保存為csv文件格式。而這個(gè)數(shù)據(jù)集并不能
反映我們需要得知的結(jié)論。
而這個(gè)時(shí)候我們就需要通過(guò)數(shù)據(jù)可視化技術(shù)將我們統(tǒng)計(jì)好的數(shù)據(jù)轉(zhuǎn)化成統(tǒng)
計(jì)學(xué)圖形的方式展現(xiàn)出來(lái),而這個(gè)時(shí)候我們便能夠通過(guò)圖形來(lái)得到我們需要的
結(jié)論。
我們獲取到的數(shù)據(jù)僅僅只是一連串字符串,上面信息或許我們通過(guò)肉眼或
許都能夠看懂,但是當(dāng)它們累計(jì)成一定量的時(shí)候我們?cè)诙虝r(shí)間內(nèi)很難看出不同,
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
而這就需要我們進(jìn)行深層次的了解和分析。對(duì)這一坨數(shù)據(jù)集進(jìn)行處理完畢后,
我們就可以導(dǎo)入第三方庫(kù)將數(shù)據(jù)進(jìn)行合理的整合和判斷,來(lái)使用什么樣的統(tǒng)計(jì)
學(xué)圖形才能最直觀的表達(dá)出數(shù)據(jù)集的信息。
本次項(xiàng)目中是將得到的數(shù)據(jù)通過(guò)簡(jiǎn)單的可視化手段來(lái)實(shí)現(xiàn)數(shù)據(jù)可視化,具
體使用的是python第三方庫(kù)pyecharts去進(jìn)行可視化,pyecharts中包含了許
多庫(kù),分別對(duì)應(yīng)直方圖、條形圖、環(huán)形圖、折線圖等圖形,能夠?qū)?shù)據(jù)高效率
的表現(xiàn)出來(lái),可視化圖形呈現(xiàn)出來(lái)后數(shù)據(jù)的表達(dá)就十分明顯,從而得出需要的
結(jié)論。
3數(shù)據(jù)采集
3.1采集頁(yè)面分析
我們首先通過(guò)谷歌瀏覽器搜索第一車網(wǎng)的官方網(wǎng)頁(yè),然后進(jìn)入長(zhǎng)沙二手車
頁(yè)面觀察圖3-1,其中url為:
/changsha/p1asdsvepcatcpbnscac/#buyCars然后點(diǎn)擊
頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察圖3-2,這時(shí)url為:
/changsha/p2asdsvepcatcpbnscac/#buyCars發(fā)現(xiàn)url
通過(guò)一個(gè)數(shù)字進(jìn)行改變。由于是通過(guò)單個(gè)數(shù)子來(lái)改變網(wǎng)頁(yè)鏈接,因此我們可以
利用循環(huán)將我們需要爬取的網(wǎng)頁(yè)鏈接存儲(chǔ)到一個(gè)列表當(dāng)中,以便后面爬取網(wǎng)頁(yè)
數(shù)據(jù)。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面(一)
圖3-2數(shù)據(jù)網(wǎng)頁(yè)界面(二)
按F12調(diào)出開發(fā)者工具,刷新頁(yè)面,如圖3-3。
圖3-3開發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字
段,發(fā)現(xiàn)這個(gè)是一個(gè)GET請(qǐng)求,那我們需要找到請(qǐng)求頭的設(shè)置如圖3-4和圖
3-5。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-4請(qǐng)求頭設(shè)置(一)
圖3-5請(qǐng)求頭設(shè)置(二)
3.2字段分析
我們首先來(lái)到網(wǎng)頁(yè)面打開網(wǎng)頁(yè)的選擇欄,然后利用全局搜索工具定位到其
中一組數(shù)據(jù)的位置上,然后會(huì)在Elemnts界面跳轉(zhuǎn)到我們需要的那組數(shù)據(jù)的位
置,通過(guò)觀我們會(huì)發(fā)現(xiàn)如圖3-6中標(biāo)注出來(lái)的4個(gè)字段就是我們需要爬取的其
中一組數(shù)據(jù),而這一組數(shù)據(jù)就是在一個(gè)大的板塊中,這一個(gè)大的板塊就包括了
我們?cè)谶@一頁(yè)中我們需要爬取的數(shù)據(jù),因此我們可以先獲取網(wǎng)頁(yè)數(shù)據(jù),利用循
環(huán)通過(guò)Requests庫(kù)中的get方法獲取到所有需要處理的網(wǎng)頁(yè)數(shù)據(jù),然后通過(guò)循
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
環(huán)和xpath將網(wǎng)頁(yè)數(shù)據(jù)中我們需要的數(shù)據(jù)所需要的板塊爬取下來(lái),然后在每一
個(gè)板塊中通過(guò)xpath爬取我們需要的每一組小的數(shù)據(jù),將爬取的下的數(shù)據(jù)存入
一個(gè)列表當(dāng)中,然后將列表轉(zhuǎn)成DataFrame對(duì)象,最后在通過(guò)pandas自帶的
to_csv()方法轉(zhuǎn)存為csv文件的格式。
圖3-6字段分析頁(yè)面
3.3編程實(shí)現(xiàn)
導(dǎo)入所需庫(kù)如圖3-7所示:
圖3-7導(dǎo)入所需庫(kù)頁(yè)面
設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問服務(wù)器,如圖3-8所示:
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-8請(qǐng)求頭內(nèi)容頁(yè)面
代碼實(shí)現(xiàn)如下:
#-*-codeing=utf_8_sig-*-
#@Time:2023/01/2319:35
#@Author:吳志豪
#@File:primary_data.py
#@Software:Pycharm
importrequests
importpandasaspd
fromlxmlimportetree
url_list=[]##用于存儲(chǔ)爬取的網(wǎng)頁(yè)鏈接
foriinrange(1,51):
url_list.append('/changsha/p{}asdsvepcatcpbnscac/#buyCars'.format(i))
##將網(wǎng)頁(yè)鏈接存入列表
headers={###設(shè)置請(qǐng)求頭
'authority':'',
'method':'GET',
'path':'/changsha/p1asdsvepcatcpbnscac/',
'scheme':'https',
'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,
image/webp,image/apng,*/*;'
'q=0.8,application/signed-exchange;v=b3;q=0.7',
'accept-encoding':'gzip,deflate,br',
'accept-language':'zh-CN,zh;q=0.9',
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
'cookie':'__bid_n=18428aca74b2eca5f34207;
FPTOKEN=30$LZShMS5nSKqFojYv2XuKXa8E7zhWfev/7iDCMHEdrro0NlWMlXg30bk
CqyaLStwP9Us+hRgnWuO8WFXON'\
'Hy0/mXvbzU9r2WGQkgoBZPHDf0BhWhurvShfXv+RNaw1Hg/L8E7BybDLzzu7KNph/Z
nNE3hmX9aI0TfF9/N5OSutqbqbuTNSxAMTZnLQEAUrlqvCVRPF0oX7T9OJu'\
'OBE4bajtiucgmjqHRXiyFAZhQot3JuMpyhw8tHQSD5OKJUg9SfDSQqLxjwrTEKxEp2e/
xY9lwh7q30LrG1zvRvk58NEEDBRrYv4x8AdZYMJ5lit2G3BNlvXVwZRxK'\
'VxTw/YR02gVCXFMRCyhHO1LuaHefe8uB1zgCq1uWvp0ikqgZP2tC8|43L39Y4WZeXuj
R7V7QSxXoM2v4VaejNiSfXnMZwX2MU=|10|d3b02e869425e30ebd060d7'\
'de927d016;_ga=GA1.2.1352334700.1667129715;
pt_6c76c030=uid=o9uxhfe4zDXqnaoJaMapAg&nid=0&vid=rexXg7uLWSbpKAOgkP28YQ
&vn=2&pvn='\
'2&sact=1667129882476&to_flag=1&pl=71qPOE-8iL8jcTYy88Sd1g*pt*1667129827765;
FPTOKEN=uEBDhxnO3fuWlscKJiRcrnwpnRQg1UG3Orgu5Hni1c'\
'XWhUU64Je0au7GeDOAu+NL4xCU85TjDHdGR4u3ItXpBxEIti8ZbyqnlMUU3+lethXcG
8mmj84Mre9Nb/dbiCRtd01yJJAgMA3zJ4fVxStDLUXomZ8GDmuljvU6HDk'\
'AOgr/yD9QTjclW3rC9iwDsoVz2eBmOhEgbcu8GaQ1yCZP0XLTwVxja5Nwi9M9Q9fod30
HWQ/oRkP5xyYbQwIR8QxcPOCj8V9C7At0x1ZmlZdV+iJN0GI41pRVFpcH'\
'Ghs/N6dX/EyLUXJ7ref00pZ011KURwVI7bHfrGAe09P3P6B2lmQ8B4P3yYZTugBUzErT
k6v+BMztV+RX9WblcgBkbvz2mQwzNGJSVT41I2qjJ/YsDg==|Fp1ZfqQA'\
'Xm+OFbah0nyclfUCEGCJLl3XHmhXZ5bp77E=|10|1ad9d9d8ac2d87fe6648a69a21a745c8;
Hm_lvt_561c1d73e7a5e5611b5a93fe18365726=1676687118;'\
'_gid=GA1.2.727558783.1676687118;
_df_id=1_ffe4dc2488b0492bad54c6103ca0c7e5_1676688368;
_df=17219c4c0ad5afd8184cf'\
'8dc679061e5;_pk_ses.3.9483=*;_gat=1;
_pk_id.3.9483=890cda5f008822ed.1667129715.4.1676708018.1676701985.;
Hm_lpvt_561c1d73e7'\
'a5e5611b5a93fe18365726=1676708018',
'sec-ch-ua':'"Chromium";v="110","NotA(Brand";v="24","Google
Chrome";v="110"',
'sec-ch-ua-mobile':'?0',
'sec-ch-ua-platform':'"Windows"',
'sec-fetch-dest':'document',
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
'sec-fetch-mode':'navigate',
'sec-fetch-site':'none',
'sec-fetch-user':'?1',
'upgrade-insecure-requests':'1',
'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36'
}
data_list=[]##定義一個(gè)用于儲(chǔ)存總數(shù)居的列表
a=0
foriinurl_list:
a+=1
get_data=requests.get(i,headers=headers)##獲取每一頁(yè)的網(wǎng)頁(yè)源代碼
text=get_data.content.decode('utf-8')##將網(wǎng)頁(yè)源代碼編碼
html_text=etree.HTML(text)##轉(zhuǎn)換成html對(duì)象
page_data=html_text.xpath('//*[@id="buyCars"]/div[2]/ul[2]')##截取出需要爬取的
部分
print('正在爬取第{}頁(yè)'.format(a))
foriinpage_data:
name_list=i.xpath('//li/a/h6/text()')##每一頁(yè)的車系名稱列表
age_list=i.xpath('//li/a/div[3]/span[1]/text()')##每一頁(yè)的車齡列表
long_list=i.xpath('//li/a/div[3]/span[2]/text()')##每一頁(yè)的里程列表
price_list=i.xpath('//li/a/div[4]/strong/text()')##每一頁(yè)的價(jià)格列表
foriinrange(len(name_list)):
page_list=[]##儲(chǔ)存每一頁(yè)的數(shù)據(jù)
page_list.append(name_list[i].strip())##.strip()用于去除字符串前后的空白
page_list.append(age_list[i].strip())
page_list.append(long_list[i][:-4].strip())
page_list.append(price_list[i].strip())
data_list.append(page_list)##存入總列表
dataframe_one=pd.DataFrame(data_list,columns=['車系','車齡','里程(萬(wàn)公里)','價(jià)格(萬(wàn)
元)'])##將數(shù)據(jù)列表轉(zhuǎn)成dataframe對(duì)象
dataframe_one.to_csv(r'F:\Python_pycharm\Graduate\total_data.csv',index=False,
encoding='utf_8_sig')##將數(shù)據(jù)源保存為csv文件
print(dataframe_one)##打印保存的數(shù)據(jù)
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
獲得到需要的數(shù)據(jù)集之后需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和檢
查,需要確定爬取過(guò)來(lái)的數(shù)據(jù)是否存在無(wú)效值、重復(fù)值以及空值,需要保證數(shù)
據(jù)的一致和正確,這在數(shù)據(jù)數(shù)據(jù)分析的過(guò)程中是十分重要的一環(huán),一個(gè)數(shù)據(jù)的
錯(cuò)誤都會(huì)導(dǎo)致可視化結(jié)果不準(zhǔn)確,結(jié)論差距過(guò)大。同時(shí)我們還需要對(duì)數(shù)據(jù)進(jìn)行
有序化和有理化的處理,這樣在后面的數(shù)據(jù)調(diào)用過(guò)程中會(huì)減少相對(duì)應(yīng)的開發(fā)時(shí)
間和陳本。
在這次項(xiàng)目中會(huì)將獲取下來(lái)的數(shù)據(jù)和網(wǎng)頁(yè)原數(shù)據(jù)進(jìn)行比對(duì),同時(shí)檢查數(shù)據(jù)
中是否包含有空值和錯(cuò)誤值,還有數(shù)據(jù)是否處于正確的位置。最后根據(jù)不同的
需求要對(duì)數(shù)據(jù)集進(jìn)行不同的數(shù)據(jù)統(tǒng)計(jì)。
4.1數(shù)據(jù)清洗
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面
加載好準(zhǔn)備數(shù)據(jù)如圖4-1所示,然后使用pandas庫(kù)中的duplicated()方法
來(lái)判斷元數(shù)據(jù)中是否含有重復(fù)值,duplicated()會(huì)將所有重復(fù)值標(biāo)記為true,
如圖4-2所示:
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2判斷是否含有重復(fù)值
由于JupyterNotebook不會(huì)顯示所有的數(shù)據(jù),因此再通過(guò)
drop_duplicates方法來(lái)刪除重復(fù)值來(lái)判斷,drop_duplicates方法會(huì)將
duplicated方法中標(biāo)記為true的數(shù)據(jù)刪除,經(jīng)過(guò)比對(duì),發(fā)現(xiàn)獲取到的數(shù)據(jù)中含
有3條重復(fù)值數(shù)據(jù),如圖4-3所示保留有1997條數(shù)據(jù)。
圖4-3刪除重復(fù)值后的數(shù)據(jù)
然后對(duì)去除重復(fù)值后的數(shù)據(jù)判斷是否含有空值和缺失值,使用isnull()來(lái)
將所有空值和重復(fù)值標(biāo)記為true,如圖4-4所示:
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-4判斷是否含有空值和缺失值
由于JupyterNotebook不會(huì)顯示所有的數(shù)據(jù),因此再通過(guò)dropna()方法來(lái)
刪除空值和缺失值來(lái)判斷,刪除空值和缺失之后經(jīng)過(guò)對(duì)比后保留有1997條數(shù)據(jù),
因此該數(shù)據(jù)中不包含有空值和缺失值,如圖4-5所示:
圖4-5刪除空值和缺失值后的數(shù)據(jù)
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
將清出重復(fù)值,空值和缺失值后的數(shù)據(jù)存入一個(gè)新的csv文件,新的csv
文件便是用于后面再次劃分統(tǒng)計(jì)和分析的調(diào)用數(shù)據(jù),數(shù)據(jù)清洗完成后的數(shù)據(jù)如
圖4-6所示:
圖4-6數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)儲(chǔ)存得方法有很多種,常見有記事本格式儲(chǔ)存(txt),或者存儲(chǔ)成
csv、excel、json等文件格式,這些數(shù)據(jù)存儲(chǔ)方式保存的數(shù)據(jù)通常而言數(shù)據(jù)量
比較少。如果需要儲(chǔ)存較大的數(shù)據(jù)量就可以用到數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)
據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。常見的關(guān)系型數(shù)據(jù)庫(kù)有MySQL和Oracle等,非關(guān)系型
數(shù)據(jù)庫(kù)常見的有以鍵值對(duì)形式來(lái)存儲(chǔ)數(shù)據(jù)的有Mongodb、Redis、Hbase。本次項(xiàng)
目用到的是csv和MySql用來(lái)保存數(shù)據(jù)清洗后的數(shù)據(jù),如圖4-7和圖4-8所示:
圖4-7數(shù)據(jù)存儲(chǔ)為csv頁(yè)面
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-8數(shù)據(jù)存儲(chǔ)MySQL后頁(yè)面
4.3數(shù)據(jù)存儲(chǔ)的編程實(shí)現(xiàn)
創(chuàng)建數(shù)據(jù)庫(kù)(注意要修改好字符集,否則可能出現(xiàn)亂碼)如圖4-9所示:
圖4-9Mysql創(chuàng)建數(shù)據(jù)庫(kù)修改字符集頁(yè)面
創(chuàng)建數(shù)據(jù)表,如圖4-10所示:
圖4-10Mysql建表頁(yè)面
導(dǎo)入本地csv表格數(shù)據(jù),因?yàn)閙ysql軟件有自帶的導(dǎo)入功能可以直接將文
件數(shù)據(jù)存入表中因此創(chuàng)建好數(shù)據(jù)表后可以直接導(dǎo)入數(shù)據(jù),導(dǎo)入后驗(yàn)證數(shù)據(jù)是否
正確,如圖4-11所示:
圖4-11存儲(chǔ)MySQL后驗(yàn)證頁(yè)面
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入相關(guān)庫(kù),使用pandas加載源數(shù)據(jù),如圖5-1所示:
圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面
對(duì)車系進(jìn)行分析時(shí),對(duì)數(shù)據(jù)進(jìn)行第一次處理,首先提取出原數(shù)據(jù)中車系那
一列,如圖5-2所示:
圖5-2車系數(shù)據(jù)準(zhǔn)備頁(yè)面
由于同種車系有多種版本,所以將車系簡(jiǎn)化,如圖5-3所示:
19
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-3車系數(shù)據(jù)處理后頁(yè)面
將車系數(shù)據(jù)保存到另一個(gè)csv文件。
對(duì)車齡進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)中的車齡一列進(jìn)行提取,如圖5-4所示:
圖5-4車齡數(shù)據(jù)準(zhǔn)備頁(yè)面
由于根據(jù)車輛使用一般都是根據(jù)使用年份來(lái)進(jìn)行判斷,因此對(duì)每行數(shù)據(jù)提
取年份,如圖5-5所示:
圖5-5車齡數(shù)據(jù)處理后頁(yè)面
20
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
將處理后的車齡數(shù)據(jù)保存到csv文件中。
對(duì)行駛里程來(lái)進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)集中的里程(萬(wàn)公里)這一列進(jìn)行提取,
如圖5-6所示:
圖5-6行駛里程數(shù)據(jù)準(zhǔn)備頁(yè)面
由于每輛車的行駛里程是不同的且部分?jǐn)?shù)據(jù)相差細(xì)微,因此對(duì)車的行駛里
程劃分一個(gè)區(qū)間,處理后如圖5-7所示:
圖5-7行駛里程數(shù)據(jù)處理后頁(yè)面
將處理后的行駛里程保存到csv文件。
根據(jù)車輛價(jià)格來(lái)進(jìn)行分析時(shí),對(duì)原數(shù)據(jù)集中價(jià)格(萬(wàn)元)一列,如圖5-8所
示:
圖5-8價(jià)格數(shù)據(jù)準(zhǔn)備頁(yè)面
由于部分車量?jī)r(jià)格相差不是特別大,且數(shù)據(jù)分布太多,因此對(duì)價(jià)格進(jìn)行一
21
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
個(gè)區(qū)間的劃分,如圖5-9所示:
圖5-9價(jià)格數(shù)據(jù)處理后頁(yè)面
將處理后的價(jià)格數(shù)據(jù)保存到csv文件。
將所有整理的數(shù)據(jù)整合以一下,就是這次項(xiàng)目使用到的所有數(shù)據(jù),如圖5-10
所示:
圖5-10所有數(shù)據(jù)整合后頁(yè)面
22
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2數(shù)據(jù)展示
5.2.1依據(jù)二手車車系數(shù)量進(jìn)行統(tǒng)計(jì)和分析
圖5-11數(shù)據(jù)展示頁(yè)面(一)
將表格中車系字段數(shù)據(jù)進(jìn)行處理和匯總后將每種車系出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),
統(tǒng)計(jì)后會(huì)獲得我們需要的列表,通過(guò)pyecharts中wordcloud()方法結(jié)合統(tǒng)計(jì)好
的列表生成圖5-11展示的界面。通過(guò)圖5-11我們可以看出寶馬3系和奧迪A6L
占據(jù)了整個(gè)圖的大部分地區(qū),再其次就是奔馳C級(jí),凱迪拉克XT5和奧迪A7掀
背,可以看出這幾種車系是長(zhǎng)沙大部分居民購(gòu)車的第一選擇,然后在結(jié)合這幾
種車系的市場(chǎng)價(jià)格寶馬3系和奔馳C系價(jià)格在29萬(wàn)到40萬(wàn)之間,凱迪拉克XT5
在35萬(wàn)到45萬(wàn)之間,奧迪A6L在42萬(wàn)到65萬(wàn)之間,通過(guò)這幾種車系的價(jià)格
我們不難發(fā)現(xiàn)長(zhǎng)沙部分居民的經(jīng)濟(jì)狀況還是可以的,這幾中車系為大部分家庭
經(jīng)濟(jì)不錯(cuò)的首要選擇。
通過(guò)這張圖我們還可以發(fā)現(xiàn)奧迪,寶馬,奔馳這幾個(gè)詞在圖中出現(xiàn)的頻率
是比較高的,而這三種車我們能夠發(fā)現(xiàn)都是屬于德國(guó)品牌的車,并且都被冠以
豪車品牌,而這三種車我們能夠發(fā)現(xiàn)不僅僅實(shí)在長(zhǎng)沙地區(qū)受歡迎,在全球地區(qū)
也是比較受歡迎的,因此家庭經(jīng)濟(jì)條件好的這三種車系是大部分人的第一首選。
而其他有出現(xiàn)但頻率不高的車系價(jià)格可能要高于或低于這三種品牌,當(dāng)然這三
種車系也存在平價(jià)車或者低價(jià)的車,因此從這張圖我們能夠得知長(zhǎng)沙居民的經(jīng)
濟(jì)水平相對(duì)還是比較平穩(wěn)的。
23
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2依據(jù)二手車車齡進(jìn)行統(tǒng)計(jì)和分析
圖5-12數(shù)據(jù)展示頁(yè)面(二)
從圖5-12可以看出長(zhǎng)沙居民更愿意掛售車齡在2017年到2020年的車系,
車齡在2017年之前和車齡在2020年之后的二手車數(shù)量加起來(lái)不超過(guò)我們獲取
到數(shù)據(jù)的百分之44,而車齡在2017年到2020年之后的車數(shù)量占據(jù)了一半以上,
為何車齡對(duì)二手車價(jià)格有何影響呢?為何車齡為影響人們對(duì)二手車的選擇呢?
原因十分簡(jiǎn)單,因?yàn)殡S著二手車車齡的增加,車輛的性能,外觀以及內(nèi)飾
等方面的質(zhì)量會(huì)隨之下降,這將會(huì)影響到買家對(duì)車輛的興趣。此外,隨著車齡
的增加,車輛的維修費(fèi)用會(huì)變得越來(lái)越高,而這也會(huì)影響到賣家對(duì)車輛的興趣。
因此,車齡越長(zhǎng)車輛的價(jià)格就會(huì)越低。還有一個(gè)重要因素,就是大部分的賣家
都會(huì)選擇為車購(gòu)買保險(xiǎn),而隨著車齡的增長(zhǎng),車輛的保險(xiǎn)費(fèi)用也會(huì)越高,而買
家不會(huì)因?yàn)閮r(jià)格低去購(gòu)買一個(gè)后續(xù)保險(xiǎn)費(fèi)用高的二手車。而在2017年到2020
年這段車齡的車的車齡剛好適中并且剛好是處于一個(gè)價(jià)格適中,車輛維護(hù)費(fèi)用
較低,保險(xiǎn)費(fèi)用較低的一個(gè)狀態(tài),而車齡過(guò)小會(huì)導(dǎo)致價(jià)格過(guò)高超過(guò)買家預(yù)算,
車齡過(guò)大會(huì)導(dǎo)致價(jià)格過(guò)低但是后續(xù)維護(hù)過(guò)高。因此車齡在2017年到2020年二
手車將會(huì)是大多數(shù)買家的選擇。而從這些方面可以看出長(zhǎng)沙居民的經(jīng)濟(jì)狀況而
言都是相對(duì)穩(wěn)定的,居民經(jīng)濟(jì)狀況穩(wěn)定也能夠反映出長(zhǎng)沙的經(jīng)濟(jì)實(shí)力是處于一
個(gè)相對(duì)穩(wěn)定的狀態(tài)的。
24
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3依據(jù)二手車車輛行駛里程分布進(jìn)行統(tǒng)計(jì)和分析
圖5-13數(shù)據(jù)展示頁(yè)面(三)
從圖5-13我們可以得知在車輛行駛距離在5到10萬(wàn)公里的車的數(shù)量占據(jù)
了我們這次獲取數(shù)量的83.25%,這是一個(gè)十分龐大的占比輛,而通過(guò)這里我們
可能會(huì)知道,為何車輛的行駛里程會(huì)影響人們對(duì)二手車購(gòu)買的選擇呢,而行駛
距離會(huì)影響到車輛的哪些方面呢?
車輛行駛距離對(duì)二手車的影響是十分明顯的,它會(huì)影響到二手車的價(jià)格變
化。首先,車輛行駛的距離越長(zhǎng),車輛的價(jià)格就會(huì)越低,這是因?yàn)檐囕v行駛的
距離越長(zhǎng),就表明了車輛的磨損是十分嚴(yán)重的,而這些磨損則會(huì)導(dǎo)致買家在后
續(xù)會(huì)增加一些不必要的花費(fèi),而買家通常是不想為這些東西而去買單的。除了
會(huì)影響價(jià)格外,車輛的行駛距離會(huì)影響車輛的性能和使用壽命,因?yàn)殡S著行駛
距離的增加,車輛的發(fā)動(dòng)機(jī),變速箱和剎車系統(tǒng)都會(huì)伴隨著不同程度的磨損,
而這些關(guān)鍵部件的磨損則會(huì)導(dǎo)致車輛的總體性能發(fā)生變化,而壽命也會(huì)有不同
程度的下降,而這則會(huì)為買家埋下一筆未來(lái)需要支付的隱形費(fèi)用。車輛的行駛
距離還會(huì)對(duì)車輛有另一個(gè)影響,那就是車輛的外觀和內(nèi)飾。車輛行駛距離越長(zhǎng),
車漆面的光澤度會(huì)有不同程度的降低,在行駛過(guò)程中,車輛表面難免還會(huì)有一
些刮蹭,和一些無(wú)法去除的污漬,而內(nèi)飾會(huì)有部分的老化,如果前主人不加以
保養(yǎng)的話,內(nèi)飾的老化是不可避免的,車漆面的修復(fù)需要重新刷漆,內(nèi)飾會(huì)需
要進(jìn)行重新的更換,而這也為二手車的買家無(wú)形的增加了后續(xù)的費(fèi)用。而作為
25
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
一名二手車的買家,自然是想購(gòu)買一輛性能和使用壽命相對(duì)正常,零件壽命正
常的車輛,而車的外觀能帶給買家好的觀感,車的內(nèi)飾會(huì)給買家一個(gè)好的感受。
而車輛行駛距離在0到10萬(wàn)公里的車會(huì)是大部分賣家的掛售選擇,再結(jié)合上一
部分車齡的分析,可以得知車齡2017到2020年的二手車大部分都處于這個(gè)階
段,從而我們可以得知車齡2017年到2020年且行駛距離在0到10萬(wàn)公里是買
家最好的選擇,而這一部分的價(jià)格不會(huì)過(guò)高,不會(huì)過(guò)低,是處于一個(gè)適中的價(jià)
位,而這可以得知長(zhǎng)沙居民的經(jīng)濟(jì)實(shí)力是相對(duì)穩(wěn)定的,從而從側(cè)面可以的得知
長(zhǎng)沙的經(jīng)濟(jì)發(fā)展的狀況還算穩(wěn)定。
5.2.4依據(jù)二手車車輛價(jià)格分布進(jìn)行統(tǒng)計(jì)和分析
圖5-14數(shù)據(jù)展示頁(yè)面(四)
我通過(guò)對(duì)每輛車劃分到相應(yīng)的相應(yīng)的價(jià)格區(qū)間,通過(guò)環(huán)形圖展示出來(lái)如圖
5-14所示。我們弄夠從圖中的得知到二手車的價(jià)格主要分布
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度股權(quán)投資合同:甲方投資乙方公司的投資金額、股權(quán)比例等3篇
- 二零二五年度車輛包車保險(xiǎn)合同規(guī)范3篇
- 二零二五版地下綜合管廊安全防護(hù)質(zhì)量保修合同3篇
- 二零二五版30萬(wàn)噸礦砂船船舶維修保養(yǎng)及配件供應(yīng)長(zhǎng)期合同3篇
- 二零二五版專業(yè)環(huán)保印刷保密合同3篇
- 二零二五年度網(wǎng)絡(luò)直播平臺(tái)運(yùn)營(yíng)與分成合同2篇
- 二零二五年環(huán)保搬運(yùn)承包項(xiàng)目合同3篇
- 解除2025年度互聯(lián)網(wǎng)金融服務(wù)合同3篇
- 二零二五版文化衍生品開發(fā)及銷售合同范本3篇
- 二零二五版服裝品牌管理公司員工勞動(dòng)合同范本3篇
- 2025年中國(guó)高純生鐵行業(yè)政策、市場(chǎng)規(guī)模及投資前景研究報(bào)告(智研咨詢發(fā)布)
- 2022-2024年浙江中考英語(yǔ)試題匯編:完形填空(學(xué)生版)
- 2025年廣東省廣州市荔灣區(qū)各街道辦事處招聘90人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 中試部培訓(xùn)資料
- 硝化棉是天然纖維素硝化棉制造行業(yè)分析報(bào)告
- 央視網(wǎng)2025亞冬會(huì)營(yíng)銷方案
- 北師大版數(shù)學(xué)三年級(jí)下冊(cè)豎式計(jì)算題100道
- 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)全套教學(xué)課件
- 屋頂分布式光伏發(fā)電項(xiàng)目施工重點(diǎn)難點(diǎn)分析及應(yīng)對(duì)措施
- 胃鏡下超聲穿刺護(hù)理配合
- 2024解析:第三章物態(tài)變化-基礎(chǔ)練(原卷版)
評(píng)論
0/150
提交評(píng)論