當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第1頁
當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第2頁
當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第3頁
當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第4頁
當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

湖南商務職業(yè)技術學院畢業(yè)設計

目錄

1引言............................................................................................................................1

1.1項目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2MySQL.....................................................................................................2

1.2.3JupyterNotebook簡介......................................................................3

1.2.4PyCharm和Python第三方庫簡介...................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標功能分析......................................................................................4

2.3關鍵技術分析..............................................................................................5

2.3.1網(wǎng)絡爬蟲技術.......................................................................................5

2.3.2文件存取技術.......................................................................................5

2.3.3可視化技術...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................8

3.3編程實現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................11

4.1數(shù)據(jù)清洗....................................................................................................11

4.2數(shù)據(jù)儲存....................................................................................................13

4.3編程實現(xiàn)....................................................................................................13

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................14

5.1數(shù)據(jù)準備....................................................................................................14

5.2數(shù)據(jù)展示....................................................................................................16

5.2.12022年暢銷書圖書的原價價格分布區(qū)間........................................16

5.2.22022年暢銷書圖書的售價價格分布區(qū)間........................................16

I

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.3各個出版社銷售書籍數(shù)量分析.........................................................17

5.2.4電子書占比進行統(tǒng)計.........................................................................18

5.2.5依據(jù)書籍評論數(shù)排名進行統(tǒng)計.........................................................18

6小結..........................................................................................................................19

參考資料.........................................................................................................................21

II

湖南商務職業(yè)技術學院畢業(yè)設計

當當網(wǎng)圖書銷量數(shù)據(jù)采集與分析

1引言

隨著大數(shù)據(jù)信息技術的興起,讓信息技術的發(fā)展發(fā)生了巨大的變化,目前

大數(shù)據(jù)已經(jīng)在很多領域得到了實際應用,如醫(yī)療,教育,金融,娛樂產(chǎn)業(yè),房

地產(chǎn),體育等等,致使各式各樣的數(shù)據(jù)接踵而來,每個國家都高度重視大數(shù)據(jù)

技術與應用的研究和發(fā)展。大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,還有數(shù)據(jù)類型繁多,處

理速度快,價值密度低的特點,通過大數(shù)據(jù)技術,人們可以從海量數(shù)據(jù)中提取

有用的數(shù)據(jù)進行整合分析,大大提升人們的工作效率。

通過大數(shù)據(jù)技術,我們可以對海量數(shù)據(jù)經(jīng)行快速的收集和挖掘,現(xiàn)在大數(shù)

據(jù)技術已經(jīng)成為支持社會治理科學決策和準確預判的有力手段,為社會轉型期

的社會治理創(chuàng)新帶來巨大機遇[1]。

1.1項目背景

現(xiàn)在這個時代中,大數(shù)據(jù)在實際應用中發(fā)揮著很大的作用。大數(shù)據(jù)技術、

Hadoop、數(shù)據(jù)清洗,數(shù)據(jù)可視化,網(wǎng)絡爬蟲,MySQL數(shù)據(jù)庫技術的不斷發(fā)展完善,

為我們進行大數(shù)據(jù)爬取分析和數(shù)據(jù)挖掘提供了強大支撐。

互聯(lián)網(wǎng)發(fā)展勢頭正猛,帶動了信息技術與網(wǎng)絡技術的發(fā)展,讓人們真正走

到物聯(lián)網(wǎng)和云計算時代,讓信息能夠實現(xiàn)共享,并快速的流轉,這就是新時代

向著網(wǎng)絡時代前進的必然趨勢。就在圖書網(wǎng)也相繼應用了大數(shù)據(jù)技術,進而將

信息管理水平給提高上來了,但是在這個過程中,圖書館還是有很多功課要做,

實時推廣大數(shù)據(jù)技術,讓圖書網(wǎng)的受歡迎的圖書更暢銷。在各種網(wǎng)站中,比如

圖書網(wǎng)站里面的當當圖書銷量網(wǎng),使用大數(shù)據(jù)技術分析里面每年的價格,銷量,

讓企業(yè)了解到人們需要是哪一種類型的圖書,從而提高網(wǎng)上銷售量增加企業(yè)開

發(fā)網(wǎng)站銷售圖書所獲得的收益。

如果我們要分析數(shù)據(jù),那首先是要拿到數(shù)據(jù),爬蟲是獲取數(shù)據(jù)的非常便利

的方式,得到數(shù)據(jù)之后,我們要對我們的需求進行足夠的了解,能夠將其準確

的定位,我們可以對數(shù)據(jù)進行清洗、去重、分析、統(tǒng)計,制定出最受人們歡迎,

更高銷量的圖書。

我的畢業(yè)設計所做的項目就是針對當當圖書網(wǎng)圖書銷量網(wǎng)站進行大數(shù)據(jù)統(tǒng)

計原價格,現(xiàn)價格,電子書價格與銷售量分析,可以很好的了解哪種圖書更受

歡迎和多編寫哪種圖書更有銷售潛能。

1

湖南商務職業(yè)技術學院畢業(yè)設計

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是荷蘭人吉多·范羅蘇姆,中國程序員稱其為“龜叔”在1990年初

開發(fā)的一種解釋型編程語言。

在我們編程時,Python提供的數(shù)據(jù)結構往往時最高效的,以及它具有簡單

有效的面向對象編程功能。Python擁有的語法和動態(tài)類型,和解釋語言的性質,

使其成為在大多數(shù)平臺上編寫腳本和快速開發(fā)應用程序的編程語言,Python中

不僅添加了許多ABC語言沒有的功能,同時,還為其設計了各種豐富而強大的

庫,利用這些Python庫,程序員可以把使用其它語言制作的各類模塊尤其是C

語言和C++很輕松地“黏連”在一起,因此Python又常常被稱為“膠水”語言。

在這個大數(shù)據(jù)時代,大數(shù)據(jù)分析是關鍵技術。Python就是一款優(yōu)秀的大數(shù)

據(jù)分析軟件,Python長期以來一直被用來編寫網(wǎng)絡爬蟲。谷歌和其他搜索引擎

公司使用Python語言編寫網(wǎng)絡爬蟲[2]。

如今Python已經(jīng)發(fā)展成一門廣泛使用的高級編程語言。Python這種編程語

言一直以來都算的上是一種極簡主義的代表,在閱讀一段排版優(yōu)美的Python代

碼時,就好像在閱讀一個英文段落,由于非常貼近人類語言,所以人們經(jīng)常說

Python是一種具有偽代碼特征的編程語言。它可應用于人工智能、軟件開發(fā)、

大數(shù)據(jù)分析和數(shù)據(jù)可視化等多種領域。它的特點是開源即免費、擁有豐富的庫、

語法簡單、支持跨平臺而且可移植性強。

1.2.2MySQL

MySQL是一個關系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQLAB公司開發(fā),屬于

Oracle旗下產(chǎn)品。MySQL數(shù)據(jù)庫是最流行且最受歡迎的關系型數(shù)據(jù)庫管理系統(tǒng)

之一,就于WEB應用程序而言,MySQL是最好的RDBMS(RelationalDatabase

ManagementSystem,關系數(shù)據(jù)庫管理系統(tǒng))應用軟件之一。

MySQL因其快速的開源數(shù)據(jù)庫速度、易用性以及對SQL和網(wǎng)絡的支持而被稱

為“最受歡迎的開源數(shù)據(jù)庫”,可移植,費用低等特點,越來越成為中小企業(yè)

應用數(shù)據(jù)庫的首選?,F(xiàn)在大家的生活幾乎都離不開數(shù)據(jù)庫,如果沒有數(shù)據(jù)庫,

很多事情都會變得非常棘手,也許根本無法做得到。

1.2.3JupyterNotebook簡介

Jupyter筆記本(以前稱為IPythonNotebook是一款交互式筆記本,支持

2

湖南商務職業(yè)技術學院畢業(yè)設計

運行40多種不同的編輯器語言

JupyterNotebook的本質是一個網(wǎng)絡應用程序,它有助于創(chuàng)建和共享程序

文檔,也支持數(shù)學方程,實時代碼,可視化和轉型和降價。它的主要用途包括:

機器學習和轉換,數(shù)值模擬,統(tǒng)計建模,數(shù)據(jù)清理等Error!Referencesourcenotfound.。

用戶可以通過電子郵件,Dropbox,GitHub和JupyterNotebookViewer,將

JupyterNotebook分享給其他人。

在JupyterNotebook中,代碼可以實時地生成圖像,視頻,LaTeX和

JavaScript。Jupyternotebook特別適合做數(shù)據(jù)處理,其用途可以包括數(shù)據(jù)

清理和探索、可視化、機器學習和大數(shù)據(jù)分析。

我們會用到JupyterNotebook進行數(shù)據(jù)可視化分析,包括Jupyter

Notebook的基礎操作、使用pandas進行數(shù)據(jù)分析、使用Matplotlib繪圖等。

1.2.4PyCharm和Python第三方庫簡介

PyCharm是一種PythonIDE(集成開發(fā)環(huán)境),具有一套完整的開發(fā)工具,

可以幫助用戶在使用Python語言開發(fā)時提高其工作的效率,例如調(diào)試、項目管

理、代碼跳轉、單元的測試、版本的控制等等。此外,這種類型的IDE還提供

了一些高級功能,以支持Django框架下的專業(yè)web開發(fā)。

requests:requests是一個很實用的PythonHTTP客戶端庫,爬蟲和測試

服務器響應數(shù)據(jù)時經(jīng)常會用到,requests是Python語言的第三方的庫,專門用

于發(fā)送HTTP請求的,requests.get()的作用是請求目標網(wǎng)站,它的類型是

HTTPresponse。

parsel:是一個Python的第三方庫,相當于CSS選擇器+XPath+re,

parsel由scrapy團隊開發(fā),是將scrapy中的parsel獨立抽取出來的,可以輕

松解析html,xml內(nèi)容,獲取需要的數(shù)據(jù)。

NumPy:NumPy是Python的一種開源的數(shù)值計算擴展,NumPy(Numeric

Python)提供了許多高級的數(shù)值編程工具,例如,精確的算術庫、向量處理和

矩陣數(shù)據(jù)類型,它是專門為進行嚴格的數(shù)字處理而創(chuàng)建的[3]。

pandas:是Python的一個數(shù)據(jù)分析包,數(shù)據(jù)分析并保存為CSV文件,Pandas

提供了大量的功能和方法,使我們能夠快速方便地處理數(shù)據(jù)。Pandas是字典形

式,基于NumPy創(chuàng)建。

Matplotlib:繪圖庫,通過Matplotlib,開發(fā)者可以僅需要幾行代碼,便

可以生成繪圖,直方圖,功率譜,條形圖,錯誤圖,散點圖等。

3

湖南商務職業(yè)技術學院畢業(yè)設計

2需求分析

2.1可行性需求分析

1.技術可行性

使用Python網(wǎng)絡爬蟲可以爬取當當網(wǎng)有關的圖書的數(shù)據(jù)requests,parsel

等在爬取數(shù)據(jù)這方面對于爬蟲領域有著巨大的優(yōu)勢。使用NumPy,pandas把爬

取的數(shù)據(jù)進行存儲為CSV文件、清洗、整理通過Python第三方庫進行數(shù)據(jù)分析、

與數(shù)據(jù)可視化的展示。Matplotlib是一種簡單易使用的數(shù)據(jù)可視化第三方庫,

可以可視化為條形圖,折線圖,扇形圖,給客戶一目了然的效果。

2.項目可行性

得益于現(xiàn)代網(wǎng)絡及越來越智能越來越便攜的移動終端像手機,電子書等等,

網(wǎng)上售賣與網(wǎng)上閱讀越來越受歡迎。這個項目通過深入分析目前當當圖書銷售

網(wǎng)的銷售狀況,價格分析,來查找哪種圖書銷售更多,發(fā)掘出顧客喜愛的圖書

類型,通過合理的促銷方式提升銷售額,另一方面可以讓作者創(chuàng)造出更多大眾

喜歡的,受大家歡迎的圖書作品。

2.2采集目標功能分析

使用Python對當當圖書網(wǎng)銷售數(shù)據(jù)分析可以對當當圖書銷售情況進行分

析預測,可以用來幫助當當網(wǎng)更好的分析圖書銷售情況,改進圖書的內(nèi)容,促

進當當網(wǎng)圖書的閱讀量,和銷售量。

本次從當當圖書銷量網(wǎng)爬出了500條數(shù)據(jù),主要內(nèi)容是標題,推薦,評論

數(shù),作者,出版時間,出版社,原價,售價,折扣價,電子書價格,詳情頁。

把這些數(shù)據(jù)進行清洗,整理之后,可以按價格數(shù)據(jù)特征進行分類,可以統(tǒng)計出,

位于哪個價格的圖書更能讓大眾接受,售價和原價之間差距越大,銷售情況如

何,電子書是否更受大眾的歡迎。圖書種類眾多,通過推薦,創(chuàng)建詞云圖可以

在一堆圖書中選取到好書,熱賣書等等。

2.3關鍵技術分析

2.3.1網(wǎng)絡爬蟲技術

網(wǎng)絡爬蟲(也稱為網(wǎng)絡蜘蛛,網(wǎng)絡機器人,更常被稱為網(wǎng)頁追逐器),是

一種根據(jù)某些規(guī)則自動從萬維網(wǎng)獲取信息的程序或腳本。網(wǎng)絡爬蟲也根據(jù)其工

4

湖南商務職業(yè)技術學院畢業(yè)設計

作原理和系統(tǒng)結構進行劃分,大致可以分為這四種類型:深層網(wǎng)絡爬蟲、聚焦

網(wǎng)絡爬蟲、增量網(wǎng)絡爬蟲、通用網(wǎng)絡爬蟲。

網(wǎng)頁的抓取策略可以分為三種,最佳優(yōu)先、深度優(yōu)先和廣度優(yōu)先。要是說

哪兩種最常用,那常用的方法是廣度優(yōu)先和最佳優(yōu)先,因為深度優(yōu)先在許多情

況下會導致爬行問題。

爬蟲好似一種爬行器,主要針對網(wǎng)絡網(wǎng)頁,也被稱為網(wǎng)絡蜘蛛,它可以自

動瀏覽網(wǎng)絡中的信息,因此也可以說成是一種網(wǎng)絡機器人。它們從前幾年來就

一直被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站之中,以獲取或更新這些網(wǎng)站

的內(nèi)容和檢索方式。它們可以自動收集他們可以訪問到的所有頁面內(nèi)容[4],這樣

做只是為了方便程序做下一步的處理。一個網(wǎng)絡蜘蛛就是一種機器人,或者軟

件代理。大體上,它開始時需要訪問URL鏈接的,這些鏈接可以稱為種子。爬

蟲程序在訪問這些鏈接時,它可以識別出這些頁面的所有超鏈接,并將它們添

加到此URL列表中,該列表可以稱為搜索邊界。根據(jù)特定策略重復訪問這些URL

[5],網(wǎng)絡爬蟲領域現(xiàn)在還處于早期的拓荒階段,雖然已經(jīng)由互聯(lián)網(wǎng)行業(yè)自身協(xié)議

建立起一定的道德規(guī)范,但法律部分還在建立與完善中。

目前,多數(shù)網(wǎng)站允許爬蟲爬取的數(shù)據(jù)用于個人使用或者科學研究,但如果將

爬取的數(shù)據(jù)用于其他用途,尤其是轉載或者商業(yè)用途,則依據(jù)各網(wǎng)站的具體情

況有不同的后果,嚴重的將會觸犯法律或者引起民事糾紛。

2.3.2文件存取技術

Python數(shù)據(jù)存儲技術,如圖2-1所示。

圖2-1Python內(nèi)置方法

Python中CSV模塊技術,如圖2-2所示。

圖2-2CSV模塊方法

5

湖南商務職業(yè)技術學院畢業(yè)設計

2.3.3可視化技術

可視化主要包括科學計算可視化、數(shù)據(jù)可視化和信息可視化。數(shù)據(jù)可視化

是利用計算機圖形學和圖像處理技術,關于數(shù)據(jù)表現(xiàn)形式的科學技術研究,如

何將海量的數(shù)據(jù)轉換成可視化圖形是數(shù)據(jù)分析的必修課。Matplotlib和

Pyecharts是Python中常用的兩個數(shù)據(jù)可視化庫,它們功能強大,可以輕松繪

制折扣圖、條形圖、柱狀圖、散點圖等基本圖形,以及日歷圖、樹狀圖、聚類

圖等復雜圖形[6]。

傳統(tǒng)的數(shù)據(jù)可視化工具只是將數(shù)據(jù)組合起來,通過不同的呈現(xiàn)方式提供給

用戶,以發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)信息。近幾年來,隨著云計算和大數(shù)據(jù)時代的到

來,數(shù)據(jù)可視化產(chǎn)品不再滿足于使用傳統(tǒng)的數(shù)據(jù)可視化工具在數(shù)據(jù)倉庫中提取、

匯總和簡單呈現(xiàn)數(shù)據(jù)。新的數(shù)據(jù)可視化產(chǎn)品必須滿足互聯(lián)網(wǎng)爆炸的大數(shù)據(jù)需求,

必須快速收集、過濾、分析、總結、呈現(xiàn)決策者所需的信息,并根據(jù)新數(shù)據(jù)實

時更新,這就是大數(shù)據(jù)可視化技術[7]難點。

數(shù)據(jù)可視化是在項目中對數(shù)據(jù)進行展示是非常有必要的,很多問題討論所

涉及的主題都是包括多個元素,其中一個元素會影響到多個其他元素,如果不

采取可視化,則無法看到全貌、也無法進行真正的討論,特別是對于大規(guī)模的

數(shù)據(jù)集建立數(shù)據(jù)可視化之后會簡化復雜性,增強審視,還可以使分析的數(shù)據(jù)任

務更清晰,更美觀讓人理解起來感覺到很輕松。

3數(shù)據(jù)采集

3.1采集頁面分析

在電腦上打開谷歌瀏覽器,在搜索欄中輸入:圖書暢銷榜-近24小時暢

銷書排行榜-當當暢銷圖書排行榜,然后點擊搜索,觀察圖3-1,其中URL為:

/books/bestsellers/01.00.00.00.00.00-24hours

-0-0-1-1;然后點擊頁面下方的分頁按鈕,同時觀察URL,發(fā)現(xiàn)URL最后一個數(shù)

字隨著頁數(shù)變化而變化如圖3-2所示。

6

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-1數(shù)據(jù)網(wǎng)址頁面

圖3-2數(shù)據(jù)網(wǎng)址頁面

單機右鍵點檢查調(diào)出開發(fā)者工具,刷新頁面,利用全局搜索工具定位所需

數(shù)據(jù)位置,點擊開發(fā)者工具上面的Headers字段,分析這是個什么請求,發(fā)現(xiàn)

這個是一個get請求,如圖3-3所示。

圖3-3數(shù)據(jù)網(wǎng)址頁面

7

湖南商務職業(yè)技術學院畢業(yè)設計

我需要把圈紅的數(shù)據(jù)爬取下來,并保存到CSV文件中,如圖3-4所示。

圖3-4數(shù)據(jù)內(nèi)容

3.2字段分析

用鼠標定位到我們所需要的數(shù)據(jù)所在的位置,調(diào)出全局搜索框搜索,點擊

數(shù)據(jù)headers,找到ResponseHeaders,看到Context-Type如圖3-5所示,可以

看到這是一個text/html。點擊preview,顯示亂碼,但這并不影響我們把需要

的數(shù)據(jù)存儲為CSV文件。

圖3-5分析數(shù)據(jù)類型頁面

8

湖南商務職業(yè)技術學院畢業(yè)設計

3.3編程實現(xiàn)

首先需要導入所需庫,如圖3-6所示。

圖3-6導入所需庫頁面

設置請求頭,偽裝成瀏覽器訪問服務器,用循環(huán)存儲所有網(wǎng)頁保存到url,

取前26頁數(shù)據(jù),如圖3-7所示。

圖3-7爬取url,偽裝為瀏覽器頁面

調(diào)出開發(fā)者工具,點擊代碼的左上角的箭頭選中需要爬取的字段,然后右

擊自動跳轉的區(qū)域,選擇copy,然后選擇copyselector,如圖3-8所示。

圖3-8使用selector獲取字段解析頁面

9

湖南商務職業(yè)技術學院畢業(yè)設計

使用Pycharm工具編寫代碼獲取數(shù)據(jù),如圖3-9所示。

圖3-9使用selector獲取數(shù)據(jù)代碼實現(xiàn)頁面

把爬取的數(shù)據(jù)存儲為CSV文件,共500條數(shù)據(jù),如圖3-10所示。

圖3-10數(shù)據(jù)存儲內(nèi)容頁面

10

湖南商務職業(yè)技術學院畢業(yè)設計

4數(shù)據(jù)清洗與處理

數(shù)據(jù)的不斷劇增是大數(shù)據(jù)時代的顯著特征,大數(shù)據(jù)必須經(jīng)過清洗,分析,

可視化才能體現(xiàn)其潛在的價值。由于在眾多數(shù)據(jù)中總是存在許多臟數(shù)據(jù),即不

完整,不規(guī)范,不準確的數(shù)據(jù),因此就需要進行數(shù)據(jù)清洗,徹底清除臟數(shù)據(jù),

包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等,從而提高數(shù)據(jù)質量。

前期采集到的數(shù)據(jù),或多或少存在一些瑕疵和不足,比如數(shù)據(jù)缺失,極端

值,數(shù)據(jù)格式不統(tǒng)一等問題。因此,在分析數(shù)據(jù)之前需要對數(shù)據(jù)進行預處理,

包括數(shù)據(jù)的清洗,合并,重塑與轉換。Pandas專門為數(shù)據(jù)預處理提供了許多功

能和方法,例如清理、合并和重塑異常數(shù)據(jù)來替換它。

數(shù)據(jù)清理是一項復雜而乏味的任務,但確實是數(shù)據(jù)分析過程中最重要的環(huán)

節(jié),我們可萬萬不能小覷[8]。數(shù)據(jù)清洗的目的在于提高數(shù)據(jù)質量,將臟數(shù)據(jù)清

洗干凈,使原數(shù)據(jù)具有完整性,唯一性,權威性,合法性,一致性等。

4.1數(shù)據(jù)清洗

打開爬取下來的原數(shù)據(jù)如圖4-1所示。

圖4-1原數(shù)據(jù)頁面

11

湖南商務職業(yè)技術學院畢業(yè)設計

進行數(shù)據(jù)清洗與處理如圖4-2所示。

圖4-2數(shù)據(jù)清洗與處理頁面

缺失值處理如圖4-3所示。

4-3缺失值處理頁面

看是否還有缺失值如圖4-4所示,顯示無缺失值。

圖4-4判斷缺失值頁面

12

湖南商務職業(yè)技術學院畢業(yè)設計

4.2數(shù)據(jù)儲存

數(shù)據(jù)存儲的方式很多,其中CSV是一種通用且相對簡單的文件格式,被用

戶、企業(yè)和科學界廣泛使用。最廣泛的應用是在程序之間傳輸表數(shù)據(jù),這個應

用是我們計算機學習者,必須要了解的,這些程序本身以不兼容的格式運行,

如果需要存儲較大的數(shù)據(jù)信息,數(shù)據(jù)庫是最好的存儲數(shù)據(jù)方式之一[9]這次項目

是先把爬取的數(shù)據(jù)存為CSV文件,再保存到MySQL數(shù)據(jù)庫中如圖4-5所示。

圖4-5數(shù)據(jù)存儲頁面

4.3編程實現(xiàn)

創(chuàng)建數(shù)據(jù)庫,修改字符集為utf8,如圖4-6所示。

圖4-6創(chuàng)建數(shù)據(jù)庫頁面

創(chuàng)建名為dlz的表,如圖4-7所示。

圖4-7創(chuàng)建表

13

湖南商務職業(yè)技術學院畢業(yè)設計

導入本地CSV數(shù)據(jù)到,MySQL表里面,如圖4-8所示。

圖4-8導入數(shù)據(jù)

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入相關庫,如圖5-1所示。

圖5-1數(shù)據(jù)準備頁面

使用pandas加載源數(shù)據(jù),如圖5-2所示。

圖5-2數(shù)據(jù)加載頁面

使用函數(shù)對書籍原價進行排序,如圖5-3所示。

圖5-3原價排序

14

湖南商務職業(yè)技術學院畢業(yè)設計

使用函數(shù)統(tǒng)計書籍原價價格區(qū)間,如圖5-4所示。

圖5-4原價價格區(qū)間

使用函數(shù)統(tǒng)計書籍售價價格區(qū)間,如圖5-5所示。

圖5-5售價

使用函數(shù)統(tǒng)計出版社分類,如圖5-6所示。

圖5-6出版社分類

統(tǒng)計電子書占比,如圖5-7所示。

圖5-7電子書占比

統(tǒng)計書籍評論數(shù)最高的前20條數(shù)據(jù),如圖5-8所示。

圖5-8評論數(shù)

15

湖南商務職業(yè)技術學院畢業(yè)設計

5.2數(shù)據(jù)展示

5.2.12022年暢銷書圖書的原價價格分布區(qū)間

對2022年各個月暢銷榜圖書的原價價格數(shù)據(jù)進行可視化后,繪制成玫瑰圖,

如圖5-9所示。

圖5-9原價數(shù)據(jù)展示

使用排序函數(shù),把清洗處理后數(shù)據(jù)按原價字段進行排序,然后使用range

函數(shù)按一定的區(qū)間進行劃分,再統(tǒng)計每個區(qū)間的數(shù)量,使用Pyecharts模塊繪

制成玫瑰圖,效果如圖5-9所示,從上圖可以清楚的看出2022年銷售前500的

圖書銷售最多的價格區(qū)間主要分布在0-50元,其中前500中有310本書的價格

在0-50之間,說明在書籍的購買中,價格是很大的影響因素,一般便宜且有價

值的書,是比較受歡迎的,大家在書籍上的水平不會太高。其次是51-100的價

格銷售量比較高,500本中有135本,圖書價格在400以上的圖書銷售量最低,

500本中只銷售6本。一般只要有好的影響,能讓人感觸良多,不需要華麗的包

裝,這樣的書籍,往往是大眾所最需的。

5.2.22022年暢銷書圖書的售價價格分布區(qū)間

對售價進行分區(qū)處理后進行可視化,得到環(huán)形圖,如圖5-10所示。

16

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-10售價數(shù)據(jù)展示

隨著社會經(jīng)濟發(fā)展水平越來越高,人們從原先的一味追求物質生活,到開

始慢慢地重視精神生活。人們對書的需求也越來越大,讀書也成為人們?nèi)粘I?/p>

活中的一部分,圖書的銷量也越來越多。我使用和得到原價數(shù)據(jù)一樣的方式得

到售價數(shù)據(jù)后,繪制成了環(huán)形圖,如圖5-10所示,上圖淺綠色部分是售價價格

在0-50元的區(qū)間的銷售圖書占比,占比71.4%,售價在400以上的圖書在銷售

前500的圖書中只占了1%,在環(huán)形圖中顯示的是藍色區(qū)域,說明我們圖書的銷

售量和價格有很大的聯(lián)系,價格便宜且內(nèi)容豐富的書,銷售的量可能會越多。

5.2.3各個出版社銷售書籍數(shù)量分析

通過對各個出版社書籍數(shù)量的統(tǒng)計分析,得到柱狀圖,如圖5-11所示。

圖5-11出版社書籍數(shù)量數(shù)據(jù)展示

17

湖南商務職業(yè)技術學院畢業(yè)設計

經(jīng)常買書的人應該會看到,一本書的背脊上通常印有兩個信息;出版社和

出版公司。出版公司一般印在書脊的上方,出版社一般印在下方,從圖5-11出

版地排名可以得知,當當圖書網(wǎng)銷量前500本中,有26本是北京聯(lián)合出版有限

公司出版的,是銷售圖書最多的出版社,超過平均出版社的兩倍多,而其他出

版社的出書數(shù)量相差不是很大。說明北京聯(lián)合出版有限公司是有很名且主要的

出版社。

5.2.4電子書占比進行統(tǒng)計

有無電子書占比,如圖5-12所示。

圖5-12電子書版本占比

隨著電子設備的不斷發(fā)展,電子書也占去了一部分紙質圖書的銷量。如圖

5-12所示,從2022年銷售量排名前500本圖書中,有43%的圖書是有電子書的,

還有一大部分是沒有電子書占比57%,由于網(wǎng)上閱讀越來越受歡迎,電子書也有

發(fā)展的趨勢,可以把網(wǎng)上售賣的圖書,都加上電子書,并收取比購買紙質書便

宜一些的費用,這樣人們就可以隨時可以看自己想看的書籍,不用帶著書走了。

5.2.5依據(jù)書籍評論數(shù)排名進行統(tǒng)計

排名最高的前20條評論書籍,繪制成柱狀圖,如圖5-13所示。

18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論