古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第1頁
古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第2頁
古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第3頁
古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第4頁
古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡(jiǎn)介..........................................................................................2

1.2.2JupyterNotebook簡(jiǎn)介......................................................................2

1.2.3Python第三方庫簡(jiǎn)介..........................................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................5

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................7

3.3編程實(shí)現(xiàn)......................................................................................................8

4數(shù)據(jù)清洗與處理......................................................................................................10

4.1數(shù)據(jù)清洗....................................................................................................10

4.2數(shù)據(jù)儲(chǔ)存....................................................................................................11

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12

5.2數(shù)據(jù)展示....................................................................................................12

5.2.1作者統(tǒng)計(jì)分析.....................................................................................12

5.2.2發(fā)表次數(shù)統(tǒng)計(jì)分析.............................................................................13

5.2.3發(fā)表次數(shù)統(tǒng)計(jì)分析.............................................................................15

5.2.4依據(jù)每月的發(fā)表次數(shù)進(jìn)行統(tǒng)計(jì).........................................................15

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.3統(tǒng)計(jì)分析小節(jié)............................................................................................16

6小結(jié)..........................................................................................................................17

參考資料.........................................................................................................................18

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析

1引言

時(shí)間乃是最大的革新家,我們的祖國從開始的工業(yè)化時(shí)代走向現(xiàn)代化時(shí)

代,再到信息化時(shí)代,信息化時(shí)代就是信息產(chǎn)生價(jià)值的時(shí)代。在這個(gè)移動(dòng)互聯(lián)

網(wǎng)技術(shù)的高速發(fā)展階段,正是我們這一代年輕人應(yīng)該抓住的時(shí)機(jī)和機(jī)會(huì)。隨著

時(shí)代的發(fā)展和進(jìn)步使得各種移動(dòng)互聯(lián)網(wǎng)技術(shù)應(yīng)用層出不窮、接連不斷,云計(jì)

算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)已經(jīng)深入廣大人民群眾日

常生活的各個(gè)方面,生活水平得到了顯著的提升,人民的幸福指數(shù)也在不斷提

升,隨之而來的是廣大人民群眾在日常生活中產(chǎn)生的數(shù)據(jù)越來越多,開發(fā)價(jià)值

和利用價(jià)值越來越大,讓我們有東西去學(xué)習(xí)和開發(fā),然后應(yīng)用在我們的日常生

活中,將人民的生活水平再次提高。

我們這一代是幸運(yùn)的,正好趕上時(shí)代發(fā)展的浪潮,更幸運(yùn)的是乘上了信息

革命的航母,就像是踩在巨人的肩膀上一樣,逐漸進(jìn)入到一個(gè)信息廣闊無垠的

時(shí)代,讓我們擁有更多的機(jī)會(huì)去探索和發(fā)現(xiàn)。

1.1項(xiàng)目背景

古典文學(xué)網(wǎng)是一個(gè)記錄許多古典文化的網(wǎng)站,包括國學(xué)文化,古詩詞,詩

詞名句,文言文,歷史故事,古代典籍,古典小說,還有大部分人都熱愛的武

俠小說等,里面都有收錄。目前,我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,各種發(fā)展迅速,

使得生活水平的快速提高,人民群眾從原來解決溫飽轉(zhuǎn)到提高文化水平和提升

精神層面,已經(jīng)形成“活到老,學(xué)到老”的人生態(tài)度。很大一部分人民群眾喜

歡國學(xué)文化,特別是唐詩,但是一些上年紀(jì)人民群眾不會(huì)用手機(jī)和電腦和不喜

歡使用手機(jī)和電腦去閱讀和查詢資料,小孩子們大多也沒有手機(jī),所以大部分

的人民群眾需要紙質(zhì)的書本來了解和學(xué)習(xí)這些古典文學(xué),老人和孩子則更加需

要紙質(zhì)的書籍。那么,就需要古典文學(xué)的各種資料和具體數(shù)據(jù),所以我們需要

從古典文學(xué)網(wǎng)站查詢相關(guān)資料。涉及到古典文學(xué)信息有很多,我們需要對(duì)網(wǎng)頁

進(jìn)行解析。然后通過Python爬蟲的手段批量獲取我們想要的資料。

我的畢業(yè)設(shè)計(jì)就是針對(duì)廣大群眾的需要,然后爬取古典文學(xué)網(wǎng)站唐詩數(shù)

據(jù),對(duì)其進(jìn)行處理,分析,然后可視化。繁雜的數(shù)據(jù)經(jīng)過清洗加分析后,可以

以作者,時(shí)期等進(jìn)行分類,以便更好的出版書籍對(duì)應(yīng)各種消費(fèi)群體。所以我的

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

畢業(yè)設(shè)計(jì)部分包含數(shù)據(jù)爬取、清洗處理、儲(chǔ)存、可視化。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

1990年,Python由荷蘭的吉多·范羅蘇姆設(shè)計(jì)。Python的創(chuàng)建的初期并

沒有很突出的特點(diǎn),所以沒有引起人們的注意,直到在21世紀(jì)初Google在大

量的項(xiàng)目業(yè)務(wù)上開始應(yīng)用Python,Python也因此走進(jìn)大眾的視野,更多人開

始使用Python,從而使得Python的快速發(fā)展。

隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,2010年后,移動(dòng)互聯(lián)網(wǎng)技術(shù)的大肆普及。

云、大、物、智等新型信息技術(shù)興起,其中的大數(shù)據(jù)技術(shù)涉及到的數(shù)據(jù)獲取、

清洗處理、可視化等都有Python的存在。云計(jì)算中許多接口都支持Python的

調(diào)用,對(duì)于平臺(tái)實(shí)現(xiàn)自動(dòng)化極其友好。再到后來人工智能技術(shù)的崛起,AI領(lǐng)域使

用了更多的Python技術(shù),用它作關(guān)鍵的開發(fā)工具。并且Python入門難度相較

于JAVA、C++等面向?qū)ο蟮恼Z言而言更加簡(jiǎn)單、容易入門,所以它很快的便被

大眾普遍使用。

在編程語言的排行榜中。Python的排名已經(jīng)與老牌的C語言和JAVA語言

不相上下,Python的語法非常的簡(jiǎn)潔明了,和其它編程語言相比較,實(shí)現(xiàn)同

一個(gè)功能,Python語言的實(shí)現(xiàn)代碼會(huì)比其他語言簡(jiǎn)短的多。即便是非軟件專

業(yè)的初學(xué)者,稍微接觸一下,也很容易上手,因此它也逐漸走進(jìn)非IT行業(yè)工

作者的視野內(nèi),這也突出Python的特點(diǎn)就是容易學(xué)。并且Python第三方庫非

常豐富、而且免費(fèi)開源、支持跨多平臺(tái)且可移植性比較強(qiáng),使得更多人喜歡使

用Python進(jìn)行編程。

1.2.2JupyterNotebook簡(jiǎn)介

JupyterNotebook的前身叫做IPythonNotebook,數(shù)據(jù)分析的好幫手,

能將說明文本、數(shù)學(xué)方程、代碼和可視化內(nèi)容完美的組合到一個(gè)共享的文檔

中。JupyterNotebook的用途還包括:數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建

模、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等等,并且它支持超過40種編程語言,包括

Python、R、Julia、Scala等。除此之外,還可以通過安裝相應(yīng)的kernel,實(shí)

現(xiàn)MATLAB等語言的使用,非常適合從事機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等數(shù)據(jù)科學(xué)工作

人員。它可以直接在代碼旁寫出敘述性文檔,而不是另外編寫單獨(dú)的文檔。也

就是說它可以能將代碼、文檔等這一切集中到一處,讓用戶一目了然,非常的

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

方便。

1.2.3Python第三方庫簡(jiǎn)介

Requests:是Python中最友好的網(wǎng)絡(luò)爬蟲功能庫,是Python實(shí)現(xiàn)的簡(jiǎn)單

易用的HTTP庫,無需手動(dòng)為URL添加查詢串,也不需要對(duì)POST數(shù)據(jù)進(jìn)行

表單編碼。基于urllib,但使用起來比urllib更簡(jiǎn)潔、方便很多,可以節(jié)約大

量的工作時(shí)間,Python第三方庫在使用前要先進(jìn)行安裝。

CSV:CSV屬于Python中的內(nèi)置模塊,CSV模塊實(shí)現(xiàn)了很多類,可以用來

讀寫CSV格式的表格數(shù)據(jù)。該模塊可以使得編程人員,將數(shù)據(jù)以Excel所偏好

的格式寫入文件,或者讀取由Excel生成的文件,并且CSV文件是表格和數(shù)據(jù)

庫中常見的文件操作格式,很多程序在處理數(shù)據(jù)時(shí)都會(huì)碰到CSV這種格式的文

件,它的使用是比較廣泛的。

NumPy:NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),NumPy和稀疏矩陣運(yùn)算包

scipy配合使用更加方便。NumPy還擁有許多高級(jí)的數(shù)值編程工具,NumPy包含

很多實(shí)用的數(shù)學(xué)函數(shù),涵蓋線性代數(shù)運(yùn)算、傅里葉變換和隨機(jī)數(shù)生成等功能。

pandas:是一個(gè)免費(fèi)、開源的第三方Python庫,是Python數(shù)據(jù)分析必

不可少的工具之一,pandas中擁有大量庫和標(biāo)準(zhǔn)的數(shù)據(jù)模型,它為Python數(shù)

據(jù)分析提供了高性能,是操作大型數(shù)據(jù)集必備的工具之一。

Matplotlib:是Python的一個(gè)綜合性的庫,可創(chuàng)建靜態(tài)的、動(dòng)畫的和可

交互的可視化圖形圖像,主要是偏向于二維繪圖包括折線圖、條形圖、扇形

圖、散點(diǎn)圖、直方圖等等。通過Matplotlib,開放者只需要幾行代碼,便可以

很快的繪圖。

Wordcloud:是一款Python環(huán)境下的詞云圖工具包,同時(shí)支持Python2和

Python3,能通過代碼的形式把關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)換成直觀且有趣的圖文模式。

jieba:Python中文分詞的組件。

pylab:它能設(shè)置畫圖讓其能顯示中文。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python是面向?qū)ο笳Z言中的一門較為簡(jiǎn)單、容易入門的計(jì)算機(jī)編程語言,

本次項(xiàng)目使用Python編寫程序來實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理和數(shù)據(jù)

可視化。通過抓包分析,發(fā)現(xiàn)古典文學(xué)網(wǎng)站中的唐詩大全信息頁面的數(shù)據(jù)是靜

態(tài)的,我們查看瀏覽器控制臺(tái)獲取請(qǐng)求頭部信息和參數(shù)信息。然后就可以得到

網(wǎng)頁頁面數(shù)據(jù)的返回值。隨后將爬取出來的初數(shù)據(jù)先以CSV格式文件儲(chǔ)存起

來,在后續(xù)的數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化中再進(jìn)行文件的調(diào)用。

2.項(xiàng)目可行性

社會(huì)發(fā)展的迅速,生活質(zhì)量的提高,讓大家已經(jīng)開始想提升自己的文化底

蘊(yùn)和提高精神層次,但是大部分人群,特別是中老年人群和小孩群體對(duì)于手機(jī)

的使用,大部分是不會(huì)使用,還有是使用不習(xí)慣和沒有手機(jī)使用的問題,閱讀

和學(xué)習(xí)古典文學(xué)還是以翻閱紙質(zhì)書籍為主。人民群眾迫切需要這種紙質(zhì)書籍來

填補(bǔ)空缺,好讓大家有閱讀和學(xué)習(xí)古典文學(xué)的機(jī)會(huì)。

本次項(xiàng)目通過采集古典文學(xué)網(wǎng)站唐詩大全的數(shù)據(jù),來分析唐詩的一些數(shù)據(jù)

信息。我們也將從作者、閱讀量、評(píng)論等方面對(duì)其進(jìn)行深度解析,分析出有價(jià)

值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來源是古典文學(xué)網(wǎng)站,是通過Python爬取古典文學(xué)所

有唐詩的信息。數(shù)據(jù)清洗后共700條記錄,爬取完成后需要檢查數(shù)據(jù)的準(zhǔn)確性,

確定爬取出來的數(shù)據(jù)無誤并且是屬于古典文學(xué)網(wǎng)實(shí)時(shí)存在的唐詩數(shù)據(jù)信息。

分析古典文學(xué)網(wǎng)頁信息,明確我們需要爬取的參數(shù)有主題、內(nèi)容、作者、

發(fā)表時(shí)間、閱讀量、評(píng)論等數(shù)據(jù),在對(duì)初數(shù)據(jù)進(jìn)行預(yù)處理后我們會(huì)對(duì)其數(shù)據(jù)進(jìn)

行多個(gè)維度的分析。例如,從作者進(jìn)行分析,查看哪些作者的作品最多;又或者

根據(jù)閱讀量來分析大部分人喜歡哪種類型或者是誰作的唐詩。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

隨著互聯(lián)網(wǎng)的大力發(fā)展,互聯(lián)網(wǎng)稱為信息的主要載體,而如何在互聯(lián)網(wǎng)中

有效的搜集提取和利用這些信息是互聯(lián)網(wǎng)領(lǐng)域面臨的一大挑戰(zhàn)。這個(gè)時(shí)候就需

要一種技術(shù)來攻克這個(gè)難題,所以應(yīng)運(yùn)而生,被大家稱之為“網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)

機(jī)器人”的網(wǎng)絡(luò)爬蟲產(chǎn)生了,它是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序或自動(dòng)化腳

本。爬蟲分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲

等一些類型。爬蟲最直接和常用的儲(chǔ)存方法就是收集數(shù)據(jù),并且和人工偽造的

會(huì)有很大的區(qū)別,爬下來的數(shù)據(jù)是不會(huì)說謊的,比如:“刷單”這種行為,使

用爬蟲將數(shù)據(jù)爬取下來,是一目了然的,做不了假。爬蟲還有一個(gè)天然自帶的

功能,就是刷流量,當(dāng)爬蟲訪問網(wǎng)站的時(shí)候,網(wǎng)站沒有識(shí)別出來,那么就會(huì)被

當(dāng)成正常訪問。爬蟲的主要目的就是獲取網(wǎng)頁并解析,只要達(dá)到這個(gè)目的,用

什么方法都可以。并且由于Python語法簡(jiǎn)單,極易入門等特點(diǎn),爬蟲在

Python這一門語言的幫助下,要入門開發(fā)爬蟲幾乎沒有難度,而與爬蟲相關(guān)的

框架更是數(shù)不勝數(shù),稍微配置一下就能實(shí)現(xiàn)很好的效果。

2.3.2文件存取技術(shù)

Python內(nèi)置CSV模塊如圖2-1所示。

圖2-1Python內(nèi)置CSV模塊

2.3.3可視化技術(shù)

當(dāng)我們儲(chǔ)存下來的數(shù)據(jù),數(shù)據(jù)量就像一個(gè)海洋一樣,并不能一眼就得到我

們想要的結(jié)論,小時(shí)候?qū)W數(shù)學(xué),基本上都是從圖上將內(nèi)容分析出來的,所以我

們就要將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上展示出來,再進(jìn)行分析才能得到我們

所需要的結(jié)論。

1987年首次提出可視化,認(rèn)為它是一種能夠處理大量數(shù)據(jù)集的工具??梢?/p>

化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯

示出來。它涉及到多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表示等一系列問題的綜合技術(shù)。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3數(shù)據(jù)采集

3.1采集頁面分析

我們開始通過谷歌瀏覽器搜索古典文學(xué)官方網(wǎng)頁,然后找到唐詩大全頁面

觀察圖3-1,其中URL為:/tangshi/index.html。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-2所示。

圖3-2開發(fā)者工具

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字

段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)GET請(qǐng)求,那我們需要尋找它的頭部

信息往下翻找,在最后找到了我們需要的頭部信息,如圖3-3所示。

圖3-3請(qǐng)求頭部信息

3.2字段分析

我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到唐詩大全

的位置,也就是定位到我們所需要爬取的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工

具頁面刷新一下頁面,再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Headers

按鈕,如圖3-4所示。

因?yàn)楣诺湮膶W(xué)網(wǎng)是一個(gè)靜態(tài)網(wǎng)頁,所以我們可以直接使用Requests方法

中的GET方法來獲得響應(yīng)的數(shù)據(jù),我們需要重復(fù)獲取響應(yīng)數(shù)據(jù),可以直接將數(shù)

據(jù)依次寫入到CSV格式的文件當(dāng)中。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4分析數(shù)據(jù)類型頁面

3.3編程實(shí)現(xiàn)

導(dǎo)入所需庫,如圖3-5所示。

圖3-5導(dǎo)入所需庫頁面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問服務(wù)器。使用循環(huán)對(duì)網(wǎng)站的數(shù)據(jù)用GET方

法將網(wǎng)址和請(qǐng)求頭部添加到其中爬取網(wǎng)頁數(shù)據(jù),并將爬取的數(shù)據(jù)用Etree模塊

來將網(wǎng)頁解析,如圖3-6所示。

圖3-6請(qǐng)求頭內(nèi)容頁面

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

依據(jù)解析出來的數(shù)據(jù),循環(huán)使用XPath定位到所需要的字段再進(jìn)行分割,

得到所需要的部分并存入字典中,如圖3-7所示。

圖3-7循環(huán)解析代碼塊

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

在爬取到龐大的數(shù)據(jù)集之后我們需要對(duì)數(shù)據(jù)進(jìn)行一個(gè)預(yù)處理,也就是所謂

的數(shù)據(jù)清洗和檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實(shí)值,要保證數(shù)據(jù)

的一致性,這個(gè)對(duì)于信息質(zhì)量的評(píng)估是一項(xiàng)非常重要的任務(wù)。不僅如此,我們需

要將數(shù)據(jù)進(jìn)行整理、排序和篩選等操作,這樣子能夠在后期數(shù)據(jù)調(diào)用共享的過

程中方便很多開發(fā)人員對(duì)數(shù)據(jù)信息的使用。

本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對(duì),并且檢查是

否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對(duì)數(shù)據(jù)

進(jìn)行不同的處理。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過對(duì)照和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失值,錯(cuò)位還有空值,那么我們根據(jù)需

求將有效數(shù)據(jù)進(jìn)行保存,將不要的行列數(shù)據(jù)全部去掉,防止數(shù)據(jù)冗余。因此我

們只需保留需要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data.csv文件中,留存后

續(xù)作為統(tǒng)計(jì)分析、數(shù)據(jù)可視化使用。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)儲(chǔ)存的方法有很多種,常見的就是可以直接用記事本格式儲(chǔ)存(txt文

件),或者直接用其他文件的形式儲(chǔ)存,如:CSV、Excel、json等,但是以上方

法保存的數(shù)據(jù)體量普遍都比較小。如果需要儲(chǔ)存較大的數(shù)據(jù)信息就需要用到我

們的數(shù)據(jù)庫,數(shù)據(jù)庫也分為關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比

較典型的有MySQL和Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對(duì)形式儲(chǔ)存數(shù)據(jù)的代

表有MongoDB、Redis等,本次項(xiàng)目我們用到的是CSV文件格式,如圖4-3所

示。

圖4-3數(shù)據(jù)存儲(chǔ)為CSV頁面

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)庫,使用pandas加載源數(shù)據(jù),如圖5-1所示。

圖5-1數(shù)據(jù)準(zhǔn)備頁面

5.2數(shù)據(jù)展示

5.2.1作者統(tǒng)計(jì)分析

將在表格中作者的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的頻率,最

后生成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成詞云圖,如圖5-3

所示。

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-3作者發(fā)表頻率

從圖中可以看出“杜甫”出現(xiàn)的頻率是最高的,其次就是“白居易”,再

者就是“李白”。從出現(xiàn)頻率來看,“杜甫、白居易和李白”不愧唐代三大詩人

這個(gè)名聲,他們的詩句已經(jīng)印在時(shí)代上,深入人心,就連剛懂事的小朋友對(duì)他

們的詩句都可以倒背如流。

不僅如此,從詞云圖可以看出,唐代的詩人之多,處于一個(gè)人才輩出、群

英薈萃的時(shí)代,使得大家爭(zhēng)相去了解唐代的古詩和各種文化知識(shí)。想讓自己從

古詩和傳統(tǒng)文化中,體會(huì)到當(dāng)時(shí)朝代的一個(gè)大環(huán)境。

5.2.2發(fā)表次數(shù)統(tǒng)計(jì)分析

將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次

數(shù),按照每年發(fā)表次數(shù)所占百分比生成餅圖,如圖5-4所示。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-4每年發(fā)表次數(shù)

以圖5-4每年的發(fā)表次數(shù)中可以看出,2013發(fā)表次數(shù)的是最多的,其次

就是2012年,其他都占少數(shù)。

當(dāng)時(shí)處于信息的發(fā)展期,大家都開始接觸計(jì)算機(jī),有經(jīng)濟(jì)頭腦的人,就會(huì)

想著,大家都使用電腦,那我是不是可以做一個(gè)大家都沒有做過的網(wǎng)站,來增

加流量來實(shí)現(xiàn)變現(xiàn)呢。當(dāng)大家都開始上網(wǎng)的時(shí)候,做網(wǎng)站的人絡(luò)繹不絕,都想

著靠互聯(lián)網(wǎng)來掙第一桶金,所以當(dāng)時(shí)的網(wǎng)站開發(fā),應(yīng)該是達(dá)到一個(gè)高潮的地

步,當(dāng)大家的熱度過去了,高潮也就過去了,后續(xù)大家更趨向于實(shí)用型或者的

娛樂型的網(wǎng)站。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3發(fā)表次數(shù)統(tǒng)計(jì)分析

將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次

數(shù),按照每年平均日閱讀量生成條形圖,如圖5-5所示。

圖5-52012-2016年平均日閱讀量

從圖5-5中可以看出,2013年平均每日閱讀量是最多的,相較于其他的幾

年來說,平均的日閱讀量是一個(gè)飛漲的狀態(tài)。

這個(gè)原因主要可能就是因?yàn)楫?dāng)時(shí)信息的發(fā)展,大部分人民群眾都在這兩年

可以開始使用上電腦和智能手機(jī),由于剛接觸電腦和智能手機(jī)這個(gè)新事物,大

家都是想去了解和摸索,這段時(shí)間肯定使用的人數(shù)是最多的,但當(dāng)這個(gè)新鮮期

一過,那么大家可能就不會(huì)對(duì)電腦和智能手機(jī)那么上心的,所以發(fā)表量直線下

降。后續(xù)對(duì)于年紀(jì)大的人和小孩來說,紙質(zhì)書籍才是大家最方便的,而且還不

會(huì)有電腦和智能手機(jī)傷眼睛,并且還有部分的人是喜歡收集書籍的。

5.2.4依據(jù)每月的發(fā)表次數(shù)進(jìn)行統(tǒng)計(jì)

將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次

數(shù),按照每月發(fā)表次數(shù)生成折線圖,如圖5-6所示。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論