版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡(jiǎn)介..........................................................................................2
1.2.2JupyterNotebook簡(jiǎn)介......................................................................2
1.2.3Python第三方庫簡(jiǎn)介..........................................................................3
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5
2.3.2文件存取技術(shù).......................................................................................5
2.3.3可視化技術(shù)...........................................................................................5
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..............................................................................................6
3.2字段分析......................................................................................................7
3.3編程實(shí)現(xiàn)......................................................................................................8
4數(shù)據(jù)清洗與處理......................................................................................................10
4.1數(shù)據(jù)清洗....................................................................................................10
4.2數(shù)據(jù)儲(chǔ)存....................................................................................................11
5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12
5.2數(shù)據(jù)展示....................................................................................................12
5.2.1作者統(tǒng)計(jì)分析.....................................................................................12
5.2.2發(fā)表次數(shù)統(tǒng)計(jì)分析.............................................................................13
5.2.3發(fā)表次數(shù)統(tǒng)計(jì)分析.............................................................................15
5.2.4依據(jù)每月的發(fā)表次數(shù)進(jìn)行統(tǒng)計(jì).........................................................15
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.3統(tǒng)計(jì)分析小節(jié)............................................................................................16
6小結(jié)..........................................................................................................................17
參考資料.........................................................................................................................18
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
古典文學(xué)網(wǎng)數(shù)據(jù)采集與分析
1引言
時(shí)間乃是最大的革新家,我們的祖國從開始的工業(yè)化時(shí)代走向現(xiàn)代化時(shí)
代,再到信息化時(shí)代,信息化時(shí)代就是信息產(chǎn)生價(jià)值的時(shí)代。在這個(gè)移動(dòng)互聯(lián)
網(wǎng)技術(shù)的高速發(fā)展階段,正是我們這一代年輕人應(yīng)該抓住的時(shí)機(jī)和機(jī)會(huì)。隨著
時(shí)代的發(fā)展和進(jìn)步使得各種移動(dòng)互聯(lián)網(wǎng)技術(shù)應(yīng)用層出不窮、接連不斷,云計(jì)
算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)已經(jīng)深入廣大人民群眾日
常生活的各個(gè)方面,生活水平得到了顯著的提升,人民的幸福指數(shù)也在不斷提
升,隨之而來的是廣大人民群眾在日常生活中產(chǎn)生的數(shù)據(jù)越來越多,開發(fā)價(jià)值
和利用價(jià)值越來越大,讓我們有東西去學(xué)習(xí)和開發(fā),然后應(yīng)用在我們的日常生
活中,將人民的生活水平再次提高。
我們這一代是幸運(yùn)的,正好趕上時(shí)代發(fā)展的浪潮,更幸運(yùn)的是乘上了信息
革命的航母,就像是踩在巨人的肩膀上一樣,逐漸進(jìn)入到一個(gè)信息廣闊無垠的
時(shí)代,讓我們擁有更多的機(jī)會(huì)去探索和發(fā)現(xiàn)。
1.1項(xiàng)目背景
古典文學(xué)網(wǎng)是一個(gè)記錄許多古典文化的網(wǎng)站,包括國學(xué)文化,古詩詞,詩
詞名句,文言文,歷史故事,古代典籍,古典小說,還有大部分人都熱愛的武
俠小說等,里面都有收錄。目前,我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,各種發(fā)展迅速,
使得生活水平的快速提高,人民群眾從原來解決溫飽轉(zhuǎn)到提高文化水平和提升
精神層面,已經(jīng)形成“活到老,學(xué)到老”的人生態(tài)度。很大一部分人民群眾喜
歡國學(xué)文化,特別是唐詩,但是一些上年紀(jì)人民群眾不會(huì)用手機(jī)和電腦和不喜
歡使用手機(jī)和電腦去閱讀和查詢資料,小孩子們大多也沒有手機(jī),所以大部分
的人民群眾需要紙質(zhì)的書本來了解和學(xué)習(xí)這些古典文學(xué),老人和孩子則更加需
要紙質(zhì)的書籍。那么,就需要古典文學(xué)的各種資料和具體數(shù)據(jù),所以我們需要
從古典文學(xué)網(wǎng)站查詢相關(guān)資料。涉及到古典文學(xué)信息有很多,我們需要對(duì)網(wǎng)頁
進(jìn)行解析。然后通過Python爬蟲的手段批量獲取我們想要的資料。
我的畢業(yè)設(shè)計(jì)就是針對(duì)廣大群眾的需要,然后爬取古典文學(xué)網(wǎng)站唐詩數(shù)
據(jù),對(duì)其進(jìn)行處理,分析,然后可視化。繁雜的數(shù)據(jù)經(jīng)過清洗加分析后,可以
以作者,時(shí)期等進(jìn)行分類,以便更好的出版書籍對(duì)應(yīng)各種消費(fèi)群體。所以我的
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
畢業(yè)設(shè)計(jì)部分包含數(shù)據(jù)爬取、清洗處理、儲(chǔ)存、可視化。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
1990年,Python由荷蘭的吉多·范羅蘇姆設(shè)計(jì)。Python的創(chuàng)建的初期并
沒有很突出的特點(diǎn),所以沒有引起人們的注意,直到在21世紀(jì)初Google在大
量的項(xiàng)目業(yè)務(wù)上開始應(yīng)用Python,Python也因此走進(jìn)大眾的視野,更多人開
始使用Python,從而使得Python的快速發(fā)展。
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,2010年后,移動(dòng)互聯(lián)網(wǎng)技術(shù)的大肆普及。
云、大、物、智等新型信息技術(shù)興起,其中的大數(shù)據(jù)技術(shù)涉及到的數(shù)據(jù)獲取、
清洗處理、可視化等都有Python的存在。云計(jì)算中許多接口都支持Python的
調(diào)用,對(duì)于平臺(tái)實(shí)現(xiàn)自動(dòng)化極其友好。再到后來人工智能技術(shù)的崛起,AI領(lǐng)域使
用了更多的Python技術(shù),用它作關(guān)鍵的開發(fā)工具。并且Python入門難度相較
于JAVA、C++等面向?qū)ο蟮恼Z言而言更加簡(jiǎn)單、容易入門,所以它很快的便被
大眾普遍使用。
在編程語言的排行榜中。Python的排名已經(jīng)與老牌的C語言和JAVA語言
不相上下,Python的語法非常的簡(jiǎn)潔明了,和其它編程語言相比較,實(shí)現(xiàn)同
一個(gè)功能,Python語言的實(shí)現(xiàn)代碼會(huì)比其他語言簡(jiǎn)短的多。即便是非軟件專
業(yè)的初學(xué)者,稍微接觸一下,也很容易上手,因此它也逐漸走進(jìn)非IT行業(yè)工
作者的視野內(nèi),這也突出Python的特點(diǎn)就是容易學(xué)。并且Python第三方庫非
常豐富、而且免費(fèi)開源、支持跨多平臺(tái)且可移植性比較強(qiáng),使得更多人喜歡使
用Python進(jìn)行編程。
1.2.2JupyterNotebook簡(jiǎn)介
JupyterNotebook的前身叫做IPythonNotebook,數(shù)據(jù)分析的好幫手,
能將說明文本、數(shù)學(xué)方程、代碼和可視化內(nèi)容完美的組合到一個(gè)共享的文檔
中。JupyterNotebook的用途還包括:數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建
模、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等等,并且它支持超過40種編程語言,包括
Python、R、Julia、Scala等。除此之外,還可以通過安裝相應(yīng)的kernel,實(shí)
現(xiàn)MATLAB等語言的使用,非常適合從事機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等數(shù)據(jù)科學(xué)工作
人員。它可以直接在代碼旁寫出敘述性文檔,而不是另外編寫單獨(dú)的文檔。也
就是說它可以能將代碼、文檔等這一切集中到一處,讓用戶一目了然,非常的
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
方便。
1.2.3Python第三方庫簡(jiǎn)介
Requests:是Python中最友好的網(wǎng)絡(luò)爬蟲功能庫,是Python實(shí)現(xiàn)的簡(jiǎn)單
易用的HTTP庫,無需手動(dòng)為URL添加查詢串,也不需要對(duì)POST數(shù)據(jù)進(jìn)行
表單編碼。基于urllib,但使用起來比urllib更簡(jiǎn)潔、方便很多,可以節(jié)約大
量的工作時(shí)間,Python第三方庫在使用前要先進(jìn)行安裝。
CSV:CSV屬于Python中的內(nèi)置模塊,CSV模塊實(shí)現(xiàn)了很多類,可以用來
讀寫CSV格式的表格數(shù)據(jù)。該模塊可以使得編程人員,將數(shù)據(jù)以Excel所偏好
的格式寫入文件,或者讀取由Excel生成的文件,并且CSV文件是表格和數(shù)據(jù)
庫中常見的文件操作格式,很多程序在處理數(shù)據(jù)時(shí)都會(huì)碰到CSV這種格式的文
件,它的使用是比較廣泛的。
NumPy:NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),NumPy和稀疏矩陣運(yùn)算包
scipy配合使用更加方便。NumPy還擁有許多高級(jí)的數(shù)值編程工具,NumPy包含
很多實(shí)用的數(shù)學(xué)函數(shù),涵蓋線性代數(shù)運(yùn)算、傅里葉變換和隨機(jī)數(shù)生成等功能。
pandas:是一個(gè)免費(fèi)、開源的第三方Python庫,是Python數(shù)據(jù)分析必
不可少的工具之一,pandas中擁有大量庫和標(biāo)準(zhǔn)的數(shù)據(jù)模型,它為Python數(shù)
據(jù)分析提供了高性能,是操作大型數(shù)據(jù)集必備的工具之一。
Matplotlib:是Python的一個(gè)綜合性的庫,可創(chuàng)建靜態(tài)的、動(dòng)畫的和可
交互的可視化圖形圖像,主要是偏向于二維繪圖包括折線圖、條形圖、扇形
圖、散點(diǎn)圖、直方圖等等。通過Matplotlib,開放者只需要幾行代碼,便可以
很快的繪圖。
Wordcloud:是一款Python環(huán)境下的詞云圖工具包,同時(shí)支持Python2和
Python3,能通過代碼的形式把關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)換成直觀且有趣的圖文模式。
jieba:Python中文分詞的組件。
pylab:它能設(shè)置畫圖讓其能顯示中文。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2需求分析
2.1可行性需求分析
1.技術(shù)可行性
Python是面向?qū)ο笳Z言中的一門較為簡(jiǎn)單、容易入門的計(jì)算機(jī)編程語言,
本次項(xiàng)目使用Python編寫程序來實(shí)現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理和數(shù)據(jù)
可視化。通過抓包分析,發(fā)現(xiàn)古典文學(xué)網(wǎng)站中的唐詩大全信息頁面的數(shù)據(jù)是靜
態(tài)的,我們查看瀏覽器控制臺(tái)獲取請(qǐng)求頭部信息和參數(shù)信息。然后就可以得到
網(wǎng)頁頁面數(shù)據(jù)的返回值。隨后將爬取出來的初數(shù)據(jù)先以CSV格式文件儲(chǔ)存起
來,在后續(xù)的數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化中再進(jìn)行文件的調(diào)用。
2.項(xiàng)目可行性
社會(huì)發(fā)展的迅速,生活質(zhì)量的提高,讓大家已經(jīng)開始想提升自己的文化底
蘊(yùn)和提高精神層次,但是大部分人群,特別是中老年人群和小孩群體對(duì)于手機(jī)
的使用,大部分是不會(huì)使用,還有是使用不習(xí)慣和沒有手機(jī)使用的問題,閱讀
和學(xué)習(xí)古典文學(xué)還是以翻閱紙質(zhì)書籍為主。人民群眾迫切需要這種紙質(zhì)書籍來
填補(bǔ)空缺,好讓大家有閱讀和學(xué)習(xí)古典文學(xué)的機(jī)會(huì)。
本次項(xiàng)目通過采集古典文學(xué)網(wǎng)站唐詩大全的數(shù)據(jù),來分析唐詩的一些數(shù)據(jù)
信息。我們也將從作者、閱讀量、評(píng)論等方面對(duì)其進(jìn)行深度解析,分析出有價(jià)
值的信息,將其可視化最后根據(jù)結(jié)果得出結(jié)論。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來源是古典文學(xué)網(wǎng)站,是通過Python爬取古典文學(xué)所
有唐詩的信息。數(shù)據(jù)清洗后共700條記錄,爬取完成后需要檢查數(shù)據(jù)的準(zhǔn)確性,
確定爬取出來的數(shù)據(jù)無誤并且是屬于古典文學(xué)網(wǎng)實(shí)時(shí)存在的唐詩數(shù)據(jù)信息。
分析古典文學(xué)網(wǎng)頁信息,明確我們需要爬取的參數(shù)有主題、內(nèi)容、作者、
發(fā)表時(shí)間、閱讀量、評(píng)論等數(shù)據(jù),在對(duì)初數(shù)據(jù)進(jìn)行預(yù)處理后我們會(huì)對(duì)其數(shù)據(jù)進(jìn)
行多個(gè)維度的分析。例如,從作者進(jìn)行分析,查看哪些作者的作品最多;又或者
根據(jù)閱讀量來分析大部分人喜歡哪種類型或者是誰作的唐詩。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
隨著互聯(lián)網(wǎng)的大力發(fā)展,互聯(lián)網(wǎng)稱為信息的主要載體,而如何在互聯(lián)網(wǎng)中
有效的搜集提取和利用這些信息是互聯(lián)網(wǎng)領(lǐng)域面臨的一大挑戰(zhàn)。這個(gè)時(shí)候就需
要一種技術(shù)來攻克這個(gè)難題,所以應(yīng)運(yùn)而生,被大家稱之為“網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)
機(jī)器人”的網(wǎng)絡(luò)爬蟲產(chǎn)生了,它是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序或自動(dòng)化腳
本。爬蟲分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲
等一些類型。爬蟲最直接和常用的儲(chǔ)存方法就是收集數(shù)據(jù),并且和人工偽造的
會(huì)有很大的區(qū)別,爬下來的數(shù)據(jù)是不會(huì)說謊的,比如:“刷單”這種行為,使
用爬蟲將數(shù)據(jù)爬取下來,是一目了然的,做不了假。爬蟲還有一個(gè)天然自帶的
功能,就是刷流量,當(dāng)爬蟲訪問網(wǎng)站的時(shí)候,網(wǎng)站沒有識(shí)別出來,那么就會(huì)被
當(dāng)成正常訪問。爬蟲的主要目的就是獲取網(wǎng)頁并解析,只要達(dá)到這個(gè)目的,用
什么方法都可以。并且由于Python語法簡(jiǎn)單,極易入門等特點(diǎn),爬蟲在
Python這一門語言的幫助下,要入門開發(fā)爬蟲幾乎沒有難度,而與爬蟲相關(guān)的
框架更是數(shù)不勝數(shù),稍微配置一下就能實(shí)現(xiàn)很好的效果。
2.3.2文件存取技術(shù)
Python內(nèi)置CSV模塊如圖2-1所示。
圖2-1Python內(nèi)置CSV模塊
2.3.3可視化技術(shù)
當(dāng)我們儲(chǔ)存下來的數(shù)據(jù),數(shù)據(jù)量就像一個(gè)海洋一樣,并不能一眼就得到我
們想要的結(jié)論,小時(shí)候?qū)W數(shù)學(xué),基本上都是從圖上將內(nèi)容分析出來的,所以我
們就要將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上展示出來,再進(jìn)行分析才能得到我們
所需要的結(jié)論。
1987年首次提出可視化,認(rèn)為它是一種能夠處理大量數(shù)據(jù)集的工具??梢?/p>
化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯
示出來。它涉及到多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表示等一系列問題的綜合技術(shù)。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3數(shù)據(jù)采集
3.1采集頁面分析
我們開始通過谷歌瀏覽器搜索古典文學(xué)官方網(wǎng)頁,然后找到唐詩大全頁面
觀察圖3-1,其中URL為:/tangshi/index.html。
圖3-1數(shù)據(jù)網(wǎng)址頁面
按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-2所示。
圖3-2開發(fā)者工具
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字
段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)GET請(qǐng)求,那我們需要尋找它的頭部
信息往下翻找,在最后找到了我們需要的頭部信息,如圖3-3所示。
圖3-3請(qǐng)求頭部信息
3.2字段分析
我們首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到唐詩大全
的位置,也就是定位到我們所需要爬取的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工
具頁面刷新一下頁面,再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Headers
按鈕,如圖3-4所示。
因?yàn)楣诺湮膶W(xué)網(wǎng)是一個(gè)靜態(tài)網(wǎng)頁,所以我們可以直接使用Requests方法
中的GET方法來獲得響應(yīng)的數(shù)據(jù),我們需要重復(fù)獲取響應(yīng)數(shù)據(jù),可以直接將數(shù)
據(jù)依次寫入到CSV格式的文件當(dāng)中。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-4分析數(shù)據(jù)類型頁面
3.3編程實(shí)現(xiàn)
導(dǎo)入所需庫,如圖3-5所示。
圖3-5導(dǎo)入所需庫頁面
設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問服務(wù)器。使用循環(huán)對(duì)網(wǎng)站的數(shù)據(jù)用GET方
法將網(wǎng)址和請(qǐng)求頭部添加到其中爬取網(wǎng)頁數(shù)據(jù),并將爬取的數(shù)據(jù)用Etree模塊
來將網(wǎng)頁解析,如圖3-6所示。
圖3-6請(qǐng)求頭內(nèi)容頁面
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
依據(jù)解析出來的數(shù)據(jù),循環(huán)使用XPath定位到所需要的字段再進(jìn)行分割,
得到所需要的部分并存入字典中,如圖3-7所示。
圖3-7循環(huán)解析代碼塊
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
在爬取到龐大的數(shù)據(jù)集之后我們需要對(duì)數(shù)據(jù)進(jìn)行一個(gè)預(yù)處理,也就是所謂
的數(shù)據(jù)清洗和檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實(shí)值,要保證數(shù)據(jù)
的一致性,這個(gè)對(duì)于信息質(zhì)量的評(píng)估是一項(xiàng)非常重要的任務(wù)。不僅如此,我們需
要將數(shù)據(jù)進(jìn)行整理、排序和篩選等操作,這樣子能夠在后期數(shù)據(jù)調(diào)用共享的過
程中方便很多開發(fā)人員對(duì)數(shù)據(jù)信息的使用。
本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對(duì),并且檢查是
否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對(duì)數(shù)據(jù)
進(jìn)行不同的處理。
4.1數(shù)據(jù)清洗
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面
經(jīng)過對(duì)照和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失值,錯(cuò)位還有空值,那么我們根據(jù)需
求將有效數(shù)據(jù)進(jìn)行保存,將不要的行列數(shù)據(jù)全部去掉,防止數(shù)據(jù)冗余。因此我
們只需保留需要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入data.csv文件中,留存后
續(xù)作為統(tǒng)計(jì)分析、數(shù)據(jù)可視化使用。
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)儲(chǔ)存的方法有很多種,常見的就是可以直接用記事本格式儲(chǔ)存(txt文
件),或者直接用其他文件的形式儲(chǔ)存,如:CSV、Excel、json等,但是以上方
法保存的數(shù)據(jù)體量普遍都比較小。如果需要儲(chǔ)存較大的數(shù)據(jù)信息就需要用到我
們的數(shù)據(jù)庫,數(shù)據(jù)庫也分為關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比
較典型的有MySQL和Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對(duì)形式儲(chǔ)存數(shù)據(jù)的代
表有MongoDB、Redis等,本次項(xiàng)目我們用到的是CSV文件格式,如圖4-3所
示。
圖4-3數(shù)據(jù)存儲(chǔ)為CSV頁面
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入相關(guān)庫,使用pandas加載源數(shù)據(jù),如圖5-1所示。
圖5-1數(shù)據(jù)準(zhǔn)備頁面
5.2數(shù)據(jù)展示
5.2.1作者統(tǒng)計(jì)分析
將在表格中作者的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的頻率,最
后生成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成詞云圖,如圖5-3
所示。
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-3作者發(fā)表頻率
從圖中可以看出“杜甫”出現(xiàn)的頻率是最高的,其次就是“白居易”,再
者就是“李白”。從出現(xiàn)頻率來看,“杜甫、白居易和李白”不愧唐代三大詩人
這個(gè)名聲,他們的詩句已經(jīng)印在時(shí)代上,深入人心,就連剛懂事的小朋友對(duì)他
們的詩句都可以倒背如流。
不僅如此,從詞云圖可以看出,唐代的詩人之多,處于一個(gè)人才輩出、群
英薈萃的時(shí)代,使得大家爭(zhēng)相去了解唐代的古詩和各種文化知識(shí)。想讓自己從
古詩和傳統(tǒng)文化中,體會(huì)到當(dāng)時(shí)朝代的一個(gè)大環(huán)境。
5.2.2發(fā)表次數(shù)統(tǒng)計(jì)分析
將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次
數(shù),按照每年發(fā)表次數(shù)所占百分比生成餅圖,如圖5-4所示。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-4每年發(fā)表次數(shù)
以圖5-4每年的發(fā)表次數(shù)中可以看出,2013發(fā)表次數(shù)的是最多的,其次
就是2012年,其他都占少數(shù)。
當(dāng)時(shí)處于信息的發(fā)展期,大家都開始接觸計(jì)算機(jī),有經(jīng)濟(jì)頭腦的人,就會(huì)
想著,大家都使用電腦,那我是不是可以做一個(gè)大家都沒有做過的網(wǎng)站,來增
加流量來實(shí)現(xiàn)變現(xiàn)呢。當(dāng)大家都開始上網(wǎng)的時(shí)候,做網(wǎng)站的人絡(luò)繹不絕,都想
著靠互聯(lián)網(wǎng)來掙第一桶金,所以當(dāng)時(shí)的網(wǎng)站開發(fā),應(yīng)該是達(dá)到一個(gè)高潮的地
步,當(dāng)大家的熱度過去了,高潮也就過去了,后續(xù)大家更趨向于實(shí)用型或者的
娛樂型的網(wǎng)站。
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3發(fā)表次數(shù)統(tǒng)計(jì)分析
將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次
數(shù),按照每年平均日閱讀量生成條形圖,如圖5-5所示。
圖5-52012-2016年平均日閱讀量
從圖5-5中可以看出,2013年平均每日閱讀量是最多的,相較于其他的幾
年來說,平均的日閱讀量是一個(gè)飛漲的狀態(tài)。
這個(gè)原因主要可能就是因?yàn)楫?dāng)時(shí)信息的發(fā)展,大部分人民群眾都在這兩年
可以開始使用上電腦和智能手機(jī),由于剛接觸電腦和智能手機(jī)這個(gè)新事物,大
家都是想去了解和摸索,這段時(shí)間肯定使用的人數(shù)是最多的,但當(dāng)這個(gè)新鮮期
一過,那么大家可能就不會(huì)對(duì)電腦和智能手機(jī)那么上心的,所以發(fā)表量直線下
降。后續(xù)對(duì)于年紀(jì)大的人和小孩來說,紙質(zhì)書籍才是大家最方便的,而且還不
會(huì)有電腦和智能手機(jī)傷眼睛,并且還有部分的人是喜歡收集書籍的。
5.2.4依據(jù)每月的發(fā)表次數(shù)進(jìn)行統(tǒng)計(jì)
將在表格中發(fā)表次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計(jì)出現(xiàn)的次
數(shù),按照每月發(fā)表次數(shù)生成折線圖,如圖5-6所示。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路綠化帶苗木種植合同
- 超市廢油回收合同范例
- 金杯投資合同三篇
- 海關(guān)監(jiān)管員勞動(dòng)合同三篇
- 解除物業(yè)服務(wù)合同(2篇)
- 土地轉(zhuǎn)讓合同范例格式
- 成套設(shè)備出口合同范例
- 農(nóng)村修路征地合同范例
- 渣土車隊(duì)合同范例
- 帶保證合同范例
- 貴陽市云巖區(qū)2023-2024學(xué)年數(shù)學(xué)三年級(jí)第一學(xué)期期末綜合測(cè)試試題含答案
- 2024浙江省建筑安全員B證(項(xiàng)目經(jīng)理)考試題庫
- Stevens-Johnson綜合征及中毒性表皮壞死松解癥課件
- 學(xué)前兒童健康教育與活動(dòng)指導(dǎo)(第2版)高職PPT完整全套教學(xué)課件
- 理論力學(xué)-上海交通大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 風(fēng)景背后的地貌學(xué)-華中師范大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 消防聯(lián)動(dòng)測(cè)試記錄表
- 【教師必備】部編版四年級(jí)語文上冊(cè)第二單元【集體備課】
- 23所行政管理博士點(diǎn)學(xué)校之一
- 靜脈導(dǎo)管常見并發(fā)癥臨床護(hù)理實(shí)踐指南1
- 學(xué)校學(xué)生勞動(dòng)教育評(píng)價(jià)表
評(píng)論
0/150
提交評(píng)論