基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第1頁
基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第2頁
基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第3頁
基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第4頁
基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言1

1.1項(xiàng)目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Python簡介2

1.2.2MySQL簡介2

1.2.3Jupyternotebook簡介3

1.2.4Python第三方庫簡介3

2需求分析4

2.1可行性需求分析4

2.2采集目標(biāo)功能分析5

2.3關(guān)鍵技術(shù)分析5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5

2.3.2文件存取技術(shù)6

2.3.3可視化技術(shù)7

3數(shù)據(jù)采集7

3.1采集頁面分析7

3.2字段分析9

3.3編程實(shí)現(xiàn)10

4數(shù)據(jù)清洗與處理12

4.1數(shù)據(jù)清洗13

4.2數(shù)據(jù)儲存14

4.3編程實(shí)現(xiàn)15

5數(shù)據(jù)統(tǒng)計(jì)與分析17

5.1數(shù)據(jù)準(zhǔn)備17

5.2數(shù)據(jù)展示21

5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計(jì)21

5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計(jì)22

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)和分析23

5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計(jì)24

5.3綜述25

6小結(jié)25

參考資料27

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示

1引言

隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)時代也將迅速到來。大數(shù)據(jù)時代的海量

信息,打破了時間與空間的壁壘。大數(shù)據(jù)主要是指在一定時間內(nèi)常規(guī)軟件工具

無法捕捉、管理和處理其內(nèi)容的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)指的是從各種類型的數(shù)

據(jù)中快速提取有價值信息的能力。盡管大數(shù)據(jù)在普通人的觀點(diǎn)中認(rèn)為它與自己

相去甚遠(yuǎn),但它與每個個體息息相關(guān),我們每個人都是大數(shù)據(jù)的提供者和受益

者。隨著越來越多的社會資源網(wǎng)絡(luò)化、數(shù)字化,大數(shù)據(jù)所能承載的價值將不斷

被提及和提升,大數(shù)據(jù)的應(yīng)用范圍也將不斷擴(kuò)大。因此,在未來網(wǎng)絡(luò)時代,大

數(shù)據(jù)不僅可以提供價值,而且還能夠?qū)崿F(xiàn)價值的創(chuàng)造。

1.1項(xiàng)目背景

人類是數(shù)據(jù)的創(chuàng)造者和使用者,從繩結(jié)記事起它就慢慢形成了。隨著計(jì)算

機(jī)和互聯(lián)網(wǎng)的普及,人類產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸性的增長。人類收集、存儲

和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)應(yīng)用已經(jīng)滲透到我們生活的每一個角落。隨

著大數(shù)據(jù)和人工智能的開放,我們的生產(chǎn)和生活方式發(fā)生了深遠(yuǎn)的變化。農(nóng)耕

代表著古老的文明,工業(yè)代表現(xiàn)代文明,大數(shù)據(jù)也將代表和促進(jìn)一種新的文明

形式,人類正以前所未有的速度迎來這個新時代。

顯而易見,大數(shù)據(jù)時代為人們帶來了極大的便利性和快捷性。于個人而言,

足不出戶就能知道世界大事,動動手指就能完成日常所需物品的采購,遠(yuǎn)在天

邊的親朋可以隨時相見。對社會而言,大量的數(shù)據(jù)信息可以有效地促進(jìn)社會的

發(fā)展和進(jìn)步,例如在扶貧、醫(yī)療、慈善等方面的貢獻(xiàn)顯著;對國家而言,大數(shù)

據(jù)有力地支撐政府工作的開展,豐富的信息提升了辦事效率。由此看來,大數(shù)

據(jù)無論是對于個人、社會還是國家,都有不可否認(rèn)的重要作用。

隨著新聞媒介的不斷豐富和發(fā)展,信息傳播的海量化和碎片化,迫切需要

利用大數(shù)據(jù)技術(shù)對新聞數(shù)據(jù)進(jìn)行分析和提取,從而推動數(shù)據(jù)新聞的發(fā)展已經(jīng)成

為不可避免的趨勢。對于人民網(wǎng)這種大型的新聞類網(wǎng)站來說,用數(shù)據(jù)分析以及

數(shù)據(jù)可視化技術(shù)對人民網(wǎng)的以“科技”為關(guān)鍵詞新聞進(jìn)行分析,可以增強(qiáng)內(nèi)容

的說服力、挖掘新聞的主題以及了解新聞所屬的來源等信息,從而進(jìn)一步的了

解哪些編輯的新聞發(fā)表文章較多,哪些新聞報(bào)刊發(fā)表業(yè)務(wù)能力更強(qiáng),以及哪些

新聞關(guān)鍵字在新聞版面出現(xiàn)次數(shù)頻繁。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

我的畢業(yè)設(shè)計(jì)就是針對以“科技”為關(guān)鍵詞新聞進(jìn)行采集與分析,爬取人

民網(wǎng)以“科技”為關(guān)鍵詞的新聞數(shù)據(jù),對其進(jìn)行處理、分析以及可視化。繁多

且復(fù)雜的數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理與分析后,需要的數(shù)據(jù)能夠清晰展現(xiàn)出來。從人

民網(wǎng)采集到的有用的數(shù)據(jù)信息,能夠更好的了解大數(shù)據(jù)對于新聞網(wǎng)站數(shù)據(jù)分析

的強(qiáng)大功能。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是荷蘭的吉多·范羅蘇姆在20世紀(jì)90年代早期開發(fā)的一種解釋型

編程語言。Python的誕生很有戲劇性,據(jù)吉多·范羅蘇姆自述,Python語言是

他在圣誕節(jié)期間為了打發(fā)時間而開發(fā)的。Python語言是在ABC語言的基礎(chǔ)上發(fā)

展而來,為了普及應(yīng)用吉多·范羅蘇姆在設(shè)計(jì)之初就決定將其開源。

Python是一種面向?qū)ο?、解釋性、通用性和開源性的腳本編程語言。Python

是免費(fèi)的且語法非常簡單明了,即便是非專業(yè)的初學(xué)者,也很容易能夠上手。

與傳統(tǒng)的C/C++、Java等語言相比,Python對新手來說學(xué)習(xí)成本低、學(xué)習(xí)難度

小且花費(fèi)時間少。

隨著計(jì)算機(jī)技術(shù)的不斷更迭,大數(shù)據(jù)與人工智能的興起使得Python也越來

越受歡迎。在游戲開發(fā)、web開發(fā)、網(wǎng)絡(luò)爬蟲、自動化運(yùn)維、數(shù)據(jù)分析和人工智

能等領(lǐng)域都有Python的身影。Python設(shè)計(jì)了各種豐富而強(qiáng)大的庫,例如Python

在科學(xué)計(jì)算方面應(yīng)用得很廣泛的庫有Numpy、Scipy、Matplotlib、Pandas等;

Python在網(wǎng)絡(luò)爬蟲方面應(yīng)用常用的庫有Request、Urllib、Selenium等等。這

些庫的存在使人們在使用Python時更加的便捷。

現(xiàn)今,Python已經(jīng)扎根在我們?nèi)粘I畹姆椒矫婷?。例如:IT、醫(yī)療、金

融、財(cái)會、電商等等。Python作為高級編程語言之一,以及被越來越多的人所

學(xué)習(xí)。我們大數(shù)據(jù)專業(yè)學(xué)生所學(xué)與所用的,是利用python高效率的進(jìn)行數(shù)據(jù)采

集、數(shù)據(jù)分析以及清晰的數(shù)據(jù)可視化。

1.2.2MySQL簡介

MySQL是瑞典MySQLAB公司開發(fā)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),是Oracle旗下

的產(chǎn)品。MySQL是當(dāng)今最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,MySQL不是將所有

數(shù)據(jù)存儲在一個倉庫中,而是將數(shù)據(jù)保存在單獨(dú)的表中,大大提高了處理數(shù)據(jù)

的速度和靈活性。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

MySQL所使用的SQL語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。MySQL支

持Linux、MacOS、Windows等多種操作系統(tǒng)。MySQL提供了多種編程語言的

API,包括C、C++、Python、Java、PHP和.NET等。MySQL還支持多線程,充分

利用CPU的資源,并對SQL查詢算法進(jìn)行優(yōu)化,有效提高了查詢速度。MySQL因

其體積小、速度快、成本低和開源等特點(diǎn),通常被企業(yè)選擇進(jìn)行小型或中型項(xiàng)

目開發(fā)。

1.2.3Jupyternotebook簡介

Jupyternotebook起源于2014年ipython計(jì)劃,已逐步發(fā)展成為一種支持

跨越各種編程語言進(jìn)行交互式數(shù)據(jù)科學(xué)計(jì)算。它綜合了部分解釋性文本,數(shù)學(xué),

計(jì)算等內(nèi)容,目的是開發(fā)出跨越數(shù)十種編程語言,開放標(biāo)準(zhǔn)以及為交互式計(jì)算

提供服務(wù)的開源軟件。

安裝Jupyternotebook有兩個途徑。一種是安裝Python后安裝Jupyter

Noterbook。另一方法則可直接用Anaconda進(jìn)行安裝,安裝完成后Anaconda會

預(yù)設(shè)安裝JupyterNoterbook。

Jupyternotebook被用于數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建模、數(shù)據(jù)可

視化和機(jī)器學(xué)習(xí)。由于與40中編程語言兼容,其共享筆記,交互式輸出和大數(shù)

據(jù)整合等功能得到了廣泛應(yīng)用。

1.2.4Python第三方庫簡介

Requests:是一個非常實(shí)用的HTTP客戶端庫,Python語言的第三方的庫,

使用前需要先進(jìn)行下載,爬蟲及測試服務(wù)器在對數(shù)據(jù)進(jìn)行應(yīng)答時常用,主要用

于發(fā)送HTTP請求,使用時相較于urllib簡潔,因此被廣泛使用。

Os:是一個操作系統(tǒng)接口功能模塊,提供一些方便使用接口相關(guān)功能的函

數(shù)、變量和方法等。當(dāng)需要對操作系統(tǒng)進(jìn)行修改或更改系統(tǒng)設(shè)置的時候,也可

以將Os作為一種手段來執(zhí)行操作。

Pandas:是一個Python數(shù)據(jù)處理庫,它擁有大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模

型,為處理大型數(shù)據(jù)集提供了有效的工具。Pandas提供了多種便捷的函數(shù)和方

法,可以快速處理數(shù)據(jù)。因此,它能夠以較高的效率對數(shù)據(jù)進(jìn)行導(dǎo)入、清理、

處理、統(tǒng)計(jì)和輸出。

Numpy:是Python的一個開源的科學(xué)計(jì)算擴(kuò)展庫,支持大量的N維數(shù)組與

矩陣的運(yùn)算,對于數(shù)組運(yùn)算提供了許多的數(shù)學(xué)函數(shù)庫。它主要用于科學(xué)計(jì)算與

數(shù)據(jù)分析。相同的任務(wù),使用numpy比直接用python的基本數(shù)據(jù)結(jié)構(gòu)更加簡單

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

高效。

Matplotlib:是python進(jìn)行數(shù)據(jù)可視化的一個第三方庫,由大量的可視化

類構(gòu)成,使用它可以輕松的繪畫出所需的圖形。利用matplotlib.pyplot命令

子庫可以繪制各種各樣的可視化圖形,用戶可通過調(diào)用pyplot使用Matplotlib

中所有可視化的類。

BeautifulSoup:一個很簡單的Python數(shù)據(jù)提取工具。它提供了兩個主要

功能:一是解析HTML和XML文件,并提取其中的數(shù)據(jù);二是通過獲取到指定標(biāo)

簽的對應(yīng)屬性,從而獲得我們所需要的信息。

Json:是Python的一個標(biāo)準(zhǔn)庫,類似于字典以鍵-值對存儲數(shù)據(jù),它存儲

方便易于解析,因此是一種廣泛使用的數(shù)據(jù)格式。

Wordcloud:是python中繪制詞云圖的庫。wordcloud庫將詞云視為

worldCloud對象,它可以按照數(shù)據(jù)中單詞的出現(xiàn)頻率等參數(shù)來畫詞云,并且可

以設(shè)置形狀、大小和顏色。

Pyecharts:一個Python類庫,用于生成Echarts圖表,可以把Python中

的數(shù)據(jù)輕松地生成圖形。用這個庫可以創(chuàng)建一個獨(dú)立的網(wǎng)頁,也可以把它集成

到Flask,Django。

Scipy:是一個python開源的數(shù)學(xué)計(jì)算庫,主要應(yīng)用于數(shù)學(xué)、科學(xué)以及工

程領(lǐng)域。

Jieba:是Python中進(jìn)行中文分詞的第三方庫,它是通過中文詞庫來識別

漢字間的相關(guān)概念。它把漢字中有較大機(jī)率的構(gòu)成短語的詞語,構(gòu)成了分詞的

結(jié)果。除了分詞,使用者也可以加入定制的短語。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python是面向?qū)ο蟮某鯇W(xué)者容易理解的計(jì)算機(jī)編程語言,本次項(xiàng)目中使用

Python編寫程序來實(shí)現(xiàn)人民網(wǎng)數(shù)據(jù)爬取,數(shù)據(jù)清洗和預(yù)處理,數(shù)據(jù)可視化。在

數(shù)據(jù)獲取的過程中遇到一些小問題。這些數(shù)據(jù)沒有被直接放入html頁面,而是

通過其它的數(shù)據(jù)界面,進(jìn)行動態(tài)的加載。這個動態(tài)裝載數(shù)據(jù)的機(jī)制叫做Ajax,

它要求的是json格式的數(shù)據(jù),在python中通過json庫進(jìn)行分析,從而獲得頁

面數(shù)據(jù)的返回值。然后把采集到的原始數(shù)據(jù)暫時以csv格式儲存起來,在后續(xù)

的數(shù)據(jù)數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化中再進(jìn)行使用用。最后我們會將準(zhǔn)確的數(shù)據(jù)存

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

入MySQL數(shù)據(jù)庫中做持久化儲存。

上述技術(shù)此項(xiàng)目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟一一

實(shí)現(xiàn),以保證數(shù)據(jù)的準(zhǔn)確性和安全性。

2、項(xiàng)目可行性

隨著新聞行業(yè)的不斷發(fā)展與進(jìn)步,新聞的更新速度越來越快,新聞的來源

越來越多元化。數(shù)據(jù)已經(jīng)成為了新聞報(bào)道的中心,而以數(shù)據(jù)來講述新聞是其最

大的特色。受眾對于更有深度的新聞內(nèi)容的需要,使新聞工作者在收集、篩選

數(shù)據(jù)、呈現(xiàn)數(shù)據(jù)背后的理由和事實(shí)時,變得越來越有價值。數(shù)據(jù)不再是抽象的

佐證材料,而是擁有自己的獨(dú)立內(nèi)涵和對讀者來說多樣解讀的可能性。

此次項(xiàng)目通過采集人民網(wǎng)內(nèi)的數(shù)據(jù),來分析以“科技”為關(guān)鍵字的新聞信

息。我們也將從新聞發(fā)表實(shí)際、新聞版面關(guān)鍵字、新聞來源等方面對其進(jìn)行深

入分析,得出有價值的信息,將其進(jìn)行數(shù)據(jù)可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

我此次項(xiàng)目爬取的數(shù)據(jù)集的來源是人民網(wǎng)新聞網(wǎng)站,通過python爬取人民

網(wǎng)以“科技”為關(guān)鍵字的新聞信息。本次我爬取了人民網(wǎng)總計(jì)80頁的數(shù)據(jù),在

數(shù)據(jù)清洗后還有734條記錄,以此來檢查數(shù)據(jù)的準(zhǔn)確性與完整性,確保爬出來

的數(shù)據(jù)沒有空值、重復(fù)值與錯誤值并且是屬于人民網(wǎng)的新聞信息。

分析人民網(wǎng)網(wǎng)站網(wǎng)頁信息,明確我們需要采集的人民網(wǎng)數(shù)據(jù)參數(shù)有文章id、

標(biāo)題、發(fā)表時間、來源、文章內(nèi)容、鏈接、編輯、版面等數(shù)據(jù),在對原始數(shù)據(jù)

進(jìn)行清洗后會對其數(shù)據(jù)進(jìn)行多個維度的分析。主要目的是了解新聞來源于哪里

以及版面哪些關(guān)鍵字出現(xiàn)較多。例如:從每個編輯的新聞數(shù)量對其進(jìn)行分析,

查看每個編輯發(fā)表的新聞數(shù)量。又或者查看新聞來源于哪一個報(bào)刊,那么我們

就可以根據(jù)來源去統(tǒng)計(jì)每個報(bào)刊的新聞數(shù)量,查看每個報(bào)刊新聞數(shù)量的多少。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

隨著大數(shù)據(jù)時代的來臨,越來越多的數(shù)據(jù)被發(fā)布到網(wǎng)絡(luò)上,這使得網(wǎng)絡(luò)爬

蟲技術(shù)在互聯(lián)網(wǎng)中的地位將越來越重要。互聯(lián)網(wǎng)中存在的數(shù)據(jù)是海量的,如何

自動高效地獲取互聯(lián)網(wǎng)中我們需要的信息并且能夠被我們所用是一個重要的問

題,而爬蟲技術(shù)能夠高效且完美的解決問題。

網(wǎng)絡(luò)爬蟲技術(shù)主要針對于網(wǎng)絡(luò)網(wǎng)頁,又常被稱為網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛或者

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

機(jī)器人,能夠?qū)崿F(xiàn)自動化搜索網(wǎng)絡(luò)中的信息。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎

或其他類似網(wǎng)站,以獲取這些網(wǎng)站的內(nèi)容和檢索方式,或?qū)ζ溥M(jìn)行更新。它們

可以自動獲取所有它們能夠接觸到的頁面內(nèi)容,為了進(jìn)行進(jìn)一步的處理。網(wǎng)絡(luò)

爬蟲從某一頁(常常是首頁)出發(fā),搜索網(wǎng)頁的鏈接地址,讀取其中的內(nèi)容,

找出其它鏈接地址,然后一直循環(huán),直到把網(wǎng)站的所有網(wǎng)頁都訪問完畢。爬蟲

可以分為三個步驟:采集數(shù)據(jù)、處理數(shù)據(jù)和存儲數(shù)據(jù)。爬蟲從一個或多個最初

的URL開始,獲取原始網(wǎng)頁上的鏈接,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面

上提取新的鏈接加入到列表,直至滿足設(shè)定的結(jié)束條件。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)

構(gòu)和實(shí)現(xiàn)技術(shù)可以大致分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲以

及深層網(wǎng)絡(luò)爬蟲幾種類型。在我們實(shí)際應(yīng)用中,網(wǎng)絡(luò)爬蟲一般是將多種爬取技

術(shù)結(jié)合起來,以實(shí)現(xiàn)所需數(shù)據(jù)的收集。

網(wǎng)絡(luò)爬蟲的本質(zhì)是一種自動化技術(shù),它根據(jù)用戶指定的URL地址,可以從

網(wǎng)站上自動獲得信息,并把它儲存在本地文件或數(shù)據(jù)庫中。利用爬蟲可以在網(wǎng)

絡(luò)上實(shí)時地搜集海量的信息、進(jìn)行網(wǎng)絡(luò)爬行、網(wǎng)絡(luò)搜索、更新網(wǎng)絡(luò)信息等高效

率的任務(wù)。網(wǎng)絡(luò)爬蟲技術(shù)是數(shù)據(jù)挖掘和信息抽取的基礎(chǔ),是實(shí)現(xiàn)搜索引擎工作

的核心技術(shù)。利用爬蟲技術(shù)在網(wǎng)上進(jìn)行信息檢索,提取有用的數(shù)據(jù),更新網(wǎng)絡(luò)

信息,模擬人的行為,評估網(wǎng)站質(zhì)量,測試網(wǎng)站可用性等。

所謂的“反爬”,就是針對掃描程序中的“網(wǎng)絡(luò)爬行”環(huán)節(jié),做出一些對

抗策略,以阻止或擾亂爬蟲的正常爬行,間接地達(dá)到防衛(wèi)的目的。爬蟲的存取

速度和目的與普通用戶的存取速度及目的不同,大多數(shù)的爬蟲都會在沒有限制

的情況下,對目標(biāo)應(yīng)用的服務(wù)器造成很大的影響。常用的反爬技術(shù)有:用戶代

理反爬、訪問頻度反爬、網(wǎng)頁結(jié)構(gòu)變換、賬號限制反爬、referer反爬、驗(yàn)證碼

校驗(yàn)反爬等等。

現(xiàn)如今,大多數(shù)依賴數(shù)據(jù)支撐的應(yīng)用場景都離不開網(wǎng)絡(luò)爬蟲,包括搜索引

擎、輿情分析與監(jiān)測、聚合平臺、出行類軟件等。我們要遵守robots協(xié)議,遵

循這個協(xié)議進(jìn)行的網(wǎng)絡(luò)爬蟲是合理合法的。通過robots協(xié)議,我們能清楚的了

解到搜索引擎哪些網(wǎng)頁是可以爬的,哪些是不能爬的。這項(xiàng)爬蟲協(xié)議在業(yè)界中

也被稱作是“君子協(xié)定”。我們必須約束自己的行為,嚴(yán)格遵循網(wǎng)站所有者的

規(guī)定,否則會收到相應(yīng)的處罰。

2.3.2文件存取技術(shù)

數(shù)據(jù)的存儲方式是多種多樣的,常用的進(jìn)行文本存儲技術(shù)有txt文件存儲、

csv文件存儲、json文件存儲等,以及MySQL關(guān)系型數(shù)據(jù)和Mongodb非關(guān)系型

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

數(shù)據(jù)庫等。這幾種文件存取方式各有各的優(yōu)點(diǎn),json文件存儲以鍵-值對的方式

來表示數(shù)據(jù),其結(jié)構(gòu)簡潔、結(jié)構(gòu)化程度高。這種數(shù)據(jù)交換格式是輕量級的,容

易進(jìn)行閱讀與編寫;txt文件存儲簡單,兼容任何平臺,對數(shù)據(jù)檢索和數(shù)據(jù)結(jié)構(gòu)

要求不高,需要使用方便的話,可用txt文本存儲;csv文件存儲以純文本的形

式來存儲表格數(shù)據(jù),它是一串字符序列,通常用逗號和制表符來分隔字段。本

項(xiàng)目主要使用的數(shù)據(jù)存儲技術(shù)為csv文件存儲和mysql數(shù)據(jù)庫存儲,CSV文件存

儲相對于Excel文件存儲來說要簡單得多,XLS是一種包含文本、數(shù)值、公式和

格式的電子數(shù)據(jù)格式,而csv則沒有這種格式,它就是由特殊字符分割的文本,

結(jié)構(gòu)簡潔明了并且易于存儲。MySQL關(guān)聯(lián)數(shù)據(jù)庫具有快速、小巧、高效的命令執(zhí)

行功能;低成本,開放源代碼,提供免費(fèi)的版本,極大地減少了用戶的花費(fèi);

且MySQL具有很好的可移植性,可以在不同的系統(tǒng)平臺上運(yùn)行。

2.3.3可視化技術(shù)

在大數(shù)據(jù)時代,由于數(shù)據(jù)量的激增,對數(shù)據(jù)的采集和分析要求越來越高,

因此,數(shù)據(jù)可視化技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)可視化技術(shù)是指把數(shù)據(jù)以視覺對象的形

式進(jìn)行編碼,如點(diǎn)、線、色、位關(guān)系、動態(tài)效果等。它是以一種直觀、有效的

方式向使用者傳達(dá)信息,利用視覺的感知能力對數(shù)據(jù)進(jìn)行交互的可視化展示,

讓人們能迅速從繪圖中獲取數(shù)據(jù)信息。

數(shù)據(jù)可視化包括三大分支:科學(xué)可視化、信息可視化以及可視分析。進(jìn)行

數(shù)據(jù)可視化的最終目的在于了解數(shù)據(jù)中所包含的現(xiàn)象與法則,使讀者能夠“一

眼看懂”所要傳達(dá)的內(nèi)容。利用“可視化”技術(shù),能夠?qū)?fù)雜的數(shù)據(jù)以圖解的

形式高效地傳達(dá),準(zhǔn)確、高效、全面地傳達(dá)某些信息,并有助于發(fā)現(xiàn)某些規(guī)則

和特性,并發(fā)掘其背后的價值。

本項(xiàng)目中將爬取到的數(shù)據(jù)清洗后用簡單的可視化手段去實(shí)現(xiàn)數(shù)據(jù)可視化,

具體方法就是用python第三方庫matpoltlab去進(jìn)行數(shù)據(jù)可視化,matplotlab

中包含了許多庫,分別對應(yīng)餅圖、條形圖、詞云圖、折線圖等圖形,可以很好

的將數(shù)據(jù)進(jìn)行圖形展示,可視化圖形呈現(xiàn)后我們能夠清晰看出數(shù)據(jù)的動態(tài)變化

并得出相應(yīng)的結(jié)論。

3數(shù)據(jù)采集

3.1采集頁面分析

首先打開谷歌瀏覽器,打開百度頁面,在搜索框中輸入關(guān)鍵字“人民網(wǎng)”,

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

然后在人民網(wǎng)的搜索欄中輸入關(guān)鍵字“科技”。觀察圖3-1,其中URL為:

/s?keyword=%E7%A7%91%E6%8A%80&st=0&_=16767825

10298。點(diǎn)擊頁面最下方第二頁的按鈕,同時觀察URL,觀察到URL并沒有變化。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,選擇開發(fā)者工具中的網(wǎng)絡(luò)版面,刷新頁面,如圖3-2。

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字段,

發(fā)現(xiàn)這個是一個POST請求。

圖3-2開發(fā)者工具

因?yàn)榇司W(wǎng)站的請求方法為POST,我們需要尋找它的請求參數(shù)往下翻找,在

Payload找到了請求參數(shù)RequestPayload。如圖3-3。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-3RequestPayload

3.2字段分析

首先來到網(wǎng)站的初始頁面打開網(wǎng)頁的選擇欄,然后定位到我們所需要的數(shù)

據(jù)所在的位置,然后跳出開發(fā)者工具頁面刷新一下頁面再進(jìn)入,點(diǎn)擊開發(fā)者工

具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖3-4,可以看到我們需要的所有的數(shù)

據(jù)信息都是呈現(xiàn)json格式存在在此頁面,因?yàn)槲覀冞€得知他是post請求響應(yīng)

的網(wǎng)站,所以我們可以通過Requests方法中的post方法來獲得響應(yīng)的數(shù)據(jù),

最原始的數(shù)據(jù)格式是呈現(xiàn)json格式的我們可以使用json庫進(jìn)行解析然后依次

寫入到csv格式的文件當(dāng)中。我們需要的字段有文章id、標(biāo)題、發(fā)表時間、來

源、文章內(nèi)容、鏈接、編輯以及版面。

圖3-4分析數(shù)據(jù)類型頁面

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3.3編程實(shí)現(xiàn)

導(dǎo)入所需庫,如圖3-5。

圖3-5導(dǎo)入所需庫頁面

設(shè)置請求頭,偽裝成瀏覽器訪問服務(wù)器,如圖3-6。

圖3-6請求頭內(nèi)容頁面

代碼實(shí)現(xiàn)如下:

#導(dǎo)入所需庫

importrequests

frombs4importBeautifulSoup

importpandasaspd

importos

importtime

importjson

fromurllib.parseimportquote

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

#發(fā)起請求

deff_url(url,gjz,page):

#對referer進(jìn)行編碼

ts=int(time.time())

referer=f'/s?keyword={quote(gjz)}&st=0&_={ts}'

#請求頭

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/98.0.4758.102Safari/537.36',

'Content-Type':'application/json',

'Accept':'application/json,text/plain,*/*',

'Referer':referer,

}

#請求的參數(shù)

payload={

"endTime":0,

"hashContent":True,

"hasTitle":True,

"isFuzzy":True,

"key":gjz,

"limit":10,

"page":page,

"sortType":2,

"startTime":0,

"type":0

}

#用post發(fā)起請求

res=requests.post(url,headers=headers,data=json.dumps(payload))

returnres.json()

##把json數(shù)據(jù)進(jìn)行解析

defjx_Json(jsonData):

records=jsonData["data"]["records"];

foriinrecords:

pid=i['id']

originName=i['originName']

belongsName=BeautifulSoup(i['belongsName']).text

editor=i['editor']

content=BeautifulSoup(i['content']).text

displayTime=time.strftime('%Y-%m-%d',time.localtime(i['displayTime']/1000))

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

title=BeautifulSoup(i['title'],"html.parser").text

url=i['url']

yield[[pid,title,displayTime,originName,content,url,editor,belongsName]]

#將數(shù)據(jù)存入csv文件

defsaveFile(path,filename,data):

#如果路徑不存在,就創(chuàng)建路徑

ifnotos.path.exists(path):

os.makedirs(path)

#保存數(shù)據(jù)

dataframe=pd.DataFrame(data)

dataframe.to_csv(path+filename+".csv",encoding='utf_8_sig',mode='a',index=False,

sep=',',header=False)

#主函數(shù)

if__name__=="__main__":

#設(shè)置初始頁,終止頁,關(guān)鍵詞

start=1

end=80

gjz='科技'

#保存表頭行

headline=[["文章id","標(biāo)題","發(fā)表時間","來源","文章內(nèi)容","鏈接","編輯","版面"]]

saveFile("E:\畢業(yè)設(shè)計(jì)/data/",gjz,headline)

#爬取數(shù)據(jù)

forpageinrange(start,end+1):

url='/search-platform/front/search'

html=f_url(url,gjz,page)

#print(html)

fordatainjx_Json(html):

saveFile("E:\畢業(yè)設(shè)計(jì)/data/",gjz,data)

#print(data)

print("第{}頁爬取完成".format(page))

#爬蟲完成提示信息

print("爬蟲執(zhí)行完畢!")

4數(shù)據(jù)清洗與處理

大數(shù)據(jù)時代來臨,數(shù)據(jù)清洗與處理技術(shù)變得越來越重要。對數(shù)據(jù)處理的主

要目的是從繁多的、錯綜復(fù)雜的、讓人難以理解的數(shù)據(jù)中選取并分析出對于某

些特殊要求下對人們來說是有使用價值、有實(shí)際意義的數(shù)據(jù)。數(shù)據(jù)清洗也就是

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

將采集到的不完整的數(shù)據(jù)進(jìn)行清洗,包括處理無效數(shù)據(jù)、缺失數(shù)據(jù)以及對數(shù)據(jù)

一致性的檢查,從而提高數(shù)據(jù)準(zhǔn)確性。本次項(xiàng)目中我們需要將爬取的數(shù)據(jù)和網(wǎng)

頁原數(shù)據(jù)進(jìn)行比對,并且檢查是否出現(xiàn)空值、重復(fù)值和數(shù)據(jù)的位置是否正確。

根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)行不同的處理。

4.1數(shù)據(jù)清洗

數(shù)據(jù)清洗就是將不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)以及重復(fù)的數(shù)據(jù)進(jìn)行刪除或者

其他處理。數(shù)據(jù)預(yù)處理的第一步就是進(jìn)行數(shù)據(jù)清洗,如果數(shù)據(jù)清洗不到位,就

有可能出現(xiàn)數(shù)據(jù)分析錯誤。

下面是數(shù)據(jù)清洗前的數(shù)據(jù),如圖4-1。

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)原始數(shù)據(jù)中的“來源”一列存在空值,所以根據(jù)需

求將數(shù)據(jù)存在空值的列進(jìn)行刪除處理。因此我們只需保留需要的數(shù)據(jù),然后整

理為原網(wǎng)頁格式存入科技新聞數(shù)據(jù).csv文件中,為后續(xù)統(tǒng)計(jì)分析、可視化使用。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存有很許多方式,在Python中常見的方法有直接用文本文件

(txt)、csv文件、excel文件、json文件等,但是這些方法能夠保存的數(shù)據(jù)

量都比較小。如果需要儲存大量數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)庫又

可分成關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫主要有MySQL、Oracle、

SQLSever等,Mongodb、Redis是非關(guān)系型數(shù)據(jù)庫。這個項(xiàng)目使用了Csv和

MySQL,這是因?yàn)镃SV文件的存儲方法比較簡單,可以降低數(shù)據(jù)的存儲能力,方

便了數(shù)據(jù)的傳送,也方便了客戶端的數(shù)據(jù)處理;MySQL數(shù)據(jù)庫存儲處理速度快和

花費(fèi)成本低。將爬取的原始數(shù)據(jù)存入csv文件,如圖4-3:

圖4-3原始數(shù)據(jù)存儲為csv頁面

將清洗后的數(shù)據(jù)存入csv文件,如圖4-4:

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4清洗后數(shù)據(jù)存儲為csv頁面

將清洗并處理完成后的數(shù)據(jù)存入MySQL數(shù)據(jù)庫,如圖4-5:

圖4-5數(shù)據(jù)存儲MySQL頁面

4.3編程實(shí)現(xiàn)

讀取爬取后的原始數(shù)據(jù),顯示前十行數(shù)據(jù),如圖4-6:

圖4-6讀取原始數(shù)據(jù)頁面

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

去除原始數(shù)據(jù)中的空值,如圖4-7:

圖4-7去除空數(shù)據(jù)頁面

去除原始數(shù)據(jù)重復(fù)值代碼,在執(zhí)行完成后發(fā)現(xiàn)原始數(shù)據(jù)中不存在重復(fù)值,

如圖4-8:

圖4-8去除重復(fù)數(shù)據(jù)頁面

驗(yàn)證存入數(shù)據(jù)是否正確,如圖4-9和4-10:

圖4-9查看csv文件前五條數(shù)據(jù)頁面

圖4-10查看MySQL數(shù)據(jù)庫前五條數(shù)據(jù)頁面

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

分析新聞編輯發(fā)表的新聞條數(shù)。導(dǎo)入所需庫,如圖5-1。打開爬取并清洗完

的科技新聞數(shù)據(jù).csv文件,對每個編輯所發(fā)表的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-2。

5-3圖中是統(tǒng)計(jì)完成后的數(shù)據(jù)。

圖5-1導(dǎo)入所需庫頁面

圖5-2數(shù)據(jù)統(tǒng)計(jì)代碼頁面

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-3數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面

分析新聞版面關(guān)鍵字出現(xiàn)次數(shù)。導(dǎo)入所需庫,如圖5-4。打開爬取并清洗完

的科技新聞數(shù)據(jù).csv文件,對每個版面出現(xiàn)的關(guān)鍵字進(jìn)行統(tǒng)計(jì),如圖5-5。5-6

圖中是統(tǒng)計(jì)完成后的數(shù)據(jù)。

圖5-4導(dǎo)入所需庫頁面

圖5-5數(shù)據(jù)統(tǒng)計(jì)代碼頁面

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-6數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面

分析新聞發(fā)表時間。導(dǎo)入所需庫,如圖5-7。打開爬取并清洗完的科技新聞

數(shù)據(jù).csv文件,對每個新聞發(fā)表時間的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-8。5-9圖中

是統(tǒng)計(jì)完成后的數(shù)據(jù)。

圖5-7導(dǎo)入所需庫頁面

圖5-8數(shù)據(jù)統(tǒng)計(jì)代碼頁面

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-9數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面

分析新聞來源。導(dǎo)入所需庫,如圖5-10。打開爬取并清洗完的科技新聞數(shù)

據(jù).csv文件,對每個新聞來源的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-11。5-12圖中是統(tǒng)

計(jì)完成后的數(shù)據(jù)。

圖5-10導(dǎo)入所需庫頁面

圖5-11數(shù)據(jù)統(tǒng)計(jì)代碼頁面

20

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-12數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面

5.2數(shù)據(jù)展示

5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計(jì)

圖5-13各新聞編輯的新聞條數(shù)柱形圖

由圖5-13柱形圖可以對每個新聞編輯所發(fā)表的新聞條數(shù)進(jìn)行匯總。將在

csv文件的編輯字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計(jì)發(fā)表新聞的次數(shù),最后按照統(tǒng)計(jì)

完的數(shù)據(jù)繪制柱形圖。如圖5-13中可以看出趙竹青發(fā)表的文章最多,其次就是

王子峰和張雪冬。由此可以看出他們?nèi)说臉I(yè)務(wù)能力非常強(qiáng),對新聞信息資源

整合與分析有自己的方法。

21

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

新聞編輯在新聞流程中是十分重要的一個環(huán)節(jié)。這一環(huán)節(jié)是否成功就決定

了新聞傳播的成功與否。對于新聞編輯,正確地整合信息材料和有效地確定新

聞信息的價值是十分必要的。如果缺乏對信息進(jìn)行科學(xué)、理性的分析處理,新

聞的傳播就會變得雜亂無章,難以全面地傳遞社會正能量。甚至?xí)勾蟊妼@

篇報(bào)道的初衷有不同的認(rèn)識。而且這個認(rèn)識可能是對的,可能是錯的。最終導(dǎo)

致新聞無法達(dá)到對社會的積極的引導(dǎo)作用。這些新聞編輯發(fā)表的文章多,可以

看出他們的思想積極向上且符合社會發(fā)展趨勢且文學(xué)功底深厚,他們對信息的

整合修改能力強(qiáng),這對他們個人的職業(yè)發(fā)展和前景有非常大的作用。同時,一

個好的編輯對社會輿論的引導(dǎo)起著非常重要的作用,一個新聞網(wǎng)站擁有優(yōu)秀的

編輯會傳播更多有價值有意義的新聞。

5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計(jì)

圖5-14新聞版面關(guān)鍵字詞云圖

由圖5-14詞云圖可以對版面的關(guān)鍵字進(jìn)行統(tǒng)計(jì)與分析。將在將在csv文件

的版面字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計(jì)每個關(guān)鍵字出現(xiàn)的頻率,最后按照統(tǒng)計(jì)

完的數(shù)據(jù)繪制詞云圖。從圖5-14中可以看出來經(jīng)濟(jì)與科技兩個關(guān)鍵字出現(xiàn)的次

數(shù)最多,其次就滾動新聞和安徽新聞。由此可以看出在新聞行業(yè)經(jīng)濟(jì)與科技相

關(guān)的新聞出現(xiàn)次數(shù)非常多。

國民經(jīng)濟(jì)的發(fā)展離不開經(jīng)濟(jì)與科技,對人民網(wǎng)的版面數(shù)據(jù)進(jìn)行分析時發(fā)現(xiàn)

提到經(jīng)濟(jì)與科技是最多的。新聞是人們認(rèn)識外部世界的一個窗口,它對一個國

22

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

家的經(jīng)濟(jì)和社會發(fā)展起到舉足輕重的作用??萍夹畔⒌拈_發(fā)、利用,是現(xiàn)代社

會進(jìn)步的重要動力。科學(xué)技術(shù)新聞能夠迅速地、廣泛地傳播科學(xué)知識,對人類

社會的發(fā)展具有越來越大的影響。由圖5-14發(fā)現(xiàn)安徽新聞與內(nèi)蒙古頻道出現(xiàn)的

頻率也很高,說明在這兩個地區(qū)關(guān)于“科技”的新聞報(bào)道很多,我們在日常生

活中也可以多關(guān)注這兩個地區(qū)的科技新聞報(bào)道和發(fā)展?fàn)顩r。此外,由圖5-14還

可以發(fā)現(xiàn)滾動新聞出現(xiàn)的次數(shù)很多,滾動新聞就是新聞是不斷更新的,具有全

市性發(fā)布,全時性知曉,不受時間和空間的限制進(jìn)行滾動新聞報(bào)道,隨時發(fā)布

更有價值的新聞,由此說明新聞對人民收集和獲取目前的最新消息有著很大的

作用,對人民的生產(chǎn)生活起著非常大的影響。

5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)和分析

圖5-15新聞發(fā)表時間折線圖

由圖5-15折線圖可以對新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)與分析。從圖5-15中可以

得知2022年9月20日、2023年2月10日以及2023年2月1月這三個時間節(jié)

點(diǎn)發(fā)表的新聞最多。

由5-15圖,根據(jù)這個圖的數(shù)據(jù)可以發(fā)現(xiàn)新聞發(fā)表時間的新聞條數(shù)波動很大。

在2022年9月20日這個發(fā)表時間新聞發(fā)表數(shù)量達(dá)到了最高點(diǎn)。當(dāng)時正處于一

年中下旬,是一年之中新聞集中的時間。同時在這一天,有一個關(guān)于科技新聞

的大事,由工信部、科技部、商務(wù)部和安徽省人民政府聯(lián)合主辦的“2022世界

23

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

制造業(yè)大會”在合肥舉行。這一天有非常多關(guān)于科技興農(nóng)的新聞發(fā)表,我們可

以發(fā)現(xiàn)當(dāng)一個熱點(diǎn)出現(xiàn)就會有許多新聞對其報(bào)道,這就是新聞的及時性與真實(shí)

性。通過新聞可以讓農(nóng)業(yè)從業(yè)者了解科技興農(nóng)的最新消息,從而可以讓從業(yè)者

們提升農(nóng)業(yè)生產(chǎn)方式,是農(nóng)業(yè)發(fā)展更能順應(yīng)自然、保護(hù)自然,優(yōu)化生態(tài)安全,

強(qiáng)化資源節(jié)約和利用。對每個新聞的發(fā)表時間進(jìn)行比較,發(fā)布在人民網(wǎng)上的文

章,根據(jù)人民網(wǎng)統(tǒng)計(jì)的文章發(fā)布時間,我們可以很明顯的看到排名第一的發(fā)表

時間和排名靠后的發(fā)表時間數(shù)據(jù)相差很大。而且我們可以發(fā)現(xiàn),在周一至周五

這五天里面,文章的平均發(fā)表時間是最高。此外我們還可以在新年之初剛剛返

回崗位所發(fā)表的新聞較少,這也是情理之中的。

5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計(jì)

圖5-16新聞來源餅圖

由圖5-16餅圖我們可以對新聞來源進(jìn)行統(tǒng)計(jì)與發(fā)現(xiàn)。我們從圖5-16餅圖

可以看出光明日報(bào)、人民網(wǎng)(安徽頻道)和人民網(wǎng)(人民日報(bào)海外版)占據(jù)了

新聞來源的絕大部分。此網(wǎng)站為人民網(wǎng)的官方網(wǎng)站,所以人民網(wǎng)自己的新聞?wù)?/p>

據(jù)了很大一部分,人民網(wǎng)(安徽頻道)和人民網(wǎng)(人民日報(bào)海外版)相加起來

占據(jù)了44.1%,差不多是整個數(shù)據(jù)的一半。

人民網(wǎng)是人民日報(bào)打造的以新聞為主體的大型在線交流平臺,同時也是國

際互聯(lián)網(wǎng)上最大的綜合性網(wǎng)站。人民網(wǎng)的業(yè)務(wù)范圍包括:信息收集和發(fā)布、互

聯(lián)網(wǎng)廣告業(yè)、信息服務(wù)業(yè)等等。所以很大一部分新聞來源于都人民網(wǎng)。光明日

24

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

報(bào)也是新聞來源的一大部分,占了數(shù)據(jù)的36.2%,主要是一個宣傳黨在科學(xué)、教

育文化、理論、學(xué)術(shù)方面的方針政策的全國性綜合報(bào)紙,與科技發(fā)展緊密相關(guān)。

此外,以人民網(wǎng)以“報(bào)道全球、傳播中國”為己

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論