基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示

上傳人：搬*** IP屬地：浙江上傳時間：2024-12-09 格式：PDF 頁數(shù)：29 大?。?.29MB 積分：11 舉報 版權(quán)申訴

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第2頁

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第3頁

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第4頁

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示_第5頁

已閱讀5頁，還剩24頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

1引言1

1.1項目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Python簡介2

1.2.2MySQL簡介2

1.2.3Jupyternotebook簡介3

1.2.4Python第三方庫簡介3

2需求分析4

2.1可行性需求分析4

2.2采集目標(biāo)功能分析5

2.3關(guān)鍵技術(shù)分析5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5

2.3.2文件存取技術(shù)6

2.3.3可視化技術(shù)7

3數(shù)據(jù)采集7

3.1采集頁面分析7

3.2字段分析9

3.3編程實現(xiàn)10

4數(shù)據(jù)清洗與處理12

4.1數(shù)據(jù)清洗13

4.2數(shù)據(jù)儲存14

4.3編程實現(xiàn)15

5數(shù)據(jù)統(tǒng)計與分析17

5.1數(shù)據(jù)準(zhǔn)備17

5.2數(shù)據(jù)展示21

5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計21

5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計22

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計和分析23

5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計24

5.3綜述25

6小結(jié)25

參考資料27

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示

1引言

隨著信息技術(shù)的飛速發(fā)展，大數(shù)據(jù)時代也將迅速到來。大數(shù)據(jù)時代的海量

信息，打破了時間與空間的壁壘。大數(shù)據(jù)主要是指在一定時間內(nèi)常規(guī)軟件工具

無法捕捉、管理和處理其內(nèi)容的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)指的是從各種類型的數(shù)

據(jù)中快速提取有價值信息的能力。盡管大數(shù)據(jù)在普通人的觀點中認(rèn)為它與自己

相去甚遠(yuǎn)，但它與每個個體息息相關(guān)，我們每個人都是大數(shù)據(jù)的提供者和受益

者。隨著越來越多的社會資源網(wǎng)絡(luò)化、數(shù)字化，大數(shù)據(jù)所能承載的價值將不斷

被提及和提升，大數(shù)據(jù)的應(yīng)用范圍也將不斷擴(kuò)大。因此，在未來網(wǎng)絡(luò)時代，大

數(shù)據(jù)不僅可以提供價值，而且還能夠?qū)崿F(xiàn)價值的創(chuàng)造。

1.1項目背景

人類是數(shù)據(jù)的創(chuàng)造者和使用者，從繩結(jié)記事起它就慢慢形成了。隨著計算

機(jī)和互聯(lián)網(wǎng)的普及，人類產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸性的增長。人類收集、存儲

和處理數(shù)據(jù)的能力大大提高，數(shù)據(jù)應(yīng)用已經(jīng)滲透到我們生活的每一個角落。隨

著大數(shù)據(jù)和人工智能的開放，我們的生產(chǎn)和生活方式發(fā)生了深遠(yuǎn)的變化。農(nóng)耕

代表著古老的文明，工業(yè)代表現(xiàn)代文明，大數(shù)據(jù)也將代表和促進(jìn)一種新的文明

形式，人類正以前所未有的速度迎來這個新時代。

顯而易見，大數(shù)據(jù)時代為人們帶來了極大的便利性和快捷性。于個人而言，

足不出戶就能知道世界大事，動動手指就能完成日常所需物品的采購，遠(yuǎn)在天

邊的親朋可以隨時相見。對社會而言，大量的數(shù)據(jù)信息可以有效地促進(jìn)社會的

發(fā)展和進(jìn)步，例如在扶貧、醫(yī)療、慈善等方面的貢獻(xiàn)顯著；對國家而言，大數(shù)

據(jù)有力地支撐政府工作的開展，豐富的信息提升了辦事效率。由此看來，大數(shù)

據(jù)無論是對于個人、社會還是國家，都有不可否認(rèn)的重要作用。

隨著新聞媒介的不斷豐富和發(fā)展，信息傳播的海量化和碎片化，迫切需要

利用大數(shù)據(jù)技術(shù)對新聞數(shù)據(jù)進(jìn)行分析和提取，從而推動數(shù)據(jù)新聞的發(fā)展已經(jīng)成

為不可避免的趨勢。對于人民網(wǎng)這種大型的新聞類網(wǎng)站來說，用數(shù)據(jù)分析以及

數(shù)據(jù)可視化技術(shù)對人民網(wǎng)的以“科技”為關(guān)鍵詞新聞進(jìn)行分析，可以增強(qiáng)內(nèi)容

的說服力、挖掘新聞的主題以及了解新聞所屬的來源等信息，從而進(jìn)一步的了

解哪些編輯的新聞發(fā)表文章較多，哪些新聞報刊發(fā)表業(yè)務(wù)能力更強(qiáng)，以及哪些

新聞關(guān)鍵字在新聞版面出現(xiàn)次數(shù)頻繁。

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

我的畢業(yè)設(shè)計就是針對以“科技”為關(guān)鍵詞新聞進(jìn)行采集與分析，爬取人

民網(wǎng)以“科技”為關(guān)鍵詞的新聞數(shù)據(jù)，對其進(jìn)行處理、分析以及可視化。繁多

且復(fù)雜的數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理與分析后，需要的數(shù)據(jù)能夠清晰展現(xiàn)出來。從人

民網(wǎng)采集到的有用的數(shù)據(jù)信息，能夠更好的了解大數(shù)據(jù)對于新聞網(wǎng)站數(shù)據(jù)分析

的強(qiáng)大功能。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是荷蘭的吉多·范羅蘇姆在20世紀(jì)90年代早期開發(fā)的一種解釋型

編程語言。Python的誕生很有戲劇性，據(jù)吉多·范羅蘇姆自述，Python語言是

他在圣誕節(jié)期間為了打發(fā)時間而開發(fā)的。Python語言是在ABC語言的基礎(chǔ)上發(fā)

展而來，為了普及應(yīng)用吉多·范羅蘇姆在設(shè)計之初就決定將其開源。

Python是一種面向?qū)ο?、解釋性、通用性和開源性的腳本編程語言。Python

是免費的且語法非常簡單明了，即便是非專業(yè)的初學(xué)者，也很容易能夠上手。

與傳統(tǒng)的C/C++、Java等語言相比，Python對新手來說學(xué)習(xí)成本低、學(xué)習(xí)難度

小且花費時間少。

隨著計算機(jī)技術(shù)的不斷更迭，大數(shù)據(jù)與人工智能的興起使得Python也越來

越受歡迎。在游戲開發(fā)、web開發(fā)、網(wǎng)絡(luò)爬蟲、自動化運維、數(shù)據(jù)分析和人工智

能等領(lǐng)域都有Python的身影。Python設(shè)計了各種豐富而強(qiáng)大的庫，例如Python

在科學(xué)計算方面應(yīng)用得很廣泛的庫有Numpy、Scipy、Matplotlib、Pandas等；

Python在網(wǎng)絡(luò)爬蟲方面應(yīng)用常用的庫有Request、Urllib、Selenium等等。這

些庫的存在使人們在使用Python時更加的便捷。

現(xiàn)今，Python已經(jīng)扎根在我們?nèi)粘Ｉ畹姆椒矫婷?。例如：IT、醫(yī)療、金

融、財會、電商等等。Python作為高級編程語言之一，以及被越來越多的人所

學(xué)習(xí)。我們大數(shù)據(jù)專業(yè)學(xué)生所學(xué)與所用的，是利用python高效率的進(jìn)行數(shù)據(jù)采

集、數(shù)據(jù)分析以及清晰的數(shù)據(jù)可視化。

1.2.2MySQL簡介

MySQL是瑞典MySQLAB公司開發(fā)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)，是Oracle旗下

的產(chǎn)品。MySQL是當(dāng)今最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一，MySQL不是將所有

數(shù)據(jù)存儲在一個倉庫中，而是將數(shù)據(jù)保存在單獨的表中，大大提高了處理數(shù)據(jù)

的速度和靈活性。

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

MySQL所使用的SQL語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。MySQL支

持Linux、MacOS、Windows等多種操作系統(tǒng)。MySQL提供了多種編程語言的

API，包括C、C++、Python、Java、PHP和.NET等。MySQL還支持多線程，充分

利用CPU的資源，并對SQL查詢算法進(jìn)行優(yōu)化，有效提高了查詢速度。MySQL因

其體積小、速度快、成本低和開源等特點，通常被企業(yè)選擇進(jìn)行小型或中型項

目開發(fā)。

1.2.3Jupyternotebook簡介

Jupyternotebook起源于2014年ipython計劃，已逐步發(fā)展成為一種支持

跨越各種編程語言進(jìn)行交互式數(shù)據(jù)科學(xué)計算。它綜合了部分解釋性文本，數(shù)學(xué)，

計算等內(nèi)容，目的是開發(fā)出跨越數(shù)十種編程語言，開放標(biāo)準(zhǔn)以及為交互式計算

提供服務(wù)的開源軟件。

安裝Jupyternotebook有兩個途徑。一種是安裝Python后安裝Jupyter

Noterbook。另一方法則可直接用Anaconda進(jìn)行安裝，安裝完成后Anaconda會

預(yù)設(shè)安裝JupyterNoterbook。

Jupyternotebook被用于數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計建模、數(shù)據(jù)可

視化和機(jī)器學(xué)習(xí)。由于與40中編程語言兼容，其共享筆記，交互式輸出和大數(shù)

據(jù)整合等功能得到了廣泛應(yīng)用。

1.2.4Python第三方庫簡介

Requests：是一個非常實用的HTTP客戶端庫，Python語言的第三方的庫，

使用前需要先進(jìn)行下載，爬蟲及測試服務(wù)器在對數(shù)據(jù)進(jìn)行應(yīng)答時常用，主要用

于發(fā)送HTTP請求，使用時相較于urllib簡潔，因此被廣泛使用。

Os：是一個操作系統(tǒng)接口功能模塊，提供一些方便使用接口相關(guān)功能的函

數(shù)、變量和方法等。當(dāng)需要對操作系統(tǒng)進(jìn)行修改或更改系統(tǒng)設(shè)置的時候，也可

以將Os作為一種手段來執(zhí)行操作。

Pandas：是一個Python數(shù)據(jù)處理庫，它擁有大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模

型，為處理大型數(shù)據(jù)集提供了有效的工具。Pandas提供了多種便捷的函數(shù)和方

法，可以快速處理數(shù)據(jù)。因此，它能夠以較高的效率對數(shù)據(jù)進(jìn)行導(dǎo)入、清理、

處理、統(tǒng)計和輸出。

Numpy：是Python的一個開源的科學(xué)計算擴(kuò)展庫，支持大量的N維數(shù)組與

矩陣的運算，對于數(shù)組運算提供了許多的數(shù)學(xué)函數(shù)庫。它主要用于科學(xué)計算與

數(shù)據(jù)分析。相同的任務(wù)，使用numpy比直接用python的基本數(shù)據(jù)結(jié)構(gòu)更加簡單

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

高效。

Matplotlib：是python進(jìn)行數(shù)據(jù)可視化的一個第三方庫，由大量的可視化

類構(gòu)成，使用它可以輕松的繪畫出所需的圖形。利用matplotlib.pyplot命令

子庫可以繪制各種各樣的可視化圖形，用戶可通過調(diào)用pyplot使用Matplotlib

中所有可視化的類。

BeautifulSoup：一個很簡單的Python數(shù)據(jù)提取工具。它提供了兩個主要

功能：一是解析HTML和XML文件，并提取其中的數(shù)據(jù)；二是通過獲取到指定標(biāo)

簽的對應(yīng)屬性，從而獲得我們所需要的信息。

Json：是Python的一個標(biāo)準(zhǔn)庫，類似于字典以鍵-值對存儲數(shù)據(jù)，它存儲

方便易于解析，因此是一種廣泛使用的數(shù)據(jù)格式。

Wordcloud：是python中繪制詞云圖的庫。wordcloud庫將詞云視為

worldCloud對象，它可以按照數(shù)據(jù)中單詞的出現(xiàn)頻率等參數(shù)來畫詞云，并且可

以設(shè)置形狀、大小和顏色。

Pyecharts：一個Python類庫，用于生成Echarts圖表，可以把Python中

的數(shù)據(jù)輕松地生成圖形。用這個庫可以創(chuàng)建一個獨立的網(wǎng)頁，也可以把它集成

到Flask，Django。

Scipy：是一個python開源的數(shù)學(xué)計算庫，主要應(yīng)用于數(shù)學(xué)、科學(xué)以及工

程領(lǐng)域。

Jieba：是Python中進(jìn)行中文分詞的第三方庫，它是通過中文詞庫來識別

漢字間的相關(guān)概念。它把漢字中有較大機(jī)率的構(gòu)成短語的詞語，構(gòu)成了分詞的

結(jié)果。除了分詞，使用者也可以加入定制的短語。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python是面向?qū)ο蟮某鯇W(xué)者容易理解的計算機(jī)編程語言，本次項目中使用

Python編寫程序來實現(xiàn)人民網(wǎng)數(shù)據(jù)爬取，數(shù)據(jù)清洗和預(yù)處理，數(shù)據(jù)可視化。在

數(shù)據(jù)獲取的過程中遇到一些小問題。這些數(shù)據(jù)沒有被直接放入html頁面，而是

通過其它的數(shù)據(jù)界面，進(jìn)行動態(tài)的加載。這個動態(tài)裝載數(shù)據(jù)的機(jī)制叫做Ajax，

它要求的是json格式的數(shù)據(jù)，在python中通過json庫進(jìn)行分析，從而獲得頁

面數(shù)據(jù)的返回值。然后把采集到的原始數(shù)據(jù)暫時以csv格式儲存起來，在后續(xù)

的數(shù)據(jù)數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化中再進(jìn)行使用用。最后我們會將準(zhǔn)確的數(shù)據(jù)存

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

入MySQL數(shù)據(jù)庫中做持久化儲存。

上述技術(shù)此項目的技術(shù)可行性，我也將在后續(xù)的工作中將所有的步驟一一

實現(xiàn)，以保證數(shù)據(jù)的準(zhǔn)確性和安全性。

2、項目可行性

隨著新聞行業(yè)的不斷發(fā)展與進(jìn)步，新聞的更新速度越來越快，新聞的來源

越來越多元化。數(shù)據(jù)已經(jīng)成為了新聞報道的中心，而以數(shù)據(jù)來講述新聞是其最

大的特色。受眾對于更有深度的新聞內(nèi)容的需要，使新聞工作者在收集、篩選

數(shù)據(jù)、呈現(xiàn)數(shù)據(jù)背后的理由和事實時，變得越來越有價值。數(shù)據(jù)不再是抽象的

佐證材料，而是擁有自己的獨立內(nèi)涵和對讀者來說多樣解讀的可能性。

此次項目通過采集人民網(wǎng)內(nèi)的數(shù)據(jù)，來分析以“科技”為關(guān)鍵字的新聞信

息。我們也將從新聞發(fā)表實際、新聞版面關(guān)鍵字、新聞來源等方面對其進(jìn)行深

入分析，得出有價值的信息，將其進(jìn)行數(shù)據(jù)可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

我此次項目爬取的數(shù)據(jù)集的來源是人民網(wǎng)新聞網(wǎng)站，通過python爬取人民

網(wǎng)以“科技”為關(guān)鍵字的新聞信息。本次我爬取了人民網(wǎng)總計80頁的數(shù)據(jù)，在

數(shù)據(jù)清洗后還有734條記錄，以此來檢查數(shù)據(jù)的準(zhǔn)確性與完整性，確保爬出來

的數(shù)據(jù)沒有空值、重復(fù)值與錯誤值并且是屬于人民網(wǎng)的新聞信息。

分析人民網(wǎng)網(wǎng)站網(wǎng)頁信息，明確我們需要采集的人民網(wǎng)數(shù)據(jù)參數(shù)有文章id、

標(biāo)題、發(fā)表時間、來源、文章內(nèi)容、鏈接、編輯、版面等數(shù)據(jù)，在對原始數(shù)據(jù)

進(jìn)行清洗后會對其數(shù)據(jù)進(jìn)行多個維度的分析。主要目的是了解新聞來源于哪里

以及版面哪些關(guān)鍵字出現(xiàn)較多。例如：從每個編輯的新聞數(shù)量對其進(jìn)行分析，

查看每個編輯發(fā)表的新聞數(shù)量。又或者查看新聞來源于哪一個報刊，那么我們

就可以根據(jù)來源去統(tǒng)計每個報刊的新聞數(shù)量，查看每個報刊新聞數(shù)量的多少。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

隨著大數(shù)據(jù)時代的來臨，越來越多的數(shù)據(jù)被發(fā)布到網(wǎng)絡(luò)上，這使得網(wǎng)絡(luò)爬

蟲技術(shù)在互聯(lián)網(wǎng)中的地位將越來越重要?；ヂ?lián)網(wǎng)中存在的數(shù)據(jù)是海量的，如何

自動高效地獲取互聯(lián)網(wǎng)中我們需要的信息并且能夠被我們所用是一個重要的問

題，而爬蟲技術(shù)能夠高效且完美的解決問題。

網(wǎng)絡(luò)爬蟲技術(shù)主要針對于網(wǎng)絡(luò)網(wǎng)頁，又常被稱為網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛或者

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

機(jī)器人，能夠?qū)崿F(xiàn)自動化搜索網(wǎng)絡(luò)中的信息。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎

或其他類似網(wǎng)站，以獲取這些網(wǎng)站的內(nèi)容和檢索方式，或?qū)ζ溥M(jìn)行更新。它們

可以自動獲取所有它們能夠接觸到的頁面內(nèi)容，為了進(jìn)行進(jìn)一步的處理。網(wǎng)絡(luò)

爬蟲從某一頁（常常是首頁）出發(fā)，搜索網(wǎng)頁的鏈接地址，讀取其中的內(nèi)容，

找出其它鏈接地址，然后一直循環(huán)，直到把網(wǎng)站的所有網(wǎng)頁都訪問完畢。爬蟲

可以分為三個步驟：采集數(shù)據(jù)、處理數(shù)據(jù)和存儲數(shù)據(jù)。爬蟲從一個或多個最初

的URL開始，獲取原始網(wǎng)頁上的鏈接，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面

上提取新的鏈接加入到列表，直至滿足設(shè)定的結(jié)束條件。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)

構(gòu)和實現(xiàn)技術(shù)可以大致分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲以

及深層網(wǎng)絡(luò)爬蟲幾種類型。在我們實際應(yīng)用中，網(wǎng)絡(luò)爬蟲一般是將多種爬取技

術(shù)結(jié)合起來，以實現(xiàn)所需數(shù)據(jù)的收集。

網(wǎng)絡(luò)爬蟲的本質(zhì)是一種自動化技術(shù)，它根據(jù)用戶指定的URL地址，可以從

網(wǎng)站上自動獲得信息，并把它儲存在本地文件或數(shù)據(jù)庫中。利用爬蟲可以在網(wǎng)

絡(luò)上實時地搜集海量的信息、進(jìn)行網(wǎng)絡(luò)爬行、網(wǎng)絡(luò)搜索、更新網(wǎng)絡(luò)信息等高效

率的任務(wù)。網(wǎng)絡(luò)爬蟲技術(shù)是數(shù)據(jù)挖掘和信息抽取的基礎(chǔ)，是實現(xiàn)搜索引擎工作

的核心技術(shù)。利用爬蟲技術(shù)在網(wǎng)上進(jìn)行信息檢索，提取有用的數(shù)據(jù)，更新網(wǎng)絡(luò)

信息，模擬人的行為，評估網(wǎng)站質(zhì)量，測試網(wǎng)站可用性等。

所謂的“反爬”，就是針對掃描程序中的“網(wǎng)絡(luò)爬行”環(huán)節(jié)，做出一些對

抗策略，以阻止或擾亂爬蟲的正常爬行，間接地達(dá)到防衛(wèi)的目的。爬蟲的存取

速度和目的與普通用戶的存取速度及目的不同，大多數(shù)的爬蟲都會在沒有限制

的情況下，對目標(biāo)應(yīng)用的服務(wù)器造成很大的影響。常用的反爬技術(shù)有：用戶代

理反爬、訪問頻度反爬、網(wǎng)頁結(jié)構(gòu)變換、賬號限制反爬、referer反爬、驗證碼

校驗反爬等等。

現(xiàn)如今，大多數(shù)依賴數(shù)據(jù)支撐的應(yīng)用場景都離不開網(wǎng)絡(luò)爬蟲，包括搜索引

擎、輿情分析與監(jiān)測、聚合平臺、出行類軟件等。我們要遵守robots協(xié)議，遵

循這個協(xié)議進(jìn)行的網(wǎng)絡(luò)爬蟲是合理合法的。通過robots協(xié)議，我們能清楚的了

解到搜索引擎哪些網(wǎng)頁是可以爬的，哪些是不能爬的。這項爬蟲協(xié)議在業(yè)界中

也被稱作是“君子協(xié)定”。我們必須約束自己的行為，嚴(yán)格遵循網(wǎng)站所有者的

規(guī)定，否則會收到相應(yīng)的處罰。

2.3.2文件存取技術(shù)

數(shù)據(jù)的存儲方式是多種多樣的，常用的進(jìn)行文本存儲技術(shù)有txt文件存儲、

csv文件存儲、json文件存儲等，以及MySQL關(guān)系型數(shù)據(jù)和Mongodb非關(guān)系型

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

數(shù)據(jù)庫等。這幾種文件存取方式各有各的優(yōu)點，json文件存儲以鍵-值對的方式

來表示數(shù)據(jù)，其結(jié)構(gòu)簡潔、結(jié)構(gòu)化程度高。這種數(shù)據(jù)交換格式是輕量級的，容

易進(jìn)行閱讀與編寫；txt文件存儲簡單，兼容任何平臺，對數(shù)據(jù)檢索和數(shù)據(jù)結(jié)構(gòu)

要求不高，需要使用方便的話，可用txt文本存儲；csv文件存儲以純文本的形

式來存儲表格數(shù)據(jù)，它是一串字符序列，通常用逗號和制表符來分隔字段。本

項目主要使用的數(shù)據(jù)存儲技術(shù)為csv文件存儲和mysql數(shù)據(jù)庫存儲，CSV文件存

儲相對于Excel文件存儲來說要簡單得多，XLS是一種包含文本、數(shù)值、公式和

格式的電子數(shù)據(jù)格式，而csv則沒有這種格式，它就是由特殊字符分割的文本，

結(jié)構(gòu)簡潔明了并且易于存儲。MySQL關(guān)聯(lián)數(shù)據(jù)庫具有快速、小巧、高效的命令執(zhí)

行功能；低成本，開放源代碼，提供免費的版本，極大地減少了用戶的花費；

且MySQL具有很好的可移植性，可以在不同的系統(tǒng)平臺上運行。

2.3.3可視化技術(shù)

在大數(shù)據(jù)時代，由于數(shù)據(jù)量的激增，對數(shù)據(jù)的采集和分析要求越來越高，

因此，數(shù)據(jù)可視化技術(shù)應(yīng)運而生。數(shù)據(jù)可視化技術(shù)是指把數(shù)據(jù)以視覺對象的形

式進(jìn)行編碼，如點、線、色、位關(guān)系、動態(tài)效果等。它是以一種直觀、有效的

方式向使用者傳達(dá)信息，利用視覺的感知能力對數(shù)據(jù)進(jìn)行交互的可視化展示，

讓人們能迅速從繪圖中獲取數(shù)據(jù)信息。

數(shù)據(jù)可視化包括三大分支：科學(xué)可視化、信息可視化以及可視分析。進(jìn)行

數(shù)據(jù)可視化的最終目的在于了解數(shù)據(jù)中所包含的現(xiàn)象與法則，使讀者能夠“一

眼看懂”所要傳達(dá)的內(nèi)容。利用“可視化”技術(shù)，能夠?qū)?fù)雜的數(shù)據(jù)以圖解的

形式高效地傳達(dá)，準(zhǔn)確、高效、全面地傳達(dá)某些信息，并有助于發(fā)現(xiàn)某些規(guī)則

和特性，并發(fā)掘其背后的價值。

本項目中將爬取到的數(shù)據(jù)清洗后用簡單的可視化手段去實現(xiàn)數(shù)據(jù)可視化，

具體方法就是用python第三方庫matpoltlab去進(jìn)行數(shù)據(jù)可視化，matplotlab

中包含了許多庫，分別對應(yīng)餅圖、條形圖、詞云圖、折線圖等圖形，可以很好

的將數(shù)據(jù)進(jìn)行圖形展示，可視化圖形呈現(xiàn)后我們能夠清晰看出數(shù)據(jù)的動態(tài)變化

并得出相應(yīng)的結(jié)論。

3數(shù)據(jù)采集

3.1采集頁面分析

首先打開谷歌瀏覽器，打開百度頁面，在搜索框中輸入關(guān)鍵字“人民網(wǎng)”，

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

然后在人民網(wǎng)的搜索欄中輸入關(guān)鍵字“科技”。觀察圖3-1，其中URL為：

/s?keyword=%E7%A7%91%E6%8A%80&st=0&_=16767825

10298。點擊頁面最下方第二頁的按鈕，同時觀察URL，觀察到URL并沒有變化。

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具，選擇開發(fā)者工具中的網(wǎng)絡(luò)版面，刷新頁面，如圖3-2。

利用全局搜索工具定位所需數(shù)據(jù)位置，點擊開發(fā)者工具上面的Headers字段，

發(fā)現(xiàn)這個是一個POST請求。

圖3-2開發(fā)者工具

因為此網(wǎng)站的請求方法為POST，我們需要尋找它的請求參數(shù)往下翻找，在

Payload找到了請求參數(shù)RequestPayload。如圖3-3。

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-3RequestPayload

3.2字段分析

首先來到網(wǎng)站的初始頁面打開網(wǎng)頁的選擇欄，然后定位到我們所需要的數(shù)

據(jù)所在的位置，然后跳出開發(fā)者工具頁面刷新一下頁面再進(jìn)入，點擊開發(fā)者工

具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕，如圖3-4，可以看到我們需要的所有的數(shù)

據(jù)信息都是呈現(xiàn)json格式存在在此頁面，因為我們還得知他是post請求響應(yīng)

的網(wǎng)站，所以我們可以通過Requests方法中的post方法來獲得響應(yīng)的數(shù)據(jù)，

最原始的數(shù)據(jù)格式是呈現(xiàn)json格式的我們可以使用json庫進(jìn)行解析然后依次

寫入到csv格式的文件當(dāng)中。我們需要的字段有文章id、標(biāo)題、發(fā)表時間、來

源、文章內(nèi)容、鏈接、編輯以及版面。

圖3-4分析數(shù)據(jù)類型頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

3.3編程實現(xiàn)

導(dǎo)入所需庫，如圖3-5。

圖3-5導(dǎo)入所需庫頁面

設(shè)置請求頭，偽裝成瀏覽器訪問服務(wù)器，如圖3-6。

圖3-6請求頭內(nèi)容頁面

代碼實現(xiàn)如下：

#導(dǎo)入所需庫

importrequests

frombs4importBeautifulSoup

importpandasaspd

importos

importtime

importjson

fromurllib.parseimportquote

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

#發(fā)起請求

deff_url(url,gjz,page):

#對referer進(jìn)行編碼

ts=int(time.time())

referer=f'/s?keyword={quote(gjz)}&st=0&_={ts}'

#請求頭

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/98.0.4758.102Safari/537.36',

'Content-Type':'application/json',

'Accept':'application/json,text/plain,*/*',

'Referer':referer,

}

#請求的參數(shù)

payload={

"endTime":0,

"hashContent":True,

"hasTitle":True,

"isFuzzy":True,

"key":gjz,

"limit":10,

"page":page,

"sortType":2,

"startTime":0,

"type":0

}

#用post發(fā)起請求

res=requests.post(url,headers=headers,data=json.dumps(payload))

returnres.json()

##把json數(shù)據(jù)進(jìn)行解析

defjx_Json(jsonData):

records=jsonData["data"]["records"];

foriinrecords:

pid=i['id']

originName=i['originName']

belongsName=BeautifulSoup(i['belongsName']).text

editor=i['editor']

content=BeautifulSoup(i['content']).text

displayTime=time.strftime('%Y-%m-%d',time.localtime(i['displayTime']/1000))

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

title=BeautifulSoup(i['title'],"html.parser").text

url=i['url']

yield[[pid,title,displayTime,originName,content,url,editor,belongsName]]

#將數(shù)據(jù)存入csv文件

defsaveFile(path,filename,data):

#如果路徑不存在，就創(chuàng)建路徑

ifnotos.path.exists(path):

os.makedirs(path)

#保存數(shù)據(jù)

dataframe=pd.DataFrame(data)

dataframe.to_csv(path+filename+".csv",encoding='utf_8_sig',mode='a',index=False,

sep=',',header=False)

#主函數(shù)

if__name__=="__main__":

#設(shè)置初始頁，終止頁，關(guān)鍵詞

start=1

end=80

gjz='科技'

#保存表頭行

headline=[["文章id","標(biāo)題","發(fā)表時間","來源","文章內(nèi)容","鏈接","編輯","版面"]]

saveFile("E:\畢業(yè)設(shè)計/data/",gjz,headline)

#爬取數(shù)據(jù)

forpageinrange(start,end+1):

url='/search-platform/front/search'

html=f_url(url,gjz,page)

#print(html)

fordatainjx_Json(html):

saveFile("E:\畢業(yè)設(shè)計/data/",gjz,data)

#print(data)

print("第{}頁爬取完成".format(page))

#爬蟲完成提示信息

print("爬蟲執(zhí)行完畢！")

4數(shù)據(jù)清洗與處理

大數(shù)據(jù)時代來臨，數(shù)據(jù)清洗與處理技術(shù)變得越來越重要。對數(shù)據(jù)處理的主

要目的是從繁多的、錯綜復(fù)雜的、讓人難以理解的數(shù)據(jù)中選取并分析出對于某

些特殊要求下對人們來說是有使用價值、有實際意義的數(shù)據(jù)。數(shù)據(jù)清洗也就是

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

將采集到的不完整的數(shù)據(jù)進(jìn)行清洗，包括處理無效數(shù)據(jù)、缺失數(shù)據(jù)以及對數(shù)據(jù)

一致性的檢查，從而提高數(shù)據(jù)準(zhǔn)確性。本次項目中我們需要將爬取的數(shù)據(jù)和網(wǎng)

頁原數(shù)據(jù)進(jìn)行比對，并且檢查是否出現(xiàn)空值、重復(fù)值和數(shù)據(jù)的位置是否正確。

根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)行不同的處理。

4.1數(shù)據(jù)清洗

數(shù)據(jù)清洗就是將不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)以及重復(fù)的數(shù)據(jù)進(jìn)行刪除或者

其他處理。數(shù)據(jù)預(yù)處理的第一步就是進(jìn)行數(shù)據(jù)清洗，如果數(shù)據(jù)清洗不到位，就

有可能出現(xiàn)數(shù)據(jù)分析錯誤。

下面是數(shù)據(jù)清洗前的數(shù)據(jù)，如圖4-1。

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

經(jīng)過比對和檢查，發(fā)現(xiàn)原始數(shù)據(jù)中的“來源”一列存在空值，所以根據(jù)需

求將數(shù)據(jù)存在空值的列進(jìn)行刪除處理。因此我們只需保留需要的數(shù)據(jù)，然后整

理為原網(wǎng)頁格式存入科技新聞數(shù)據(jù).csv文件中，為后續(xù)統(tǒng)計分析、可視化使用。

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存有很許多方式，在Python中常見的方法有直接用文本文件

（txt）、csv文件、excel文件、json文件等，但是這些方法能夠保存的數(shù)據(jù)

量都比較小。如果需要儲存大量數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫，數(shù)據(jù)庫又

可分成關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫主要有MySQL、Oracle、

SQLSever等，Mongodb、Redis是非關(guān)系型數(shù)據(jù)庫。這個項目使用了Csv和

MySQL，這是因為CSV文件的存儲方法比較簡單，可以降低數(shù)據(jù)的存儲能力，方

便了數(shù)據(jù)的傳送，也方便了客戶端的數(shù)據(jù)處理；MySQL數(shù)據(jù)庫存儲處理速度快和

花費成本低。將爬取的原始數(shù)據(jù)存入csv文件，如圖4-3：

圖4-3原始數(shù)據(jù)存儲為csv頁面

將清洗后的數(shù)據(jù)存入csv文件，如圖4-4：

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-4清洗后數(shù)據(jù)存儲為csv頁面

將清洗并處理完成后的數(shù)據(jù)存入MySQL數(shù)據(jù)庫，如圖4-5：

圖4-5數(shù)據(jù)存儲MySQL頁面

4.3編程實現(xiàn)

讀取爬取后的原始數(shù)據(jù)，顯示前十行數(shù)據(jù)，如圖4-6：

圖4-6讀取原始數(shù)據(jù)頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

去除原始數(shù)據(jù)中的空值，如圖4-7：

圖4-7去除空數(shù)據(jù)頁面

去除原始數(shù)據(jù)重復(fù)值代碼，在執(zhí)行完成后發(fā)現(xiàn)原始數(shù)據(jù)中不存在重復(fù)值，

如圖4-8：

圖4-8去除重復(fù)數(shù)據(jù)頁面

驗證存入數(shù)據(jù)是否正確，如圖4-9和4-10：

圖4-9查看csv文件前五條數(shù)據(jù)頁面

圖4-10查看MySQL數(shù)據(jù)庫前五條數(shù)據(jù)頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準(zhǔn)備

分析新聞編輯發(fā)表的新聞條數(shù)。導(dǎo)入所需庫，如圖5-1。打開爬取并清洗完

的科技新聞數(shù)據(jù).csv文件，對每個編輯所發(fā)表的新聞數(shù)據(jù)進(jìn)行統(tǒng)計，如圖5-2。

5-3圖中是統(tǒng)計完成后的數(shù)據(jù)。

圖5-1導(dǎo)入所需庫頁面

圖5-2數(shù)據(jù)統(tǒng)計代碼頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-3數(shù)據(jù)統(tǒng)計結(jié)果頁面

分析新聞版面關(guān)鍵字出現(xiàn)次數(shù)。導(dǎo)入所需庫，如圖5-4。打開爬取并清洗完

的科技新聞數(shù)據(jù).csv文件，對每個版面出現(xiàn)的關(guān)鍵字進(jìn)行統(tǒng)計，如圖5-5。5-6

圖中是統(tǒng)計完成后的數(shù)據(jù)。

圖5-4導(dǎo)入所需庫頁面

圖5-5數(shù)據(jù)統(tǒng)計代碼頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-6數(shù)據(jù)統(tǒng)計結(jié)果頁面

分析新聞發(fā)表時間。導(dǎo)入所需庫，如圖5-7。打開爬取并清洗完的科技新聞

數(shù)據(jù).csv文件，對每個新聞發(fā)表時間的新聞數(shù)據(jù)進(jìn)行統(tǒng)計，如圖5-8。5-9圖中

是統(tǒng)計完成后的數(shù)據(jù)。

圖5-7導(dǎo)入所需庫頁面

圖5-8數(shù)據(jù)統(tǒng)計代碼頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-9數(shù)據(jù)統(tǒng)計結(jié)果頁面

分析新聞來源。導(dǎo)入所需庫，如圖5-10。打開爬取并清洗完的科技新聞數(shù)

據(jù).csv文件，對每個新聞來源的新聞數(shù)據(jù)進(jìn)行統(tǒng)計，如圖5-11。5-12圖中是統(tǒng)

計完成后的數(shù)據(jù)。

圖5-10導(dǎo)入所需庫頁面

圖5-11數(shù)據(jù)統(tǒng)計代碼頁面

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-12數(shù)據(jù)統(tǒng)計結(jié)果頁面

5.2數(shù)據(jù)展示

5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計

圖5-13各新聞編輯的新聞條數(shù)柱形圖

由圖5-13柱形圖可以對每個新聞編輯所發(fā)表的新聞條數(shù)進(jìn)行匯總。將在

csv文件的編輯字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計發(fā)表新聞的次數(shù)，最后按照統(tǒng)計

完的數(shù)據(jù)繪制柱形圖。如圖5-13中可以看出趙竹青發(fā)表的文章最多，其次就是

王子峰和張雪冬。由此可以看出他們?nèi)说臉I(yè)務(wù)能力非常強(qiáng)，對新聞信息資源

整合與分析有自己的方法。

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

新聞編輯在新聞流程中是十分重要的一個環(huán)節(jié)。這一環(huán)節(jié)是否成功就決定

了新聞傳播的成功與否。對于新聞編輯，正確地整合信息材料和有效地確定新

聞信息的價值是十分必要的。如果缺乏對信息進(jìn)行科學(xué)、理性的分析處理，新

聞的傳播就會變得雜亂無章，難以全面地傳遞社會正能量。甚至?xí)勾蟊妼@

篇報道的初衷有不同的認(rèn)識。而且這個認(rèn)識可能是對的，可能是錯的。最終導(dǎo)

致新聞無法達(dá)到對社會的積極的引導(dǎo)作用。這些新聞編輯發(fā)表的文章多，可以

看出他們的思想積極向上且符合社會發(fā)展趨勢且文學(xué)功底深厚，他們對信息的

整合修改能力強(qiáng)，這對他們個人的職業(yè)發(fā)展和前景有非常大的作用。同時，一

個好的編輯對社會輿論的引導(dǎo)起著非常重要的作用，一個新聞網(wǎng)站擁有優(yōu)秀的

編輯會傳播更多有價值有意義的新聞。

5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計

圖5-14新聞版面關(guān)鍵字詞云圖

由圖5-14詞云圖可以對版面的關(guān)鍵字進(jìn)行統(tǒng)計與分析。將在將在csv文件

的版面字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計每個關(guān)鍵字出現(xiàn)的頻率，最后按照統(tǒng)計

完的數(shù)據(jù)繪制詞云圖。從圖5-14中可以看出來經(jīng)濟(jì)與科技兩個關(guān)鍵字出現(xiàn)的次

數(shù)最多，其次就滾動新聞和安徽新聞。由此可以看出在新聞行業(yè)經(jīng)濟(jì)與科技相

關(guān)的新聞出現(xiàn)次數(shù)非常多。

國民經(jīng)濟(jì)的發(fā)展離不開經(jīng)濟(jì)與科技，對人民網(wǎng)的版面數(shù)據(jù)進(jìn)行分析時發(fā)現(xiàn)

提到經(jīng)濟(jì)與科技是最多的。新聞是人們認(rèn)識外部世界的一個窗口，它對一個國

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

家的經(jīng)濟(jì)和社會發(fā)展起到舉足輕重的作用?？萍夹畔⒌拈_發(fā)、利用，是現(xiàn)代社

會進(jìn)步的重要動力?？茖W(xué)技術(shù)新聞能夠迅速地、廣泛地傳播科學(xué)知識，對人類

社會的發(fā)展具有越來越大的影響。由圖5-14發(fā)現(xiàn)安徽新聞與內(nèi)蒙古頻道出現(xiàn)的

頻率也很高，說明在這兩個地區(qū)關(guān)于“科技”的新聞報道很多，我們在日常生

活中也可以多關(guān)注這兩個地區(qū)的科技新聞報道和發(fā)展?fàn)顩r。此外，由圖5-14還

可以發(fā)現(xiàn)滾動新聞出現(xiàn)的次數(shù)很多，滾動新聞就是新聞是不斷更新的，具有全

市性發(fā)布，全時性知曉，不受時間和空間的限制進(jìn)行滾動新聞報道，隨時發(fā)布

更有價值的新聞，由此說明新聞對人民收集和獲取目前的最新消息有著很大的

作用，對人民的生產(chǎn)生活起著非常大的影響。

5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計和分析

圖5-15新聞發(fā)表時間折線圖

由圖5-15折線圖可以對新聞發(fā)表時間進(jìn)行統(tǒng)計與分析。從圖5-15中可以

得知2022年9月20日、2023年2月10日以及2023年2月1月這三個時間節(jié)

點發(fā)表的新聞最多。

由5-15圖，根據(jù)這個圖的數(shù)據(jù)可以發(fā)現(xiàn)新聞發(fā)表時間的新聞條數(shù)波動很大。

在2022年9月20日這個發(fā)表時間新聞發(fā)表數(shù)量達(dá)到了最高點。當(dāng)時正處于一

年中下旬，是一年之中新聞集中的時間。同時在這一天，有一個關(guān)于科技新聞

的大事，由工信部、科技部、商務(wù)部和安徽省人民政府聯(lián)合主辦的“2022世界

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

制造業(yè)大會”在合肥舉行。這一天有非常多關(guān)于科技興農(nóng)的新聞發(fā)表，我們可

以發(fā)現(xiàn)當(dāng)一個熱點出現(xiàn)就會有許多新聞對其報道，這就是新聞的及時性與真實

性。通過新聞可以讓農(nóng)業(yè)從業(yè)者了解科技興農(nóng)的最新消息，從而可以讓從業(yè)者

們提升農(nóng)業(yè)生產(chǎn)方式，是農(nóng)業(yè)發(fā)展更能順應(yīng)自然、保護(hù)自然，優(yōu)化生態(tài)安全，

強(qiáng)化資源節(jié)約和利用。對每個新聞的發(fā)表時間進(jìn)行比較，發(fā)布在人民網(wǎng)上的文

章，根據(jù)人民網(wǎng)統(tǒng)計的文章發(fā)布時間，我們可以很明顯的看到排名第一的發(fā)表

時間和排名靠后的發(fā)表時間數(shù)據(jù)相差很大。而且我們可以發(fā)現(xiàn)，在周一至周五

這五天里面，文章的平均發(fā)表時間是最高。此外我們還可以在新年之初剛剛返

回崗位所發(fā)表的新聞較少，這也是情理之中的。

5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計

圖5-16新聞來源餅圖

由圖5-16餅圖我們可以對新聞來源進(jìn)行統(tǒng)計與發(fā)現(xiàn)。我們從圖5-16餅圖

可以看出光明日報、人民網(wǎng)（安徽頻道）和人民網(wǎng)（人民日報海外版）占據(jù)了

新聞來源的絕大部分。此網(wǎng)站為人民網(wǎng)的官方網(wǎng)站，所以人民網(wǎng)自己的新聞?wù)?/p>

據(jù)了很大一部分，人民網(wǎng)（安徽頻道）和人民網(wǎng)（人民日報海外版）相加起來

占據(jù)了44.1%，差不多是整個數(shù)據(jù)的一半。

人民網(wǎng)是人民日報打造的以新聞為主體的大型在線交流平臺，同時也是國

際互聯(lián)網(wǎng)上最大的綜合性網(wǎng)站。人民網(wǎng)的業(yè)務(wù)范圍包括：信息收集和發(fā)布、互

聯(lián)網(wǎng)廣告業(yè)、信息服務(wù)業(yè)等等。所以很大一部分新聞來源于都人民網(wǎng)。光明日

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

報也是新聞來源的一大部分，占了數(shù)據(jù)的36.2%，主要是一個宣傳黨在科學(xué)、教

育文化、理論、學(xué)術(shù)方面的方針政策的全國性綜合報紙，與科技發(fā)展緊密相關(guān)。

此外，以人民網(wǎng)以“報道全球、傳播中國”為己

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示

文檔簡介

溫馨提示

最新文檔

評論

基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔