版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言1
1.1項(xiàng)目背景1
1.2開發(fā)環(huán)境與工具2
1.2.1Python簡介2
1.2.2MySQL簡介2
1.2.3Jupyternotebook簡介3
1.2.4Python第三方庫簡介3
2需求分析4
2.1可行性需求分析4
2.2采集目標(biāo)功能分析5
2.3關(guān)鍵技術(shù)分析5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5
2.3.2文件存取技術(shù)6
2.3.3可視化技術(shù)7
3數(shù)據(jù)采集7
3.1采集頁面分析7
3.2字段分析9
3.3編程實(shí)現(xiàn)10
4數(shù)據(jù)清洗與處理12
4.1數(shù)據(jù)清洗13
4.2數(shù)據(jù)儲存14
4.3編程實(shí)現(xiàn)15
5數(shù)據(jù)統(tǒng)計(jì)與分析17
5.1數(shù)據(jù)準(zhǔn)備17
5.2數(shù)據(jù)展示21
5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計(jì)21
5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計(jì)22
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)和分析23
5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計(jì)24
5.3綜述25
6小結(jié)25
參考資料27
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
基于Python的人民網(wǎng)新聞類網(wǎng)站數(shù)據(jù)分析與展示
1引言
隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)時代也將迅速到來。大數(shù)據(jù)時代的海量
信息,打破了時間與空間的壁壘。大數(shù)據(jù)主要是指在一定時間內(nèi)常規(guī)軟件工具
無法捕捉、管理和處理其內(nèi)容的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)指的是從各種類型的數(shù)
據(jù)中快速提取有價值信息的能力。盡管大數(shù)據(jù)在普通人的觀點(diǎn)中認(rèn)為它與自己
相去甚遠(yuǎn),但它與每個個體息息相關(guān),我們每個人都是大數(shù)據(jù)的提供者和受益
者。隨著越來越多的社會資源網(wǎng)絡(luò)化、數(shù)字化,大數(shù)據(jù)所能承載的價值將不斷
被提及和提升,大數(shù)據(jù)的應(yīng)用范圍也將不斷擴(kuò)大。因此,在未來網(wǎng)絡(luò)時代,大
數(shù)據(jù)不僅可以提供價值,而且還能夠?qū)崿F(xiàn)價值的創(chuàng)造。
1.1項(xiàng)目背景
人類是數(shù)據(jù)的創(chuàng)造者和使用者,從繩結(jié)記事起它就慢慢形成了。隨著計(jì)算
機(jī)和互聯(lián)網(wǎng)的普及,人類產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸性的增長。人類收集、存儲
和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)應(yīng)用已經(jīng)滲透到我們生活的每一個角落。隨
著大數(shù)據(jù)和人工智能的開放,我們的生產(chǎn)和生活方式發(fā)生了深遠(yuǎn)的變化。農(nóng)耕
代表著古老的文明,工業(yè)代表現(xiàn)代文明,大數(shù)據(jù)也將代表和促進(jìn)一種新的文明
形式,人類正以前所未有的速度迎來這個新時代。
顯而易見,大數(shù)據(jù)時代為人們帶來了極大的便利性和快捷性。于個人而言,
足不出戶就能知道世界大事,動動手指就能完成日常所需物品的采購,遠(yuǎn)在天
邊的親朋可以隨時相見。對社會而言,大量的數(shù)據(jù)信息可以有效地促進(jìn)社會的
發(fā)展和進(jìn)步,例如在扶貧、醫(yī)療、慈善等方面的貢獻(xiàn)顯著;對國家而言,大數(shù)
據(jù)有力地支撐政府工作的開展,豐富的信息提升了辦事效率。由此看來,大數(shù)
據(jù)無論是對于個人、社會還是國家,都有不可否認(rèn)的重要作用。
隨著新聞媒介的不斷豐富和發(fā)展,信息傳播的海量化和碎片化,迫切需要
利用大數(shù)據(jù)技術(shù)對新聞數(shù)據(jù)進(jìn)行分析和提取,從而推動數(shù)據(jù)新聞的發(fā)展已經(jīng)成
為不可避免的趨勢。對于人民網(wǎng)這種大型的新聞類網(wǎng)站來說,用數(shù)據(jù)分析以及
數(shù)據(jù)可視化技術(shù)對人民網(wǎng)的以“科技”為關(guān)鍵詞新聞進(jìn)行分析,可以增強(qiáng)內(nèi)容
的說服力、挖掘新聞的主題以及了解新聞所屬的來源等信息,從而進(jìn)一步的了
解哪些編輯的新聞發(fā)表文章較多,哪些新聞報(bào)刊發(fā)表業(yè)務(wù)能力更強(qiáng),以及哪些
新聞關(guān)鍵字在新聞版面出現(xiàn)次數(shù)頻繁。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
我的畢業(yè)設(shè)計(jì)就是針對以“科技”為關(guān)鍵詞新聞進(jìn)行采集與分析,爬取人
民網(wǎng)以“科技”為關(guān)鍵詞的新聞數(shù)據(jù),對其進(jìn)行處理、分析以及可視化。繁多
且復(fù)雜的數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理與分析后,需要的數(shù)據(jù)能夠清晰展現(xiàn)出來。從人
民網(wǎng)采集到的有用的數(shù)據(jù)信息,能夠更好的了解大數(shù)據(jù)對于新聞網(wǎng)站數(shù)據(jù)分析
的強(qiáng)大功能。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python是荷蘭的吉多·范羅蘇姆在20世紀(jì)90年代早期開發(fā)的一種解釋型
編程語言。Python的誕生很有戲劇性,據(jù)吉多·范羅蘇姆自述,Python語言是
他在圣誕節(jié)期間為了打發(fā)時間而開發(fā)的。Python語言是在ABC語言的基礎(chǔ)上發(fā)
展而來,為了普及應(yīng)用吉多·范羅蘇姆在設(shè)計(jì)之初就決定將其開源。
Python是一種面向?qū)ο?、解釋性、通用性和開源性的腳本編程語言。Python
是免費(fèi)的且語法非常簡單明了,即便是非專業(yè)的初學(xué)者,也很容易能夠上手。
與傳統(tǒng)的C/C++、Java等語言相比,Python對新手來說學(xué)習(xí)成本低、學(xué)習(xí)難度
小且花費(fèi)時間少。
隨著計(jì)算機(jī)技術(shù)的不斷更迭,大數(shù)據(jù)與人工智能的興起使得Python也越來
越受歡迎。在游戲開發(fā)、web開發(fā)、網(wǎng)絡(luò)爬蟲、自動化運(yùn)維、數(shù)據(jù)分析和人工智
能等領(lǐng)域都有Python的身影。Python設(shè)計(jì)了各種豐富而強(qiáng)大的庫,例如Python
在科學(xué)計(jì)算方面應(yīng)用得很廣泛的庫有Numpy、Scipy、Matplotlib、Pandas等;
Python在網(wǎng)絡(luò)爬蟲方面應(yīng)用常用的庫有Request、Urllib、Selenium等等。這
些庫的存在使人們在使用Python時更加的便捷。
現(xiàn)今,Python已經(jīng)扎根在我們?nèi)粘I畹姆椒矫婷?。例如:IT、醫(yī)療、金
融、財(cái)會、電商等等。Python作為高級編程語言之一,以及被越來越多的人所
學(xué)習(xí)。我們大數(shù)據(jù)專業(yè)學(xué)生所學(xué)與所用的,是利用python高效率的進(jìn)行數(shù)據(jù)采
集、數(shù)據(jù)分析以及清晰的數(shù)據(jù)可視化。
1.2.2MySQL簡介
MySQL是瑞典MySQLAB公司開發(fā)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),是Oracle旗下
的產(chǎn)品。MySQL是當(dāng)今最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,MySQL不是將所有
數(shù)據(jù)存儲在一個倉庫中,而是將數(shù)據(jù)保存在單獨(dú)的表中,大大提高了處理數(shù)據(jù)
的速度和靈活性。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
MySQL所使用的SQL語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。MySQL支
持Linux、MacOS、Windows等多種操作系統(tǒng)。MySQL提供了多種編程語言的
API,包括C、C++、Python、Java、PHP和.NET等。MySQL還支持多線程,充分
利用CPU的資源,并對SQL查詢算法進(jìn)行優(yōu)化,有效提高了查詢速度。MySQL因
其體積小、速度快、成本低和開源等特點(diǎn),通常被企業(yè)選擇進(jìn)行小型或中型項(xiàng)
目開發(fā)。
1.2.3Jupyternotebook簡介
Jupyternotebook起源于2014年ipython計(jì)劃,已逐步發(fā)展成為一種支持
跨越各種編程語言進(jìn)行交互式數(shù)據(jù)科學(xué)計(jì)算。它綜合了部分解釋性文本,數(shù)學(xué),
計(jì)算等內(nèi)容,目的是開發(fā)出跨越數(shù)十種編程語言,開放標(biāo)準(zhǔn)以及為交互式計(jì)算
提供服務(wù)的開源軟件。
安裝Jupyternotebook有兩個途徑。一種是安裝Python后安裝Jupyter
Noterbook。另一方法則可直接用Anaconda進(jìn)行安裝,安裝完成后Anaconda會
預(yù)設(shè)安裝JupyterNoterbook。
Jupyternotebook被用于數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建模、數(shù)據(jù)可
視化和機(jī)器學(xué)習(xí)。由于與40中編程語言兼容,其共享筆記,交互式輸出和大數(shù)
據(jù)整合等功能得到了廣泛應(yīng)用。
1.2.4Python第三方庫簡介
Requests:是一個非常實(shí)用的HTTP客戶端庫,Python語言的第三方的庫,
使用前需要先進(jìn)行下載,爬蟲及測試服務(wù)器在對數(shù)據(jù)進(jìn)行應(yīng)答時常用,主要用
于發(fā)送HTTP請求,使用時相較于urllib簡潔,因此被廣泛使用。
Os:是一個操作系統(tǒng)接口功能模塊,提供一些方便使用接口相關(guān)功能的函
數(shù)、變量和方法等。當(dāng)需要對操作系統(tǒng)進(jìn)行修改或更改系統(tǒng)設(shè)置的時候,也可
以將Os作為一種手段來執(zhí)行操作。
Pandas:是一個Python數(shù)據(jù)處理庫,它擁有大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模
型,為處理大型數(shù)據(jù)集提供了有效的工具。Pandas提供了多種便捷的函數(shù)和方
法,可以快速處理數(shù)據(jù)。因此,它能夠以較高的效率對數(shù)據(jù)進(jìn)行導(dǎo)入、清理、
處理、統(tǒng)計(jì)和輸出。
Numpy:是Python的一個開源的科學(xué)計(jì)算擴(kuò)展庫,支持大量的N維數(shù)組與
矩陣的運(yùn)算,對于數(shù)組運(yùn)算提供了許多的數(shù)學(xué)函數(shù)庫。它主要用于科學(xué)計(jì)算與
數(shù)據(jù)分析。相同的任務(wù),使用numpy比直接用python的基本數(shù)據(jù)結(jié)構(gòu)更加簡單
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
高效。
Matplotlib:是python進(jìn)行數(shù)據(jù)可視化的一個第三方庫,由大量的可視化
類構(gòu)成,使用它可以輕松的繪畫出所需的圖形。利用matplotlib.pyplot命令
子庫可以繪制各種各樣的可視化圖形,用戶可通過調(diào)用pyplot使用Matplotlib
中所有可視化的類。
BeautifulSoup:一個很簡單的Python數(shù)據(jù)提取工具。它提供了兩個主要
功能:一是解析HTML和XML文件,并提取其中的數(shù)據(jù);二是通過獲取到指定標(biāo)
簽的對應(yīng)屬性,從而獲得我們所需要的信息。
Json:是Python的一個標(biāo)準(zhǔn)庫,類似于字典以鍵-值對存儲數(shù)據(jù),它存儲
方便易于解析,因此是一種廣泛使用的數(shù)據(jù)格式。
Wordcloud:是python中繪制詞云圖的庫。wordcloud庫將詞云視為
worldCloud對象,它可以按照數(shù)據(jù)中單詞的出現(xiàn)頻率等參數(shù)來畫詞云,并且可
以設(shè)置形狀、大小和顏色。
Pyecharts:一個Python類庫,用于生成Echarts圖表,可以把Python中
的數(shù)據(jù)輕松地生成圖形。用這個庫可以創(chuàng)建一個獨(dú)立的網(wǎng)頁,也可以把它集成
到Flask,Django。
Scipy:是一個python開源的數(shù)學(xué)計(jì)算庫,主要應(yīng)用于數(shù)學(xué)、科學(xué)以及工
程領(lǐng)域。
Jieba:是Python中進(jìn)行中文分詞的第三方庫,它是通過中文詞庫來識別
漢字間的相關(guān)概念。它把漢字中有較大機(jī)率的構(gòu)成短語的詞語,構(gòu)成了分詞的
結(jié)果。除了分詞,使用者也可以加入定制的短語。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
Python是面向?qū)ο蟮某鯇W(xué)者容易理解的計(jì)算機(jī)編程語言,本次項(xiàng)目中使用
Python編寫程序來實(shí)現(xiàn)人民網(wǎng)數(shù)據(jù)爬取,數(shù)據(jù)清洗和預(yù)處理,數(shù)據(jù)可視化。在
數(shù)據(jù)獲取的過程中遇到一些小問題。這些數(shù)據(jù)沒有被直接放入html頁面,而是
通過其它的數(shù)據(jù)界面,進(jìn)行動態(tài)的加載。這個動態(tài)裝載數(shù)據(jù)的機(jī)制叫做Ajax,
它要求的是json格式的數(shù)據(jù),在python中通過json庫進(jìn)行分析,從而獲得頁
面數(shù)據(jù)的返回值。然后把采集到的原始數(shù)據(jù)暫時以csv格式儲存起來,在后續(xù)
的數(shù)據(jù)數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化中再進(jìn)行使用用。最后我們會將準(zhǔn)確的數(shù)據(jù)存
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
入MySQL數(shù)據(jù)庫中做持久化儲存。
上述技術(shù)此項(xiàng)目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟一一
實(shí)現(xiàn),以保證數(shù)據(jù)的準(zhǔn)確性和安全性。
2、項(xiàng)目可行性
隨著新聞行業(yè)的不斷發(fā)展與進(jìn)步,新聞的更新速度越來越快,新聞的來源
越來越多元化。數(shù)據(jù)已經(jīng)成為了新聞報(bào)道的中心,而以數(shù)據(jù)來講述新聞是其最
大的特色。受眾對于更有深度的新聞內(nèi)容的需要,使新聞工作者在收集、篩選
數(shù)據(jù)、呈現(xiàn)數(shù)據(jù)背后的理由和事實(shí)時,變得越來越有價值。數(shù)據(jù)不再是抽象的
佐證材料,而是擁有自己的獨(dú)立內(nèi)涵和對讀者來說多樣解讀的可能性。
此次項(xiàng)目通過采集人民網(wǎng)內(nèi)的數(shù)據(jù),來分析以“科技”為關(guān)鍵字的新聞信
息。我們也將從新聞發(fā)表實(shí)際、新聞版面關(guān)鍵字、新聞來源等方面對其進(jìn)行深
入分析,得出有價值的信息,將其進(jìn)行數(shù)據(jù)可視化最后根據(jù)結(jié)果得出結(jié)論。
2.2采集目標(biāo)功能分析
我此次項(xiàng)目爬取的數(shù)據(jù)集的來源是人民網(wǎng)新聞網(wǎng)站,通過python爬取人民
網(wǎng)以“科技”為關(guān)鍵字的新聞信息。本次我爬取了人民網(wǎng)總計(jì)80頁的數(shù)據(jù),在
數(shù)據(jù)清洗后還有734條記錄,以此來檢查數(shù)據(jù)的準(zhǔn)確性與完整性,確保爬出來
的數(shù)據(jù)沒有空值、重復(fù)值與錯誤值并且是屬于人民網(wǎng)的新聞信息。
分析人民網(wǎng)網(wǎng)站網(wǎng)頁信息,明確我們需要采集的人民網(wǎng)數(shù)據(jù)參數(shù)有文章id、
標(biāo)題、發(fā)表時間、來源、文章內(nèi)容、鏈接、編輯、版面等數(shù)據(jù),在對原始數(shù)據(jù)
進(jìn)行清洗后會對其數(shù)據(jù)進(jìn)行多個維度的分析。主要目的是了解新聞來源于哪里
以及版面哪些關(guān)鍵字出現(xiàn)較多。例如:從每個編輯的新聞數(shù)量對其進(jìn)行分析,
查看每個編輯發(fā)表的新聞數(shù)量。又或者查看新聞來源于哪一個報(bào)刊,那么我們
就可以根據(jù)來源去統(tǒng)計(jì)每個報(bào)刊的新聞數(shù)量,查看每個報(bào)刊新聞數(shù)量的多少。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
隨著大數(shù)據(jù)時代的來臨,越來越多的數(shù)據(jù)被發(fā)布到網(wǎng)絡(luò)上,這使得網(wǎng)絡(luò)爬
蟲技術(shù)在互聯(lián)網(wǎng)中的地位將越來越重要。互聯(lián)網(wǎng)中存在的數(shù)據(jù)是海量的,如何
自動高效地獲取互聯(lián)網(wǎng)中我們需要的信息并且能夠被我們所用是一個重要的問
題,而爬蟲技術(shù)能夠高效且完美的解決問題。
網(wǎng)絡(luò)爬蟲技術(shù)主要針對于網(wǎng)絡(luò)網(wǎng)頁,又常被稱為網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛或者
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
機(jī)器人,能夠?qū)崿F(xiàn)自動化搜索網(wǎng)絡(luò)中的信息。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎
或其他類似網(wǎng)站,以獲取這些網(wǎng)站的內(nèi)容和檢索方式,或?qū)ζ溥M(jìn)行更新。它們
可以自動獲取所有它們能夠接觸到的頁面內(nèi)容,為了進(jìn)行進(jìn)一步的處理。網(wǎng)絡(luò)
爬蟲從某一頁(常常是首頁)出發(fā),搜索網(wǎng)頁的鏈接地址,讀取其中的內(nèi)容,
找出其它鏈接地址,然后一直循環(huán),直到把網(wǎng)站的所有網(wǎng)頁都訪問完畢。爬蟲
可以分為三個步驟:采集數(shù)據(jù)、處理數(shù)據(jù)和存儲數(shù)據(jù)。爬蟲從一個或多個最初
的URL開始,獲取原始網(wǎng)頁上的鏈接,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面
上提取新的鏈接加入到列表,直至滿足設(shè)定的結(jié)束條件。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)
構(gòu)和實(shí)現(xiàn)技術(shù)可以大致分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲以
及深層網(wǎng)絡(luò)爬蟲幾種類型。在我們實(shí)際應(yīng)用中,網(wǎng)絡(luò)爬蟲一般是將多種爬取技
術(shù)結(jié)合起來,以實(shí)現(xiàn)所需數(shù)據(jù)的收集。
網(wǎng)絡(luò)爬蟲的本質(zhì)是一種自動化技術(shù),它根據(jù)用戶指定的URL地址,可以從
網(wǎng)站上自動獲得信息,并把它儲存在本地文件或數(shù)據(jù)庫中。利用爬蟲可以在網(wǎng)
絡(luò)上實(shí)時地搜集海量的信息、進(jìn)行網(wǎng)絡(luò)爬行、網(wǎng)絡(luò)搜索、更新網(wǎng)絡(luò)信息等高效
率的任務(wù)。網(wǎng)絡(luò)爬蟲技術(shù)是數(shù)據(jù)挖掘和信息抽取的基礎(chǔ),是實(shí)現(xiàn)搜索引擎工作
的核心技術(shù)。利用爬蟲技術(shù)在網(wǎng)上進(jìn)行信息檢索,提取有用的數(shù)據(jù),更新網(wǎng)絡(luò)
信息,模擬人的行為,評估網(wǎng)站質(zhì)量,測試網(wǎng)站可用性等。
所謂的“反爬”,就是針對掃描程序中的“網(wǎng)絡(luò)爬行”環(huán)節(jié),做出一些對
抗策略,以阻止或擾亂爬蟲的正常爬行,間接地達(dá)到防衛(wèi)的目的。爬蟲的存取
速度和目的與普通用戶的存取速度及目的不同,大多數(shù)的爬蟲都會在沒有限制
的情況下,對目標(biāo)應(yīng)用的服務(wù)器造成很大的影響。常用的反爬技術(shù)有:用戶代
理反爬、訪問頻度反爬、網(wǎng)頁結(jié)構(gòu)變換、賬號限制反爬、referer反爬、驗(yàn)證碼
校驗(yàn)反爬等等。
現(xiàn)如今,大多數(shù)依賴數(shù)據(jù)支撐的應(yīng)用場景都離不開網(wǎng)絡(luò)爬蟲,包括搜索引
擎、輿情分析與監(jiān)測、聚合平臺、出行類軟件等。我們要遵守robots協(xié)議,遵
循這個協(xié)議進(jìn)行的網(wǎng)絡(luò)爬蟲是合理合法的。通過robots協(xié)議,我們能清楚的了
解到搜索引擎哪些網(wǎng)頁是可以爬的,哪些是不能爬的。這項(xiàng)爬蟲協(xié)議在業(yè)界中
也被稱作是“君子協(xié)定”。我們必須約束自己的行為,嚴(yán)格遵循網(wǎng)站所有者的
規(guī)定,否則會收到相應(yīng)的處罰。
2.3.2文件存取技術(shù)
數(shù)據(jù)的存儲方式是多種多樣的,常用的進(jìn)行文本存儲技術(shù)有txt文件存儲、
csv文件存儲、json文件存儲等,以及MySQL關(guān)系型數(shù)據(jù)和Mongodb非關(guān)系型
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
數(shù)據(jù)庫等。這幾種文件存取方式各有各的優(yōu)點(diǎn),json文件存儲以鍵-值對的方式
來表示數(shù)據(jù),其結(jié)構(gòu)簡潔、結(jié)構(gòu)化程度高。這種數(shù)據(jù)交換格式是輕量級的,容
易進(jìn)行閱讀與編寫;txt文件存儲簡單,兼容任何平臺,對數(shù)據(jù)檢索和數(shù)據(jù)結(jié)構(gòu)
要求不高,需要使用方便的話,可用txt文本存儲;csv文件存儲以純文本的形
式來存儲表格數(shù)據(jù),它是一串字符序列,通常用逗號和制表符來分隔字段。本
項(xiàng)目主要使用的數(shù)據(jù)存儲技術(shù)為csv文件存儲和mysql數(shù)據(jù)庫存儲,CSV文件存
儲相對于Excel文件存儲來說要簡單得多,XLS是一種包含文本、數(shù)值、公式和
格式的電子數(shù)據(jù)格式,而csv則沒有這種格式,它就是由特殊字符分割的文本,
結(jié)構(gòu)簡潔明了并且易于存儲。MySQL關(guān)聯(lián)數(shù)據(jù)庫具有快速、小巧、高效的命令執(zhí)
行功能;低成本,開放源代碼,提供免費(fèi)的版本,極大地減少了用戶的花費(fèi);
且MySQL具有很好的可移植性,可以在不同的系統(tǒng)平臺上運(yùn)行。
2.3.3可視化技術(shù)
在大數(shù)據(jù)時代,由于數(shù)據(jù)量的激增,對數(shù)據(jù)的采集和分析要求越來越高,
因此,數(shù)據(jù)可視化技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)可視化技術(shù)是指把數(shù)據(jù)以視覺對象的形
式進(jìn)行編碼,如點(diǎn)、線、色、位關(guān)系、動態(tài)效果等。它是以一種直觀、有效的
方式向使用者傳達(dá)信息,利用視覺的感知能力對數(shù)據(jù)進(jìn)行交互的可視化展示,
讓人們能迅速從繪圖中獲取數(shù)據(jù)信息。
數(shù)據(jù)可視化包括三大分支:科學(xué)可視化、信息可視化以及可視分析。進(jìn)行
數(shù)據(jù)可視化的最終目的在于了解數(shù)據(jù)中所包含的現(xiàn)象與法則,使讀者能夠“一
眼看懂”所要傳達(dá)的內(nèi)容。利用“可視化”技術(shù),能夠?qū)?fù)雜的數(shù)據(jù)以圖解的
形式高效地傳達(dá),準(zhǔn)確、高效、全面地傳達(dá)某些信息,并有助于發(fā)現(xiàn)某些規(guī)則
和特性,并發(fā)掘其背后的價值。
本項(xiàng)目中將爬取到的數(shù)據(jù)清洗后用簡單的可視化手段去實(shí)現(xiàn)數(shù)據(jù)可視化,
具體方法就是用python第三方庫matpoltlab去進(jìn)行數(shù)據(jù)可視化,matplotlab
中包含了許多庫,分別對應(yīng)餅圖、條形圖、詞云圖、折線圖等圖形,可以很好
的將數(shù)據(jù)進(jìn)行圖形展示,可視化圖形呈現(xiàn)后我們能夠清晰看出數(shù)據(jù)的動態(tài)變化
并得出相應(yīng)的結(jié)論。
3數(shù)據(jù)采集
3.1采集頁面分析
首先打開谷歌瀏覽器,打開百度頁面,在搜索框中輸入關(guān)鍵字“人民網(wǎng)”,
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
然后在人民網(wǎng)的搜索欄中輸入關(guān)鍵字“科技”。觀察圖3-1,其中URL為:
/s?keyword=%E7%A7%91%E6%8A%80&st=0&_=16767825
10298。點(diǎn)擊頁面最下方第二頁的按鈕,同時觀察URL,觀察到URL并沒有變化。
圖3-1數(shù)據(jù)網(wǎng)址頁面
按F12調(diào)出開發(fā)者工具,選擇開發(fā)者工具中的網(wǎng)絡(luò)版面,刷新頁面,如圖3-2。
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字段,
發(fā)現(xiàn)這個是一個POST請求。
圖3-2開發(fā)者工具
因?yàn)榇司W(wǎng)站的請求方法為POST,我們需要尋找它的請求參數(shù)往下翻找,在
Payload找到了請求參數(shù)RequestPayload。如圖3-3。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-3RequestPayload
3.2字段分析
首先來到網(wǎng)站的初始頁面打開網(wǎng)頁的選擇欄,然后定位到我們所需要的數(shù)
據(jù)所在的位置,然后跳出開發(fā)者工具頁面刷新一下頁面再進(jìn)入,點(diǎn)擊開發(fā)者工
具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖3-4,可以看到我們需要的所有的數(shù)
據(jù)信息都是呈現(xiàn)json格式存在在此頁面,因?yàn)槲覀冞€得知他是post請求響應(yīng)
的網(wǎng)站,所以我們可以通過Requests方法中的post方法來獲得響應(yīng)的數(shù)據(jù),
最原始的數(shù)據(jù)格式是呈現(xiàn)json格式的我們可以使用json庫進(jìn)行解析然后依次
寫入到csv格式的文件當(dāng)中。我們需要的字段有文章id、標(biāo)題、發(fā)表時間、來
源、文章內(nèi)容、鏈接、編輯以及版面。
圖3-4分析數(shù)據(jù)類型頁面
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3.3編程實(shí)現(xiàn)
導(dǎo)入所需庫,如圖3-5。
圖3-5導(dǎo)入所需庫頁面
設(shè)置請求頭,偽裝成瀏覽器訪問服務(wù)器,如圖3-6。
圖3-6請求頭內(nèi)容頁面
代碼實(shí)現(xiàn)如下:
#導(dǎo)入所需庫
importrequests
frombs4importBeautifulSoup
importpandasaspd
importos
importtime
importjson
fromurllib.parseimportquote
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
#發(fā)起請求
deff_url(url,gjz,page):
#對referer進(jìn)行編碼
ts=int(time.time())
referer=f'/s?keyword={quote(gjz)}&st=0&_={ts}'
#請求頭
headers={
'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/98.0.4758.102Safari/537.36',
'Content-Type':'application/json',
'Accept':'application/json,text/plain,*/*',
'Referer':referer,
}
#請求的參數(shù)
payload={
"endTime":0,
"hashContent":True,
"hasTitle":True,
"isFuzzy":True,
"key":gjz,
"limit":10,
"page":page,
"sortType":2,
"startTime":0,
"type":0
}
#用post發(fā)起請求
res=requests.post(url,headers=headers,data=json.dumps(payload))
returnres.json()
##把json數(shù)據(jù)進(jìn)行解析
defjx_Json(jsonData):
records=jsonData["data"]["records"];
foriinrecords:
pid=i['id']
originName=i['originName']
belongsName=BeautifulSoup(i['belongsName']).text
editor=i['editor']
content=BeautifulSoup(i['content']).text
displayTime=time.strftime('%Y-%m-%d',time.localtime(i['displayTime']/1000))
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
title=BeautifulSoup(i['title'],"html.parser").text
url=i['url']
yield[[pid,title,displayTime,originName,content,url,editor,belongsName]]
#將數(shù)據(jù)存入csv文件
defsaveFile(path,filename,data):
#如果路徑不存在,就創(chuàng)建路徑
ifnotos.path.exists(path):
os.makedirs(path)
#保存數(shù)據(jù)
dataframe=pd.DataFrame(data)
dataframe.to_csv(path+filename+".csv",encoding='utf_8_sig',mode='a',index=False,
sep=',',header=False)
#主函數(shù)
if__name__=="__main__":
#設(shè)置初始頁,終止頁,關(guān)鍵詞
start=1
end=80
gjz='科技'
#保存表頭行
headline=[["文章id","標(biāo)題","發(fā)表時間","來源","文章內(nèi)容","鏈接","編輯","版面"]]
saveFile("E:\畢業(yè)設(shè)計(jì)/data/",gjz,headline)
#爬取數(shù)據(jù)
forpageinrange(start,end+1):
url='/search-platform/front/search'
html=f_url(url,gjz,page)
#print(html)
fordatainjx_Json(html):
saveFile("E:\畢業(yè)設(shè)計(jì)/data/",gjz,data)
#print(data)
print("第{}頁爬取完成".format(page))
#爬蟲完成提示信息
print("爬蟲執(zhí)行完畢!")
4數(shù)據(jù)清洗與處理
大數(shù)據(jù)時代來臨,數(shù)據(jù)清洗與處理技術(shù)變得越來越重要。對數(shù)據(jù)處理的主
要目的是從繁多的、錯綜復(fù)雜的、讓人難以理解的數(shù)據(jù)中選取并分析出對于某
些特殊要求下對人們來說是有使用價值、有實(shí)際意義的數(shù)據(jù)。數(shù)據(jù)清洗也就是
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
將采集到的不完整的數(shù)據(jù)進(jìn)行清洗,包括處理無效數(shù)據(jù)、缺失數(shù)據(jù)以及對數(shù)據(jù)
一致性的檢查,從而提高數(shù)據(jù)準(zhǔn)確性。本次項(xiàng)目中我們需要將爬取的數(shù)據(jù)和網(wǎng)
頁原數(shù)據(jù)進(jìn)行比對,并且檢查是否出現(xiàn)空值、重復(fù)值和數(shù)據(jù)的位置是否正確。
根據(jù)不同的需求我們要對數(shù)據(jù)進(jìn)行不同的處理。
4.1數(shù)據(jù)清洗
數(shù)據(jù)清洗就是將不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)以及重復(fù)的數(shù)據(jù)進(jìn)行刪除或者
其他處理。數(shù)據(jù)預(yù)處理的第一步就是進(jìn)行數(shù)據(jù)清洗,如果數(shù)據(jù)清洗不到位,就
有可能出現(xiàn)數(shù)據(jù)分析錯誤。
下面是數(shù)據(jù)清洗前的數(shù)據(jù),如圖4-1。
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面
經(jīng)過比對和檢查,發(fā)現(xiàn)原始數(shù)據(jù)中的“來源”一列存在空值,所以根據(jù)需
求將數(shù)據(jù)存在空值的列進(jìn)行刪除處理。因此我們只需保留需要的數(shù)據(jù),然后整
理為原網(wǎng)頁格式存入科技新聞數(shù)據(jù).csv文件中,為后續(xù)統(tǒng)計(jì)分析、可視化使用。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲存
數(shù)據(jù)儲存有很許多方式,在Python中常見的方法有直接用文本文件
(txt)、csv文件、excel文件、json文件等,但是這些方法能夠保存的數(shù)據(jù)
量都比較小。如果需要儲存大量數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,數(shù)據(jù)庫又
可分成關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫主要有MySQL、Oracle、
SQLSever等,Mongodb、Redis是非關(guān)系型數(shù)據(jù)庫。這個項(xiàng)目使用了Csv和
MySQL,這是因?yàn)镃SV文件的存儲方法比較簡單,可以降低數(shù)據(jù)的存儲能力,方
便了數(shù)據(jù)的傳送,也方便了客戶端的數(shù)據(jù)處理;MySQL數(shù)據(jù)庫存儲處理速度快和
花費(fèi)成本低。將爬取的原始數(shù)據(jù)存入csv文件,如圖4-3:
圖4-3原始數(shù)據(jù)存儲為csv頁面
將清洗后的數(shù)據(jù)存入csv文件,如圖4-4:
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-4清洗后數(shù)據(jù)存儲為csv頁面
將清洗并處理完成后的數(shù)據(jù)存入MySQL數(shù)據(jù)庫,如圖4-5:
圖4-5數(shù)據(jù)存儲MySQL頁面
4.3編程實(shí)現(xiàn)
讀取爬取后的原始數(shù)據(jù),顯示前十行數(shù)據(jù),如圖4-6:
圖4-6讀取原始數(shù)據(jù)頁面
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
去除原始數(shù)據(jù)中的空值,如圖4-7:
圖4-7去除空數(shù)據(jù)頁面
去除原始數(shù)據(jù)重復(fù)值代碼,在執(zhí)行完成后發(fā)現(xiàn)原始數(shù)據(jù)中不存在重復(fù)值,
如圖4-8:
圖4-8去除重復(fù)數(shù)據(jù)頁面
驗(yàn)證存入數(shù)據(jù)是否正確,如圖4-9和4-10:
圖4-9查看csv文件前五條數(shù)據(jù)頁面
圖4-10查看MySQL數(shù)據(jù)庫前五條數(shù)據(jù)頁面
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
分析新聞編輯發(fā)表的新聞條數(shù)。導(dǎo)入所需庫,如圖5-1。打開爬取并清洗完
的科技新聞數(shù)據(jù).csv文件,對每個編輯所發(fā)表的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-2。
5-3圖中是統(tǒng)計(jì)完成后的數(shù)據(jù)。
圖5-1導(dǎo)入所需庫頁面
圖5-2數(shù)據(jù)統(tǒng)計(jì)代碼頁面
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-3數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面
分析新聞版面關(guān)鍵字出現(xiàn)次數(shù)。導(dǎo)入所需庫,如圖5-4。打開爬取并清洗完
的科技新聞數(shù)據(jù).csv文件,對每個版面出現(xiàn)的關(guān)鍵字進(jìn)行統(tǒng)計(jì),如圖5-5。5-6
圖中是統(tǒng)計(jì)完成后的數(shù)據(jù)。
圖5-4導(dǎo)入所需庫頁面
圖5-5數(shù)據(jù)統(tǒng)計(jì)代碼頁面
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-6數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面
分析新聞發(fā)表時間。導(dǎo)入所需庫,如圖5-7。打開爬取并清洗完的科技新聞
數(shù)據(jù).csv文件,對每個新聞發(fā)表時間的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-8。5-9圖中
是統(tǒng)計(jì)完成后的數(shù)據(jù)。
圖5-7導(dǎo)入所需庫頁面
圖5-8數(shù)據(jù)統(tǒng)計(jì)代碼頁面
19
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-9數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面
分析新聞來源。導(dǎo)入所需庫,如圖5-10。打開爬取并清洗完的科技新聞數(shù)
據(jù).csv文件,對每個新聞來源的新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如圖5-11。5-12圖中是統(tǒng)
計(jì)完成后的數(shù)據(jù)。
圖5-10導(dǎo)入所需庫頁面
圖5-11數(shù)據(jù)統(tǒng)計(jì)代碼頁面
20
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-12數(shù)據(jù)統(tǒng)計(jì)結(jié)果頁面
5.2數(shù)據(jù)展示
5.2.1依據(jù)新聞編輯進(jìn)行統(tǒng)計(jì)
圖5-13各新聞編輯的新聞條數(shù)柱形圖
由圖5-13柱形圖可以對每個新聞編輯所發(fā)表的新聞條數(shù)進(jìn)行匯總。將在
csv文件的編輯字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計(jì)發(fā)表新聞的次數(shù),最后按照統(tǒng)計(jì)
完的數(shù)據(jù)繪制柱形圖。如圖5-13中可以看出趙竹青發(fā)表的文章最多,其次就是
王子峰和張雪冬。由此可以看出他們?nèi)说臉I(yè)務(wù)能力非常強(qiáng),對新聞信息資源
整合與分析有自己的方法。
21
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
新聞編輯在新聞流程中是十分重要的一個環(huán)節(jié)。這一環(huán)節(jié)是否成功就決定
了新聞傳播的成功與否。對于新聞編輯,正確地整合信息材料和有效地確定新
聞信息的價值是十分必要的。如果缺乏對信息進(jìn)行科學(xué)、理性的分析處理,新
聞的傳播就會變得雜亂無章,難以全面地傳遞社會正能量。甚至?xí)勾蟊妼@
篇報(bào)道的初衷有不同的認(rèn)識。而且這個認(rèn)識可能是對的,可能是錯的。最終導(dǎo)
致新聞無法達(dá)到對社會的積極的引導(dǎo)作用。這些新聞編輯發(fā)表的文章多,可以
看出他們的思想積極向上且符合社會發(fā)展趨勢且文學(xué)功底深厚,他們對信息的
整合修改能力強(qiáng),這對他們個人的職業(yè)發(fā)展和前景有非常大的作用。同時,一
個好的編輯對社會輿論的引導(dǎo)起著非常重要的作用,一個新聞網(wǎng)站擁有優(yōu)秀的
編輯會傳播更多有價值有意義的新聞。
5.2.2依據(jù)新聞版面關(guān)鍵字進(jìn)行統(tǒng)計(jì)
圖5-14新聞版面關(guān)鍵字詞云圖
由圖5-14詞云圖可以對版面的關(guān)鍵字進(jìn)行統(tǒng)計(jì)與分析。將在將在csv文件
的版面字段數(shù)據(jù)進(jìn)行處理然后將其統(tǒng)計(jì)每個關(guān)鍵字出現(xiàn)的頻率,最后按照統(tǒng)計(jì)
完的數(shù)據(jù)繪制詞云圖。從圖5-14中可以看出來經(jīng)濟(jì)與科技兩個關(guān)鍵字出現(xiàn)的次
數(shù)最多,其次就滾動新聞和安徽新聞。由此可以看出在新聞行業(yè)經(jīng)濟(jì)與科技相
關(guān)的新聞出現(xiàn)次數(shù)非常多。
國民經(jīng)濟(jì)的發(fā)展離不開經(jīng)濟(jì)與科技,對人民網(wǎng)的版面數(shù)據(jù)進(jìn)行分析時發(fā)現(xiàn)
提到經(jīng)濟(jì)與科技是最多的。新聞是人們認(rèn)識外部世界的一個窗口,它對一個國
22
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
家的經(jīng)濟(jì)和社會發(fā)展起到舉足輕重的作用??萍夹畔⒌拈_發(fā)、利用,是現(xiàn)代社
會進(jìn)步的重要動力。科學(xué)技術(shù)新聞能夠迅速地、廣泛地傳播科學(xué)知識,對人類
社會的發(fā)展具有越來越大的影響。由圖5-14發(fā)現(xiàn)安徽新聞與內(nèi)蒙古頻道出現(xiàn)的
頻率也很高,說明在這兩個地區(qū)關(guān)于“科技”的新聞報(bào)道很多,我們在日常生
活中也可以多關(guān)注這兩個地區(qū)的科技新聞報(bào)道和發(fā)展?fàn)顩r。此外,由圖5-14還
可以發(fā)現(xiàn)滾動新聞出現(xiàn)的次數(shù)很多,滾動新聞就是新聞是不斷更新的,具有全
市性發(fā)布,全時性知曉,不受時間和空間的限制進(jìn)行滾動新聞報(bào)道,隨時發(fā)布
更有價值的新聞,由此說明新聞對人民收集和獲取目前的最新消息有著很大的
作用,對人民的生產(chǎn)生活起著非常大的影響。
5.2.3依據(jù)新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)和分析
圖5-15新聞發(fā)表時間折線圖
由圖5-15折線圖可以對新聞發(fā)表時間進(jìn)行統(tǒng)計(jì)與分析。從圖5-15中可以
得知2022年9月20日、2023年2月10日以及2023年2月1月這三個時間節(jié)
點(diǎn)發(fā)表的新聞最多。
由5-15圖,根據(jù)這個圖的數(shù)據(jù)可以發(fā)現(xiàn)新聞發(fā)表時間的新聞條數(shù)波動很大。
在2022年9月20日這個發(fā)表時間新聞發(fā)表數(shù)量達(dá)到了最高點(diǎn)。當(dāng)時正處于一
年中下旬,是一年之中新聞集中的時間。同時在這一天,有一個關(guān)于科技新聞
的大事,由工信部、科技部、商務(wù)部和安徽省人民政府聯(lián)合主辦的“2022世界
23
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
制造業(yè)大會”在合肥舉行。這一天有非常多關(guān)于科技興農(nóng)的新聞發(fā)表,我們可
以發(fā)現(xiàn)當(dāng)一個熱點(diǎn)出現(xiàn)就會有許多新聞對其報(bào)道,這就是新聞的及時性與真實(shí)
性。通過新聞可以讓農(nóng)業(yè)從業(yè)者了解科技興農(nóng)的最新消息,從而可以讓從業(yè)者
們提升農(nóng)業(yè)生產(chǎn)方式,是農(nóng)業(yè)發(fā)展更能順應(yīng)自然、保護(hù)自然,優(yōu)化生態(tài)安全,
強(qiáng)化資源節(jié)約和利用。對每個新聞的發(fā)表時間進(jìn)行比較,發(fā)布在人民網(wǎng)上的文
章,根據(jù)人民網(wǎng)統(tǒng)計(jì)的文章發(fā)布時間,我們可以很明顯的看到排名第一的發(fā)表
時間和排名靠后的發(fā)表時間數(shù)據(jù)相差很大。而且我們可以發(fā)現(xiàn),在周一至周五
這五天里面,文章的平均發(fā)表時間是最高。此外我們還可以在新年之初剛剛返
回崗位所發(fā)表的新聞較少,這也是情理之中的。
5.2.4依據(jù)新聞來源進(jìn)行統(tǒng)計(jì)
圖5-16新聞來源餅圖
由圖5-16餅圖我們可以對新聞來源進(jìn)行統(tǒng)計(jì)與發(fā)現(xiàn)。我們從圖5-16餅圖
可以看出光明日報(bào)、人民網(wǎng)(安徽頻道)和人民網(wǎng)(人民日報(bào)海外版)占據(jù)了
新聞來源的絕大部分。此網(wǎng)站為人民網(wǎng)的官方網(wǎng)站,所以人民網(wǎng)自己的新聞?wù)?/p>
據(jù)了很大一部分,人民網(wǎng)(安徽頻道)和人民網(wǎng)(人民日報(bào)海外版)相加起來
占據(jù)了44.1%,差不多是整個數(shù)據(jù)的一半。
人民網(wǎng)是人民日報(bào)打造的以新聞為主體的大型在線交流平臺,同時也是國
際互聯(lián)網(wǎng)上最大的綜合性網(wǎng)站。人民網(wǎng)的業(yè)務(wù)范圍包括:信息收集和發(fā)布、互
聯(lián)網(wǎng)廣告業(yè)、信息服務(wù)業(yè)等等。所以很大一部分新聞來源于都人民網(wǎng)。光明日
24
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
報(bào)也是新聞來源的一大部分,占了數(shù)據(jù)的36.2%,主要是一個宣傳黨在科學(xué)、教
育文化、理論、學(xué)術(shù)方面的方針政策的全國性綜合報(bào)紙,與科技發(fā)展緊密相關(guān)。
此外,以人民網(wǎng)以“報(bào)道全球、傳播中國”為己
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦采樣機(jī)訂制方案
- 2022-2027年中國生物制藥行業(yè)市場發(fā)展現(xiàn)狀及投資前景展望報(bào)告
- 太陽能發(fā)電系統(tǒng)設(shè)備項(xiàng)目可行性研究報(bào)告申請備案
- 電子行業(yè)深度研究報(bào)告
- 2024-2026年中國航空復(fù)合材料行業(yè)市場深度分析及“十四五”規(guī)劃戰(zhàn)略分析報(bào)告
- 2020-2025年中國超超臨界機(jī)組市場運(yùn)營態(tài)勢及發(fā)展前景預(yù)測報(bào)告
- 2021-2026年中國湖北省文化市場調(diào)查研究及行業(yè)投資潛力預(yù)測報(bào)告
- 2025年度環(huán)保物聯(lián)網(wǎng)監(jiān)控平臺建設(shè)與運(yùn)營合同3篇
- 湖南2024年湖南省檢察機(jī)關(guān)招聘聘用制書記員203人筆試歷年參考題庫附帶答案詳解
- 廣東廣東醫(yī)科大學(xué)附屬第二醫(yī)院臨時工招聘筆試歷年參考題庫附帶答案詳解
- 2024年公務(wù)員考試《公共基礎(chǔ)知識》全真模擬試題1000題及答案
- DB3301T 0382-2022 公共資源交易開評標(biāo)數(shù)字見證服務(wù)規(guī)范
- 幼兒教育專業(yè)國家技能人才培養(yǎng)工學(xué)一體化課程設(shè)置方案
- 2025年會計(jì)從業(yè)資格考試電算化考試題庫及答案(共480題)
- 江蘇省無錫市2023-2024學(xué)年八年級上學(xué)期期末數(shù)學(xué)試題(原卷版)
- DL-T 5876-2024 水工瀝青混凝土應(yīng)用酸性骨料技術(shù)規(guī)范
- GB/T 44889-2024機(jī)關(guān)運(yùn)行成本統(tǒng)計(jì)指南
- 2024年6月英語六級考試真題及答案(第2套)
- 職業(yè)院校技能大賽(高職組)市政管線(道)數(shù)字化施工賽項(xiàng)考試題庫(含答案)
- 危險(xiǎn)化學(xué)品目錄(2024版)
- 華為經(jīng)營管理-華為的股權(quán)激勵(6版)
評論
0/150
提交評論