![基于Python新浪網新聞類網站數據分析與展示_第1頁](http://file4.renrendoc.com/view12/M01/32/2B/wKhkGWdWOviAREAhAAHMjvy31Yw865.jpg)
![基于Python新浪網新聞類網站數據分析與展示_第2頁](http://file4.renrendoc.com/view12/M01/32/2B/wKhkGWdWOviAREAhAAHMjvy31Yw8652.jpg)
![基于Python新浪網新聞類網站數據分析與展示_第3頁](http://file4.renrendoc.com/view12/M01/32/2B/wKhkGWdWOviAREAhAAHMjvy31Yw8653.jpg)
![基于Python新浪網新聞類網站數據分析與展示_第4頁](http://file4.renrendoc.com/view12/M01/32/2B/wKhkGWdWOviAREAhAAHMjvy31Yw8654.jpg)
![基于Python新浪網新聞類網站數據分析與展示_第5頁](http://file4.renrendoc.com/view12/M01/32/2B/wKhkGWdWOviAREAhAAHMjvy31Yw8655.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
湖南商務職業(yè)技術學院畢業(yè)設計
目錄
1引言1
1.1項目背景1
1.2開發(fā)環(huán)境與工具2
1.2.1Python簡介2
1.2.2Jupyternotebook簡介2
1.2.3Python第三方庫簡介2
1.2.4MySQL簡介3
2需求分析3
2.1可行性需求分析3
2.2采集目標功能分析4
2.3關鍵技術分析4
2.3.1網絡爬蟲技術4
2.3.2文件存取技術5
2.3.3可視化技術6
3數據采集7
3.1采集頁面分析7
3.2字段分析8
3.3編程實現9
4數據清洗與處理12
4.1數據清洗13
4.2數據儲存13
4.3編程實現14
5數據統(tǒng)計與分析15
5.1數據準備15
5.2數據展示16
5.2.1依據新聞關鍵詞進行統(tǒng)計16
5.2.2依據報社發(fā)表新聞數量進行統(tǒng)計17
I
湖南商務職業(yè)技術學院畢業(yè)設計
5.2.3依據責任編輯來進行統(tǒng)計18
5.2.4依據一個時間段新聞發(fā)布數量進行統(tǒng)計19
5.3綜述20
6小結20
參考資料22
II
湖南商務職業(yè)技術學院畢業(yè)設計
基于Python新浪網新聞類網站數據分析與展示
1引言
隨著科技技術與網絡技術的不斷發(fā)展,我們現如今的生活中出現了大量的
數據,可以說現在的生活中數據無處不在,而這些數據都是經過人們精心的收
集、處理、整理所形成大數據,開始展現出其從量變到質變的價值時代,而這
個時代是我們年輕人的機會,我們應該抓住這個機遇。數據采集則是最重要的
一項,顧名思義如果連數據都沒有,那這一切都是空談。采集到了數據就可以
進行后續(xù)的數據分析與展示。數據采集的方法有很多,比如通過交通攝像頭,
可以采集到視頻,圖像等。而此次是對互聯網上的數據采集,對一些新聞網站
的一些新聞進行采集與分析。采集的主要內容有新聞的標題、發(fā)布時間、責任
編輯、報社等。在把這些數據進行處理,分析和展示。該設計基于python語言,
運用所學的爬蟲技術對新浪網的新聞網站進行數據采集,然后用NumPy進行數
據的清理,整理等,最后通過matplotlib進行數據可視化分析畫圖。
1.1項目背景
現在無論在生活還是人際交往,信息都是很重要的。雖然信息是虛擬存在
的,但它帶來的價值絕對是不容小覷的。做好了對信息的收集、處理與管理對
自己的用處是很大的,在和別人談合作和遇到困難時有利于做出對自己有利的
決策。在人際交往中,也可了解到他人生活習慣、喜好等,不容易得罪別人。
信息的作用遠不止于此,信息也是我們生活中重要的一環(huán)。
對于一個新聞網站而言,它有自己獲取信息和獲取數據的方式并且儲存有
大量的數據。我們找到新聞網站會發(fā)現里面有各種各樣的新聞,我們要做的是
把我們需要的新聞標題、時間、關鍵字等數據拿下來存在我們自己的電腦里進
行分析。
網站里面的新聞有很多,要想拿到我們想要的新聞數據,我們就要對這個
網站進行解析,然后通過Python網絡爬蟲的方法來獲取我們想要的數量和數據。
我的畢業(yè)設計就是爬取新浪網新聞網站的一些國內新聞,對其進行處理、
分析、儲存和可視化。就是對那些爬取下來的新聞數據進行清洗,把那些錯誤
的數據去除掉,對其進行分析,然后運用可視化技術畫圖。然后我們可以通過
觀察那些畫出來圖很容易的可以看到,我們生活中出現的一些重大新聞和這些
新聞發(fā)布的時間以及一個時間段新聞發(fā)布的數量等。
1
湖南商務職業(yè)技術學院畢業(yè)設計
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python由荷蘭數學和計算機科學研究學會的吉多·范羅蘇姆于1990年代
初設計,作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構,
還能簡單有效地面向對象編程。
Python語言是一門非常簡單的語言,因此它非常受人們歡迎,也是世界上
最受歡迎的語言之一,在國內外的大多數大學計算機一類的課程都會學。Python
有很多擴展庫,最經典的有NumPy、SciPy和matplotlib,它們分別為Python
提供了快速數組處理、數值運算以及繪圖功能。可以很便利的進行數據處理和
畫圖等。
Python對新手極其友好。對于初學者來說,Python極其容易。它被認為是
最簡單方便的語言之一:簡化的人性化語法是一方面,快速編寫與執(zhí)行是另一方
面。
1.2.2Jupyternotebook簡介
Jupyternotebook是一個Web應用程序,允許您創(chuàng)建和共享包含實時代碼,
方程,可視化和說明文本的文檔。用途包括:數據清理和轉換,數值模擬,統(tǒng)
計建模,機器學習等等。
可選擇語言:支持超過40種編程語言,包括Python、R、Julia、Scala等。
分享筆記本:可以使用電子郵件、Dropbox、GitHub和JupyterNotebookViewer
與他人共享。交互式輸出:代碼可以生成豐富的交互式輸出,包括HTML、圖像、
視頻、LaTeX等等。大數據整合:通過Python、R、Scala編程語言使用Apache
Spark等大數據框架工具。
對于初學者來說安裝Jupyternotebook最簡單的方法是安裝Anaconda,因
為它自帶了Jupyternotebook。
1.2.3Python第三方庫簡介
Requests:一個簡潔且簡單的處理HTTP請求的第三方庫。
Scrapy:這是Python開發(fā)的一個快速、高層次的web獲取框架。不同于簡
單的網絡爬蟲功能,scrapy框架本身包含了成熟網絡爬蟲所應該具有的部分共
用功能。
Numpy:這是Python的一種開源數值計算擴展第三方庫,用于處理數據類
2
湖南商務職業(yè)技術學院畢業(yè)設計
型相同的多維數組,簡稱“數組”。
Pandas:這是基于numpy擴展的一個重要第三方庫,它是為了解決數據分
析任務而創(chuàng)建的。
Re:正則表達式解析和處理功能庫。
bs4:beautifulsoup庫,用于解析和處理HTML和XML。
Matplotlib:matplotlib是一個Python2D繪圖庫,可以生成各種可用于
出版品質的硬拷貝格式和跨平臺交互式環(huán)境數據。Matplotlib可用于Python腳
本,Python和IPythonshell,Web應用程序服務器和各種圖形用戶界面工具
包?!?/p>
Wordcloud:詞云生成器。
Jieba:中文分詞模塊
1.2.4MySQL簡介
隨著信息技術的不斷發(fā)展,諸如云計算、大數據、人工智能等高新技術也開
始得到普及應用,為人們提供更為便利的信息服務的同時,也帶來了數據安全方
面的挑戰(zhàn)。在大規(guī)模數據處理需求下,數據隱私保護已經成為當今互聯網應用亟
待解決的關鍵性問題。[1]
MySQL是一個數據庫管理系統(tǒng)。MySQL是最流行的關系型數據庫管理系統(tǒng)之
一,因為它是開源免費的,在WEB應用方面,MySQL是最好的RDBMS應用軟件之
一。
MySQL數據庫是用來儲存大量數據文件的,像我們這次項目爬取下來的數據,
雖然不是很多但是可以將其存到MySQL數據庫中的,想要什么數據可以通過sql
語句來調出你想要的數據,還可以進行排序,計數等。MySQL還是開源免費的,
所以很多人或者小型公司作項目的時候都很喜歡用到這個。對初學者來說也是
很友好的,操作比較簡單,容易上手,下載這個軟件又是免費,因此MySQL是
很受歡迎的。
2需求分析
2.1可行性需求分析
1、技術可行性
Python語言是一門簡單容易上手的面向對象的編程語言,排名在Java、C
和JavaScript等語言之上。在這次的項目中,我們就是使用Python語言編程
3
湖南商務職業(yè)技術學院畢業(yè)設計
來實現對網站上的數據的采集,數據的清洗,數據的可視化。在爬取想要的數據
過程中會遇到一些問題,這些問題在我們爬取一些網站數據的過程中都會遇到。
也就是網站設置有反爬機制。我們可以通過開發(fā)者工具找到那些反爬機制,通
過對應的方法來解決。我們可以將爬來的數據用csv文檔格式直接儲存到本地。
然后就可以對些數據就進行數據清洗和數據可視化。
這就是此次的項目技術可行性,我也會在后面的工作中用這些步驟來實現
數據的采集與分析。
2、項目可行性
新聞在現在的生活中無處不在,每天大大小小的新聞不計其數,大到國家
層面的,小到哪個人發(fā)生的事。打開手機或者電腦,隨時都能刷到很多新聞,
我們也可以通過新聞了解每天世界各地發(fā)生一些什么事情。新聞在我們現在的
生活已經是不可缺的一部分了。
本次的項目就是通過采集一些典型的新聞網站發(fā)布的新聞數據,我此次選
的是新浪網的國內新聞網,來分析我國最近主要發(fā)生的事情。從新聞的標題,
新聞的發(fā)布時間,新聞的關鍵字,新聞的責任編輯等方面對其進行分析,將我
們需要的數據儲存下來,進行可視化,讓我們清楚的看到。
2.2采集目標功能分析
這次項目的數據采集是對新浪網新聞網的國內新聞網站,通過python爬蟲
爬取新浪網新聞網的國內新聞信息,共爬取了600新聞數據,爬取下來經過與
新聞網站上的新聞進行對比,確認無誤的情況下將其以csv格式儲存到本地。
分析新浪網新聞網的國內新聞網站信息,明確我們所要爬取的有新聞標題,
新聞發(fā)布時間,發(fā)布新聞的報社,新聞的關鍵字和新聞的責任編輯等數據。將
爬取下來的數據分開進行分析。比如哪個報社發(fā)布的新聞數量最多,或者每十
天發(fā)布的新聞數量,又或者哪個新聞的關鍵字出現的最多。
2.3關鍵技術分析
2.3.1網絡爬蟲技術
隨著我國網絡信息技術的不斷發(fā)展,互聯網的用戶正逐漸增多,在Python
語言框架下,獲取目標網絡數據功能上的強大,配合網絡爬蟲技術來獲取相應
的信息。網絡爬蟲也被稱之為網絡機器人,其可以根據預先設定好的功能自動
操作,成為目前最受歡迎的程序之一,為此下面將對Python語言下網絡爬蟲的
4
湖南商務職業(yè)技術學院畢業(yè)設計
技術特點進行探析,并結合實際提出了應用與實現的具體策略。隨著我國互聯
網發(fā)展速度的不斷加快,各類信息數據也在隨之增多,網絡爬蟲技術迎來了廣
闊的發(fā)展空間,合理應用能夠根據用戶需求,在短時間內找到網頁中自己想要
的內容,然后將數據進行反饋與儲存。[2]
網絡爬蟲技術在我們現在的生活中用的很普遍,例如我們上網遇到幾張照
片啥的數據我們可以直接手動下載儲存很方便,但是要是幾百張,幾千張,甚
至幾萬張這種大量的數據,我們還用手動去下載緩存,那這無疑是個笨方法,
這個時候我們就可以用網絡爬蟲這種方法就會很容易的獲取到想要的數據。
爬蟲一般分為三個部分,分別是數據采集,處理,儲存。傳統(tǒng)爬蟲從一個
或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不
斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。網絡爬
蟲本質上是一段計算機程序或腳本,其按照一定的邏輯和算法規(guī)則自動地抓取
互聯網信息。
這個網絡爬蟲技術是有好的一方面也有壞的一方面,就像是一把雙刃劍。
用的好可以造福于人們,我們可以運用這個技術用來我們平時常見的搶票,還
有現在好多電視劇,音樂都要vip或者收費,我們就可以用這個技術把那些東
西去網站上爬取下來,看就可以不用花錢。壞的一方面,有一些別有用心的人
會去購物網站,快遞網站等地方爬取我們的個人信息進行售賣,這都是違法犯
罪的,這樣是會害人害己的,所以我們懂這項技術的,一定要守法,做一個好
公民。
網絡爬蟲作為近期互聯網新興的自動化數據收集技術,由于其易上手、功能
性強的特性已成為當前互聯網領域最熱門的技術之一。網絡爬蟲的功能和價值
也決定了其對于互聯網的重要性,隨著使用率的逐步提高,爬蟲對互聯網安全的
影響也逐步擴大,管理人員也相應的開始研究"反爬"策略,并通過法律規(guī)制和行
為規(guī)范來約束爬蟲的數據抓取行為。[3]
2.3.2文件存取技術
PyCharm內置csv模塊儲存數據如圖2-1顯示:
5
湖南商務職業(yè)技術學院畢業(yè)設計
圖2-1PyCharm內置csv模塊
PyCharm內置csv模塊讀取數據如圖2-2顯示:
圖2-2pandas模塊方法
2.3.3可視化技術
大數據時代下數據總量規(guī)模大幅度增加,類型多樣化,傳統(tǒng)數據分析和處
理技術存在很大的限制,導致數據分析精準度不高,處理效率偏低。因此,為
了滿足不斷增長的數據信息處理需求,并結合傳統(tǒng)數據分析工具高門檻性和操
作難度大的問題,越來越多的人開始運用Python來設計數據分析和處理的平臺,
借助Python中pandas來分析結構化數據,非結構化數據中提取文本信息,借
助Matplotlib圖表展示,借助Jieba來分次處理文本信息,最終在Web上發(fā)布
信息?;诖朔N方式,可以為用戶提供更加便捷、功效的數據分析服務,獲得
可視化的數據分析結果。[4]
我們從網站上爬取下來的數據通過數據清洗儲存下來的數據,我們就這樣
觀看那些數據是得不到我們想要的結論的。這個時候我們就需要用一種技術把
那些數據進行畫圖,以圖的形式讓我們能直觀的看到我們所需的數據。那個技
術就是可視化技術??梢暬夹g就是利用輸入的一組數據,生成其圖形表示,
并操縱其圖形表示方式的技術。可視化技術的目的并不是去了解目標數據,而
是要揭示目標數據背后所隱藏的種種現象。
6
湖南商務職業(yè)技術學院畢業(yè)設計
經過這么多年可視化技術的發(fā)展,如今主要分成三類:科學可視化、信息
可視化、可視分析學。而我們本次的項目用到的就是信息可視化技術,信息可
視化指在研究大規(guī)模非數值型信息資源的視覺呈現。通過利用圖形圖像方面的
技術與方法,幫助人們理解和分析數據。
我們本次項目也只是用到信息可視化的一部分簡單的技術,本次就是用到
PyCharm里面的第三方庫中的matpoltlib去進行可視化分析。Matpoltlib是
python數據可視化庫的泰斗,可以方便的繪制出折線圖,條形圖,柱形圖,散
點圖,餅圖等基礎圖形??梢詫祿脠D形的方式展現出來。讓我們能夠更好,
更清楚的看到結果。
3數據采集
3.1采集頁面分析
我們先通過GoogleChrome瀏覽器搜索新浪網官網,然后找到新聞網的國內
新聞如圖3-1,其網址為/china/。
圖3-1數據網址頁面
接著單擊右鍵選擇檢查或者直接按F12調出開發(fā)者工具,刷新頁面,如圖
3-2。
7
湖南商務職業(yè)技術學院畢業(yè)設計
圖3-2開發(fā)者工具
我們用搜索工具點一下我們需要的數據,然后我們這個是在js文件中找到
那個數據位置,點擊上面的Headers字段,可以看到這是一個GET請求。
3.2字段分析
我們先通過瀏覽器找到所需網站,找到我們要的網頁,打開開發(fā)者模式,用
搜索工具找到我們所需的數據位置,然后刷新當前頁面,找到Preview點擊進
去如圖3-3,可以看到我們需要的數據都在里面,比如我們要的時間就是圖3-3
中的timestamp,新聞標題就是圖3-4中的title,但是可以看到編碼不是utf-8,
所以我們看不出內容。我們可以先爬取下來,在后面我們輸出和儲存的時候用
utf-8的編碼展示出來就可以了。發(fā)布新聞的報社,關鍵詞和責任編輯我們通過
Xpath的方式解析出來。比如報社message['報社']=
maps(tree.xpath('//div[@id="top_bar"]/div/div[@class="date-source"]/
a[@class="source"]/text()')).strip()。關鍵詞message['關鍵詞']=
'/'.join(tree.xpath('//div[@id="keywords"]/a//text()')).strip()。
責任編輯message['責任編輯']=
maps(tree.xpath('//div[@id="article"]/p[last()]/text()')).strip().sp
lit(':')[-1]
8
湖南商務職業(yè)技術學院畢業(yè)設計
圖3-3分析數據類型頁面(一)
圖3-4分析數據類型頁面(二)
3.3編程實現
先導入我們所需要的第三方庫如圖3-5所示。
圖3-5導入庫頁面
在很多網站都設置有反爬,所以我們需要把網站上的Headers里面的一些
9
湖南商務職業(yè)技術學院畢業(yè)設計
數據拿下來,設置一個新的請求頭部,從而進行偽裝,訪問服務器,如圖3-6
所示。
圖3-6設置請求頭部頁面
代碼實現如下:
importrequests
importtime
fromlxmlimportetree
importpandasaspd
importcsv
defgetdata(page):
headers={
"authority":"",
"accept":"*/*",
"accept-language":"zh-CN,zh;q=0.9,en;q=0.8",
"cache-control":"no-cache",
"pragma":"no-cache",
"referer":"/china/",
"sec-ch-ua":"^\\^Not_A",
"sec-ch-ua-mobile":"?0",
"sec-ch-ua-platform":"^\\^Windows^^",
"sec-fetch-dest":"script",
"sec-fetch-mode":"no-cors",
"sec-fetch-site":"same-site",
"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36"
}
url="/api/roll/get"
10
湖南商務職業(yè)技術學院畢業(yè)設計
params={
"pageid":"121",
"lid":"1356",
"num":"20",
"versionNumber":"1.2.4",
"page":str(page),
"encode":"utf-8",
}
response=requests.get(url,headers=headers,params=params).json()
#print(response)
fordatainresponse['result']['data']:
message={}
message['標題']=data['title']
timeStamp=int(data['ctime'])
timeArray=time.localtime(timeStamp)
otherStyleTime=time.strftime("%Y-%m-%d",timeArray)
message['時間']=otherStyleTime.replace('-','/')
href=data['url']
response=requests.get(href,headers=headers)
#print(response.content.decode())
tree=etree.HTML(response.content.decode())
message['報社']=maps(
tree.xpath('//div[@id="top_bar"]/div/div[@class="date-source"]/a[@class="source"]/text()')).strip
()
message['關鍵詞']='/'.join(tree.xpath('//div[@id="keywords"]/a//text()')).strip()
ifmessage['關鍵詞']=='':
continue
message['責任編輯']=
maps(tree.xpath('//div[@id="article"]/p[last()]/text()')).strip().split(':')[-1]
#print(message)
List.append(message)
#getHtml(message,href)
defsave_data_to_csv(data):
filename='新浪新聞數據.csv'
withopen(filename,'a',encoding="utf-8",newline="")ascsvfile:
fieldnames=["標題","時間","報社","關鍵詞","責任編輯"]
writer=csv.DictWriter(csvfile,fieldnames=fieldnames)
writer.writeheader()
writer.writerows(data)
if__name__=='__main__':
maps=lambdax:x[0]ifxelse''
11
湖南商務職業(yè)技術學院畢業(yè)設計
List=[]
forpageinrange(1,45):
getdata(page)
time.sleep(2)
iflen(List)>=600:
break
save_data_to_csv(List)
4數據清洗與處理
隨著互聯網的發(fā)展,數據呈現爆發(fā)式的增長。雖然數據規(guī)模很大,但是數據
質量卻無法得到保障,存在許多臟亂的數據,需要進行數據處理。與此同時,機器
學習在越來越多的領域凸顯重要性,好的訓練結果不僅與訓練模型相關,更取決
于訓練數據的質量,因此數據清洗是任何數據分析的重要步驟。理想情況下,我
們應該遍歷數據集中的每個變量,查找數據集中的潛在錯誤,但這個過程本身可
能非常耗時、代價高昂且容易出錯。[5]
在我們獲得大量數據后,我們要對這些數據進行處理,這就是我們所說的
數據清洗與處理。需要把把錯誤數據、重復數據、無效數據、缺失值等清洗掉,
這就是數據清洗。然后我們可以把我們所需要的數據進行分類,匯總,排序等,
方便我們在后續(xù)使用這些處理完的數據,比如我想使用哪一類的數據,我就可
以直接找到那一類的數據進行使用,非常方便。
我們這次項目的數據清洗與處理主要是對我們爬取下來的數據和網站上的
數據進行對比,看看我們的數據中是否出現錯誤數據和空數據,并且對這些數
據進行分類等數據處理。
12
湖南商務職業(yè)技術學院畢業(yè)設計
4.1數據清洗
圖4-1數據清洗準備頁面
我們把我們爬取下來的數據,讀取一部分與網站上的數據進行對比,可以
發(fā)現我們的數據和網站上的數據一致,并沒有發(fā)現有錯誤值,缺失值,然后將
這些數據用csv格式儲存到本地,為了防止數據丟失也可以存一份數據到MySQL
數據庫中。
圖4-2數據清洗完成界面
清洗完成之后的數據就如圖4-2,可以發(fā)現和我們爬取下來的數據數量一致。
4.2數據儲存
爬取下來的數據要儲存起來有很多種方法,例如可以儲存為csv文件,或
者json文件,又或者是Excel文件等。這些只是一些常見的儲存數量比較少的。
如果我們要儲存大量的數據,那我們就要用到前面介紹過的MySQL數據庫,對
于MySQL數據庫我們前面有介紹。對于我們來說是很友好的,操作簡單,開源
免費。我們本次項目采用兩種方法儲存數據,就是csv和MySQL數據庫。其實
用csv格式儲存數據就可以了,但是為了確保數據不丟失還可以把數據存到數
13
湖南商務職業(yè)技術學院畢業(yè)設計
據庫里面。我們通過編程依次把我們要的數據也就是標題,時間,報社,關鍵
詞責,任編輯儲存為csv文件。然后直接把csv文件的數據存到MySQL數據庫
中。
4.3編程實現
爬取下來的數據儲存為csv文件,如圖4-3所示。
圖4-3數據庫創(chuàng)建頁面
為了確保數據不會丟失,我們把csv文件的數據存到MySQL數據庫中。創(chuàng)
建一個新的數據庫,注意要寫編碼為utf8,否則會出現亂碼,如圖4-4所示。
圖4-4數據庫創(chuàng)建頁面
創(chuàng)建數據表也是一樣的道理,注意設置編碼,如圖4-5所示。
圖4-5數據表創(chuàng)建頁面
我們把數據上傳到本地,然后從本地傳到創(chuàng)建的數據表中,如圖4-6所示。
圖4-6本地數據傳入數據表頁面
查看一下傳入的數據是否正常,部分數據如圖4-7所示。
14
湖南商務職業(yè)技術學院畢業(yè)設計
圖4-7數據展示頁面
5數據統(tǒng)計與分析
5.1數據準備
導入第三方庫,用pandas讀取數據,如圖5-1、5-2。
圖5-1數據準備頁面
15
湖南商務職業(yè)技術學院畢業(yè)設計
圖5-2數據加載完成頁面
5.2數據展示
5.2.1依據新聞關鍵詞進行統(tǒng)計
圖5-3數據展示頁面
16
湖南商務職業(yè)技術學院畢業(yè)設計
我們把爬取的新浪網新聞網站的國內新聞里面出現的關鍵詞字段,根據其
在新聞中出現的次數進行統(tǒng)計排序,按照字段出現的頻率進行分析可視化,繪
畫出詞云圖。如圖5-3所示,我們可以非常清楚直觀的看出新冠肺炎出現的次
數最多,也是最顯眼的,然后就是疫情感染,美國等字段。
在新聞網站上出現過這么多次,足以說明在近幾年,我國的新冠肺炎疫情
的嚴重程度,這疫情對我們的影響也是非常大的。不管是政府,普通市民還是
我們學生都有很多影響。很多服務企業(yè)都因為這個疫情而倒閉,企業(yè)倒閉也導
致公司的人員失業(yè),從而影響到我們的生活。對我們學生的影響有進行網課教
育,個人覺得上網課的效果并不好。還好今年已經全面開放了,對我們來說是
個好消息,我們找工作沒有那么難了。
從圖中還可以看到出現比較多中國,美國,外交等,可以了解到這幾年和
美國的外交并不好。在圖中出現多的關鍵詞也是我國比較看重的問題??催@個
圖我們就能大致看到近幾個月的新聞。我們的數據雖然只從新浪網上爬來的,
但是和其他的一些新聞網站也是有很多一致的新聞,就如我們最看重的疫情問
題,在全網都是隨處可見的。
5.2.2依據報社發(fā)表新聞數量進行統(tǒng)計
17
湖南商務職業(yè)技術學院畢業(yè)設計
圖5-4數據展示頁面
從圖5-4一眼就可以看出來哪個報社發(fā)表的新聞多,哪個報社發(fā)表的少,
其中新京報發(fā)表的是最多的,而觀察者網和長安街知事就發(fā)表的比較少。從各
個報社發(fā)表的數量間接的可以看出,人們更喜歡哪個報社,和哪個報社發(fā)布的
新聞更和我們的胃口,畢竟人們喜歡看,它才會發(fā)布的多。要是都沒什么人去
看那些新聞,那它就發(fā)布的少,浪費人力物力。
這個僅代表本次項目,就新浪網而言,當然不同的新聞網站每個報社的情
況又不一樣,但是也是可以大致代表的。從圖中還可以了解到一些不怎么出名
的報社,大部分還是我們生活中,手機上常見的。我們把很多小的報社都統(tǒng)一
歸為了其他,這些報社加起來居然占到了16.9%,超過了排在第一的新京報,這
些不出名的小型報社也是不可小覷的。從圖中我們也可以了解到我國報社的大
致局勢,哪些報社的實力強一點,哪些報社的實力弱一些。用餅圖來統(tǒng)計這個
報社數據還是很好的選擇,簡單直接。
5.2.3依據責任編輯來進行統(tǒng)計
圖5-5數據展示頁面
從圖5-5中可以看出新浪網的國內新聞責任編輯主要的幾個人,可以看出
祝加貝編輯員編輯的新聞數量最多,在其后面的是劉光博編輯員,他們倆編輯
的新聞數量加起來超過了整體的一半。劉鵬林和薄曉舟編輯員編輯的新聞數量
就比較少了,也不知是什么情況編輯數量低的是真的很低,數量高的又高的嚇
人,這種分布有點不正常,數量高的有幾百條,數量低的只有幾條。這并不能
18
湖南商務職業(yè)技術學院畢業(yè)設計
說明別人就沒有實力,畢竟能夠勝任新浪網這種大企業(yè)的編輯員就沒有實力不
夠的。只能說與排名第一的祝加貝編輯員相比,能力沒有那么強,優(yōu)勢沒有那
么大。又或者這只是最近幾個月是這樣。我們不能片面的看待這個問題。統(tǒng)計
編輯員編輯的數量用條形圖也是一下就能看出想要的結論。
5.2.4依據一個時間段新聞發(fā)布數量進行統(tǒng)計
圖5-6數據展示頁面
從圖5-6可以看出在2022年12月10左右發(fā)布的新聞數量在我們這次項
目中是最多的,為什么這段時間有那么多新聞呢,這個時期正是這疫情的關鍵
點上,我猜大概是因為這段時間很多人都感染了新冠肺炎,電視上,手機上都
是各種各樣的新聞報導,有什么專家建議啥的,那段時間醫(yī)院的床位都滿了,
有很多老人都沒能扛過這一段時間。然后新聞報道就會有很多,大概是因為這
個原因,這段時間的新聞數量是最多的。然后過了這段時間,新聞數量就沒有
那么多了。在2022年12月30左右新聞數量又在增長,也就是元旦節(jié)那段時間,
有很多人都在回家過年的路上或者已經回家了,人一聚的多就容易發(fā)生很多事,
有好的事情發(fā)生當然也有壞事發(fā)生,大家回家過年是好事,有好多人也會選擇
在這段時間辦喜酒,畢竟人多熱鬧。壞事就像大家回家過年,高速上多了很多
車禍,堵車等等,這些都是可以寫成新聞的。我猜測是這樣的。然后新聞的數
量在2023年1月9左右慢慢下降,這也是正常的記者,報社過年也會放假的,
發(fā)布新聞的數量自然而然就比較少了。新聞數量在2023年1月19也就是除夕
19
湖南商務職業(yè)技術學院畢業(yè)設計
那段時間達到了最低。
5.3綜述
綜上所訴,近年來我國的新聞大大小小有很多,通過爬取到的新聞數據來
說,報道最多的就是新冠肺炎疫情問題,這也是近年來我國很重視的問題。在
是2022年底的時候,國家宣布開放,不在封控,那個時候的新聞數量也是很多
的,畢竟突然解封,發(fā)生的事情有很多,那段時間外邊到處都是感染新冠的人
發(fā)生有大大小小的事有很多,電視上,手機上關于這方面的新聞多的很。我們
可以看到在新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色建筑設計與施工合同書(環(huán)保版)
- 蘇科版數學九年級上冊2.8 錐的側面積聽評課記錄
- 生產現場成本控制的有效方法
- 【基礎卷】同步分層練習:四年級下冊語文第3課《天窗》(含答案)
- 2025年度企業(yè)宣傳片定制與制作服務合同
- 機器人技術在教育行業(yè)的應用前景
- 湘教版數學七年級上冊《2.5整式的加法和減法(2)》聽評課記錄7
- 生產調度的核心科學化、智能化決策
- 2025年度智能電纜系統(tǒng)設備供應合同
- 人教版數學八年級上冊《角的平分線性質的應用》聽評課記錄
- 提高攜帶雙J管患者的健康教育落實率泌尿科品管圈課件
- 《隋朝的統(tǒng)一與滅亡》 -完整版課件
- API-650-1鋼制焊接石油儲罐
- 職業(yè)危害告知書(最新版)
- 金融科技課件(完整版)
- 醫(yī)院壓力性損傷患者質控標準
- 醫(yī)療機構規(guī)章制度診所診所規(guī)章制度
- 飲品店操作流程圖
- 風居住的街道鋼琴二胡合奏譜
- PADS元件封裝制作規(guī)范要點
- 第一講數字合成技術概述
評論
0/150
提交評論