基于深度學(xué)習(xí)LSTM模型的新聞分類方法設(shè)計_第1頁
基于深度學(xué)習(xí)LSTM模型的新聞分類方法設(shè)計_第2頁
基于深度學(xué)習(xí)LSTM模型的新聞分類方法設(shè)計_第3頁
基于深度學(xué)習(xí)LSTM模型的新聞分類方法設(shè)計_第4頁
基于深度學(xué)習(xí)LSTM模型的新聞分類方法設(shè)計_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言............................................................................................................................1

1.1項目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................1

1.2.1Python簡介..........................................................................................1

1.2.2Tensorflow簡介..................................................................................2

1.2.3Python第三方庫簡介..........................................................................2

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.2數(shù)據(jù)集采集功能分析..................................................................................3

2.3關(guān)鍵技術(shù)分析..............................................................................................3

2.3.1卷積神經(jīng)網(wǎng)絡(luò)原理...............................................................................3

2.3.2jieba關(guān)鍵技術(shù)....................................................................................4

3數(shù)據(jù)采集....................................................................................................................4

3.1數(shù)據(jù)集需求分析..........................................................................................4

3.2數(shù)據(jù)集獲取分析..........................................................................................5

3.3數(shù)據(jù)集下載..................................................................................................6

4數(shù)據(jù)集處理................................................................................................................6

4.1導(dǎo)入所需要的庫..........................................................................................6

4.2讀取訓(xùn)練集、驗證集和測試集..................................................................6

4.3查看數(shù)據(jù)集大小..........................................................................................7

4.4精確分詞......................................................................................................7

4.4.1保存分詞文件.......................................................................................7

4.4.2文本向量化...........................................................................................8

4.5拼接數(shù)據(jù)集及繪圖......................................................................................9

4.5.1繪制散點圖.........................................................................................10

4.5.2繪制直方圖.........................................................................................11

5模型構(gòu)建及評估分析..............................................................................................11

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.1模型構(gòu)建....................................................................................................11

5.1.1模型結(jié)構(gòu).............................................................................................11

5.1.2建立模型.............................................................................................12

5.2模型編譯....................................................................................................13

5.2.1優(yōu)化器設(shè)置.........................................................................................13

5.2.2損失函數(shù)設(shè)置.....................................................................................13

5.2.3模型編譯.............................................................................................13

5.3模型訓(xùn)練與調(diào)優(yōu)........................................................................................14

5.3.1模型訓(xùn)練設(shè)置.....................................................................................14

5.3.2學(xué)習(xí)率調(diào)優(yōu).........................................................................................14

5.3.3Epochs設(shè)置........................................................................................15

5.4模型部署....................................................................................................15

5.4.1系統(tǒng)前端設(shè)計.....................................................................................15

5.4.2設(shè)計效果展示及分析.........................................................................16

6小結(jié)..........................................................................................................................18

參考資料.........................................................................................................................20

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

基于深度學(xué)習(xí)LSTM模型新聞分類方法設(shè)計

1引言

在5G時代的快速推進(jìn)下,新聞的傳播速度以秒進(jìn)行,新聞的數(shù)據(jù)量導(dǎo)數(shù)

據(jù)的快速發(fā)展,大數(shù)據(jù)技術(shù)、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)自媒體等促進(jìn)

下,新聞的分類技術(shù)變得越來越成熟,將成千上萬條新聞進(jìn)行分類,讓它在人

們心中的價值越來越高。

1.1項目背景

隨著科技的快速發(fā)展和社會的多方面交流,新聞價值變得越來越高,也變

得越來越重要,其帶來的便捷性是毋庸置疑的。伴隨著互聯(lián)網(wǎng)的快速發(fā)展、大

數(shù)據(jù)分析快速發(fā)展和逐步完善,使得自媒體也變得越來越完善、成熟。

在當(dāng)今社會隨著5G時代的到來,人們每天的第一件事就是打開手機(jī),無

時無刻了解不同國家,不同地區(qū)的新聞信息,其數(shù)據(jù)量之多也不必多言,所以

如何處理這些新聞文本數(shù)據(jù),使其簡潔、干凈、去掉不需要不重要的信息,保

留有效,重要的信息變得越來越重要。

對于新聞本身而言,可以按很多定義去他的種類,就比如可以分為事件性

新聞和非事件新聞,按報道內(nèi)容,可以經(jīng)濟(jì)、社會、娛樂、軍事、游戲等等,

覆蓋了動態(tài)新聞和綜合新聞。

對普通老百姓網(wǎng)上沖浪一些自媒體,網(wǎng)站等各種新聞發(fā)布者、傳播者對新

聞進(jìn)行分類越來越簡潔深受大眾好評這也充分證明的新聞分類的可行性及其重

要性。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

在荷蘭荷牛科技大學(xué)設(shè)計和開發(fā),起初是為了作為一種簡單易學(xué)的腳本語

言,但是隨著時間的推移,Python已成長為一種全功能的編程語言,被廣泛用

于Web開發(fā)、科學(xué)計算、人工智能、數(shù)據(jù)分析等領(lǐng)[1]。

Python開源的特性,使得全世界都可以參與它的開發(fā)和推廣。Python社

區(qū)龐大,有豐富的文檔、教程、代碼庫和第三方擴(kuò)展包,讓Python成為眾多

開發(fā)人員和科學(xué)家的首選編程語言之一。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

1.2.2Tensorflow簡介

目前有不少深度學(xué)習(xí)的基礎(chǔ)框架,其中tensorflow提供python的接口。

Tensorflow是機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中的兩個框架之一,也同樣是一個開源軟件

庫,是利用計算圖去精確計算數(shù)值。

TensorFlow提供了各種API,可以提供給初學(xué)者和專家在桌面、移動、網(wǎng)

絡(luò)和云端環(huán)境下進(jìn)行開發(fā)[1]。

數(shù)據(jù)以張量(Tensor)的形式在計算圖中流動(Flow),這也是這個計算

框架命名為TensorFlow的原因。

Tableau數(shù)據(jù)可視化分析產(chǎn)品,能夠連接數(shù)據(jù)庫,呈現(xiàn)動態(tài)的數(shù)據(jù)變化,

更加直觀的進(jìn)行數(shù)據(jù)分析。

1.2.3Python第三方庫簡介

requests:最友好的網(wǎng)絡(luò)爬蟲功能庫,非常簡潔,相比于urllib使用非

常容易,第三方庫都需要先安裝才能去使用[8]。

Re:正則表達(dá)式解析和處理功能庫,里面包含了多種字符串匹配的方法。

NumPy庫是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫,NumPy庫

的數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效[2]。

pandas:數(shù)據(jù)分析并保存為csv文件,python數(shù)據(jù)分析高層次應(yīng)用庫,還

可以進(jìn)行數(shù)據(jù)清洗[9]。

matplotlib:繪圖庫,主要是偏向于二維繪圖包括折線圖、條形圖、扇形

圖、散點圖、直方圖等等。

jieba:生成中文詞云的。

主要用到的就是結(jié)巴庫:

結(jié)巴庫:jieba是所有第三方庫之中比較好用的一個中文分詞,因為中文

文本每個漢字之間都是不間斷書寫的,所以我們需要利用某些特定的手段去把

中文文本分成每個詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這

個過程。

Jieba分詞原理:利用了一個中文詞庫,把需要分詞的中文文本和分詞里

面的詞庫對比,然后通過圖結(jié)構(gòu)和動態(tài)規(guī)則劃分方法找到最大概率的詞組。除

了分詞,jieba還提供增加自定義中文單詞的功能[3]。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python編程語言通俗易懂、是一種動態(tài)的面對對象的腳本語言。這讓它對

于爬蟲領(lǐng)域有著巨大的優(yōu)勢,是當(dāng)前爬蟲的首選語言。本項目便是利用python

采集數(shù)據(jù),通過python第三方庫進(jìn)行數(shù)據(jù)分析、與數(shù)據(jù)可視化的展示[9]。

Tableau是一款對人操作十分友好的軟件,利用它對數(shù)據(jù)可視化進(jìn)行展示和分

析也十分便捷[2]。

2.項目可行性

在這個5G時代下,自媒體、網(wǎng)站、各種手機(jī)新聞軟件等等其中新聞樣

式、內(nèi)容、數(shù)據(jù)等等都需要用到新聞分類,使新聞變得簡潔、干凈,讓讀者觀

看新聞更加舒適,從而達(dá)到新聞分類的最高效益化,所以新聞分類的可行性非

常之高。

2.2數(shù)據(jù)集采集功能分析

此次項目的數(shù)據(jù)集來源于騰訊網(wǎng),是通過python爬取騰訊網(wǎng)各種新聞包

括財經(jīng)、科技、娛樂、體育等新聞信息。

本次爬取騰訊網(wǎng),主要目的是通過實際數(shù)據(jù)來分析描述新聞的內(nèi)容如何分

類,比如:什么樣的新聞文字往那一條新聞里面放,就比如實時新聞是否應(yīng)該

放到首頁,持續(xù)更新,吸引讀者的視力,讓讀者還沒有點開新聞條里面去就能

看到該條實時新聞。還有它本設(shè)有的熱點精選新聞,該如何放入哪個類型的新

聞,還可以適當(dāng)通過大數(shù)據(jù)來獲取讀者是偏向于哪種新聞信息,喜歡什么樣的

內(nèi)容就變化成每一個用戶喜歡的新聞內(nèi)容,樣式等等。

2.3關(guān)鍵技術(shù)分析

2.3.1卷積神經(jīng)網(wǎng)絡(luò)原理

LSTM模型,是一種神經(jīng)網(wǎng)絡(luò)模型這種,這種網(wǎng)絡(luò)模型在循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

上加以改進(jìn)[10]。LSTM模型的設(shè)計目的是解決長序列數(shù)據(jù)在傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)

絡(luò)中,非常容易形成梯度消失或者梯度爆炸等一系列的問題,因此變得不能非

常高效地學(xué)習(xí)到一些能夠長期依賴信息的限制。LSTM模型的核心是通過添加門

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

控單元,來控制信息的流動和保留。它的組成其主要由三種門控單元:輸入

門,遺忘門,輸出門。其中,第一個輸入門用來控制網(wǎng)絡(luò)內(nèi)部的輸入流量,而

第二個遺忘門用于控制輸入的遺忘流量,輸出門控制網(wǎng)絡(luò)外部的輸出流量,從

而通過不同的門控機(jī)制,可以有效地控制和調(diào)節(jié)信息的流量和保存[5]。

因此,LSTM模型不僅能夠?qū)W習(xí)到長序列數(shù)據(jù)之間的相互關(guān)系,還能夠?qū)⑾?/p>

前時間步驟的信息傳遞到后續(xù)的時間步驟,進(jìn)而影響后續(xù)預(yù)測的結(jié)果。LSTM目

前在語音識別、機(jī)器翻譯、時間序列預(yù)測等領(lǐng)域中都取得了重要的應(yīng)用效果

[4]。

2.3.2jieba關(guān)鍵技術(shù)

jieba是目前在python領(lǐng)域中對于中文分詞有著非常好的表現(xiàn),擁有三個

非常高效的特性,比如第一個:中文文本需要通過分詞才能獲得單個的詞語。

而第二個:結(jié)巴需要另外去安裝,是一個獨立的庫。第三個:結(jié)巴庫提供三種

分詞模式。

jieba庫的分詞原理:使用一個中文詞庫,然后去確定中文文字之間的關(guān)

聯(lián)概率,文字之間概率的組成詞組,從而去形成分詞的結(jié)果。除此之外,我們

自己還可以去自定義的添加一個詞組[6]。

算法:

基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所

構(gòu)成的有向無環(huán)圖(DAG)[3]。

采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合對于

未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算

法。

3數(shù)據(jù)采集

3.1數(shù)據(jù)集需求分析

打開QQ瀏覽器,首先登錄騰訊網(wǎng),在搜索欄中輸入關(guān)鍵字:體育、娛

樂、家居、房產(chǎn)、教育、時尚、時政、游戲、科技和財經(jīng)點擊搜索,觀察圖3-

1,其中的網(wǎng)絡(luò)頁面如下圖所示;然后點擊頁面下方的分頁按鈕,同時觀察

URL,發(fā)現(xiàn)URL沒有變化。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-1。利用全局搜索工具定位所

需數(shù)據(jù)位置,點擊開發(fā)者工具上面的Headers字段,分析這是個什么請求,然

后找到POST請求。

3.2數(shù)據(jù)集獲取分析

定位到我們所需要的數(shù)據(jù)所在的位置,點擊一條新聞:教育,調(diào)出全局搜

索框搜索,點擊數(shù)據(jù)預(yù)覽Preview,如圖3-2,然后找到新聞這個數(shù)據(jù)在

positionResult下result列表中。最后找到j(luò)son數(shù)據(jù)。

圖3-2分析數(shù)據(jù)類型頁面

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

3.3數(shù)據(jù)集下載

將數(shù)據(jù)集下載保存在cnews中

圖3-3下載數(shù)據(jù)集

三個數(shù)據(jù)集如下圖所示,含有dev數(shù)據(jù)集,train訓(xùn)練集和test測試

集。

圖3-4訓(xùn)練集、測試集和驗證集

4數(shù)據(jù)集處理

4.1導(dǎo)入所需要的庫

首先第一個步是安裝所需要的第三方庫,在這里我們導(dǎo)入pandas庫別名為

pd,導(dǎo)入numpy庫別名為,導(dǎo)入tensorflow庫別名為tf,再從

gensim.models導(dǎo)入word2vec,代碼如圖4-1所示。

圖4-1導(dǎo)入pd,np,tf包

4.2讀取訓(xùn)練集、驗證集和測試集

對數(shù)據(jù)集進(jìn)行讀取,如圖代碼4-2所示。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-2讀取數(shù)據(jù)集

4.3查看數(shù)據(jù)集大小

利用shape()對訓(xùn)練集查看大小,如圖4-3所示。

圖4-3訓(xùn)練集的矩陣大小

它的大小是50000x2的矩陣,如圖4-4所示。

圖4-4訓(xùn)練集的矩陣大小

然后我們使用train[‘content’][0]查看內(nèi)容中第一行的內(nèi)容。如下圖

4-5所示。

圖4-5取出的訓(xùn)練集內(nèi)容

4.4精確分詞

首先引入結(jié)巴庫,利用jieba庫中的jieba.lcut()函數(shù)來進(jìn)行精確分詞,

定義一個分詞函數(shù)變量,分詞完之后用空格對其進(jìn)行連接。

圖4-6設(shè)立精確分詞函數(shù)

4.4.1保存分詞文件

先導(dǎo)入OS庫:ImportOS,導(dǎo)入os庫之后,保存精確分200個詞的文件保

存。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-7對三個數(shù)據(jù)集分詞

精確分詞:以空格為分開符號來對文本前面200個詞語進(jìn)行精確分詞

size=200,window=5,Iter=10,worker=11,seed=2018,min_count=2。

圖4-8對三個數(shù)據(jù)集分詞

利用model.save()函數(shù),word2vec.load()函數(shù)保存文件。

顯示精確分詞之后的文本內(nèi)容如下所示:

圖4-9前200詞精確分詞文本

4.4.2文本向量化

創(chuàng)建一個分詞器tokenizer,根據(jù)文本更新內(nèi)部分詞器信息。

圖4-10建立分詞器

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

根據(jù)單詞劃分然后生成文本序列:

圖4-11文本序列

根據(jù)分詞數(shù),分詞文本來創(chuàng)建一個矩陣。

圖4-12文本矩陣

矩陣內(nèi)容如下圖所示:

圖4-13矩陣內(nèi)容

4.5拼接數(shù)據(jù)集及繪圖

在這里我們使用pd的concat對數(shù)據(jù)集進(jìn)行拼接。

圖4-14拼接數(shù)據(jù)集

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

導(dǎo)入matplotlib.pyplot、numpy庫。

圖4-15導(dǎo)入繪制圖形所需要的matplottlib.pyplot包

4.5.1繪制散點圖

首先利用plt.figure來弄一個大小20,10的圖,頂峰值用*并且拿紅

色來進(jìn)行填充,設(shè)置三條無限長的直線分別是黑色、卡其色和橘色,橘色最

高,卡其色第二,黑色位于最后一個。在這里先用np.mean()函數(shù)對其進(jìn)行

畫線,用percentile函數(shù)把第二條和第三條的values設(shè)為90和98.

圖4-16繪畫出數(shù)據(jù)集的一個散點圖

圖4-17繪制出來的散點圖型

從散點圖的內(nèi)容上來說,15000達(dá)到了一個峰值,先達(dá)到一個最低,然后

迅速的發(fā)展到了頂峰。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

4.5.2繪制直方圖

圖4-18繪制出來的直方圖圖型

從直方圖可以看出,體育、娛樂、家居、房產(chǎn)、教育、時尚、時政、

游戲、科技和財經(jīng)他們的數(shù)據(jù)內(nèi)容都一致,他們的長度都相同。

5模型構(gòu)建及評估分析

5.1模型構(gòu)建

5.1.1模型結(jié)構(gòu)

首先去定義兩個需要隱藏空間的維度,它們這個兩個維度的大小都可以通

過自己來進(jìn)行調(diào)整,第一個維度它被利用控制詞嵌入時的一個維度,然后第二

個維度就是用來控制這個模型的兩個狀態(tài)變量,這兩個變量分別是h,c維

度。然后定義它的輸入變量,這個變量長度是一個向量。接下來通過

embedding函數(shù),從而去實現(xiàn)詞嵌入,之后就變成一個可以控制的向量,然后

把x作為函數(shù)LSTM的輸入,因此建立模型。它經(jīng)歷了一次embedding層,這

一層是把所有不相同的中文文字都放進(jìn)一個虛擬空間中,然后來一次LSTM

層,通過三個門來進(jìn)行消耗,最后進(jìn)行全連接。

先導(dǎo)入labelencoder包,對數(shù)據(jù)集進(jìn)行分析模型結(jié)構(gòu)代碼如下圖5-1所

示。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-1模型結(jié)構(gòu)

模型結(jié)構(gòu)分析結(jié)果圖如下圖5-2所示

圖5-2分詞內(nèi)容

5.1.2建立模型

在這里我們使用embedding對其進(jìn)行建立模型如下圖5-3所示

圖5-3建立模型

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2模型編譯

5.2.1優(yōu)化器設(shè)置

優(yōu)化器的作用就是用來優(yōu)化損失函數(shù),用來更新和計算影響模型訓(xùn)練和模

型輸出的網(wǎng)絡(luò)參數(shù),讓它變得最優(yōu)值,讓損失函數(shù)最小化的形式去修改可訓(xùn)練

集。常見的優(yōu)化器梯度下降法,其中包括批量梯度,隨機(jī)梯度和小批量梯度。

把學(xué)習(xí)率設(shè)為0.001,最小化的目標(biāo)函數(shù),使用Adam優(yōu)化器,學(xué)習(xí)率為

learning_rate。

圖5-4設(shè)置學(xué)習(xí)率

5.2.2損失函數(shù)設(shè)置

損失函數(shù)是用來評估模型的預(yù)測值和真實值的方法,去評估它們不一樣的

程度大小,是一個神經(jīng)網(wǎng)絡(luò)中需要優(yōu)化的目標(biāo)函數(shù),也可以去衡量一個模型的

性能好或者壞,從而去引導(dǎo)我們優(yōu)化算法,然后達(dá)到一個提高模型的性能,它

的設(shè)計方法存在算法,模型和訓(xùn)練實驗這三個方面的影響。

損失函數(shù)另外還有兩個非常突出的主要作用,第一個是去計算輸出與預(yù)期

之間的一個差距,從而讓模型調(diào)整方便提供有效的信息。第二個主要作用是損

失的降低到讓收斂去對模型的一個有效性進(jìn)行一次重要而不可避免的檢驗方

式。

利用metrics中的mean()和categoricalaccuracy()分別對訓(xùn)練集和測試

集進(jìn)行設(shè)置。

圖5-5損失函數(shù)

5.2.3模型編譯

在這里我們調(diào)用model.summary()對其進(jìn)行模型編譯。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-6模型編譯

5.3模型訓(xùn)練與調(diào)優(yōu)

5.3.1模型訓(xùn)練設(shè)置

設(shè)置訓(xùn)練損失和精確,利用tensorflow中的keras的metric來進(jìn)行設(shè)置

對訓(xùn)練集損失,精確操作:

圖5-7訓(xùn)練集精確操作

對測試集損失,精確操作:

圖5-8測試集精確操作

5.3.2學(xué)習(xí)率調(diào)優(yōu)

設(shè)置學(xué)習(xí)率,我們在這里把學(xué)習(xí)率設(shè)為0.001。

圖5-9設(shè)置學(xué)習(xí)率

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.3.3Epochs設(shè)置

把epochs設(shè)為10,把訓(xùn)練集和測試集進(jìn)行損失、精確調(diào)試,循環(huán)EPOCHS

長度來一次對訓(xùn)練集和測試集損失和精確。

圖5-10epochs設(shè)置

5.4模型部署

5.4.1系統(tǒng)前端設(shè)計

點擊黑色框里面的文字“點擊上傳文本數(shù)據(jù)集”,然后我們就可以上傳新

聞文本數(shù)據(jù)集,然后初始的新聞列表條數(shù)都為0。進(jìn)行新聞分類之后就可以顯

示出分類之后的新聞條數(shù)的統(tǒng)計圖。

圖5-11上傳文本數(shù)據(jù)集

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.4.2設(shè)計效果展示及分析

取50條新聞進(jìn)行分類之后統(tǒng)計的各個新聞的條數(shù)。進(jìn)行上傳文本數(shù)據(jù)集然

后分類之后統(tǒng)計的新聞條數(shù)統(tǒng)計圖,如下圖所示所示。

圖5-12python運行之后的結(jié)果圖

由圖5-13所示,可以看出模型編譯之后它的一個準(zhǔn)確率高達(dá)0.98,非常

明確的表明了這個模型進(jìn)行新聞分類十分精準(zhǔn)。

圖5-13分類之后模型準(zhǔn)確率

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-14分類之后顯示的新聞條數(shù)結(jié)果

圖5-15分類結(jié)果

將新聞文本內(nèi)容匯總,分有體育、娛樂、家居、房產(chǎn)、教育、時尚、時

政、游戲、科技和財經(jīng)。如圖5-15中可以看出時政在新聞文本中他的熱度非常

高后面科技和時尚據(jù)地位。

不難發(fā)現(xiàn),時政和體育位居第一,這說明了在我國高速科技的發(fā)展下,時

政和已經(jīng)變成了我國的一項熱門話題,從2008年的北京奧運會開始,我們國

家在體育的發(fā)展上已經(jīng)取得了一個階段性的成功,獲取了總金牌數(shù)的第二名,

在這小小二十年的發(fā)展,體育肯定發(fā)展到了一個驚人的地步,尤其是乒乓球,

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

一直以來都是我國的一個強(qiáng)項;體育當(dāng)然給人們帶來了不可質(zhì)疑的好處,熱愛

一門體育項目,就能是自己的身體健康得到一個良好的基礎(chǔ)保證和保障,所

以,體育位居榜首是一個非常好的體現(xiàn)。

其次就是房產(chǎn)也是和體育熱度排到第一個,這是因為什么呢,我們國家是

一個人口基數(shù)大,人占比地區(qū)少的一個國家,在我們國家的每個人的努力下,

人人都過上了好

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論