《垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究》12000字_第1頁(yè)
《垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究》12000字_第2頁(yè)
《垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究》12000字_第3頁(yè)
《垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究》12000字_第4頁(yè)
《垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究》12000字_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)研究第1章緒論 .2.3樸素貝葉斯算法樸素貝葉斯的優(yōu)勢(shì)在于算法簡(jiǎn)單,思路簡(jiǎn)單易于實(shí)現(xiàn)等。樸素貝葉斯算法的基礎(chǔ)是假設(shè)各特征之間相互獨(dú)立,是由P(A|B)到P(B|A)的過(guò)程,即通過(guò)數(shù)據(jù)的處理找到特征X與Y的聯(lián)合分布函數(shù)P(X,Y),然后使用公式P(Y|X)=P(X,Y)P(X)得出相應(yīng)的概率。樸素貝葉斯算法的網(wǎng)絡(luò)模型如圖3.1圖3-1樸素貝葉斯算法的網(wǎng)絡(luò)模型貝葉斯分類器擁有三種模型,高斯貝葉斯,伯努利貝葉斯與樸素貝葉斯,這三種模型都要求數(shù)據(jù)集中的特征間相互獨(dú)立(薛博文,陸雅琪,2023)。上述結(jié)論在全面性和科學(xué)性上均達(dá)標(biāo),展現(xiàn)了本研究團(tuán)隊(duì)的嚴(yán)謹(jǐn)態(tài)度與科學(xué)思維。通過(guò)深入探究,不僅驗(yàn)證了已整理的理論支撐,還發(fā)現(xiàn)了一些新的現(xiàn)象和趨勢(shì),這些新發(fā)現(xiàn)為相關(guān)領(lǐng)域的研究提供了新視角和新思路。在研究過(guò)程中,本文注重細(xì)節(jié),對(duì)每個(gè)關(guān)鍵點(diǎn)都進(jìn)行了細(xì)致的審查和驗(yàn)證,以確保研究結(jié)果的精確性和可靠性。同時(shí),本文還積極與同行交流,吸收他們的寶貴建議,不斷完善和優(yōu)化研究方法。這種嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度和科學(xué)方法,不僅保證了本研究的質(zhì)量和水準(zhǔn),也為后續(xù)研究提供了可借鑒的范例。由于每個(gè)文本都擁有眾多的特征所以每個(gè)文本都具有n維特征向量,從這些步驟可以領(lǐng)悟到對(duì)于給定的類變量Ck,基于其特征屬性之間相互獨(dú)立令特征屬性為w1,w在伯努利貝葉斯算法模型中,無(wú)論詞組出現(xiàn)了多少次,無(wú)論詞組的出現(xiàn)順序如何,詞組的重要程度是一樣的,即在在伯努利貝葉斯算法模型中它們的權(quán)重是相同的。所以伯努利樸素貝葉斯中只看重特征出現(xiàn)與否,出現(xiàn)權(quán)重為1,不出現(xiàn)權(quán)重就為0(殷志遠(yuǎn),陶靜雅,2023)。設(shè)Bxi表示特征wj在文本d中的出現(xiàn)情況,Bxi P(d|CiP(d|Ci)是由特征簡(jiǎn)單相乘,出現(xiàn)與否只是采用前式與后式的區(qū)別。若特征在文本中出現(xiàn),則乘的是P(wj|CiP(wj|P(wj|對(duì)上述公式進(jìn)行簡(jiǎn)單的平滑處理得到:P(wj樸素貝葉斯算法在實(shí)現(xiàn)過(guò)程中,分為兩個(gè)步驟,首先我們需要將原始數(shù)據(jù)進(jìn)行訓(xùn)練,將得到的訓(xùn)練集經(jīng)過(guò)分詞處理再提取特征,從這些經(jīng)歷中看出用來(lái)得到不同特征的先驗(yàn)概率以便計(jì)算后驗(yàn)概率流程圖如3.2((王麗娜,鄭浩然,2023),2023):圖SEQ圖表\*ARABIC3-2貝葉斯算法分類的數(shù)據(jù)學(xué)習(xí)過(guò)程其次是將測(cè)試集的垃圾短信同樣進(jìn)行分詞處理后提取特征提取,將測(cè)試集中向量空間的所有類別的先驗(yàn)概率和測(cè)試集中特征項(xiàng)的條件概率通過(guò)貝葉斯算法進(jìn)行概率計(jì)算,每個(gè)理論模型都是對(duì)現(xiàn)實(shí)世界的簡(jiǎn)化表達(dá),因此總會(huì)包含一些近似處理。這可能導(dǎo)致模型在某些特定情境或極端條件下無(wú)法完全符合實(shí)際情況。為了彌補(bǔ)這一不足,本文在構(gòu)建和驗(yàn)證模型時(shí),特別注重模型的適用邊界和限制條件,并在研究中進(jìn)行了深入的探討和闡述。同時(shí),本文通過(guò)與其他研究方法和實(shí)證數(shù)據(jù)的對(duì)比,來(lái)評(píng)估模型的精確度和可靠性。這種全面的評(píng)價(jià)方式,有助于本文更深入地認(rèn)識(shí)模型的局限性和潛在風(fēng)險(xiǎn),為后續(xù)的研究和應(yīng)用提供有益的啟示。最終綜合判定是否屬于垃圾短信(郝梓和,沈婉瑩,2023)。如圖3.3:圖3-3貝葉斯算法的分類過(guò)程3.3樸素貝葉斯算法優(yōu)缺點(diǎn)3.3.1樸素貝葉斯算法的優(yōu)點(diǎn)樸素貝葉斯算法在基于文本內(nèi)容的分類上,具有不可撼動(dòng)的地位,使用樸素貝葉斯算法進(jìn)行文本分類工作也是目前國(guó)際趨勢(shì)(殷瑞霖,費(fèi)慧文,2023):(1)構(gòu)建簡(jiǎn)易,樸素貝葉斯算法被業(yè)內(nèi)人士寵愛(ài)的原因是操作簡(jiǎn)捷,效率較高,數(shù)據(jù)集只需要滿足離散和數(shù)據(jù)量足夠大,模型會(huì)有較高的準(zhǔn)確率。(2)錯(cuò)誤率較低,樸素貝葉斯根據(jù)數(shù)據(jù)進(jìn)行分類,當(dāng)數(shù)據(jù)量足夠大時(shí)樸素貝葉斯會(huì)有較高的準(zhǔn)確率,長(zhǎng)期使用樸素貝葉斯會(huì)使數(shù)據(jù)量越來(lái)越大,準(zhǔn)確率會(huì)越來(lái)越高。(3)精準(zhǔn),長(zhǎng)期使用樸素貝葉斯會(huì)使數(shù)據(jù)標(biāo)簽更為精確集中,樸素貝葉斯對(duì)于垃圾短信的先驗(yàn)概率會(huì)逐步提高,使得模型準(zhǔn)確率逐步提高。本文結(jié)合各學(xué)科的專業(yè)視角、探究渠道與技術(shù)平臺(tái),研究者們能更高效地解決科學(xué)問(wèn)題,發(fā)掘出更具創(chuàng)新性和實(shí)用價(jià)值的解決之道。通過(guò)跨學(xué)科的協(xié)同與合作,本文成功匯集了不同領(lǐng)域的知識(shí)與技術(shù)資源,共同破解科學(xué)難題,推動(dòng)相關(guān)領(lǐng)域的革新與進(jìn)步。這種綜合性的研究方法,不僅深化了本文對(duì)研究對(duì)象本質(zhì)與規(guī)律的認(rèn)識(shí),還催生了新的研究視角和方法,為科學(xué)研究的創(chuàng)新提供了源源不斷的活力。通過(guò)本文的研究,本文凸顯了跨學(xué)科合作在科學(xué)研究中的巨大潛力和重要價(jià)值,為未來(lái)的研究提供了新的方向。(4)自定義庫(kù),日常工作中用戶會(huì)自行標(biāo)記垃圾短信,在這樣的條件下樸素貝葉斯分類器可以逐步標(biāo)記垃圾短信特征值,提高垃圾短信特征值準(zhǔn)確率,不斷更新數(shù)據(jù)庫(kù)使得垃圾短信識(shí)別準(zhǔn)確率提高(葛思遠(yuǎn),項(xiàng)雅婷,2023)。目前,由于樸素貝葉斯算法的流程較為簡(jiǎn)單,模型構(gòu)建較為簡(jiǎn)潔,準(zhǔn)確率較高,盡管樸素貝葉斯所需大量的數(shù)據(jù)庫(kù),所以基于文本內(nèi)容的文本分類中樸素貝葉斯算法依然是主流算法之一。3.3.2貝葉斯分類方法的缺點(diǎn)(1)樸素貝葉斯分類器目前大范圍使用在英文文本中,基于中文文本內(nèi)容的樸素貝葉斯分類器并沒(méi)有大規(guī)模使用,原因在于中文文本分詞與英文文本分詞相比難度更大,準(zhǔn)確率也沒(méi)有英文分詞高,在此情況下在引用jieba分詞后,還需手動(dòng)添加停用詞,自定義字典使得工作量增加,程序更加冗雜(虞嘉偉,盛雨萱,2023)。(2)樸素貝葉斯的準(zhǔn)確率來(lái)自于原始數(shù)據(jù)庫(kù)的大小,所以一款好的樸素貝葉斯分類器需要龐大的數(shù)據(jù)庫(kù),但樸素貝葉斯算法不能實(shí)時(shí)更新數(shù)據(jù)庫(kù),這會(huì)導(dǎo)致先驗(yàn)概率失準(zhǔn),當(dāng)系統(tǒng)將d∈Ck誤判為Ck的情況,在用戶識(shí)別后系統(tǒng)通過(guò)學(xué)習(xí)只是將短信向量d在不同的類別中進(jìn)行簡(jiǎn)單地增減,而并不能保障P((3)容錯(cuò)率較低,由于用戶自行標(biāo)記垃圾短信會(huì)出現(xiàn)誤標(biāo)等不當(dāng)操作行為,樸素貝葉斯會(huì)錯(cuò)誤的標(biāo)記垃圾短信,影響用戶正常收發(fā)合法短信,會(huì)對(duì)用戶產(chǎn)生相應(yīng)的損失,降低系統(tǒng)的實(shí)用性。(4)儲(chǔ)存空間大,數(shù)據(jù)量的龐大與否決定了樸素貝葉斯算法分類的精準(zhǔn)度,數(shù)據(jù)量越大,分類準(zhǔn)確率越高,龐大的數(shù)據(jù)集會(huì)影響服務(wù)器效率,提高程序的復(fù)雜程度,數(shù)據(jù)處理速度也會(huì)大幅度降低,影響使用。第4章模型的設(shè)計(jì)與實(shí)現(xiàn)4.1python模塊介紹基于前文的介紹,對(duì)垃圾短信和樸素貝葉斯算法有了簡(jiǎn)單的了解,本章主要介紹模型的具體設(shè)計(jì)與實(shí)現(xiàn)4.1.1開發(fā)環(huán)境介紹本文使用的是Anaconda3編輯器進(jìn)行編程,Anaconda3是基于jupyternotebook的編輯器,它是一款方便python設(shè)計(jì)的軟件,自帶python與豐富的第三方庫(kù),使得編程更加輕松簡(jiǎn)單(李俊明,王思遠(yuǎn),2023)。4.1.2相關(guān)模塊介紹1.Jieba分詞jieba分詞是將中文文本切割為短語(yǔ)類型,jieba分詞算法使用了最大釋然匹配法,根據(jù)jieba自帶詞語(yǔ)庫(kù)生成有向無(wú)環(huán)圖,通過(guò)整合多學(xué)科的專業(yè)智慧、探究方式和技術(shù)手段,研究人員能更全面地理解研究對(duì)象的本質(zhì)和深層次復(fù)雜性,從而提出更為精確和高效的應(yīng)對(duì)方案。這種跨學(xué)科的整合不僅開闊了研究的領(lǐng)域,還推動(dòng)了各領(lǐng)域間知識(shí)的互動(dòng)與整合,為科學(xué)研究的創(chuàng)新提供了豐富的素材與靈感。借助多學(xué)科的理論與方法,研究人員能更深入地探索研究對(duì)象的潛在規(guī)律與運(yùn)作模式。找尋最短路徑切割句子。在不同的分詞模式下有著不同的效果,分詞模式分為Precisemode,F(xiàn)ullmode,paddlemode和Searchenginemode。其中Precisemode為準(zhǔn)確模式,在這種情形下一般適用于文本分析,是將整句進(jìn)行精確的切割本文將采取此模式(張麗萍,劉文杰,2023)。Fullmode為全模式,是速度最快的模式,可以將整句所有可能都給出,但不能保證準(zhǔn)確性,一般用于訓(xùn)練模型。paddlemode為漿模式也稱為攪拌模式,他是利用paddle機(jī)器學(xué)習(xí)模塊,使用網(wǎng)絡(luò)模型進(jìn)行分詞。Searchenginemode為搜索引擎模式,他是為搜索引擎獨(dú)特搭建的模式。jieba分詞器除了上述幾種模式外還可以添加自定義詞典,當(dāng)jieba分詞結(jié)果與預(yù)期不一致后,可以添加自定義詞典,jieba分詞會(huì)根據(jù)用戶的自定義詞典進(jìn)行分詞。盡管jieba分詞自建庫(kù)在不斷更新,這在一定意義上透露了但自己添加詞典可以根據(jù)需求進(jìn)行切分以提高正確率(周凱瑞,陳宏宇,2023)。2.Scikit-LearnScikit-Learn簡(jiǎn)稱sklearn是Python中的機(jī)器學(xué)習(xí)庫(kù)。它基于NumPy,SciPy,Pandas和Matplotlib構(gòu)造,其中的接口簡(jiǎn)單方便,是機(jī)器學(xué)習(xí)中非常重要的庫(kù)。Scikit-Learn采取監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種,此處本文采取監(jiān)督學(xué)習(xí)。Scikit-Learn庫(kù)中還有預(yù)處理,回歸,聚類,分類,降維,模型選擇六大模塊。Scikit-Learn大部分函數(shù)可以分為轉(zhuǎn)換器與估計(jì)器,通過(guò)轉(zhuǎn)換器一步步將初始數(shù)據(jù)轉(zhuǎn)換為模型需要的數(shù)據(jù),最終通過(guò)估計(jì)器輸出(鄭曉楠,孫志強(qiáng),2023)。估計(jì)器的作用是預(yù)測(cè)評(píng)分或者進(jìn)行回歸分析,估計(jì)器也是模型的一種?;旧瞎烙?jì)器都會(huì)有以下幾個(gè)方法:表格4-1估計(jì)器代碼解釋fit(x,y)傳入數(shù)據(jù)以及標(biāo)簽即可訓(xùn)練模型,訓(xùn)練的時(shí)間和參數(shù)設(shè)置,數(shù)據(jù)集大小以及數(shù)據(jù)本身的特點(diǎn)有關(guān)score(x,y)用于對(duì)模型的正確率進(jìn)行評(píng)分(范圍0-1)。但由于對(duì)在不同的問(wèn)題下,評(píng)判模型優(yōu)劣的的標(biāo)準(zhǔn)不限于簡(jiǎn)單的正確率,可能還包括召回率或者是查準(zhǔn)率等其他的指標(biāo),特別是對(duì)于類別失衡的樣本,準(zhǔn)確率并不能很好的評(píng)估模型的優(yōu)劣,因此在對(duì)模型進(jìn)行評(píng)估時(shí),不要輕易的被score的得分蒙蔽。predict(x)用于對(duì)數(shù)據(jù)的預(yù)測(cè),它接受輸入,并輸出預(yù)測(cè)標(biāo)簽,輸出的格式為numpy數(shù)組。我們通常使用這個(gè)方法返回測(cè)試的結(jié)果,再將這個(gè)結(jié)果用于評(píng)估模型。轉(zhuǎn)化器(Transformer)用于對(duì)數(shù)據(jù)的處理,例如分詞處理,特征提取,數(shù)據(jù)集劃分等,其用法與估計(jì)器用法一致。表格4-2轉(zhuǎn)化器代碼解釋fit(x,y)該方法接受輸入和標(biāo)簽,計(jì)算出數(shù)據(jù)變換的方式。transform(x)根據(jù)已經(jīng)計(jì)算出的變換方式,返回對(duì)輸入數(shù)據(jù)x變換后的結(jié)果(不改變x)fit_transform(x,y)該方法在計(jì)算出數(shù)據(jù)變換方式之后對(duì)輸入x就地轉(zhuǎn)換。以上僅僅是簡(jiǎn)單的概括Scikit-Learn的函數(shù)的一些特點(diǎn)。Scikit-Learn絕大部分的函數(shù)的基本用法大概如此。但是不同的估計(jì)器會(huì)有自己不同的屬性,例如隨機(jī)森林會(huì)有Feature_importance來(lái)對(duì)衡量特征的重要性,而邏輯回歸有coef_存放回歸系數(shù)intercept_則存放截距等等。4.2數(shù)據(jù)獲取短信文本數(shù)據(jù)來(lái)源于csdn論壇,數(shù)據(jù)量近8萬(wàn),且已經(jīng)做過(guò)文本去重,去除空值,去除空格等簡(jiǎn)單的數(shù)據(jù)處理工作的數(shù)據(jù)集。數(shù)據(jù)網(wǎng)址為:(/download/weixin_46128342/12347646)本文采取樸素貝葉斯算法,首先需要確定實(shí)驗(yàn)樣本量與樣本標(biāo)簽,其中標(biāo)簽設(shè)定一般為整數(shù)。根據(jù)貝葉斯算法特性以及數(shù)據(jù)樣本的特征,在這等背景下將樣本分為兩類,分別用0和1表示,1為正類,表示該數(shù)據(jù)是正常短信,0為反類,表示該數(shù)據(jù)為垃圾短信(王之和,李欣悅,2023)。將數(shù)據(jù)導(dǎo)入jupyternotebook中,相關(guān)代碼見附錄,原始數(shù)據(jù)如圖4-1,部分樣本數(shù)據(jù)展示如圖4-2:圖4-1原始數(shù)據(jù)圖4-1原始數(shù)據(jù)圖4-2導(dǎo)入數(shù)據(jù)4.3數(shù)據(jù)處理圖4-2導(dǎo)入數(shù)據(jù)圖4-3jieba分詞效果圖4-3jieba分詞效果中文文本中富含大量的無(wú)意義詞,例如“這”“那”“每”“個(gè)”“各”“之”等,這些詞語(yǔ)的作用僅僅是幫助表述特定的文本和概念,沒(méi)有太多的實(shí)際含義,所以我們分詞要盡量將這些無(wú)意義詞剔除,在這等場(chǎng)景下在jieba分詞中這種行為被稱為添加停用詞,本文的停用詞為本人在結(jié)合了原始數(shù)據(jù)后總結(jié)得出,添加停用詞后效果如圖4-。圖4-4停用詞過(guò)濾結(jié)果4.4提取特征構(gòu)建模型圖4-4停用詞過(guò)濾結(jié)果4.4.1數(shù)據(jù)集劃分在sklearn的model_selection模塊中有許多劃分?jǐn)?shù)據(jù)集的方法,例如train_test_split分?jǐn)?shù)、交叉驗(yàn)證分?jǐn)?shù)、model_selection.gridsearch網(wǎng)格搜索和交叉驗(yàn)證模型等,本文采用sklearn的model_selection模塊中的StratifiedKFold拆分函數(shù),相關(guān)代碼見附錄,StratifiedKFold拆分函數(shù)屬于分層的K折交叉驗(yàn)證。借助這一手段,本文不僅證實(shí)了研究結(jié)果與現(xiàn)有理論的一致性,還在若干關(guān)鍵方面提出了新穎的觀點(diǎn)或擴(kuò)充內(nèi)容,進(jìn)一步豐富了相關(guān)領(lǐng)域的理論內(nèi)涵和實(shí)踐探索。這些新穎的觀點(diǎn)或擴(kuò)充內(nèi)容不僅深化了本文對(duì)研究對(duì)象本質(zhì)和規(guī)律的理解程度,也為后續(xù)的研究和實(shí)踐提供了新的視角和路徑選擇。通過(guò)本文的探究,本文不僅驗(yàn)證了現(xiàn)有理論的精確性和可靠性程度,還促進(jìn)了相關(guān)領(lǐng)域的知識(shí)更新和拓展步伐,為將來(lái)的研究和實(shí)踐提供了有價(jià)值的參考坐標(biāo)。StratifiedKFold是由KFold交叉驗(yàn)證變化而來(lái),根據(jù)標(biāo)簽將原始數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,得到的訓(xùn)練集與數(shù)據(jù)集再數(shù)據(jù)構(gòu)成上一致。將全部訓(xùn)練集S分成K個(gè)不相交的子集,也就是K折交叉驗(yàn)證器會(huì)把樣本數(shù)據(jù)隨機(jī)的平均分成K份,每次隨機(jī)的選擇K?1份作為訓(xùn)練集,從這些步驟可以領(lǐng)悟到剩下的1份做測(cè)試集,本文令K=5,也就是80%數(shù)據(jù)集為訓(xùn)練集20%數(shù)據(jù)集為測(cè)試集(趙永清,楊晨曦,2023)。當(dāng)這一輪完成后,重新隨機(jī)選擇K?1份來(lái)訓(xùn)練數(shù)據(jù)。若干輪(小于K)之后,測(cè)試集與訓(xùn)練集隨機(jī)互換,依然選擇其中K組為測(cè)試集,其余的K?1組子集數(shù)據(jù)作為訓(xùn)練集,所以一般分成K份就這樣會(huì)得到K組模型,最終輸出這K個(gè)模型的K各分?jǐn)?shù),從這些經(jīng)歷中看出對(duì)于這K各分?jǐn)?shù)取平均值為最終分類器得分。4.4.2特征值提取通過(guò)前期的查閱資料本文將采取sklearn的feature_seletion中的TF-IDF技術(shù)對(duì)文本內(nèi)容進(jìn)行特征值提取,當(dāng)垃圾短信的數(shù)據(jù)量太大,文本信息過(guò)多時(shí),提取特征值可以排除一些負(fù)面特征的干擾,還會(huì)是訓(xùn)練速度加快。TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆文件頻率)是一種常用的加權(quán)技術(shù),TF是指詞頻,通俗的說(shuō)就是當(dāng)一個(gè)詞語(yǔ)在語(yǔ)句中出現(xiàn)的頻率越多,在全部的語(yǔ)句中出現(xiàn)的頻率越少,其權(quán)重越高就越能代表該句。其計(jì)算公式如下(張志豪,王沛然,2023) TFw=在某一類中詞條w出現(xiàn)的次數(shù)該類中所有詞條的數(shù)目IDF是逆向文件頻率(inversedocumentfrequency),IDF反應(yīng)了一個(gè)詞在所有文本中出現(xiàn)的頻率,如果一個(gè)詞在很多的文本中出現(xiàn),那么它的IDF值應(yīng)該低,比如“感謝”在文本中出現(xiàn)頻率也很高,但這個(gè)詞并不重要,這樣就引入了IDF,IDF值越低表明這個(gè)值越重要,IDF值越大說(shuō)明這個(gè)詞在所有語(yǔ)句中出現(xiàn)的頻率越高,其特征值越不重要。其計(jì)算公式如下。DIF=log語(yǔ)料庫(kù)的文檔總數(shù)包含詞條w的文檔總數(shù)+1 有了這些知識(shí),我們即可調(diào)用sklearn中的feature_seletion模塊,將分詞后的結(jié)果根據(jù)詞條出現(xiàn)的頻率提取出特征值,在這樣的條件下融入Pipelin中,相關(guān)代碼見附錄。4.4.3樸素貝葉斯的實(shí)現(xiàn)由于樸素貝葉斯算法的簡(jiǎn)潔性,sklearn-learn庫(kù)中就包含了三種樸素貝葉斯分類器,高斯貝葉斯分類器GaussianNB,伯努利貝葉斯分類器BernoulliNB以及多項(xiàng)式貝葉斯分類器MultinomialNB,相對(duì)于其他的機(jī)器學(xué)習(xí),樸素貝葉斯分類器的參數(shù),算法都較為簡(jiǎn)單,易于學(xué)習(xí)掌握(孫婷婷,劉俊豪,2023)。樸素貝葉斯算法不同他們的適用條件也不同,GaussianNB適用于樣本特征為連續(xù)型,且服從正態(tài)分布,MultinomialNB適用于樣本特征為多元離散型,BernoulliNB適用于樣本特征值為二元離散型或較少的多元離散型,特征值只有存在或不存在。垃圾短信特征較多,在這般的條件下屬于多元離散型,因此我們選擇MultinomialNB算法。關(guān)于樸素貝葉斯前文已經(jīng)介紹許多,在此不再展開介紹,主要介紹MultinomialNB。MultinomialNB假設(shè)特征的先驗(yàn)概率為多項(xiàng)式分布,即如下式:PXj=xjlY=C其中PXj=xjlY=Ck是第k個(gè)類別的第j維特征的第l個(gè)取值條件概率,mk所以實(shí)現(xiàn)樸素貝葉斯秩序只需scikit-learn中得MultinomialNB庫(kù),并設(shè)定alpha平滑系數(shù)的值也就是λ,默認(rèn)alpha為1.0,相關(guān)代碼見附錄。4.5垃圾短信過(guò)濾器的實(shí)現(xiàn)機(jī)器學(xué)習(xí)中,往往整體思路大致相同,例如一般的中文文本處理流程如下:(1)將原始數(shù)據(jù)進(jìn)行初步處理,將結(jié)果中文分詞。前述研究為現(xiàn)有理論體系提供了有力的佐證,其中詳細(xì)的分析與實(shí)驗(yàn)結(jié)果不僅再次驗(yàn)證了理論的效力,還通過(guò)對(duì)比不同實(shí)驗(yàn)條件下的數(shù)據(jù),揭示了理論在不同情境下的適用性與局限性。這些實(shí)證發(fā)現(xiàn)不僅鞏固了理論體系的可靠性,也為理論在實(shí)際應(yīng)用中的改進(jìn)與完善提供了堅(jiān)實(shí)的參考,彰顯了理論在指導(dǎo)實(shí)踐中的巨大潛力與重要性。(2)將中文分詞結(jié)果提取特征值。(3)用特征值特征向量訓(xùn)練模型。此處采用scikit-learn庫(kù)中的pineline,pineline顧名思義就是一條流水線,流水線的輸入是最原始的數(shù)據(jù),輸出的是最終得結(jié)果,原始數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)換器得處理后,進(jìn)入下一個(gè)轉(zhuǎn)換器,最終進(jìn)入估計(jì)器輸出結(jié)果。在此情況下流水線中封裝得是所有的過(guò)程,在本文中會(huì)將特征提取和樸素貝葉斯封裝在流水線中(李清華,陳思遠(yuǎn),2023)。最終效果為所有進(jìn)入到這條流水線的數(shù)據(jù)按照預(yù)期輸出,其研究思路如圖4-4,相關(guān)代碼見附錄。圖4-4pineline流程圖 圖4-4pineline流程圖圖4-5結(jié)果輸出第5章結(jié)論與工作總結(jié)5.1模型評(píng)價(jià)在Scikit-learn中,回歸模型的性能分?jǐn)?shù),是利用R2對(duì)擬合效果打分的,在性能評(píng)估模塊中,通過(guò)score()函數(shù)實(shí)現(xiàn)。在這種情形下決定系數(shù)RR2=SSregSStot=Σ0中y為平均觀察值,其公式為:y=1n1nyi SSSStot=Σi(yi?SSregSSreg=Σi(yi?yi為觀察值,ySSR另一部分是模型本身帶來(lái)的誤差,即:殘差平方和(residualsumofsquares,簡(jiǎn)稱RSS),它的定義為:SSres=Σi(yi?也就是說(shuō)SStot=SSreg+SSres圖5-1輸出結(jié)果最終我們推導(dǎo)得到R2圖5-1輸出結(jié)果R2=1?SSresSStot R2

取值一般介于0?1之間,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,即在因變量Y的總變異中,回歸關(guān)系所能解釋的百分比(林書文,郭嘉怡,2023)。R2是最常用于評(píng)價(jià)回歸模型優(yōu)劣程度的指標(biāo)。本課程設(shè)計(jì)的對(duì)輸出結(jié)果求平均值得到最終評(píng)分為0.9476,可以看到輸入結(jié)果較為優(yōu)異,可以得出結(jié)論本課程設(shè)計(jì)通過(guò)上述內(nèi)容的開發(fā)與學(xué)習(xí),最終得到較為理想的垃圾短信分類器,該模型也可用于其他中文文本工作。5.3工作總結(jié)本此課程設(shè)計(jì)主要研究了基于文本內(nèi)容垃圾短信識(shí)別,使用python設(shè)計(jì)垃圾短信過(guò)濾器的開發(fā),通過(guò)機(jī)器學(xué)習(xí)和樸素貝葉斯算法的學(xué)習(xí),基本實(shí)現(xiàn)垃圾短信識(shí)別,準(zhǔn)確率在95%左右,系統(tǒng)設(shè)計(jì)關(guān)鍵在于sklearn模塊和樸素貝葉斯算法,將原始數(shù)據(jù)進(jìn)行簡(jiǎn)單處理后進(jìn)行分詞操作,對(duì)得到的特征值進(jìn)行特征值提取,基于特征構(gòu)建樸素貝葉斯模型,最后對(duì)模型進(jìn)行評(píng)價(jià)。本論文所做的主要工作有:介紹了目前垃圾短信得背景以及研究意義,對(duì)國(guó)內(nèi)外針對(duì)垃圾短信現(xiàn)狀做出總結(jié)。給出了垃圾短信得定義,特征以及垃圾短信帶來(lái)的危害,方便我們認(rèn)識(shí)與了解垃圾短信。介紹了貝葉斯公式及現(xiàn)有的基于文本內(nèi)容得垃圾短信兩種貝葉斯算法以及主流的樸素貝葉斯算法,并對(duì)貝葉斯算法的優(yōu)缺點(diǎn)進(jìn)行了講解。介紹了本文采用的python庫(kù)例如jieba庫(kù),Scikit-learn庫(kù),對(duì)相關(guān)技術(shù)進(jìn)行了解釋講解了垃圾短信分類模型各個(gè)模塊的具體功能,以及運(yùn)行結(jié)果,對(duì)模型進(jìn)行了評(píng)價(jià),得到預(yù)期結(jié)果。參考文獻(xiàn)李志遠(yuǎn),張慧文.基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)[J].電腦知識(shí)與技術(shù),2022,12(12):190-192.王思遠(yuǎn),陳雅婷.基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2023,38(9):2469-2476.趙天宇,劉夢(mèng)琪.基于內(nèi)容的垃圾短信過(guò)濾[J].計(jì)算機(jī)工程,2021(12):154-156.孫浩然,周欣怡.垃圾短信過(guò)濾關(guān)鍵技術(shù)研究[D].浙江大學(xué),2021.吳梓和,黃靜雅.垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2009.鄭博文,何雨萱.基于特征詞的垃圾短信分類器模型[J].計(jì)算機(jī)應(yīng)用,2013,33(05):1334-1337.王梓銘,李欣悅.基于內(nèi)容的垃圾短信過(guò)濾技術(shù)研究[D].北京郵電大學(xué),2014.張

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論