一種復(fù)合的雙引擎智能垃圾郵件過(guò)濾方法

上傳人：梔*** IP屬地：天津上傳時(shí)間：2021-11-15 格式：DOCX 頁(yè)數(shù)：9 大?。?8.06KB 積分：22 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一種復(fù)合的雙引擎智能垃圾郵件過(guò)濾方法隨著因特網(wǎng)的迅猛發(fā)展 , e mail 已成為一種重要的通信方式。但由于其成本低廉、使用簡(jiǎn)單、傳播迅速，因特網(wǎng)上出現(xiàn)了越來(lái)越多的不請(qǐng)自來(lái)的郵件垃圾郵件。這些雜亂的垃圾郵件不僅浪費(fèi)了網(wǎng)絡(luò)帶寬，并且使得用戶不得不花費(fèi)大量的時(shí)間和精力來(lái)處理它們，嚴(yán)重影響了用戶對(duì)電子郵件的正常使用。為了處理這些垃圾郵件，垃圾郵件智能分析，自動(dòng)過(guò)濾技術(shù)已經(jīng)得到一定的發(fā)展，尤其是近幾年出現(xiàn)了許多優(yōu)秀的技術(shù)成果；但是由于中文語(yǔ)境復(fù)雜，垃圾郵件識(shí)別的準(zhǔn)確性和效率均不夠高，使用單一技術(shù)過(guò)濾垃圾郵件的效果并不理想。本文對(duì)幾種常用的過(guò)濾算法進(jìn)行了研究、分析，并依據(jù)各算法的優(yōu)缺點(diǎn)對(duì)其進(jìn)行改進(jìn)和

2、相互結(jié)合，以疊加的方式對(duì)郵件進(jìn)行多層過(guò)濾，并通過(guò)各算法之間自動(dòng)傳遞輔助信息來(lái)提高算法本身的智能化、精確度。本文提出了通過(guò)查看用戶發(fā)出的郵件內(nèi)容來(lái)進(jìn)行輔助學(xué)習(xí)，從而提高自動(dòng)獲取知識(shí)的能力。最終建立一個(gè)能夠適應(yīng)中英文實(shí)際運(yùn)行環(huán)境的綜合垃圾郵件過(guò)濾方法。最后，通過(guò)仿真實(shí)驗(yàn)，對(duì)該方法的效率和性能和其他單一算法進(jìn)行了分析和比較。1 常用過(guò)濾算法的比較11 基于規(guī)則配置的過(guò)濾方法基于規(guī)則的過(guò)濾算法也稱啟發(fā)式算法，在垃圾郵件過(guò)濾技術(shù)發(fā)展初期使用最廣。其原理是通過(guò)與預(yù)先設(shè)定的規(guī)則相比較來(lái)判定是否為垃圾郵件。通常這些規(guī)則通過(guò)管理員手動(dòng)設(shè)置一些特定關(guān)鍵字，如免費(fèi)、優(yōu)惠、特價(jià)等作為判斷依據(jù)，因此，該算法需要長(zhǎng)期定

3、制和維護(hù)這些規(guī)則，隨著用戶需求的不同而手動(dòng)調(diào)整。雖然該算法也能在一定程度上滿足用戶的需求，能夠處理郵件頭和正文，但是實(shí)質(zhì)還是生硬的二值判斷，局限在二維空間上進(jìn)行處理，缺少可信度的知識(shí)；同時(shí)要求用戶自己定義規(guī)則，對(duì)用戶的專業(yè)素質(zhì)要求高，用戶需要花費(fèi)很多時(shí)間定義自己的規(guī)則。另外規(guī)則的純粹人工定制，可能考慮并不周全。12 黑名單方法該算法的基本思想是將對(duì)方的IP 地址或郵件地址存在一個(gè)數(shù)據(jù)庫(kù)，作為過(guò)濾判斷依據(jù)。當(dāng)對(duì)方改變郵件地址或IP地址時(shí)，該方法就可能失去作用。這種算法到目前為止還是很常用的一種算法。當(dāng)郵件到達(dá)時(shí)，過(guò)濾系統(tǒng)首先查看郵件首部的郵件發(fā)送者的地址，將地址和黑白名單中的地址進(jìn)行比較，若處

4、于黑名單的地址就直接拒收，若處于白名單中的地址就接收。該算法的優(yōu)點(diǎn)是簡(jiǎn)單明確, 占用計(jì)算機(jī)資源少。但它有兩個(gè)缺點(diǎn)：a) 黑白名單在設(shè)定時(shí)必須準(zhǔn)確。如果將友好地址列在了黑名單中，會(huì)造成誤判。b) 黑白名單需要不斷地更新和維護(hù)，并且通常無(wú)法涵蓋所有的情況。因此，黑白名單算法的智能化不高，對(duì)一些預(yù)先不知道的垃圾郵件地址無(wú)法預(yù)防。13 基于統(tǒng)計(jì)的智能學(xué)習(xí)方法中心矩向量就代表某一類郵件，如垃圾郵件或合法郵件。當(dāng)一份新郵件經(jīng)過(guò)過(guò)濾系統(tǒng)時(shí)，就將其與垃圾郵件或合法郵件的中心矩向量進(jìn)行類似性比較，根據(jù)cosine函數(shù)值的大小來(lái)分類。當(dāng)然該算法存在的問(wèn)題是可能某些出現(xiàn)過(guò)于頻繁的詞并不能真正代表該郵件（如是、但是等

5、副詞）。解決該問(wèn)題的辦法是將dfi設(shè)定在一定范圍，若dfi超出了一定范圍，就不選用作為向量元素。該算法是以某個(gè)詞在郵件中出現(xiàn)的頻率作為向量元素，所以它適用于各種語(yǔ)言環(huán)境。15 待解決的問(wèn)題綜上分析可知，每種算法在過(guò)濾垃圾應(yīng)用中均有其局限性。為此，本文中針對(duì)這種情況提出了一種復(fù)合智能算法。該算法對(duì)前面算法的優(yōu)點(diǎn)進(jìn)行了整合，盡量將一些需要手動(dòng)操作的過(guò)程進(jìn)行了自動(dòng)化處理，同時(shí)也盡量為用戶提供手動(dòng)修改的靈活性。2 復(fù)合智能算法的設(shè)計(jì)復(fù)合智能算法的出現(xiàn)就是解決傳統(tǒng)算法過(guò)濾垃圾郵件存在的不足，該算法盡可能遵循的一個(gè)原則，即以一種盡可能準(zhǔn)確的算法讓用戶盡可能少地參與配置過(guò)濾系統(tǒng)，并智能地學(xué)習(xí)用戶需求和習(xí)慣，

6、區(qū)分垃圾郵件和合法郵件，達(dá)到準(zhǔn)確地過(guò)濾垃圾郵件的目的。復(fù)合智能算法采用層次過(guò)濾架構(gòu)。其中：黑名單算法過(guò)濾一些比較明顯的垃圾郵件；白名單就直接接收一些合法郵件，減少了中間環(huán)節(jié)，規(guī)則算法采用自定義的規(guī)則過(guò)濾了一些郵件同時(shí)提供了算法的學(xué)習(xí)資料；貝葉斯算法和中心矩向量算法是整個(gè)算法的核心部分，它們對(duì)規(guī)則算法提供的垃圾郵件、白名單提供的合法郵件、用戶發(fā)出的郵件和提取的郵件進(jìn)行學(xué)習(xí)，過(guò)濾最后一部分垃圾郵件。黑名單算法必須是一種很保守的算法，黑名單庫(kù)主要是用戶手動(dòng)配置，這樣做不至于去攔截一些合法郵件，當(dāng)然這種配置也不是必需的，只是很好地方便了用戶。復(fù)合算法的結(jié)構(gòu)圖如圖 1 所示，主要包括郵件過(guò)濾功能、郵件分

7、詞功能、郵件學(xué)習(xí)功能、郵件配置功能。21 郵件過(guò)濾功能當(dāng)一份郵件到達(dá)郵件過(guò)濾系統(tǒng)時(shí)，系統(tǒng)首先提取發(fā)送方的郵件地址或 IP 地址，查看郵件地址或 IP 地址是否在黑名單中，不過(guò)一般不提倡根據(jù) IP 來(lái)判斷，許多 IP 地址均是一些公共郵箱地址，一旦誤判，后果嚴(yán)重。通常黑名單的提取方法都相當(dāng)慎重。在本算法中，默認(rèn)要讓用戶自己手動(dòng)去提取。當(dāng)然，系統(tǒng)也可以配置成自動(dòng)提取方式，系統(tǒng)根據(jù)規(guī)則算法的最終閾值來(lái)提取黑名單。若郵件不在黑名單中，就查看郵件是否在白名單中；若在白名單中，就接收郵件，同時(shí)提取詞匯讓貝葉斯算法或中心矩算法學(xué)習(xí)；若不在，就讓規(guī)則算法來(lái)判斷。規(guī)則算法也起了重要的輔助作用。為了使該算法達(dá)到零

8、誤判率，除了提高算法的閾值外，要根據(jù)實(shí)際情況調(diào)整各規(guī)則的分值，現(xiàn)已有相關(guān)的工具來(lái)測(cè)試這些規(guī)則的有效性。不過(guò)在本算法中，系統(tǒng)可以自動(dòng)測(cè)試這些規(guī)則，系統(tǒng)默認(rèn)配置成定期檢查這些規(guī)則的有效性，如讓這些規(guī)則分別對(duì)系統(tǒng)中已經(jīng)接收的垃圾郵件和合法郵件進(jìn)行判別；若合法郵件被大量匹配，就說(shuō)明要?jiǎng)h除該規(guī)則或者降低其分值，有些規(guī)則被垃圾郵件大量匹配，但由于沒(méi)有達(dá)到閾值漏報(bào)，而且在合法郵件中匹配值不高，就可以提高其分值。22 郵件配置功能從圖 1 中，看出用戶可以查看收到的正常郵件和垃圾郵件，并且可以手動(dòng)從中提取某些郵件的地址存入白名單或黑名單中。可能有些郵件從內(nèi)容上講是合法郵件，但是用戶由于某些個(gè)人的原因不想收到該

9、用戶的郵件，用戶就可以將該郵件地址存入黑名單；同理，某些郵件從內(nèi)容講可能是屬于垃圾郵件的范疇，用戶由于需要，想收到該郵件，就可以將該郵件放入白名單庫(kù)。針對(duì)用戶發(fā)出的郵件，系統(tǒng)會(huì)自動(dòng)從其提取郵件地址列入到白名單中，同時(shí)也從郵件內(nèi)容中提取詞匯存入正常詞庫(kù)作為學(xué)習(xí)資料。通常情況下，用戶發(fā)出的郵件是友好的，用戶發(fā)出郵件的對(duì)象肯定是友好的，并且發(fā)出郵件的地址也一定是真實(shí)的。不僅如此，用戶對(duì)于一封新到達(dá)的正常郵件通常會(huì)給予回復(fù)，而一旦回復(fù)，這封新郵件的發(fā)送方地址自然作為發(fā)出地址被記錄下來(lái)。這樣做的好處有兩點(diǎn)：a) 白名單信息是在用戶正常使用郵件的過(guò)程中被自動(dòng)獲取的，用戶無(wú)須額外的操作。b) 白名單具有很高

10、的可信度，它的正確性不會(huì)因?yàn)檫^(guò)濾系統(tǒng)的誤判而降低。同理，用戶發(fā)出的郵件還將作為貝葉斯算法進(jìn)行正常郵件學(xué)習(xí)的主要來(lái)源。用戶發(fā)出的郵件內(nèi)容通常與收到的正常郵件的內(nèi)容相似，使用的語(yǔ)言習(xí)慣也是相通的。用戶在回復(fù)一封正常郵件時(shí)往往會(huì)附帶上原信件的內(nèi)容，這些內(nèi)容對(duì)貝葉斯算法和中心矩向量算法來(lái)說(shuō)將是寶貴的學(xué)習(xí)資源。23 智能學(xué)習(xí)功能本算法具有雙引擎智能學(xué)習(xí)功能：一個(gè)引擎是貝葉斯算法；另一個(gè)引擎是中心矩向量算法。它們同時(shí)將中文詞庫(kù)和英文詞庫(kù)區(qū)分開(kāi)來(lái)。貝葉斯算法主要用于過(guò)濾英文郵件，中心矩向量算法主要用于過(guò)濾中文郵件。這樣做的目的是想充分發(fā)揮各種算法所長(zhǎng)，貝葉斯算法已經(jīng)被驗(yàn)證在英文環(huán)境下有良好的性能；中心矩向量

11、算法在分類性能和準(zhǔn)確性上要優(yōu)于貝葉斯算法 2 。如圖 1 所示，智能學(xué)習(xí)算法學(xué)習(xí)資料來(lái)源主要有 ?嚼啵邯 ?a) 由系統(tǒng)自動(dòng)提取。通過(guò)從規(guī)則算法過(guò)濾的垃圾郵件，以及從用戶這里發(fā)出的郵件，還有白名單算法接收的正常郵件，過(guò)濾系統(tǒng)可以提取學(xué)習(xí)資料。智能算法最重要的一點(diǎn)就是讓用戶可以不必手動(dòng)參與過(guò)濾系統(tǒng)的操作，系統(tǒng)也能自動(dòng)地過(guò)濾一些垃圾郵件。b) 由用戶手動(dòng)提取。手動(dòng)參與并不是必需的，僅是提供了一個(gè)進(jìn)一步優(yōu)化系統(tǒng)的入口，用戶選取的學(xué)習(xí)資料是最準(zhǔn)確的，可進(jìn)一步提高系統(tǒng)分類的準(zhǔn)確性和效率。鑒于目前許多郵件系統(tǒng)均要求用戶手動(dòng)提供資料給郵件系統(tǒng)學(xué)習(xí)，這就大大地降低了郵件的易用性。本智能學(xué)習(xí)算法將規(guī)則算法、黑白

12、名單算法以及自動(dòng)從用戶發(fā)送出去的郵件中提取相應(yīng)的學(xué)習(xí)詞匯結(jié)合在一起，既提高了郵件過(guò)濾的準(zhǔn)確性和性能，又降低了用戶操作負(fù)擔(dān)。郵件配置功能也增加了用戶有針對(duì)性地過(guò)濾垃圾郵件的靈活性。24 詞庫(kù)特征項(xiàng)的選擇文件的特征向量不可能包括所有的詞匯，所以很有必要用一定的算法進(jìn)行特征選擇。本文介紹的特征選擇算法如下：首先，去掉一些出現(xiàn)頻率過(guò)大又不起判別作用的代詞、副詞等，用ZipF 規(guī)則來(lái)分析訓(xùn)練庫(kù)中存放的垃圾郵件和正常郵件，分別除去郵件中出現(xiàn)次數(shù)少于三次的詞匯。ZipF 規(guī)則指的是出現(xiàn)次數(shù)排第二位的詞匯出現(xiàn)的可能性是排在第一位的詞匯出現(xiàn)可能性的1/2 ；排第三位的詞匯出現(xiàn)的可能性是排在第一位的詞匯出現(xiàn)可能

13、性的1/3 。如果出現(xiàn)次數(shù)最多的詞匯出現(xiàn)次數(shù)是N，則排在第二位的詞匯出現(xiàn)次數(shù)為（ i/i ×N）。3 復(fù)合智能算法的性能評(píng)估通過(guò)實(shí)驗(yàn)將復(fù)合智能算法與其他算法進(jìn)行比較（表 1），得到一種總結(jié)性結(jié)果。本文采用200 封正常郵件（包括100封中文郵件和100 封英文郵件）和 200 封垃圾郵件（包括 100封中文郵件和100 封英文郵件）作為實(shí)驗(yàn)樣本，每個(gè)樣本均刪除掉在郵件分類中那些不起作用的代詞、副詞等。本文算法實(shí)驗(yàn)效果的評(píng)價(jià)指標(biāo)分別是查全率和誤報(bào)率。在表 1 中貝葉斯和中心矩向量算法都是先學(xué)習(xí)200 封郵件，再過(guò)濾 200 封郵件。復(fù)合智能算法則是在自動(dòng)化的過(guò)程中實(shí)現(xiàn)實(shí)驗(yàn)結(jié)果的。在本實(shí)驗(yàn)中，筆者發(fā)現(xiàn)復(fù)合智能算法查全率達(dá)到了 95.2%，遠(yuǎn)遠(yuǎn)高于其他算法。若是用戶再手動(dòng)利用一下黑名單算法，調(diào)整一下規(guī)則算法和兩種學(xué)習(xí)算法的學(xué)習(xí)資

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

一種復(fù)合的雙引擎智能垃圾郵件過(guò)濾方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

一種復(fù)合的雙引擎智能垃圾郵件過(guò)濾方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔