版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一種復(fù)合的雙引擎智能垃圾郵件過(guò)濾方法隨著因特網(wǎng)的迅猛發(fā)展 , e mail 已成為一種重要的通信方式。但由于其成本低廉、使用簡(jiǎn)單、傳播迅速,因特網(wǎng)上出現(xiàn)了越來(lái)越多的不請(qǐng)自來(lái)的郵件垃圾郵件。這些雜亂的垃圾郵件不僅浪費(fèi)了網(wǎng)絡(luò)帶寬,并且使得用戶不得不花費(fèi)大量的時(shí)間和精力來(lái)處理它們,嚴(yán)重影響了用戶對(duì)電子郵件的正常使用。為了處理這些垃圾郵件,垃圾郵件智能分析,自動(dòng)過(guò)濾技術(shù)已經(jīng)得到一定的發(fā)展,尤其是近幾年出現(xiàn)了許多優(yōu)秀的技術(shù)成果;但是由于中文語(yǔ)境復(fù)雜,垃圾郵件識(shí)別的準(zhǔn)確性和效率均不夠高,使用單一技術(shù)過(guò)濾垃圾郵件的效果并不理想。 本文對(duì)幾種常用的過(guò)濾算法進(jìn)行了研究、 分析,并依據(jù)各算法的優(yōu)缺點(diǎn)對(duì)其進(jìn)行改進(jìn)和
2、相互結(jié)合,以疊加的方式對(duì)郵件進(jìn)行多層過(guò)濾,并通過(guò)各算法之間自動(dòng)傳遞輔助信息來(lái)提高算法本身的智能化、精確度。本文提出了通過(guò)查看用戶發(fā)出的郵件內(nèi)容來(lái)進(jìn)行輔助學(xué)習(xí),從而提高自動(dòng)獲取知識(shí)的能力。最終建立一個(gè)能夠適應(yīng)中英文實(shí)際運(yùn)行環(huán)境的綜合垃圾郵件過(guò)濾方法。最后,通過(guò)仿真實(shí)驗(yàn),對(duì)該方法的效率和性能和其他單一算法進(jìn)行了分析和比較。1 常用過(guò)濾算法的比較11 基于規(guī)則配置的過(guò)濾方法基于規(guī)則的過(guò)濾算法也稱啟發(fā)式算法,在垃圾郵件過(guò)濾技術(shù)發(fā)展初期使用最廣。其原理是通過(guò)與預(yù)先設(shè)定的規(guī)則相比較來(lái)判定是否為垃圾郵件。 通常這些規(guī)則通過(guò)管理員手動(dòng)設(shè)置一些特定關(guān)鍵字,如免費(fèi)、優(yōu)惠、特價(jià)等作為判斷依據(jù),因此,該算法需要長(zhǎng)期定
3、制和維護(hù)這些規(guī)則,隨著用戶需求的不同而手動(dòng)調(diào)整。雖然該算法也能在一定程度上滿足用戶的需求,能夠處理郵件頭和正文,但是實(shí)質(zhì)還是生硬的二值判斷,局限在二維空間上進(jìn)行處理,缺少可信度的知識(shí);同時(shí)要求用戶自己定義規(guī)則,對(duì)用戶的專業(yè)素質(zhì)要求高,用戶需要花費(fèi)很多時(shí)間定義自己的規(guī)則。另外規(guī)則的純粹人工定制,可能考慮并不周全。12 黑名單方法該算法的基本思想是將對(duì)方的IP 地址或郵件地址存在一個(gè)數(shù)據(jù)庫(kù), 作為過(guò)濾判斷依據(jù)。當(dāng)對(duì)方改變郵件地址或IP地址時(shí),該方法就可能失去作用。這種算法到目前為止還是很常用的一種算法。當(dāng)郵件到達(dá)時(shí),過(guò)濾系統(tǒng)首先查看郵件首部的郵件發(fā)送者的地址,將地址和黑白名單中的地址進(jìn)行比較,若處
4、于黑名單的地址就直接拒收,若處于白名單中的地址就接收。該算法的優(yōu)點(diǎn)是簡(jiǎn)單明確, 占用計(jì)算機(jī)資源少。但它有兩個(gè)缺點(diǎn):a) 黑白名單在設(shè)定時(shí)必須準(zhǔn)確。如果將友好地址列在了黑名單中,會(huì)造成誤判。b) 黑白名單需要不斷地更新和維護(hù),并且通常無(wú)法涵蓋所有的情況。因此,黑白名單算法的智能化不高,對(duì)一些預(yù)先不知道的垃圾郵件地址無(wú)法預(yù)防。13 基于統(tǒng)計(jì)的智能學(xué)習(xí)方法中心矩向量就代表某一類郵件,如垃圾郵件或合法郵件。當(dāng)一份新郵件經(jīng)過(guò)過(guò)濾系統(tǒng)時(shí),就將其與垃圾郵件或合法郵件的中心矩向量進(jìn)行類似性比較,根據(jù)cosine函數(shù)值的大小來(lái)分類。當(dāng)然該算法存在的問(wèn)題是可能某些出現(xiàn)過(guò)于頻繁的詞并不能真正代表該郵件(如是、但是等
5、副詞)。解決該問(wèn)題的辦法是將dfi設(shè)定在一定范圍,若dfi超出了一定范圍,就不選用作為向量元素。該算法是以某個(gè)詞在郵件中出現(xiàn)的頻率作為向量元素,所以它適用于各種語(yǔ)言環(huán)境。15 待解決的問(wèn)題綜上分析可知,每種算法在過(guò)濾垃圾應(yīng)用中均有其局限性。為此,本文中針對(duì)這種情況提出了一種復(fù)合智能算法。該算法對(duì)前面算法的優(yōu)點(diǎn)進(jìn)行了整合,盡量將一些需要手動(dòng)操作的過(guò)程進(jìn)行了自動(dòng)化處理,同時(shí)也盡量為用戶提供手動(dòng)修改的靈活性。2 復(fù)合智能算法的設(shè)計(jì)復(fù)合智能算法的出現(xiàn)就是解決傳統(tǒng)算法過(guò)濾垃圾郵件存在的不足,該算法盡可能遵循的一個(gè)原則,即以一種盡可能準(zhǔn)確的算法讓用戶盡可能少地參與配置過(guò)濾系統(tǒng),并智能地學(xué)習(xí)用戶需求和習(xí)慣,
6、區(qū)分垃圾郵件和合法郵件,達(dá)到準(zhǔn)確地過(guò)濾垃圾郵件的目的。復(fù)合智能算法采用層次過(guò)濾架構(gòu)。其中:黑名單算法過(guò)濾一些比較明顯的垃圾郵件;白名單就直接接收一些合法郵件,減少了中間環(huán)節(jié),規(guī)則算法采用自定義的規(guī)則過(guò)濾了一些郵件同時(shí)提供了算法的學(xué)習(xí)資料;貝葉斯算法和中心矩向量算法是整個(gè)算法的核心部分,它們對(duì)規(guī)則算法提供的垃圾郵件、白名單提供的合法郵件、用戶發(fā)出的郵件和提取的郵件進(jìn)行學(xué)習(xí),過(guò)濾最后一部分垃圾郵件。黑名單算法必須是一種很保守的算法,黑名單庫(kù)主要是用戶手動(dòng)配置,這樣做不至于去攔截一些合法郵件,當(dāng)然這種配置也不是必需的,只是很好地方便了用戶。復(fù)合算法的結(jié)構(gòu)圖如圖 1 所示,主要包括郵件過(guò)濾功能、郵件分
7、詞功能、郵件學(xué)習(xí)功能、郵件配置功能。21 郵件過(guò)濾功能當(dāng)一份郵件到達(dá)郵件過(guò)濾系統(tǒng)時(shí),系統(tǒng)首先提取發(fā)送方的郵件地址或 IP 地址,查看郵件地址或 IP 地址是否在黑名單中,不過(guò)一般不提倡根據(jù) IP 來(lái)判斷,許多 IP 地址均是一些公共郵箱地址,一旦誤判,后果嚴(yán)重。通常黑名單的提取方法都相當(dāng)慎重。在本算法中,默認(rèn)要讓用戶自己手動(dòng)去提取。當(dāng)然,系統(tǒng)也可以配置成自動(dòng)提取方式,系統(tǒng)根據(jù)規(guī)則算法的最終閾值來(lái)提取黑名單。若郵件不在黑名單中,就查看郵件是否在白名單中;若在白名單中,就接收郵件,同時(shí)提取詞匯讓貝葉斯算法或中心矩算法學(xué)習(xí);若不在,就讓規(guī)則算法來(lái)判斷。規(guī)則算法也起了重要的輔助作用。為了使該算法達(dá)到零
8、誤判率,除了提高算法的閾值外,要根據(jù)實(shí)際情況調(diào)整各規(guī)則的分值,現(xiàn)已有相關(guān)的工具來(lái)測(cè)試這些規(guī)則的有效性。不過(guò)在本算法中,系統(tǒng)可以自動(dòng)測(cè)試這些規(guī)則,系統(tǒng)默認(rèn)配置成定期檢查這些規(guī)則的有效性,如讓這些規(guī)則分別對(duì)系統(tǒng)中已經(jīng)接收的垃圾郵件和合法郵件進(jìn)行判別;若合法郵件被大量匹配,就說(shuō)明要?jiǎng)h除該規(guī)則或者降低其分值,有些規(guī)則被垃圾郵件大量匹配,但由于沒(méi)有達(dá)到閾值漏報(bào),而且在合法郵件中匹配值不高,就可以提高其分值。22 郵件配置功能從圖 1 中,看出用戶可以查看收到的正常郵件和垃圾郵件,并且可以手動(dòng)從中提取某些郵件的地址存入白名單或黑名單中。可能有些郵件從內(nèi)容上講是合法郵件,但是用戶由于某些個(gè)人的原因不想收到該
9、用戶的郵件,用戶就可以將該郵件地址存入黑名單;同理,某些郵件從內(nèi)容講可能是屬于垃圾郵件的范疇,用戶由于需要,想收到該郵件,就可以將該郵件放入白名單庫(kù)。針對(duì)用戶發(fā)出的郵件,系統(tǒng)會(huì)自動(dòng)從其提取郵件地址列入到白名單中,同時(shí)也從郵件內(nèi)容中提取詞匯存入正常詞庫(kù)作為學(xué)習(xí)資料。通常情況下,用戶發(fā)出的郵件是友好的,用戶發(fā)出郵件的對(duì)象肯定是友好的,并且發(fā)出郵件的地址也一定是真實(shí)的。不僅如此,用戶對(duì)于一封新到達(dá)的正常郵件通常會(huì)給予回復(fù),而一旦回復(fù),這封新郵件的發(fā)送方地址自然作為發(fā)出地址被記錄下來(lái)。這樣做的好處有兩點(diǎn):a) 白名單信息是在用戶正常使用郵件的過(guò)程中被自動(dòng)獲取的,用戶無(wú)須額外的操作。b) 白名單具有很高
10、的可信度,它的正確性不會(huì)因?yàn)檫^(guò)濾系統(tǒng)的誤判而降低。同理,用戶發(fā)出的郵件還將作為貝葉斯算法進(jìn)行正常郵件學(xué)習(xí)的主要來(lái)源。用戶發(fā)出的郵件內(nèi)容通常與收到的正常郵件的內(nèi)容相似,使用的語(yǔ)言習(xí)慣也是相通的。用戶在回復(fù)一封正常郵件時(shí)往往會(huì)附帶上原信件的內(nèi)容,這些內(nèi)容對(duì)貝葉斯算法和中心矩向量算法來(lái)說(shuō)將是寶貴的學(xué)習(xí)資源。23 智能學(xué)習(xí)功能本算法具有雙引擎智能學(xué)習(xí)功能:一個(gè)引擎是貝葉斯算法;另一個(gè)引擎是中心矩向量算法。它們同時(shí)將中文詞庫(kù)和英文詞庫(kù)區(qū)分開(kāi)來(lái)。貝葉斯算法主要用于過(guò)濾英文郵件,中心矩向量算法主要用于過(guò)濾中文郵件。這樣做的目的是想充分發(fā)揮各種算法所長(zhǎng),貝葉斯算法已經(jīng)被驗(yàn)證在英文環(huán)境下有良好的性能;中心矩向量
11、算法在分類性能和準(zhǔn)確性上要優(yōu)于貝葉斯算法 2 。如圖 1 所示,智能學(xué)習(xí)算法學(xué)習(xí)資料來(lái)源主要有 ?嚼啵邯 ?a) 由系統(tǒng)自動(dòng)提取。通過(guò)從規(guī)則算法過(guò)濾的垃圾郵件,以及從用戶這里發(fā)出的郵件,還有白名單算法接收的正常郵件,過(guò)濾系統(tǒng)可以提取學(xué)習(xí)資料。智能算法最重要的一點(diǎn)就是讓用戶可以不必手動(dòng)參與過(guò)濾系統(tǒng)的操作,系統(tǒng)也能自動(dòng)地過(guò)濾一些垃圾郵件。b) 由用戶手動(dòng)提取。手動(dòng)參與并不是必需的,僅是提供了一個(gè)進(jìn)一步優(yōu)化系統(tǒng)的入口,用戶選取的學(xué)習(xí)資料是最準(zhǔn)確的,可進(jìn)一步提高系統(tǒng)分類的準(zhǔn)確性和效率。鑒于目前許多郵件系統(tǒng)均要求用戶手動(dòng)提供資料給郵件系統(tǒng)學(xué)習(xí),這就大大地降低了郵件的易用性。本智能學(xué)習(xí)算法將規(guī)則算法、黑白
12、名單算法以及自動(dòng)從用戶發(fā)送出去的郵件中提取相應(yīng)的學(xué)習(xí)詞匯結(jié)合在一起,既提高了郵件過(guò)濾的準(zhǔn)確性和性能,又降低了用戶操作負(fù)擔(dān)。郵件配置功能也增加了用戶有針對(duì)性地過(guò)濾垃圾郵件的靈活性。24 詞庫(kù)特征項(xiàng)的選擇文件的特征向量不可能包括所有的詞匯,所以很有必要用一定的算法進(jìn)行特征選擇。本文介紹的特征選擇算法如下:首先,去掉一些出現(xiàn)頻率過(guò)大又不起判別作用的代詞、副詞等,用ZipF 規(guī)則來(lái)分析訓(xùn)練庫(kù)中存放的垃圾郵件和正常郵件, 分別除去郵件中出現(xiàn)次數(shù)少于三次的詞匯。ZipF 規(guī)則指的是出現(xiàn)次數(shù)排第二位的詞匯出現(xiàn)的可能性是排在第一位的詞匯出現(xiàn)可能性的1/2 ;排第三位的詞匯出現(xiàn)的可能性是排在第一位的詞匯出現(xiàn)可能
13、性的1/3 。如果出現(xiàn)次數(shù)最多的詞匯出現(xiàn)次數(shù)是N,則排在第二位的詞匯出現(xiàn)次數(shù)為( i/i ×N)。3 復(fù)合智能算法的性能評(píng)估通過(guò)實(shí)驗(yàn)將復(fù)合智能算法與其他算法進(jìn)行比較(表 1),得到一種總結(jié)性結(jié)果。本文采用200 封正常郵件(包括100封中文郵件和100 封英文郵件) 和 200 封垃圾郵件(包括 100封中文郵件和100 封英文郵件)作為實(shí)驗(yàn)樣本,每個(gè)樣本均刪除掉在郵件分類中那些不起作用的代詞、副詞等。本文算法實(shí)驗(yàn)效果的評(píng)價(jià)指標(biāo)分別是查全率和誤報(bào)率。在表 1 中貝葉斯和中心矩向量算法都是先學(xué)習(xí)200 封郵件,再過(guò)濾 200 封郵件。復(fù)合智能算法則是在自動(dòng)化的過(guò)程中實(shí)現(xiàn)實(shí)驗(yàn)結(jié)果的。在本實(shí)驗(yàn)中,筆者發(fā)現(xiàn)復(fù)合智能算法查全率達(dá)到了 95.2%,遠(yuǎn)遠(yuǎn)高于其他算法。若是用戶再手動(dòng)利用一下黑名單算法,調(diào)整一下規(guī)則算法和兩種學(xué)習(xí)算法的學(xué)習(xí)資
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年商業(yè)用地租賃權(quán)轉(zhuǎn)授權(quán)合同
- 2024年學(xué)校服裝供應(yīng)合同
- 2024年度工程變更與居間服務(wù)合同
- 我們身體課件教學(xué)課件
- 2024北京市車指標(biāo)租賃期間保險(xiǎn)服務(wù)合同
- 2024年大型活動(dòng)策劃與執(zhí)行服務(wù)合同
- 2024的保安服務(wù)委托合同范文
- 2024年度衛(wèi)星通信服務(wù)與租賃合同
- 2024年建筑工程水電施工合同
- 2024年建筑工程施工總包合同精粹
- GB/T 42455.2-2024智慧城市建筑及居住區(qū)第2部分:智慧社區(qū)評(píng)價(jià)
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí)
- YYT 0653-2017 血液分析儀行業(yè)標(biāo)準(zhǔn)
- 刑事受害人授權(quán)委托書范本
- 《文明上網(wǎng)健康成長(zhǎng)》的主題班會(huì)
- 框架結(jié)構(gòu)冬季施工方案
- 傳染病轉(zhuǎn)診單
- 手術(shù)室各級(jí)護(hù)士崗位任職資格及職責(zé)
- 班組建設(shè)實(shí)施細(xì)則
- 畢業(yè)設(shè)計(jì)(論文)汽車照明系統(tǒng)常見(jiàn)故障診斷與排除
- 人工智能技術(shù)在電氣自動(dòng)化控制中的應(yīng)用分析
評(píng)論
0/150
提交評(píng)論