垃圾郵件過濾_第1頁
垃圾郵件過濾_第2頁
垃圾郵件過濾_第3頁
垃圾郵件過濾_第4頁
垃圾郵件過濾_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、垃圾郵件過濾系統(tǒng)垃圾郵件過濾系統(tǒng) 1、什么是垃圾郵件?垃圾郵件過濾 2、什么是過濾?如何過濾?垃圾郵件的定義垃圾郵件的定義 垃圾郵件是指向未主動(dòng)請求的用戶發(fā)送的電子郵件如廣告、刊物或其他資料;或沒有明確的退信方法、發(fā)信人、回信地址等的郵件;或者利用網(wǎng)絡(luò)從事違反網(wǎng)絡(luò)服務(wù)供應(yīng)商的安全策略或服務(wù)條款的行為和其他預(yù)計(jì)會導(dǎo)致投訴的郵件。垃圾郵件的防范垃圾郵件的防范 現(xiàn)在,采用的反垃圾郵件技術(shù)主要從三個(gè)方面來防范垃圾郵件:郵件發(fā)送方、郵件傳輸過程、郵件接收方。采用的主要技術(shù)有: 1、郵件服務(wù)系統(tǒng)的安全加固:主要措施有增強(qiáng)郵件服務(wù)器 的安全性、提供郵件服務(wù)安全身份認(rèn)證、添加反垃圾 郵件的專用設(shè)備或插件等。

2、2、郵件過濾技術(shù)。主要技術(shù)有基于規(guī)則(如IP地址、域名、 郵件地址等)和基于統(tǒng)計(jì)的過濾方式(基于郵件內(nèi)容過 濾)。 3、提高發(fā)送垃圾郵件成本,從源頭上阻止垃圾郵件的產(chǎn) 生。主要技術(shù)有電子郵票、Challenge-Response, SPE (sender policy framework)等。過濾過濾l過濾就是分類。l信息過濾(Information filtering)是一個(gè)十分廣泛的概念。有人定義信息過濾為:根據(jù)用戶的信息需求對動(dòng)態(tài)數(shù)據(jù)流進(jìn)行過濾,僅僅把滿足用戶需求的信息傳送給用戶,以提高獲取信息的效率。這種定義主要是著重于信息檢索方面,他們主要研究的問題在于信息的自動(dòng)分類、文本文摘自動(dòng)化

3、,以及Web數(shù)據(jù)的檢索等問題。信息過濾所需要解決這樣幾個(gè)問題信息過濾所需要解決這樣幾個(gè)問題1.如何獲取信息。2.信息如何進(jìn)行表示。3.根據(jù)什么樣的規(guī)則和方法來處理信息。4.信息相似度如何計(jì)算。5.匹配規(guī)則的自動(dòng)生成。 其中信息表示是系統(tǒng)的基礎(chǔ)部分,信息表示的好壞將直接影響到其他的幾個(gè)方面,因?yàn)樗鼪Q定了信息處理的方法、規(guī)則的生成等。 信息過濾在文檔類信息中的應(yīng)用就是將文檔內(nèi)容按照一定的表示方法如向量空間模型進(jìn)行整理后,采用文本分類的方法進(jìn)行信息過濾。 文本分類的算法有基于概念的文本分類算法、貝葉斯分類方法、K最近鄰接分類算法、基于語義網(wǎng)絡(luò)的概念推理網(wǎng)分類方法和向量空間法等。我們主要采用的是貝葉斯

4、分類方法。 貝葉斯分類方法貝葉斯分類方法 貝葉斯分類算法是一種廣泛應(yīng)用的分類算法,應(yīng)用于文本分類時(shí),通過計(jì)算文本屬于每個(gè)類別的概率P(cj|dx),將該文本歸為概率最大的一類,計(jì)算P(cj|dx)時(shí)利用貝葉斯公式。簡單貝葉斯分類算法即Naive Bayesian,它建立在“貝葉斯假設(shè)”的基礎(chǔ)之上:假設(shè)所有的特征之間互相獨(dú)立。實(shí)際上,在生活中這種獨(dú)立性很難存在,但從目前的實(shí)驗(yàn)結(jié)果看來,基于這個(gè)假設(shè)的簡單貝葉斯分類算法的效果很好,而且計(jì)算簡單,因此在很多場合得到適用。Graham使用使用Naive Bayesian過濾過濾垃圾郵件的理論垃圾郵件的理論 Paul Graham于2002年8月發(fā)表了一

5、篇文章:A Plan for Spam,在文章中Graham提議建立垃圾郵件和非垃圾郵件單詞的貝葉斯概率模型?;舅枷?在已知的垃圾郵件中,一些單詞出現(xiàn)的頻率較高。運(yùn)用一些眾所周知的數(shù)學(xué)知識,對于每個(gè)特征,可以生成一個(gè)“垃圾郵件指示性概率” (spamminess probability)。根據(jù)郵件中所包含的一組詞,可以用另一個(gè)簡單的數(shù)學(xué)公式來確定文本郵件的“整體垃圾郵件概率”(combined probability),也稱郵件的聯(lián)合概率。算法說明算法說明之所以選擇貝葉斯算法,原因是由于該算法的優(yōu)點(diǎn)在于: 1、實(shí)現(xiàn)簡單; 2、貝葉斯模型能夠自我糾正。 特征概率的算法特征概率的算法 對于訓(xùn)練集

6、中的一個(gè)特征w: b(w)含有特征w的垃圾郵件數(shù)量/總的垃圾郵件 的數(shù)量; g(w)含有特征w的合法郵件數(shù)量/總的合法郵件的數(shù)量;特征w概率f(w)的計(jì)算:b(w)p(w) =b(w) + g(w)(s* x) + (n* p(w)f(w) =s+n上式中:n:含特征w的郵件數(shù)量;s:一個(gè)常數(shù)參量,通常為1;x:當(dāng)n0時(shí),我們需要假設(shè)的常量,也是特征w的 概率,通常設(shè)為0.5;p(w)是Graham方法對特征概率的估計(jì)。郵件特征聯(lián)合概率的算法郵件特征聯(lián)合概率的算法 在過濾過程中,對于進(jìn)入過濾的郵件,我們要根據(jù)訓(xùn)練的結(jié)果和該郵件的特征表示,給該郵件一個(gè)綜合的判定值,即聯(lián)合概率。然后根據(jù)設(shè)定的閾值

7、,判定此郵件是垃圾郵件還是合法郵件。 計(jì)算方法如下:(1-)(1-)(1-)(1-)ABCNABCNABCN A,B,C,.,N代表了各個(gè)特征的在哈希表hash-spamminess中的值。當(dāng)郵件特征中包含以前沒有從來沒有出現(xiàn)的特征,建議特征概率為0.4。 本垃圾郵件過濾系統(tǒng)的工作說明本垃圾郵件過濾系統(tǒng)的工作說明垃圾郵件過濾系統(tǒng)的系統(tǒng)流程圖 : 特征庫訓(xùn)練器(特征提取)過濾器(把垃圾郵件標(biāo)識出來) 郵件訓(xùn)練集郵件測試集存儲過濾結(jié)果 郵件提取郵件提?。豪脤︵]件的解碼提取郵件信息,包括對測 試集郵件的提取和訓(xùn)練集郵件的提取。特征提取特征提取:將由訓(xùn)練集或者測試集中的郵件,進(jìn)行特征提取。在訓(xùn)練集中

8、,把從郵件提取的特征,按照已定的算法進(jìn)行計(jì)算,再用放入特征庫中來進(jìn)行儲存;在測試集中,提取郵件的特征,交給下個(gè)環(huán)節(jié)處理。 在系統(tǒng)中,郵件階段是通過對郵件的解碼獲取信息,并將郵件轉(zhuǎn)換為文本。特征提取是提取郵件的主題和郵件體中的字符串,利用token串統(tǒng)計(jì)提取出的token串中各個(gè)token出現(xiàn)的次數(shù)。模式匹配:模式匹配:接受特征提取中后的信息,根據(jù)規(guī)則數(shù)據(jù)庫中的規(guī)則,按照某種相似度計(jì)算算法計(jì)算信息與實(shí)際需求的相關(guān)性,在達(dá)到一定的閥值后,輸出過濾的結(jié)果。信息表示信息表示:提供對過濾后的郵件的瀏覽,以及對過濾效果的評價(jià)。 模式匹配階段分為兩個(gè)階段:訓(xùn)練和測試。 訓(xùn)練階段主要是訓(xùn)練規(guī)則庫,提取spam和ham的特征;主要分三步: 解析郵件和提取特征; 建立三個(gè)哈希表:hash-good、hash-bad、 hash-spamminess; hash-good存放合法郵件中提取的特征和各特征在合法郵件中出現(xiàn)的次數(shù);hash-bad存放垃圾郵件中提取的特征和各特征在垃圾郵件中出現(xiàn)的次數(shù); 綜合考慮hash-good和hash-bad,建立各特征的垃圾郵件指示概率(spammniess probability), 存入哈希表hash-spamminess中。 測試階段是利用已訓(xùn)練完成的規(guī)則庫,對郵件進(jìn)行判斷。并向用戶提交結(jié)果。 其過濾過程為: 對于新的郵件,提取郵件的特征,通常是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論