垃圾郵件過濾

上傳人：0*** IP屬地：湖北上傳時(shí)間：2021-11-10 格式：PPT 頁數(shù)：18 大?。?5.50KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、垃圾郵件過濾系統(tǒng)垃圾郵件過濾系統(tǒng) 1、什么是垃圾郵件？垃圾郵件過濾 2、什么是過濾？如何過濾？垃圾郵件的定義垃圾郵件的定義垃圾郵件是指向未主動(dòng)請求的用戶發(fā)送的電子郵件如廣告、刊物或其他資料;或沒有明確的退信方法、發(fā)信人、回信地址等的郵件;或者利用網(wǎng)絡(luò)從事違反網(wǎng)絡(luò)服務(wù)供應(yīng)商的安全策略或服務(wù)條款的行為和其他預(yù)計(jì)會導(dǎo)致投訴的郵件。垃圾郵件的防范垃圾郵件的防范現(xiàn)在，采用的反垃圾郵件技術(shù)主要從三個(gè)方面來防范垃圾郵件:郵件發(fā)送方、郵件傳輸過程、郵件接收方。采用的主要技術(shù)有： 1、郵件服務(wù)系統(tǒng)的安全加固:主要措施有增強(qiáng)郵件服務(wù)器的安全性、提供郵件服務(wù)安全身份認(rèn)證、添加反垃圾郵件的專用設(shè)備或插件等。

2、2、郵件過濾技術(shù)。主要技術(shù)有基于規(guī)則(如IP地址、域名、郵件地址等)和基于統(tǒng)計(jì)的過濾方式(基于郵件內(nèi)容過濾)。 3、提高發(fā)送垃圾郵件成本，從源頭上阻止垃圾郵件的產(chǎn) 生。主要技術(shù)有電子郵票、Challenge-Response, SPE (sender policy framework)等。過濾過濾l過濾就是分類。l信息過濾(Information filtering)是一個(gè)十分廣泛的概念。有人定義信息過濾為:根據(jù)用戶的信息需求對動(dòng)態(tài)數(shù)據(jù)流進(jìn)行過濾，僅僅把滿足用戶需求的信息傳送給用戶，以提高獲取信息的效率。這種定義主要是著重于信息檢索方面，他們主要研究的問題在于信息的自動(dòng)分類、文本文摘自動(dòng)化

3、，以及Web數(shù)據(jù)的檢索等問題。信息過濾所需要解決這樣幾個(gè)問題信息過濾所需要解決這樣幾個(gè)問題1.如何獲取信息。2.信息如何進(jìn)行表示。3.根據(jù)什么樣的規(guī)則和方法來處理信息。4.信息相似度如何計(jì)算。5.匹配規(guī)則的自動(dòng)生成。其中信息表示是系統(tǒng)的基礎(chǔ)部分，信息表示的好壞將直接影響到其他的幾個(gè)方面，因?yàn)樗鼪Q定了信息處理的方法、規(guī)則的生成等。信息過濾在文檔類信息中的應(yīng)用就是將文檔內(nèi)容按照一定的表示方法如向量空間模型進(jìn)行整理后，采用文本分類的方法進(jìn)行信息過濾。文本分類的算法有基于概念的文本分類算法、貝葉斯分類方法、K最近鄰接分類算法、基于語義網(wǎng)絡(luò)的概念推理網(wǎng)分類方法和向量空間法等。我們主要采用的是貝葉斯

4、分類方法。貝葉斯分類方法貝葉斯分類方法貝葉斯分類算法是一種廣泛應(yīng)用的分類算法，應(yīng)用于文本分類時(shí)，通過計(jì)算文本屬于每個(gè)類別的概率P(cj|dx),將該文本歸為概率最大的一類，計(jì)算P(cj|dx)時(shí)利用貝葉斯公式。簡單貝葉斯分類算法即Naive Bayesian，它建立在“貝葉斯假設(shè)”的基礎(chǔ)之上：假設(shè)所有的特征之間互相獨(dú)立。實(shí)際上，在生活中這種獨(dú)立性很難存在，但從目前的實(shí)驗(yàn)結(jié)果看來，基于這個(gè)假設(shè)的簡單貝葉斯分類算法的效果很好，而且計(jì)算簡單，因此在很多場合得到適用。Graham使用使用Naive Bayesian過濾過濾垃圾郵件的理論垃圾郵件的理論 Paul Graham于2002年8月發(fā)表了一

5、篇文章：A Plan for Spam，在文章中Graham提議建立垃圾郵件和非垃圾郵件單詞的貝葉斯概率模型?；舅枷?在已知的垃圾郵件中，一些單詞出現(xiàn)的頻率較高。運(yùn)用一些眾所周知的數(shù)學(xué)知識，對于每個(gè)特征，可以生成一個(gè)“垃圾郵件指示性概率” (spamminess probability)。根據(jù)郵件中所包含的一組詞，可以用另一個(gè)簡單的數(shù)學(xué)公式來確定文本郵件的“整體垃圾郵件概率”(combined probability)，也稱郵件的聯(lián)合概率。算法說明算法說明之所以選擇貝葉斯算法，原因是由于該算法的優(yōu)點(diǎn)在于： 1、實(shí)現(xiàn)簡單； 2、貝葉斯模型能夠自我糾正。特征概率的算法特征概率的算法對于訓(xùn)練集

6、中的一個(gè)特征w： b(w)含有特征w的垃圾郵件數(shù)量/總的垃圾郵件的數(shù)量； g(w)含有特征w的合法郵件數(shù)量/總的合法郵件的數(shù)量；特征w概率f(w)的計(jì)算：b(w)p(w) =b(w) + g(w)(s* x) + (n* p(w)f(w) =s+n上式中：n：含特征w的郵件數(shù)量；s：一個(gè)常數(shù)參量，通常為1；x：當(dāng)n0時(shí)，我們需要假設(shè)的常量，也是特征w的概率，通常設(shè)為0.5；p(w)是Graham方法對特征概率的估計(jì)。郵件特征聯(lián)合概率的算法郵件特征聯(lián)合概率的算法在過濾過程中，對于進(jìn)入過濾的郵件，我們要根據(jù)訓(xùn)練的結(jié)果和該郵件的特征表示，給該郵件一個(gè)綜合的判定值，即聯(lián)合概率。然后根據(jù)設(shè)定的閾值

7、，判定此郵件是垃圾郵件還是合法郵件。計(jì)算方法如下：(1-)(1-)(1-)(1-)ABCNABCNABCN A,B,C,.,N代表了各個(gè)特征的在哈希表hash-spamminess中的值。當(dāng)郵件特征中包含以前沒有從來沒有出現(xiàn)的特征，建議特征概率為0.4。本垃圾郵件過濾系統(tǒng)的工作說明本垃圾郵件過濾系統(tǒng)的工作說明垃圾郵件過濾系統(tǒng)的系統(tǒng)流程圖：特征庫訓(xùn)練器（特征提取）過濾器（把垃圾郵件標(biāo)識出來）郵件訓(xùn)練集郵件測試集存儲過濾結(jié)果郵件提取郵件提?。豪脤︵]件的解碼提取郵件信息，包括對測試集郵件的提取和訓(xùn)練集郵件的提取。特征提取特征提取：將由訓(xùn)練集或者測試集中的郵件，進(jìn)行特征提取。在訓(xùn)練集中

8、，把從郵件提取的特征，按照已定的算法進(jìn)行計(jì)算，再用放入特征庫中來進(jìn)行儲存；在測試集中，提取郵件的特征，交給下個(gè)環(huán)節(jié)處理。在系統(tǒng)中，郵件階段是通過對郵件的解碼獲取信息，并將郵件轉(zhuǎn)換為文本。特征提取是提取郵件的主題和郵件體中的字符串，利用token串統(tǒng)計(jì)提取出的token串中各個(gè)token出現(xiàn)的次數(shù)。模式匹配：模式匹配：接受特征提取中后的信息，根據(jù)規(guī)則數(shù)據(jù)庫中的規(guī)則，按照某種相似度計(jì)算算法計(jì)算信息與實(shí)際需求的相關(guān)性，在達(dá)到一定的閥值后，輸出過濾的結(jié)果。信息表示信息表示：提供對過濾后的郵件的瀏覽，以及對過濾效果的評價(jià)。模式匹配階段分為兩個(gè)階段：訓(xùn)練和測試。訓(xùn)練階段主要是訓(xùn)練規(guī)則庫，提取spam和ham的特征；主要分三步：解析郵件和提取特征；建立三個(gè)哈希表：hash-good、hash-bad、 hash-spamminess； hash-good存放合法郵件中提取的特征和各特征在合法郵件中出現(xiàn)的次數(shù)；hash-bad存放垃圾郵件中提取的特征和各特征在垃圾郵件中出現(xiàn)的次數(shù)；綜合考慮hash-good和hash-bad，建立各特征的垃圾郵件指示概率(spammniess probability)，存入哈希表hash-spamminess中。測試階段是利用已訓(xùn)練完成的規(guī)則庫，對郵件進(jìn)行判斷。并向用戶提交結(jié)果。其過濾過程為：對于新的郵件，提取郵件的特征，通常是

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

垃圾郵件過濾

文檔簡介

溫馨提示

最新文檔

評論

垃圾郵件過濾

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔