




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于貝葉斯技術(shù)的垃圾郵件處理研究易 均 ,李暉 ,王歆(江西省科學(xué)院 ,江西 南昌 330029 )摘要: 本論文首先對垃圾郵件進行了簡要的描述,并敘述了反垃圾郵件技術(shù)的研究現(xiàn)狀,介紹貝葉斯 過濾技術(shù)的工作原理及技術(shù)原理,最后給出貝葉斯技術(shù)研究的發(fā)展方向。關(guān)鍵詞: 貝葉斯技術(shù);反垃圾郵件1、前言隨著因特網(wǎng)應(yīng)用的快速發(fā)展, 電子郵件也逐步成為因特網(wǎng)的最大一個應(yīng)用之 一,給我們生活帶來很大的方便, 而且電子郵件的發(fā)展也代表了我國進入信息業(yè) 高速發(fā)展的階段。 但是也同時產(chǎn)生了一個新的問題, 即大量的垃圾郵件出現(xiàn)。 如 何把電子郵件中的垃圾郵件過濾掉, 已經(jīng)成為電子郵件用戶此刻最關(guān)心的一大問 題,這也
2、就是所謂的“反垃圾郵件”問題。反垃圾郵件是具有相當(dāng)難度的事情,垃圾郵件每天都在增加和變化。據(jù) Radicati 估計 2007 年,垃圾郵件的比例將達(dá)到 70?,F(xiàn)在的垃圾郵件發(fā)送者變 得更加狡猾, 采用靜態(tài)反垃圾郵件技術(shù)很難防范。 垃圾郵件發(fā)送者只要簡單的研 究一下現(xiàn)在采用了哪些靜態(tài)反垃圾郵件, 然后相應(yīng)的改變一下郵件的內(nèi)容或發(fā)送 方式,就可以逃避檢查了, 因此,必須采用一種新的技術(shù)來克服靜態(tài)反垃圾郵件 的弱點,這種技術(shù)應(yīng)該對垃圾郵件發(fā)送者的各種伎倆了如指掌, 還要能適應(yīng)不同 用戶對于反垃圾郵件的個性化需求。這種技術(shù)就是貝葉斯過濾技術(shù)。2、垃圾郵件概述以及反垃圾郵件技術(shù)的研究現(xiàn)狀2.1 、垃圾
3、郵件的概述我國至今對垃圾郵件的定義有很多種,包括如下幾種:收件人沒有提出要 求或者同意接收的廣告、 及其各種形式的宣傳品等宣傳性的電子郵件; 在郵件 中,隱藏了發(fā)件人身份、地址、標(biāo)題等信息的電子郵件:含有虛假的發(fā)件人的 身份、地址等信息源的電子郵件;收件人無法拒收或者無法刪除的電子郵件。 目前,垃圾郵件的定義被擴大了,除了上述對垃圾郵件定義外,病毒、反動、色 情等等無用的郵件,也被包括在垃圾郵件的定義中2.2 、反垃圾郵件技術(shù)的研究現(xiàn)狀目前影響較大的主流反垃圾郵件技術(shù)有以下二種:協(xié)議改進類的方法,重新構(gòu)建 SMTP協(xié)議,加入安全認(rèn)證機制。針對垃圾 郵件問題對SMTP協(xié)議進行改進和完善是許多研究
4、人員關(guān)注的重點問題所在。因 為就SMTP協(xié)議改進而言面臨著很多棘手之處,因此目前新協(xié)議沒有得到廣泛的 使用,相信未來隨著網(wǎng)絡(luò)結(jié)構(gòu)的進一步發(fā)展, 在這方面的研究成果會成為解決垃 圾郵件問題的有力措施。在當(dāng)今的郵件系統(tǒng)中載入其它處理程序來阻斷垃圾郵件, 其中包含了垃圾 郵件過濾技術(shù)、 郵件服務(wù)器的安全管理技術(shù)兩部分內(nèi)容。 對過濾技術(shù)的應(yīng)用主要 集中在利用 IP 或者域名“黑名單”進行郵件過濾或中斷;基于數(shù)據(jù)挖掘技術(shù)進 行的過濾垃圾郵件, 利用文本分類與統(tǒng)計算法進行垃圾郵件檢測。 比較有代表性 的包括結(jié)合DNS的實時黑名單過濾、貝葉斯過濾器等,其中貝葉斯過濾器以較高 的準(zhǔn)確率在垃圾郵件過濾技術(shù)中占據(jù)
5、了很重要的地位。3、貝葉斯過濾技術(shù)3.1 、貝葉斯過濾技術(shù)的工作原理根據(jù)貝葉斯理論, 根據(jù)已經(jīng)發(fā)生的時間可以預(yù)測未來事件發(fā)生的可能性。 將 該理論運用到反垃圾郵件上: 若已知某些字詞經(jīng)常出現(xiàn)在垃圾郵件中, 卻很少出 現(xiàn)在合法郵件中, 當(dāng)一封郵件含有這些字詞時, 那么他是垃圾郵件的可能性就很 大。創(chuàng)建基于字詞符號的貝葉斯數(shù)據(jù)庫 用戶首先需要對貝葉斯進行培訓(xùn), 即將郵件分類為垃圾郵件 (用戶不想要的) 和 正常郵件(用戶想要的) ,貝葉斯將提取這些郵件樣本中主題和信體中的獨立字 串,包括字詞(word)和符號(token )(如$,IP地址,域名等),并建立相 應(yīng)的數(shù)據(jù)庫。創(chuàng)建貝葉斯概率庫 統(tǒng)計出
6、每個字串在垃圾郵件中出現(xiàn)的概率以及在正常郵件中出現(xiàn)的概率, 然后根 據(jù)公式計算出郵件中含某字串則為垃圾郵件的概率。例如:在 3000 封垃圾郵件 樣本中 "mortgage" (抵押) 出現(xiàn)了 400次,而在 300封正常郵件中這個詞出現(xiàn)了 5次,那么其對應(yīng)的垃圾概率為 0.8889 (400/3000 /5/300+400/3000 )。創(chuàng)建個性化的貝葉斯庫由于每個單位對所收到的郵件偏好是不同的, 例如,某個金融類單位在正常 郵件中可能經(jīng)常用到"mortgage"這個詞,如果使用靜態(tài)的關(guān)鍵詞過濾,就可能產(chǎn) 生很多誤判。如果采用貝葉斯過濾,在對貝葉斯進行
7、培訓(xùn)的時候,將該單位的合 法郵件(自然,很多都包含了 "mortgage"這個詞)分類為正常郵件。這樣,垃圾 郵件的識別率將更高,同時也使得誤判率變得很低。貝葉斯過濾算法的主要思想是在已知的大量垃圾郵件中,郵件中包含一些 特征串(token),這些特征串可以簡單的理解為一個完整的單詞,但實際上它不 僅僅限于單詞,它們一般出現(xiàn)在郵件中的頻率特別高,而在一些合法郵件中,另一些特征串出現(xiàn)的頻率也很高。一般而言,對于同一個特征串出現(xiàn)在垃圾郵件和 合法郵件中的概率是不同的。因此,對于出現(xiàn)的每一個特征串,都會生成一個“垃 圾郵件指示性概率” (spam ratio)。所以我們就可以判斷
8、文本消息的整體“垃圾 郵件概率”。在垃圾郵件的處理中,對token的定義方法有很多種,如字母、數(shù)字、破折 號、撇號、美元號等,還有在收件人,發(fā)件人和主題等這些欄中出現(xiàn)的token作為相應(yīng)的標(biāo)記。根據(jù)一些劃分方法從郵件中提取標(biāo)識時, 得到標(biāo)識的數(shù)量比較 大時,這樣處理工作帶來了較大的計算開銷, 使整個處理過程的效率下降。另外, 有些標(biāo)識,例如a、the、of、for等,這些詞出現(xiàn)的頻率雖然很高,但它們在 一封郵件中頻繁出現(xiàn)我們并不能說明這封郵件是垃圾郵件還是合法郵件。因此, 必須對標(biāo)識進行必要的細(xì)化處理,找出這些非用詞放入一個表中,保留其他的標(biāo) 識為以后工作使用。3.2、貝葉斯方法過濾垃圾郵件的
9、基本技術(shù)原理收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。提取郵件主題和郵件體中的獨立字串作為TOKEN串,并統(tǒng)計提取它的TOKE串出現(xiàn)的次數(shù),即字頻。每一個郵件集對應(yīng)一個哈希表,設(shè)hashtable_good對應(yīng)非垃圾郵件集而hashtable_bac對應(yīng)垃圾郵件集。表中存儲TOKE串到字頻的映射關(guān)系。計算每個哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/ (對 應(yīng)哈希表的長度)。綜合考慮hashtable_good和hashtable_bad推斷出當(dāng)新來的郵件中出現(xiàn)某 個TOKENI時,該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為:A 事件-郵件為垃圾郵件;It,t
10、n代表TOKEN串,則P(A/tJ表示在郵件中出現(xiàn)TOKEN串ti時,該郵件為垃圾郵件的概率。設(shè):R(ti) = (ti在 hashtable _ good中的值)P2(tJ =(tj在 hashtable _ bad 中的值)貝U P(A/ti)-R(ti)+P2(ti)建立新的哈希表 hashtable_probability存儲TOKEN!ti到P(A/ti)的映射。此時垃圾郵件集和非垃圾郵件集的學(xué)習(xí)過程結(jié)束。根據(jù)建立的hashtable_probability估計一圭寸新到的郵件為垃圾郵件的可能性。當(dāng)新到一封郵件時,按照步驟 2生成TOKEN串。查詢hashtable_probabil
11、ity得到該TOKEN串的鍵值。假設(shè)由該郵件共得到 N個 TOKEN串, t|,t2 ,tn, hashtable_probability 中對應(yīng)的值為R,F2,R , P(A/tt2,tn)表示在郵件中同時出現(xiàn)多個TOKEN串tnt2tn時,該郵件為垃圾郵件的概率。由復(fù)合概率公式得:P(A/t!,t2/ tn)1 2-R訃2汀巳+( P戶(1卩2戶(1 巳)當(dāng)P(A/tt2)超過預(yù)定閾值時,就可以判斷郵件為垃圾郵件。3.3、貝葉斯過濾的優(yōu)點貝葉斯過濾技術(shù)對郵件的所有內(nèi)容進行分析,不僅僅是其中的某個關(guān)鍵詞,而且他能判別郵件是垃圾郵件還是正常郵件。例如:包含 “free ”“ cash” “發(fā)票
12、”字樣的郵件不一定是垃圾郵件,如果采用關(guān)鍵字過濾技術(shù),顯然難以達(dá)到理想的效果。 而貝葉斯呢,即考慮了這些詞在垃圾郵件中出 現(xiàn)的概率又考慮了它在正常郵件中的概率,綜合考慮這些因素才做出判斷??梢哉f,貝葉斯具有一定的智能,它對郵件中的關(guān)鍵詞匯能綜合的進行評判,可以把 握“好”與“壞”之間的平衡。顯然,這種技術(shù)遠(yuǎn)遠(yuǎn)高于非1即0的靜態(tài)過濾技 術(shù)。貝葉斯過濾技術(shù)具備自適應(yīng)功能一一通過學(xué)習(xí)新的垃圾郵件及正常郵件 樣本,貝葉斯將能對抗最新的垃圾郵件。并且對變體字有奇效。比如,垃圾郵件 發(fā)送者開始使用 "f-r-e-e" 來代替“ free ”這樣能夠繞過關(guān)鍵字檢查,除非 "f-
13、r-e-e" 被加到新的關(guān)鍵字中。 對貝葉斯而言, 當(dāng)它發(fā)現(xiàn)郵件中含有 "f-r -e-e" 時,由于正常郵件中從來沒有發(fā)現(xiàn)這個詞, 因此他是垃圾郵件的可能性將急劇增 加, "f-r-e-e" 這個新詞無疑成了垃圾郵件的指示器。在比如,垃圾郵件中用 5e 代替se,貝葉斯也推算出他是垃圾郵件的可能性也急劇增加。貝葉斯過濾技術(shù)更加個性化。 他能學(xué)習(xí)并理解用戶對郵件的偏好。 如前所 述, mortgage '抵押一詞對軟件單位而言意味者垃圾, 但對金融類單位則意味 著好郵件。貝葉斯能根據(jù)用戶的這種偏好進行處理。貝葉斯過濾技術(shù)支持多語種或者說
14、與編碼無關(guān)。 對于貝葉斯而言, 他分析 的是字串,無論他是字、詞、符號、還是別的什么,當(dāng)然更與語言無關(guān)。貝葉斯過濾器很難被欺騙。 垃圾郵件發(fā)送高手通常通過減少垃圾詞匯 (如 free 、viagra 、發(fā)票)或者在信中多摻一些好的詞匯(如合同、文件)來繞過檢 查一般的郵件內(nèi)容檢查, 但由于貝葉斯具有的個性化色彩, 要想成功的繞過貝葉 斯的檢查, 他就不得不對每個收件人的偏好進行研究, 這簡直是“不可能完成的 任務(wù)”。垃圾郵件發(fā)送者無法容忍的。 若采用變化字, 則如前所述貝葉斯判斷其 為垃圾郵件的可能性反而增加。4、結(jié)束貝葉斯網(wǎng)絡(luò)具有悠久的歷史, 很久以前貝葉斯就提出了基于統(tǒng)計方法的貝葉 斯網(wǎng)絡(luò)的概念。 貝葉斯網(wǎng)絡(luò)為因果信息提供了一種自然直觀的表達(dá)方式。 貝葉斯 網(wǎng)絡(luò)具有概率推理能力強、語義清晰、易于理解等特點。近年來,研究熱點在推 理的各種方法和從數(shù)據(jù)中進行貝葉斯網(wǎng)絡(luò)學(xué)習(xí)的各種方法, 并且它對于網(wǎng)絡(luò)模型 的構(gòu)建和智能推理的應(yīng)用均具有重要的意義。參考文獻1 王理冬,汪光陽,程澤凱,朱孝宇,貝葉斯網(wǎng)絡(luò)的發(fā)展與展望J.安徽工業(yè)大學(xué)學(xué)報 200
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- UX 設(shè)計師崗位面試問題及答案
- 2025屆河北省秦皇島市一中高二下化學(xué)期末教學(xué)質(zhì)量檢測試題含解析
- 2025屆天津市靜海區(qū)獨流中學(xué)化學(xué)高二下期末調(diào)研試題含解析
- 村鎮(zhèn)園林項目管理辦法
- 華為運動啟動管理辦法
- 華潤燃?xì)饪冃Ч芾磙k法
- 農(nóng)村代理記賬管理辦法
- 公共綠化區(qū)域管理辦法
- 檢察檔案保密管理辦法
- 多功能復(fù)合創(chuàng)可貼-洞察及研究
- 護理核心制度考試試卷(附答案)
- 尾礦工安全培訓(xùn)
- 西安高新區(qū)管委會招聘筆試真題2024
- 2025年中國工商銀行招聘筆試備考題庫(帶答案詳解)
- 研發(fā)項目工時管理制度
- 浮選藥劑安全管理制度
- 技術(shù)異化的解放路徑-洞察及研究
- 2025年連云港市中考語文試卷真題(含標(biāo)準(zhǔn)答案)
- T/CGMA 033002-2020壓縮空氣站節(jié)能設(shè)計指南
- 南通國家級南通經(jīng)濟技術(shù)開發(fā)區(qū)公開招聘招商人員筆試歷年參考題庫附帶答案詳解
- 2025年數(shù)字媒體藝術(shù)專業(yè)考試試卷及答案
評論
0/150
提交評論