垃圾郵件過(guò)濾技術(shù)探討_第1頁(yè)
垃圾郵件過(guò)濾技術(shù)探討_第2頁(yè)
垃圾郵件過(guò)濾技術(shù)探討_第3頁(yè)
垃圾郵件過(guò)濾技術(shù)探討_第4頁(yè)
垃圾郵件過(guò)濾技術(shù)探討_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

垃圾郵件過(guò)濾技術(shù)探討第1頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容提要問(wèn)題的提出國(guó)內(nèi)外研究現(xiàn)狀研究路線已完成的實(shí)驗(yàn)及得到的結(jié)果下一步計(jì)劃可能的創(chuàng)新點(diǎn)第2頁(yè),共42頁(yè),2023年,2月20日,星期四問(wèn)題的提出:垃圾郵件泛濫隨著Internet的普及,電子郵件日益得到了廣泛的應(yīng)用,成為日常生活中人與人之間通信、交流的重要手段。但是隨之而來(lái)的垃圾郵件也越來(lái)越猖獗。據(jù)統(tǒng)計(jì)每年美國(guó)因垃圾郵件造成的損失高達(dá)10億美元,全球的損失更高達(dá)20億美元(資料來(lái)源:中國(guó)反垃圾郵件聯(lián)盟)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2003年7月公布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)民平均每周收到16.1封電子郵件,其中垃圾郵件占據(jù)了8.9封,垃圾郵件數(shù)量超過(guò)了正常郵件數(shù)量,并有進(jìn)一步增長(zhǎng)的趨勢(shì)第3頁(yè),共42頁(yè),2023年,2月20日,星期四問(wèn)題的提出:垃圾郵件的危害浪費(fèi)電子郵件用戶的時(shí)間占用網(wǎng)絡(luò)、系統(tǒng)資源,降低了網(wǎng)絡(luò)的運(yùn)行效率。如,大量的垃圾郵件占用網(wǎng)絡(luò)帶寬,占用郵件服務(wù)器的磁盤空間對(duì)網(wǎng)絡(luò)安全形成威脅。傳播有害信息,危害社會(huì);成為“黑客”的工具,利用數(shù)以億萬(wàn)計(jì)的垃圾郵件造成被攻擊目標(biāo)癱瘓;傳播計(jì)算機(jī)病毒第4頁(yè),共42頁(yè),2023年,2月20日,星期四問(wèn)題的提出:解決的手段反垃圾郵件立法垃圾郵件過(guò)濾技術(shù)無(wú)論對(duì)于電子郵件服務(wù)提供商還是用戶個(gè)人,都迫切需要行之有效的反垃圾郵件技術(shù)第5頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容提要問(wèn)題的提出國(guó)內(nèi)外研究現(xiàn)狀研究路線已完成的實(shí)驗(yàn)及得到的結(jié)果下一步計(jì)劃第6頁(yè),共42頁(yè),2023年,2月20日,星期四常用的垃圾郵件過(guò)濾技術(shù)(1)白名單和黑名單

如果郵件的發(fā)送地址在白名單中,將不進(jìn)行垃圾郵件檢查;反之,如果發(fā)送地址在黑名單中則直接當(dāng)作垃圾郵件處理對(duì)郵件的標(biāo)題、內(nèi)容進(jìn)行關(guān)鍵詞匹配,識(shí)別垃圾郵件設(shè)定其他的規(guī)則將垃圾郵件過(guò)濾看作二類的文本分類或文本過(guò)濾問(wèn)題,對(duì)郵件文本內(nèi)容進(jìn)行計(jì)算—文本分類、過(guò)濾技術(shù)的應(yīng)用第7頁(yè),共42頁(yè),2023年,2月20日,星期四常用的垃圾郵件過(guò)濾技術(shù)(2)按照郵件系統(tǒng)的角色結(jié)構(gòu),將郵件過(guò)濾分為三類:MTA(郵件傳輸代理)過(guò)濾

MTA過(guò)濾是指MTA在會(huì)話過(guò)程中對(duì)會(huì)話的數(shù)據(jù)進(jìn)行檢查,對(duì)于符合過(guò)濾條件的郵件進(jìn)行過(guò)濾處理;MDA(郵件遞交代理)過(guò)濾

MDA過(guò)濾是指MDA在從MTA中接收到信件,在本地或遠(yuǎn)程進(jìn)行遞交時(shí)進(jìn)行檢查,對(duì)于符合過(guò)濾條件的郵件進(jìn)行過(guò)濾處理。很多的MDA都支持在這個(gè)過(guò)程進(jìn)行過(guò)濾,如Procmail、Maildrop和Cyrus-IMAP等MUA(郵件用戶代理)過(guò)濾

MTA和MDA過(guò)濾都是郵件服務(wù)器端的過(guò)濾,而MUA過(guò)濾是郵件用戶的客戶端的過(guò)濾。第8頁(yè),共42頁(yè),2023年,2月20日,星期四常用的垃圾郵件過(guò)濾技術(shù)(3)具有反垃圾郵件功能的產(chǎn)品,比較常用的有郵件客戶端Outlook2003、OutlookExpress6、Foxmail5.0、Eudora6等這些產(chǎn)品大多采用白名單、黑名單、關(guān)鍵詞匹配和規(guī)則匹配等方法識(shí)別垃圾郵件。Foxmail5.0中使用了貝葉斯過(guò)濾,是一個(gè)亮點(diǎn),需用戶提供正反各1000篇以上的郵件用來(lái)訓(xùn)練第9頁(yè),共42頁(yè),2023年,2月20日,星期四常用的垃圾郵件過(guò)濾技術(shù)(4)和一般的二類文本分類、過(guò)濾問(wèn)題相比較,垃圾郵件有自身的特點(diǎn):

--電子郵件有自己的內(nèi)容結(jié)構(gòu),如發(fā)件人、收件

人、郵件頭、標(biāo)題等;

--實(shí)時(shí)性要求較高;

--效果要求上,人們最不希望將正常郵件誤判為垃圾

郵件,因此首先要保證分類的精確律(precision),

在此基礎(chǔ)上盡量提高召回率(recall);

--對(duì)客戶端郵件過(guò)濾而言,要給用戶提供操作簡(jiǎn)便、速

度快的反饋學(xué)習(xí)機(jī)制本文結(jié)合郵件過(guò)濾問(wèn)題的上述特點(diǎn),主要討論內(nèi)容過(guò)濾第10頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容過(guò)濾技術(shù)(1)貝葉斯過(guò)濾(Na?veBayes)

貝葉斯過(guò)濾是目前最為廣泛采用的郵件過(guò)濾方法,如希臘的IonAndroutsopoulos(2000),Stanford的MehranSahami等人第11頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容過(guò)濾技術(shù)(2)MemoryBasedApproach

也叫InstanceBased,無(wú)訓(xùn)練階段,基于實(shí)例的,如k-近鄰(k-NN)方法。這種方法分類速度比較慢Boost、AdaBoost方法決策樹DecisionTree第12頁(yè),共42頁(yè),2023年,2月20日,星期四常用語(yǔ)料(1)PU1(2000)

--英文

--來(lái)源于提供者一段時(shí)間內(nèi)的真實(shí)郵件

--共1099篇,包含481篇垃圾、618篇非垃圾

--分為10份,每份約110篇,每次使用其中的9份為訓(xùn)

練集,另一份為測(cè)試集,共10次交叉

--保留標(biāo)題和正文,將詞匯編碼為整數(shù)id

--提供了4種形式的語(yǔ)料:bare(Lemmatiserdisabled,

stop-listdisabled)、lemm(Lemmatiserenabled,

stop-listdisabled)、lemm_stop(Lemmatiserenabled,

stop-listenabled)和stop(Lemmatiserdisabled,stop-

listenabled)第13頁(yè),共42頁(yè),2023年,2月20日,星期四常用語(yǔ)料(2)Ling-Spam

--英文

--共2893篇文本,481篇垃圾郵件,2412篇非

垃圾郵件

--也是分為10份,包含4種形式bare、lemm、

lemm-stop和stop

--與PU1不同的是,郵件內(nèi)容是原始詞匯,沒(méi)

有編碼為整數(shù)idPU123A

--PU1的2003版本,只有bare形式,與PU1略有不同第14頁(yè),共42頁(yè),2023年,2月20日,星期四中文通用郵件語(yǔ)料建構(gòu)設(shè)想構(gòu)建中文垃圾郵件的真實(shí)語(yǔ)料為垃圾郵件分類器提供訓(xùn)練集和測(cè)試集半結(jié)構(gòu)化的標(biāo)識(shí)方法,如<from></from>,<to></to>,<subject></subject>…作為開(kāi)放資源的一部分,供評(píng)測(cè)、交流?第15頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容提要問(wèn)題的提出國(guó)內(nèi)外研究現(xiàn)狀研究路線已完成的實(shí)驗(yàn)及得到的結(jié)果下一步計(jì)劃第16頁(yè),共42頁(yè),2023年,2月20日,星期四研究路線(1)實(shí)現(xiàn)Na?veBayes垃圾郵件分類器。使用PU1語(yǔ)料作訓(xùn)練集和測(cè)試集,和以前的結(jié)果作比較實(shí)驗(yàn)?zāi)康模?/p>

--驗(yàn)證Na?veBayes方法的效果

--在常用語(yǔ)料上詳細(xì)比較特征選擇方法、特征

數(shù)量、閾值、語(yǔ)料的預(yù)處理層次(如去停用

詞、詞干還原)等對(duì)效果的影響,為實(shí)際應(yīng)

用作積累第17頁(yè),共42頁(yè),2023年,2月20日,星期四研究路線(2)Winnow分類器是一種簡(jiǎn)單的線性分類器,在TREC2003Novelty中我們實(shí)驗(yàn)了它的效果。應(yīng)用于大量特征和稀疏向量時(shí)性能較好,而且由于簡(jiǎn)單,如果用于垃圾郵件過(guò)濾時(shí)效果比較好,則實(shí)用性很大。因此使用Winnow分類器實(shí)驗(yàn)在PU1語(yǔ)料上的效果。積累了在英文語(yǔ)料上Na?veBayes和Winnow方法的實(shí)驗(yàn)結(jié)果以后,將他們應(yīng)用在中文郵件語(yǔ)料上第18頁(yè),共42頁(yè),2023年,2月20日,星期四研究路線(3)結(jié)合電子郵件自身的結(jié)構(gòu)特點(diǎn)和經(jīng)驗(yàn)中的垃圾郵件常見(jiàn)特征,采用多特征空間的郵件模型,即把這些非“詞”一級(jí)的特征融合到郵件的特征空間中,在自己建立的中文語(yǔ)料上實(shí)驗(yàn)這種方法的效果根據(jù)實(shí)驗(yàn)得出的算法性能特征,考慮其應(yīng)用場(chǎng)景垃圾郵件過(guò)濾工具工程實(shí)現(xiàn)的設(shè)想第19頁(yè),共42頁(yè),2023年,2月20日,星期四內(nèi)容提要問(wèn)題的提出國(guó)內(nèi)外研究現(xiàn)狀研究路線已完成的實(shí)驗(yàn)及得到的結(jié)果下一步計(jì)劃第20頁(yè),共42頁(yè),2023年,2月20日,星期四Na?veBayes基本思想是應(yīng)用貝葉斯公式,利用先驗(yàn)概率和類條件概率來(lái)估計(jì)后驗(yàn)概率待估計(jì)的后驗(yàn)概率類條件概率先驗(yàn)概率第21頁(yè),共42頁(yè),2023年,2月20日,星期四Na?veBayes:Multi-variateBernoulliModel(MBM)P(cj)和P(wt|cj)是訓(xùn)練過(guò)程中需計(jì)算的統(tǒng)計(jì)量第22頁(yè),共42頁(yè),2023年,2月20日,星期四Na?veBayes:MultinomialModel(MM)P(cj)和P(wt|cj)是訓(xùn)練過(guò)程中需計(jì)算的統(tǒng)計(jì)量第23頁(yè),共42頁(yè),2023年,2月20日,星期四Na?veBayes:特征選擇平均互信息(AveragemutualInformation)第24頁(yè),共42頁(yè),2023年,2月20日,星期四Na?veBayes:PU1語(yǔ)料上IonAndroutsopoulos的結(jié)果

(SIGIR2000)第25頁(yè),共42頁(yè),2023年,2月20日,星期四我使用Na?veBayes(MBM)方法在PU1語(yǔ)料上交叉訓(xùn)練測(cè)試取平均recall和precision的結(jié)果使用的語(yǔ)料閾值特征數(shù)量Recall(平均)Precision(平均)PU1bare0.505000.8770.9780.902000.9420.9670.905000.8480.9770.992000.8920.976PU1lemm0.505000.8830.9600.902000.9440.9550.905000.8650.9750.995000.8360.981PU1lemm_stop0.505000.9250.9680.902000.9670.9530.905000.8980.9760.992000.9380.971PU1stop0.505000.9130.9760.902000.9630.9640.992000.9290.9770.995000.8420.988第26頁(yè),共42頁(yè),2023年,2月20日,星期四PU1語(yǔ)料上閾值和特征數(shù)對(duì)Na?veBayes(MBM)方法的影響比較Recall橫軸為特征數(shù)Precision橫軸為特征數(shù)以PU1bare語(yǔ)料為例,其它形式的PU1語(yǔ)料也有類似結(jié)果第27頁(yè),共42頁(yè),2023年,2月20日,星期四PU1語(yǔ)料上閾值和特征數(shù)對(duì)Na?veBayes(MBM)方法的影響比較閾值從0.50、0.90到0.99,recall有所下降閾值從0.50、0.90到0.99,precision在特征數(shù)較少時(shí)上升比較明顯,特征數(shù)較多時(shí),上升不明顯特征數(shù)量逐漸增多的過(guò)程中,recall呈下降趨勢(shì)特征數(shù)量逐漸增多的過(guò)程中,precision呈上升趨勢(shì),但當(dāng)特征達(dá)到一定數(shù)量時(shí),precision的上升趨勢(shì)就不明顯了第28頁(yè),共42頁(yè),2023年,2月20日,星期四PU1語(yǔ)料的預(yù)處理程度對(duì)Na?veBayes(MBM)方法的影響比較:recall閾值0.50閾值0.90閾值0.99第29頁(yè),共42頁(yè),2023年,2月20日,星期四PU1語(yǔ)料的預(yù)處理程度對(duì)Na?veBayes(MBM)方法的影響比較:precision閾值0.50閾值0.90閾值0.99第30頁(yè),共42頁(yè),2023年,2月20日,星期四PU1語(yǔ)料的預(yù)處理程度對(duì)Na?veBayes(MBM)方法的影響比較去停用詞、詞干還原對(duì)recall的影響很明顯,lemm_stop、lemm和stop比bare要好,lemm_stop最好去停用詞、詞干還原對(duì)precision的影響規(guī)律并不明顯第31頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器(1)一種線性分類器我們?cè)赥REC2003Novelty中實(shí)驗(yàn)了它的性能這種分類器的訓(xùn)練策略是基于錯(cuò)誤率的反饋調(diào)整訓(xùn)練和分類過(guò)程都比較簡(jiǎn)單,易于計(jì)算已有實(shí)驗(yàn)證明winnow方法比Rocchio和Na?veBayes要好(P.P.T.M.vanMun“TextClassificationinInformationRetrievalusingWinnow”)第32頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器(2)第33頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器應(yīng)用于垃圾郵件過(guò)濾(1)我使用的是balancedwinnow(Littlestone,1988),與上面不同的是,用wi+-wi-代替wi,訓(xùn)練時(shí),如果要提高權(quán)重,則wi+=αwi+,wi-=βwi-

;若要降低權(quán)重,則wi+=βwi+,wi-=αwi-。其中α>1,0<β<1雖然Winnow很適合于大規(guī)模特征的稀疏向量,但若不進(jìn)行特征降維,會(huì)帶來(lái)比較多的噪聲,也給計(jì)算速度和存儲(chǔ)量帶來(lái)壓力,因此將特征選擇也應(yīng)用于winnow方法中第34頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器應(yīng)用于垃圾郵件過(guò)濾(2)我實(shí)驗(yàn)了幾種特征選擇方法:互信息(MI)、文檔頻次(DF)和優(yōu)勢(shì)率(Odds)Winnow分類器的閾值θ定為訓(xùn)練集中平均每篇文本包含的特征數(shù)目α=1.5,β=0.5使用PU1語(yǔ)料的10份交叉訓(xùn)練測(cè)試,取平均結(jié)果為了減少錯(cuò)誤率,通常要在訓(xùn)練集上多次訓(xùn)練。結(jié)果發(fā)現(xiàn),當(dāng)訓(xùn)練次數(shù)達(dá)到4-5次時(shí),對(duì)訓(xùn)練集分類的錯(cuò)誤率就降到很小,如果再訓(xùn)練多次,對(duì)測(cè)試集的分類效果反而有所下降,即存在“訓(xùn)練過(guò)度”問(wèn)題。因此將訓(xùn)練次數(shù)定在4-5次第35頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器應(yīng)用于垃圾郵件過(guò)濾(3):與boost的結(jié)果比較(1)這是我找到的在PU1bare語(yǔ)料上取得的最好的結(jié)果,使用boost方法第36頁(yè),共42頁(yè),2023年,2月20日,星期四Winnow分類器應(yīng)用于垃圾郵件過(guò)濾(3):與boost的結(jié)果比較(2)特征選擇方法特征數(shù)量Winnow訓(xùn)練次數(shù)recallprecisionMI800040.9540.972MI500040.9650.971這是我用wi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論