中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn)和評(píng)估.ppt_第1頁(yè)
中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn)和評(píng)估.ppt_第2頁(yè)
中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn)和評(píng)估.ppt_第3頁(yè)
中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn)和評(píng)估.ppt_第4頁(yè)
中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn)和評(píng)估.ppt_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文垃圾郵件過(guò)濾系統(tǒng) 的實(shí)現(xiàn)和評(píng)估,田瑩 北京 清華大學(xué) 網(wǎng)絡(luò)中心 Email:,概要,引言 研究背景 中文垃圾郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn) 中文垃圾郵件過(guò)濾系統(tǒng)的評(píng)估 最新研究進(jìn)展及結(jié)論,引言,垃圾郵件的定義 垃圾郵件的危害 反垃圾郵件的意義 Email,短信,VoIP電話 垃圾郵件的特性,反垃圾郵件的方法,黑白名單 關(guān)鍵字匹配 貝葉斯 SVM Etc.,基于內(nèi)容的過(guò)濾器的流程圖,英文垃圾郵件的貝葉斯過(guò)濾流程,收集兩個(gè)數(shù)據(jù)庫(kù) 垃圾郵件數(shù)據(jù)庫(kù) 正常郵件數(shù)據(jù)庫(kù) 在每一個(gè)數(shù)據(jù)庫(kù)中,學(xué)習(xí)并定義出一些關(guān)鍵詞,計(jì)算這些關(guān)鍵詞的概率 新郵件到來(lái)時(shí),計(jì)算出新到來(lái)的郵件中包含的關(guān)鍵詞的聯(lián)合概率 通過(guò)聯(lián)合概率判斷新到來(lái)的郵件是否是垃圾郵件,中文郵件的預(yù)處理,中文分詞的概念 分詞算法 基于字符串匹配 基于理解 基于統(tǒng)計(jì) 中文分詞的詞典 基于整詞二分 基于TRIE索引樹(shù) 基于逐字二分,實(shí)驗(yàn)數(shù)據(jù)來(lái)源,CCERT提供 /spam/index.htm 訓(xùn)練用郵件數(shù) 5000 測(cè)試用郵件數(shù) 500,評(píng)估指標(biāo),定義L為正常郵件,S為垃圾郵件。SL表示將垃圾郵件判定為正常郵件,同理,LS表示將正常郵件判定為垃圾郵件。 在文本分類問(wèn)題中,有兩個(gè)評(píng)估指標(biāo)被經(jīng)常使用。 Acc稱為正確率。Err稱為錯(cuò)誤率。這里 表示將正常郵件判斷為正常郵件的個(gè)數(shù)。 的含義可以類推。 和 分別表示待判定的正常郵件和垃圾郵件的總個(gè)數(shù)。,評(píng)估指標(biāo)(續(xù)1),考慮到LS和 SL分別會(huì)有不同的代價(jià),并設(shè)LS的代價(jià)是SL的代價(jià)的倍,我們定義兩個(gè)新的評(píng)估指標(biāo),分別是WAcc(加權(quán)的正確率)和WErr(加權(quán)的錯(cuò)誤率) 在沒(méi)有過(guò)濾的情況下(無(wú)論是正常郵件還是垃圾郵件一律通過(guò)),我們得到基準(zhǔn)WAcc和基準(zhǔn)WErr分別為:,評(píng)估指標(biāo)(續(xù)2),為了方便比較,定義比率R為 不難看出R越大,過(guò)濾的效果越好。R如果小于1,意味著過(guò)濾比不過(guò)濾效果還差,參數(shù)說(shuō)明,我們的算法中有兩個(gè)重要的參數(shù) 用于訓(xùn)練的樣本個(gè)數(shù)n 在過(guò)濾中計(jì)算最終概率的特征數(shù)目m 實(shí)驗(yàn)中,主要研究R和n以及R和m之間的相互關(guān)系。,實(shí)驗(yàn)結(jié)果,圖1 R-m關(guān)系圖,圖2 R-m關(guān)系圖,圖3 R-m關(guān)系圖,圖4 R-n關(guān)系圖,實(shí)驗(yàn)結(jié)果說(shuō)明,在過(guò)濾中計(jì)算最終概率的特征數(shù)目m以及用于訓(xùn)練的樣本個(gè)數(shù)n都存在某個(gè)最優(yōu)值 當(dāng)用于訓(xùn)練的樣本個(gè)數(shù)逐漸超過(guò)這個(gè)最優(yōu)值時(shí),過(guò)濾效果會(huì)略微下降并趨于一致。,最新研究進(jìn)展,相關(guān)會(huì)議 MIT spam conference CEAS(電子郵件和反垃圾郵件會(huì)議),貝葉斯過(guò)濾發(fā)展方向,從單一關(guān)鍵詞到關(guān)鍵詞鏈 從線性到非線性 從單一用戶到綜合多用戶 從客戶端到服務(wù)器 利用電子郵件網(wǎng)絡(luò) Etc.,系統(tǒng)和產(chǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論