垃圾郵件過濾_第1頁
垃圾郵件過濾_第2頁
垃圾郵件過濾_第3頁
垃圾郵件過濾_第4頁
垃圾郵件過濾_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文本分析之垃圾郵件過濾系統(tǒng)小組成員:馬力15241043郝殊宇15241033陳思宇14261031林尹棋15241040李文哲15241038李文強15241037張佳慧15241058目錄Content文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應用貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數學模型與公式貝葉斯垃圾郵件過濾算法的應用案例通過實際案例展示讓大家加深對該算法的理解簡述與總結概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來1Part文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應用。Part1文本分析簡介

文本分析是指對文本的表示及其特征項的選取,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別?;靖拍钊绾芜\作Part1文本分析簡介應用:電子郵件管理文檔管理自動問答系統(tǒng)市場研究情報收集主要功能:文本總結文本分類文本聚類關聯分析分布分析趨勢預測Part1文本分析簡介今天,我們主要介紹文本分析在垃圾郵件過濾中的應用,介紹如何通過貝葉斯算法對垃圾郵件進行過濾。2Part貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數學模型與公式。Part2貝葉斯垃圾郵件過濾算法原理Part2貝葉斯垃圾郵件過濾算法原理√

基于多項式模型和低風險的貝葉斯垃圾郵件處理主要是利用兩個模型,將判別出的垃圾郵件不看作是一個準確事件。再進一步的判別和確定,最終得出一個準確率高的答案。采用貝葉斯多項式模型來對特征項利用率進行改進,同時采用低風險策略來對郵件進行分類。我們的理解:3Part貝葉斯垃圾郵件過濾算法的應用案例通過實際案例展示讓大家加深對該算法的理解。Part3貝葉斯垃圾郵件過濾算法的應用案例例如:一封含有“法輪功”字樣的垃圾郵件A

和一封含有“法律”字樣的非垃圾郵件B

根據郵件A生成hashtable_bad,該哈希表中的記錄為

法:1次

輪:1次

功:1次

計算得在本表中:

法出現的概率為0.3

輪出現的概率為0.3

功出現的概率為0.3

根據郵件B生成hashtable_good,該哈希表中的記錄為:

法:1

律:1

計算得在本表中:

法出現的概率為0.5

律出現的概率為0.5

綜合考慮兩個哈希表,共有四個TOKEN串:法輪功律Part3貝葉斯垃圾郵件過濾算法的應用案例當郵件中出現“法”時,該郵件為垃圾郵件的概率為:

P=0.3/(0.3+0.5)=0.375

出現“輪”時:

P=0.3/(0.3+0)=1

出現“功“時:

P=0.3/(0.3+0)=1

出現“律”時

P=0/(0+0.5)=0;

由此可得第三個哈希表:hashtable_probability其數據為:

法:0.375輪:1功:1律:0

當新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串,功律

查詢哈希表hashtable_probability可得

P(垃圾郵件|功)=1

P(垃圾郵件|律)=0

此時該郵件為垃圾郵件的可能性為:

P=(0*1)/[0*1+(1-0)*(1-1)]=0(ps:實際應用時應該不能出現0,否則一項為零會影響全局)

由此可推出該郵件為非垃圾郵件4Part簡述與總結概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來Part4簡述與總結簡述:1.收集大量垃圾郵件和非垃圾郵件,建立二者數據集分類2.編碼3.計算字符串出現概率4.自我學習5.接收郵件+判斷Part4簡述與總結Start技術系統(tǒng)客戶端“錯糾率”依舊較高,因此,要過濾垃圾郵件,必須將兩種或以上的技術合并使用,以達到有較好的過濾效果,降低誤判率。今客戶端郵件過濾器,重點考慮用戶個性化特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論