![垃圾郵件過濾_第1頁](http://file4.renrendoc.com/view/ebab62fb5c873ba68b18a64a96bb1ce0/ebab62fb5c873ba68b18a64a96bb1ce01.gif)
![垃圾郵件過濾_第2頁](http://file4.renrendoc.com/view/ebab62fb5c873ba68b18a64a96bb1ce0/ebab62fb5c873ba68b18a64a96bb1ce02.gif)
![垃圾郵件過濾_第3頁](http://file4.renrendoc.com/view/ebab62fb5c873ba68b18a64a96bb1ce0/ebab62fb5c873ba68b18a64a96bb1ce03.gif)
![垃圾郵件過濾_第4頁](http://file4.renrendoc.com/view/ebab62fb5c873ba68b18a64a96bb1ce0/ebab62fb5c873ba68b18a64a96bb1ce04.gif)
![垃圾郵件過濾_第5頁](http://file4.renrendoc.com/view/ebab62fb5c873ba68b18a64a96bb1ce0/ebab62fb5c873ba68b18a64a96bb1ce05.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文本分析之垃圾郵件過濾系統(tǒng)小組成員:馬力15241043郝殊宇15241033陳思宇14261031林尹棋15241040李文哲15241038李文強15241037張佳慧15241058目錄Content文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應用貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數學模型與公式貝葉斯垃圾郵件過濾算法的應用案例通過實際案例展示讓大家加深對該算法的理解簡述與總結概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來1Part文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應用。Part1文本分析簡介
文本分析是指對文本的表示及其特征項的選取,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別?;靖拍钊绾芜\作Part1文本分析簡介應用:電子郵件管理文檔管理自動問答系統(tǒng)市場研究情報收集主要功能:文本總結文本分類文本聚類關聯分析分布分析趨勢預測Part1文本分析簡介今天,我們主要介紹文本分析在垃圾郵件過濾中的應用,介紹如何通過貝葉斯算法對垃圾郵件進行過濾。2Part貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數學模型與公式。Part2貝葉斯垃圾郵件過濾算法原理Part2貝葉斯垃圾郵件過濾算法原理√
基于多項式模型和低風險的貝葉斯垃圾郵件處理主要是利用兩個模型,將判別出的垃圾郵件不看作是一個準確事件。再進一步的判別和確定,最終得出一個準確率高的答案。采用貝葉斯多項式模型來對特征項利用率進行改進,同時采用低風險策略來對郵件進行分類。我們的理解:3Part貝葉斯垃圾郵件過濾算法的應用案例通過實際案例展示讓大家加深對該算法的理解。Part3貝葉斯垃圾郵件過濾算法的應用案例例如:一封含有“法輪功”字樣的垃圾郵件A
和一封含有“法律”字樣的非垃圾郵件B
根據郵件A生成hashtable_bad,該哈希表中的記錄為
法:1次
輪:1次
功:1次
計算得在本表中:
法出現的概率為0.3
輪出現的概率為0.3
功出現的概率為0.3
根據郵件B生成hashtable_good,該哈希表中的記錄為:
法:1
律:1
計算得在本表中:
法出現的概率為0.5
律出現的概率為0.5
綜合考慮兩個哈希表,共有四個TOKEN串:法輪功律Part3貝葉斯垃圾郵件過濾算法的應用案例當郵件中出現“法”時,該郵件為垃圾郵件的概率為:
P=0.3/(0.3+0.5)=0.375
出現“輪”時:
P=0.3/(0.3+0)=1
出現“功“時:
P=0.3/(0.3+0)=1
出現“律”時
P=0/(0+0.5)=0;
由此可得第三個哈希表:hashtable_probability其數據為:
法:0.375輪:1功:1律:0
當新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串,功律
查詢哈希表hashtable_probability可得
P(垃圾郵件|功)=1
P(垃圾郵件|律)=0
此時該郵件為垃圾郵件的可能性為:
P=(0*1)/[0*1+(1-0)*(1-1)]=0(ps:實際應用時應該不能出現0,否則一項為零會影響全局)
由此可推出該郵件為非垃圾郵件4Part簡述與總結概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來Part4簡述與總結簡述:1.收集大量垃圾郵件和非垃圾郵件,建立二者數據集分類2.編碼3.計算字符串出現概率4.自我學習5.接收郵件+判斷Part4簡述與總結Start技術系統(tǒng)客戶端“錯糾率”依舊較高,因此,要過濾垃圾郵件,必須將兩種或以上的技術合并使用,以達到有較好的過濾效果,降低誤判率。今客戶端郵件過濾器,重點考慮用戶個性化特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024秋三年級語文上冊 第一單元 第2課 花的學校說課稿 新人教版
- 2024年春九年級歷史上冊 第22課 科學和思想的力量說課稿 新人教版
- 6梯形的面積 說課稿-2024-2025學年人教版數學五年級上冊
- 2024-2025學年高中化學 第一章 物質結構元素周期律 第一節(jié) 元素周期表第1課時說課稿1 新人教版必修2
- 2024年秋八年級語文上冊 第五單元 名著導讀《昆蟲記》說課稿 新人教版001
- 2024年春七年級地理下冊 第6章 第2節(jié) 自然環(huán)境說課稿2 (新版)新人教版
- 9 烏鴉喝水(說課稿)2024-2025學年統(tǒng)編版語文一年級上冊001
- 1《植物》科學閱讀《我們離不開植物》(說課稿)2023-2024學年一年級上冊科學教科版001
- 2025個人購房合同樣本(合同版本)
- Unit2 Bridging Cultures Learning About Language Structures 說課稿-2024-2025學年高中英語人教版(2019)選擇性必修第二冊
- 礦山電工知識點講解
- 物業(yè)公司服務質量檢查流程
- 中國心胸外科的歷史和現狀
- 人教版9年級全一冊英語單詞表
- 三門峽水利工程案例分析工程倫理
- 中國旅游地理區(qū)劃-京津冀旅游區(qū)
- “1+X”證書制度試點職業(yè)技能等級證書全名錄
- 生姜高產種植技術專題培訓課件
- 《社會主義市場經濟理論(第三版)》第八章社會主義市場經濟調控論
- 交流伺服系統(tǒng)常見故障及處理分解課件
- 水土保持單元工程質量評定表
評論
0/150
提交評論