版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于樸素貝葉斯算法的垃圾郵件分類(Python實現(xiàn))PPT講座CONTENTS目錄0簡介1回顧:基本方法2算法3拉普拉斯平滑4實例:郵件分類5流行學習EastChinaNormalUniversity2024/8/2簡介樸素貝葉斯法:是基于貝葉斯定理和特征條件獨立假設的分類方法。對于給定的訓練數(shù)據(jù)集,首先基于特征條件獨立假設學習輸入/輸出的聯(lián)合概率分布;然后基于此模型對于給定的輸入x,利用貝葉斯定理求出后驗概率最大的輸出y.樸素貝葉斯法實現(xiàn)簡單,學習和預測的效率都很高,是業(yè)界常用的一種方法。EastChinaNormalUniversity2024/8/2
Review1:分類問題綜述1EastChinaNormalUniversity各種化驗檢測數(shù)據(jù)來推斷病情,這時醫(yī)生就好比一個分類器,而這個醫(yī)生診斷的準確率,與他當初受到的教育方式(構(gòu)造方法)、病人的癥狀是否突出(待分類數(shù)據(jù)的特性)以及醫(yī)生的經(jīng)驗多少(訓練樣本數(shù)量)都有密切關系?;仡櫵惴ɡ绽蛊交]件分類流行學習小結(jié)2024/8/2
Review2:貝葉斯定理EastChinaNormalUniversity回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2算法:EastChinaNormalUniversityRIDageincomestudentcredit_ratingclass_buy_pc1youthhighnofairno2youthhighnoexcellentno3midhighnofairyes4seniormediumnofairyes5seniorlowyesfairyes6seniorlowyesexcellentno7midlowyesexcellentyes8youthmediumnofairno9youthlowyesfairyes10seniormediumyesfairyes11youthmediumyesexcellentyes12midmediumnoexcellentyes13midhighyesfairyes14seniormediumnoexcellentnoTrain_dataset(表格來源:數(shù)據(jù)挖掘:概念與技術第3版)回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2EastChinaNormalUniversity
test:X=(age=youth,income=mediu,student=yes,credit_rating=fair)(1)計算先驗概率P(buy_pc=yes)=9/14=0.643P(buy_pc=no)=5/14=0.357條件概率:P(age=youth|buy_pc=yes)=2/9=0.22P(age=youth|buy_pc=no)=2/5=0.600P(income=medium|buy_pc=yes)=4/9=0.444P(income=medium|buy_pc=no)=2/5=0.400P(student=yes|buy_pc)=1/5=0.200P(credit_rating=fair|buy_pc=yes)=6/9=0.667P(credit_rating=fair|buy_pc=no)=2/5=0.400回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2EastChinaNormalUniversity
回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2如果遇到零概率值怎么辦?
拉普拉斯平滑。EastChinaNormalUniversity
回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流程圖:EastChinaNormalUniversity準備階段分類器訓練階段應用階段回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2準備數(shù)據(jù)從文本中構(gòu)建詞向量(貝努利模型)EastChinaNormalUniversity從文本中構(gòu)建郵件向量(words2vec):通常有兩種實現(xiàn)方式:一種是基于貝努利模型,一種是基于多項式模型實現(xiàn)。我們采用前一種實現(xiàn)方式,將每個詞的出現(xiàn)與否作為一個特征(詞集模型,相對應的是詞袋模型),不考慮單詞在文檔中出現(xiàn)的次數(shù),因此在這個意義上相當于每個假設詞是等權重的。具體如下:(1)遍歷所有郵件,創(chuàng)建一個包含所有文檔中出現(xiàn)的不重復的單詞集合(即特征)。(2)對于每一封郵件創(chuàng)建一個與單詞集合等長的0向量。接著遍歷郵件中所有單詞,如果出現(xiàn)在單詞集合中則把對應的值設為1?;仡櫵惴ɡ绽蛊交]件分類流行學習小結(jié)2024/8/2訓練模型(技巧小結(jié))EastChinaNormalUniversity
回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2交叉驗證(1000)EastChinaNormalUniversity正確錯誤64936準確率:0.936%回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流形學習EastChinaNormalUniversity本質(zhì)上,流形學習就是給數(shù)據(jù)降維的過程。這里假設數(shù)據(jù)是一個隨機樣本,采樣自一個高維歐氏空間中的流形(manifold),流形學習的任務就是把這個高維流形映射到一個低維(例如2維)的空間里。流形學習可以分為線性算法和非線性算法,前者包括主成分分析(PCA)和線性判別分析(LDA),后者包括等距映射(Isomap),拉普拉斯特征映射(LE)等。流形學習可以用于特征的降維和提取,為后續(xù)的基于特征的分析,如聚類和分類,做鋪墊,也可以直接應用于數(shù)據(jù)可視化等。回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流形學習EastChinaNormalUniversity回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流形學習EastChinaNormalUniversity回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流形學習EastChinaNormalUniversity回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2流形學習(DIM)EastChinaNormalUniversity算法的輸入是所有數(shù)據(jù)在高維情況下兩兩之間的距離(記i與j的距離為Dij)?,F(xiàn)在以降到2維為例說明這個算法。首先我們把所有數(shù)據(jù)點隨機繪制在一張二維圖像上,然后計算它們兩兩之間的距離dij,然后我們計算出它與高維距離Dij的誤差,根據(jù)這些誤差,我們將每對數(shù)據(jù)點按比例移近或移遠,然后重新計算所有dij,不斷重復到我們沒法減少誤差為止。假設有n個點:(1)輸入每一對點之間的距離Dij。(2)隨機在2維平面生成n個點,點i坐標記為x[i]、y[i],計算它們兩之間的距離,記為dij.(3)對所有i和j計算:eij=(dij-Dij)/Dij,每個點用一個二維的值grad[k]來表示它要移動的距離的比例因子(初始為0,0)。在計算出每個eij后,計算((x[i]-x[j])/dij)*eij,然后把它加到grad[i][x]上,同樣把((y[i]-y[j])/dij)*eij加到grad[i][y]上。(4)把所有eij的絕對值相加,為總誤差,與前一次的總誤差比較(初始化為無窮大),大于前一次的話就停止。否則把它作為上一次總誤差,繼續(xù)。對每個點,新的坐標為x[i]-=rate*grad[i][x]y[i]-=rate*grad[i][y],其中rate是開始時自己定義的一個常數(shù)參數(shù),該參數(shù)影響了點的移動速度。重新計算各個dij,回到3。回顧算法拉普拉斯平滑郵件分類流行學習小結(jié)2024/8/2小結(jié)實際應用中,需要考慮很多因素,下溢是其中一個,詞袋模型在解決文檔分類問比詞集模型有所提高,還有其他一些方面的改進,比如移除停用詞。實際生活中,避免將普通郵件當作垃圾郵件比截獲每一封垃圾郵件更為重要,收件箱收到幾封垃圾郵件還是可以忍受的,但一封重要的郵件被過濾到垃圾箱被忽視
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中班語言活動不浪費水
- 新生兒過敏知識培訓
- 江西省宜春市豐城市第九中學2024-2025學年八年級上學期第一次段考化學試卷(含解析)
- 甘肅省會寧縣第四中學2024-2025學年高三上學期第一次月考化學試卷
- 全球無人機探測與防控系統(tǒng)市場運營現(xiàn)狀及發(fā)展策略研究報告2024-2030年
- 初中七年級生物上學期期中考前測試卷(人教版)含答案解析
- T-YNRZ 019-2024 珠芽黃魔芋組培種苗生產(chǎn)技術規(guī)程
- 內(nèi)蒙古自治區(qū)通遼市科爾沁左翼中旗聯(lián)盟校2024-2025學年六年級上學期期中考試英語試題
- 【課件】Unit+3+SectionB+1a-2b+課件人教版英語七年級上冊
- 高中語文11琵琶行并序錦瑟課件蘇教版必修
- 新教科版六下科學2.4《多種多樣的動物》教學課件
- 全年級語文課件 - 小古文 疑鄰竊斧 全國通用
- DB31-T 1360-2022 民防工程安全管理工作導則
- 醫(yī)院管理系統(tǒng)需求規(guī)格說明書hexia
- 《靜夜思》課件版
- 職場個人形象設計課件
- 管理會計知識培訓課件
- 2022年無錫產(chǎn)業(yè)發(fā)展集團有限公司校園招聘筆試試題及答案解析
- 旅游規(guī)劃收費標準
- 市政工程施工安全檢查標準評分表
- DB34-T 4007-2021特種設備作業(yè)人員職業(yè)技能培訓機構(gòu)基本條件-高清現(xiàn)行
評論
0/150
提交評論