2 2 基于文本內(nèi)容的垃圾短信識別_第1頁
2 2 基于文本內(nèi)容的垃圾短信識別_第2頁
2 2 基于文本內(nèi)容的垃圾短信識別_第3頁
2 2 基于文本內(nèi)容的垃圾短信識別_第4頁
2 2 基于文本內(nèi)容的垃圾短信識別_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于文本內(nèi)容的垃圾短信識別目錄1背景與目標(biāo)2 數(shù)據(jù)探索3 數(shù)據(jù)預(yù)處理 文本的向量表示4 樸素貝葉斯5 模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?背景與目標(biāo)大數(shù)據(jù)挖掘?qū)<?3背景與目標(biāo)大數(shù)據(jù)挖掘?qū)<?4背景與目標(biāo)垃圾短信 2018年,全國約84.0億條(360互聯(lián)網(wǎng)安全中心) 以銀行詐騙、互聯(lián)網(wǎng)虛假網(wǎng)購、電信詐騙等內(nèi)容為主。大數(shù)據(jù)挖掘?qū)<?5背景與目標(biāo)我國目前的垃圾短信現(xiàn)狀: 垃圾短信黑色利益鏈 缺乏法律保護(hù) 短信類型日益多變大數(shù)據(jù)挖掘?qū)<?6背景與目標(biāo)現(xiàn)狀一:垃圾短信黑色利益鏈 由于短信的方便、低成本等特點(diǎn),垃圾短信已經(jīng)形成了黑色利益鏈,嚴(yán)重為害社會公眾安全。 由于監(jiān)管缺失,一些不良組織通過各式各樣的

2、渠道收集個人手機(jī)信息,并將手機(jī)信息賣給有需求的商家和業(yè)務(wù)人員獲取利益,同時商家等通過發(fā)送廣告推銷、詐騙等垃圾短息,來謀取利益,嚴(yán)重了短信用戶的信息安全及正常生活。 主要的黑色利益鏈存在形式:站商家大數(shù)據(jù)挖掘?qū)<?7背景與目標(biāo)現(xiàn)狀二:缺乏法律保護(hù) 公安部、信息、中國銀行業(yè)監(jiān)督管理委員會聯(lián)合發(fā)出在全國范圍內(nèi)統(tǒng)一嚴(yán)機(jī)違法短信息等; 但目前規(guī)范短信業(yè)務(wù)的制度法來說,仍屬空白;大數(shù)據(jù)挖掘?qū)<?8背景與目標(biāo)現(xiàn)狀三:垃圾短信形式日益多變1.2.3.投放方式不斷改進(jìn)垃圾短信內(nèi)容多變垃圾短信類型多樣大數(shù)據(jù)挖掘?qū)<?9背景與目標(biāo)更多報告:360互聯(lián)網(wǎng)安全中心(/report/)大數(shù)據(jù)

3、挖掘?qū)<?10背景與目標(biāo)案例目標(biāo):垃圾短信識別?;诙绦盼谋緝?nèi)容,建立識別模型,準(zhǔn)確地識別出垃圾短信,以解決垃圾短信過濾問題短信 1短信 2短信 3垃圾短信 1正常短信 0model 大數(shù)據(jù)挖掘?qū)<?1目錄背景與目標(biāo)12數(shù)據(jù)探索3數(shù)據(jù)預(yù)處理文本的向量表示4樸素貝葉斯5模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?2總體流程抽取數(shù)據(jù)部署建模分詞建模準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清洗評價與優(yōu)化80萬數(shù)據(jù)太大,抽取2萬數(shù)據(jù)處理 大數(shù)據(jù)挖掘?qū)<?13數(shù)據(jù)探索數(shù)據(jù)展示大數(shù)據(jù)挖掘?qū)<?14id類別 短信內(nèi)容 10商業(yè)的性那是維系其商業(yè)價值和地位的前提條件之一 21氣 皇 數(shù)據(jù)探索觀察數(shù)據(jù),請思考: 建模前需要對文本數(shù)據(jù)做哪些處理?

4、 需要怎么評價模型的好壞?大數(shù)據(jù)挖掘?qū)<?15數(shù)據(jù)探索數(shù)據(jù)分布對原始80萬條數(shù)據(jù)進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中并無存在空值,進(jìn)一步查看垃圾短信和非垃圾短信的分布情況。大數(shù)據(jù)挖掘?qū)<?16數(shù)據(jù)探索欠抽樣垃圾短信及非垃圾短信中各取1萬數(shù)據(jù) 通過增加少數(shù)類樣本來提高少數(shù)類的分類性能處理后處理前垃圾短信過抽樣非垃圾短信90%垃圾短信50%10%非垃圾短信50%欠抽樣通過減少多數(shù)類樣本來提高少數(shù)類的分類性能 大數(shù)據(jù)挖掘?qū)<?7數(shù)據(jù)探索數(shù)據(jù)抽取隨機(jī)抽取上文的2W條文本處理后的數(shù)據(jù)的80%作為測試樣本,其余作為測試集樣本,基于上文建立的樸素貝葉斯模型進(jìn)行訓(xùn)練。大數(shù)據(jù)挖掘?qū)<?18目錄背景與目標(biāo)12 數(shù)據(jù)探索數(shù)據(jù)預(yù)

5、處理3 文本的向量表示4 樸素貝葉斯5 模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?9數(shù)據(jù)預(yù)處理第一步 分詞第二步 添詞典去停用詞第三步 繪制詞云第四步大數(shù)據(jù)挖掘?qū)<?20數(shù)據(jù)清洗數(shù)據(jù)預(yù)處理去除空格空格及全角情況下的空格 大數(shù)據(jù)挖掘?qū)<?21判別 短信 0有圖有哦1南口阿瑪施新春第一批限量春裝到店啦?春暖花開淑女裙、冰藍(lán)色公主衫?氣質(zhì)粉小西裝、冰絲長半裙、?皇 數(shù)據(jù)預(yù)處理x序列銀行賬戶 電話、固話、QQ價格日期 大數(shù)據(jù)挖掘?qū)<?22序號 判別 短信 1921親,金汕教育春季班從x月x號起陸續(xù)開班啦!報名熱線xxxxxxxx,或者直接回復(fù)需要補(bǔ)習(xí)的年級科目,我們會盡快跟您聯(lián)系的。 2141xxxxxxxx

6、xxxxxxxxxxx沈宇 工商銀行 2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺 2861您有來自莆田長富:x月x日至x月xx日訂長富巴氏鮮奶x個月送同品xx份, 訂奶熱線:xxxxxxx或xxxxxxx,請注意查收?!救壶櫋?3891老鳳祥“春彩女人季”!x月x日起時尚黃金滿xxxx減xxx,鉆石珠寶繽紛讓利, “愛唯一”美鉆一口價稀售!更有絢彩K金買x送x。祝您三 數(shù)據(jù)預(yù)處理對于x字符串一般貸記卡的位數(shù)都是16位,借記卡位數(shù)根據(jù)銀行不同, 是16位到19位不等,號C賬戶C 大數(shù)據(jù)挖掘?qū)<?3

7、序號 判別 短信中間存在空格等字符4851你打款號,農(nóng)行,陳勇,xxxxxxxxxxxxxxxxxxx2141xxxxxxxxxxxxxxxxxxx沈宇 工商銀行 38771建行劉艷清xxxxxxxxxxxxxxxxxxx,交行劉艷清xxxxxxxxxxxxxxxxxxx,工行何程龍 xxxxxxxxxxxx58861玉xxxxxxxxxxxxxxxxxxx。農(nóng)行,車曉玉xxxxxxxxxxxxxxxxxxx。郵政,李炳俠 xxxxxxxxxxxxxx95951農(nóng)業(yè)銀行 xxxx xxxx xxxx xxxx xxx 戶名 寧上林 建設(shè)銀行 xxxx xxxx xxxx xxxx xxx 戶

8、數(shù)據(jù)預(yù)處理對于x字符串手機(jī)(11位數(shù)) 固話(區(qū)號+號碼)電話、固話T電話T 大數(shù)據(jù)挖掘?qū)<?4序號 判別 短信 121(長期誠信在本市作各類資格職稱(以及、牌、等。祥:x x x x x x x x x x x 李偉%1951家長您好:旗幟數(shù)學(xué)本著提高學(xué)生成績的宗旨,新學(xué)期開課啦。招生電話:xxxxxxxxxxx xxxxxxxxxxx地址:五完小西十 2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺 5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)! 預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)

9、約電話: 李店長:xxxxxxxxxxx6561沖上云霄男女神三對高空愛戀澳門風(fēng)云x發(fā)哥斗智勇贏盡天下xD鐘馗伏魔成龍演繹xD天將雄師訂票xxxxxxxx【金字塔影城】 數(shù)據(jù)預(yù)處理對于x字符串?dāng)?shù)字+元、萬 滿xxx返xx現(xiàn)金券價格P價格P大數(shù)據(jù)挖掘?qū)<?25序號 判別 短信 91一次價值xxx元王牌項目;可充值xxx元店內(nèi)項目卡一張;可以參與V動好生活百分百抽獎機(jī)會一次!預(yù)約電話:xxxxxxxxxxx1420全新世嘉xxxx元購車紅包 2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺 2711x雅軒

10、美發(fā)會所迎x周年店慶攜手x.x節(jié)推出大型回饋活動 老會員續(xù)充可按充值金額百分 之十返送 充值xxx元送xxx元 xxxx元送x5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)! 預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)約電話: 李店長:xxxxxxxxxxx數(shù)據(jù)預(yù)處理對于x字符串年月日、號日期D時間D大數(shù)據(jù)挖掘?qū)<?26序號 判別 短信 211紅都百貨x樓婷美專柜x.x節(jié)活動火熱進(jìn)行中。一年僅一次的最大活動力度!充值送:充xxx送xxxxxxx送xxxxxxx送xxxxxxx送xxxxxxxx送xxxx時間:x.xx-x.x日。歡迎各位美女們前來選購! 2581臺州銀行xxxx期,限量版

11、穩(wěn)進(jìn)賬”理財產(chǎn)品:投資期限xx天(xxxx年x月xx日-xxxx年x月 xx日),預(yù)期最高收益率x.x%,認(rèn) 4060xxxx年x月被列為南京市文物保護(hù)單位 2711x雅軒美發(fā)會所迎x周年店慶 攜手x.x節(jié)推出大型回饋活動 老會員續(xù)充可按充值金額百分 之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)! 預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)約電話: 李店長:xxxxxxxxxxx數(shù)據(jù)預(yù)處理文本去重在數(shù)據(jù)的的儲存和提取過程中,由于技術(shù)和某些客觀的原因,造成了相同短信文本內(nèi)容缺失等情況,因此需要對文本數(shù)據(jù)進(jìn)行去重,去重即僅保留重復(fù)文本中的一條記錄

12、。表一 原短信數(shù)據(jù)表重復(fù)文本大數(shù)據(jù)挖掘?qū)<?27短信ID識別短信文本內(nèi)容-0晚上的旅游項目組織大家觀看泰山封禪表演-0晚上的旅游項目組織大家觀看泰山封禪表演數(shù)據(jù)預(yù)處理中文分詞中文分詞是指以詞作為基本單元,使用計算機(jī)自動對中文文本進(jìn)行詞語的切分,即使詞之間有空格,這樣方便計算機(jī)識別出各語句的重點(diǎn)內(nèi)容。分詞之前:將汽車工程和建筑設(shè)計完美融為一體中文分詞分詞結(jié)果:將汽車工程和建筑設(shè)計完美融為一體大數(shù)據(jù)挖掘?qū)<?28數(shù)據(jù)預(yù)處理正向最大匹配法詞庫:“有效”、“效率”大數(shù)據(jù)挖掘?qū)<?29“有效”“率”“的”“方法”分詞“有效率的方法”逆向正向數(shù)據(jù)預(yù)處理NLP概率圖:HMM針對中文分詞應(yīng)用-Viterbi算

13、法利用Viterbi算法找出一條概率最大路徑。BBBBBBBBBBBBBBEEEEEEEEEEEEEEMMMMMMMMMMMMMMSSSSSSSSSSSSSS大數(shù)據(jù)挖掘?qū)<?30高 提 一 進(jìn) 平 水 活 生 和 入 收 民 人 步 數(shù)據(jù)預(yù)處理python 結(jié)巴分詞(jieba)支持三種分詞模式 精確模式,試圖將句子最精確地切開,適合文本分析; 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義; 搜索引擎模式,在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。 支持繁體分詞 支持自定義詞典大數(shù)據(jù)挖掘?qū)<?31數(shù)據(jù)預(yù)處理停用詞過濾 中文表達(dá)中最常

14、用的功能性詞語是限定詞,如“的”、“一個”、“這”、“那”等。這些詞語的使用較大的作用僅僅是協(xié)助一些文本的名詞描述和概念表達(dá),并沒有太多的實(shí)際含義。 而大多數(shù)時候停用詞都是非自動生產(chǎn)、人工篩選錄入的,因?yàn)樾枰鶕?jù)不同的研究主題人為地判斷和選擇合適的停用詞語。停用詞過濾結(jié)果大數(shù)據(jù)挖掘?qū)<?32源數(shù)據(jù): 家長您好:旗幟數(shù)學(xué)本著提高學(xué)生成績的宗旨,新學(xué)期開課啦。招生電話:地址:五完小西十分詞之后: 家長 您好 旗幟 數(shù)學(xué) 本著 提高 學(xué)生 成績 的宗旨新學(xué)期開課 啦招生 電話 地址 五完小 西十停用詞過濾: 家長您好 旗幟 數(shù)學(xué) 提高 學(xué)生 成績 宗旨新學(xué)期 開課 招生 電話地址五完小西十?dāng)?shù)據(jù)預(yù)處理

15、繪制詞云圖詞云圖是文本結(jié)果展示的有利工具,通過詞云圖的展示可以對短信文本數(shù)據(jù)分詞后的高頻詞予以視覺上的強(qiáng)調(diào)突出效果,使得閱讀者一眼就可獲取到主旨信息。垃圾短信正常短信大數(shù)據(jù)挖掘?qū)<?33背景與目標(biāo)案例目標(biāo):垃圾短信識別?;诙绦盼谋緝?nèi)容,建立識別模型,準(zhǔn)確地識別出垃圾短信,以解決垃圾短信過濾問題短信 1垃圾短信 1正常短信 0短信 2短信 3model 大數(shù)據(jù)挖掘?qū)<?4思考如何將文本數(shù)據(jù)放入模型?您好剛剛打電話新理想花園女神節(jié)即將來臨贈送奢寵垃圾短信 1正常短信 0model宜昌長江市場盼盼木門舒心三八節(jié)關(guān)愛特大好消息禹鑫天賦交房大數(shù)據(jù)挖掘?qū)<?35目錄背景與目標(biāo)12數(shù)據(jù)探索3數(shù)據(jù)預(yù)處理文本

16、的向量表示4樸素貝葉斯5模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?6文本的向量表示文本分類實(shí)例1. My dog has flea problems, help please.2. Maybe not take him to dog park is stupid.3. My dalmation is so cute. I love him.4. Stop posting stupid worthless garbage.5. Mr licks ate mu steak, what can I do?.6. Quit buying worthless dog food stupid#文檔標(biāo)簽:是否是消極

17、情感 labels = 0,1,0,1,0,1大數(shù)據(jù)挖掘?qū)<?37文本的向量表示One-Hot表達(dá)從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化將每個詞表示為一個長長的向量,詞袋:所有詞的不重復(fù)構(gòu)成a, ate, cat, dolphin, dog, homework, my, sandwich, the文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework.a, ate, cat, dolphin, dog, homework, my, sandwich, the a:1 0 0 0 0 0

18、0 0 0ate:0 1 0 0 0 0 0 0 0大數(shù)據(jù)挖掘?qū)<?38文本的向量表示One-Hot表達(dá) 文本轉(zhuǎn)化為詞向量矩陣 a, ate, cat, dolphin, dog, homework, my, sandwich, the 文本1:0 1 0 0 1 1 1 0 0 文本2:0 1 1 0 0 0 1 1 1 文本3:1 1 0 1 0 1 0 0 1 缺陷:忽略了句子詞頻信息文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework. 大數(shù)據(jù)挖掘?qū)<?9文本的向量表示

19、TFIDF權(quán)重策略增加詞頻信息 文本1:0 1 0 0 1 1 2 0 0 文本2:0 1 1 0 0 0 1 1 1 文本3:1 1 0 1 0 1 0 0 1“my”在句子中出現(xiàn)了2次文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework.歸一化:避免句子長度不一致問題,即文檔TF信息 文本1:0 1/5 0 0 1/5 1/5 2/5 0 0“my”在句子中出現(xiàn)了2次 文本2:0 1/5 1/5 0 0 0 1/5 1/5 1/5 文本3:1/5 1/5 0 1/5 0 1

20、/5 0 0 1/5 如何體現(xiàn)生成詞袋中的詞頻信息?大數(shù)據(jù)挖掘?qū)<?40文本的向量表示TFIDF權(quán)重策略 如何體現(xiàn)生成詞袋中的詞頻信息? a(1), ate(3), cat(1), dolphin(1), dog(1), homework(2), my(3), sandwich(1), the(2) 詞袋收集了所有文檔當(dāng)中的詞,所以詞袋的統(tǒng)計基數(shù)是文檔數(shù)。 詞條的文檔頻率:即某個詞在幾個文檔(x)中出現(xiàn),除以文檔數(shù)(y),x/y a(1/3), ate(3/3), cat(1/3), dolphin(1/3), dog(1/3), homework(2/3), my(2/3), sandwic

21、h(1/3), the(2/3) 詞袋的IDF權(quán)重如下: a log(3/1), ate log(3/3), cat log(3/1), dolphin log(3/1), dog log(3/1), homework log(3/2), my log(3/2), sandwich log(3/1), the log(3/2)大數(shù)據(jù)挖掘?qū)<?41文本的向量表示TFIDF權(quán)重策略 權(quán)重策略文檔中的高頻詞應(yīng)具有表征此文檔較高的權(quán)重,除非該詞也是高文檔頻率詞 TF:Term frequency即關(guān)鍵詞詞頻,是指一篇文檔中關(guān)鍵詞出現(xiàn)的頻率N:單詞在某文檔中的頻次TF = N / MM:該文檔的單詞數(shù)

22、IDF:Inverse document frequency指逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù),由公式D:總文檔數(shù) Dw:出現(xiàn)了該單詞的文檔數(shù)D )IDF = log(DWTF - IDF = TF IDF大數(shù)據(jù)挖掘?qū)<?42文本的向量表示文本分類實(shí)例sklearn.feature_extraction.text#文本特征提取模塊.5.6.7.分詞;去除停用詞;轉(zhuǎn)換成詞頻向量轉(zhuǎn)換成TF-IDF權(quán)重矩陣特征提取,構(gòu)建模型1.#轉(zhuǎn)化詞頻向量函數(shù)#轉(zhuǎn)化詞頻向量方法#獲取單詞集合方法#獲取數(shù)值矩陣方法#轉(zhuǎn)化tf-idf權(quán)重向量函數(shù)#轉(zhuǎn)成tf-idf權(quán)重向量方法CountVecto

23、rizerfit_transform() get_feature_names()toarray() TfidfTransformerfit_transform(counts)2.3.4.大數(shù)據(jù)挖掘?qū)<?43文本的向量表示文本分類實(shí)例from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer from sklearn.naive_bayes import GaussianNB corpus = My dog has flea problems, help please., Maybe not take

24、him to dog park is stupid., My dalmation is so cute. I love him my., Stop posting stupid worthless garbage., Mr licks ate my steak, what can I do?., Quit buying worthless dog food stupid labels = 0,1,0,1,0,1 大數(shù)據(jù)挖掘?qū)<?44文本的向量表示文本分類實(shí)例#轉(zhuǎn)化tf-idf權(quán)重向量函數(shù)#轉(zhuǎn)化詞頻向量函數(shù)transformer = TfidfTransformer()vectorizer =

25、CountVectorizer()#轉(zhuǎn)成詞向量#單詞集合#轉(zhuǎn)成ndarrayword_vec = vectorizer.fit_transform(corpus)words = vectorizer.get_feature_names()word_cout = word_vec.toarray()tfidf = transformer.fit_transform(word_cout)#轉(zhuǎn)成tf-idf權(quán)重向量#轉(zhuǎn)成ndarraytfidf_ma= tfidf.toarray()大數(shù)據(jù)挖掘?qū)<?45文本的向量表示TF-IDF權(quán)值向量0.,0.,0.,0.,0.,0.,0.27912828,0.4

26、0318254,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.0.,03240.,0.57964,0.,0.,0.,0.27912828,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.0.,0.,0.,0.,0.,0.,0.27912828,0.40318254,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.1. My dog has flea problems, help please.2. Maybe not take him to d

27、og park is stupid.3. My dalmation is so cute. I love him my.4. Stop posting stupid worthless garbage.5. Mr licks ate mu steak, what can I do?.6. Quit buying worthless dog food stupid#文檔標(biāo)簽:是否是消極情感 labels = 0,1,0,1,0,1大數(shù)據(jù)挖掘?qū)<?46文本的向量表示文本分類實(shí)例clf = GaussianNB().fit(tfidf_ma:4,:,labels:4)res = clf.predic

28、t(tfidf_ma4:,:) 大數(shù)據(jù)挖掘?qū)<?47目錄背景與目標(biāo)12數(shù)據(jù)探索3數(shù)據(jù)預(yù)處理文本的向量表示45樸素貝葉斯模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?8樸素貝葉斯引例 已知:非洲人10個中有9個黑人,1個白人,10個人中有3個黑人7個白人。 問:你在街上遇到1個黑人,那么他是非洲人還是人? 注:全球非洲12億人口,3.6億人口 大數(shù)據(jù)挖掘?qū)<?9樸素貝葉斯引例A1:非洲人A2:人B1:白人B2:黑人非洲人10個中有9個黑人:P(B | A ) = 0.921P(B2 | A2 ) = 0.310個人中有3個黑人:P(A1 | B2 ) P(A2P(A1 | B2 ) P(A2or| B )|

29、 B )22大數(shù)據(jù)挖掘?qū)<?50樸素貝葉斯貝葉斯定理貝葉斯公式:P(AB) = P(A)P(B | A)P(A | B) = P(B | A)P( A)= P(B)P(A | B)P(B)P(AB) = P(A)P(B)當(dāng)A與B相互獨(dú)立時:P(A | B ) = P(A1)P(B2 | A1) =12*0.912P(B )Q * P(B )P(A2P(B )Q* P(B )22大數(shù)據(jù)挖掘?qū)<?51樸素貝葉斯“樸素”二字從何而來?x:樣本屬性,x1:色澤,x2:根蒂,.y:樣本標(biāo)簽,是否是好瓜P( y)P(x | y)無法或很難獲得P( y | x) =P(x)P(x | y) = P(x ,

30、x , x , x ,. | y)1234假設(shè)樣本屬性相互獨(dú)立,則:P(x | y) = P(x | y)P(x| y)P(x | y)P(. | y)123大數(shù)據(jù)挖掘?qū)<?52編號 色澤 根蒂 敲聲 紋理 臍部 觸感 密度 含糖率 好瓜 測1青綠 蜷縮 濁響 清晰 凹陷 硬滑 0.6970.46? 編號 色澤 根蒂 敲聲 紋理 臍部 觸感 密度 含糖率 好瓜 1烏黑 蜷縮 沉悶 清晰 凹陷 硬滑 0.7740.376是 2烏黑 蜷縮 濁響 清晰 凹陷 硬滑 0.6340.264是 3青綠 蜷縮 沉悶 清晰 凹陷 硬滑 0.6080.318是 4淺白 蜷縮 濁響 清晰 凹陷 硬滑 0.5560

31、.215是 5青綠 稍蜷 濁響 清晰 稍凹 軟粘 0.4030.237是 樸素貝葉斯“樸素”二字從何而來?得到樸素貝葉斯表達(dá)式:P( y | x) = P( y)P(x | y)P(x)dp( y)i=1=P(x | y)p(x)iP(x)相等對于樣本兩個類別而言dmax h( y)= p( y)P(x | y)i故目標(biāo)函數(shù)為i=1y的取值:是好瓜;不是好瓜大數(shù)據(jù)挖掘?qū)<?53編號 色澤 根蒂 敲聲 紋理 臍部 觸感 密度 含糖率 好瓜 測1青綠 蜷縮 濁響 清晰 凹陷 硬滑 0.6970.46? 編號 色澤 根蒂 敲聲 紋理 臍部 觸感 密度 含糖率 好瓜 1烏黑 蜷縮 沉悶 清晰 凹陷 硬

32、滑 0.7740.376是 2烏黑 蜷縮 濁響 清晰 凹陷 硬滑 0.6340.264是 3青綠 蜷縮 沉悶 清晰 凹陷 硬滑 0.6080.318是 4淺白 蜷縮 濁響 清晰 凹陷 硬滑 0.5560.215是 5青綠 稍蜷 濁響 清晰 稍凹 軟粘 0.4030.237是 樸素貝葉斯計算P(xi | y)P青綠是P (色澤青綠好瓜是)3/8=0.37P青綠否P (色澤青綠好瓜否)3/9=0.333dmax h( y) = p( y)P(xi | y)i=1P (根蒂蜷縮好瓜是)5/8=0.375P蜷縮是P蜷縮否P (根蒂蜷縮好瓜否)3/9=0.333 P密度:0.697是P (密度0.697

33、好瓜是)exp(-(0.697 - 0.574)2 ) =1.959= 12p 0.1292 0.1292exp(- (0.697-0.496)2 ) = 1.2031=2p 0.1952 0.1952P密度:0.697否P (密度0.697好瓜否) 大數(shù)據(jù)挖掘?qū)<?54樸素貝葉斯dmax h( y) = p( y)P(xii=1| y)計算h (好瓜是) P (好瓜是) xxxxxP青綠是P蜷縮是P濁響是P清晰是P凹陷是xxx0.038P硬滑是P密度:0.697是P含糖:0.460是h (好瓜否)P (好瓜否) xxxxxP青綠否P蜷縮否P濁響否P清晰否P凹陷否xxx6.80 x 10-5P

34、硬滑否P密度:0.697否P含糖:0.460否分類結(jié)果:好瓜大數(shù)據(jù)挖掘?qū)<?55編號 色澤 根蒂 敲聲 紋理 臍部 觸感 密度 含糖率 好瓜 測1青綠 蜷縮 濁響 清晰 凹陷 硬滑 0.6970.46? 樸素貝葉斯拉普拉斯平滑處理 缺陷:受樣本個數(shù)限制,若某個屬性值在訓(xùn)練集中沒有與某個同類同時出現(xiàn)過,如P清脆是P (敲聲清脆好瓜是)0/8=0,則連乘公式 h (好瓜是)則必為零,其他屬性取任意值都不能改變這一結(jié)論。 修正方法:拉普拉斯平滑處理| +1P( y) = | DyP( y) = | Dy| D | +N| D | +1P(x | y) = | Dy ,xP(x | y) = | Dy

35、 ,x| Dc | +Ni| Dc |Ni 表示訓(xùn)練集樣本在第 i 個屬性上的取值個數(shù) N 表示訓(xùn)練集樣本的類別數(shù),大數(shù)據(jù)挖掘?qū)<?56樸素貝葉斯拉普拉斯平滑處理| +1P( y) = | DyP( y) = | Dy| D | +N| D | +1P(x | y) = | Dy ,xP(x | y) = | Dy ,x| Dc | +Ni| Dc |大數(shù)據(jù)挖掘?qū)<?57樸素貝葉斯算法處理流程大數(shù)據(jù)挖掘?qū)<?58高斯樸素貝葉斯是連續(xù)變量時,我們可以使用高斯樸素貝葉斯 原始的樸素貝葉斯只能處理離散數(shù)據(jù),當(dāng)(Gaussian Naive Bayes)完成分類任務(wù)。 當(dāng)處理連續(xù)數(shù)據(jù)時,一種經(jīng)典的假設(shè)

36、是:與每個類相關(guān)的連續(xù)變量的分布是基于高斯分布的,故高斯貝葉斯的公式如下:(v - my) 1P(x = v | y ) = exp(- k)2s 2ik2ps 2ykyk 其中 m,s2x表示表示全部屬于類 y的樣本中變量的均值和方差kyiyk大數(shù)據(jù)挖掘?qū)<?59樸素貝葉斯Python實(shí)現(xiàn) 高斯樸素貝葉斯 構(gòu)造方法:sklearn.naive_bayes.GaussianNB GaussianNB 類構(gòu)造方法無參數(shù),屬性值有: class_prior_ #每一個類的概率 theta_ #每個類中各個特征的平均 sigma_ #每個類中各個特征的方差 注:GaussianNB 類無score

37、方法大數(shù)據(jù)挖掘?qū)<?60樸素貝葉斯Python實(shí)現(xiàn)多項式樸素貝葉斯用于文本分類構(gòu)造方法:sklearn.naive_bayes.MultinomialNB(alpha=1.0 #平滑參數(shù), fit_prior=True #學(xué)習(xí)類的先驗(yàn)概率, class_prior=None) #類的先驗(yàn)概率大數(shù)據(jù)挖掘?qū)<?61樸素貝葉斯Python實(shí)現(xiàn)高斯樸素貝葉斯import numpy as npX = np.array(-1, -1, -2,-1, -3, -2,1,1,2,1,3,2)Y = np.array(1, 1, 1, 2, 2,2)from sklearn.naive_bayesimport

38、GaussianNBclf = GaussianNB()clf.fit(X, Y)大數(shù)據(jù)挖掘?qū)<?2樸素貝葉斯Python實(shí)現(xiàn)多項式樸素貝葉斯import numpy as npX = np.random.randint(5, size=(6,100)y = np.array(1, 2, 3, 4, 5, 6)from sklearn.naive_bayesimportMultinomialNBclf = MultinomialNB()clf.fit(X, y)大數(shù)據(jù)挖掘?qū)<?3目錄背景與目標(biāo)12數(shù)據(jù)探索3數(shù)據(jù)預(yù)處理文本的向量表示4樸素貝葉斯5模型訓(xùn)練與評價6 大數(shù)據(jù)挖掘?qū)<?4模型訓(xùn)練與評價sklearn. model_selection.train_test_split隨機(jī)劃分訓(xùn)練集和測試集 train_test_split是交叉驗(yàn)證中常用的函數(shù),功能是從樣本中隨機(jī)的按比例選取train data和testdata,形式為: X_train,X_test, y_train, y_test = model_selection.train_test_split(x_data, y_target, test_size=0.4,random_state=0)大數(shù)據(jù)挖掘?qū)<?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論