機(jī)器學(xué)習(xí)課次25~26-分類算法綜合練習(xí)(基于文本內(nèi)容的垃圾短信識別)_第1頁
機(jī)器學(xué)習(xí)課次25~26-分類算法綜合練習(xí)(基于文本內(nèi)容的垃圾短信識別)_第2頁
機(jī)器學(xué)習(xí)課次25~26-分類算法綜合練習(xí)(基于文本內(nèi)容的垃圾短信識別)_第3頁
機(jī)器學(xué)習(xí)課次25~26-分類算法綜合練習(xí)(基于文本內(nèi)容的垃圾短信識別)_第4頁
機(jī)器學(xué)習(xí)課次25~26-分類算法綜合練習(xí)(基于文本內(nèi)容的垃圾短信識別)_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

彭輝94031097(QQ)機(jī)器學(xué)習(xí)MachineLearning分類算法綜合練習(xí)任務(wù)目標(biāo)能力目標(biāo)利用分類算法解決分類問題掌握常用的分類算法原理使用sklearn庫開發(fā)分類應(yīng)用程序任務(wù)目標(biāo)素質(zhì)目標(biāo)團(tuán)隊(duì)協(xié)作學(xué)會學(xué)習(xí)實(shí)踐創(chuàng)新目錄數(shù)據(jù)預(yù)處理31背景與目標(biāo)4數(shù)據(jù)探索2文本的向量表示5構(gòu)建樸葉素貝斯模型及評價(jià)背景與目標(biāo)背景與目標(biāo)2018年,全國約84.0億條(360互聯(lián)網(wǎng)安全中心)以銀行詐騙、互聯(lián)網(wǎng)虛假網(wǎng)購、電信詐騙等內(nèi)容為主。背景與目標(biāo)垃圾短信垃圾短信黑色利益鏈缺乏法律保護(hù)短信類型日益多變背景與目標(biāo)我國目前的垃圾短信現(xiàn)狀:由于短信的方便、低成本等特點(diǎn),垃圾短信已經(jīng)形成了黑色利益鏈,嚴(yán)重為害社會公眾安全。由于監(jiān)管缺失,一些不良組織通過各式各樣的渠道收集個(gè)人手機(jī)信息,并將手機(jī)信息賣給有需求的商家和業(yè)務(wù)人員獲取利益,同時(shí)商家等通過發(fā)送廣告推銷、詐騙等垃圾短息,來謀取利益,嚴(yán)重危害了短信用戶的信息安全及正常生活。主要的黑色利益鏈存在形式:偽基站不法商家背景與目標(biāo)現(xiàn)狀一:垃圾短信黑色利益鏈公安部、信息產(chǎn)業(yè)部、中國銀行業(yè)監(jiān)督管理委員會聯(lián)合發(fā)出《在全國范圍內(nèi)統(tǒng)一嚴(yán)打手機(jī)違法短信息的通知》等;但目前規(guī)范短信業(yè)務(wù)的制度法來說,仍屬空白;背景與目標(biāo)現(xiàn)狀二:缺乏法律保護(hù)投放方式不斷改進(jìn)垃圾短信內(nèi)容多變垃圾短信類型多樣背景與目標(biāo)現(xiàn)狀三:垃圾短信形式日益多變案例目標(biāo):垃圾短信識別。背景與目標(biāo)model短信1短信2短信3…垃圾短信1正常短信0基于短信文本內(nèi)容,建立識別模型,準(zhǔn)確地識別出垃圾短信,以解決垃圾短信過濾問題目錄數(shù)據(jù)預(yù)處理32數(shù)據(jù)探索4背景與目標(biāo)1文本的向量表示5構(gòu)建樸葉素貝斯模型及評價(jià)抽取數(shù)據(jù)數(shù)據(jù)清洗分詞

建模準(zhǔn)備數(shù)據(jù)準(zhǔn)備評價(jià)與優(yōu)化總體流程80萬數(shù)據(jù)太大,抽取2萬數(shù)據(jù)處理建模

部署id類別短信內(nèi)容10商業(yè)秘密的秘密性那是維系其商業(yè)價(jià)值和壟斷地位的前提條件之一21南口阿瑪施新春第一批限量春裝到店啦春暖花開淑女裙、冰藍(lán)色公主衫氣質(zhì)粉小西裝、冰絲女王長半裙、皇………數(shù)據(jù)探索數(shù)據(jù)展示建模前需要對文本數(shù)據(jù)做哪些處理?需要怎么評價(jià)模型的好壞?數(shù)據(jù)探索觀察數(shù)據(jù),請思考:對原始80萬條數(shù)據(jù)進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中并無存在空值,進(jìn)一步查看垃圾短信和非垃圾短信的分布情況。數(shù)據(jù)探索數(shù)據(jù)分布欠抽樣數(shù)據(jù)探索過抽樣欠抽樣通過減少多數(shù)類樣本來提高少數(shù)類的分類性能通過增加少數(shù)類樣本來提高少數(shù)類的分類性能垃圾短信及非垃圾短信中各取1萬數(shù)據(jù)隨機(jī)抽取上文的2W條文本處理后的數(shù)據(jù)的80%作為訓(xùn)練樣本,其余作為測試集樣本。數(shù)據(jù)探索數(shù)據(jù)抽取目錄背景與目標(biāo)13數(shù)據(jù)預(yù)處理4數(shù)據(jù)探索2文本的向量表示5構(gòu)建樸葉素貝斯模型及評價(jià)數(shù)據(jù)預(yù)處理

數(shù)據(jù)清洗第一步第二步第三步第四步分詞添詞典去停用詞繪制詞云判別短信0有圖有真相哦~~~

1南口阿瑪施新春第一批限量春裝到店啦???春暖花開淑女裙、冰藍(lán)色公主衫?氣質(zhì)粉小西裝、冰絲女王長半裙、?皇數(shù)據(jù)預(yù)處理去除空格空格及全角情況下的空格x序列數(shù)據(jù)預(yù)處理序號判別短信1921親,金汕教育春季班從x月x號起陸續(xù)開班啦!報(bào)名熱線xxxxxxxx,或者直接回復(fù)需要補(bǔ)習(xí)的年級科目,我們會盡快跟您聯(lián)系的。2141xxxxxxxxxxxxxxxxxxx沈宇工商銀行2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺2861您有來自莆田長富的通知:x月x日至x月xx日訂長富巴氏鮮奶x個(gè)月送同品xx份,訂奶熱線:xxxxxxx或xxxxxxx,請注意查收。【群鴻】3891老鳳祥“春彩女人季”!x月x日起時(shí)尚黃金滿xxxx減xxx,鉆石珠寶繽紛讓利,“愛唯一”美鉆一口價(jià)稀售!更有絢彩K金買x送x。祝您三………………銀行賬戶電話、固話、QQ價(jià)格日期銀行卡號——C賬戶C數(shù)據(jù)預(yù)處理對于x字符串序號判別短信4851你打款號,農(nóng)行,陳勇,xxxxxxxxxxxxxxxxxxx2141xxxxxxxxxxxxxxxxxxx沈宇工商銀行38771建行劉艷清xxxxxxxxxxxxxxxxxxx,交行劉艷清xxxxxxxxxxxxxxxxxxx,工行何程龍xxxxxxxxxxxx58861玉xxxxxxxxxxxxxxxxxxx。農(nóng)行,車曉玉xxxxxxxxxxxxxxxxxxx。郵政,李炳俠xxxxxxxxxxxxxx95951農(nóng)業(yè)銀行xxxxxxxxxxxxxxxxxxx戶名寧上林建設(shè)銀行xxxxxxxxxxxxxxxxxxx戶………………一般貸記卡的卡號位數(shù)都是16位,借記卡位數(shù)根據(jù)銀行不同,是16位到19位不等,中間存在空格等字符電話、固話——T電話T數(shù)據(jù)預(yù)處理對于x字符串序號判別短信121(長期誠信在本市作各類資格職稱(以及印/章、牌、……等。祥:xxxxxxxxxxx李偉%1951家長您好:旗幟數(shù)學(xué)本著提高學(xué)生成績的宗旨,新學(xué)期開課啦。招生電話:xxxxxxxxxxxxxxxxxxxxxx地址:五完小西十2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)!預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)約電話:李店長:xxxxxxxxxxx6561《沖上云霄》男女神三對戀人高空愛戀《澳門風(fēng)云x》發(fā)哥斗智勇贏盡天下《xD鐘馗伏魔》成龍演繹《xD天將雄師》訂票xxxxxxxx【金字塔影城】………………手機(jī)(11位數(shù))固話(區(qū)號+號碼)價(jià)格——P價(jià)格P數(shù)據(jù)預(yù)處理對于x字符串序號判別短信91一次價(jià)值xxx元王牌項(xiàng)目;可充值xxx元店內(nèi)項(xiàng)目卡一張;可以參與V動(dòng)好生活百分百抽獎(jiǎng)機(jī)會一次!預(yù)約電話:xxxxxxxxxxx1420全新世嘉xxxx元購車紅包2241各位老板,元旦節(jié)快樂!現(xiàn)在淘汰母豬漂亮的x.x元一斤,公豬x.x元一斤,如有需要蘋聯(lián)系xxxxxxxxxxx殷水良,謝謝!祝您六畜興旺2711x雅軒美發(fā)會所迎x周年店慶攜手x.x節(jié)推出大型回饋活動(dòng)老會員續(xù)充可按充值金額百分之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)!預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)約電話:李店長:xxxxxxxxxxx………………數(shù)字+元、萬'滿xxx返xx現(xiàn)金券'日期——D時(shí)間D數(shù)據(jù)預(yù)處理對于x字符串序號判別短信211紅都百貨x樓婷美專柜x.x節(jié)活動(dòng)火熱進(jìn)行中。一年僅一次的最大活動(dòng)力度!充值送:充xxx送xxxxxxx送xxxxxxx送xxxxxxx送xxxxxxxx送xxxx時(shí)間:x.xx-x.x日。歡迎各位美女們前來選購!2581臺州銀行xxxx期,限量版"穩(wěn)進(jìn)賬”理財(cái)產(chǎn)品:投資期限xx天(xxxx年x月xx日-xxxx年x月xx日),預(yù)期最高收益率x.x%,認(rèn)4060xxxx年x月被列為南京市文物保護(hù)單位2711x雅軒美發(fā)會所迎x周年店慶攜手x.x節(jié)推出大型回饋活動(dòng)老會員續(xù)充可按充值金額百分之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x來張家邊蘇寧!搶美的空調(diào)!預(yù)存xx元:最低=xxx元,最高=xxxx元!預(yù)約電話:李店長:xxxxxxxxxxx………………年月日、號在數(shù)據(jù)的的儲存和提取過程中,由于技術(shù)和某些客觀的原因,造成了相同短信文本內(nèi)容缺失等情況,因此需要對文本數(shù)據(jù)進(jìn)行去重,去重即僅保留重復(fù)文本中的一條記錄。數(shù)據(jù)預(yù)處理文本去重短信ID識別短信文本內(nèi)容-0晚上的旅游項(xiàng)目組織大家觀看泰山封禪表演-0晚上的旅游項(xiàng)目組織大家觀看泰山封禪表演表一原短信數(shù)據(jù)表重復(fù)文本僅保留其中一條記錄中文分詞是指以詞作為基本單元,使用計(jì)算機(jī)自動(dòng)對中文文本進(jìn)行詞語的切分,即使詞之間有空格,這樣方便計(jì)算機(jī)識別出各語句的重點(diǎn)內(nèi)容。數(shù)據(jù)預(yù)處理中文分詞分詞之前:"將汽車工程和建筑設(shè)計(jì)完美融為一體"中文分詞分詞結(jié)果:"將""汽車""工程""和""建筑""設(shè)計(jì)""完美""融為一體"

正向最大匹配法數(shù)據(jù)預(yù)處理“有效率的方法”詞庫:“有效”、“效率”正向逆向“有效率的方法”“有效”“率”“的”“方法”“有”“效率”“的”“方法”分詞分詞利用Viterbi算法找出一條概率最大路徑。數(shù)據(jù)預(yù)處理NLP概率圖:HMM針對中文分詞應(yīng)用-Viterbi算法步人提高民收入和生活水平進(jìn)一BEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMS支持繁體分詞支持自定義詞典數(shù)據(jù)預(yù)處理python結(jié)巴分詞(jieba)支持三種分詞模式中文表達(dá)中最常用的功能性詞語是限定詞,如“的”、“一個(gè)”、“這”、“那”等。這些詞語的使用較大的作用僅僅是協(xié)助一些文本的名詞描述和概念表達(dá),并沒有太多的實(shí)際含義。而大多數(shù)時(shí)候停用詞都是非自動(dòng)生產(chǎn)、人工篩選錄入的,因?yàn)樾枰鶕?jù)不同的研究主題人為地判斷和選擇合適的停用詞語。數(shù)據(jù)預(yù)處理停用詞過濾停用詞過濾結(jié)果詞云圖是文本結(jié)果展示的有利工具,通過詞云圖的展示可以對短信文本數(shù)據(jù)分詞后的高頻詞予以視覺上的強(qiáng)調(diào)突出效果,使得閱讀者一眼就可獲取到主旨信息。數(shù)據(jù)預(yù)處理繪制詞云圖垃圾短信正常短信案例目標(biāo):垃圾短信識別。背景與目標(biāo)model短信1短信2短信3…垃圾短信1正常短信0基于短信文本內(nèi)容,建立識別模型,準(zhǔn)確地識別出垃圾短信,以解決垃圾短信過濾問題如何將文本數(shù)據(jù)放入模型?思考model垃圾短信1正常短信0[您好剛剛打電話新理想花園...]

[女神節(jié)即將來臨贈送奢寵...]

[宜昌長江市場盼盼木門...]

[舒心內(nèi)衣三八節(jié)關(guān)愛...]

[特大好消息禹鑫天賦交房...]目錄數(shù)據(jù)預(yù)處理34文本的向量表示1數(shù)據(jù)探索2背景與目標(biāo)5構(gòu)建樸葉素貝斯模型及評價(jià)'Mydoghasfleaproblems,helpplease.’'Maybenottakehimtodogparkisstupid.’'Mydalmationissocute.Ilovehim.’'Stoppostingstupidworthlessgarbage.’'Mrlicksatemusteak,whatcanIdo?.’'Quitbuyingworthlessdogfoodstupid’

labels=[0,1,0,1,0,1]#文檔標(biāo)簽:是否是消極情感文本的向量表示文本分類實(shí)例從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化將每個(gè)詞表示為一個(gè)長長的向量,詞袋:所有詞的不重復(fù)構(gòu)成[a,ate,cat,dolphin,dog,homework,my,sandwich,the]文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.[a,ate,cat,dolphin,dog,homework,my,sandwich,the]a:[100000000]ate:[010000000]……文本的向量表示One-Hot表達(dá)文本轉(zhuǎn)化為詞向量矩陣[a,ate,cat,dolphin,dog,homework,my,sandwich,the]文本1:[010011100]文本2:[011000111]文本3:[110101001]缺陷:忽略了句子詞頻信息文本的向量表示One-Hot表達(dá)文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.增加詞頻信息文本1:[010011200]“my”在句子中出現(xiàn)了2次文本2:[011000111]文本3:[110101001]歸一化:避免句子長度不一致問題,即文檔TF信息文本1:[01/5001/51/52/500]“my”在句子中出現(xiàn)了2次文本2:[01/51/50001/51/51/5]文本3:[1/51/501/501/5001/5]如何體現(xiàn)生成詞袋中的詞頻信息?文本的向量表示TF-IDF權(quán)重策略文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.權(quán)重策略文檔中的高頻詞應(yīng)具有表征此文檔較高的權(quán)重,除非該詞也是高文檔頻率詞TF:Termfrequency即關(guān)鍵詞詞頻,是指一篇文檔中關(guān)鍵詞出現(xiàn)的頻率IDF:Inversedocumentfrequency指逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù),由公式文本的向量表示TF-IDF權(quán)重策略N:單詞在某文檔中的頻次M:該文檔的單詞數(shù)D:總文檔數(shù)Dw:出現(xiàn)了該單詞的文檔數(shù)sklearn.feature_extraction.text#文本特征提取模塊CountVectorizer#轉(zhuǎn)化詞頻向量函數(shù)fit_transform()#轉(zhuǎn)化詞頻向量方法get_feature_names()#獲取單詞集合方法toarray()#獲取數(shù)值矩陣方法TfidfTransformer#轉(zhuǎn)化tf-idf權(quán)重向量函數(shù)fit_transform(counts)#轉(zhuǎn)成tf-idf權(quán)重向量方法文本的向量表示文本分類實(shí)例分詞;去除停用詞;轉(zhuǎn)換成詞頻向量轉(zhuǎn)換成TF-IDF權(quán)重矩陣特征提取,構(gòu)建模型fromsklearn.feature_extraction.textimportCountVectorizer,TfidfTransformer

fromsklearn.naive_bayesimportGaussianNB

corpus=[

'Mydoghasfleaproblems,helpplease.',

'Maybenottakehimtodogparkisstupid.',

'Mydalmationissocute.Ilovehimmy.',

'Stoppostingstupidworthlessgarbage.',

'Mrlicksatemysteak,whatcanIdo?.',

'Quitbuyingworthlessdogfoodstupid'

]

labels=[0,1,0,1,0,1]

文本的向量表示文本分類實(shí)例transformer=TfidfTransformer()#轉(zhuǎn)化tf-idf權(quán)重向量函數(shù)

vectorizer=CountVectorizer()#轉(zhuǎn)化詞頻向量函數(shù)

word_vec=vectorizer.fit_transform(corpus)#轉(zhuǎn)成詞向量

words=vectorizer.get_feature_names()#單詞集合

word_cout=word_vec.toarray()#轉(zhuǎn)成ndarray

tfidf=transformer.fit_transform(word_cout)#轉(zhuǎn)成tf-idf權(quán)重向量

tfidf_ma=tfidf.toarray()#轉(zhuǎn)成ndarray

文本的向量表示文本分類實(shí)例'Mydoghasfleaproblems,helpplease.’'Maybenottakehimtodogparkisstupid.’'Mydalmationissocute.Ilovehimmy.’'Stop

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論