研究垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別的新方法_第1頁
研究垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別的新方法_第2頁
研究垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別的新方法_第3頁
研究垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別的新方法_第4頁
研究垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別的新方法_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一項(xiàng)目背景一項(xiàng)目背景二技術(shù)方案三項(xiàng)目詳細(xì)內(nèi)容四應(yīng)用及效果項(xiàng)目背景項(xiàng)目背景要采用“系統(tǒng)監(jiān)測(cè)”模式。隨著中獎(jiǎng)詐騙類、政治違法類、涉黃涉黑類、系統(tǒng)監(jiān)測(cè):主要指通過“頻次+關(guān)鍵詞”等過濾方式,篩選得到現(xiàn)網(wǎng)疑似垃圾短 信。如:內(nèi)容含“發(fā)票&代開”,1分鐘 內(nèi)發(fā)送20次等。若想提升垃圾短信治理效率,亟需引入新的方法。面臨的問題以及現(xiàn)有方案面臨的問題以及現(xiàn)有方案技術(shù)難點(diǎn)技術(shù)難點(diǎn):>表示稀疏問題:?jiǎn)螚l短信內(nèi)容短小,傳統(tǒng)的BOW模型無法獲取足夠的特征信息,用來區(qū)分垃圾短信和非垃圾短信。>數(shù)據(jù)噪音問題:存在大量的非正規(guī)語言的使用現(xiàn)象,傳統(tǒng)的基于詞匯的文檔表示模型無法處理該問題。>動(dòng)態(tài)演化問題:短信內(nèi)容和語言使用隨時(shí)間高速演化,固定的特征集合和分類模型無法應(yīng)對(duì)該問題。短文本分類方面,終端安全公司大多使用以貝葉斯算法為代表的機(jī)器學(xué)習(xí)方法,在終端側(cè)對(duì)用戶接收到的短信進(jìn)行識(shí)別,將疑似垃圾短信攔截在垃圾過濾垃圾短信!google公司前期提出Simhash算法,將長(zhǎng)文本轉(zhuǎn)化為64位的哈希碼進(jìn)行計(jì)算、比對(duì)。方法在業(yè)界廣受好評(píng),但目前僅限于在長(zhǎng)文本方面(如網(wǎng)頁)應(yīng)用。查找重復(fù)網(wǎng)頁!--項(xiàng)目背景二技術(shù)方案三項(xiàng)目詳細(xì)內(nèi)容四應(yīng)用及效果技術(shù)方案選擇技術(shù)方案選擇將垃圾短信自動(dòng)化識(shí)別系統(tǒng)成功應(yīng)用到現(xiàn)網(wǎng)中,關(guān)鍵在于保障接入識(shí)別算法的準(zhǔn)確率與將垃圾短信自動(dòng)化識(shí)別系統(tǒng)成功應(yīng)用到現(xiàn)網(wǎng)中,關(guān)鍵在于保障接入識(shí)別算法的準(zhǔn)確率與查全率。通過對(duì)2016年3、4月份歷史數(shù)據(jù)進(jìn)行抽樣分析,約有12%的樣本內(nèi)容完全一致,有34%的樣本內(nèi)容相似,合計(jì)比例達(dá)46%!123456789算法原理對(duì)比算法原理對(duì)比鑒于此,以算法準(zhǔn)確率與查全率為核心參考指標(biāo),我們重點(diǎn)考慮準(zhǔn)確率極高的“基于短信內(nèi)容精確匹配的識(shí)別算法”與“基于指紋技術(shù)的大數(shù)據(jù)識(shí)別算法”,以及在垃圾郵件處理上已成功獲得廣泛應(yīng)用的“基于貝葉斯學(xué)習(xí)的大數(shù)據(jù)識(shí)別算法”。關(guān)鍵指標(biāo):算法效果比對(duì)算法效果比對(duì)我們使用2016年4月的數(shù)據(jù),共計(jì)2836萬條樣本,對(duì)三個(gè)方案的核心實(shí)驗(yàn)發(fā)現(xiàn),方案一的自動(dòng)識(shí)別率僅為11.5%,方案三的識(shí)別準(zhǔn)確率僅為93%,與指標(biāo)要求差別大。方案二的指紋算法同時(shí)具有較好的自動(dòng)識(shí)別率和識(shí)別準(zhǔn)確率,與原理比對(duì)結(jié)果一致。項(xiàng)目最終將系統(tǒng)算法鎖定為基于指紋技術(shù)的大數(shù)據(jù)識(shí)別算法。--項(xiàng)目背景二技術(shù)方案三項(xiàng)目詳細(xì)內(nèi)容四應(yīng)用及效果總體流程總體流程在二次過濾模塊中央平臺(tái)中,引入垃圾短信自動(dòng)化識(shí)別系統(tǒng),用以提升垃圾短在二次過濾模塊中央平臺(tái)中,引入垃圾短信自動(dòng)化識(shí)別系統(tǒng),用以提升垃圾短信識(shí)別率。具體垃圾短信大數(shù)據(jù)識(shí)別應(yīng)用方案,如下圖:利用中移信安中心前期積累的海量短信樣本利用中移信安中心前期積累的海量短信樣本對(duì)人工智能分類器和指紋數(shù)據(jù)庫進(jìn)行初始化;行自動(dòng)識(shí)別;進(jìn)行處理;系統(tǒng)整體架構(gòu)系統(tǒng)整體架構(gòu)基于上述核心算法,項(xiàng)目組結(jié)合應(yīng)用場(chǎng)景和線上持續(xù)基于上述核心算法,項(xiàng)目組結(jié)合應(yīng)用場(chǎng)景和線上持續(xù)運(yùn)營(yíng)要求,完善系統(tǒng)功能設(shè)計(jì),滿足以指紋識(shí)別算法為核心算法的線上識(shí)別功能和運(yùn)營(yíng)功能。?應(yīng)用創(chuàng)新指紋算法對(duì)待識(shí)別短信進(jìn)行處理;核心算法可擴(kuò)展,支持引入新算法交叉融合識(shí)別?在基礎(chǔ)運(yùn)營(yíng)功能的基礎(chǔ)上,打造稽核質(zhì)檢、投訴回溯核查等針對(duì)指紋算法特點(diǎn)研發(fā)出的持續(xù)運(yùn)營(yíng)功能?采用金庫管理模式,對(duì)數(shù)據(jù)安全進(jìn)行雙重保障?創(chuàng)新采用分布式多機(jī)多核系統(tǒng)架構(gòu),通過kafka實(shí)現(xiàn)內(nèi)部服務(wù)之間的通訊,有效保障了現(xiàn)網(wǎng)的實(shí)時(shí)運(yùn)行需求算法優(yōu)化算法優(yōu)化研究團(tuán)隊(duì)基于研究團(tuán)隊(duì)基于Google公司Simhash開源算法,結(jié)合技術(shù)應(yīng)用場(chǎng)景和短信文本短的特點(diǎn)進(jìn)行重構(gòu)開發(fā),突破算法準(zhǔn)確率等方面的局限性,研發(fā)出具有自主知識(shí)產(chǎn)權(quán)的指紋識(shí)別算法??紤]到中國(guó)移動(dòng)線上治理的極高準(zhǔn)確性和性能要求,我們創(chuàng)新提出動(dòng)態(tài)數(shù)據(jù)庫、基于多指紋庫識(shí)別、指紋篩選與指紋比對(duì)分離技術(shù),以達(dá)到滿足現(xiàn)網(wǎng)應(yīng)用的要求。1.動(dòng)態(tài)數(shù)據(jù)庫機(jī)制在入庫方面,為指紋算法設(shè)計(jì)二次入庫技術(shù),并采用哈希再散列技術(shù)(FNV-1來降低訓(xùn)練數(shù)據(jù)沖突造成的影響;在出庫方面,動(dòng)態(tài)剔除入庫早、不常使用的指紋,解決指紋庫膨脹問題,保障指紋庫的容量可持續(xù)高效運(yùn)營(yíng),并進(jìn)一步提升算法識(shí)別準(zhǔn)確率。算法優(yōu)化算法優(yōu)化2.研發(fā)多指紋庫存儲(chǔ)?搭建多指紋庫,根據(jù)處置方式不同,分為正常短信指紋庫、違法詐騙短信指紋庫、商業(yè)廣告指紋庫;?對(duì)違規(guī)類型指紋庫采用更為嚴(yán)格的校驗(yàn)入庫機(jī)制和優(yōu)先級(jí)更高的識(shí)別反饋機(jī)制;?根據(jù)考察各指紋庫相互沖突指紋,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫的進(jìn)一步去噪,降低算法誤識(shí)別比例。3.指紋篩選與指紋比對(duì)分離為了保證分布式模塊中預(yù)測(cè)指紋庫的一致性,算法對(duì)指紋庫的篩選入庫(訓(xùn)練)和指紋比對(duì)(預(yù)測(cè))進(jìn)行了分離。通過統(tǒng)一的指紋篩選庫完成對(duì)入庫指紋進(jìn)行篩選,以保證在分布式系統(tǒng)中,所有指紋比對(duì)(預(yù)測(cè))模塊使用的指紋庫是相同的。指紋比對(duì)與指紋入庫的解耦,增強(qiáng)了算法識(shí)別部分的可擴(kuò)展。分布式系統(tǒng)架構(gòu)及其擴(kuò)展分布式系統(tǒng)架構(gòu)及其擴(kuò)展4.在分布式結(jié)構(gòu)上實(shí)現(xiàn)了所有模塊的服務(wù)化5.后續(xù)規(guī)劃與展望在系統(tǒng)中我們將所有模塊進(jìn)行全部通過中間件kafka進(jìn)行間接的消息傳遞。這種模式不僅僅實(shí)現(xiàn)了服務(wù)的解耦,也間接實(shí)在系統(tǒng)中可以引入多種算法,實(shí)現(xiàn)算法融合。通過算法模型的實(shí)時(shí)更新,能夠及時(shí)識(shí)學(xué)習(xí)算法,word2vec語義擴(kuò)展等)。令識(shí)別系統(tǒng)對(duì)垃圾短信--項(xiàng)目背景二技術(shù)方案三項(xiàng)目詳細(xì)內(nèi)容四應(yīng)用及效果上線效果上線效果歷時(shí)兩年,經(jīng)過6輪44組,累計(jì)分析現(xiàn)網(wǎng)數(shù)據(jù)68億余件次,分析指標(biāo)5萬余項(xiàng)的大數(shù)據(jù)測(cè)試歷時(shí)兩年,經(jīng)過6輪44組,累計(jì)分析現(xiàn)網(wǎng)數(shù)據(jù)68億余件次,分析指標(biāo)5萬余項(xiàng)的大數(shù)據(jù)測(cè)試驗(yàn)證,中國(guó)移動(dòng)垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng)于2017年1月上線,覆蓋全網(wǎng)31省。運(yùn)行效果截止目前,系統(tǒng)接收垃圾短信系統(tǒng)全量疑似垃圾短信1.1億余條,自動(dòng)社會(huì)效益社會(huì)效益垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng)上線以來,運(yùn)垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng)上線以來,運(yùn)行狀態(tài)良好,對(duì)線上疑似垃圾短信開展持續(xù)治理。在此期間,服務(wù)支撐了“黨的十九大”、“金磚國(guó)家領(lǐng)導(dǎo)人廈門會(huì)晤”、“一帶一路高峰論壇”等多次重大保障,圓滿完成任務(wù),實(shí)現(xiàn)了垃圾短信的高效治理。1.月均減少垃圾短信近億條通過引入大數(shù)據(jù)識(shí)別技術(shù),垃圾短信自動(dòng)判定平均耗時(shí)僅為0.07毫秒,違規(guī)號(hào)碼的關(guān)停及時(shí)性大大提高。系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論