基于大數(shù)據(jù) AI機器學(xué)習(xí)的反詐模型研究_第1頁
基于大數(shù)據(jù) AI機器學(xué)習(xí)的反詐模型研究_第2頁
基于大數(shù)據(jù) AI機器學(xué)習(xí)的反詐模型研究_第3頁
基于大數(shù)據(jù) AI機器學(xué)習(xí)的反詐模型研究_第4頁
基于大數(shù)據(jù) AI機器學(xué)習(xí)的反詐模型研究_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究人工智能安全AISecurity基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究陸文紅,劉劍(中國聯(lián)通黑龍江省分公司,黑龍江哈爾濱150001)LuWenhong,LiuJian(ChinaUnicomHeilongjiangBranch,Harbin150001,China)摘要:首先闡述了課題研究的背景,從電話反詐需求出發(fā),提出了基于大數(shù)據(jù)+AI機器學(xué)習(xí)模式建立反詐模型的思路,搭建反詐態(tài)勢感知大數(shù)據(jù)平臺。接著介紹了隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等機器學(xué)習(xí)算法,詳細(xì)描述了重要功能接口,介紹了數(shù)據(jù)源采集處理,通過自定義規(guī)則與時俱進(jìn)更新反詐模型,實現(xiàn)反詐趨勢實時監(jiān)控、涉詐號碼關(guān)停、溯源分析等功能。最后對平臺部署進(jìn)行了測試驗證。關(guān)鍵詞:文章編號:1007-3043(2022)09-0059-05開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):anlectionandprocessing,updatestheanti-fraudmodelthroughcustomrules,andrealizesthereal-timemonitoringofanti-stestKeywords:s引用格式:陸文紅,劉劍.基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究[J].郵電設(shè)計技術(shù),2022(9):59-64.0前言近年來,電信詐騙嚴(yán)重影響了人民群眾獲得感、幸福感、安全感。國家高度重視電信詐騙治理工作,運營商作為電信詐騙整個鏈條中的一個環(huán)節(jié),亦投入大量人力物力、技術(shù)資金等開展電信詐騙專項治理。運營商如何利用技術(shù)手段進(jìn)行反詐,一直以來都是研究重點。最初電信詐騙特征并不復(fù)雜,通過一些簡單的行為分析與內(nèi)容檢測就可以達(dá)到不錯的反詐效果。收稿日期:2022-07-29隨著詐騙分子與反詐人員技術(shù)對抗不斷升級,電信詐騙在通信網(wǎng)側(cè)的行蹤已經(jīng)越來越隱蔽,技術(shù)手段越來越先進(jìn),因此,反詐工作亟需提升技術(shù)水平和能力,運用決策樹、隨機森林、貝葉斯分類器等典型的機器學(xué)來綜合判別詐騙電話,進(jìn)而對詐騙電話進(jìn)行關(guān)停、溯源和關(guān)聯(lián)分析。1電話反詐需求分析1.1電話反詐現(xiàn)狀隨著通信技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,詐騙分子郵電設(shè)計技術(shù)/2022/0959人工智能安全AISecurity基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究頻繁利用電信網(wǎng)和互聯(lián)網(wǎng)對廣大人民群眾實施非接觸式詐騙,并逐步呈現(xiàn)智能化、職業(yè)化的特點。詐騙分子利用電話、改號軟件、短信、惡意程序(包括仿冒和相關(guān)部委關(guān)注的重點。1.2電話反詐治理難點在通信過程中,終端會因為開關(guān)機、路由區(qū)更新、呼叫業(yè)務(wù)、短消息業(yè)務(wù)觸發(fā)鑒權(quán)向量消息,被叫和短消息業(yè)務(wù)會觸發(fā)尋呼消息,針對用戶漫入漫出詐騙特征分析的主要方法是通過正常用戶的行為建立基線,發(fā)現(xiàn)非正常終端的通聯(lián)關(guān)系。但是,電話反詐存在詐騙場景多變、舉報樣本不純、數(shù)據(jù)不均衡、數(shù)據(jù)表現(xiàn)不一致等治理難點。2整體解決方案2.1平臺整體架構(gòu)如圖1所示,從整體架構(gòu)上,平臺主要由5個部分構(gòu)成:應(yīng)用展示層/系統(tǒng)管理/監(jiān)控部分、數(shù)據(jù)源、機器各層功能如下。a)應(yīng)用展示層。提供綜合展現(xiàn)、系統(tǒng)首頁、檢出號碼列表、失信號碼溯源、信息查詢等展示全網(wǎng)涉詐電話的狀態(tài),通過一鍵處置對涉詐電話進(jìn)行關(guān)停,提高處置效率。b)數(shù)據(jù)源。通過各類接口技術(shù),如FTP、SFTP、XML、API、JDBC等進(jìn)行各類數(shù)據(jù)的收集。c)機器建模層。通過特征篩選技術(shù)、機器學(xué)習(xí)技術(shù)對模型進(jìn)行訓(xùn)練,對訓(xùn)練后的模型效果進(jìn)行評估,評估通過的模型正式上線運行,后續(xù)通過自動+人工的方式不斷對模型進(jìn)行迭代升級來反詐新的詐騙場景。d)數(shù)據(jù)接入層。對收集的數(shù)據(jù)進(jìn)行規(guī)范化處理后壓縮入庫,通過大數(shù)據(jù)技術(shù)對入庫數(shù)據(jù)進(jìn)行抽取、建模準(zhǔn)備數(shù)據(jù)環(huán)境。e)接口。通過運營商現(xiàn)有平臺實現(xiàn)短信接口、關(guān)停監(jiān)控接口、集團接口等功能對接,實現(xiàn)多環(huán)節(jié)功能自動完成。2.2反詐業(yè)務(wù)流程大數(shù)據(jù)采集數(shù)據(jù)源包括移動網(wǎng)Mc接口XDR話單和信令話單(O域話單)以及計費話單(B域話單)。為了確保分析數(shù)據(jù)的準(zhǔn)確性,需要對數(shù)據(jù)進(jìn)行加工處理,包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián),不規(guī)則應(yīng)用展示應(yīng)用展示數(shù)據(jù)源機器建模層數(shù)據(jù)接入層接口用戶視圖12321數(shù)據(jù)機器學(xué)習(xí)建模反詐態(tài)勢感知平臺數(shù)據(jù)處理大數(shù)據(jù)平臺關(guān)停監(jiān)控接口集團接口數(shù)據(jù)壓縮數(shù)據(jù)入庫自定義規(guī)則集團公安數(shù)據(jù)…數(shù)據(jù)采集模型分析模型優(yōu)化多域匯聚短信接口數(shù)據(jù)存儲(HDFS)…圖1整體架構(gòu)圖602022/09/DTPT設(shè)計基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究設(shè)計人工智能安全AISecurity數(shù)據(jù)需要進(jìn)行數(shù)據(jù)補齊,滿足數(shù)據(jù)的完整性和一致性。通過數(shù)據(jù)預(yù)處理組件可實現(xiàn)按照一定的規(guī)則,對已采集的數(shù)據(jù)進(jìn)行清洗,對無用的數(shù)據(jù)進(jìn)行過濾。將不合理或不滿足數(shù)據(jù)結(jié)構(gòu)要求的數(shù)據(jù),進(jìn)行字段取構(gòu)要求。大數(shù)據(jù)處理層主要是對接大數(shù)據(jù)全域數(shù)據(jù)匯聚處理與數(shù)據(jù)存儲等功能。2.2.3詐騙電話數(shù)據(jù)處理流程詐騙電話數(shù)據(jù)包括詐騙電話、鷹眼數(shù)據(jù)、省分?jǐn)?shù)據(jù)和IQ指標(biāo),從數(shù)據(jù)采集開始,將數(shù)據(jù)送到反欺詐引,最后送到Portal分布2.3算法及流程介紹國際國內(nèi)詐騙事件分析算法主要采用適用性優(yōu)良、精確度高、理論基礎(chǔ)佳、學(xué)術(shù)成果前沿的機器學(xué)習(xí)算法對通信行為模式進(jìn)行挖掘和準(zhǔn)確識別,如邏輯回歸、隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等。本文為了解決詐騙場景多變、舉報樣本不純、數(shù)據(jù)不均衡、數(shù)據(jù)表現(xiàn)不一致等治理難點,使用了上述機器學(xué)習(xí)算法的組合算法,引入公安涉案數(shù)據(jù)、用戶舉報數(shù)據(jù)增加正樣本數(shù)量。同時使用LightGBM框架,訓(xùn)練決策樹時使用直方圖算法,采用leaf-wise生長策略,每次從當(dāng)前所有葉子中找到分裂增益最大(一般也是數(shù)據(jù)量最大)的一個葉子,然后分裂,如此循環(huán),但此過程會生長出比較深的決策樹,產(chǎn)生過擬合。因此LightGBM在leaf-wise之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。從直方圖獲得分裂收益,選取最佳分裂特征、分裂閾值,根據(jù)最佳分裂特征、分裂閾值將樣本切分。通過直方圖做差,繼續(xù)選取最佳分裂葉子、分裂特征、分裂閾值,切分樣本,直到達(dá)到葉子數(shù)目限制或者所有葉子不能分割。本文選擇LightGBM是因為它支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的準(zhǔn)確率、支持分布式、可以快速處理海量數(shù)據(jù)等優(yōu)點。關(guān)于梯度提升樹算法的流程如下。c數(shù)據(jù)采集數(shù)據(jù)采集反欺詐引擎分布式解析引擎存儲Portal分布式應(yīng)用前端服務(wù)詐騙數(shù)據(jù)指標(biāo)同步大數(shù)據(jù)服務(wù)詐騙電話數(shù)據(jù)總部鷹眼數(shù)據(jù)解析省分?jǐn)?shù)據(jù)解析語音詳單總部模型檢出數(shù)據(jù)省分模型檢出數(shù)據(jù)IQ指標(biāo)解析全量IQ數(shù)據(jù)庫IQ指標(biāo)MySQL數(shù)據(jù)庫反欺詐解析反欺詐引擎語音詳單數(shù)據(jù)字段注冊中心系統(tǒng)管理關(guān)圖2詐騙電話數(shù)據(jù)處理流程圖2/0961AISecurity基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究b)對迭代輪數(shù)t=1,2,?T,進(jìn)行以下操作。 歸樹,得到第t顆回歸樹,其對應(yīng)的葉子節(jié)點區(qū)域為Rtj,j=1,2,?J。其中J是回歸樹t的葉子節(jié)點個數(shù)。 (c)對葉子節(jié)點區(qū)域j=1,2,?J,計算最佳擬合值cc (d)更新強學(xué)習(xí)器。c)得到強學(xué)習(xí)器表達(dá)式。2.4模型效果及創(chuàng)新點件,結(jié)合現(xiàn)階段詐騙涉案特征集,開展生產(chǎn)環(huán)境實踐。正樣本:根據(jù)公安提供的警情涉案數(shù)據(jù)和用戶舉報數(shù)據(jù),提取本場景的詐騙號碼,選取其被報案日的歷史前7天及當(dāng)天數(shù)據(jù),將經(jīng)初篩剩余的號碼作為初樣本過少,樣本不均衡,采取過采樣,將正樣本復(fù)制為3數(shù)據(jù),通過初篩的號碼查詢網(wǎng)絡(luò)標(biāo)簽,將去除詐騙標(biāo)簽剩余的樣本作為負(fù)樣本,經(jīng)過初篩及過濾標(biāo)簽,最終負(fù)樣5805個。將數(shù)據(jù)分為訓(xùn)練集和測試集,進(jìn)行5折的交叉驗證,最終的混淆矩陣如下。a)5折訓(xùn)練集混淆矩陣展示。如表1所示,其準(zhǔn)b)測試集混淆矩陣展示。如表2所示,其AUC為表15折訓(xùn)練集混淆矩陣展示字段名預(yù)測騙子預(yù)測正常用戶實際騙子6實際正常用戶4表2測試集混淆矩陣展示字段名預(yù)測騙子預(yù)測正常用戶實際騙子0實際正常用戶1測試集上ROC曲線及AUC值如圖3所示。TPRTPRAUC=0.99990.20.00.4F0.20.00.4FPR0.8圖3測試集上ROC曲線及AUC值模型創(chuàng)新點有2個,一是在正樣本較少的情況下,正負(fù)樣本極度不均衡,通過初篩對負(fù)樣本進(jìn)行隨機欠采樣(ROS),很好地解決了樣本不均衡帶來的問題;二是對模型的精準(zhǔn)度要求很高的同時,對覆蓋也有高要求,放寬了初篩的條件,讓更多的數(shù)據(jù)能進(jìn)入模型,迭代特征集合選取現(xiàn)階段最優(yōu)的特征集合。3系統(tǒng)功能介紹3.1外部接口功能系統(tǒng)已具備標(biāo)準(zhǔn)的B域基礎(chǔ)數(shù)據(jù)接口,并采用SFTP進(jìn)行加密傳輸,保證了數(shù)據(jù)的機密性。系統(tǒng)與集團鷹眼數(shù)據(jù)接口采用API接口方式,獲取鷹眼系統(tǒng)的I他系統(tǒng)直接操作數(shù)據(jù)庫,降低系統(tǒng)數(shù)據(jù)庫由于誤操作帶來的風(fēng)險。3.2自定義規(guī)則及監(jiān)控功能系統(tǒng)從用戶信息、狀態(tài)信息、通話信息、漫游信欺詐工作人員可根據(jù)經(jīng)驗,靈活配置使用自定義的監(jiān)控規(guī)則,預(yù)測新的不良號碼。同時,還可新增支持更多指標(biāo)閾值設(shè)置,支持指標(biāo)的與或非邏輯、概率函數(shù)運算等。業(yè)務(wù)實現(xiàn)處理流程見圖4,具體說明如下。622022/09/DTPT基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究人工智能安全AISecurity自定義規(guī)則與監(jiān)控數(shù)據(jù)源B域話單指標(biāo) (24項)B域話單指標(biāo) (24項)Q (32項)平臺指標(biāo) (4項)OO域信令指標(biāo) (12項)數(shù)據(jù)接收與提取指標(biāo)數(shù)據(jù)提取(多服務(wù)器并行處理)平臺提取指標(biāo)存儲與存取自定義規(guī)則任自定義規(guī)則任務(wù)調(diào)度指標(biāo)數(shù)據(jù)大數(shù)據(jù)存儲中心規(guī)則展示自定自定義規(guī)則不良號碼攔截處置匹配指標(biāo)結(jié)果結(jié)不良號碼攔截處置匹配指標(biāo)結(jié)果結(jié)束生產(chǎn)系統(tǒng)關(guān)停監(jiān)控規(guī)則圖4業(yè)務(wù)實現(xiàn)流程a)指標(biāo)展示。展示相關(guān)的指標(biāo)項,設(shè)置指標(biāo)的范圍以及監(jiān)控周期。b)規(guī)則的校驗和添加。規(guī)則添加時,使用昨日指標(biāo)數(shù)據(jù)校驗當(dāng)前規(guī)則設(shè)置是否合適,合適則添加,不合適直接返回提示信息。c)規(guī)則任務(wù)的拆分。將添加的規(guī)則,拆分成可以執(zhí)行的任務(wù)。d)規(guī)則匹配與結(jié)果數(shù)據(jù)的存儲。從數(shù)據(jù)存儲中心獲取匹配的指標(biāo)數(shù)據(jù),并將結(jié)果數(shù)據(jù)存儲至本地數(shù)據(jù)庫。e)關(guān)停。關(guān)停不良號碼。4數(shù)據(jù)輸出及結(jié)果驗證4.1數(shù)據(jù)輸出根據(jù)上述規(guī)則輸出模型數(shù)據(jù),包括GOIP、漫游通用模型、仿冒公檢法、仿冒領(lǐng)導(dǎo)熟人等每月輸出檢出表3月數(shù)據(jù)輸出時間GOIP漫游通用模型仿冒公檢法仿冒領(lǐng)導(dǎo)熟人總數(shù)2022年1月59177197582022年2月42126424532022年3月806972022年4月871754.2核驗方法針對2022年3月份業(yè)務(wù)部門反饋的模型結(jié)果進(jìn)行核驗還不足以驗證系統(tǒng)模型檢出異常號碼的準(zhǔn)確性,所以本文引入集團鷹眼詐騙模型分布情況與平臺檢出結(jié)果進(jìn)行對比,如表4所示。命中率最高的模型規(guī)則為仿冒領(lǐng)導(dǎo)熟人,其命中率達(dá)到100%,命中率最低的模型規(guī)則為基于lac的GOIP模型(B域)的模型規(guī)則,其命中率為4%。表4數(shù)據(jù)檢出驗證詐騙模型規(guī)則檢出量命中數(shù)命中率/%仿冒公檢法詐騙922932漫游通用模型6042于lac的GOIP模型(B域)788354仿冒領(lǐng)導(dǎo)熟人5模型部署及應(yīng)用本文提出的基于大數(shù)據(jù)+AI機器學(xué)習(xí)模式創(chuàng)新建立的反詐模型已應(yīng)用于黑龍江反詐態(tài)勢感知大數(shù)據(jù)平臺。運營商反詐人員通過反詐監(jiān)控獲取整體反詐情況,如圖5所示,該平臺可以直觀的呈現(xiàn)各類月度趨勢及當(dāng)日走勢,實現(xiàn)反詐集中運營與監(jiān)控。6結(jié)束語面對當(dāng)前不斷翻新的詐騙手段,變化多端的通信欺詐行為,運營商的管控任務(wù)艱巨。本文通過反詐態(tài)勢感知大數(shù)據(jù)平臺,針對常見的詐騙話務(wù)行為進(jìn)行分析,借助反欺詐業(yè)務(wù)模型及機器學(xué)習(xí)模型的迭代調(diào)郵電設(shè)計技術(shù)/2022/0963丆丆丆丆丆丆丆丆丆丆丆丆作者簡介:丆丆丆丆丆丆丆丆丆丆丆丆作者簡介:AISecurity基于大數(shù)據(jù)+AI機器學(xué)習(xí)的反詐模型研究黑黑龍江反詐態(tài)勢感知大數(shù)據(jù)平臺圖5黑龍江反詐態(tài)勢感知大數(shù)據(jù)平臺優(yōu),建立針對詐騙電話的事前風(fēng)險預(yù)防、事中風(fēng)險阻斷、事后風(fēng)險處理的全流程閉環(huán)反詐管控體系,降低了詐騙號碼誤判率,有效減少反詐人員工作量,提高勞動生產(chǎn)率,在實際應(yīng)用中取得了良好的效果。此外,在反欺詐防控過程中,因為算法精度可能存在部分用戶號碼偏差。因此,未來可在以下2個方面進(jìn)一步提高反欺詐模型的精度:一是不斷迭代新模型+社會工程學(xué)來適應(yīng)各種欺詐場景;二是嘗試通過貝葉參考文獻(xiàn): [1]張一乾.電信反欺詐相關(guān)技術(shù)研究[D].北京:北京郵電大學(xué),2014. J.信息通信技術(shù),2015,9(6):50-56,72. [3]韓利強.垃圾短信與騷擾電話攔截技術(shù)[J].通訊世界,2017(1):66-67. [4]姚偉.業(yè)務(wù)系統(tǒng)異常行為檢測[J].郵電設(shè)計技術(shù),2016(1):70-73. [5]石強.反欺詐中的用戶手機號數(shù)據(jù)研究[J].智能計算機與應(yīng)用, [6]孫世奇,張治邦,宋丹.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論