




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于聲紋大數(shù)據(jù)的防電信詐騙應(yīng)用的研究ResearchontheApplicationofTelecommunicationFraudPreventionbasedonVoiceprintBigData摘要如今,電信網(wǎng)絡(luò)詐騙發(fā)案數(shù)量與日俱增,嚴(yán)重危害了人民群眾財產(chǎn)安全。隨著通信手段的不斷發(fā)展,通信數(shù)據(jù)量也越來越大。對于電信詐騙防范系統(tǒng)的實時性和精確性是嚴(yán)重的挑戰(zhàn)。傳統(tǒng)采用神經(jīng)網(wǎng)絡(luò)作為支撐技術(shù)的防詐騙系統(tǒng)對于詐騙電話的分辨準(zhǔn)確率有限,難以滿足對大量聲音樣本的辨別需求。本文提出了一種基于聲紋大數(shù)據(jù)的防電信詐騙框架,通過收集并對語音文件進(jìn)行聲紋特征提取形成聲紋特征庫。在接收到聲紋認(rèn)證請求時,計算需要認(rèn)證的聲紋與聲紋特征庫中聲紋特征的距離從而判斷當(dāng)前認(rèn)證聲紋是否來自于詐騙電話,從而對電信詐騙實施預(yù)警。本文所提方法通過并行化提取聲紋特征,提高了大數(shù)據(jù)量情形下程序的處理速度和運(yùn)行效率。關(guān)鍵詞:電信詐騙;深度學(xué)習(xí);聲紋識別AbstractNowadays,thenumberoftelecommunicationnetworkfraudcasesisincreasingdaybyday,whichseriouslyendangersthepropertysecurityofthepeople.Withthecontinuousdevelopmentofcommunicationmeans,theamountofcommunicationdataisalsoincreasing.Itisaseriouschallengetothereal-timeandaccuracyofthetelecommunicationfraudpreventionsystem.Thetraditionalantifraudsystem,whichusesneuralnetworkassupporttechnology,haslimitedresolutionaccuracyforfraudulentphones,anditisdifficulttomeettheneedsofalargenumberofvoicesamples.Inthispaper,weproposeanantifraudframeworkbasedonvoiceprintbigdata.Thevoiceprintfeaturelibraryisformedbycollectingandextractingvoiceprintfeaturesfromvoicefiles.Whenreceivingthevoiceprintauthenticationrequest,thedistancebetweenthevoiceprinttobeauthenticatedandthevoiceprintfeatureinthevoiceprintfeaturelibraryiscalculatedtodeterminewhetherthecurrentauthenticatedvoiceprintisfromthefraudphone,soastoimplementearlywarningforthetelecomfraud.Themethodproposedinthispaperimprovestheprocessingspeedandrunningefficiencyoftheprograminthecaseoflargeamountofdatabyparallelextractionofvoiceprintfeatures.Keywords:TelecommunicationsFraud;DeepLearning;VoiceprintRecognition目錄TOC\o"1-3"\h\u16357第一章緒論 [17]。本文方法采用深度置信網(wǎng)絡(luò)(Deepbeliefnetworks,DBN)作為聲紋大數(shù)據(jù)的分類和識別方法。下文對深度置信網(wǎng)絡(luò)的工作原理進(jìn)行簡要介紹。3.1.2深度置信網(wǎng)絡(luò)深度置信神經(jīng)網(wǎng)絡(luò)中每一層都是捕捉底層隱藏特征的一個高階相關(guān)過程,神經(jīng)元之間通過權(quán)值和偏置進(jìn)行連接,利用BP反向傳播算法對權(quán)重和偏置進(jìn)行學(xué)習(xí)和調(diào)整。RBM模型的能量函數(shù)為:其中I為可視層單元個數(shù);J為隱藏層單元個數(shù);為參數(shù)模型集合;為可視層與隱藏層之間的權(quán)重系數(shù);,分別為可視層和隱藏層的偏置項。3.1.3訓(xùn)練過程DBN的訓(xùn)練過程由無樣本類別標(biāo)記的無監(jiān)督學(xué)習(xí)和有樣本類別標(biāo)記的有監(jiān)督學(xué)習(xí)組成。在無監(jiān)督學(xué)習(xí)階段,利用大量無標(biāo)記樣本采用CD-k算法自底向上訓(xùn)練每一個層級的RBM,獲取每一層級神經(jīng)元之間連接的權(quán)值;接下來利用少量帶標(biāo)簽的訓(xùn)練樣本通過誤差反向傳播算法BP對網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào),從而達(dá)到最優(yōu)狀態(tài)。圖3-1基于DBN的聲紋辨別流程在測試和對比DBN網(wǎng)絡(luò)與其他方法對樣本的性能時,按照同樣的方法對測試聲音樣本進(jìn)行特征提取,得到聲紋特征作為網(wǎng)絡(luò)的測試輸入,根據(jù)網(wǎng)絡(luò)的輸出獲取樣本的預(yù)測結(jié)果。預(yù)測結(jié)果的正確性判別方法是將網(wǎng)絡(luò)對樣本類別的預(yù)測結(jié)果與樣本的真實標(biāo)簽進(jìn)行對比,如果相同則辨別的結(jié)果正確,反之則辨別錯誤,通過統(tǒng)計類別預(yù)測正確的樣本數(shù)占測試樣本總數(shù)的百分比即可得到樣本預(yù)測的正確率。3.1.4優(yōu)點(diǎn)及不足傳統(tǒng)的機(jī)器學(xué)習(xí)方法面對海量的訓(xùn)練樣本,無論是計算效率還是學(xué)習(xí)效率都會大打折扣。而深度置信網(wǎng)絡(luò)正是為大數(shù)據(jù)學(xué)習(xí)設(shè)計的,數(shù)據(jù)量越多,深度置信網(wǎng)絡(luò)的學(xué)習(xí)效果越好,分類識別準(zhǔn)確率越高。然而,深度學(xué)習(xí)對于計算資源的需求比傳統(tǒng)機(jī)器學(xué)習(xí)方法顯著提高,特別是網(wǎng)絡(luò)節(jié)點(diǎn)和網(wǎng)絡(luò)層數(shù)越多,所需的訓(xùn)練與分類時間越長。解決途徑是采用基于GPU的并行計算方法,利用GPU眾核的優(yōu)勢通過并行計算的方式提高深度神經(jīng)網(wǎng)絡(luò)的計算效率。因此,總體而言,隨著計算機(jī)計算能力的不斷提高,未來深度置信網(wǎng)絡(luò)的應(yīng)用勢必更加廣泛,進(jìn)而取代傳統(tǒng)方法成為防詐騙的主流手段。3.2基于聲紋大數(shù)據(jù)的防電信詐騙方案3.2.1防電信詐騙方案設(shè)想傳統(tǒng)電信詐騙防治手法多為呼叫建模,進(jìn)行疑似號碼呼叫標(biāo)記、攔截。但犯罪集團(tuán)中也不乏技術(shù)人員,其通過技術(shù)手段將呼叫號碼進(jìn)行偽裝,繼續(xù)進(jìn)行電信詐騙。而在該應(yīng)用模型中,利用說話人聲紋的不可復(fù)制性、穩(wěn)定性,建立聲紋大數(shù)據(jù)匹配機(jī)制,對犯罪嫌疑人聲紋特征進(jìn)行鎖定,其原理與當(dāng)下的電信號碼實名制相似,區(qū)別在于電信號碼實名制通過確認(rèn)該號碼持有者進(jìn)行數(shù)據(jù)透明化管控,而通過聲紋鎖定該聲紋特征所有者為電信詐騙嫌疑人則更為高效,且不受跨境地域性、電信號碼偽裝等因素影響。目前,聲紋識別技術(shù)已經(jīng)發(fā)展較為完善,因此本文針對電信詐騙特點(diǎn)的研究,研究重點(diǎn)在于設(shè)計一種基于聲紋大數(shù)據(jù)識別的防詐騙框架。本文所提出的聲紋大數(shù)據(jù)防詐騙框架如圖3.2所示。圖3-2基于聲紋大數(shù)據(jù)的防詐騙框架針對電信詐騙案件一旦成立,后續(xù)追贓、鎖定犯罪嫌疑人困難這一難點(diǎn),該應(yīng)用將重點(diǎn)布防于防治階段,只要成功阻止電信詐騙的實施,就可以避開這一難點(diǎn),通過降低電信詐騙成功率,來切斷犯罪集團(tuán)的利益鏈,已達(dá)到防治效果。3.2.2應(yīng)用實現(xiàn)步驟步驟一:對電信通話中采集的說話人語音進(jìn)行收集,并對收集的語音文件進(jìn)行分片,存儲在分布式計算集群的節(jié)點(diǎn)中。步驟二:對收集的語音文件并行化聲紋特征提取,進(jìn)行分幀加窗處理,選取HammingWindow函數(shù)(N為窗口大小):通過對提取的聲紋特征進(jìn)行哈希運(yùn)算,將聲紋特征存儲到相應(yīng)的計算集群的節(jié)點(diǎn)中,形成聲紋特征庫。步驟三:當(dāng)接收到聲紋認(rèn)證請求需要進(jìn)行聲紋匹配時,首先提取聲紋特征,計算待認(rèn)證聲音的聲紋與聲紋特征庫中的聲紋之間的距離,建立全局距離模型,根據(jù)各個節(jié)點(diǎn)中的聲紋特征數(shù)據(jù),計算待認(rèn)證聲紋特征與聲紋特征庫中聲紋特征的相似度。整理相似度結(jié)果并反饋。3.3研究分析與結(jié)論3.3.1研究分析傳統(tǒng)電信詐騙防治手法多為呼叫建模,進(jìn)行疑似號碼呼叫標(biāo)記、攔截。但犯罪集團(tuán)中也不乏技術(shù)人員,其通過技術(shù)手段將呼叫號碼進(jìn)行偽裝,繼續(xù)進(jìn)行電信詐騙。而在該應(yīng)用模型中,利用說話人聲紋的不可復(fù)制性、穩(wěn)定性,建立聲紋大數(shù)據(jù)匹配機(jī)制,對犯罪嫌疑人聲紋特征進(jìn)行鎖定,其原理與當(dāng)下的電信號碼實名制相似,區(qū)別在于電信號碼實名制通過確認(rèn)該號碼持有者進(jìn)行數(shù)據(jù)透明化管控,而通過聲紋鎖定該聲紋特征所有者為電信詐騙嫌疑人則更為高效,且不受跨境地域性、電信號碼偽裝等因素影響。將該應(yīng)用模型應(yīng)用于防電信詐騙領(lǐng)域,在初始階段,效果可能并不明顯,但隨著聲紋特征庫錄入的聲紋特征增加,這個應(yīng)用模型應(yīng)用于防電信詐騙的優(yōu)勢將會越來越明顯。但聲紋數(shù)據(jù)庫需要承載海量數(shù)據(jù),其體量是巨大的,就如銀行行業(yè)的大數(shù)據(jù)結(jié)構(gòu)為例,銀行業(yè)每創(chuàng)收100萬美元,平均產(chǎn)生820GB的數(shù)據(jù),數(shù)據(jù)強(qiáng)度位居各個行業(yè)的首位。且應(yīng)用于防電信詐騙的聲紋數(shù)據(jù)庫,其計算精度跟加載速度要求也是極高的,因為電信詐騙的過程是短暫的。因此,聲紋大數(shù)據(jù)技術(shù)離不開云計算,想要真正應(yīng)用該方法于電信詐騙上,云計算的投入也是必不可少的。如此龐大體量的聲紋數(shù)據(jù)庫建立,是需要耗費(fèi)極大金錢投資。另一方面,聲紋數(shù)據(jù)庫的建設(shè)者,應(yīng)該由誰來承擔(dān)?在這里敘述一下我的想法:1.基于聲紋大數(shù)據(jù)電信詐騙防控,其重點(diǎn)布防在于可以采集到聲紋的途徑,布防的重中之重就是電信通話。因此可以聯(lián)手電信公司,在獲得國家支持的情況下,聯(lián)合國家三大運(yùn)營商——移動、聯(lián)通和電信,將聲紋采集這一功能在電信通話上實現(xiàn),且共享聲紋數(shù)據(jù)庫的海量數(shù)據(jù)。2.重點(diǎn)布防思路不改變,依舊是重點(diǎn)布防電信通話,但建設(shè)者可以為其他公司、組織。通過研發(fā)定制第三方安全軟件,其權(quán)限包括獲取電話語音,提取其聲紋。但仍需得到國家各方面的支持,以及電信公司的語音獲取許可權(quán)限。軟件由用戶自行選擇下載。這種方法與第一種相比,增加了用戶的隱私權(quán),因其在電信通話中采集聲紋(雖然聲紋并不會暴露通話者的個人隱私,但通話者心里或多或少會存在芥蒂)。但第二種方法也存在其局限性,其高效性遠(yuǎn)不如電信公司直接對接聲紋數(shù)據(jù)庫,再者,聲紋數(shù)據(jù)庫作為國家重要戰(zhàn)略資源,該軟件在蘋果手機(jī)上是使用不了的,因其IOS系統(tǒng)的封閉性,注定了該軟件不會在蘋果的應(yīng)用商店上架。3.3.2結(jié)論在該聲紋大數(shù)據(jù)應(yīng)用模型設(shè)計中,通過放大聲紋識別的獨(dú)特性,避開聲紋識別的局限性,以更好實現(xiàn)防電信詐騙應(yīng)用的實施。模型中選取深度置信網(wǎng)絡(luò)作為聲紋識別的支撐技術(shù),以實現(xiàn)秒級的識別效率,同時基于大數(shù)據(jù)并行化的應(yīng)用框架,對聲紋庫的提取與聲紋特征匹配速度在理論上實現(xiàn)秒級的運(yùn)算速度。從技術(shù)層面上看,該應(yīng)用模型可以運(yùn)用到防電信詐騙領(lǐng)域中。但從現(xiàn)實意義的角度出發(fā),要將該應(yīng)用模型實現(xiàn)還有以下難點(diǎn):考慮我國本身人口基數(shù)大,再加上還會有境外通話的入境,如此龐大的數(shù)據(jù)量,從經(jīng)濟(jì)上以及運(yùn)算速度上看還存在一定挑戰(zhàn)。聲紋特征受年齡、病理以及聲音偽裝技術(shù)的影響,同一個人的聲紋特征可能會出現(xiàn)好幾種。如何避免聲紋庫中產(chǎn)生過多無用聲紋數(shù)據(jù),保證聲紋庫的高效,這個問題還尚待解決。
總結(jié)與展望4.1工作總結(jié)隨著大數(shù)據(jù)時代的到來,犯罪分子更容易獲取詐騙對象個人信息從而設(shè)計精巧的詐騙腳本,在這種背景下防電信詐騙成為燃眉之急,其關(guān)乎國家的長治久安及社會穩(wěn)定性。傳統(tǒng)的防治技術(shù)已不能滿足層出不窮的新型詐騙技術(shù)手段,這時候急需有新的防控機(jī)制來打擊電信詐騙。本文通過研究聲紋技術(shù)現(xiàn)狀,提出了把聲紋技術(shù)應(yīng)用于防電信詐騙中,主要進(jìn)行了以下工作:(1)了解防電信詐騙的背景及其形式、手段,并探析了國內(nèi)外研究現(xiàn)狀,總結(jié)了現(xiàn)有防電信詐騙手段的優(yōu)缺點(diǎn),為研究工作進(jìn)一步展開奠定了基礎(chǔ)。(2)通過對聲紋識別技術(shù)的了解及學(xué)習(xí),認(rèn)為現(xiàn)下的聲紋識別技術(shù)已足夠成熟,并被運(yùn)用于多個領(lǐng)域特別是公眾安全領(lǐng)域,但聲紋識別技術(shù)在防電信詐騙上的應(yīng)用近乎空白。既然聲紋識別技術(shù)已然成熟,本文提出將聲紋識別技術(shù)應(yīng)用于復(fù)雜的電信詐騙場景,并進(jìn)行了技術(shù)分析及現(xiàn)實意義的探討。(3)進(jìn)一步升入了解聲紋識別,通過對比已有聲紋識別方案文獻(xiàn)的研究,提出了將深度置信網(wǎng)絡(luò)這一聲紋識別算法作為防電信詐騙應(yīng)用模型的支撐技術(shù)。并提出了一種基于聲紋大數(shù)據(jù)的防電信詐騙應(yīng)用框架。(4)進(jìn)而提出了一種基于聲紋大數(shù)據(jù)的防電信詐騙應(yīng)用模型,將聲紋識別依托于大數(shù)據(jù),應(yīng)用于防電信詐騙領(lǐng)域。聲紋識別技術(shù)已然成熟,應(yīng)用于多種安全領(lǐng)域,本文研究首次探討將聲紋技術(shù)應(yīng)用于防電信詐騙。但由于個人能力所限,方案提出也只停留于理論層面,但該方法擁有繼續(xù)深入研究探討意義,和現(xiàn)實應(yīng)用的意義。4.2研究展望防范電信詐騙,不僅需要提升人民群眾的防范意識,更需要不斷提升防范電信詐騙的技術(shù)水平,與時俱進(jìn),不斷創(chuàng)新,以適應(yīng)電信詐騙呈顯出的越來越科技化、越來越隱秘化、越來越國際化的特點(diǎn),徹底扭轉(zhuǎn)電信詐騙高發(fā)態(tài)勢。在經(jīng)過上文所述的研究過程后,認(rèn)為防電信詐騙還可從以下幾個方面進(jìn)行進(jìn)一步的研究工作:(1)個人信息泄露已經(jīng)成為電信詐騙犯罪的源頭。統(tǒng)計數(shù)據(jù)顯示,有超過90%的電信詐騙是由于個人信息泄露導(dǎo)致的,因此,打擊個人信息泄露源頭,堵住個人信息泄露漏洞,繃緊信息安全這根弦,收緊信息安全這張網(wǎng),才能真正減少電信詐騙案件的發(fā)生。同時,利用大數(shù)據(jù)分析和云計算技術(shù),對垃圾短信、詐騙電話行為進(jìn)行動態(tài)檢測分析,動態(tài)、主動防御電信詐騙,在落地側(cè)進(jìn)行語音、短信詐騙的主動防御。要實現(xiàn)電信詐騙的根本治理還有待于各運(yùn)營商分別落實網(wǎng)內(nèi)治理責(zé)任,從呼叫源頭拒絕違規(guī)業(yè)務(wù)接入,銀行和公安各相關(guān)部門各司其職,著重掌握“數(shù)據(jù)流”和“資金流”,多部門協(xié)同聯(lián)動,各環(huán)節(jié)全面攔截,以有效遏制電信詐騙犯罪,全方位保護(hù)人民群眾利益。(2)在對電信詐騙的現(xiàn)有形式和手段研究中發(fā)現(xiàn),電信詐騙存在一個很明顯的特征:短時間、大量重復(fù)。用一句話總結(jié)就是廣撒網(wǎng)。所以聲紋防詐騙的應(yīng)用方向也可以從這一特點(diǎn)上尋找突破口。通過標(biāo)記短時間內(nèi)大量重復(fù)匹配成功的聲紋特征,對其采取防治措施,其原理就類似于360的呼叫攔截。
參考文獻(xiàn)[1]劉波.基層公安機(jī)關(guān)打擊和防范電信網(wǎng)絡(luò)詐騙犯罪的對策研究[D].太原理工大學(xué),2019.[2]林耿民.南方網(wǎng)[DB/OL]./cfzx/content/2016-12/13/content_161588982.htm,2016-12-13[3]陳飛.個人數(shù)據(jù)保護(hù):歐盟指令及成員國法律.經(jīng)合組織指導(dǎo)方針(中英文對照)[M].北京:法律出版社,2006:177-154.[4]本刊編輯部.國外防范電信詐騙情況面面觀[J].中國信息安全,2014(05):100-101.[5]宮路,潘超.手機(jī)短信詐騙犯罪偵查研究[J].廣州市公安管理干部學(xué)院學(xué)報,2009(01):17-19.[6]繆深.電信詐騙犯罪治理問題研究[D].蘇州大學(xué),2010[7]賈俊興.電信詐騙犯罪的法律規(guī)制[D].吉林大學(xué),2014.[8]唐子君.電信詐騙犯罪打擊難點(diǎn)及應(yīng)對策略研究,[D].天津:天津大學(xué),2013[9]張新憲,崔杰,鞠佳佳.電信詐騙犯罪疑難問題研究[J].人民檢察,2011(08):15-19.[10]秦帥,陳剛.近年來電信詐騙案件偵查研究綜述[J].公安學(xué)刊(浙江警察學(xué)院學(xué)報),2015(03):36-40.[11]宋大杰.基于DTW的說話人識別及其在DSP上的實現(xiàn)[D].東華理工大學(xué),2012.[12]YamingWang,FuqianTang,JunbaoZheng.RobustText-independentSpeakerIdentificationinaTime-varyingNoisyEnvironment.2012,7(9):1975-1980.[13]CemalHanil?i,FigenErta?.Comparisonofthei
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)字化供應(yīng)鏈優(yōu)化升級合作協(xié)議
- 幼兒園親子故事征文猜猜我有多愛你
- 品牌發(fā)展及合作策略表
- 農(nóng)業(yè)智能裝備技術(shù)應(yīng)用知識試題
- 物業(yè)轉(zhuǎn)讓協(xié)議書錦集
- 農(nóng)業(yè)種植基地生產(chǎn)安全管理協(xié)議
- 數(shù)學(xué)故事書奇妙的世界之旅解讀
- 企業(yè)內(nèi)部管理軟件推廣協(xié)議
- 杜甫詩風(fēng)探究:高中語文深度解析教案
- 三農(nóng)田機(jī)械作業(yè)技術(shù)標(biāo)準(zhǔn)及規(guī)范
- 我的小書桌課件
- 北京大學(xué)- DeepSeek如何提示詞工程和落地場景分析
- 2025年北京社會管理職業(yè)學(xué)院單招職業(yè)適應(yīng)性考試題庫及答案參考
- (完整版)第五章養(yǎng)殖場環(huán)境保護(hù)
- 2025年江蘇省南京市鍋爐壓力容器檢驗研究院招聘20人歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 南瓜小房子故事課件
- 2024年蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 《道德與法治》五年級下冊全冊教案
- 畢業(yè)設(shè)計(論文)3000t自由鍛液壓機(jī)本體設(shè)計
- 風(fēng)力發(fā)電機(jī)組PLC系統(tǒng)
- Q∕GDW 12131-2021 干擾源用戶接入電網(wǎng)電能質(zhì)量評估技術(shù)規(guī)范
評論
0/150
提交評論