2024金融風(fēng)控反欺詐圖行算法_第1頁
2024金融風(fēng)控反欺詐圖行算法_第2頁
2024金融風(fēng)控反欺詐圖行算法_第3頁
2024金融風(fēng)控反欺詐圖行算法_第4頁
2024金融風(fēng)控反欺詐圖行算法_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

金融風(fēng)控反欺詐圖算法先介紹下金融借貸業(yè)務(wù)流程:用戶前來申請(qǐng)借貸,會(huì)先經(jīng)過欺詐識(shí)別,把欺詐團(tuán)伙和主觀欺詐的個(gè)人拒絕掉,然后對(duì)通過的人做信用評(píng)估,最后根據(jù)額度模型,算出利潤最大化時(shí)放款金額。剛才提到了團(tuán)隊(duì)欺詐,舉個(gè)真實(shí)的例子。宜人貸在他們的財(cái)報(bào)中公布的,他們被20004w8000w那么如何防范這種風(fēng)險(xiǎn)呢。這就是今天要分享的圖算法。圖可以將這些一個(gè)個(gè)有良好記錄的個(gè)體關(guān)聯(lián)起來,一網(wǎng)打盡。再舉一些團(tuán)伙欺詐的行為。比如一個(gè)團(tuán)伙,注冊真實(shí)的淘寶商家,然后刷出良好的淘寶購物記錄。或者來回轉(zhuǎn)賬,刷出良好的銀行流水。剛才前兩位老師都沒有提到額度模型,簡單介紹下,如果只給用戶放款5000,可能壞賬風(fēng)險(xiǎn)很小,但是利息也少,如果放款10000,利息雖然收到利息多了,但是壞賬風(fēng)險(xiǎn)高嶺,所以需要做個(gè)權(quán)衡Graph簡介G=(V,E)G=(V,E)V:vertexsetE:edgeset有向,無向,有權(quán)重和沒有權(quán)重)舉例,兩個(gè)人之間的聯(lián)系,A給B買了東西,A和B之間的通話次數(shù)時(shí)長多于A和C之間。度中心性(DegreeCentrality)-表示連接到某節(jié)點(diǎn)的邊數(shù)。在有向圖中,2接近中心性(ClosenessCentrality)-從某節(jié)點(diǎn)到所有其他節(jié)點(diǎn)的最短路徑的平均長度。反映在網(wǎng)絡(luò)中某一節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的接近程度。介中心性(BetweennessCentrality)-某節(jié)點(diǎn)在多少對(duì)節(jié)點(diǎn)的最短路徑上。社團(tuán)發(fā)現(xiàn)算法一般有:最小割,正則化割:通過計(jì)算圖的最小割,即將網(wǎng)絡(luò)劃分為預(yù)定的分組數(shù),并使連接各分組的邊的條數(shù)最少。非負(fù)矩陣分解:基本原理是將原始矩陣分解得到社區(qū)指示矩陣和基矩陣基于模塊度的社區(qū)劃分基于節(jié)點(diǎn)相似性的社區(qū)劃分最小割算法廣泛應(yīng)用在分布式計(jì)算的負(fù)載均衡中,對(duì)集群節(jié)點(diǎn)的分組有利于減少不相關(guān)節(jié)點(diǎn)之間的通信。然而由于該算法限定了網(wǎng)絡(luò)最終分組的個(gè)數(shù),而不能通過算法“發(fā)現(xiàn)”節(jié)點(diǎn)間的內(nèi)在聯(lián)系并自然地構(gòu)成若干個(gè)社區(qū),因此最小割算法應(yīng)用較為局限。本文主要分享這兩類的主要算法,基于模塊度的louvain和基于信息熵infomap,基于相似度的node2vec模塊度(Modularity)公式及簡化優(yōu)化目標(biāo):一般認(rèn)為社團(tuán)內(nèi)部的點(diǎn)之間的連接相對(duì)稠密,而不同社團(tuán)的點(diǎn)之間的連接相對(duì)稀疏。所以模塊度也可以理解是社區(qū)內(nèi)部邊的權(quán)重減去所有與社區(qū)節(jié)點(diǎn)相連的邊的權(quán)重和,對(duì)無向圖更好理解,即社區(qū)內(nèi)部邊的度數(shù)(內(nèi)部的連線數(shù))減去社區(qū)內(nèi)節(jié)點(diǎn)的總度數(shù)。模塊度公式的解釋節(jié)點(diǎn)i和節(jié)點(diǎn)j之間邊的權(quán)重,網(wǎng)絡(luò)不是帶權(quán)圖時(shí),所有邊的權(quán)重可以看做是1;表示所有與節(jié)點(diǎn)i相連的邊的權(quán)重之和(度數(shù));表示節(jié)點(diǎn)i所屬的社區(qū);表示所有邊的權(quán)重之和(邊的數(shù)目)。其中 表示社區(qū)c內(nèi)的邊的權(quán)重之和, 表示與社區(qū)c內(nèi)的節(jié)點(diǎn)相的邊的權(quán)重之和,即社區(qū)c節(jié)點(diǎn)的度之和(包含與其他社區(qū)相連邊的度)。從概率的角度去看:表示實(shí)際情況下,c社區(qū)內(nèi)產(chǎn)生邊的概率。表示在一種理想情況下,給定任意節(jié)點(diǎn)i的的度ki,對(duì)節(jié)點(diǎn)i和節(jié)點(diǎn)j進(jìn)行隨機(jī)連邊,邊屬于社區(qū)c的概率期望。于是上式就表示了社區(qū)內(nèi)連邊數(shù)與隨機(jī)期望的一個(gè)差值。連邊數(shù)比隨機(jī)期望值越高,表明社區(qū)劃分的越好。一般使用后面簡化的公式,簡化后的公式刪除了判斷兩個(gè)節(jié)點(diǎn)是否劃為同一個(gè)社區(qū)的函數(shù),所以在一定程度上大大減少了Q值計(jì)算量。LouvainLouvain算法的思想很簡單:將圖中的每個(gè)節(jié)點(diǎn)看成一個(gè)獨(dú)立的社區(qū),此時(shí)社區(qū)的數(shù)目與節(jié)點(diǎn)個(gè)數(shù)相同;i配前與分配后的模塊度變化,并記錄最大的那個(gè)鄰居節(jié)點(diǎn),如果,則把節(jié)點(diǎn)i分配最大的那個(gè)鄰居節(jié)點(diǎn)所在的社區(qū),否則保持不變;2,直到所有節(jié)點(diǎn)的所屬社區(qū)不再變化;對(duì)圖進(jìn)行壓縮,將所有在同一個(gè)社區(qū)的節(jié)點(diǎn)壓縮成一個(gè)新節(jié)點(diǎn),社區(qū)內(nèi)節(jié)點(diǎn)之間的邊的權(quán)重轉(zhuǎn)化為新節(jié)點(diǎn)的環(huán)的權(quán)重,社區(qū)間的邊權(quán)重轉(zhuǎn)化為新節(jié)2,3;2~4,直到整個(gè)圖的模塊度不再發(fā)生變化。第一階段稱為ModularityOptimization,主要是將每個(gè)節(jié)點(diǎn)劃分到與其鄰接的節(jié)點(diǎn)所在的社區(qū)中,以使得模塊度的值不斷變大;第二階段稱為CommunityAggregation,主要是將第一步劃分出來的社區(qū)聚合成為一個(gè)點(diǎn),即根據(jù)上一步生成的社區(qū)結(jié)構(gòu)重新構(gòu)造網(wǎng)絡(luò)。重復(fù)以上的過程,直到網(wǎng)絡(luò)中的結(jié)構(gòu)不再改變?yōu)橹?。移?dòng)是社區(qū)c內(nèi)節(jié)點(diǎn)與節(jié)點(diǎn)i的邊權(quán)重之和,再乘以2前面部分表示把節(jié)點(diǎn)i加入到社區(qū)c后的模塊度,后一部分是節(jié)點(diǎn)i作為一個(gè)獨(dú)立社區(qū)和社區(qū)c的模塊度Louvain社區(qū)發(fā)現(xiàn)算法\h/fengfenggirl/p/louvain.html\hSparkGraphX分布式圖計(jì)算實(shí)戰(zhàn)infomap從信息論的角度出發(fā),假設(shè)一個(gè)randomworker在圖上進(jìn)行隨機(jī)游走,那么怎么用最少的編碼長度來表示其路徑呢?如果節(jié)點(diǎn)存在社區(qū)結(jié)構(gòu),那么社區(qū)內(nèi)的節(jié)點(diǎn)就可以共享社區(qū)的bit位碼,可以得到更小的平均比特,所以社區(qū)劃分的越好,那么表示任意一條隨機(jī)游走的路徑所需的平均比特就越小。如果我們能夠計(jì)算出每個(gè)節(jié)點(diǎn)的到達(dá)概率,就可以依據(jù)信息熵的公式來量化平均比特了:怎么計(jì)算每個(gè)點(diǎn)的到達(dá)概率呢?一個(gè)暴力的辦法是在圖上進(jìn)行長時(shí)間的隨機(jī)游走,最后統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)的出現(xiàn)概率。太暴力了。利用pagerank思路,初始化了每個(gè)節(jié)點(diǎn)的到達(dá)概率之后,就可以不斷地迭代更新每個(gè)節(jié)點(diǎn)的到達(dá)概率,這個(gè)結(jié)果會(huì)很快趨于收斂。其實(shí)這過程就是一個(gè)馬爾科夫隨機(jī)過程,隨機(jī)初始化起始值,然后隨機(jī)游走就相當(dāng)于不停地用概率轉(zhuǎn)移矩陣相乘,最后就可以達(dá)到馬爾科夫穩(wěn)態(tài)。把隨機(jī)游走事件歸為三類:進(jìn)入某個(gè)社團(tuán),離開某個(gè)社團(tuán),再社團(tuán)內(nèi)部游走。定義清楚各類事件的發(fā)生概率,依據(jù)信息熵公式,就可以得到此時(shí)編碼所需的平均比特了,其本質(zhì)就是從信息論的角度出發(fā)。Infomap算法的迭代過程初始化,對(duì)每個(gè)節(jié)點(diǎn)都視作獨(dú)立的社區(qū);while平均比特的值不再下降;參考鏈接Themapequation\h/apps/MapDemo.html\h/s/qUxMesQA-edSyHeudQRRGADEEPGRAPHINFOMAX閱讀筆記/p/58682802GraphembeddingsDeepwalk使用隨機(jī)游走(RandomWalk)的方式在圖中進(jìn)行節(jié)點(diǎn)采樣獲得節(jié)點(diǎn)共關(guān)系,skip-gram1中生成的節(jié)點(diǎn)序列學(xué)習(xí)每個(gè)節(jié)點(diǎn)的向量表示。skip-gram就是根據(jù)給定輸入的節(jié)點(diǎn),預(yù)測上下文節(jié)點(diǎn)。Deepwalk有多不足,比如泛化能力,有新節(jié)點(diǎn)加入時(shí),它必須重新訓(xùn)練模型以表示該節(jié)點(diǎn)。其中一個(gè)就是采樣,從其鄰居中隨機(jī)采樣節(jié)點(diǎn)作為下一個(gè)訪問節(jié)點(diǎn),是一種可重復(fù)訪問已訪問節(jié)點(diǎn)的深度優(yōu)先遍歷算法。node2vec是一種綜合考慮DFS鄰域和BFS鄰域的graphembedding方法node2vec優(yōu)化目標(biāo):條件獨(dú)立假設(shè):特征空間的對(duì)稱性:優(yōu)化目標(biāo):計(jì)算量非常大,所以論文采用負(fù)采樣(negativesample)進(jìn)行近似計(jì)算。這個(gè)node2vec優(yōu)化目標(biāo)函數(shù),因?yàn)樗竺ΧΦ膚ord2vec是一樣。我們最初是用一個(gè)Python寫的包,跑一遍算法需要一周。后來想,既然優(yōu)化目標(biāo)是一樣的,那能不能用word2vec包,因?yàn)閣ord2vec用c寫的,而且還采用了HierarchicalSoftmax,negativesampling加速。然后在網(wǎng)上找到了一個(gè)套用word2vec實(shí)現(xiàn)的node2vec包,速度快很多。隨機(jī)游走的方式復(fù)雜網(wǎng)絡(luò)處理的任務(wù)其實(shí)離不開兩種特性,前面也提到過:一種是同質(zhì)性,就是之前所說的社區(qū)。一種就是結(jié)構(gòu)相似性,值得注意的是,結(jié)構(gòu)相似的兩個(gè)點(diǎn)未必相連,可以是相距很遠(yuǎn)的兩個(gè)節(jié)點(diǎn)。能不能改進(jìn)DeepWalk中隨機(jī)游走的方式,使它綜合DFS和BFS的特性呢?所以本文引入了兩個(gè)參數(shù)用來控制隨機(jī)游走產(chǎn)生的方式。Z是分子的歸一化常數(shù)如果已經(jīng)采樣了(t,v),也就是說現(xiàn)在停留在節(jié)點(diǎn)v上,那么下一個(gè)要采樣的節(jié)點(diǎn)x是哪個(gè)?作者定義了一個(gè)概率分布,也就是一個(gè)節(jié)點(diǎn)到它的不同鄰居的轉(zhuǎn)移概率:直觀的解釋一下這個(gè)分布:如果t與x相等,那么采樣x的概率為;txx1;txxp、q的意義分別如下:返回概率p:DataFunTalk成就百萬數(shù)據(jù)科學(xué)家!如果pmaq,)t。如果p<q,),那么采樣會(huì)更傾向于返回上一個(gè)節(jié)點(diǎn),這樣就會(huì)一直在起始點(diǎn)周圍某些節(jié)點(diǎn)來回轉(zhuǎn)來轉(zhuǎn)去。出入?yún)?shù)q:如果q>1,那么游走會(huì)傾向于在起始點(diǎn)周圍的節(jié)點(diǎn)之間跑,可以反映出一BFS特性。如果q1DS特性。p,q1DeWak簡而言之:參數(shù)p控制重復(fù)訪問剛剛訪問過的頂點(diǎn)的概率,q控制著游走是向外還是向內(nèi),若q>1,隨機(jī)游走傾向于訪問和t接近的頂點(diǎn)(BFS)q<1t的頂點(diǎn)(DFS)。缺點(diǎn)慢embedding再聚類,感覺這兩個(gè)過程很割裂??!融合一下comEGraphembedding得到向量后,可以做很多事情,在我們這個(gè)主題可以簡單的通過聚類來講節(jié)點(diǎn)分組。但是這個(gè)過程比較割裂,先優(yōu)化node2vec,然后再優(yōu)化聚類。能不能整體上一次性優(yōu)化完呢。comE這個(gè)算法優(yōu)化目標(biāo)中加入了社區(qū)的檢測和嵌入。通過一個(gè)混合高斯模型將節(jié)點(diǎn)劃分開。優(yōu)化目標(biāo)中前面兩項(xiàng)跟LINE定義的相似度相似:/u012151283/article/details/87013915LearningCommunityEmbeddingwithCommunityDetectionandNodeEmbeddingonGraphs/p/36924789Lea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論