2024金融風(fēng)控反欺詐圖行算法

上傳人：1*** IP屬地：山西上傳時(shí)間：2024-04-22 格式：DOCX 頁數(shù)：15 大?。?16.46KB 積分：10.8 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

金融風(fēng)控反欺詐圖算法先介紹下金融借貸業(yè)務(wù)流程：用戶前來申請(qǐng)借貸，會(huì)先經(jīng)過欺詐識(shí)別，把欺詐團(tuán)伙和主觀欺詐的個(gè)人拒絕掉，然后對(duì)通過的人做信用評(píng)估，最后根據(jù)額度模型，算出利潤最大化時(shí)放款金額。剛才提到了團(tuán)隊(duì)欺詐，舉個(gè)真實(shí)的例子。宜人貸在他們的財(cái)報(bào)中公布的，他們被20004w8000w那么如何防范這種風(fēng)險(xiǎn)呢。這就是今天要分享的圖算法。圖可以將這些一個(gè)個(gè)有良好記錄的個(gè)體關(guān)聯(lián)起來,一網(wǎng)打盡。再舉一些團(tuán)伙欺詐的行為。比如一個(gè)團(tuán)伙，注冊真實(shí)的淘寶商家，然后刷出良好的淘寶購物記錄。或者來回轉(zhuǎn)賬，刷出良好的銀行流水。剛才前兩位老師都沒有提到額度模型，簡單介紹下，如果只給用戶放款5000，可能壞賬風(fēng)險(xiǎn)很小，但是利息也少，如果放款10000，利息雖然收到利息多了，但是壞賬風(fēng)險(xiǎn)高嶺，所以需要做個(gè)權(quán)衡Graph簡介G=(V,E)G=(V,E)V:vertexsetE:edgeset有向，無向，有權(quán)重和沒有權(quán)重)舉例，兩個(gè)人之間的聯(lián)系，A給B買了東西，A和B之間的通話次數(shù)時(shí)長多于A和C之間。度中心性（DegreeCentrality）-表示連接到某節(jié)點(diǎn)的邊數(shù)。在有向圖中，2接近中心性（ClosenessCentrality）-從某節(jié)點(diǎn)到所有其他節(jié)點(diǎn)的最短路徑的平均長度。反映在網(wǎng)絡(luò)中某一節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的接近程度。介中心性（BetweennessCentrality）-某節(jié)點(diǎn)在多少對(duì)節(jié)點(diǎn)的最短路徑上。社團(tuán)發(fā)現(xiàn)算法一般有：最小割，正則化割:通過計(jì)算圖的最小割，即將網(wǎng)絡(luò)劃分為預(yù)定的分組數(shù)，并使連接各分組的邊的條數(shù)最少。非負(fù)矩陣分解:基本原理是將原始矩陣分解得到社區(qū)指示矩陣和基矩陣基于模塊度的社區(qū)劃分基于節(jié)點(diǎn)相似性的社區(qū)劃分最小割算法廣泛應(yīng)用在分布式計(jì)算的負(fù)載均衡中，對(duì)集群節(jié)點(diǎn)的分組有利于減少不相關(guān)節(jié)點(diǎn)之間的通信。然而由于該算法限定了網(wǎng)絡(luò)最終分組的個(gè)數(shù)，而不能通過算法“發(fā)現(xiàn)”節(jié)點(diǎn)間的內(nèi)在聯(lián)系并自然地構(gòu)成若干個(gè)社區(qū)，因此最小割算法應(yīng)用較為局限。本文主要分享這兩類的主要算法，基于模塊度的louvain和基于信息熵infomap，基于相似度的node2vec模塊度(Modularity)公式及簡化優(yōu)化目標(biāo)：一般認(rèn)為社團(tuán)內(nèi)部的點(diǎn)之間的連接相對(duì)稠密，而不同社團(tuán)的點(diǎn)之間的連接相對(duì)稀疏。所以模塊度也可以理解是社區(qū)內(nèi)部邊的權(quán)重減去所有與社區(qū)節(jié)點(diǎn)相連的邊的權(quán)重和，對(duì)無向圖更好理解，即社區(qū)內(nèi)部邊的度數(shù)（內(nèi)部的連線數(shù)）減去社區(qū)內(nèi)節(jié)點(diǎn)的總度數(shù)。模塊度公式的解釋節(jié)點(diǎn)i和節(jié)點(diǎn)j之間邊的權(quán)重，網(wǎng)絡(luò)不是帶權(quán)圖時(shí)，所有邊的權(quán)重可以看做是1；表示所有與節(jié)點(diǎn)i相連的邊的權(quán)重之和（度數(shù)）；表示節(jié)點(diǎn)i所屬的社區(qū)；表示所有邊的權(quán)重之和（邊的數(shù)目）。其中表示社區(qū)c內(nèi)的邊的權(quán)重之和，表示與社區(qū)c內(nèi)的節(jié)點(diǎn)相的邊的權(quán)重之和，即社區(qū)c節(jié)點(diǎn)的度之和（包含與其他社區(qū)相連邊的度）。從概率的角度去看：表示實(shí)際情況下，c社區(qū)內(nèi)產(chǎn)生邊的概率。表示在一種理想情況下，給定任意節(jié)點(diǎn)i的的度ki，對(duì)節(jié)點(diǎn)i和節(jié)點(diǎn)j進(jìn)行隨機(jī)連邊，邊屬于社區(qū)c的概率期望。于是上式就表示了社區(qū)內(nèi)連邊數(shù)與隨機(jī)期望的一個(gè)差值。連邊數(shù)比隨機(jī)期望值越高，表明社區(qū)劃分的越好。一般使用后面簡化的公式，簡化后的公式刪除了判斷兩個(gè)節(jié)點(diǎn)是否劃為同一個(gè)社區(qū)的函數(shù)，所以在一定程度上大大減少了Q值計(jì)算量。LouvainLouvain算法的思想很簡單：將圖中的每個(gè)節(jié)點(diǎn)看成一個(gè)獨(dú)立的社區(qū)，此時(shí)社區(qū)的數(shù)目與節(jié)點(diǎn)個(gè)數(shù)相同；i配前與分配后的模塊度變化，并記錄最大的那個(gè)鄰居節(jié)點(diǎn)，如果，則把節(jié)點(diǎn)i分配最大的那個(gè)鄰居節(jié)點(diǎn)所在的社區(qū)，否則保持不變；2，直到所有節(jié)點(diǎn)的所屬社區(qū)不再變化；對(duì)圖進(jìn)行壓縮，將所有在同一個(gè)社區(qū)的節(jié)點(diǎn)壓縮成一個(gè)新節(jié)點(diǎn)，社區(qū)內(nèi)節(jié)點(diǎn)之間的邊的權(quán)重轉(zhuǎn)化為新節(jié)點(diǎn)的環(huán)的權(quán)重，社區(qū)間的邊權(quán)重轉(zhuǎn)化為新節(jié)2，3；2~4，直到整個(gè)圖的模塊度不再發(fā)生變化。第一階段稱為ModularityOptimization，主要是將每個(gè)節(jié)點(diǎn)劃分到與其鄰接的節(jié)點(diǎn)所在的社區(qū)中，以使得模塊度的值不斷變大；第二階段稱為CommunityAggregation，主要是將第一步劃分出來的社區(qū)聚合成為一個(gè)點(diǎn)，即根據(jù)上一步生成的社區(qū)結(jié)構(gòu)重新構(gòu)造網(wǎng)絡(luò)。重復(fù)以上的過程，直到網(wǎng)絡(luò)中的結(jié)構(gòu)不再改變?yōu)橹?。移?dòng)是社區(qū)c內(nèi)節(jié)點(diǎn)與節(jié)點(diǎn)i的邊權(quán)重之和，再乘以2前面部分表示把節(jié)點(diǎn)i加入到社區(qū)c后的模塊度，后一部分是節(jié)點(diǎn)i作為一個(gè)獨(dú)立社區(qū)和社區(qū)c的模塊度Louvain社區(qū)發(fā)現(xiàn)算法\h/fengfenggirl/p/louvain.html\hSparkGraphX分布式圖計(jì)算實(shí)戰(zhàn)infomap從信息論的角度出發(fā)，假設(shè)一個(gè)randomworker在圖上進(jìn)行隨機(jī)游走，那么怎么用最少的編碼長度來表示其路徑呢？如果節(jié)點(diǎn)存在社區(qū)結(jié)構(gòu)，那么社區(qū)內(nèi)的節(jié)點(diǎn)就可以共享社區(qū)的bit位碼，可以得到更小的平均比特,所以社區(qū)劃分的越好，那么表示任意一條隨機(jī)游走的路徑所需的平均比特就越小。如果我們能夠計(jì)算出每個(gè)節(jié)點(diǎn)的到達(dá)概率，就可以依據(jù)信息熵的公式來量化平均比特了：怎么計(jì)算每個(gè)點(diǎn)的到達(dá)概率呢？一個(gè)暴力的辦法是在圖上進(jìn)行長時(shí)間的隨機(jī)游走，最后統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)的出現(xiàn)概率。太暴力了。利用pagerank思路，初始化了每個(gè)節(jié)點(diǎn)的到達(dá)概率之后，就可以不斷地迭代更新每個(gè)節(jié)點(diǎn)的到達(dá)概率，這個(gè)結(jié)果會(huì)很快趨于收斂。其實(shí)這過程就是一個(gè)馬爾科夫隨機(jī)過程，隨機(jī)初始化起始值，然后隨機(jī)游走就相當(dāng)于不停地用概率轉(zhuǎn)移矩陣相乘，最后就可以達(dá)到馬爾科夫穩(wěn)態(tài)。把隨機(jī)游走事件歸為三類：進(jìn)入某個(gè)社團(tuán)，離開某個(gè)社團(tuán)，再社團(tuán)內(nèi)部游走。定義清楚各類事件的發(fā)生概率，依據(jù)信息熵公式，就可以得到此時(shí)編碼所需的平均比特了,其本質(zhì)就是從信息論的角度出發(fā)。Infomap算法的迭代過程初始化，對(duì)每個(gè)節(jié)點(diǎn)都視作獨(dú)立的社區(qū)；while平均比特的值不再下降；參考鏈接Themapequation\h/apps/MapDemo.html\h/s/qUxMesQA-edSyHeudQRRGADEEPGRAPHINFOMAX閱讀筆記/p/58682802GraphembeddingsDeepwalk使用隨機(jī)游走(RandomWalk)的方式在圖中進(jìn)行節(jié)點(diǎn)采樣獲得節(jié)點(diǎn)共關(guān)系，skip-gram1中生成的節(jié)點(diǎn)序列學(xué)習(xí)每個(gè)節(jié)點(diǎn)的向量表示。skip-gram就是根據(jù)給定輸入的節(jié)點(diǎn)，預(yù)測上下文節(jié)點(diǎn)。Deepwalk有多不足，比如泛化能力，有新節(jié)點(diǎn)加入時(shí)，它必須重新訓(xùn)練模型以表示該節(jié)點(diǎn)。其中一個(gè)就是采樣，從其鄰居中隨機(jī)采樣節(jié)點(diǎn)作為下一個(gè)訪問節(jié)點(diǎn)，是一種可重復(fù)訪問已訪問節(jié)點(diǎn)的深度優(yōu)先遍歷算法。node2vec是一種綜合考慮DFS鄰域和BFS鄰域的graphembedding方法node2vec優(yōu)化目標(biāo)：條件獨(dú)立假設(shè)：特征空間的對(duì)稱性：優(yōu)化目標(biāo)：計(jì)算量非常大，所以論文采用負(fù)采樣(negativesample)進(jìn)行近似計(jì)算。這個(gè)node2vec優(yōu)化目標(biāo)函數(shù)，因?yàn)樗竺ΧΦ膚ord2vec是一樣。我們最初是用一個(gè)Python寫的包，跑一遍算法需要一周。后來想，既然優(yōu)化目標(biāo)是一樣的，那能不能用word2vec包，因?yàn)閣ord2vec用c寫的，而且還采用了HierarchicalSoftmax，negativesampling加速。然后在網(wǎng)上找到了一個(gè)套用word2vec實(shí)現(xiàn)的node2vec包，速度快很多。隨機(jī)游走的方式復(fù)雜網(wǎng)絡(luò)處理的任務(wù)其實(shí)離不開兩種特性，前面也提到過：一種是同質(zhì)性，就是之前所說的社區(qū)。一種就是結(jié)構(gòu)相似性，值得注意的是，結(jié)構(gòu)相似的兩個(gè)點(diǎn)未必相連，可以是相距很遠(yuǎn)的兩個(gè)節(jié)點(diǎn)。能不能改進(jìn)DeepWalk中隨機(jī)游走的方式，使它綜合DFS和BFS的特性呢？所以本文引入了兩個(gè)參數(shù)用來控制隨機(jī)游走產(chǎn)生的方式。Z是分子的歸一化常數(shù)如果已經(jīng)采樣了(t,v)，也就是說現(xiàn)在停留在節(jié)點(diǎn)v上，那么下一個(gè)要采樣的節(jié)點(diǎn)x是哪個(gè)？作者定義了一個(gè)概率分布，也就是一個(gè)節(jié)點(diǎn)到它的不同鄰居的轉(zhuǎn)移概率：直觀的解釋一下這個(gè)分布：如果t與x相等，那么采樣x的概率為；txx1；txxp、q的意義分別如下：返回概率p：DataFunTalk成就百萬數(shù)據(jù)科學(xué)家！如果pmaq,)t。如果p<q,)，那么采樣會(huì)更傾向于返回上一個(gè)節(jié)點(diǎn)，這樣就會(huì)一直在起始點(diǎn)周圍某些節(jié)點(diǎn)來回轉(zhuǎn)來轉(zhuǎn)去。出入?yún)?shù)q：如果q>1，那么游走會(huì)傾向于在起始點(diǎn)周圍的節(jié)點(diǎn)之間跑，可以反映出一BFS特性。如果q1DS特性。p，q1DeWak簡而言之：參數(shù)p控制重復(fù)訪問剛剛訪問過的頂點(diǎn)的概率，q控制著游走是向外還是向內(nèi)，若q>1，隨機(jī)游走傾向于訪問和t接近的頂點(diǎn)(BFS)q<1t的頂點(diǎn)(DFS)。缺點(diǎn)慢embedding再聚類，感覺這兩個(gè)過程很割裂??！融合一下comEGraphembedding得到向量后，可以做很多事情，在我們這個(gè)主題可以簡單的通過聚類來講節(jié)點(diǎn)分組。但是這個(gè)過程比較割裂，先優(yōu)化node2vec，然后再優(yōu)化聚類。能不能整體上一次性優(yōu)化完呢。comE這個(gè)算法優(yōu)化目標(biāo)中加入了社區(qū)的檢測和嵌入。通過一個(gè)混合高斯模型將節(jié)點(diǎn)劃分開。優(yōu)化目標(biāo)中前面兩項(xiàng)跟LINE定義的相似度相似：/u012151283/article/details/87013915LearningCommunityEmbeddingwithCommunityDetectionandNodeEmbeddingonGraphs/p/36924789Lea

人人文庫> 全部分類> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024金融風(fēng)控反欺詐圖行算法

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024金融風(fēng)控反欺詐圖行算法

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔