版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
社交網(wǎng)絡(luò)在工業(yè)界的應(yīng)用七月在線王博士2016年9月4日
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)2/39社交網(wǎng)絡(luò)
8月機(jī)器學(xué)習(xí)應(yīng)用3/39社交網(wǎng)絡(luò)算法應(yīng)用場景在社交網(wǎng)絡(luò)中社區(qū)圈子的識別(CommunityDetection)Facebook/微信是基于朋友之間的強(qiáng)關(guān)系網(wǎng)絡(luò),有助于朋友之間的聯(lián)系與關(guān)系維系Twitter/微博/豆瓣是基于單向關(guān)注的弱關(guān)系社交網(wǎng)絡(luò),有助于消息的傳播和塑造意見領(lǐng)袖Linkedin是面向工作的職業(yè)社交網(wǎng)絡(luò),幫助商務(wù)交流與求職招聘?;诤糜殃P(guān)系為用戶推薦商品或內(nèi)容社交網(wǎng)絡(luò)中人物影響力的計(jì)算信息在社交網(wǎng)絡(luò)上的傳播模型虛假信息和機(jī)器人賬號的識別基于社交網(wǎng)絡(luò)信息對股市、大選的預(yù)測互聯(lián)網(wǎng)金融行業(yè)中的反欺詐預(yù)測
8月機(jī)器學(xué)習(xí)應(yīng)用4/39社交網(wǎng)絡(luò)算法-分析指標(biāo)一個(gè)具體的網(wǎng)絡(luò)可抽象為一個(gè)由節(jié)點(diǎn)(vertex或node)集合V和邊(edge)集合E組成的圖G=(V,E),節(jié)點(diǎn)數(shù)記為n=|V|,邊數(shù)記為m=|E|。衡量指標(biāo):度(degree)密度(density)團(tuán)(clique)度中心性(degree
centrality)緊密中心性(closeness
centrality)介數(shù)中心性(betweenness
centrality)聚集系數(shù)(clustering
coefficient)
8月機(jī)器學(xué)習(xí)應(yīng)用5/39PageRank算法思想:被大量高質(zhì)量網(wǎng)頁引用(鏈接)的網(wǎng)頁也是高質(zhì)量網(wǎng)頁。例如網(wǎng)頁Y被X1,X2,X3,X4四個(gè)網(wǎng)頁所鏈接,且這四個(gè)網(wǎng)頁的權(quán)重分別為0.001,0.01,0.02,0.04,則網(wǎng)頁Y的Rank值=0.01+0.02+0.03+0.04=0.071。
8月機(jī)器學(xué)習(xí)應(yīng)用6/39社區(qū)發(fā)現(xiàn)算法什么是社區(qū)(communitystructure)?同一社區(qū)內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接很緊密,而社區(qū)與社區(qū)之間的連接比較稀疏。
8月機(jī)器學(xué)習(xí)應(yīng)用7/39GN算法邊介數(shù)(Betweenness):網(wǎng)絡(luò)中經(jīng)過每條邊的最短路徑的數(shù)目。GN算法:計(jì)算網(wǎng)絡(luò)中所有邊的介數(shù)找到介數(shù)最高的邊并將它從網(wǎng)絡(luò)中移除重復(fù),直到每個(gè)節(jié)點(diǎn)就是一個(gè)社團(tuán)為止
8月機(jī)器學(xué)習(xí)應(yīng)用8/39社區(qū)評價(jià)指標(biāo)-模塊度Modularity
8月機(jī)器學(xué)習(xí)應(yīng)用9/39社區(qū)評價(jià)指標(biāo)-模塊度Modularity
8月機(jī)器學(xué)習(xí)應(yīng)用10/39社區(qū)評價(jià)指標(biāo)-Conductance
8月機(jī)器學(xué)習(xí)應(yīng)用11/39Louvain算法Louvainmethod(FastUnfolding):Findingcommunitiesinlargenetworks.[VincentBlondelet.al,2008,Nature]
8月機(jī)器學(xué)習(xí)應(yīng)用12/39LPA算法優(yōu)點(diǎn):不需要預(yù)先知識,不用預(yù)先給定社區(qū)的數(shù)量,可以控制迭代的次數(shù)來劃分節(jié)點(diǎn)類別??蓴U(kuò)展性強(qiáng),時(shí)間復(fù)雜度近線性,適合處理大規(guī)模復(fù)雜網(wǎng)絡(luò)。
8月機(jī)器學(xué)習(xí)應(yīng)用13/39LPA算法算法思想:初始化每個(gè)節(jié)點(diǎn),給其唯一標(biāo)簽根據(jù)鄰居節(jié)點(diǎn)最常見的標(biāo)簽更新每個(gè)節(jié)點(diǎn)的標(biāo)簽最終收斂后標(biāo)簽一致的節(jié)點(diǎn)屬于一個(gè)社區(qū)
8月機(jī)器學(xué)習(xí)應(yīng)用14/39Code
8月機(jī)器學(xué)習(xí)應(yīng)用15/39Runscala>importorg.apache.spark._scala>importorg.apache.spark.rdd.RDDscala>importorg.apache.spark.graphx._scala>valgraph=GraphLoader.edgeListFile(sc,"followers.txt")scala>valcd=lib.LabelPropagation.run(graph,20)scala>cd.vertices.collect()res:Array[(org.apache.spark.graphx.VertexId,org.apache.spark.graphx.VertexId)]=Array((4,4),(6,5),(2,2),(1,1),(3,2),(5,5))
測試數(shù)據(jù)followers.txt:2,13,15,46,41,4
社區(qū)劃分結(jié)果:2,3屬于一個(gè)社區(qū)“1”5,6屬于一個(gè)社區(qū)“4”1屬于一個(gè)社區(qū)“2”4屬于一個(gè)社區(qū)“5”
8月機(jī)器學(xué)習(xí)應(yīng)用16/39SLPA算法算法思想:給每個(gè)節(jié)點(diǎn)設(shè)置一個(gè)列表來存儲歷史標(biāo)簽每個(gè)Speaker節(jié)點(diǎn)帶概率選擇自己標(biāo)簽列表中的標(biāo)簽傳播給Listener節(jié)點(diǎn)(Speaker節(jié)點(diǎn)為Listener節(jié)點(diǎn)的鄰居節(jié)點(diǎn))節(jié)點(diǎn)將最熱門的標(biāo)簽更新到標(biāo)簽列表中使用閾值r去刪除低頻標(biāo)簽,產(chǎn)出標(biāo)簽一致的節(jié)點(diǎn)為社區(qū)
KarateClubNetwork
8月機(jī)器學(xué)習(xí)應(yīng)用17/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)18/39互聯(lián)網(wǎng)和金融的結(jié)晶金融的本質(zhì):資源的最合理化應(yīng)用互聯(lián)網(wǎng)技術(shù):交易的邊界成本趨向“零”互聯(lián)網(wǎng)金融:用大數(shù)據(jù)、云計(jì)算等技術(shù)實(shí)現(xiàn)的資金融通、支付、投資和信息中介服務(wù)
8月機(jī)器學(xué)習(xí)應(yīng)用Volume每天生成
T級數(shù)據(jù)量速Velocity最高每分鐘
50+申請Variety
網(wǎng)絡(luò),設(shè)備,行為,
渠道,PII,社交,
三方,等類別類質(zhì)Veracity完整度和質(zhì)量
經(jīng)常殘差不齊19/39個(gè)人對個(gè)人的信用貸款
8月機(jī)器學(xué)習(xí)應(yīng)用P2P借款與理財(cái)咨詢服務(wù)平臺借款人群出借人群債權(quán)資金場景開發(fā)渠道有效率訪問注冊轉(zhuǎn)化率貸款申請轉(zhuǎn)化率貸款流程用戶體驗(yàn)反欺詐流程信用審批流程借款用戶培育(nurturing)場景開發(fā)渠道有效率訪問注冊轉(zhuǎn)化率出借成功率出借流程用戶體驗(yàn)提款流程用戶體驗(yàn)全周期用戶價(jià)值
老用戶運(yùn)營(AUM)分析20/39極速信任-自動化信用評估
8月機(jī)器學(xué)習(xí)應(yīng)用客戶獲取信用評估交易促成客戶服務(wù)全流程線上借款與理財(cái)咨詢服務(wù)欺詐風(fēng)險(xiǎn)
是互聯(lián)網(wǎng)金融
線上信貸工廠模式
最大的挑戰(zhàn)場景不同人群不同數(shù)據(jù)獲取方式不同數(shù)據(jù)維度不同數(shù)據(jù)深度不同信用評估機(jī)制不同線下線上21/39互聯(lián)網(wǎng)金融行業(yè)中的欺詐金融欺詐有兩種:偽冒申請
和
欺詐交易偽冒申請:
變造申請材料,以獲得更高額度欺詐交易:申請時(shí)無還款意愿有的中介會在包辦貸款時(shí)雙向欺詐:偽造虛假文件欺詐借款公司騙取貸款人身份信息多方借貸
8月機(jī)器學(xué)習(xí)應(yīng)用人群團(tuán)體化地區(qū)集中化方式多樣化工具智能化22/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)23/39反欺詐中可應(yīng)用到多種社交網(wǎng)絡(luò)算法社交網(wǎng)絡(luò)算法:分析指標(biāo):degree、closeness
centrality、betweenness
centrality、cluster
coefficient、triangle
count、connectedcomponents算法:PageRank社區(qū)發(fā)現(xiàn):GN、FastUnfolding、LPA、SLPA、WalkTrap在工業(yè)界的其他應(yīng)用包括:精準(zhǔn)營銷、改善搜索/幫助推薦、網(wǎng)絡(luò)系統(tǒng)安全
8月機(jī)器學(xué)習(xí)應(yīng)用24/39社交網(wǎng)絡(luò)算法在金融反欺詐中的優(yōu)勢
8月機(jī)器學(xué)習(xí)應(yīng)用點(diǎn)傳統(tǒng)反欺詐:-客戶是否觸黑-客戶的消費(fèi)記錄是否異常面應(yīng)用社交網(wǎng)絡(luò)反欺詐:-客戶一度、二度關(guān)系是否觸黑-客戶消費(fèi)關(guān)聯(lián)商家是否異常-一機(jī)多人-識別組團(tuán)欺詐25/39構(gòu)建金融知識圖譜FinGraph
8月機(jī)器學(xué)習(xí)應(yīng)用應(yīng)用場景層面智能搜索、反欺詐、貸后管理、營銷分析、運(yùn)營支撐等數(shù)據(jù)整合層面信用數(shù)據(jù)、金融消費(fèi)數(shù)據(jù)、行為數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)安全、第三方數(shù)據(jù)等圖數(shù)據(jù)庫neo4j系統(tǒng)支持層面特征工程、模型開發(fā)、異常監(jiān)控、推薦系統(tǒng)等Spark+GraphX+Mllib+Streaming+TensorFlowFinGraph平臺系統(tǒng)包含電話、身份證、銀行卡、信用卡、IP、設(shè)備號、地理位置等10種實(shí)體約1億節(jié)點(diǎn)約10億邊關(guān)系預(yù)計(jì)到2017年增長20倍26/39反欺詐案例:人以群分(1)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:與壞用戶有大量關(guān)聯(lián)的借款用戶的壞賬率是未關(guān)聯(lián)用戶的2.9倍
8月機(jī)器學(xué)習(xí)應(yīng)用2.9倍27/39反欺詐案例:人以群分(2)從整體借款群體的角度,用PageRank算法探索哪些用戶與大量借款用戶有關(guān)聯(lián)關(guān)系
8月機(jī)器學(xué)習(xí)應(yīng)用28/39反欺詐案例:人以群分(2)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:PageRank高分段用戶的壞賬率是低分段用戶的3.3倍
8月機(jī)器學(xué)習(xí)應(yīng)用3.3倍29/39反欺詐案例:識別組團(tuán)欺詐風(fēng)險(xiǎn)通過社區(qū)發(fā)現(xiàn)算法來實(shí)時(shí)評估每個(gè)用戶的組團(tuán)欺詐風(fēng)險(xiǎn)
8月機(jī)器學(xué)習(xí)應(yīng)用30/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋通過社區(qū)發(fā)現(xiàn)算法挖掘失聯(lián)用戶的通信社交網(wǎng)絡(luò)
8月機(jī)器學(xué)習(xí)應(yīng)用31/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋在社區(qū)內(nèi)使用最短路徑算法來發(fā)現(xiàn)失聯(lián)用戶與一個(gè)正常還款用戶的關(guān)系鏈
8月機(jī)器學(xué)習(xí)應(yīng)用32/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)33/39社交網(wǎng)絡(luò)分布在多個(gè)離線建模環(huán)節(jié)中
8月機(jī)器學(xué)習(xí)應(yīng)用34/39FinGraph是線上風(fēng)控系統(tǒng)中的關(guān)鍵一環(huán)
8月機(jī)器學(xué)習(xí)應(yīng)用35/39總結(jié):社交網(wǎng)絡(luò)算法把反欺詐工作從局部考量提升到全局考量
8月機(jī)器學(xué)習(xí)應(yīng)用36/39工具推薦
NetworkxiGraphGephiGraphX(Spark)neo4j和py2neo
8月機(jī)器學(xué)習(xí)應(yīng)用37/39作業(yè)
LPA算法劃分followers.txt的社區(qū)(參考上課內(nèi)容)Walktrap算法實(shí)現(xiàn)原理筆記在構(gòu)成圓形的30000個(gè)隨機(jī)樣本點(diǎn)上,設(shè)置7個(gè)簇,分別使用K-Means算法和K-Means++算法的聚類對比解答答案:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校裝修工程勞務(wù)合同范本
- 食品加工原料配送合同模板
- 高等教育機(jī)構(gòu)裝修合同
- 寵物店內(nèi)部裝修施工合同
- 煙草行業(yè)倉儲運(yùn)輸合同樣本
- 鋼鐵材料運(yùn)輸協(xié)議模板
- 服裝店裝修驗(yàn)收細(xì)則及合同
- 礦山夜間運(yùn)輸服務(wù)條款
- 機(jī)械制造廠翻新合同樣板
- 馬鈴薯食品加工原料配送
- 中醫(yī)診所備案設(shè)備清單
- 英文病例匯報(bào)實(shí)用句型
- 衛(wèi)生間地面及墻面貼磚技術(shù)交底
- 模具設(shè)計(jì)評審表樣表
- dl819-2019火力發(fā)電廠焊接熱處理技術(shù)規(guī)程
- ASTM B117中文文庫
- 數(shù)學(xué)知識在物理課堂教學(xué)中的應(yīng)用
- 大蒜剝皮機(jī)的設(shè)計(jì)說明書
- 基于無人機(jī)的通信網(wǎng)絡(luò)關(guān)鍵問題與優(yōu)化研究通信工程專業(yè)
- 客土噴播承包規(guī)定合同
- (精選)街道武裝部長述職報(bào)告
評論
0/150
提交評論