月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第1頁
月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第2頁
月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第3頁
月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第4頁
月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

社交網(wǎng)絡(luò)在工業(yè)界的應(yīng)用七月在線王博士2016年9月4日

8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)2/39社交網(wǎng)絡(luò)

8月機(jī)器學(xué)習(xí)應(yīng)用3/39社交網(wǎng)絡(luò)算法應(yīng)用場景在社交網(wǎng)絡(luò)中社區(qū)圈子的識別(CommunityDetection)Facebook/微信是基于朋友之間的強(qiáng)關(guān)系網(wǎng)絡(luò),有助于朋友之間的聯(lián)系與關(guān)系維系Twitter/微博/豆瓣是基于單向關(guān)注的弱關(guān)系社交網(wǎng)絡(luò),有助于消息的傳播和塑造意見領(lǐng)袖Linkedin是面向工作的職業(yè)社交網(wǎng)絡(luò),幫助商務(wù)交流與求職招聘?;诤糜殃P(guān)系為用戶推薦商品或內(nèi)容社交網(wǎng)絡(luò)中人物影響力的計(jì)算信息在社交網(wǎng)絡(luò)上的傳播模型虛假信息和機(jī)器人賬號的識別基于社交網(wǎng)絡(luò)信息對股市、大選的預(yù)測互聯(lián)網(wǎng)金融行業(yè)中的反欺詐預(yù)測

8月機(jī)器學(xué)習(xí)應(yīng)用4/39社交網(wǎng)絡(luò)算法-分析指標(biāo)一個(gè)具體的網(wǎng)絡(luò)可抽象為一個(gè)由節(jié)點(diǎn)(vertex或node)集合V和邊(edge)集合E組成的圖G=(V,E),節(jié)點(diǎn)數(shù)記為n=|V|,邊數(shù)記為m=|E|。衡量指標(biāo):度(degree)密度(density)團(tuán)(clique)度中心性(degree

centrality)緊密中心性(closeness

centrality)介數(shù)中心性(betweenness

centrality)聚集系數(shù)(clustering

coefficient)

8月機(jī)器學(xué)習(xí)應(yīng)用5/39PageRank算法思想:被大量高質(zhì)量網(wǎng)頁引用(鏈接)的網(wǎng)頁也是高質(zhì)量網(wǎng)頁。例如網(wǎng)頁Y被X1,X2,X3,X4四個(gè)網(wǎng)頁所鏈接,且這四個(gè)網(wǎng)頁的權(quán)重分別為0.001,0.01,0.02,0.04,則網(wǎng)頁Y的Rank值=0.01+0.02+0.03+0.04=0.071。

8月機(jī)器學(xué)習(xí)應(yīng)用6/39社區(qū)發(fā)現(xiàn)算法什么是社區(qū)(communitystructure)?同一社區(qū)內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接很緊密,而社區(qū)與社區(qū)之間的連接比較稀疏。

8月機(jī)器學(xué)習(xí)應(yīng)用7/39GN算法邊介數(shù)(Betweenness):網(wǎng)絡(luò)中經(jīng)過每條邊的最短路徑的數(shù)目。GN算法:計(jì)算網(wǎng)絡(luò)中所有邊的介數(shù)找到介數(shù)最高的邊并將它從網(wǎng)絡(luò)中移除重復(fù),直到每個(gè)節(jié)點(diǎn)就是一個(gè)社團(tuán)為止

8月機(jī)器學(xué)習(xí)應(yīng)用8/39社區(qū)評價(jià)指標(biāo)-模塊度Modularity

8月機(jī)器學(xué)習(xí)應(yīng)用9/39社區(qū)評價(jià)指標(biāo)-模塊度Modularity

8月機(jī)器學(xué)習(xí)應(yīng)用10/39社區(qū)評價(jià)指標(biāo)-Conductance

8月機(jī)器學(xué)習(xí)應(yīng)用11/39Louvain算法Louvainmethod(FastUnfolding):Findingcommunitiesinlargenetworks.[VincentBlondelet.al,2008,Nature]

8月機(jī)器學(xué)習(xí)應(yīng)用12/39LPA算法優(yōu)點(diǎn):不需要預(yù)先知識,不用預(yù)先給定社區(qū)的數(shù)量,可以控制迭代的次數(shù)來劃分節(jié)點(diǎn)類別??蓴U(kuò)展性強(qiáng),時(shí)間復(fù)雜度近線性,適合處理大規(guī)模復(fù)雜網(wǎng)絡(luò)。

8月機(jī)器學(xué)習(xí)應(yīng)用13/39LPA算法算法思想:初始化每個(gè)節(jié)點(diǎn),給其唯一標(biāo)簽根據(jù)鄰居節(jié)點(diǎn)最常見的標(biāo)簽更新每個(gè)節(jié)點(diǎn)的標(biāo)簽最終收斂后標(biāo)簽一致的節(jié)點(diǎn)屬于一個(gè)社區(qū)

8月機(jī)器學(xué)習(xí)應(yīng)用14/39Code

8月機(jī)器學(xué)習(xí)應(yīng)用15/39Runscala>importorg.apache.spark._scala>importorg.apache.spark.rdd.RDDscala>importorg.apache.spark.graphx._scala>valgraph=GraphLoader.edgeListFile(sc,"followers.txt")scala>valcd=lib.LabelPropagation.run(graph,20)scala>cd.vertices.collect()res:Array[(org.apache.spark.graphx.VertexId,org.apache.spark.graphx.VertexId)]=Array((4,4),(6,5),(2,2),(1,1),(3,2),(5,5))

測試數(shù)據(jù)followers.txt:2,13,15,46,41,4

社區(qū)劃分結(jié)果:2,3屬于一個(gè)社區(qū)“1”5,6屬于一個(gè)社區(qū)“4”1屬于一個(gè)社區(qū)“2”4屬于一個(gè)社區(qū)“5”

8月機(jī)器學(xué)習(xí)應(yīng)用16/39SLPA算法算法思想:給每個(gè)節(jié)點(diǎn)設(shè)置一個(gè)列表來存儲歷史標(biāo)簽每個(gè)Speaker節(jié)點(diǎn)帶概率選擇自己標(biāo)簽列表中的標(biāo)簽傳播給Listener節(jié)點(diǎn)(Speaker節(jié)點(diǎn)為Listener節(jié)點(diǎn)的鄰居節(jié)點(diǎn))節(jié)點(diǎn)將最熱門的標(biāo)簽更新到標(biāo)簽列表中使用閾值r去刪除低頻標(biāo)簽,產(chǎn)出標(biāo)簽一致的節(jié)點(diǎn)為社區(qū)

KarateClubNetwork

8月機(jī)器學(xué)習(xí)應(yīng)用17/39

8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)18/39互聯(lián)網(wǎng)和金融的結(jié)晶金融的本質(zhì):資源的最合理化應(yīng)用互聯(lián)網(wǎng)技術(shù):交易的邊界成本趨向“零”互聯(lián)網(wǎng)金融:用大數(shù)據(jù)、云計(jì)算等技術(shù)實(shí)現(xiàn)的資金融通、支付、投資和信息中介服務(wù)

8月機(jī)器學(xué)習(xí)應(yīng)用Volume每天生成

T級數(shù)據(jù)量速Velocity最高每分鐘

50+申請Variety

網(wǎng)絡(luò),設(shè)備,行為,

渠道,PII,社交,

三方,等類別類質(zhì)Veracity完整度和質(zhì)量

經(jīng)常殘差不齊19/39個(gè)人對個(gè)人的信用貸款

8月機(jī)器學(xué)習(xí)應(yīng)用P2P借款與理財(cái)咨詢服務(wù)平臺借款人群出借人群債權(quán)資金場景開發(fā)渠道有效率訪問注冊轉(zhuǎn)化率貸款申請轉(zhuǎn)化率貸款流程用戶體驗(yàn)反欺詐流程信用審批流程借款用戶培育(nurturing)場景開發(fā)渠道有效率訪問注冊轉(zhuǎn)化率出借成功率出借流程用戶體驗(yàn)提款流程用戶體驗(yàn)全周期用戶價(jià)值

老用戶運(yùn)營(AUM)分析20/39極速信任-自動化信用評估

8月機(jī)器學(xué)習(xí)應(yīng)用客戶獲取信用評估交易促成客戶服務(wù)全流程線上借款與理財(cái)咨詢服務(wù)欺詐風(fēng)險(xiǎn)

是互聯(lián)網(wǎng)金融

線上信貸工廠模式

最大的挑戰(zhàn)場景不同人群不同數(shù)據(jù)獲取方式不同數(shù)據(jù)維度不同數(shù)據(jù)深度不同信用評估機(jī)制不同線下線上21/39互聯(lián)網(wǎng)金融行業(yè)中的欺詐金融欺詐有兩種:偽冒申請

欺詐交易偽冒申請:

變造申請材料,以獲得更高額度欺詐交易:申請時(shí)無還款意愿有的中介會在包辦貸款時(shí)雙向欺詐:偽造虛假文件欺詐借款公司騙取貸款人身份信息多方借貸

8月機(jī)器學(xué)習(xí)應(yīng)用人群團(tuán)體化地區(qū)集中化方式多樣化工具智能化22/39

8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)23/39反欺詐中可應(yīng)用到多種社交網(wǎng)絡(luò)算法社交網(wǎng)絡(luò)算法:分析指標(biāo):degree、closeness

centrality、betweenness

centrality、cluster

coefficient、triangle

count、connectedcomponents算法:PageRank社區(qū)發(fā)現(xiàn):GN、FastUnfolding、LPA、SLPA、WalkTrap在工業(yè)界的其他應(yīng)用包括:精準(zhǔn)營銷、改善搜索/幫助推薦、網(wǎng)絡(luò)系統(tǒng)安全

8月機(jī)器學(xué)習(xí)應(yīng)用24/39社交網(wǎng)絡(luò)算法在金融反欺詐中的優(yōu)勢

8月機(jī)器學(xué)習(xí)應(yīng)用點(diǎn)傳統(tǒng)反欺詐:-客戶是否觸黑-客戶的消費(fèi)記錄是否異常面應(yīng)用社交網(wǎng)絡(luò)反欺詐:-客戶一度、二度關(guān)系是否觸黑-客戶消費(fèi)關(guān)聯(lián)商家是否異常-一機(jī)多人-識別組團(tuán)欺詐25/39構(gòu)建金融知識圖譜FinGraph

8月機(jī)器學(xué)習(xí)應(yīng)用應(yīng)用場景層面智能搜索、反欺詐、貸后管理、營銷分析、運(yùn)營支撐等數(shù)據(jù)整合層面信用數(shù)據(jù)、金融消費(fèi)數(shù)據(jù)、行為數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)安全、第三方數(shù)據(jù)等圖數(shù)據(jù)庫neo4j系統(tǒng)支持層面特征工程、模型開發(fā)、異常監(jiān)控、推薦系統(tǒng)等Spark+GraphX+Mllib+Streaming+TensorFlowFinGraph平臺系統(tǒng)包含電話、身份證、銀行卡、信用卡、IP、設(shè)備號、地理位置等10種實(shí)體約1億節(jié)點(diǎn)約10億邊關(guān)系預(yù)計(jì)到2017年增長20倍26/39反欺詐案例:人以群分(1)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:與壞用戶有大量關(guān)聯(lián)的借款用戶的壞賬率是未關(guān)聯(lián)用戶的2.9倍

8月機(jī)器學(xué)習(xí)應(yīng)用2.9倍27/39反欺詐案例:人以群分(2)從整體借款群體的角度,用PageRank算法探索哪些用戶與大量借款用戶有關(guān)聯(lián)關(guān)系

8月機(jī)器學(xué)習(xí)應(yīng)用28/39反欺詐案例:人以群分(2)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:PageRank高分段用戶的壞賬率是低分段用戶的3.3倍

8月機(jī)器學(xué)習(xí)應(yīng)用3.3倍29/39反欺詐案例:識別組團(tuán)欺詐風(fēng)險(xiǎn)通過社區(qū)發(fā)現(xiàn)算法來實(shí)時(shí)評估每個(gè)用戶的組團(tuán)欺詐風(fēng)險(xiǎn)

8月機(jī)器學(xué)習(xí)應(yīng)用30/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋通過社區(qū)發(fā)現(xiàn)算法挖掘失聯(lián)用戶的通信社交網(wǎng)絡(luò)

8月機(jī)器學(xué)習(xí)應(yīng)用31/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋在社區(qū)內(nèi)使用最短路徑算法來發(fā)現(xiàn)失聯(lián)用戶與一個(gè)正常還款用戶的關(guān)系鏈

8月機(jī)器學(xué)習(xí)應(yīng)用32/39

8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動化風(fēng)控系統(tǒng)架構(gòu)33/39社交網(wǎng)絡(luò)分布在多個(gè)離線建模環(huán)節(jié)中

8月機(jī)器學(xué)習(xí)應(yīng)用34/39FinGraph是線上風(fēng)控系統(tǒng)中的關(guān)鍵一環(huán)

8月機(jī)器學(xué)習(xí)應(yīng)用35/39總結(jié):社交網(wǎng)絡(luò)算法把反欺詐工作從局部考量提升到全局考量

8月機(jī)器學(xué)習(xí)應(yīng)用36/39工具推薦

NetworkxiGraphGephiGraphX(Spark)neo4j和py2neo

8月機(jī)器學(xué)習(xí)應(yīng)用37/39作業(yè)

LPA算法劃分followers.txt的社區(qū)(參考上課內(nèi)容)Walktrap算法實(shí)現(xiàn)原理筆記在構(gòu)成圓形的30000個(gè)隨機(jī)樣本點(diǎn)上,設(shè)置7個(gè)簇,分別使用K-Means算法和K-Means++算法的聚類對比解答答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論