2024新一代聯邦學習技術及應用實戰(zhàn)_第1頁
2024新一代聯邦學習技術及應用實戰(zhàn)_第2頁
2024新一代聯邦學習技術及應用實戰(zhàn)_第3頁
2024新一代聯邦學習技術及應用實戰(zhàn)_第4頁
2024新一代聯邦學習技術及應用實戰(zhàn)_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

新一代聯邦學習技術及應用實戰(zhàn)導讀:隨著大數據的進一步發(fā)展,重視數據隱私和安全已經成為了世界性的趨勢,同時,大多數行業(yè)數據呈現數據孤島現象,如何在滿足用戶隱私保護、數據安全和政府法規(guī)的前提下,進行跨組織的數據合作是困擾人工智能從業(yè)者的一大難題。而“聯邦學習”將成為解決這一行業(yè)性難題的關鍵技術。今天會和大家分享下微眾銀行主導的新一代聯邦學習技術及應用,而FATE則是聯邦學習落地的一個工業(yè)級開源平臺。今天的介紹會圍繞下面五點展開:聯邦學習背景介紹縱向聯邦學習橫向聯邦學習應用案例FATE:聯邦學習開源平臺▌聯邦學習背景介紹首先和大家分享下聯邦學習的背景。AI落地的理想與現實我們知道AI落地的時候,會遇到很多現實的問題:現實中,我們的數據質量是非常差的,比如聊天數據中有很多噪音;數據標簽,收集是比較困難的,很多場景中的數據是沒有標簽的;數據是分散的,(這也是最重要的一點)每家應用的數據不一樣,比如騰訊用的是社交屬性數據,阿里用的是電商交易數據,微眾用的是信用數據,都是分散來應用的?,F實中,如何進行跨組織間的數據合作,會有很大的挑戰(zhàn)。國內數據監(jiān)管法律體系研究從09年到現在的10年時間內,國家關于數據的法律條例是趨向于嚴格化的,同時趨向于全面化,每個細分領域都紛紛出臺了相應的條例和條款。相對來講,讓之前可行的一些數據合作方案變得不太可行?;诼摪顚W習的技術生態(tài)針對上述問題,微眾銀行提出了基于聯邦學習的技術生態(tài),特點如下:數據隔離:聯邦學習的整套機制在合作過程中,數據不會傳遞到外部。無損:通過聯邦學習分散建模的效果和把數據合在一起建模的效果對比,幾乎是無損的。對等:合作過程中,合作雙方是對等的,不存在一方主導另外一方。共同獲益:無論數據源方,還是數據應用方,都能獲取相應的價值。聯邦學習的分類體系聯邦學習的分類體系,包括:縱向聯邦學習,兩個數據集的用戶(U1,U2,…)重疊部分較大,而用戶特征(X1,X2,…)重疊部分較?。粰M向聯邦學習,兩個數據集的用戶特征(X1,X2,…)重疊部分較大,而用戶(U1,U2,…)重疊部分較小;聯邦遷移學習,通過聯邦學習和遷移學習,解決兩個數據集的用戶(U1,U2,…)與用戶特征重疊(X1,X2,…)部分都比較小的問題。下面,重點分享下縱向聯邦學習和橫向聯邦學習。▌縱向聯邦學習聯合建模需求場景舉個例子:微眾與合作企業(yè)進行聯合建模,比如做信貸逾期模型,微眾有Y數據,包括標簽數據,逾期記錄,用這樣的數據可能會建一個很好的模型,但我們希望用更多的數據,比如合作方的標簽數據和畫像數據來更大的提升風控模型的效果和穩(wěn)定性。傳統(tǒng)模式的問題是:合作企業(yè)缺乏Y無法獨立建立模型,需要微眾把Y數據,帶入到合作方的生產環(huán)境建模,但是由于國家的數據保護條款和各企業(yè)自身對數據的嚴格規(guī)定,得到的X數據不能全量的傳輸到微眾。ID,特征是完全不一樣的,可以通過一方特征來彌補另一方特征的不足。同態(tài)加密技術保護隱私縱向聯邦學習的技術實現,首先應做好兩點,來保護數據隱私:建模樣本ID差集不向對方泄露,在合作之初需要進行用戶匹配,需要找出用戶的交集,但是不能泄露差集,因為這是企業(yè)最核心的資產。任何底層(X,Y)數據不向對方泄露,建模過程中如何保證數據不被泄露。解決方案:通過RSA和Hash的機制,保證雙方最終只用到交集部分,且差集部分不向對方泄露。采用同態(tài)加密技術,這個過程中,各方的原始數據,以及數據加密態(tài)都沒有被傳輸。交互部分,雙方通過損失中間結果,用同態(tài)加密的機制進行交互,模型訓練完之后,會各自得到一個模型,各自的模型會部署在各自的一方,就是如果我只提供了3個特征,那么我只有3個特征的模型,只提供2個特征,就只有2個特征的模型,任何一方的模型都沒法單獨去應用,只有共同應用的時候,才能進行決策?;陔[私保護的樣本id匹配剛才提到基于隱私保護的樣本id匹配,和大家分享下具體的技術方案。比如,A方有[u1,u2,u3,u4]四個用戶,B方有[u1,u2,u3,u5],那么整個過程中,如何保證雙方知道[u1,u2,u3],而A方不知道B方有[u5],B方不知道A有[u4]?這里是通過RSA和Hash的機制做到的,方會作為公鑰的生成方,會把公鑰給到AHash引用一個隨機數,再交互傳給B同時做Hash然后傳給A你可以看到沒有任何一個明文數據傳遞過來,即使采用暴力或者碰撞的方式,依然解析不出原始的id同態(tài)加密分享了匹配過程中隱私保護的問題,接下來分享一個通用的技術,同態(tài)加密。剛才提到建模過程中,引用了同態(tài)加密技術,比如對兩個數字進行加密,加密后兩個數字的密文可以進行數學運算,比如加法,其結果依然是密文,對密文解密后得到的結果和它們明文的加法結果是一樣的。通過這樣的同態(tài)加密技術,我們把它應用到機器學習,包括特征工程中。接下來會重點介紹,聯邦機制下特征工程和機器學習建模的一些細節(jié)。我們知道特征工程是機器學習建模中非常重要的一環(huán),在聯邦機制下,如何完成聯邦特征工程?尤其A方只有X沒有Y,如果想做一個WOE或者IV值的計算是非常困難的。那么如何在聯邦學習的機制下,A方利用B方有Y的數據計算WOE和IV值,且在這個過程中B方沒有泄漏任何數據?首先,B方對y以及1-y進行同態(tài)加密,然后給到A方,A方會對自己的特征進行分箱處理,進而A方在分箱中進行密文求和的操作,再把結果給到B方進行解密,然后算出A方每個特征分箱的WOE值和IV值。在這個過程中,沒有明文數據傳輸,A方不知道B方的y值,同時B方也不知道A方每個特征的值是什么,從而在安全隱私保護的情況下,完成了特征工程的計算。說完特征工程,再講下最核心的機器學習,比如常見的邏輯回歸,這是經典的lossfunction和梯度,剛才說的同態(tài)加密的特性,目前用到的是半同態(tài)的技術。所以,需要對lossfunction和梯度進行多項式展開,來滿足加法操作。這樣就可以把同態(tài)加密的技術應用在lossfunction和梯度中。SecureBoost在很多現實的業(yè)務應用中,樹模型是非常重要的,尤其是XGBoost,對很多應用來說,提升非常明顯,因而被業(yè)界廣泛使用。在聯邦機制下,如何構建這樣的樹?這里我們提出了SecureBoost技術方案,雙方協(xié)同共建一個boosting樹,我們證明了整個過程中是無損的。圖中為一些paper和鏈接,感興趣的小伙伴可以查找下。SecureBoost的核心技術點。上圖為基于SecureBoost構建的樹,A和B代表不同數據的owner,L0,L1,L2,L3,L4代表不同feature的分割點編碼,整顆樹由A和B共同維護,每一方只維護自己的樹節(jié)點,對另外一方的樹節(jié)點信息不可見(只知道編碼,不知道編碼具體含義),保證整個訓練和預測過程都是安全的。構建SecureBoost核心的關注點是如何構建分裂節(jié)點,尤其一方只有X,另一方有(X,Y)的情況?;谕瑧B(tài)加密的機制,B方會把1階梯度和2階梯度傳遞給A方,A方基于分箱之后的結果算出每個分箱中的1階梯度和2階梯度的求和值,然后傳遞給B方,B方會解密這個求和值,算出信息增益,然后給到A方。求分裂節(jié)點的核心就是如何算信息增益,通過這樣的機制,就可以算出每個分裂節(jié)點,同時沒有泄露任何隱私信息。▌橫向聯邦學習舉個例子:微眾和合作行共建反洗錢模型,期望優(yōu)化反洗錢模型。因為,各自利用自家樣本建立的反洗錢模型的效果和穩(wěn)定性都不能滿足現實需求。我們可以利用聯邦學習的機制,充分利用多家的反洗錢樣本,同時在不泄露樣本的條件下,構建一個非常大的模型,可以看到橫向聯邦學習中,微眾銀行和合作行,都是有(X,Y)的。技術層面上,采用了同態(tài)加密、Secret-Sharing技術,整個過程中,雙方交互的是模型和梯度,同時引入了SecureAggregation機制,讓交互過程中的梯度也是很難被反解的。最終,大家都會得到一個相同的模型。橫向聯邦學習,綜合多家樣本,可以讓模型更加穩(wěn)健,效果更好。下面分享下橫向聯邦學習的核心技術點,這是Google的兩篇paper,第一個是每個端自己訓練模型,然后發(fā)給云端進行綜合各個模型的效果,但是這里面會有個問題,就是模型本身也可能會泄露隱私信息,所以引入了SecureAggregation,各方在傳輸模型的時候會加一些噪音,通過云端來消除這些噪音,使數據和模型得到保護。▌應用案例聯邦學習目前已經賦能眾多關鍵領域,取得了不錯的效果:銀行+監(jiān)管,聯合反洗錢建?;ヂ摼W+銀行,聯合信貸風控建?;ヂ摼W+保險,聯合權益定價建?;ヂ摼W+零售,聯合客戶價值建模以其中的兩個場景以及在視覺領域的應用來說明:保險業(yè)個性化定價對于保險公司如果想做個性化的定價,是一件非常困難的事情,保險公司只有一些業(yè)務數據、承保數據和理賠數據,通過這樣的數據,對用戶做千人千面的定價是非常難的。通過聯邦學習機制,可以融合多個數據源,來構建這樣一個千人千面的定價。這是我們目前在做的案例,當你購買權益產品之后,如果違章了,可以幫你免賠,在這里每個人看到的價格是不一樣的,這就是我們通過聯邦學習幫它們做的。我們綜合了出險數據和互聯網數據,如標簽、用戶畫像,構建了一個基于保險定價的聯邦學習產品。小微企業(yè)信貸風險管理很多時候對小微企業(yè)我們只有央行的征信報告,想要更精準的刻畫企業(yè)的信用狀況,需要更多的數據,比如發(fā)票、工商、稅務的數據。這是我們的一個案例,我們利用了開票金額和央行的征信數據共建了一個聯邦學習模型,來預估每個企業(yè)的風險。聯邦學習在視覺領域的應用與AI公司探索重塑機器視覺市場,利用聯邦學習的機制,相對于本地建模,進一步提升算法準確率,并且形成網絡效應,降低長尾應用成本,提升視覺業(yè)務總體利潤率。這是聯邦視覺在城市管理上的應用。▌聯邦學習開源平臺:FATE通過剛剛的介紹,相信大家對聯邦學習能夠做什么,有了大體的認識。而聯邦學習想要落地,不可避免的就是開源,接下來為大家介紹下微眾銀行開源的聯邦學習平臺——FATE:FATE定位于工業(yè)級聯邦學習系統(tǒng),能夠有效幫助多個機構在符合數據安全和政府法規(guī)前提下,進行數據使用和聯合建模。設計原則:支持多種主流算法:為機器學習、深度學習、遷移學習提供高性能聯邦學習機制。支持多種多方安全計算協(xié)議:同態(tài)加密、秘密共享、哈希散列等。友好的跨域交互信息管理方案,解決了聯邦學習信息安全審計難的問題。里程碑介紹下FATE的里程碑,FATE在今年2月份首發(fā)了0.1版本,3月份的時候有了第一位外部Contributor,同時GitHubStar突破100,5月份發(fā)布了0.2版本,支持了聯邦特征工程和在線推理,6月份發(fā)布了0.3版本,把主要的合作伙伴遷移到了FATE,并把FATE捐獻給了LinuxFundation,8月份發(fā)布了1.0版本,支持FATE-Flow和FATE-Board,還有些后續(xù)的計劃,大家可以了解下。挑戰(zhàn)聯邦學習從一項技術真正成為一個關鍵系統(tǒng)和產品方案時,我們遇到了下述挑戰(zhàn):一站式建模過程的聯邦化MPC協(xié)議下分布式算法(onWAN)易理解和易維護跨站點數據傳輸安全性和可管理性,如何讓交互部分是可以被管理和被審計的。異構基礎架構自適應,聯邦學習可能會運行在CPU、GPU和端上,如何讓上層不受底層的變化而變化。技術架構接下講下FATE的整體架構:EggRoll:分布式計算和存儲的抽象;FederatedNetwork:跨域跨站點通信的抽象;FATEFederatedML:聯邦學習算法模塊,包含了目前聯邦學習所有的算法功能;FATE-Flow|FATE-Board:完成一站式聯邦建模的管理和調度以及整個過程的可視化;FATE-Serving:聯邦學習在線推理模塊。一站式聯合建模Pipeline,其流程:在開發(fā)環(huán)境下,其流程是從聯邦統(tǒng)計->聯邦特征工程->聯邦模型訓練,當上線部署的時候會有聯邦在線推理模塊,底層則會采用多方安全計算協(xié)議去支持上層各種聯邦算法。這是FATE的五大核心功能,這里不再復述。①FATEFederatedMLFATEFederatedML:EggRoll&FederationAPI:底層是EggRoll的算子,比如Map和MapValues,Remote和Get可以完成整個分布式計算的抽象;MPCProtocol:包括同態(tài)加密、秘密共享等多種多方安全協(xié)議,NumericOperator:會抽象出數學算子,比如加法或者乘法;MLOperator:用建好的數學算子構建機器學習算子,而不用管底層的安全協(xié)議是什么;Algorithms:有了ML算子之后就構建各種算法模型。②EggRollEggRoll,是整個分布式計算和存儲的抽象。面向算法開發(fā)者,通過API實現分布式計算和存儲。上面為EggRoll的整體架構圖。③FederatedNetworkFederatedNetwork:聯邦學習不僅需要分布式計算,還需要跨站點通信和交互,上層會提供一個API給到開發(fā)者,通過Remote和Get

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論