基于聯(lián)邦學(xué)習(xí)的系統(tǒng)綜述_第1頁(yè)
基于聯(lián)邦學(xué)習(xí)的系統(tǒng)綜述_第2頁(yè)
基于聯(lián)邦學(xué)習(xí)的系統(tǒng)綜述_第3頁(yè)
基于聯(lián)邦學(xué)習(xí)的系統(tǒng)綜述_第4頁(yè)
基于聯(lián)邦學(xué)習(xí)的系統(tǒng)綜述_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)綜述l引言-

背景-

聯(lián)邦學(xué)習(xí)概述-

聯(lián)邦推薦概述l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望l致謝引言目錄

2/

77l

在傳統(tǒng)的推薦算法中,為了構(gòu)建一個(gè)全局的模型,通常需要收集所有用戶的原始數(shù)據(jù)并上傳至服務(wù)

端,這樣的做法往往存在用戶隱私泄漏的問(wèn)題。l

聯(lián)邦學(xué)習(xí)使得在模型訓(xùn)練的整個(gè)過(guò)程中,用戶的原始數(shù)據(jù)始終保留在用戶(客戶端)本地,服務(wù)端和用戶之間通過(guò)共享加密的或不包含隱私信息的中間參數(shù)的方式,進(jìn)行模型訓(xùn)練和參數(shù)更新,進(jìn)而在保護(hù)用戶隱私的前提下構(gòu)建一個(gè)有效的機(jī)器學(xué)習(xí)模型。l

隨著聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展,對(duì)基于聯(lián)邦學(xué)習(xí)的推薦算法(以下稱“聯(lián)邦推薦”)的研究也越發(fā)受到

工業(yè)界和學(xué)術(shù)界的關(guān)注。l

本文主要對(duì)基于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)行綜述。引言背景

3/

77l

聯(lián)邦學(xué)習(xí)本質(zhì)上是一種既聯(lián)合多方又不共享各方原始數(shù)據(jù)的分布式學(xué)習(xí)框架,在保護(hù)各個(gè)參與方數(shù)據(jù)中的隱私的前提下,聯(lián)合各個(gè)參與方共同訓(xùn)練,得到一個(gè)共享的模型。l

與傳統(tǒng)的分布式學(xué)習(xí)框架相比:聯(lián)邦學(xué)習(xí)中的各個(gè)參與方通常對(duì)自己的數(shù)據(jù)具有絕對(duì)的控制權(quán)。l

聯(lián)邦學(xué)習(xí)可按模型的架構(gòu)、模型的聯(lián)邦化、模型的優(yōu)化和隱私保護(hù)技術(shù)的應(yīng)用4個(gè)角度進(jìn)行分類。引言聯(lián)邦學(xué)習(xí)概述(1/3)

4/

77類別特點(diǎn)或經(jīng)典算法模型的架構(gòu)客戶端-服務(wù)端架構(gòu)能夠利用服務(wù)端的計(jì)算資源,減少客戶端的計(jì)算壓

力;容易發(fā)生單點(diǎn)故障。去中心化架構(gòu)匿名性;節(jié)省服務(wù)端的資源;高可用性。模型的聯(lián)邦化機(jī)器學(xué)習(xí)線性回歸[1],提升樹(shù)[2],基于矩陣分解的聚類[3]…深度學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)[4],雙向表征編碼器[5],卷積神經(jīng)網(wǎng)絡(luò)[6],長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)[7]…遷移學(xué)習(xí)文獻(xiàn)[8,9]強(qiáng)化學(xué)習(xí)文獻(xiàn)[10]元學(xué)習(xí)文獻(xiàn)[11,12]模型的優(yōu)化模型壓縮文獻(xiàn)[13,14]通信策略的改進(jìn)文獻(xiàn)[15,16-20]激勵(lì)機(jī)制文獻(xiàn)[21-23]客戶端采樣文獻(xiàn)[23-27]隱私保護(hù)技術(shù)的應(yīng)用同態(tài)加密支持密文之間的運(yùn)算;計(jì)算復(fù)雜度高差分隱私權(quán)衡隱私保護(hù)強(qiáng)度和模型性能本地差分隱私由客戶端自動(dòng)添加噪聲安全多方計(jì)算包括秘密共享、同態(tài)加密和混淆電路聯(lián)邦學(xué)習(xí)的模型架構(gòu)示意圖客戶端-服務(wù)端架構(gòu)和去中心化架構(gòu)的相同之處在于:l

客戶端的原始數(shù)據(jù)不離開(kāi)本地,通過(guò)服務(wù)端與客戶端之間的通信或客戶端與客戶端之間的通信,

以發(fā)送中間參數(shù)的訓(xùn)練方式來(lái)得到一個(gè)共享的模型。引言聯(lián)邦學(xué)習(xí)概述(3/3)

6/

77l

與聯(lián)邦學(xué)習(xí)的分類類似,我們從架構(gòu)設(shè)計(jì)、系統(tǒng)的聯(lián)邦化和隱私保護(hù)技術(shù)的應(yīng)用3個(gè)角度,論述基

于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)展。l

對(duì)于模型的優(yōu)化,由于目前在聯(lián)邦推薦系統(tǒng)方面的相關(guān)工作較少,我們將在未來(lái)工作部分進(jìn)行討論。引言聯(lián)邦推薦概述(1/2)

7/

77引言聯(lián)邦推薦概述(2/2)

8/

77聯(lián)邦推薦系統(tǒng)的分類l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)-

客戶端-服務(wù)端架構(gòu)-

去中心化架構(gòu)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望

l致謝聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)目錄

9/

77在一般聯(lián)邦學(xué)習(xí)領(lǐng)域中,對(duì)于客戶端-服務(wù)端架構(gòu),較為通用的訓(xùn)練流程為:(1)服務(wù)端初始化模型參數(shù),并將模型參數(shù)發(fā)送給各個(gè)客戶端;(2)客戶端利用本地?cái)?shù)據(jù)和最新的模型參數(shù)進(jìn)行訓(xùn)練,并將中間參數(shù)發(fā)送給服務(wù)端;(3)服務(wù)端聚合中間參數(shù),更新全局模型,再把模型回傳給客戶端;(4)重復(fù)步驟(2)和(3),直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(1/3)

10/

77我們以FCF(federatedcollaborativefiltering)

[28]為例,介紹客戶端-服務(wù)端架構(gòu)在面向傳統(tǒng)協(xié)同過(guò)濾算法時(shí)較為通用的訓(xùn)練流程。FCF使用用戶特征向量和物品特征向量的內(nèi)積來(lái)表示用戶對(duì)物品的評(píng)分,即

ui

=

Uu.viT,其中,Uu.表示用戶u的特征向量,vi.表示物品i的特征向量。l

用戶和物品的交互數(shù)據(jù)需要保留在客戶端本地;l

Uu.表征用戶的偏好信息,也需要保留在客戶端本地。^r聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(2/3)

11/

77(1)服務(wù)端初始化物品特征矩陣V并發(fā)送給每個(gè)客戶端;(2)在每一輪迭代中,客戶端使用本地?cái)?shù)據(jù),基于最小二乘法計(jì)算得到uu.的解析解,即

其中,yui

∈{0,1}是指示變量,1+

λyui是置信度權(quán)重,α是正則化項(xiàng)上的權(quán)衡參數(shù),I為單位矩陣;(3)客戶端計(jì)算并上傳所有物品特征向量的梯度給服務(wù)端;(4)服務(wù)端聚合客戶端上傳的物品特征向量的梯度,更新物品特征矩陣,并將最新的物品特征矩陣發(fā)

送給所有客戶端;(5)重復(fù)多輪的迭代訓(xùn)練,直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(3/3)

12/

77在一般聯(lián)邦學(xué)習(xí)領(lǐng)域中,對(duì)于去中心化架構(gòu),較為通用的訓(xùn)練流程為:(1)服務(wù)端初始化模型參數(shù),然后將模型參數(shù)發(fā)送給各個(gè)客戶端;(2)客戶端利用本地?cái)?shù)據(jù)進(jìn)行模型訓(xùn)練,并將中間參數(shù)發(fā)送給其他客戶端;(3)客戶端接收其他客戶端的中間參數(shù),更新本地的模型;(4)重復(fù)步驟(2)和(3),直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(1/4)

13/

77去中心化的分布式矩陣分解框架(DMF)[29]解決了面向興趣點(diǎn)(POI)推薦中的物品排序問(wèn)題中的隱私問(wèn)題,其訓(xùn)練流程如下:l

首先,DMF基于用戶的位置信息構(gòu)建用戶鄰接圖;l

然后,通過(guò)隨機(jī)游走方法選擇一些鄰居用戶進(jìn)行通信;l

進(jìn)一步,每個(gè)用戶u計(jì)算用戶特征向量的梯度(用于本地更新用戶特征向量uu.)

、本地物品特征向

量的梯度(用于本地更新物品特征向量vilcl,u

)和全局物品特征向量的梯度(發(fā)送給鄰居用戶,用于

更新全局的物品特征向量viglb,uI)。特點(diǎn):保護(hù)了用戶的原始評(píng)分?jǐn)?shù)據(jù),節(jié)省了服務(wù)端的資源,且DMF的模型效果優(yōu)于MF和BPR。局限性:構(gòu)建用戶鄰接圖時(shí)需要收集用戶的地理位置信息,這種做法泄露了用戶的隱私。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(2/4)

14/

77用戶能自主調(diào)節(jié)自身隱私級(jí)別的去中心化分布式矩陣分解框架(PDMFRec)

[30]解決了DMF在構(gòu)建用戶鄰接圖時(shí)暴露用戶地理位置的問(wèn)題。PDMFRec的訓(xùn)練流程如下:l

首先,PDMFRec在一些可信的客戶端上根據(jù)用戶之間共同評(píng)過(guò)分的物品構(gòu)建用戶鄰接圖;l

然后,每個(gè)客戶端執(zhí)行本地訓(xùn)練,更新用戶特征向量和物品特征向量;l

進(jìn)一步,每個(gè)客戶端將物品特征向量的梯度發(fā)送給鄰居用戶;l

最后,每個(gè)客戶端接收其他客戶端發(fā)送過(guò)來(lái)的物品特征向量的梯度,并更新本地物品特征向量。

特點(diǎn):l

在構(gòu)建用戶鄰接圖時(shí),每個(gè)客戶端可以隱藏自己的部分?jǐn)?shù)據(jù),以此構(gòu)建不同的用戶鄰接圖;l

在模型訓(xùn)練階段用戶還能夠選擇不使用這部分?jǐn)?shù)據(jù),以達(dá)到更好地保護(hù)用戶隱私的目的;l

客戶端之間能夠直接傳遞信息,且客戶端具有匿名性。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(3/4)

15/

77Hegedus等[31]基于矩陣分解將八卦學(xué)習(xí)(gossip

learning)和聯(lián)邦學(xué)習(xí)在一個(gè)特定的任務(wù)上進(jìn)行對(duì)比:l

通過(guò)實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)在客戶端數(shù)量較多且通信成本相同的情況下兩者的效果相近;l

在都使用子采樣壓縮技術(shù)(即每次客戶端隨機(jī)采樣一部分已評(píng)分物品和未評(píng)分物品的物品特征向量發(fā)送給其他客戶端)的情況下八卦學(xué)習(xí)更具有優(yōu)勢(shì)。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(4/4)

16/

77l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化-

協(xié)同過(guò)濾推薦算法的聯(lián)邦化-

深度學(xué)習(xí)推薦算法的聯(lián)邦化-

元學(xué)習(xí)推薦算法的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望l致謝推薦系統(tǒng)的聯(lián)邦化目錄

17/

77聯(lián)邦協(xié)同過(guò)濾推薦算法(FCF)

[28]解決了基于ALS的協(xié)同過(guò)濾算法在計(jì)算物品特征向量時(shí)會(huì)泄露用戶與物品的交互行為的問(wèn)題。l

在FCF中,用戶的隱式反饋數(shù)據(jù)保留在用戶本地,用于用戶特征向量的更新和物品特征向量的梯度

的計(jì)算;l

物品特征向量的梯度需要上傳到服務(wù)端進(jìn)行物品特征向量的更新。特點(diǎn):在保護(hù)用戶的隱私的同時(shí),F(xiàn)CF能達(dá)到和CF一樣的推薦性能。局限性:將其擴(kuò)展到評(píng)分預(yù)測(cè)問(wèn)題時(shí),模型會(huì)產(chǎn)生偏差,并且客戶端通信成本較大。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(1/17)

18/

77面向顯式反饋的聯(lián)邦協(xié)同過(guò)濾推薦算法(FedRec)

[32]解決了FCF擴(kuò)展到評(píng)分預(yù)測(cè)問(wèn)題時(shí)模型會(huì)產(chǎn)生偏差的問(wèn)題。FedRec中使用了混合填充方法:l

首先,客戶端u在本地隨機(jī)采樣部分未評(píng)過(guò)分的物品I。其中,II

=

P

IUI

,IU表示客戶端u已評(píng)分物品的集合,P為采樣參數(shù);l

其次,客戶端u對(duì)隨機(jī)采樣的物品填充虛假的評(píng)分值(在訓(xùn)練的前t次迭代填充已評(píng)分物品的分值的平均值,第t次迭代以后填充未評(píng)分物品的預(yù)測(cè)評(píng)分);l

最后,客戶端u計(jì)算梯度,并將已評(píng)分物品和虛假采樣的物品的特征向量的梯度一起上傳到服務(wù)端。

特點(diǎn):避免服務(wù)端得知客戶端u評(píng)過(guò)分的物品,提高了通信效率。UIUI推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(2/17)

19/

77與FCF、FedRec不同,聯(lián)邦矩陣分解算法(FederatedMF)[33]的物品特征向量在本地更新,具體地:l

首先,客戶端u在本地進(jìn)行用戶特征向量uu.和物品特征向量vi.的更新;l

其次,客戶端u將物品特征矩陣發(fā)送給服務(wù)端;l

然后,服務(wù)端對(duì)接收到的物品特征矩陣進(jìn)行加權(quán)平均,從而得到最新的物品特征矩陣。在特定場(chǎng)景中,F(xiàn)ederatedMF需要使用用戶特征向量來(lái)創(chuàng)建或調(diào)整內(nèi)容,因此Do

liu等人[71]建議使用

數(shù)據(jù)匿名化和差分隱私技術(shù)對(duì)用戶特征向量進(jìn)行處理,再發(fā)送給服務(wù)端。特點(diǎn):不僅保護(hù)了用戶的評(píng)分?jǐn)?shù)據(jù),還節(jié)省了服務(wù)端的計(jì)算成本。局限性:FederatedMF泄露了用戶的評(píng)分行為(即用戶對(duì)哪個(gè)物品評(píng)過(guò)分)。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(3/17)

20/

77安全的聯(lián)邦矩陣分解框架(FedMF)

[34]使用加法同態(tài)加密技術(shù)來(lái)加密客戶端要上傳到服務(wù)端的物品特征向量的梯度。l

Chai等人[34]證明,在連續(xù)兩次迭代中,在客戶端上傳同一物品的特征向量梯度的情況下,服務(wù)端能夠推斷出該用戶對(duì)這一物品的評(píng)分信息。l

與FederatedMF不同,在FedMF中,客戶端上傳的是物品特征向量的梯度,而不是物品特征向量。

特點(diǎn):保護(hù)了用戶的評(píng)分信息。局限性:FedMF泄露了用戶的評(píng)分行為;計(jì)算復(fù)雜度高。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(4/17)

21/

77與FedMF不同,共享矩陣分解方法(SharedMF)[35]使用秘密共享技術(shù)來(lái)聚合梯度。l

首先,客戶端u在其本地使用秘密共享技術(shù)將要發(fā)送給服務(wù)端的物品特征向量的梯度分成n份梯度分

片,即▽vi.

=▽vi(1)

+

▽vi(2)

+

+

▽vi.n

。其中,n表示客戶端的數(shù)量,

▽vi.表示物品i的特征向量的梯度;l

其次,客戶端u保留一份在本地,并將剩下的n—1份發(fā)送給其他客戶端;l

同時(shí),客戶端u接收到來(lái)自其他客戶端的物品特征向量的梯度分片;l

最后,客戶端u將這些分片與本地保留的梯度分片進(jìn)行求和運(yùn)算,并將求和運(yùn)算后得到的物品特征

向量的梯度發(fā)送給服務(wù)端。特點(diǎn):保護(hù)了用戶的評(píng)分分?jǐn)?shù)和評(píng)分行為。局限性:客戶端之間需要能夠相互通信;增加了客戶端的通信成本。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(5/17)

22/

77聯(lián)邦成對(duì)學(xué)習(xí)算法(FPL)[36]是第一個(gè)將成對(duì)學(xué)習(xí)應(yīng)用于聯(lián)邦學(xué)習(xí)的研究工作。l

FPL能夠讓用戶控制自己的敏感數(shù)據(jù)(即用戶交互過(guò)物品的特征向量的梯度)的共享程度來(lái)平衡隱私

保護(hù)和模型效果;l

具體地,F(xiàn)PL通過(guò)引入了一個(gè)概率參數(shù)π

[0,1]

,使得用戶能夠控制自己交互過(guò)的物品的梯度與服

務(wù)端共享的數(shù)量,即二元組(▽vi.,▽bi.)以概率π被客戶端上傳到服務(wù)端,從而隱藏了部分互為相反數(shù)

關(guān)系的梯度,其中,i

∈Iu為用戶評(píng)過(guò)分的物品。特點(diǎn):防止服務(wù)端重構(gòu)出用戶的評(píng)分行為。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(6/17)

23/

77FedRecSys[37]是基于FATE平臺(tái)建立的一個(gè)在線的聯(lián)邦推薦系統(tǒng)。l

FedRecSys通過(guò)同態(tài)加密和秘密共享技術(shù),實(shí)現(xiàn)了一些比較經(jīng)典的推薦算法(例如,矩陣分解算法、分解機(jī)算法和基于廣度&深度學(xué)習(xí)的推薦算法等)。l

Tan等人[37]還在2020年推薦系統(tǒng)大會(huì)(ACMRecSys)上公開(kāi)演示了FedRecSys。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(7/17)

24/

77基于位置敏感哈希的聯(lián)邦推薦算法[38](FRecLSH)解決了已有的位置敏感哈希算法(LSH)難以量化隱私保護(hù)預(yù)算的問(wèn)題。定義兩個(gè)數(shù)據(jù)來(lái)源方A和B

,以A方為例,F(xiàn)RecLSH的實(shí)現(xiàn)主要有以下3個(gè)步驟:(1)A方在本地使用位置敏感的哈希函數(shù),根據(jù)每個(gè)用戶u的數(shù)據(jù)分別計(jì)算得到對(duì)應(yīng)的哈希值SU;(2)用戶u使用本地差分隱私技術(shù)處理哈希值SU

,得到擾亂后的哈希值S;(3)A方將哈希值S

發(fā)送給B方。同理,B方也要執(zhí)行上述3個(gè)步驟。特點(diǎn)

:FRecLSH通過(guò)本地差分隱私技術(shù),在聯(lián)合多方數(shù)據(jù)建模的過(guò)程中給用戶提供不同的隱私保護(hù)等級(jí),在較小的隱私預(yù)算下,F(xiàn)RecLSH能夠達(dá)到較高的時(shí)間效率和準(zhǔn)確性。UIUI推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(8/17)

25/

77PP-NMF[39]是一個(gè)基于非負(fù)矩陣分解(NMF)的POI推薦框架,它保護(hù)POI推薦中用戶的地理位置等隱私信息。l

首先,服務(wù)端挑選一批志愿者對(duì)一些地點(diǎn)進(jìn)行簽到;l

其次,服務(wù)端使用這些用戶的匿名數(shù)據(jù)訓(xùn)練得到用戶和物品的特征向量;l

然后,使用k-均值(k

—means)算法對(duì)用戶的特征向量進(jìn)行聚類,將用戶分成k個(gè)群體;l

最后,使用同一群體中的用戶的數(shù)據(jù)來(lái)構(gòu)建群體偏好。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(9/17)

26/

77聯(lián)邦多視圖矩陣分解算法(FED-MVMF)

[40]通過(guò)集成來(lái)自多個(gè)數(shù)據(jù)源的信息來(lái)解決冷啟動(dòng)問(wèn)題,它包含多個(gè)客戶端(用于存儲(chǔ)本地?cái)?shù)據(jù)信息以及計(jì)算私有的模型參數(shù))、一個(gè)物品服務(wù)器(用于存儲(chǔ)物品信息)和一個(gè)聯(lián)邦服務(wù)

器(用于聚合模型參數(shù)的梯度以及更新共享的模型參數(shù))。每個(gè)客戶端具有(用戶,物品)交互矩陣和(用戶,特征)矩陣,物品服務(wù)器具有(物品,特征)矩陣。l

首先,客戶端使用本地?cái)?shù)據(jù),通過(guò)ALS算法計(jì)算本地用戶潛在因子向量,然后通過(guò)SGD算法計(jì)算用戶屬性因子向量的梯度和物品潛在因子向量的梯度,并發(fā)送給聯(lián)邦服務(wù)器;l同時(shí),物品服務(wù)器在本地使用物品屬性因子特征和聯(lián)邦服務(wù)器發(fā)送的物品潛在因子矩陣,通過(guò)ALS和SGD算法,分別計(jì)算得到物品屬性因子向量和物品潛在因子向量的梯度,并將物品潛在因子向量的梯度發(fā)送給聯(lián)邦服務(wù)器;l

然后,聯(lián)邦服務(wù)器聚合客戶端發(fā)送的用戶屬性因子向量的梯度和物品服務(wù)器發(fā)送的物品潛在因子向量的梯度,分別用于更新用戶屬性因子向量和物品潛在因子向量,最后再將更新后的向量發(fā)送回客戶端用于物品推薦。特點(diǎn):使用了多視圖矩陣分解的方法,有效地利用了用戶屬性和物品屬性數(shù)據(jù),從而提高了模型的推薦效果。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(10/17)

27/

77Gao等人[41]總結(jié)了不同的推薦場(chǎng)景中的矩陣分解算法存在的隱私問(wèn)題,并且針對(duì)這些問(wèn)題提出了相應(yīng)的解決方案(請(qǐng)看后面三頁(yè)的內(nèi)容)。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(11/17)

28/

77推薦系統(tǒng)的聯(lián)邦化

協(xié)同過(guò)濾推薦算法的聯(lián)邦化(12/17)

(1)在A和B兩個(gè)參與方能夠共享用戶特征空間和物品特征空間的推薦場(chǎng)景中:l

首先,雙方各自使用本地?cái)?shù)據(jù)來(lái)計(jì)算物品特征向量的梯度和用戶特征向量的梯度,并分別用于更新物品特征向量和用戶特征向量;l

然后,使用模型平均算法,對(duì)雙方的用戶特征向量和物品特征向量進(jìn)行聚合,得到全局的用戶特征向量和全局的物品特征向量,即

隱私問(wèn)題:A方能夠反推出B方的用戶特征向量梯度?U

.和物品特征向量梯度?viB。解決方案:可以使用同態(tài)加密和安全多方計(jì)算等技術(shù)來(lái)保護(hù)全局的用戶特征向量和物品特征向量。UB

29/

77(2)在A方具有(用戶,物品)交互矩陣,而B方只有一些用戶或物品的輔助信息以及用戶對(duì)物品的評(píng)分的推薦場(chǎng)景中:l

A方可以利用B方所具有的輔助信息來(lái)豐富用戶特征。隱私問(wèn)題:在對(duì)齊用戶ID時(shí),會(huì)泄露B方的用戶特征信息。解決方案:建議B方對(duì)用戶特征信息進(jìn)行加密再發(fā)送給A方。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(13/17)

30/

77(3)在A方和B方具有不同的用戶集合和相同的物品集合的推薦場(chǎng)景中:l

雖然A方能夠反推出B方的用戶U對(duì)物品的真實(shí)評(píng)分,但是用戶ID是匿名的。l

只需要對(duì)物品特征向量進(jìn)行加密再發(fā)送給A方,而不需要加密用戶特征向量。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(14/17)

31/

77隱私保護(hù)的推薦系統(tǒng)框架(PPRSF)

[42]是一個(gè)適用于基于內(nèi)容的推薦算法模型、基于協(xié)同過(guò)濾的推薦算法模型和基于神經(jīng)網(wǎng)絡(luò)的推薦算法模型的框架,其分為4層:l

召回層:處于服務(wù)端,輸入為用戶的公共數(shù)據(jù)和物品信息,輸出為每個(gè)用戶的召回物品(物品子集);l

排序?qū)樱禾幱诳蛻舳耍斎霝橛脩舻谋镜財(cái)?shù)據(jù)和服務(wù)端生成的召回物品,通過(guò)本地排序模型,輸出有序的候選物品列表;l

重排層:輸入為客戶端的候選物品列表,通過(guò)一個(gè)可選方法來(lái)輸出考慮了新鮮度和公平性等因素的候選物品列表;l

服務(wù)層:處于客戶端,展示最終的推薦結(jié)果,收集用戶對(duì)物品的交互行為。特點(diǎn):召回層

減少發(fā)送物品列表時(shí)的通信成本;服務(wù)層

保護(hù)了用戶的隱私。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(15/17)

32/

77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)FCFMF物品梯度保護(hù)了用戶的原始評(píng)分、用戶特征向量和用戶的評(píng)分行為FedRecPMF,SVD++物品梯度使用了混合填充方法,采樣了沒(méi)有評(píng)過(guò)分的樣本FederatedMFMF物品特征向量使用了數(shù)據(jù)匿名技術(shù)和差分隱私技術(shù)FedMFMF物品梯度密文使用了加法同態(tài)加密SharedMFMF物品梯度密文使用了秘密共享技術(shù)FPLBPR物品梯度第一個(gè)基于矩陣分解的聯(lián)邦成對(duì)學(xué)習(xí)方法FedRecSysWide&Deep,SVD,F(xiàn)M模型參數(shù)使用了同態(tài)加密和秘密共享技術(shù)FRecLSHLSH-basedANN哈希簽名基于差分隱私,使用了本地敏感的哈希函數(shù)PP-NMFNMF用戶組特征向量使用了匿名和k-means聚類,對(duì)用戶組偏好進(jìn)行了建模FED-MNMFMVMF梯度引入了第三方服務(wù)器,使用了物品屬性數(shù)據(jù)和用戶屬性數(shù)據(jù)PPRSFCF,NN模型參數(shù)通過(guò)召回層,降低了通信成本推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(16/17)

33/

77表一些聯(lián)邦協(xié)同過(guò)濾推薦算法的對(duì)比隱私問(wèn)題算法用戶的原始數(shù)據(jù)FCF,F(xiàn)ederatedMF,F(xiàn)edMF,SharedMF,F(xiàn)PL,F(xiàn)edRec,PPRSF,F(xiàn)RecLSH用戶的評(píng)分行為FCF,F(xiàn)PL,SharedMF,F(xiàn)edRec用戶特征向量中隱含的用戶偏好FCF,F(xiàn)ederatedMF,F(xiàn)edMF,F(xiàn)PL,F(xiàn)edRec物品特征向量中隱含的用戶評(píng)分分?jǐn)?shù)FedMF,SharedMF,F(xiàn)edRec推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(17/17)

34/

77表聯(lián)邦協(xié)同過(guò)濾推薦算法解決的隱私問(wèn)題基于深度學(xué)習(xí)的聯(lián)邦云視頻推薦框架(JointRec)

[43]使用卷積神經(jīng)網(wǎng)絡(luò)從用戶和視頻的屬性以及用戶對(duì)視頻的評(píng)論中提取用戶和視頻的特征,并構(gòu)建用戶和視頻的特征向量;然后將它們應(yīng)用到PMF中來(lái)

預(yù)測(cè)用戶對(duì)視頻的評(píng)分,進(jìn)而為用戶推薦視頻。特點(diǎn):(1)減少多個(gè)云服務(wù)器之間協(xié)同訓(xùn)練時(shí)的通信成本:使用了權(quán)重參數(shù)壓縮算法,即先使用低秩

矩陣分解算法將權(quán)重參數(shù)分解成兩個(gè)低秩的矩陣,然后再使用8位量化算法對(duì)這兩個(gè)矩陣進(jìn)行壓縮;(2)JointRec仍能達(dá)到近似無(wú)損的推薦性能。局限性:用戶的原始數(shù)據(jù)保存在云服務(wù)器;沒(méi)有分析多個(gè)云服務(wù)器在協(xié)同訓(xùn)練過(guò)程中所傳遞的參數(shù)可

能存在的隱私問(wèn)題推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(1/7)

35/

77安全的聯(lián)邦子模型學(xué)習(xí)框架(SFSL)

[44]基于隨機(jī)響應(yīng)、安全聚合和布隆過(guò)濾器等技術(shù)實(shí)現(xiàn)了一個(gè)能支持百億物品規(guī)模的深度學(xué)習(xí)推薦系統(tǒng)模型。(1)在每輪訓(xùn)練過(guò)程中,隨機(jī)采樣的n個(gè)客戶端使用布隆過(guò)濾器來(lái)表示已評(píng)分物品的索引;(2)服務(wù)端通過(guò)安全聚合技術(shù)來(lái)獲取所有客戶端的物品索引的并集,并發(fā)送給這n個(gè)參與模型訓(xùn)練的客戶端;(3)每個(gè)客戶端使用滿足本地差分隱私的二次隨機(jī)響應(yīng)技術(shù)來(lái)選擇需要下載的物品的特征向量。特點(diǎn):在多次隨機(jī)應(yīng)答后,服務(wù)端無(wú)法推測(cè)出客戶端真實(shí)的評(píng)分行為;減少客戶端的存儲(chǔ)壓力;減低

了客戶端和服務(wù)端之間的通信成本。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(2/7)

36/

77基于GMF的深度聯(lián)邦推薦模型(FedFast)

[45]通過(guò)客戶端采樣技術(shù)和安全聚合技術(shù),加快了模型的收斂速度??蛻舳瞬蓸蛹夹g(shù)的技術(shù)細(xì)節(jié):l

在采樣客戶端之前,服務(wù)端使用k-均值算法,根據(jù)用戶嵌入對(duì)用戶進(jìn)行聚類;l

然后,客戶端輪流從每一個(gè)聚類好的用戶群中隨機(jī)采樣一個(gè)客戶端參與模型訓(xùn)練,直到采樣滿足一定數(shù)目的客戶端;l

在每次算法迭代過(guò)程中都需要根據(jù)更新后的用戶嵌入來(lái)更新用戶群,然后重新選擇參與模型訓(xùn)練的客戶端;l

參與訓(xùn)練的客戶端A需將接收到的模型參數(shù)發(fā)送給處于同一群中的其他客戶端,其他客戶端利用客戶端A發(fā)送的模型參數(shù)來(lái)加速自己的模型訓(xùn)練。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(3/7)

37/

77基于內(nèi)容的聯(lián)邦多視圖框架(FL-MV-DSSM)

[46]解決了冷啟動(dòng)的問(wèn)題,還聯(lián)合學(xué)習(xí)了多個(gè)視圖的用戶特征。l

每個(gè)客戶端有多個(gè)視圖,每個(gè)視圖可以看做一個(gè)應(yīng)用程序(APP),且不同應(yīng)用程序的原始數(shù)據(jù)不能

直接進(jìn)行共享;l

客戶端在本地共享多個(gè)視圖的用戶和物品的特征向量梯度;l

為了保護(hù)共享的梯度中蘊(yùn)含的敏感信息,F(xiàn)L-MV-DSSM使用差分隱私技術(shù)向各個(gè)視圖的物品特征向量的梯度中加入高斯噪聲。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(4/7)

38/

77推薦系統(tǒng)的聯(lián)邦化

深度學(xué)習(xí)推薦算法的聯(lián)邦化(5/7)

在基于GRU4Rec模型的通用的聯(lián)邦序列推薦模型(DeepRec)[47]中,服務(wù)端可以收集一些必要的商業(yè)數(shù)據(jù)(例如,用戶的購(gòu)買記錄),同時(shí),在GDPR條例頒布前收集到的數(shù)據(jù)仍可保存。l

首先,服務(wù)端使用GDPR條例頒布前的數(shù)據(jù),以及GDPR條例頒布后的商業(yè)數(shù)據(jù),訓(xùn)練得到一個(gè)全局的模型;l

其次,客戶端下載全局模型,并根據(jù)本地?cái)?shù)據(jù)進(jìn)行微調(diào),得到一個(gè)符合用戶偏好的個(gè)性化聯(lián)邦學(xué)習(xí)模型;l

同時(shí),在推薦物品之前,服務(wù)端會(huì)根據(jù)收集到的數(shù)據(jù),使用基于物品相似度的協(xié)同過(guò)濾算法,計(jì)算得到物品的候選集;l

最后,客戶端只需要根據(jù)本地的個(gè)性化模型,對(duì)候選集進(jìn)行排序,從而完成對(duì)物品的排序。特點(diǎn):客戶端不需要上傳任何中間參數(shù)給服務(wù)端。局限性:DeepRec沒(méi)有根據(jù)點(diǎn)擊、購(gòu)買等微觀行為背后隱含的不同的偏好程度進(jìn)行建模;客戶端的點(diǎn)擊數(shù)據(jù)僅參與本地的模型訓(xùn)練,沒(méi)有很好地幫助其他客戶端訓(xùn)練有效的模型。

39/

77通用的GNN聯(lián)邦推薦學(xué)習(xí)框架(FedGNN)[48]引入了第三方服務(wù)器l

在對(duì)第三方服務(wù)器隱藏物品ID的情況下,第三方服務(wù)器幫助客戶端匹配鄰居用戶,并以匿名的方式發(fā)送鄰居用戶的特征向量給客戶端;l

根據(jù)用戶對(duì)物品的交互信息以及鄰居用戶的特征向量,客戶端在本地構(gòu)建(用戶,物品)子圖;l

在模型訓(xùn)練時(shí),客戶端需要將計(jì)算好的物品特征向量的梯度發(fā)送給服務(wù)端聚合,為了保護(hù)用戶的交互行為以及梯度信息,客戶端采樣部分沒(méi)有交互過(guò)的物品,并使用本地差分隱私技術(shù)對(duì)參數(shù)的梯度

加入噪聲,再上傳到服務(wù)端。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(6/7)

40

/

77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)JointRecCNN權(quán)重參數(shù)壓縮了權(quán)重參數(shù)SFSLDIN物品梯度引入了子模型的概念,使用了二次隨機(jī)響應(yīng)技術(shù)FedFastGMF模型參數(shù)使用k

means聚類方法來(lái)加快模型訓(xùn)練FL-MV-DSSMDSSM梯度解決了DSSM的冷啟動(dòng)問(wèn)題,使用了多個(gè)視圖的用戶特征,使用了差分隱私技術(shù)DeepRecGRU4Rec-假設(shè)商業(yè)數(shù)據(jù)可以被服務(wù)端收集FedGNNGNN梯度引入了第三方服務(wù)器,并對(duì)其隱藏物品ID,使用了虛假采樣未交互過(guò)的物品的策略,使用了本地差分隱私技術(shù)推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(7/7)

41

/

77表一些聯(lián)邦深度學(xué)習(xí)推薦算法的對(duì)比基于Reptile元學(xué)習(xí)算法的聯(lián)邦推薦框架(SEFR)[49]解決了推薦系統(tǒng)中的評(píng)分預(yù)測(cè)中的隱私問(wèn)題。l

該框架在經(jīng)過(guò)多次全局訓(xùn)練以后,再在每個(gè)客戶端進(jìn)行局部訓(xùn)練,以微調(diào)全局模型使之適應(yīng)客戶端,達(dá)到個(gè)性化推薦的目的。特點(diǎn):保護(hù)用戶的原始評(píng)分信息。局限性:泄露了用戶的評(píng)分行為。推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(1/4)

42

/

77基于聯(lián)邦學(xué)習(xí)的元矩陣分解框架(MetaMF)

[50]解決了現(xiàn)有聯(lián)邦推薦研究中生成的推薦模型較大而消耗較多客戶端資源的問(wèn)題。l

MetaMF能夠?yàn)槊總€(gè)客戶端生成一個(gè)私有的物品嵌入和一個(gè)較小的評(píng)分預(yù)測(cè)模型。l

在MetaMF中,協(xié)同記憶(CM)模塊和元推薦(MR)模塊都部署在服務(wù)端,評(píng)分預(yù)測(cè)(RP)模塊部署在客戶端。其中,CM模塊用于生成協(xié)作向量,MR模型以協(xié)作向量為輸入,生成客戶端私有的物品嵌

入和RP模型,RP模塊使用RP模型為用戶進(jìn)行評(píng)分預(yù)測(cè)。推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(2/4)

43

/

77推薦系統(tǒng)的聯(lián)邦化

元學(xué)習(xí)推薦算法的聯(lián)邦化(3/4)

基于元學(xué)習(xí)的聯(lián)邦推薦框架(Fed4Rec)

[51]解決了頁(yè)面推薦場(chǎng)景中共享數(shù)據(jù)給服務(wù)端的公共用戶和將數(shù)據(jù)保留在客戶端本地的私有用戶如何進(jìn)行協(xié)同訓(xùn)練的問(wèn)題。l

首先,服務(wù)端初始化模型參數(shù),隨后將模型參數(shù)發(fā)送給參與模型訓(xùn)練的客戶端;l

其次,客戶端使用本地?cái)?shù)據(jù)來(lái)訓(xùn)練模型參數(shù),并將更新后的參數(shù)發(fā)送到服務(wù)端;l

然后,服務(wù)端使用MAML元學(xué)習(xí)算法,利用公共用戶的數(shù)據(jù)和私有用戶上傳的模型參數(shù)訓(xùn)練全局模型;l

最后,服務(wù)端將全局模型發(fā)送給每個(gè)客戶端,繼續(xù)進(jìn)行下一次的迭代訓(xùn)練,直到模型收斂。

特點(diǎn):只有少數(shù)用戶共享數(shù)據(jù),而其他用戶共享模型參數(shù)。局限性:沒(méi)有考慮在模型參數(shù)上傳給服務(wù)端的過(guò)程中存在的隱私問(wèn)題。

44

/

77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)SEFRReptilemeta

learning模型參數(shù)通過(guò)微調(diào)全局模型來(lái)適應(yīng)每個(gè)客戶端,從而構(gòu)建個(gè)性化

的聯(lián)邦推薦模型MetaMFMF梯度結(jié)合了協(xié)同過(guò)濾和元學(xué)習(xí)Fed4RecMAML模型參數(shù)解決了在只有少部分用戶共享數(shù)據(jù),而其他用戶共享模

型參數(shù)的場(chǎng)景中客戶端協(xié)同訓(xùn)練的問(wèn)題推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(4/4)

45

/

77表一些聯(lián)邦元學(xué)習(xí)推薦算法的對(duì)比l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用-

基于同態(tài)加密的推薦算法-

基于差分隱私的推薦算法-

基于本地差分隱私的推薦算法-

基于安全多方計(jì)算的推薦算法l未來(lái)研究展望

l致謝隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用目錄

46

/

77同態(tài)加密技術(shù)(homomorphic

encryption,HE)支持密文之間的運(yùn)算,即解密后的密文運(yùn)算結(jié)果與明文的運(yùn)算結(jié)果相等,其包括加法同態(tài)加密算法、乘法同態(tài)加密算法和全同態(tài)加密算法。定義x和x1為兩

個(gè)實(shí)數(shù),E為加密算法,D為解密算法,⊕為加法運(yùn)算算法,?為乘法運(yùn)算算法。l

加法同態(tài)加密:D

E

x

E

x1

=

x

+

x1,l

乘法同態(tài)加密:D

E

x

?

E

x1

=

xx1,l

全同態(tài)加密則同時(shí)具有加法同態(tài)加密算法和乘法同態(tài)加密算法的特性。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(1/4)

47

/

77CryptoRec[52]假設(shè)云服務(wù)器是不可信的,因此客戶端上傳給云服務(wù)器的是經(jīng)過(guò)同態(tài)加密技術(shù)處理后的用戶偏好數(shù)據(jù),服務(wù)端利用加密后的評(píng)分?jǐn)?shù)據(jù)計(jì)算物品梯度并更新物品特征向量,在模型收斂后服務(wù)端返回預(yù)測(cè)評(píng)分給用戶。l

為了進(jìn)一步提高模型的推薦效果,服務(wù)端在計(jì)算模型梯度之前使用用戶的加密數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。l

為了減少通信成本以及加密后的數(shù)據(jù)的乘法次數(shù),CryptoRec還使用了稀疏量化重用算法,其通過(guò)刪除一些不在特定閾值范圍內(nèi)的模型參數(shù)來(lái)降低通信成本。l

同時(shí),在不影響模型準(zhǔn)確率的情況下,通過(guò)復(fù)用兩個(gè)加密數(shù)據(jù)的乘法計(jì)算結(jié)果來(lái)減少乘法次數(shù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(2/4)

48

/

77Lyu等[53]針對(duì)地點(diǎn)推薦問(wèn)題,基于物品的協(xié)同過(guò)濾方法和同態(tài)加密技術(shù),提出了一個(gè)基于隱私保護(hù)的推薦框架,其主要包括3大部分:提供隱私保護(hù)推薦的服務(wù)器(PPRS),提供公鑰和私鑰的隱私服務(wù)提供方(PSP),加密的數(shù)據(jù)庫(kù)(ED)。l

首先,PSP將同態(tài)加密的公鑰發(fā)送給用戶和PPRS,同態(tài)加密的私鑰僅自己擁有;l

接著,用戶使用地點(diǎn)訪問(wèn)信息,基于同態(tài)加密技術(shù)生成共生矩陣,并將其存儲(chǔ)在ED中,然后將地點(diǎn)和偏好進(jìn)行加密,分別發(fā)送給PSP和PPRS;l

緊接著,PPRS使用加密后的用戶地點(diǎn)和共生矩陣生成加密后的推薦列表,并將其發(fā)送給PSP;l

最后,PSP對(duì)推薦列表進(jìn)行解密并篩選出與用戶有關(guān)的推薦地點(diǎn),并將其推薦給用戶。l

此外,如果用戶的行為有變化,那么需要更新存儲(chǔ)在ED中的共生矩陣,從而對(duì)推薦列表進(jìn)行更新。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(3/4)

49

/

77Kim等人[54]將全同態(tài)加密技術(shù)應(yīng)用于矩陣分解算法中,提出了一個(gè)基于虛假評(píng)分的推薦算法。l

首先,客戶端使用同態(tài)加密算法加密用戶的真實(shí)評(píng)分?jǐn)?shù)據(jù)和虛假評(píng)分?jǐn)?shù)據(jù)后上傳到服務(wù)端;l

其次,服務(wù)端在密文中加上隨機(jī)掩碼后再發(fā)送給加密服務(wù)提供方(CSP);l

然后,CSP將密文解密,并使用定點(diǎn)算法處理,對(duì)處理結(jié)果加密并發(fā)送給服務(wù)端;l

最后,服務(wù)端在消除虛假評(píng)分?jǐn)?shù)據(jù)后使用梯度下降算法,與CSP進(jìn)行聯(lián)合計(jì)算,得到加密的用戶和

物品畫像。特點(diǎn):(1)服務(wù)端與CSP的協(xié)同計(jì)算能提高全同態(tài)加密算法的性能,從而提高模型的計(jì)算效率;(2)保護(hù)用戶的原始評(píng)分?jǐn)?shù)據(jù)、用戶和物品的畫像、用戶的評(píng)分行為、用戶已評(píng)分物品的數(shù)量以及用戶的模型參數(shù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(4/4)

50/

77差分隱私技術(shù)(differential

privacy,DP)是一種在統(tǒng)計(jì)分析數(shù)據(jù)集信息時(shí),用來(lái)保護(hù)數(shù)據(jù)集中的個(gè)體信息的加密技術(shù)。給定任何兩個(gè)相鄰數(shù)據(jù)集D1,

D2

∈D

,它們最多只有一條數(shù)據(jù)記錄不同,對(duì)于一個(gè)隨機(jī)算法A

,其所有可能的輸出的任一子集SA

,如果存在如下不等式,則稱算法A滿足E-差分隱私(即很難推斷出是D1

還是D2生成了SA):Pr

A

D1

SA

eE

Pr[A(D2)

SA],其中,E是隱私預(yù)算,E的值越小表示隱私保護(hù)強(qiáng)度越高,引入的噪聲也就越多,通常需要設(shè)置合理的E值來(lái)權(quán)衡隱私保護(hù)強(qiáng)度和模型性能。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于差分隱私的推薦算法(1/2)

51/

77基于差分隱私的本地協(xié)同過(guò)濾算法(DPLCF)

[55]解決了基于隱私保護(hù)的協(xié)同過(guò)濾算法無(wú)法較好地處理隱式反饋數(shù)據(jù)的問(wèn)題,其主要包括3個(gè)計(jì)算步驟:(1)客戶端對(duì)隱式反饋數(shù)據(jù)使用滿足差分隱私的隨機(jī)翻轉(zhuǎn)技術(shù)進(jìn)行翻轉(zhuǎn),并上傳給服務(wù)端;當(dāng)用戶對(duì)物品的交互rui

=

1時(shí)以概率p保留原來(lái)的值,以概率1

—p翻轉(zhuǎn)為0;當(dāng)用戶對(duì)物品的交互rui

=

0時(shí)以概率1

q保留原來(lái)的值,以概率q翻轉(zhuǎn)為1;(2)服務(wù)端使用這些數(shù)據(jù),基于差分隱私的集合操作的分布式基數(shù)估計(jì)算法計(jì)算II

I

pI和II

U

I

pI

,進(jìn)而計(jì)算杰卡德物品相似度,然后將物品相似度矩陣發(fā)送給客戶端;(3)客戶端使用物品之間的相似度,通過(guò)基于物品的協(xié)同過(guò)濾算法來(lái)進(jìn)行物品推薦。1iufluflip1iufluflip隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于差分隱私的推薦算法(1/2)

52/

77在本地差分隱私技術(shù)(

localdifferentialprivacy,LDP)中,用戶數(shù)據(jù)在被不可信的第三方服務(wù)端收集前,由客戶端自主加入噪聲。對(duì)于客戶端u

,假設(shè)其任意兩個(gè)輸入為D

和D,對(duì)于一個(gè)隨機(jī)算法A

,如果存在如下不等式,則稱算法A滿足E-本地差分隱私(即很難推斷出是D

還是D

生成了SA)

:Pr

A

D∈

SA

eE

Pr

A

D

∈SA

.2U1U2U1U2U1U隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(1/3)

53/

77在隱私保護(hù)的推薦框架(PriRec)[56]中:l

與用戶隱私無(wú)關(guān)的公共數(shù)據(jù)(例如,POI的描述信息和POI的類別信息)保存在服務(wù)端以減少客戶端的存儲(chǔ)壓力;l

敏感數(shù)據(jù)(例如,用戶的配置文件、用戶對(duì)某個(gè)POI的交互行為和推薦模型)保存在客戶端本地;l

在建模過(guò)程需要的POI動(dòng)態(tài)特征(如POI的訪問(wèn)量、POI的平均消費(fèi)等)通過(guò)客戶端上傳使用本地差

分隱私技術(shù)(LDP)來(lái)添加噪聲后的數(shù)據(jù),且使得服務(wù)端計(jì)算得到的POI動(dòng)態(tài)特征能接近真實(shí)的訪問(wèn)

量。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(2/3)

54/

77FedNewsRec[57]是一個(gè)基于聯(lián)邦學(xué)習(xí)的新聞推薦框架。l

客戶端在服務(wù)端中存儲(chǔ)新聞推薦模型的副本,且客戶端可以利用該副本進(jìn)行模型梯度的計(jì)算,然后將該梯度進(jìn)行裁剪之后上傳到服務(wù)端;l

服務(wù)端利用客戶端上傳的模型梯度進(jìn)行模型的更新。模型梯度中可能包含用戶的敏感信息,因此客戶端使用本地差分隱私技術(shù)往模型梯度中加入隨機(jī)噪聲。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(3/3)

55/

77安全多方計(jì)算技術(shù)(secure

multi-party

computation,SMPC)使得參與計(jì)算的各方能夠在協(xié)同計(jì)算的同時(shí)保護(hù)各自數(shù)據(jù)的隱私,其主要包括秘密共享、同態(tài)加密和不經(jīng)意傳輸?shù)燃夹g(shù)。l

秘密共享是指一個(gè)參與多方計(jì)算的用戶將自己的數(shù)據(jù)分割成多份秘密,然后將其發(fā)送給其他用戶,只有用戶達(dá)到一定數(shù)量才能一起重構(gòu)秘密;l

不經(jīng)意傳輸能夠保證發(fā)送方不知道接收方收到的是哪一部分?jǐn)?shù)據(jù),而接收方不能接收除特定數(shù)據(jù)以外的其他任何數(shù)據(jù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(1/4)

56/

77在PriRec[56]框架中,用戶U需要對(duì)其鄰居用戶UI

∈N(u)的模型WU/進(jìn)行求和,而模型中包含的用戶偏好信息會(huì)泄露鄰居用戶的隱私。因此,PriRec使用了秘密共享技術(shù)。l

首先,用戶U的鄰居用戶UI在本地計(jì)算得到權(quán)重線性模型SUUIWUI,其中SUUI是用戶U與鄰居用戶UI之

間的權(quán)重;l

其次,基于秘密共享技術(shù),鄰居用戶UI

∈N(u)的權(quán)重線性模型SUUIWUI被劃分成|N(u)|份,保留一

份在鄰居用戶UI本地,然后將剩下的|N(u)|-1份發(fā)送給用戶U的其他鄰居用戶;l

然后,鄰居用戶UI

∈N(u)接收并匯總來(lái)自其他鄰居用戶的權(quán)重線性模型,并發(fā)送給用戶U;l

最后,用戶U接收來(lái)自其他鄰居用戶通過(guò)秘密共享后的權(quán)重線性模型,用于更新模型WU。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(2/4)

57/

77安全的社交推薦框架(SeSoRec)

[58]在保護(hù)社交平臺(tái)和評(píng)分平臺(tái)的數(shù)據(jù)的同時(shí),利用社交平臺(tái)的信息來(lái)輔助評(píng)分平臺(tái)提高推薦效果。l

SeSoRec使用了基于秘密共享的矩陣乘法(SSMM),使得兩個(gè)來(lái)自不同參與方的矩陣在進(jìn)行矩陣相

乘操作時(shí)不泄露社交平臺(tái)的隱私信息。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(3/4)

58/

77隱私保護(hù)的余弦相似度算法(PrivateCosine)和隱私保護(hù)的皮爾遜相似度算法(PrivatePearson)[59]使用秘密共享技術(shù)來(lái)計(jì)算物品之間的相似度。以PrivateCosine算法為例:l

首先,客戶端u在本地計(jì)算得到ruiruj

,r

i和r

j

;l

然后,客戶端u將它們隨機(jī)分割成ku個(gè)分片,并將其中的ku

1個(gè)分片發(fā)送給隨機(jī)選擇的其他客戶

端,其中ku

>

3。l

同時(shí),客戶端u將其他客戶端發(fā)送過(guò)來(lái)的分片與對(duì)應(yīng)的本地分片進(jìn)行求和運(yùn)算,再發(fā)送給服務(wù)端;l

最后,服務(wù)端對(duì)客戶端上傳的值進(jìn)行聚合,并計(jì)算得到物品之間的相似度。與PrivateCosine算法有所區(qū)別,PrivatePearson算法還需要利用秘密共享技術(shù)計(jì)算物品的平均評(píng)分。u2u2隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(4/4)

59/

77技術(shù)優(yōu)點(diǎn)缺點(diǎn)應(yīng)用場(chǎng)景同態(tài)加密無(wú)損;高安全計(jì)算復(fù)雜度較高保護(hù)用戶畫像或物品描述[54],保護(hù)用戶行為[54],保護(hù)用戶的評(píng)分分?jǐn)?shù)

[52,54]差分隱私不依賴背景知識(shí);隱私預(yù)算可調(diào)損害模型精度保護(hù)用戶的隱私反饋數(shù)據(jù)[55]本地差分隱私防止不可信的服務(wù)端的

差分攻擊損害模型精度保護(hù)梯度中的敏感信息[57],保護(hù)用

戶行為數(shù)據(jù)中的敏感統(tǒng)計(jì)信息[56]秘密共享無(wú)損;計(jì)算復(fù)雜度較低通信復(fù)雜度較高在多方協(xié)同計(jì)算過(guò)程中保護(hù)用戶的信

息[54,56,58,59]

60/

77隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用表聯(lián)邦推薦中的隱私保護(hù)技術(shù)l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望-

推薦系統(tǒng)的聯(lián)邦化-

聯(lián)邦推薦系統(tǒng)的優(yōu)化-

聯(lián)邦推薦場(chǎng)景中的隱私安全問(wèn)題l致謝未來(lái)研究展望目錄

61/

77l傳統(tǒng)的推薦模型的聯(lián)邦化方面的相關(guān)工作仍存在其他的隱私問(wèn)題l在聯(lián)邦推薦模型中,通過(guò)隱私保護(hù)技術(shù)來(lái)保護(hù)隱私方面會(huì)帶來(lái)通信成本增加、計(jì)算復(fù)雜度增大和

推薦性能下降等新的問(wèn)題l聯(lián)邦模型的訓(xùn)練方式與非聯(lián)邦版本等價(jià)的同時(shí),算法的訓(xùn)練效率較低l在對(duì)基于深度學(xué)習(xí)的推薦算法進(jìn)行聯(lián)邦化方面,客戶端的存儲(chǔ)資源和計(jì)算能力通常無(wú)法與龐大的神經(jīng)網(wǎng)絡(luò)相匹配,并且客戶端自身的數(shù)據(jù)量有限,難以訓(xùn)練出較好的深度學(xué)習(xí)模型-

邊緣計(jì)算和知識(shí)蒸餾是兩個(gè)解決客戶端資源受限的研究思路l

目前還沒(méi)有公開(kāi)發(fā)表的面向序列反饋和異構(gòu)反饋建模的聯(lián)邦推薦方法未來(lái)研究展望推薦系統(tǒng)的聯(lián)邦化

62/

77l模型壓縮、通信策略的改進(jìn)、激勵(lì)機(jī)制和客戶端采樣等優(yōu)化方法如何在聯(lián)邦推薦模型中應(yīng)用l如何為特定的推薦模型設(shè)計(jì)更有效的優(yōu)化算法未來(lái)研究展望聯(lián)邦推薦系統(tǒng)的優(yōu)化

63/

77l如何衡量聯(lián)邦場(chǎng)景中的隱私安全問(wèn)題,并對(duì)已有工作中存在的隱私問(wèn)題,設(shè)計(jì)一個(gè)更為有效的解

決方法l如何在可能存在惡意的客戶端和服務(wù)端或者存在一些數(shù)據(jù)質(zhì)量較低的客戶端的環(huán)境下,設(shè)計(jì)聯(lián)邦

推薦模型l客戶端如何運(yùn)用模型投毒防御和對(duì)抗攻擊防御等防御手段來(lái)保護(hù)自己模型的安全性和有效性未來(lái)研究展望聯(lián)邦推薦場(chǎng)景中的隱私安全問(wèn)題

64/

77l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望

l致謝致謝目錄

65/

77[1]

Yang

Q,

Liu

Y,

Chen

T

J,

et

al.

Federated

machine

learning:

concept

and

applications.

ACM

Trans

Intell

SystTechnol,2019,

10:

1–19[2]ChengK

W,

Fan

T,

Jin

Y

L,

et

al.SecureBoost:a

lossless

federated

learning

framework.

2018.ArXiv:1901.08755[3]

WangS,ChangTH.Federatedclusteringviamatrixfactorizationmodels:frommodelaveragingtogradientsharing.2020.

ArXiv:2002.04930[4]HeCY,BalasubramanianK,

CeyaniE,

et

al.

FedGraphNN:

a

federated

learning

system

and

benchmark

forgraphneuralnetworks.2021.arXiv:2104.07145[5]LiuDB,MillerTA.Federatedpretrainingandfinetuningof

BERTusing

clinicalnotes

frommultiple

silos.2020.

ArXiv:2002.08562[6]

Wang

Y

J,

Cui

X

L,

Gao

Z

Q,

et

al.

Fed-SCNN:

a

federated

shallow-CNN

recognition

framework

fordistracteddriving.SecurCommunNetw,2020,2020:6626471參考文獻(xiàn)

67/

77[7]

Chen

M

Q,

Mathews

R,

Ouyang

T,

et

al.

Federated

learning

ofout-of-vocabularywords.2019.

ArXiv:1903.

10635[8]LiuY,KangY,Xing

C

P,

et

al.

A

secure

federated

transfer

learning

framework.

IEEE

Intell

Syst,

2020,

35:

70–82[9]

Sharma

S,Xing

C

P,

LiuY,

et

al.

Secure

and

efficient

federatedtransfer

learning.

In:

Proceedings

ofIEEEInternationalConferenceonBigData,Los

Angeles,2019.2569–2576[10]LiuBY,WangLJ,LiuM.

Lifelong

federated

reinforcement

learning:

a

learning

architecture

for

navigationincloudroboticsystems.IEEERobot

AutomLett,2019,4:4555–4562[11]ChenF,DongZH,LiZG,etal.Federatedmeta-learning

forrecommendation.2018.

ArXiv:1802.07876[12]LinYJ,RenPJ,Chen

Z

M,

et

al.

Meta

matrix

factorization

for

federated

rating

redictions.

In:

Proceedings

ofthe

43rd

International

ACM

SIGIR

Conference

on

Research

and

Development

in

InformationRetrieval,2020.981–990參考文獻(xiàn)

68/

77[13]

Kone√cn′y

J,

McMahan

H

B,

Yu

F

X,

et

al.

Federated

learning:

strategies

for

improving

communicationefficiency.2016.

ArXiv:1610.05492[14]McMahanB,MooreE,RamageD,etal.Communication-efficientlearningofdeepnetworksfromdecentralizeddata.In:Proceedingsof

the20thInternationalConferenceonArtificial

Intelligence

and

Statistics,

FortLauderdale,2017.

1273—1282[15]

Lu

S

T,

Zhang

Y

W,

Wang

Y

L,

et

al.

Learn

electronic

health

records

by

fully

decentralized

federatedlearning.2019.

ArXiv:1912.01792[16]

Reisizadeh

A,

Mokhtari

A,

Hassani

H,etal.FedPAQ:acommunication-efficientfederatedlearningmethodwithperiodicaveragingandquantization.2019.

ArXiv:1909.

13014[17]WangLP,WangW,LiB.

CMFL:

mitigating

communication

overhead

for

federated

learning.

In:

Proceedingsof

the39thInternationalConferenceonDistributedComputingSystems,Dallas,2019.

954—964參考文獻(xiàn)

69/

77[18]GoetzJ,MalikK,BuiD,etal.

Activefederatedlearning.2019.

ArXiv:1909.

12641[19]

Cao

T

D,

Truong-Huu

T,

Tran

H

D,

et

al.

A

federated

learning

framework

for

privacy-preserving

andparalleltraining.2020.

ArXiv:2001.09782[20]Yu

H,

Liu

Z

L,

Liu

Y,

et

al.

Afairness-aware

incentive

scheme

for

federated

learning.

In:

Proceedings

of

AAAI/ACMConferenceon

AI,Ethics,and

Society,NewYork,2020.393—399[21]Khan

LU,

Pandey

S

R,

TranN

H,

et

al.

Federated

learning

for

edgenetworks:resource

optimization

and

incentivemechanism.IEEECommunMag,2020,58:

88—93[22]KangJW,XiongZH,NiyatoD,et

al.Incentive

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論