




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)綜述l引言-
背景-
聯(lián)邦學(xué)習(xí)概述-
聯(lián)邦推薦概述l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望l致謝引言目錄
2/
77l
在傳統(tǒng)的推薦算法中,為了構(gòu)建一個(gè)全局的模型,通常需要收集所有用戶的原始數(shù)據(jù)并上傳至服務(wù)
端,這樣的做法往往存在用戶隱私泄漏的問(wèn)題。l
聯(lián)邦學(xué)習(xí)使得在模型訓(xùn)練的整個(gè)過(guò)程中,用戶的原始數(shù)據(jù)始終保留在用戶(客戶端)本地,服務(wù)端和用戶之間通過(guò)共享加密的或不包含隱私信息的中間參數(shù)的方式,進(jìn)行模型訓(xùn)練和參數(shù)更新,進(jìn)而在保護(hù)用戶隱私的前提下構(gòu)建一個(gè)有效的機(jī)器學(xué)習(xí)模型。l
隨著聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展,對(duì)基于聯(lián)邦學(xué)習(xí)的推薦算法(以下稱“聯(lián)邦推薦”)的研究也越發(fā)受到
工業(yè)界和學(xué)術(shù)界的關(guān)注。l
本文主要對(duì)基于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)行綜述。引言背景
3/
77l
聯(lián)邦學(xué)習(xí)本質(zhì)上是一種既聯(lián)合多方又不共享各方原始數(shù)據(jù)的分布式學(xué)習(xí)框架,在保護(hù)各個(gè)參與方數(shù)據(jù)中的隱私的前提下,聯(lián)合各個(gè)參與方共同訓(xùn)練,得到一個(gè)共享的模型。l
與傳統(tǒng)的分布式學(xué)習(xí)框架相比:聯(lián)邦學(xué)習(xí)中的各個(gè)參與方通常對(duì)自己的數(shù)據(jù)具有絕對(duì)的控制權(quán)。l
聯(lián)邦學(xué)習(xí)可按模型的架構(gòu)、模型的聯(lián)邦化、模型的優(yōu)化和隱私保護(hù)技術(shù)的應(yīng)用4個(gè)角度進(jìn)行分類。引言聯(lián)邦學(xué)習(xí)概述(1/3)
4/
77類別特點(diǎn)或經(jīng)典算法模型的架構(gòu)客戶端-服務(wù)端架構(gòu)能夠利用服務(wù)端的計(jì)算資源,減少客戶端的計(jì)算壓
力;容易發(fā)生單點(diǎn)故障。去中心化架構(gòu)匿名性;節(jié)省服務(wù)端的資源;高可用性。模型的聯(lián)邦化機(jī)器學(xué)習(xí)線性回歸[1],提升樹(shù)[2],基于矩陣分解的聚類[3]…深度學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)[4],雙向表征編碼器[5],卷積神經(jīng)網(wǎng)絡(luò)[6],長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)[7]…遷移學(xué)習(xí)文獻(xiàn)[8,9]強(qiáng)化學(xué)習(xí)文獻(xiàn)[10]元學(xué)習(xí)文獻(xiàn)[11,12]模型的優(yōu)化模型壓縮文獻(xiàn)[13,14]通信策略的改進(jìn)文獻(xiàn)[15,16-20]激勵(lì)機(jī)制文獻(xiàn)[21-23]客戶端采樣文獻(xiàn)[23-27]隱私保護(hù)技術(shù)的應(yīng)用同態(tài)加密支持密文之間的運(yùn)算;計(jì)算復(fù)雜度高差分隱私權(quán)衡隱私保護(hù)強(qiáng)度和模型性能本地差分隱私由客戶端自動(dòng)添加噪聲安全多方計(jì)算包括秘密共享、同態(tài)加密和混淆電路聯(lián)邦學(xué)習(xí)的模型架構(gòu)示意圖客戶端-服務(wù)端架構(gòu)和去中心化架構(gòu)的相同之處在于:l
客戶端的原始數(shù)據(jù)不離開(kāi)本地,通過(guò)服務(wù)端與客戶端之間的通信或客戶端與客戶端之間的通信,
以發(fā)送中間參數(shù)的訓(xùn)練方式來(lái)得到一個(gè)共享的模型。引言聯(lián)邦學(xué)習(xí)概述(3/3)
6/
77l
與聯(lián)邦學(xué)習(xí)的分類類似,我們從架構(gòu)設(shè)計(jì)、系統(tǒng)的聯(lián)邦化和隱私保護(hù)技術(shù)的應(yīng)用3個(gè)角度,論述基
于聯(lián)邦學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)展。l
對(duì)于模型的優(yōu)化,由于目前在聯(lián)邦推薦系統(tǒng)方面的相關(guān)工作較少,我們將在未來(lái)工作部分進(jìn)行討論。引言聯(lián)邦推薦概述(1/2)
7/
77引言聯(lián)邦推薦概述(2/2)
8/
77聯(lián)邦推薦系統(tǒng)的分類l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)-
客戶端-服務(wù)端架構(gòu)-
去中心化架構(gòu)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望
l致謝聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)目錄
9/
77在一般聯(lián)邦學(xué)習(xí)領(lǐng)域中,對(duì)于客戶端-服務(wù)端架構(gòu),較為通用的訓(xùn)練流程為:(1)服務(wù)端初始化模型參數(shù),并將模型參數(shù)發(fā)送給各個(gè)客戶端;(2)客戶端利用本地?cái)?shù)據(jù)和最新的模型參數(shù)進(jìn)行訓(xùn)練,并將中間參數(shù)發(fā)送給服務(wù)端;(3)服務(wù)端聚合中間參數(shù),更新全局模型,再把模型回傳給客戶端;(4)重復(fù)步驟(2)和(3),直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(1/3)
10/
77我們以FCF(federatedcollaborativefiltering)
[28]為例,介紹客戶端-服務(wù)端架構(gòu)在面向傳統(tǒng)協(xié)同過(guò)濾算法時(shí)較為通用的訓(xùn)練流程。FCF使用用戶特征向量和物品特征向量的內(nèi)積來(lái)表示用戶對(duì)物品的評(píng)分,即
ui
=
Uu.viT,其中,Uu.表示用戶u的特征向量,vi.表示物品i的特征向量。l
用戶和物品的交互數(shù)據(jù)需要保留在客戶端本地;l
Uu.表征用戶的偏好信息,也需要保留在客戶端本地。^r聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(2/3)
11/
77(1)服務(wù)端初始化物品特征矩陣V并發(fā)送給每個(gè)客戶端;(2)在每一輪迭代中,客戶端使用本地?cái)?shù)據(jù),基于最小二乘法計(jì)算得到uu.的解析解,即
其中,yui
∈{0,1}是指示變量,1+
λyui是置信度權(quán)重,α是正則化項(xiàng)上的權(quán)衡參數(shù),I為單位矩陣;(3)客戶端計(jì)算并上傳所有物品特征向量的梯度給服務(wù)端;(4)服務(wù)端聚合客戶端上傳的物品特征向量的梯度,更新物品特征矩陣,并將最新的物品特征矩陣發(fā)
送給所有客戶端;(5)重復(fù)多輪的迭代訓(xùn)練,直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)客戶端-服務(wù)端架構(gòu)(3/3)
12/
77在一般聯(lián)邦學(xué)習(xí)領(lǐng)域中,對(duì)于去中心化架構(gòu),較為通用的訓(xùn)練流程為:(1)服務(wù)端初始化模型參數(shù),然后將模型參數(shù)發(fā)送給各個(gè)客戶端;(2)客戶端利用本地?cái)?shù)據(jù)進(jìn)行模型訓(xùn)練,并將中間參數(shù)發(fā)送給其他客戶端;(3)客戶端接收其他客戶端的中間參數(shù),更新本地的模型;(4)重復(fù)步驟(2)和(3),直到模型收斂。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(1/4)
13/
77去中心化的分布式矩陣分解框架(DMF)[29]解決了面向興趣點(diǎn)(POI)推薦中的物品排序問(wèn)題中的隱私問(wèn)題,其訓(xùn)練流程如下:l
首先,DMF基于用戶的位置信息構(gòu)建用戶鄰接圖;l
然后,通過(guò)隨機(jī)游走方法選擇一些鄰居用戶進(jìn)行通信;l
進(jìn)一步,每個(gè)用戶u計(jì)算用戶特征向量的梯度(用于本地更新用戶特征向量uu.)
、本地物品特征向
量的梯度(用于本地更新物品特征向量vilcl,u
)和全局物品特征向量的梯度(發(fā)送給鄰居用戶,用于
更新全局的物品特征向量viglb,uI)。特點(diǎn):保護(hù)了用戶的原始評(píng)分?jǐn)?shù)據(jù),節(jié)省了服務(wù)端的資源,且DMF的模型效果優(yōu)于MF和BPR。局限性:構(gòu)建用戶鄰接圖時(shí)需要收集用戶的地理位置信息,這種做法泄露了用戶的隱私。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(2/4)
14/
77用戶能自主調(diào)節(jié)自身隱私級(jí)別的去中心化分布式矩陣分解框架(PDMFRec)
[30]解決了DMF在構(gòu)建用戶鄰接圖時(shí)暴露用戶地理位置的問(wèn)題。PDMFRec的訓(xùn)練流程如下:l
首先,PDMFRec在一些可信的客戶端上根據(jù)用戶之間共同評(píng)過(guò)分的物品構(gòu)建用戶鄰接圖;l
然后,每個(gè)客戶端執(zhí)行本地訓(xùn)練,更新用戶特征向量和物品特征向量;l
進(jìn)一步,每個(gè)客戶端將物品特征向量的梯度發(fā)送給鄰居用戶;l
最后,每個(gè)客戶端接收其他客戶端發(fā)送過(guò)來(lái)的物品特征向量的梯度,并更新本地物品特征向量。
特點(diǎn):l
在構(gòu)建用戶鄰接圖時(shí),每個(gè)客戶端可以隱藏自己的部分?jǐn)?shù)據(jù),以此構(gòu)建不同的用戶鄰接圖;l
在模型訓(xùn)練階段用戶還能夠選擇不使用這部分?jǐn)?shù)據(jù),以達(dá)到更好地保護(hù)用戶隱私的目的;l
客戶端之間能夠直接傳遞信息,且客戶端具有匿名性。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(3/4)
15/
77Hegedus等[31]基于矩陣分解將八卦學(xué)習(xí)(gossip
learning)和聯(lián)邦學(xué)習(xí)在一個(gè)特定的任務(wù)上進(jìn)行對(duì)比:l
通過(guò)實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)在客戶端數(shù)量較多且通信成本相同的情況下兩者的效果相近;l
在都使用子采樣壓縮技術(shù)(即每次客戶端隨機(jī)采樣一部分已評(píng)分物品和未評(píng)分物品的物品特征向量發(fā)送給其他客戶端)的情況下八卦學(xué)習(xí)更具有優(yōu)勢(shì)。聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)去中心化架構(gòu)(4/4)
16/
77l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化-
協(xié)同過(guò)濾推薦算法的聯(lián)邦化-
深度學(xué)習(xí)推薦算法的聯(lián)邦化-
元學(xué)習(xí)推薦算法的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望l致謝推薦系統(tǒng)的聯(lián)邦化目錄
17/
77聯(lián)邦協(xié)同過(guò)濾推薦算法(FCF)
[28]解決了基于ALS的協(xié)同過(guò)濾算法在計(jì)算物品特征向量時(shí)會(huì)泄露用戶與物品的交互行為的問(wèn)題。l
在FCF中,用戶的隱式反饋數(shù)據(jù)保留在用戶本地,用于用戶特征向量的更新和物品特征向量的梯度
的計(jì)算;l
物品特征向量的梯度需要上傳到服務(wù)端進(jìn)行物品特征向量的更新。特點(diǎn):在保護(hù)用戶的隱私的同時(shí),F(xiàn)CF能達(dá)到和CF一樣的推薦性能。局限性:將其擴(kuò)展到評(píng)分預(yù)測(cè)問(wèn)題時(shí),模型會(huì)產(chǎn)生偏差,并且客戶端通信成本較大。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(1/17)
18/
77面向顯式反饋的聯(lián)邦協(xié)同過(guò)濾推薦算法(FedRec)
[32]解決了FCF擴(kuò)展到評(píng)分預(yù)測(cè)問(wèn)題時(shí)模型會(huì)產(chǎn)生偏差的問(wèn)題。FedRec中使用了混合填充方法:l
首先,客戶端u在本地隨機(jī)采樣部分未評(píng)過(guò)分的物品I。其中,II
=
P
IUI
,IU表示客戶端u已評(píng)分物品的集合,P為采樣參數(shù);l
其次,客戶端u對(duì)隨機(jī)采樣的物品填充虛假的評(píng)分值(在訓(xùn)練的前t次迭代填充已評(píng)分物品的分值的平均值,第t次迭代以后填充未評(píng)分物品的預(yù)測(cè)評(píng)分);l
最后,客戶端u計(jì)算梯度,并將已評(píng)分物品和虛假采樣的物品的特征向量的梯度一起上傳到服務(wù)端。
特點(diǎn):避免服務(wù)端得知客戶端u評(píng)過(guò)分的物品,提高了通信效率。UIUI推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(2/17)
19/
77與FCF、FedRec不同,聯(lián)邦矩陣分解算法(FederatedMF)[33]的物品特征向量在本地更新,具體地:l
首先,客戶端u在本地進(jìn)行用戶特征向量uu.和物品特征向量vi.的更新;l
其次,客戶端u將物品特征矩陣發(fā)送給服務(wù)端;l
然后,服務(wù)端對(duì)接收到的物品特征矩陣進(jìn)行加權(quán)平均,從而得到最新的物品特征矩陣。在特定場(chǎng)景中,F(xiàn)ederatedMF需要使用用戶特征向量來(lái)創(chuàng)建或調(diào)整內(nèi)容,因此Do
liu等人[71]建議使用
數(shù)據(jù)匿名化和差分隱私技術(shù)對(duì)用戶特征向量進(jìn)行處理,再發(fā)送給服務(wù)端。特點(diǎn):不僅保護(hù)了用戶的評(píng)分?jǐn)?shù)據(jù),還節(jié)省了服務(wù)端的計(jì)算成本。局限性:FederatedMF泄露了用戶的評(píng)分行為(即用戶對(duì)哪個(gè)物品評(píng)過(guò)分)。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(3/17)
20/
77安全的聯(lián)邦矩陣分解框架(FedMF)
[34]使用加法同態(tài)加密技術(shù)來(lái)加密客戶端要上傳到服務(wù)端的物品特征向量的梯度。l
Chai等人[34]證明,在連續(xù)兩次迭代中,在客戶端上傳同一物品的特征向量梯度的情況下,服務(wù)端能夠推斷出該用戶對(duì)這一物品的評(píng)分信息。l
與FederatedMF不同,在FedMF中,客戶端上傳的是物品特征向量的梯度,而不是物品特征向量。
特點(diǎn):保護(hù)了用戶的評(píng)分信息。局限性:FedMF泄露了用戶的評(píng)分行為;計(jì)算復(fù)雜度高。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(4/17)
21/
77與FedMF不同,共享矩陣分解方法(SharedMF)[35]使用秘密共享技術(shù)來(lái)聚合梯度。l
首先,客戶端u在其本地使用秘密共享技術(shù)將要發(fā)送給服務(wù)端的物品特征向量的梯度分成n份梯度分
片,即▽vi.
=▽vi(1)
+
▽vi(2)
+
…
+
▽vi.n
。其中,n表示客戶端的數(shù)量,
▽vi.表示物品i的特征向量的梯度;l
其次,客戶端u保留一份在本地,并將剩下的n—1份發(fā)送給其他客戶端;l
同時(shí),客戶端u接收到來(lái)自其他客戶端的物品特征向量的梯度分片;l
最后,客戶端u將這些分片與本地保留的梯度分片進(jìn)行求和運(yùn)算,并將求和運(yùn)算后得到的物品特征
向量的梯度發(fā)送給服務(wù)端。特點(diǎn):保護(hù)了用戶的評(píng)分分?jǐn)?shù)和評(píng)分行為。局限性:客戶端之間需要能夠相互通信;增加了客戶端的通信成本。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(5/17)
22/
77聯(lián)邦成對(duì)學(xué)習(xí)算法(FPL)[36]是第一個(gè)將成對(duì)學(xué)習(xí)應(yīng)用于聯(lián)邦學(xué)習(xí)的研究工作。l
FPL能夠讓用戶控制自己的敏感數(shù)據(jù)(即用戶交互過(guò)物品的特征向量的梯度)的共享程度來(lái)平衡隱私
保護(hù)和模型效果;l
具體地,F(xiàn)PL通過(guò)引入了一個(gè)概率參數(shù)π
∈
[0,1]
,使得用戶能夠控制自己交互過(guò)的物品的梯度與服
務(wù)端共享的數(shù)量,即二元組(▽vi.,▽bi.)以概率π被客戶端上傳到服務(wù)端,從而隱藏了部分互為相反數(shù)
關(guān)系的梯度,其中,i
∈Iu為用戶評(píng)過(guò)分的物品。特點(diǎn):防止服務(wù)端重構(gòu)出用戶的評(píng)分行為。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(6/17)
23/
77FedRecSys[37]是基于FATE平臺(tái)建立的一個(gè)在線的聯(lián)邦推薦系統(tǒng)。l
FedRecSys通過(guò)同態(tài)加密和秘密共享技術(shù),實(shí)現(xiàn)了一些比較經(jīng)典的推薦算法(例如,矩陣分解算法、分解機(jī)算法和基于廣度&深度學(xué)習(xí)的推薦算法等)。l
Tan等人[37]還在2020年推薦系統(tǒng)大會(huì)(ACMRecSys)上公開(kāi)演示了FedRecSys。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(7/17)
24/
77基于位置敏感哈希的聯(lián)邦推薦算法[38](FRecLSH)解決了已有的位置敏感哈希算法(LSH)難以量化隱私保護(hù)預(yù)算的問(wèn)題。定義兩個(gè)數(shù)據(jù)來(lái)源方A和B
,以A方為例,F(xiàn)RecLSH的實(shí)現(xiàn)主要有以下3個(gè)步驟:(1)A方在本地使用位置敏感的哈希函數(shù),根據(jù)每個(gè)用戶u的數(shù)據(jù)分別計(jì)算得到對(duì)應(yīng)的哈希值SU;(2)用戶u使用本地差分隱私技術(shù)處理哈希值SU
,得到擾亂后的哈希值S;(3)A方將哈希值S
發(fā)送給B方。同理,B方也要執(zhí)行上述3個(gè)步驟。特點(diǎn)
:FRecLSH通過(guò)本地差分隱私技術(shù),在聯(lián)合多方數(shù)據(jù)建模的過(guò)程中給用戶提供不同的隱私保護(hù)等級(jí),在較小的隱私預(yù)算下,F(xiàn)RecLSH能夠達(dá)到較高的時(shí)間效率和準(zhǔn)確性。UIUI推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(8/17)
25/
77PP-NMF[39]是一個(gè)基于非負(fù)矩陣分解(NMF)的POI推薦框架,它保護(hù)POI推薦中用戶的地理位置等隱私信息。l
首先,服務(wù)端挑選一批志愿者對(duì)一些地點(diǎn)進(jìn)行簽到;l
其次,服務(wù)端使用這些用戶的匿名數(shù)據(jù)訓(xùn)練得到用戶和物品的特征向量;l
然后,使用k-均值(k
—means)算法對(duì)用戶的特征向量進(jìn)行聚類,將用戶分成k個(gè)群體;l
最后,使用同一群體中的用戶的數(shù)據(jù)來(lái)構(gòu)建群體偏好。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(9/17)
26/
77聯(lián)邦多視圖矩陣分解算法(FED-MVMF)
[40]通過(guò)集成來(lái)自多個(gè)數(shù)據(jù)源的信息來(lái)解決冷啟動(dòng)問(wèn)題,它包含多個(gè)客戶端(用于存儲(chǔ)本地?cái)?shù)據(jù)信息以及計(jì)算私有的模型參數(shù))、一個(gè)物品服務(wù)器(用于存儲(chǔ)物品信息)和一個(gè)聯(lián)邦服務(wù)
器(用于聚合模型參數(shù)的梯度以及更新共享的模型參數(shù))。每個(gè)客戶端具有(用戶,物品)交互矩陣和(用戶,特征)矩陣,物品服務(wù)器具有(物品,特征)矩陣。l
首先,客戶端使用本地?cái)?shù)據(jù),通過(guò)ALS算法計(jì)算本地用戶潛在因子向量,然后通過(guò)SGD算法計(jì)算用戶屬性因子向量的梯度和物品潛在因子向量的梯度,并發(fā)送給聯(lián)邦服務(wù)器;l同時(shí),物品服務(wù)器在本地使用物品屬性因子特征和聯(lián)邦服務(wù)器發(fā)送的物品潛在因子矩陣,通過(guò)ALS和SGD算法,分別計(jì)算得到物品屬性因子向量和物品潛在因子向量的梯度,并將物品潛在因子向量的梯度發(fā)送給聯(lián)邦服務(wù)器;l
然后,聯(lián)邦服務(wù)器聚合客戶端發(fā)送的用戶屬性因子向量的梯度和物品服務(wù)器發(fā)送的物品潛在因子向量的梯度,分別用于更新用戶屬性因子向量和物品潛在因子向量,最后再將更新后的向量發(fā)送回客戶端用于物品推薦。特點(diǎn):使用了多視圖矩陣分解的方法,有效地利用了用戶屬性和物品屬性數(shù)據(jù),從而提高了模型的推薦效果。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(10/17)
27/
77Gao等人[41]總結(jié)了不同的推薦場(chǎng)景中的矩陣分解算法存在的隱私問(wèn)題,并且針對(duì)這些問(wèn)題提出了相應(yīng)的解決方案(請(qǐng)看后面三頁(yè)的內(nèi)容)。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(11/17)
28/
77推薦系統(tǒng)的聯(lián)邦化
協(xié)同過(guò)濾推薦算法的聯(lián)邦化(12/17)
(1)在A和B兩個(gè)參與方能夠共享用戶特征空間和物品特征空間的推薦場(chǎng)景中:l
首先,雙方各自使用本地?cái)?shù)據(jù)來(lái)計(jì)算物品特征向量的梯度和用戶特征向量的梯度,并分別用于更新物品特征向量和用戶特征向量;l
然后,使用模型平均算法,對(duì)雙方的用戶特征向量和物品特征向量進(jìn)行聚合,得到全局的用戶特征向量和全局的物品特征向量,即
隱私問(wèn)題:A方能夠反推出B方的用戶特征向量梯度?U
.和物品特征向量梯度?viB。解決方案:可以使用同態(tài)加密和安全多方計(jì)算等技術(shù)來(lái)保護(hù)全局的用戶特征向量和物品特征向量。UB
29/
77(2)在A方具有(用戶,物品)交互矩陣,而B方只有一些用戶或物品的輔助信息以及用戶對(duì)物品的評(píng)分的推薦場(chǎng)景中:l
A方可以利用B方所具有的輔助信息來(lái)豐富用戶特征。隱私問(wèn)題:在對(duì)齊用戶ID時(shí),會(huì)泄露B方的用戶特征信息。解決方案:建議B方對(duì)用戶特征信息進(jìn)行加密再發(fā)送給A方。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(13/17)
30/
77(3)在A方和B方具有不同的用戶集合和相同的物品集合的推薦場(chǎng)景中:l
雖然A方能夠反推出B方的用戶U對(duì)物品的真實(shí)評(píng)分,但是用戶ID是匿名的。l
只需要對(duì)物品特征向量進(jìn)行加密再發(fā)送給A方,而不需要加密用戶特征向量。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(14/17)
31/
77隱私保護(hù)的推薦系統(tǒng)框架(PPRSF)
[42]是一個(gè)適用于基于內(nèi)容的推薦算法模型、基于協(xié)同過(guò)濾的推薦算法模型和基于神經(jīng)網(wǎng)絡(luò)的推薦算法模型的框架,其分為4層:l
召回層:處于服務(wù)端,輸入為用戶的公共數(shù)據(jù)和物品信息,輸出為每個(gè)用戶的召回物品(物品子集);l
排序?qū)樱禾幱诳蛻舳耍斎霝橛脩舻谋镜財(cái)?shù)據(jù)和服務(wù)端生成的召回物品,通過(guò)本地排序模型,輸出有序的候選物品列表;l
重排層:輸入為客戶端的候選物品列表,通過(guò)一個(gè)可選方法來(lái)輸出考慮了新鮮度和公平性等因素的候選物品列表;l
服務(wù)層:處于客戶端,展示最終的推薦結(jié)果,收集用戶對(duì)物品的交互行為。特點(diǎn):召回層
減少發(fā)送物品列表時(shí)的通信成本;服務(wù)層
保護(hù)了用戶的隱私。推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(15/17)
32/
77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)FCFMF物品梯度保護(hù)了用戶的原始評(píng)分、用戶特征向量和用戶的評(píng)分行為FedRecPMF,SVD++物品梯度使用了混合填充方法,采樣了沒(méi)有評(píng)過(guò)分的樣本FederatedMFMF物品特征向量使用了數(shù)據(jù)匿名技術(shù)和差分隱私技術(shù)FedMFMF物品梯度密文使用了加法同態(tài)加密SharedMFMF物品梯度密文使用了秘密共享技術(shù)FPLBPR物品梯度第一個(gè)基于矩陣分解的聯(lián)邦成對(duì)學(xué)習(xí)方法FedRecSysWide&Deep,SVD,F(xiàn)M模型參數(shù)使用了同態(tài)加密和秘密共享技術(shù)FRecLSHLSH-basedANN哈希簽名基于差分隱私,使用了本地敏感的哈希函數(shù)PP-NMFNMF用戶組特征向量使用了匿名和k-means聚類,對(duì)用戶組偏好進(jìn)行了建模FED-MNMFMVMF梯度引入了第三方服務(wù)器,使用了物品屬性數(shù)據(jù)和用戶屬性數(shù)據(jù)PPRSFCF,NN模型參數(shù)通過(guò)召回層,降低了通信成本推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(16/17)
33/
77表一些聯(lián)邦協(xié)同過(guò)濾推薦算法的對(duì)比隱私問(wèn)題算法用戶的原始數(shù)據(jù)FCF,F(xiàn)ederatedMF,F(xiàn)edMF,SharedMF,F(xiàn)PL,F(xiàn)edRec,PPRSF,F(xiàn)RecLSH用戶的評(píng)分行為FCF,F(xiàn)PL,SharedMF,F(xiàn)edRec用戶特征向量中隱含的用戶偏好FCF,F(xiàn)ederatedMF,F(xiàn)edMF,F(xiàn)PL,F(xiàn)edRec物品特征向量中隱含的用戶評(píng)分分?jǐn)?shù)FedMF,SharedMF,F(xiàn)edRec推薦系統(tǒng)的聯(lián)邦化協(xié)同過(guò)濾推薦算法的聯(lián)邦化(17/17)
34/
77表聯(lián)邦協(xié)同過(guò)濾推薦算法解決的隱私問(wèn)題基于深度學(xué)習(xí)的聯(lián)邦云視頻推薦框架(JointRec)
[43]使用卷積神經(jīng)網(wǎng)絡(luò)從用戶和視頻的屬性以及用戶對(duì)視頻的評(píng)論中提取用戶和視頻的特征,并構(gòu)建用戶和視頻的特征向量;然后將它們應(yīng)用到PMF中來(lái)
預(yù)測(cè)用戶對(duì)視頻的評(píng)分,進(jìn)而為用戶推薦視頻。特點(diǎn):(1)減少多個(gè)云服務(wù)器之間協(xié)同訓(xùn)練時(shí)的通信成本:使用了權(quán)重參數(shù)壓縮算法,即先使用低秩
矩陣分解算法將權(quán)重參數(shù)分解成兩個(gè)低秩的矩陣,然后再使用8位量化算法對(duì)這兩個(gè)矩陣進(jìn)行壓縮;(2)JointRec仍能達(dá)到近似無(wú)損的推薦性能。局限性:用戶的原始數(shù)據(jù)保存在云服務(wù)器;沒(méi)有分析多個(gè)云服務(wù)器在協(xié)同訓(xùn)練過(guò)程中所傳遞的參數(shù)可
能存在的隱私問(wèn)題推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(1/7)
35/
77安全的聯(lián)邦子模型學(xué)習(xí)框架(SFSL)
[44]基于隨機(jī)響應(yīng)、安全聚合和布隆過(guò)濾器等技術(shù)實(shí)現(xiàn)了一個(gè)能支持百億物品規(guī)模的深度學(xué)習(xí)推薦系統(tǒng)模型。(1)在每輪訓(xùn)練過(guò)程中,隨機(jī)采樣的n個(gè)客戶端使用布隆過(guò)濾器來(lái)表示已評(píng)分物品的索引;(2)服務(wù)端通過(guò)安全聚合技術(shù)來(lái)獲取所有客戶端的物品索引的并集,并發(fā)送給這n個(gè)參與模型訓(xùn)練的客戶端;(3)每個(gè)客戶端使用滿足本地差分隱私的二次隨機(jī)響應(yīng)技術(shù)來(lái)選擇需要下載的物品的特征向量。特點(diǎn):在多次隨機(jī)應(yīng)答后,服務(wù)端無(wú)法推測(cè)出客戶端真實(shí)的評(píng)分行為;減少客戶端的存儲(chǔ)壓力;減低
了客戶端和服務(wù)端之間的通信成本。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(2/7)
36/
77基于GMF的深度聯(lián)邦推薦模型(FedFast)
[45]通過(guò)客戶端采樣技術(shù)和安全聚合技術(shù),加快了模型的收斂速度??蛻舳瞬蓸蛹夹g(shù)的技術(shù)細(xì)節(jié):l
在采樣客戶端之前,服務(wù)端使用k-均值算法,根據(jù)用戶嵌入對(duì)用戶進(jìn)行聚類;l
然后,客戶端輪流從每一個(gè)聚類好的用戶群中隨機(jī)采樣一個(gè)客戶端參與模型訓(xùn)練,直到采樣滿足一定數(shù)目的客戶端;l
在每次算法迭代過(guò)程中都需要根據(jù)更新后的用戶嵌入來(lái)更新用戶群,然后重新選擇參與模型訓(xùn)練的客戶端;l
參與訓(xùn)練的客戶端A需將接收到的模型參數(shù)發(fā)送給處于同一群中的其他客戶端,其他客戶端利用客戶端A發(fā)送的模型參數(shù)來(lái)加速自己的模型訓(xùn)練。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(3/7)
37/
77基于內(nèi)容的聯(lián)邦多視圖框架(FL-MV-DSSM)
[46]解決了冷啟動(dòng)的問(wèn)題,還聯(lián)合學(xué)習(xí)了多個(gè)視圖的用戶特征。l
每個(gè)客戶端有多個(gè)視圖,每個(gè)視圖可以看做一個(gè)應(yīng)用程序(APP),且不同應(yīng)用程序的原始數(shù)據(jù)不能
直接進(jìn)行共享;l
客戶端在本地共享多個(gè)視圖的用戶和物品的特征向量梯度;l
為了保護(hù)共享的梯度中蘊(yùn)含的敏感信息,F(xiàn)L-MV-DSSM使用差分隱私技術(shù)向各個(gè)視圖的物品特征向量的梯度中加入高斯噪聲。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(4/7)
38/
77推薦系統(tǒng)的聯(lián)邦化
深度學(xué)習(xí)推薦算法的聯(lián)邦化(5/7)
在基于GRU4Rec模型的通用的聯(lián)邦序列推薦模型(DeepRec)[47]中,服務(wù)端可以收集一些必要的商業(yè)數(shù)據(jù)(例如,用戶的購(gòu)買記錄),同時(shí),在GDPR條例頒布前收集到的數(shù)據(jù)仍可保存。l
首先,服務(wù)端使用GDPR條例頒布前的數(shù)據(jù),以及GDPR條例頒布后的商業(yè)數(shù)據(jù),訓(xùn)練得到一個(gè)全局的模型;l
其次,客戶端下載全局模型,并根據(jù)本地?cái)?shù)據(jù)進(jìn)行微調(diào),得到一個(gè)符合用戶偏好的個(gè)性化聯(lián)邦學(xué)習(xí)模型;l
同時(shí),在推薦物品之前,服務(wù)端會(huì)根據(jù)收集到的數(shù)據(jù),使用基于物品相似度的協(xié)同過(guò)濾算法,計(jì)算得到物品的候選集;l
最后,客戶端只需要根據(jù)本地的個(gè)性化模型,對(duì)候選集進(jìn)行排序,從而完成對(duì)物品的排序。特點(diǎn):客戶端不需要上傳任何中間參數(shù)給服務(wù)端。局限性:DeepRec沒(méi)有根據(jù)點(diǎn)擊、購(gòu)買等微觀行為背后隱含的不同的偏好程度進(jìn)行建模;客戶端的點(diǎn)擊數(shù)據(jù)僅參與本地的模型訓(xùn)練,沒(méi)有很好地幫助其他客戶端訓(xùn)練有效的模型。
39/
77通用的GNN聯(lián)邦推薦學(xué)習(xí)框架(FedGNN)[48]引入了第三方服務(wù)器l
在對(duì)第三方服務(wù)器隱藏物品ID的情況下,第三方服務(wù)器幫助客戶端匹配鄰居用戶,并以匿名的方式發(fā)送鄰居用戶的特征向量給客戶端;l
根據(jù)用戶對(duì)物品的交互信息以及鄰居用戶的特征向量,客戶端在本地構(gòu)建(用戶,物品)子圖;l
在模型訓(xùn)練時(shí),客戶端需要將計(jì)算好的物品特征向量的梯度發(fā)送給服務(wù)端聚合,為了保護(hù)用戶的交互行為以及梯度信息,客戶端采樣部分沒(méi)有交互過(guò)的物品,并使用本地差分隱私技術(shù)對(duì)參數(shù)的梯度
加入噪聲,再上傳到服務(wù)端。推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(6/7)
40
/
77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)JointRecCNN權(quán)重參數(shù)壓縮了權(quán)重參數(shù)SFSLDIN物品梯度引入了子模型的概念,使用了二次隨機(jī)響應(yīng)技術(shù)FedFastGMF模型參數(shù)使用k
—
means聚類方法來(lái)加快模型訓(xùn)練FL-MV-DSSMDSSM梯度解決了DSSM的冷啟動(dòng)問(wèn)題,使用了多個(gè)視圖的用戶特征,使用了差分隱私技術(shù)DeepRecGRU4Rec-假設(shè)商業(yè)數(shù)據(jù)可以被服務(wù)端收集FedGNNGNN梯度引入了第三方服務(wù)器,并對(duì)其隱藏物品ID,使用了虛假采樣未交互過(guò)的物品的策略,使用了本地差分隱私技術(shù)推薦系統(tǒng)的聯(lián)邦化深度學(xué)習(xí)推薦算法的聯(lián)邦化(7/7)
41
/
77表一些聯(lián)邦深度學(xué)習(xí)推薦算法的對(duì)比基于Reptile元學(xué)習(xí)算法的聯(lián)邦推薦框架(SEFR)[49]解決了推薦系統(tǒng)中的評(píng)分預(yù)測(cè)中的隱私問(wèn)題。l
該框架在經(jīng)過(guò)多次全局訓(xùn)練以后,再在每個(gè)客戶端進(jìn)行局部訓(xùn)練,以微調(diào)全局模型使之適應(yīng)客戶端,達(dá)到個(gè)性化推薦的目的。特點(diǎn):保護(hù)用戶的原始評(píng)分信息。局限性:泄露了用戶的評(píng)分行為。推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(1/4)
42
/
77基于聯(lián)邦學(xué)習(xí)的元矩陣分解框架(MetaMF)
[50]解決了現(xiàn)有聯(lián)邦推薦研究中生成的推薦模型較大而消耗較多客戶端資源的問(wèn)題。l
MetaMF能夠?yàn)槊總€(gè)客戶端生成一個(gè)私有的物品嵌入和一個(gè)較小的評(píng)分預(yù)測(cè)模型。l
在MetaMF中,協(xié)同記憶(CM)模塊和元推薦(MR)模塊都部署在服務(wù)端,評(píng)分預(yù)測(cè)(RP)模塊部署在客戶端。其中,CM模塊用于生成協(xié)作向量,MR模型以協(xié)作向量為輸入,生成客戶端私有的物品嵌
入和RP模型,RP模塊使用RP模型為用戶進(jìn)行評(píng)分預(yù)測(cè)。推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(2/4)
43
/
77推薦系統(tǒng)的聯(lián)邦化
元學(xué)習(xí)推薦算法的聯(lián)邦化(3/4)
基于元學(xué)習(xí)的聯(lián)邦推薦框架(Fed4Rec)
[51]解決了頁(yè)面推薦場(chǎng)景中共享數(shù)據(jù)給服務(wù)端的公共用戶和將數(shù)據(jù)保留在客戶端本地的私有用戶如何進(jìn)行協(xié)同訓(xùn)練的問(wèn)題。l
首先,服務(wù)端初始化模型參數(shù),隨后將模型參數(shù)發(fā)送給參與模型訓(xùn)練的客戶端;l
其次,客戶端使用本地?cái)?shù)據(jù)來(lái)訓(xùn)練模型參數(shù),并將更新后的參數(shù)發(fā)送到服務(wù)端;l
然后,服務(wù)端使用MAML元學(xué)習(xí)算法,利用公共用戶的數(shù)據(jù)和私有用戶上傳的模型參數(shù)訓(xùn)練全局模型;l
最后,服務(wù)端將全局模型發(fā)送給每個(gè)客戶端,繼續(xù)進(jìn)行下一次的迭代訓(xùn)練,直到模型收斂。
特點(diǎn):只有少數(shù)用戶共享數(shù)據(jù),而其他用戶共享模型參數(shù)。局限性:沒(méi)有考慮在模型參數(shù)上傳給服務(wù)端的過(guò)程中存在的隱私問(wèn)題。
44
/
77算法基準(zhǔn)算法中間參數(shù)特點(diǎn)SEFRReptilemeta
learning模型參數(shù)通過(guò)微調(diào)全局模型來(lái)適應(yīng)每個(gè)客戶端,從而構(gòu)建個(gè)性化
的聯(lián)邦推薦模型MetaMFMF梯度結(jié)合了協(xié)同過(guò)濾和元學(xué)習(xí)Fed4RecMAML模型參數(shù)解決了在只有少部分用戶共享數(shù)據(jù),而其他用戶共享模
型參數(shù)的場(chǎng)景中客戶端協(xié)同訓(xùn)練的問(wèn)題推薦系統(tǒng)的聯(lián)邦化元學(xué)習(xí)推薦算法的聯(lián)邦化(4/4)
45
/
77表一些聯(lián)邦元學(xué)習(xí)推薦算法的對(duì)比l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用-
基于同態(tài)加密的推薦算法-
基于差分隱私的推薦算法-
基于本地差分隱私的推薦算法-
基于安全多方計(jì)算的推薦算法l未來(lái)研究展望
l致謝隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用目錄
46
/
77同態(tài)加密技術(shù)(homomorphic
encryption,HE)支持密文之間的運(yùn)算,即解密后的密文運(yùn)算結(jié)果與明文的運(yùn)算結(jié)果相等,其包括加法同態(tài)加密算法、乘法同態(tài)加密算法和全同態(tài)加密算法。定義x和x1為兩
個(gè)實(shí)數(shù),E為加密算法,D為解密算法,⊕為加法運(yùn)算算法,?為乘法運(yùn)算算法。l
加法同態(tài)加密:D
E
x
⊕
E
x1
=
x
+
x1,l
乘法同態(tài)加密:D
E
x
?
E
x1
=
xx1,l
全同態(tài)加密則同時(shí)具有加法同態(tài)加密算法和乘法同態(tài)加密算法的特性。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(1/4)
47
/
77CryptoRec[52]假設(shè)云服務(wù)器是不可信的,因此客戶端上傳給云服務(wù)器的是經(jīng)過(guò)同態(tài)加密技術(shù)處理后的用戶偏好數(shù)據(jù),服務(wù)端利用加密后的評(píng)分?jǐn)?shù)據(jù)計(jì)算物品梯度并更新物品特征向量,在模型收斂后服務(wù)端返回預(yù)測(cè)評(píng)分給用戶。l
為了進(jìn)一步提高模型的推薦效果,服務(wù)端在計(jì)算模型梯度之前使用用戶的加密數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。l
為了減少通信成本以及加密后的數(shù)據(jù)的乘法次數(shù),CryptoRec還使用了稀疏量化重用算法,其通過(guò)刪除一些不在特定閾值范圍內(nèi)的模型參數(shù)來(lái)降低通信成本。l
同時(shí),在不影響模型準(zhǔn)確率的情況下,通過(guò)復(fù)用兩個(gè)加密數(shù)據(jù)的乘法計(jì)算結(jié)果來(lái)減少乘法次數(shù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(2/4)
48
/
77Lyu等[53]針對(duì)地點(diǎn)推薦問(wèn)題,基于物品的協(xié)同過(guò)濾方法和同態(tài)加密技術(shù),提出了一個(gè)基于隱私保護(hù)的推薦框架,其主要包括3大部分:提供隱私保護(hù)推薦的服務(wù)器(PPRS),提供公鑰和私鑰的隱私服務(wù)提供方(PSP),加密的數(shù)據(jù)庫(kù)(ED)。l
首先,PSP將同態(tài)加密的公鑰發(fā)送給用戶和PPRS,同態(tài)加密的私鑰僅自己擁有;l
接著,用戶使用地點(diǎn)訪問(wèn)信息,基于同態(tài)加密技術(shù)生成共生矩陣,并將其存儲(chǔ)在ED中,然后將地點(diǎn)和偏好進(jìn)行加密,分別發(fā)送給PSP和PPRS;l
緊接著,PPRS使用加密后的用戶地點(diǎn)和共生矩陣生成加密后的推薦列表,并將其發(fā)送給PSP;l
最后,PSP對(duì)推薦列表進(jìn)行解密并篩選出與用戶有關(guān)的推薦地點(diǎn),并將其推薦給用戶。l
此外,如果用戶的行為有變化,那么需要更新存儲(chǔ)在ED中的共生矩陣,從而對(duì)推薦列表進(jìn)行更新。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(3/4)
49
/
77Kim等人[54]將全同態(tài)加密技術(shù)應(yīng)用于矩陣分解算法中,提出了一個(gè)基于虛假評(píng)分的推薦算法。l
首先,客戶端使用同態(tài)加密算法加密用戶的真實(shí)評(píng)分?jǐn)?shù)據(jù)和虛假評(píng)分?jǐn)?shù)據(jù)后上傳到服務(wù)端;l
其次,服務(wù)端在密文中加上隨機(jī)掩碼后再發(fā)送給加密服務(wù)提供方(CSP);l
然后,CSP將密文解密,并使用定點(diǎn)算法處理,對(duì)處理結(jié)果加密并發(fā)送給服務(wù)端;l
最后,服務(wù)端在消除虛假評(píng)分?jǐn)?shù)據(jù)后使用梯度下降算法,與CSP進(jìn)行聯(lián)合計(jì)算,得到加密的用戶和
物品畫像。特點(diǎn):(1)服務(wù)端與CSP的協(xié)同計(jì)算能提高全同態(tài)加密算法的性能,從而提高模型的計(jì)算效率;(2)保護(hù)用戶的原始評(píng)分?jǐn)?shù)據(jù)、用戶和物品的畫像、用戶的評(píng)分行為、用戶已評(píng)分物品的數(shù)量以及用戶的模型參數(shù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于同態(tài)加密的推薦算法(4/4)
50/
77差分隱私技術(shù)(differential
privacy,DP)是一種在統(tǒng)計(jì)分析數(shù)據(jù)集信息時(shí),用來(lái)保護(hù)數(shù)據(jù)集中的個(gè)體信息的加密技術(shù)。給定任何兩個(gè)相鄰數(shù)據(jù)集D1,
D2
∈D
,它們最多只有一條數(shù)據(jù)記錄不同,對(duì)于一個(gè)隨機(jī)算法A
,其所有可能的輸出的任一子集SA
,如果存在如下不等式,則稱算法A滿足E-差分隱私(即很難推斷出是D1
還是D2生成了SA):Pr
A
D1
∈
SA
≤
eE
Pr[A(D2)
∈
SA],其中,E是隱私預(yù)算,E的值越小表示隱私保護(hù)強(qiáng)度越高,引入的噪聲也就越多,通常需要設(shè)置合理的E值來(lái)權(quán)衡隱私保護(hù)強(qiáng)度和模型性能。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于差分隱私的推薦算法(1/2)
51/
77基于差分隱私的本地協(xié)同過(guò)濾算法(DPLCF)
[55]解決了基于隱私保護(hù)的協(xié)同過(guò)濾算法無(wú)法較好地處理隱式反饋數(shù)據(jù)的問(wèn)題,其主要包括3個(gè)計(jì)算步驟:(1)客戶端對(duì)隱式反饋數(shù)據(jù)使用滿足差分隱私的隨機(jī)翻轉(zhuǎn)技術(shù)進(jìn)行翻轉(zhuǎn),并上傳給服務(wù)端;當(dāng)用戶對(duì)物品的交互rui
=
1時(shí)以概率p保留原來(lái)的值,以概率1
—p翻轉(zhuǎn)為0;當(dāng)用戶對(duì)物品的交互rui
=
0時(shí)以概率1
—
q保留原來(lái)的值,以概率q翻轉(zhuǎn)為1;(2)服務(wù)端使用這些數(shù)據(jù),基于差分隱私的集合操作的分布式基數(shù)估計(jì)算法計(jì)算II
∩
I
pI和II
U
I
pI
,進(jìn)而計(jì)算杰卡德物品相似度,然后將物品相似度矩陣發(fā)送給客戶端;(3)客戶端使用物品之間的相似度,通過(guò)基于物品的協(xié)同過(guò)濾算法來(lái)進(jìn)行物品推薦。1iufluflip1iufluflip隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于差分隱私的推薦算法(1/2)
52/
77在本地差分隱私技術(shù)(
localdifferentialprivacy,LDP)中,用戶數(shù)據(jù)在被不可信的第三方服務(wù)端收集前,由客戶端自主加入噪聲。對(duì)于客戶端u
,假設(shè)其任意兩個(gè)輸入為D
和D,對(duì)于一個(gè)隨機(jī)算法A
,如果存在如下不等式,則稱算法A滿足E-本地差分隱私(即很難推斷出是D
還是D
生成了SA)
:Pr
A
D∈
SA
≤
eE
Pr
A
D
∈SA
.2U1U2U1U2U1U隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(1/3)
53/
77在隱私保護(hù)的推薦框架(PriRec)[56]中:l
與用戶隱私無(wú)關(guān)的公共數(shù)據(jù)(例如,POI的描述信息和POI的類別信息)保存在服務(wù)端以減少客戶端的存儲(chǔ)壓力;l
敏感數(shù)據(jù)(例如,用戶的配置文件、用戶對(duì)某個(gè)POI的交互行為和推薦模型)保存在客戶端本地;l
在建模過(guò)程需要的POI動(dòng)態(tài)特征(如POI的訪問(wèn)量、POI的平均消費(fèi)等)通過(guò)客戶端上傳使用本地差
分隱私技術(shù)(LDP)來(lái)添加噪聲后的數(shù)據(jù),且使得服務(wù)端計(jì)算得到的POI動(dòng)態(tài)特征能接近真實(shí)的訪問(wèn)
量。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(2/3)
54/
77FedNewsRec[57]是一個(gè)基于聯(lián)邦學(xué)習(xí)的新聞推薦框架。l
客戶端在服務(wù)端中存儲(chǔ)新聞推薦模型的副本,且客戶端可以利用該副本進(jìn)行模型梯度的計(jì)算,然后將該梯度進(jìn)行裁剪之后上傳到服務(wù)端;l
服務(wù)端利用客戶端上傳的模型梯度進(jìn)行模型的更新。模型梯度中可能包含用戶的敏感信息,因此客戶端使用本地差分隱私技術(shù)往模型梯度中加入隨機(jī)噪聲。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于本地差分隱私的推薦算法(3/3)
55/
77安全多方計(jì)算技術(shù)(secure
multi-party
computation,SMPC)使得參與計(jì)算的各方能夠在協(xié)同計(jì)算的同時(shí)保護(hù)各自數(shù)據(jù)的隱私,其主要包括秘密共享、同態(tài)加密和不經(jīng)意傳輸?shù)燃夹g(shù)。l
秘密共享是指一個(gè)參與多方計(jì)算的用戶將自己的數(shù)據(jù)分割成多份秘密,然后將其發(fā)送給其他用戶,只有用戶達(dá)到一定數(shù)量才能一起重構(gòu)秘密;l
不經(jīng)意傳輸能夠保證發(fā)送方不知道接收方收到的是哪一部分?jǐn)?shù)據(jù),而接收方不能接收除特定數(shù)據(jù)以外的其他任何數(shù)據(jù)。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(1/4)
56/
77在PriRec[56]框架中,用戶U需要對(duì)其鄰居用戶UI
∈N(u)的模型WU/進(jìn)行求和,而模型中包含的用戶偏好信息會(huì)泄露鄰居用戶的隱私。因此,PriRec使用了秘密共享技術(shù)。l
首先,用戶U的鄰居用戶UI在本地計(jì)算得到權(quán)重線性模型SUUIWUI,其中SUUI是用戶U與鄰居用戶UI之
間的權(quán)重;l
其次,基于秘密共享技術(shù),鄰居用戶UI
∈N(u)的權(quán)重線性模型SUUIWUI被劃分成|N(u)|份,保留一
份在鄰居用戶UI本地,然后將剩下的|N(u)|-1份發(fā)送給用戶U的其他鄰居用戶;l
然后,鄰居用戶UI
∈N(u)接收并匯總來(lái)自其他鄰居用戶的權(quán)重線性模型,并發(fā)送給用戶U;l
最后,用戶U接收來(lái)自其他鄰居用戶通過(guò)秘密共享后的權(quán)重線性模型,用于更新模型WU。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(2/4)
57/
77安全的社交推薦框架(SeSoRec)
[58]在保護(hù)社交平臺(tái)和評(píng)分平臺(tái)的數(shù)據(jù)的同時(shí),利用社交平臺(tái)的信息來(lái)輔助評(píng)分平臺(tái)提高推薦效果。l
SeSoRec使用了基于秘密共享的矩陣乘法(SSMM),使得兩個(gè)來(lái)自不同參與方的矩陣在進(jìn)行矩陣相
乘操作時(shí)不泄露社交平臺(tái)的隱私信息。隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(3/4)
58/
77隱私保護(hù)的余弦相似度算法(PrivateCosine)和隱私保護(hù)的皮爾遜相似度算法(PrivatePearson)[59]使用秘密共享技術(shù)來(lái)計(jì)算物品之間的相似度。以PrivateCosine算法為例:l
首先,客戶端u在本地計(jì)算得到ruiruj
,r
i和r
j
;l
然后,客戶端u將它們隨機(jī)分割成ku個(gè)分片,并將其中的ku
—
1個(gè)分片發(fā)送給隨機(jī)選擇的其他客戶
端,其中ku
>
3。l
同時(shí),客戶端u將其他客戶端發(fā)送過(guò)來(lái)的分片與對(duì)應(yīng)的本地分片進(jìn)行求和運(yùn)算,再發(fā)送給服務(wù)端;l
最后,服務(wù)端對(duì)客戶端上傳的值進(jìn)行聚合,并計(jì)算得到物品之間的相似度。與PrivateCosine算法有所區(qū)別,PrivatePearson算法還需要利用秘密共享技術(shù)計(jì)算物品的平均評(píng)分。u2u2隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用基于安全多方計(jì)算的推薦算法(4/4)
59/
77技術(shù)優(yōu)點(diǎn)缺點(diǎn)應(yīng)用場(chǎng)景同態(tài)加密無(wú)損;高安全計(jì)算復(fù)雜度較高保護(hù)用戶畫像或物品描述[54],保護(hù)用戶行為[54],保護(hù)用戶的評(píng)分分?jǐn)?shù)
[52,54]差分隱私不依賴背景知識(shí);隱私預(yù)算可調(diào)損害模型精度保護(hù)用戶的隱私反饋數(shù)據(jù)[55]本地差分隱私防止不可信的服務(wù)端的
差分攻擊損害模型精度保護(hù)梯度中的敏感信息[57],保護(hù)用
戶行為數(shù)據(jù)中的敏感統(tǒng)計(jì)信息[56]秘密共享無(wú)損;計(jì)算復(fù)雜度較低通信復(fù)雜度較高在多方協(xié)同計(jì)算過(guò)程中保護(hù)用戶的信
息[54,56,58,59]
60/
77隱私保護(hù)技術(shù)在推薦系統(tǒng)中的應(yīng)用表聯(lián)邦推薦中的隱私保護(hù)技術(shù)l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望-
推薦系統(tǒng)的聯(lián)邦化-
聯(lián)邦推薦系統(tǒng)的優(yōu)化-
聯(lián)邦推薦場(chǎng)景中的隱私安全問(wèn)題l致謝未來(lái)研究展望目錄
61/
77l傳統(tǒng)的推薦模型的聯(lián)邦化方面的相關(guān)工作仍存在其他的隱私問(wèn)題l在聯(lián)邦推薦模型中,通過(guò)隱私保護(hù)技術(shù)來(lái)保護(hù)隱私方面會(huì)帶來(lái)通信成本增加、計(jì)算復(fù)雜度增大和
推薦性能下降等新的問(wèn)題l聯(lián)邦模型的訓(xùn)練方式與非聯(lián)邦版本等價(jià)的同時(shí),算法的訓(xùn)練效率較低l在對(duì)基于深度學(xué)習(xí)的推薦算法進(jìn)行聯(lián)邦化方面,客戶端的存儲(chǔ)資源和計(jì)算能力通常無(wú)法與龐大的神經(jīng)網(wǎng)絡(luò)相匹配,并且客戶端自身的數(shù)據(jù)量有限,難以訓(xùn)練出較好的深度學(xué)習(xí)模型-
邊緣計(jì)算和知識(shí)蒸餾是兩個(gè)解決客戶端資源受限的研究思路l
目前還沒(méi)有公開(kāi)發(fā)表的面向序列反饋和異構(gòu)反饋建模的聯(lián)邦推薦方法未來(lái)研究展望推薦系統(tǒng)的聯(lián)邦化
62/
77l模型壓縮、通信策略的改進(jìn)、激勵(lì)機(jī)制和客戶端采樣等優(yōu)化方法如何在聯(lián)邦推薦模型中應(yīng)用l如何為特定的推薦模型設(shè)計(jì)更有效的優(yōu)化算法未來(lái)研究展望聯(lián)邦推薦系統(tǒng)的優(yōu)化
63/
77l如何衡量聯(lián)邦場(chǎng)景中的隱私安全問(wèn)題,并對(duì)已有工作中存在的隱私問(wèn)題,設(shè)計(jì)一個(gè)更為有效的解
決方法l如何在可能存在惡意的客戶端和服務(wù)端或者存在一些數(shù)據(jù)質(zhì)量較低的客戶端的環(huán)境下,設(shè)計(jì)聯(lián)邦
推薦模型l客戶端如何運(yùn)用模型投毒防御和對(duì)抗攻擊防御等防御手段來(lái)保護(hù)自己模型的安全性和有效性未來(lái)研究展望聯(lián)邦推薦場(chǎng)景中的隱私安全問(wèn)題
64/
77l引言l聯(lián)邦推薦系統(tǒng)的架構(gòu)設(shè)計(jì)l推薦系統(tǒng)的聯(lián)邦化l隱私保護(hù)技術(shù)在聯(lián)邦推薦系統(tǒng)中的應(yīng)用l未來(lái)研究展望
l致謝致謝目錄
65/
77[1]
Yang
Q,
Liu
Y,
Chen
T
J,
et
al.
Federated
machine
learning:
concept
and
applications.
ACM
Trans
Intell
SystTechnol,2019,
10:
1–19[2]ChengK
W,
Fan
T,
Jin
Y
L,
et
al.SecureBoost:a
lossless
federated
learning
framework.
2018.ArXiv:1901.08755[3]
WangS,ChangTH.Federatedclusteringviamatrixfactorizationmodels:frommodelaveragingtogradientsharing.2020.
ArXiv:2002.04930[4]HeCY,BalasubramanianK,
CeyaniE,
et
al.
FedGraphNN:
a
federated
learning
system
and
benchmark
forgraphneuralnetworks.2021.arXiv:2104.07145[5]LiuDB,MillerTA.Federatedpretrainingandfinetuningof
BERTusing
clinicalnotes
frommultiple
silos.2020.
ArXiv:2002.08562[6]
Wang
Y
J,
Cui
X
L,
Gao
Z
Q,
et
al.
Fed-SCNN:
a
federated
shallow-CNN
recognition
framework
fordistracteddriving.SecurCommunNetw,2020,2020:6626471參考文獻(xiàn)
67/
77[7]
Chen
M
Q,
Mathews
R,
Ouyang
T,
et
al.
Federated
learning
ofout-of-vocabularywords.2019.
ArXiv:1903.
10635[8]LiuY,KangY,Xing
C
P,
et
al.
A
secure
federated
transfer
learning
framework.
IEEE
Intell
Syst,
2020,
35:
70–82[9]
Sharma
S,Xing
C
P,
LiuY,
et
al.
Secure
and
efficient
federatedtransfer
learning.
In:
Proceedings
ofIEEEInternationalConferenceonBigData,Los
Angeles,2019.2569–2576[10]LiuBY,WangLJ,LiuM.
Lifelong
federated
reinforcement
learning:
a
learning
architecture
for
navigationincloudroboticsystems.IEEERobot
AutomLett,2019,4:4555–4562[11]ChenF,DongZH,LiZG,etal.Federatedmeta-learning
forrecommendation.2018.
ArXiv:1802.07876[12]LinYJ,RenPJ,Chen
Z
M,
et
al.
Meta
matrix
factorization
for
federated
rating
redictions.
In:
Proceedings
ofthe
43rd
International
ACM
SIGIR
Conference
on
Research
and
Development
in
InformationRetrieval,2020.981–990參考文獻(xiàn)
68/
77[13]
Kone√cn′y
J,
McMahan
H
B,
Yu
F
X,
et
al.
Federated
learning:
strategies
for
improving
communicationefficiency.2016.
ArXiv:1610.05492[14]McMahanB,MooreE,RamageD,etal.Communication-efficientlearningofdeepnetworksfromdecentralizeddata.In:Proceedingsof
the20thInternationalConferenceonArtificial
Intelligence
and
Statistics,
FortLauderdale,2017.
1273—1282[15]
Lu
S
T,
Zhang
Y
W,
Wang
Y
L,
et
al.
Learn
electronic
health
records
by
fully
decentralized
federatedlearning.2019.
ArXiv:1912.01792[16]
Reisizadeh
A,
Mokhtari
A,
Hassani
H,etal.FedPAQ:acommunication-efficientfederatedlearningmethodwithperiodicaveragingandquantization.2019.
ArXiv:1909.
13014[17]WangLP,WangW,LiB.
CMFL:
mitigating
communication
overhead
for
federated
learning.
In:
Proceedingsof
the39thInternationalConferenceonDistributedComputingSystems,Dallas,2019.
954—964參考文獻(xiàn)
69/
77[18]GoetzJ,MalikK,BuiD,etal.
Activefederatedlearning.2019.
ArXiv:1909.
12641[19]
Cao
T
D,
Truong-Huu
T,
Tran
H
D,
et
al.
A
federated
learning
framework
for
privacy-preserving
andparalleltraining.2020.
ArXiv:2001.09782[20]Yu
H,
Liu
Z
L,
Liu
Y,
et
al.
Afairness-aware
incentive
scheme
for
federated
learning.
In:
Proceedings
of
AAAI/ACMConferenceon
AI,Ethics,and
Society,NewYork,2020.393—399[21]Khan
LU,
Pandey
S
R,
TranN
H,
et
al.
Federated
learning
for
edgenetworks:resource
optimization
and
incentivemechanism.IEEECommunMag,2020,58:
88—93[22]KangJW,XiongZH,NiyatoD,et
al.Incentive
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衢江區(qū)游樂(lè)設(shè)施管理辦法
- 襄陽(yáng)市道路管理辦法規(guī)定
- 西秀區(qū)人才津貼管理辦法
- 論壇管理研討會(huì)暫行辦法
- 評(píng)標(biāo)委員會(huì)管理暫行辦法
- 財(cái)務(wù)負(fù)責(zé)人委派管理辦法
- 購(gòu)物卡會(huì)計(jì)憑證管理辦法
- 貴州省防洪預(yù)案管理辦法
- 資產(chǎn)證券化業(yè)務(wù)管理辦法
- 足球俱樂(lè)部運(yùn)營(yíng)管理辦法
- 二等水準(zhǔn)測(cè)量記錄表
- 母線槽安裝檢驗(yàn)批質(zhì)量驗(yàn)收記錄
- 養(yǎng)老機(jī)構(gòu)安全檢查表
- 企業(yè)員工上下班交通安全培訓(xùn)(簡(jiǎn)詳共2份)
- 小區(qū)物業(yè)服務(wù)收支情況公示
- 22種常見(jiàn)環(huán)境違法行為筆錄調(diào)查詢問(wèn)筆錄及現(xiàn)場(chǎng)筆錄模板(修改版)
- 統(tǒng)編版小學(xué)語(yǔ)文二升三銜接專項(xiàng)訓(xùn)練—看圖寫話(二)【含答案】
- 全國(guó)教育系統(tǒng)關(guān)心下一代工作先進(jìn)集體事跡材料
- 臨時(shí)占道申請(qǐng)書(精品)
- 除濕機(jī)設(shè)備一級(jí)保養(yǎng)記錄表
- 10kV電容器組安裝施工方案(共7頁(yè))
評(píng)論
0/150
提交評(píng)論