




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏
使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采集、傳輸、使用等環(huán)節(jié)中
的暴露,降低敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),盡可能降低數(shù)據(jù)泄露造成的危害。
2021年6月10日,《數(shù)據(jù)安全法》正式頒布,于2021年9月1日正式
施行,作為我國(guó)數(shù)據(jù)安全領(lǐng)域的首部基礎(chǔ)法律,也是國(guó)家安全領(lǐng)域的一部重要
法律,標(biāo)志著我國(guó)以數(shù)據(jù)安全保障數(shù)據(jù)開發(fā)利用和產(chǎn)業(yè)發(fā)展全面進(jìn)入法治化軌
道。
一、背景由來(lái)
隨著大數(shù)據(jù)時(shí)代的發(fā)展,數(shù)據(jù)信息已經(jīng)成為了企業(yè)運(yùn)行的重要資產(chǎn)。不同
企業(yè)之間相互共享數(shù)據(jù)、分析數(shù)據(jù),進(jìn)而開展相關(guān)業(yè)務(wù)。然而,一些企業(yè)在對(duì)
數(shù)據(jù)進(jìn)行分析處理時(shí),并沒(méi)有對(duì)數(shù)據(jù)進(jìn)行安全保護(hù),導(dǎo)致數(shù)據(jù)存在泄露等風(fēng)
險(xiǎn)。安全研究中心PonemonInstitute和IBMSecurity聯(lián)合發(fā)布的《2019
年數(shù)據(jù)泄露成本報(bào)告》中指出,超過(guò)100萬(wàn)條記錄的泄露預(yù)計(jì)會(huì)給企業(yè)帶來(lái)4
200萬(wàn)美元的損失。在這樣的背景下,數(shù)據(jù)泄露可能造成的潛在危害,驅(qū)使國(guó)
家、行業(yè)、企業(yè)等各層面愈發(fā)重視數(shù)據(jù)安全問(wèn)題。2021年6月10日,十三屆
全國(guó)人大常委會(huì)第二十九次會(huì)議通過(guò)并正式發(fā)布的《數(shù)據(jù)安全法》,明確指出
數(shù)據(jù)安全需要通過(guò)必要措施,確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及
具備保障持續(xù)安全狀態(tài)的能力。
作為數(shù)據(jù)安全中重要的一環(huán),數(shù)據(jù)脫敏也逐漸被人們所關(guān)注。數(shù)據(jù)脫敏技
術(shù)是一種可以通過(guò)數(shù)據(jù)變形方式對(duì)于敏感數(shù)據(jù)進(jìn)行處理,從而降低數(shù)據(jù)敏感程
度的一種數(shù)據(jù)處理技術(shù)。使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采
集、傳輸、使用等環(huán)節(jié)中的暴露,降低敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),盡可能降低數(shù)據(jù)
泄露造成的危害。
二、脫敏技術(shù)
數(shù)據(jù)庫(kù)安全>?。數(shù)據(jù)安全治理M@Q文檔安全
完
傳
加密傳輸加密傳輸整
輸分類分級(jí)
數(shù)據(jù)全生命周期管控性
和
角色授權(quán)和
數(shù)據(jù)加密數(shù)據(jù)加密
存
場(chǎng)景安全采集、傳輸、加工抗
存儲(chǔ)、使用、銷毀抵
儲(chǔ)運(yùn)營(yíng)優(yōu)化
數(shù)據(jù)脫敏數(shù)據(jù)脫敏賴
區(qū)塊鏈備份恢復(fù)數(shù)據(jù)水印數(shù)據(jù)溯源數(shù)據(jù)確權(quán)
安全發(fā)布數(shù)據(jù)產(chǎn)權(quán)
2.1隱私數(shù)據(jù)脫敏技術(shù)
通常在大數(shù)據(jù)平臺(tái)中,數(shù)據(jù)以結(jié)構(gòu)化的格式存儲(chǔ),每個(gè)表有諸多行組成,
每行數(shù)據(jù)有諸多列組成。根據(jù)列的數(shù)據(jù)屬性,數(shù)據(jù)列通??梢苑譃橐韵聨追N類
型:
序類型性質(zhì)例子
號(hào)
1可識(shí)別列可確切定位某個(gè)人的列身份證號(hào),地址以
及姓名等
2半識(shí)別列單列并不能定位個(gè)人,但是多列信息可郵編號(hào),生日及性
用來(lái)潛在的識(shí)別某個(gè)人別等
3用戶敏感信息列包含用戶敏感信息交易數(shù)額,疾病以
及收入等
4其他不包含用戶敏_
感信息的列
2.2隱私數(shù)據(jù)風(fēng)險(xiǎn)泄漏模型
目前在隱私數(shù)據(jù)脫敏領(lǐng)域,有幾個(gè)不同的模型可以用來(lái)從不同角度衡量數(shù)
據(jù)可能存在的隱私數(shù)據(jù)泄漏風(fēng)險(xiǎn)。
2.2.1K-Anonymity
隱私數(shù)據(jù)脫敏的第一步是對(duì)所有可標(biāo)識(shí)列進(jìn)行移除或是脫敏,使得攻擊者
無(wú)法直接標(biāo)識(shí)用戶。但是攻擊者還是有可能通過(guò)多個(gè)半標(biāo)識(shí)列的屬性值識(shí)別個(gè)
人。攻擊者可能通過(guò)其他方式獲得特定個(gè)人的半標(biāo)識(shí)列屬性值,并與大數(shù)據(jù)平
臺(tái)數(shù)據(jù)進(jìn)行匹配,從而得到特定個(gè)人的敏感信息。
如表1所示,如果攻擊者知道某用戶的郵編和年齡,就可以得到該用戶的
疾病敏感信息。
ZIPCodeAgeDisease
4767729HeartDisease
4760222HeartDisease
4767827HeartDisease
4790543Flu
4790952HeartDisease
4790647Cancer
4760530HeartDisease
4767336Cancer
4660732Cancer
表1原始信息
為避免這種情況的發(fā)生,通常需要對(duì)半標(biāo)識(shí)列進(jìn)行脫敏處理,如數(shù)據(jù)泛化
等。數(shù)據(jù)泛化是指將半標(biāo)識(shí)列的數(shù)據(jù)替換為語(yǔ)義一致但更通用的數(shù)據(jù),以上述
數(shù)據(jù)為例,對(duì)郵編和年齡泛化后的數(shù)據(jù)如表2所示。
ZIPCodeAgeDisease
476*2*HeanDisease
476*2*HeartDisease
476*2*HeartDisease
4790?>40Flu
4790*>40HeartDisease
4790*>40Cancer
476*3*HeartDisease
476*3*Cancer
466*3*Cancer
表23-Anonymity病人信息
經(jīng)過(guò)泛化后,有多條記錄的半標(biāo)識(shí)列屬性值相同,所有半標(biāo)識(shí)列屬性值相
同的行的集合被稱為相等集。如表2中1,2,3行是一個(gè)相等集,4,5,6行
也是一個(gè)相等集。
K-Anonymity定義如下:
K-Anonymity要求對(duì)于任意一行紀(jì)錄,其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k,
即至少有k-1條紀(jì)錄半標(biāo)識(shí)列屬性值與該條紀(jì)錄相同。
表2中的數(shù)據(jù)是一個(gè)3-Anonymity的數(shù)據(jù)集。
作為一個(gè)衡量隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的指標(biāo),K-Anonymity可用于衡量個(gè)人標(biāo)識(shí)泄
露的風(fēng)險(xiǎn),理論上來(lái)說(shuō),對(duì)于K-Anonymity數(shù)據(jù)集,對(duì)于任意紀(jì)錄,攻擊者
只有1/k的概率將該紀(jì)錄與具體用戶關(guān)聯(lián)。
2.2.2L-Diversity
L-Diversity可用于保護(hù)個(gè)人標(biāo)識(shí)泄漏的風(fēng)險(xiǎn),但是無(wú)法保護(hù)屬性泄漏的風(fēng)
險(xiǎn)。對(duì)于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過(guò)同質(zhì)屬性攻擊與背景知識(shí)
攻擊兩種方式攻擊用戶的屬性信息。
1.同質(zhì)屬性攻擊。對(duì)于表2半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Bob
郵編為47677,年齡為29,則Bob一定對(duì)應(yīng)于前面三條記錄,從而可以確定
Bob有心臟病。
2.背景知識(shí)攻擊。對(duì)于表2半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Alice
郵編為47673,年齡為36,則Alice一定對(duì)應(yīng)于后面三條記錄,如果攻擊者知
道Alice患有心臟病的幾率很小,則能判斷Alice很有可能患有癌癥。
L-Diversity定義如下:
如果對(duì)于任意相等集內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)的集合,包含L個(gè)"合適"
值,則稱該相等集是滿足L-Diversity。
基于表2的數(shù)據(jù)通過(guò)插入干擾記錄,一個(gè)3-anonymity2-Diversity的數(shù)據(jù)集
如表3表7F:
ZIPCodeAgeDisease
476*2*HeartDisease
476*2*HeartDisease
476*2*HeartDisease
476*2*Flu
4790*>40Flu
4790*>40HeartDisease
4790*>40Cancer
476*3*HeartDisease
476*3*Cancer
466*3*Cancer
表33-Anonymity2-Diversity病人信息
相對(duì)于K-Anonymity標(biāo)準(zhǔn),符合L-Deversity標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了
屬性數(shù)據(jù)泄露的風(fēng)險(xiǎn)。對(duì)于滿足L-Diversity的數(shù)據(jù)集,理論上,攻擊者最多只
有1/L的概率能夠?qū)傩孕孤豆?,將特定用戶與其敏感信息關(guān)聯(lián)起來(lái)。
2.2.3T-Closeness
直觀來(lái)說(shuō),隱私信息泄露的程度可以根據(jù)攻擊者增量獲得的個(gè)人信息衡
量。
假設(shè)攻擊者在訪問(wèn)數(shù)據(jù)集之前已知的個(gè)人信息為B0,然后假設(shè)攻擊者訪問(wèn)
所有半標(biāo)識(shí)列都已移除的數(shù)據(jù)集,Q為數(shù)據(jù)集敏感數(shù)據(jù)的分布信息,根據(jù)Q,
攻擊者更新后的個(gè)人信息為最后攻擊者訪問(wèn)脫敏后的數(shù)據(jù)集,由于知道用
Blo
戶的半標(biāo)識(shí)列的信息,攻擊者可以將某用戶與某相等集聯(lián)系在一起,通過(guò)該相
等集的敏感數(shù)據(jù)分布信息攻擊者更新后的個(gè)人信息為
P,B2O
L-Diversity約束是通過(guò)約束P的diversity屬性,盡量減少B0和B2之間
的信息量差距,差距越小,說(shuō)明隱私信息泄露越少。T-Closeness約束則期望
減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相
等集分布信息之間得到更多的個(gè)人隱私信息。
T-Closeness的定義:如果一個(gè)相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全
局分布之間的距離小于T,則稱該相等類滿足T-Closeness約束。如果數(shù)據(jù)集
中的所有相等類都滿足T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness。
T-Closeness約束限定了半標(biāo)識(shí)列屬性與敏感信息的全局分布之間的聯(lián)
系,減弱了半標(biāo)識(shí)列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過(guò)敏感信息的
分布信息進(jìn)行屬性泄露攻擊的可能性。不過(guò)同時(shí)也肯定導(dǎo)致了一定程度的信息
丟失,所以管理者通過(guò)T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護(hù)。
2.3常見數(shù)據(jù)脫敏算法
K-Anonymity,L-Diversity和T-Closeness均依賴對(duì)半標(biāo)識(shí)列進(jìn)行數(shù)據(jù)變形處
理,使得攻擊者無(wú)法直接進(jìn)行屬性泄露攻擊,常見的數(shù)據(jù)變形處理方式如表
4:
名稱描述示例
將數(shù)據(jù)替換成一個(gè)常量,常用作不需要該500—>0
Hiding
敏感字段時(shí).635—>0
將數(shù)據(jù)映射為一個(gè)hash值(不一定是一一
Jim,Green—>4563934453
Hashing映射),常用作將不定長(zhǎng)數(shù)據(jù)映射成定長(zhǎng)
Tom,Cluz—>4334565433
的hash值。
將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找Smith—>Clemetz
Permutation
回原始值,支持正確的聚合或連接操作。Jones—>Spefde
為數(shù)量值增加一個(gè)固定的偏移量,隱藏?cái)?shù)253—>1253
Shift
值部分特征.254—>1254
500—>25000
Enumeration將數(shù)據(jù)映射為新值,同時(shí)保持?jǐn)?shù)據(jù)順序.
400—>20000
Truncation將數(shù)據(jù)尾部截?cái)?,只保留前半部分?/p>
Prefix-10.199.90.105—>10.199.32.12
保持IP前n位不變,混淆其余部分.
preserving10.199.90.106—>10.199.56.192
23454323—>234-23
Mask數(shù)據(jù)長(zhǎng)度不變,但只保留部分?jǐn)?shù)據(jù)信息.
14562334—>145—34
28—>20
Floor數(shù)據(jù)或是日期取整2013052012:30:45—>20130520
12:00:00
表4常用數(shù)據(jù)變形操作
此外,K-Anonymity,L-Diversity和T-Closeness約束可能還需要生成
干擾數(shù)據(jù),敏感數(shù)據(jù)干擾項(xiàng)的生成策略與方法也是保證K-Anonymity,L-Dive
rsity和T-Closeness的重要條件,在這里篇幅有限,就不過(guò)多介紹。
三、主要應(yīng)用
數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)使用數(shù)據(jù)銷毀
數(shù)據(jù)采集
數(shù)據(jù)采集方
數(shù)據(jù)傳編
數(shù)據(jù)使用
數(shù)據(jù)使用方
數(shù)據(jù)加工數(shù)據(jù)加工
隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)與通信技術(shù)的迅猛發(fā)展,社會(huì)逐步進(jìn)入了
數(shù)據(jù)時(shí)代。海量數(shù)據(jù)在各種信息系統(tǒng)上被存儲(chǔ)和處理,其中包含大量有價(jià)值的
敏感數(shù)據(jù)。目前,大量敏感數(shù)據(jù)都存儲(chǔ)在政府、企業(yè)或機(jī)構(gòu)的數(shù)據(jù)平臺(tái)中,基
于當(dāng)前的法律法規(guī),數(shù)據(jù)在進(jìn)行采集、傳輸、交換和共享的過(guò)程中要采用必要
的手段防止數(shù)據(jù)泄露,保證數(shù)據(jù)安全。數(shù)據(jù)脫敏技術(shù)的應(yīng)用目的主要包括兩方
面:一是以保護(hù)敏感數(shù)據(jù)安全、實(shí)現(xiàn)合法合規(guī)為主要目的;二是在達(dá)到第一目
標(biāo)的前提下,盡可能地保證數(shù)據(jù)可用性以及可挖掘價(jià)值。
數(shù)據(jù)脫敏技術(shù)通常應(yīng)用在涉及到個(gè)人隱私數(shù)據(jù)存儲(chǔ)和應(yīng)用的部分行業(yè)領(lǐng)
域,因此廣泛應(yīng)用于政務(wù)、金融、電信、醫(yī)療、能源、互聯(lián)網(wǎng)等行業(yè)領(lǐng)域。在
政務(wù)行業(yè)中,工商、公安、稅務(wù)、社保等政府部門及公共事業(yè)部門,采集的公
民個(gè)人信息及企業(yè)敏感信息,需要針對(duì)數(shù)據(jù)采集、傳輸、應(yīng)用、歸檔等全生命
周期進(jìn)行數(shù)據(jù)脫敏并同步實(shí)施其他數(shù)據(jù)安全防護(hù)手段。在金融和電信行業(yè)中,
由于金融客戶的個(gè)人賬戶信息、交易記錄等信息以及運(yùn)營(yíng)商內(nèi)部存儲(chǔ)大量的客
戶信息均屬于敏感信息,對(duì)數(shù)據(jù)庫(kù)杳詢返回的結(jié)果進(jìn)行敏感數(shù)據(jù)遮蓋,防止數(shù)
據(jù)泄露。在醫(yī)療和能源行業(yè),醫(yī)院系統(tǒng)中存儲(chǔ)大量患者隱私信息以及電力行業(yè)
內(nèi)部不同部門甚至是跨組織、跨區(qū)域間的電力數(shù)據(jù)共享場(chǎng)景越來(lái)越普遍,對(duì)敏
感數(shù)據(jù)進(jìn)行脫敏,既能滿足國(guó)家對(duì)數(shù)據(jù)隱私保護(hù)的基準(zhǔn)要求,又能對(duì)用戶隱私
數(shù)據(jù)的有效保護(hù),維護(hù)和提升醫(yī)療和能源行業(yè)領(lǐng)域的形象和公信力。在互聯(lián)網(wǎng)
行業(yè),用戶行為數(shù)據(jù)更是成為企業(yè)指導(dǎo)業(yè)務(wù)增收的重要資源,用戶行為分析、
個(gè)性化推薦、精準(zhǔn)營(yíng)銷等應(yīng)用方向成為多數(shù)互聯(lián)網(wǎng)企業(yè)的通用服務(wù)手段,相應(yīng)
地分析挖掘應(yīng)用不可避免。
未來(lái),越來(lái)越多的行業(yè)將采集數(shù)據(jù),利用大數(shù)據(jù)技術(shù)提高產(chǎn)業(yè)效率,從而
推動(dòng)產(chǎn)業(yè)升級(jí)。數(shù)據(jù)量將進(jìn)一步匯聚,規(guī)模將以指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)脫敏技術(shù)的
應(yīng)用場(chǎng)景將擴(kuò)展到國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域,隨著需求的增長(zhǎng)和多樣化,數(shù)據(jù)脫敏
技術(shù)也將得到長(zhǎng)足的發(fā)展。
四、發(fā)展趨勢(shì)
《中華人民共和國(guó)密碼法》
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 河南省南陽(yáng)一中2023-2024學(xué)年高三下學(xué)期第二次階段考試數(shù)學(xué)試題
- 2025年動(dòng)態(tài)心電圖監(jiān)測(cè)系統(tǒng)設(shè)備項(xiàng)目合作計(jì)劃書
- 2025年城市管道天然氣項(xiàng)目合作計(jì)劃書
- 2024年中國(guó)特種運(yùn)輸行業(yè)市場(chǎng)運(yùn)行動(dòng)態(tài)及投資發(fā)展?jié)摿Ψ治鰣?bào)告
- 中職高考數(shù)學(xué)二輪復(fù)習(xí)專項(xiàng)突破練習(xí)專題13 三角恒等變換(含答案)
- 膿毒血癥病人的護(hù)理
- 2025年微機(jī)保護(hù)測(cè)控裝置項(xiàng)目合作計(jì)劃書
- 基金交易企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 濃縮蛋白質(zhì)企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 鐵絲及鐵絲網(wǎng)批發(fā)企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 11471勞動(dòng)爭(zhēng)議處理(第2章)
- 疾控中心職責(zé)
- 朗讀技巧與朗讀教學(xué)課件
- 最新安全生產(chǎn)管理教材電子版
- 藥業(yè)有限公司內(nèi)部審計(jì)報(bào)告
- 空分制氧工基礎(chǔ)知識(shí)題庫(kù)完整
- 茶樹栽培學(xué)茶樹的修剪課件
- 辦公用品申購(gòu)單
- 檢驗(yàn)流程圖樣板
- 《新課標(biāo)高中化學(xué)學(xué)業(yè)水平考試合格考知識(shí)點(diǎn)總結(jié)》
- 帶電子手表去學(xué)校的檢討
評(píng)論
0/150
提交評(píng)論