《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏_第1頁
《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏_第2頁
《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏_第3頁
《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏_第4頁
《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《數(shù)據(jù)安全法》時代淺談數(shù)據(jù)脫敏

使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采集、傳輸、使用等環(huán)節(jié)中

的暴露,降低敏感數(shù)據(jù)泄露的風險,盡可能降低數(shù)據(jù)泄露造成的危害。

2021年6月10日,《數(shù)據(jù)安全法》正式頒布,于2021年9月1日正式

施行,作為我國數(shù)據(jù)安全領(lǐng)域的首部基礎(chǔ)法律,也是國家安全領(lǐng)域的一部重要

法律,標志著我國以數(shù)據(jù)安全保障數(shù)據(jù)開發(fā)利用和產(chǎn)業(yè)發(fā)展全面進入法治化軌

道。

一、背景由來

隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)信息已經(jīng)成為了企業(yè)運行的重要資產(chǎn)。不同

企業(yè)之間相互共享數(shù)據(jù)、分析數(shù)據(jù),進而開展相關(guān)業(yè)務。然而,一些企業(yè)在對

數(shù)據(jù)進行分析處理時,并沒有對數(shù)據(jù)進行安全保護,導致數(shù)據(jù)存在泄露等風

險。安全研究中心PonemonInstitute和IBMSecurity聯(lián)合發(fā)布的《2019

年數(shù)據(jù)泄露成本報告》中指出,超過100萬條記錄的泄露預計會給企業(yè)帶來4

200萬美元的損失。在這樣的背景下,數(shù)據(jù)泄露可能造成的潛在危害,驅(qū)使國

家、行業(yè)、企業(yè)等各層面愈發(fā)重視數(shù)據(jù)安全問題。2021年6月10日,十三屆

全國人大常委會第二十九次會議通過并正式發(fā)布的《數(shù)據(jù)安全法》,明確指出

數(shù)據(jù)安全需要通過必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及

具備保障持續(xù)安全狀態(tài)的能力。

作為數(shù)據(jù)安全中重要的一環(huán),數(shù)據(jù)脫敏也逐漸被人們所關(guān)注。數(shù)據(jù)脫敏技

術(shù)是一種可以通過數(shù)據(jù)變形方式對于敏感數(shù)據(jù)進行處理,從而降低數(shù)據(jù)敏感程

度的一種數(shù)據(jù)處理技術(shù)。使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采

集、傳輸、使用等環(huán)節(jié)中的暴露,降低敏感數(shù)據(jù)泄露的風險,盡可能降低數(shù)據(jù)

泄露造成的危害。

二、脫敏技術(shù)

數(shù)據(jù)庫安全>?。數(shù)據(jù)安全治理M@Q文檔安全

加密傳輸加密傳輸整

輸分類分級

數(shù)據(jù)全生命周期管控性

角色授權(quán)和

數(shù)據(jù)加密數(shù)據(jù)加密

場景安全采集、傳輸、加工抗

存儲、使用、銷毀抵

儲運營優(yōu)化

數(shù)據(jù)脫敏數(shù)據(jù)脫敏賴

區(qū)塊鏈備份恢復數(shù)據(jù)水印數(shù)據(jù)溯源數(shù)據(jù)確權(quán)

安全發(fā)布數(shù)據(jù)產(chǎn)權(quán)

2.1隱私數(shù)據(jù)脫敏技術(shù)

通常在大數(shù)據(jù)平臺中,數(shù)據(jù)以結(jié)構(gòu)化的格式存儲,每個表有諸多行組成,

每行數(shù)據(jù)有諸多列組成。根據(jù)列的數(shù)據(jù)屬性,數(shù)據(jù)列通??梢苑譃橐韵聨追N類

型:

序類型性質(zhì)例子

1可識別列可確切定位某個人的列身份證號,地址以

及姓名等

2半識別列單列并不能定位個人,但是多列信息可郵編號,生日及性

用來潛在的識別某個人別等

3用戶敏感信息列包含用戶敏感信息交易數(shù)額,疾病以

及收入等

4其他不包含用戶敏_

感信息的列

2.2隱私數(shù)據(jù)風險泄漏模型

目前在隱私數(shù)據(jù)脫敏領(lǐng)域,有幾個不同的模型可以用來從不同角度衡量數(shù)

據(jù)可能存在的隱私數(shù)據(jù)泄漏風險。

2.2.1K-Anonymity

隱私數(shù)據(jù)脫敏的第一步是對所有可標識列進行移除或是脫敏,使得攻擊者

無法直接標識用戶。但是攻擊者還是有可能通過多個半標識列的屬性值識別個

人。攻擊者可能通過其他方式獲得特定個人的半標識列屬性值,并與大數(shù)據(jù)平

臺數(shù)據(jù)進行匹配,從而得到特定個人的敏感信息。

如表1所示,如果攻擊者知道某用戶的郵編和年齡,就可以得到該用戶的

疾病敏感信息。

ZIPCodeAgeDisease

4767729HeartDisease

4760222HeartDisease

4767827HeartDisease

4790543Flu

4790952HeartDisease

4790647Cancer

4760530HeartDisease

4767336Cancer

4660732Cancer

表1原始信息

為避免這種情況的發(fā)生,通常需要對半標識列進行脫敏處理,如數(shù)據(jù)泛化

等。數(shù)據(jù)泛化是指將半標識列的數(shù)據(jù)替換為語義一致但更通用的數(shù)據(jù),以上述

數(shù)據(jù)為例,對郵編和年齡泛化后的數(shù)據(jù)如表2所示。

ZIPCodeAgeDisease

476*2*HeanDisease

476*2*HeartDisease

476*2*HeartDisease

4790?>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表23-Anonymity病人信息

經(jīng)過泛化后,有多條記錄的半標識列屬性值相同,所有半標識列屬性值相

同的行的集合被稱為相等集。如表2中1,2,3行是一個相等集,4,5,6行

也是一個相等集。

K-Anonymity定義如下:

K-Anonymity要求對于任意一行紀錄,其所屬的相等集內(nèi)紀錄數(shù)量不小于k,

即至少有k-1條紀錄半標識列屬性值與該條紀錄相同。

表2中的數(shù)據(jù)是一個3-Anonymity的數(shù)據(jù)集。

作為一個衡量隱私數(shù)據(jù)泄露風險的指標,K-Anonymity可用于衡量個人標識泄

露的風險,理論上來說,對于K-Anonymity數(shù)據(jù)集,對于任意紀錄,攻擊者

只有1/k的概率將該紀錄與具體用戶關(guān)聯(lián)。

2.2.2L-Diversity

L-Diversity可用于保護個人標識泄漏的風險,但是無法保護屬性泄漏的風

險。對于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過同質(zhì)屬性攻擊與背景知識

攻擊兩種方式攻擊用戶的屬性信息。

1.同質(zhì)屬性攻擊。對于表2半標識列泛化后的數(shù)據(jù)集,假如攻擊者知道Bob

郵編為47677,年齡為29,則Bob一定對應于前面三條記錄,從而可以確定

Bob有心臟病。

2.背景知識攻擊。對于表2半標識列泛化后的數(shù)據(jù)集,假如攻擊者知道Alice

郵編為47673,年齡為36,則Alice一定對應于后面三條記錄,如果攻擊者知

道Alice患有心臟病的幾率很小,則能判斷Alice很有可能患有癌癥。

L-Diversity定義如下:

如果對于任意相等集內(nèi)所有記錄對應的敏感數(shù)據(jù)的集合,包含L個"合適"

值,則稱該相等集是滿足L-Diversity。

基于表2的數(shù)據(jù)通過插入干擾記錄,一個3-anonymity2-Diversity的數(shù)據(jù)集

如表3表7F:

ZIPCodeAgeDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*Flu

4790*>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表33-Anonymity2-Diversity病人信息

相對于K-Anonymity標準,符合L-Deversity標準的數(shù)據(jù)集顯著降低了

屬性數(shù)據(jù)泄露的風險。對于滿足L-Diversity的數(shù)據(jù)集,理論上,攻擊者最多只

有1/L的概率能夠?qū)傩孕孤豆?,將特定用戶與其敏感信息關(guān)聯(lián)起來。

2.2.3T-Closeness

直觀來說,隱私信息泄露的程度可以根據(jù)攻擊者增量獲得的個人信息衡

量。

假設(shè)攻擊者在訪問數(shù)據(jù)集之前已知的個人信息為B0,然后假設(shè)攻擊者訪問

所有半標識列都已移除的數(shù)據(jù)集,Q為數(shù)據(jù)集敏感數(shù)據(jù)的分布信息,根據(jù)Q,

攻擊者更新后的個人信息為最后攻擊者訪問脫敏后的數(shù)據(jù)集,由于知道用

Blo

戶的半標識列的信息,攻擊者可以將某用戶與某相等集聯(lián)系在一起,通過該相

等集的敏感數(shù)據(jù)分布信息攻擊者更新后的個人信息為

P,B2O

L-Diversity約束是通過約束P的diversity屬性,盡量減少B0和B2之間

的信息量差距,差距越小,說明隱私信息泄露越少。T-Closeness約束則期望

減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相

等集分布信息之間得到更多的個人隱私信息。

T-Closeness的定義:如果一個相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全

局分布之間的距離小于T,則稱該相等類滿足T-Closeness約束。如果數(shù)據(jù)集

中的所有相等類都滿足T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness。

T-Closeness約束限定了半標識列屬性與敏感信息的全局分布之間的聯(lián)

系,減弱了半標識列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過敏感信息的

分布信息進行屬性泄露攻擊的可能性。不過同時也肯定導致了一定程度的信息

丟失,所以管理者通過T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護。

2.3常見數(shù)據(jù)脫敏算法

K-Anonymity,L-Diversity和T-Closeness均依賴對半標識列進行數(shù)據(jù)變形處

理,使得攻擊者無法直接進行屬性泄露攻擊,常見的數(shù)據(jù)變形處理方式如表

4:

名稱描述示例

將數(shù)據(jù)替換成一個常量,常用作不需要該500—>0

Hiding

敏感字段時.635—>0

將數(shù)據(jù)映射為一個hash值(不一定是一一

Jim,Green—>4563934453

Hashing映射),常用作將不定長數(shù)據(jù)映射成定長

Tom,Cluz—>4334565433

的hash值。

將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找Smith—>Clemetz

Permutation

回原始值,支持正確的聚合或連接操作。Jones—>Spefde

為數(shù)量值增加一個固定的偏移量,隱藏數(shù)253—>1253

Shift

值部分特征.254—>1254

500—>25000

Enumeration將數(shù)據(jù)映射為新值,同時保持數(shù)據(jù)順序.

400—>20000

Truncation將數(shù)據(jù)尾部截斷,只保留前半部分。

Prefix-10.199.90.105—>10.199.32.12

保持IP前n位不變,混淆其余部分.

preserving10.199.90.106—>10.199.56.192

23454323—>234-23

Mask數(shù)據(jù)長度不變,但只保留部分數(shù)據(jù)信息.

14562334—>145—34

28—>20

Floor數(shù)據(jù)或是日期取整2013052012:30:45—>20130520

12:00:00

表4常用數(shù)據(jù)變形操作

此外,K-Anonymity,L-Diversity和T-Closeness約束可能還需要生成

干擾數(shù)據(jù),敏感數(shù)據(jù)干擾項的生成策略與方法也是保證K-Anonymity,L-Dive

rsity和T-Closeness的重要條件,在這里篇幅有限,就不過多介紹。

三、主要應用

數(shù)據(jù)采集數(shù)據(jù)存儲

數(shù)據(jù)使用數(shù)據(jù)銷毀

數(shù)據(jù)采集

數(shù)據(jù)采集方

數(shù)據(jù)傳編

數(shù)據(jù)使用

數(shù)據(jù)使用方

數(shù)據(jù)加工數(shù)據(jù)加工

隨著互聯(lián)網(wǎng)、云計算等信息技術(shù)與通信技術(shù)的迅猛發(fā)展,社會逐步進入了

數(shù)據(jù)時代。海量數(shù)據(jù)在各種信息系統(tǒng)上被存儲和處理,其中包含大量有價值的

敏感數(shù)據(jù)。目前,大量敏感數(shù)據(jù)都存儲在政府、企業(yè)或機構(gòu)的數(shù)據(jù)平臺中,基

于當前的法律法規(guī),數(shù)據(jù)在進行采集、傳輸、交換和共享的過程中要采用必要

的手段防止數(shù)據(jù)泄露,保證數(shù)據(jù)安全。數(shù)據(jù)脫敏技術(shù)的應用目的主要包括兩方

面:一是以保護敏感數(shù)據(jù)安全、實現(xiàn)合法合規(guī)為主要目的;二是在達到第一目

標的前提下,盡可能地保證數(shù)據(jù)可用性以及可挖掘價值。

數(shù)據(jù)脫敏技術(shù)通常應用在涉及到個人隱私數(shù)據(jù)存儲和應用的部分行業(yè)領(lǐng)

域,因此廣泛應用于政務、金融、電信、醫(yī)療、能源、互聯(lián)網(wǎng)等行業(yè)領(lǐng)域。在

政務行業(yè)中,工商、公安、稅務、社保等政府部門及公共事業(yè)部門,采集的公

民個人信息及企業(yè)敏感信息,需要針對數(shù)據(jù)采集、傳輸、應用、歸檔等全生命

周期進行數(shù)據(jù)脫敏并同步實施其他數(shù)據(jù)安全防護手段。在金融和電信行業(yè)中,

由于金融客戶的個人賬戶信息、交易記錄等信息以及運營商內(nèi)部存儲大量的客

戶信息均屬于敏感信息,對數(shù)據(jù)庫杳詢返回的結(jié)果進行敏感數(shù)據(jù)遮蓋,防止數(shù)

據(jù)泄露。在醫(yī)療和能源行業(yè),醫(yī)院系統(tǒng)中存儲大量患者隱私信息以及電力行業(yè)

內(nèi)部不同部門甚至是跨組織、跨區(qū)域間的電力數(shù)據(jù)共享場景越來越普遍,對敏

感數(shù)據(jù)進行脫敏,既能滿足國家對數(shù)據(jù)隱私保護的基準要求,又能對用戶隱私

數(shù)據(jù)的有效保護,維護和提升醫(yī)療和能源行業(yè)領(lǐng)域的形象和公信力。在互聯(lián)網(wǎng)

行業(yè),用戶行為數(shù)據(jù)更是成為企業(yè)指導業(yè)務增收的重要資源,用戶行為分析、

個性化推薦、精準營銷等應用方向成為多數(shù)互聯(lián)網(wǎng)企業(yè)的通用服務手段,相應

地分析挖掘應用不可避免。

未來,越來越多的行業(yè)將采集數(shù)據(jù),利用大數(shù)據(jù)技術(shù)提高產(chǎn)業(yè)效率,從而

推動產(chǎn)業(yè)升級。數(shù)據(jù)量將進一步匯聚,規(guī)模將以指數(shù)級增長,數(shù)據(jù)脫敏技術(shù)的

應用場景將擴展到國民經(jīng)濟的各個領(lǐng)域,隨著需求的增長和多樣化,數(shù)據(jù)脫敏

技術(shù)也將得到長足的發(fā)展。

四、發(fā)展趨勢

《中華人民共和國密碼法》

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論