《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏_第1頁(yè)
《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏_第2頁(yè)
《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏_第3頁(yè)
《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏_第4頁(yè)
《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)安全法》時(shí)代淺談數(shù)據(jù)脫敏

使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采集、傳輸、使用等環(huán)節(jié)中

的暴露,降低敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),盡可能降低數(shù)據(jù)泄露造成的危害。

2021年6月10日,《數(shù)據(jù)安全法》正式頒布,于2021年9月1日正式

施行,作為我國(guó)數(shù)據(jù)安全領(lǐng)域的首部基礎(chǔ)法律,也是國(guó)家安全領(lǐng)域的一部重要

法律,標(biāo)志著我國(guó)以數(shù)據(jù)安全保障數(shù)據(jù)開發(fā)利用和產(chǎn)業(yè)發(fā)展全面進(jìn)入法治化軌

道。

一、背景由來(lái)

隨著大數(shù)據(jù)時(shí)代的發(fā)展,數(shù)據(jù)信息已經(jīng)成為了企業(yè)運(yùn)行的重要資產(chǎn)。不同

企業(yè)之間相互共享數(shù)據(jù)、分析數(shù)據(jù),進(jìn)而開展相關(guān)業(yè)務(wù)。然而,一些企業(yè)在對(duì)

數(shù)據(jù)進(jìn)行分析處理時(shí),并沒(méi)有對(duì)數(shù)據(jù)進(jìn)行安全保護(hù),導(dǎo)致數(shù)據(jù)存在泄露等風(fēng)

險(xiǎn)。安全研究中心PonemonInstitute和IBMSecurity聯(lián)合發(fā)布的《2019

年數(shù)據(jù)泄露成本報(bào)告》中指出,超過(guò)100萬(wàn)條記錄的泄露預(yù)計(jì)會(huì)給企業(yè)帶來(lái)4

200萬(wàn)美元的損失。在這樣的背景下,數(shù)據(jù)泄露可能造成的潛在危害,驅(qū)使國(guó)

家、行業(yè)、企業(yè)等各層面愈發(fā)重視數(shù)據(jù)安全問(wèn)題。2021年6月10日,十三屆

全國(guó)人大常委會(huì)第二十九次會(huì)議通過(guò)并正式發(fā)布的《數(shù)據(jù)安全法》,明確指出

數(shù)據(jù)安全需要通過(guò)必要措施,確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及

具備保障持續(xù)安全狀態(tài)的能力。

作為數(shù)據(jù)安全中重要的一環(huán),數(shù)據(jù)脫敏也逐漸被人們所關(guān)注。數(shù)據(jù)脫敏技

術(shù)是一種可以通過(guò)數(shù)據(jù)變形方式對(duì)于敏感數(shù)據(jù)進(jìn)行處理,從而降低數(shù)據(jù)敏感程

度的一種數(shù)據(jù)處理技術(shù)。使用數(shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采

集、傳輸、使用等環(huán)節(jié)中的暴露,降低敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),盡可能降低數(shù)據(jù)

泄露造成的危害。

二、脫敏技術(shù)

數(shù)據(jù)庫(kù)安全>?。數(shù)據(jù)安全治理M@Q文檔安全

加密傳輸加密傳輸整

輸分類分級(jí)

數(shù)據(jù)全生命周期管控性

角色授權(quán)和

數(shù)據(jù)加密數(shù)據(jù)加密

場(chǎng)景安全采集、傳輸、加工抗

存儲(chǔ)、使用、銷毀抵

儲(chǔ)運(yùn)營(yíng)優(yōu)化

數(shù)據(jù)脫敏數(shù)據(jù)脫敏賴

區(qū)塊鏈備份恢復(fù)數(shù)據(jù)水印數(shù)據(jù)溯源數(shù)據(jù)確權(quán)

安全發(fā)布數(shù)據(jù)產(chǎn)權(quán)

2.1隱私數(shù)據(jù)脫敏技術(shù)

通常在大數(shù)據(jù)平臺(tái)中,數(shù)據(jù)以結(jié)構(gòu)化的格式存儲(chǔ),每個(gè)表有諸多行組成,

每行數(shù)據(jù)有諸多列組成。根據(jù)列的數(shù)據(jù)屬性,數(shù)據(jù)列通??梢苑譃橐韵聨追N類

型:

序類型性質(zhì)例子

號(hào)

1可識(shí)別列可確切定位某個(gè)人的列身份證號(hào),地址以

及姓名等

2半識(shí)別列單列并不能定位個(gè)人,但是多列信息可郵編號(hào),生日及性

用來(lái)潛在的識(shí)別某個(gè)人別等

3用戶敏感信息列包含用戶敏感信息交易數(shù)額,疾病以

及收入等

4其他不包含用戶敏_

感信息的列

2.2隱私數(shù)據(jù)風(fēng)險(xiǎn)泄漏模型

目前在隱私數(shù)據(jù)脫敏領(lǐng)域,有幾個(gè)不同的模型可以用來(lái)從不同角度衡量數(shù)

據(jù)可能存在的隱私數(shù)據(jù)泄漏風(fēng)險(xiǎn)。

2.2.1K-Anonymity

隱私數(shù)據(jù)脫敏的第一步是對(duì)所有可標(biāo)識(shí)列進(jìn)行移除或是脫敏,使得攻擊者

無(wú)法直接標(biāo)識(shí)用戶。但是攻擊者還是有可能通過(guò)多個(gè)半標(biāo)識(shí)列的屬性值識(shí)別個(gè)

人。攻擊者可能通過(guò)其他方式獲得特定個(gè)人的半標(biāo)識(shí)列屬性值,并與大數(shù)據(jù)平

臺(tái)數(shù)據(jù)進(jìn)行匹配,從而得到特定個(gè)人的敏感信息。

如表1所示,如果攻擊者知道某用戶的郵編和年齡,就可以得到該用戶的

疾病敏感信息。

ZIPCodeAgeDisease

4767729HeartDisease

4760222HeartDisease

4767827HeartDisease

4790543Flu

4790952HeartDisease

4790647Cancer

4760530HeartDisease

4767336Cancer

4660732Cancer

表1原始信息

為避免這種情況的發(fā)生,通常需要對(duì)半標(biāo)識(shí)列進(jìn)行脫敏處理,如數(shù)據(jù)泛化

等。數(shù)據(jù)泛化是指將半標(biāo)識(shí)列的數(shù)據(jù)替換為語(yǔ)義一致但更通用的數(shù)據(jù),以上述

數(shù)據(jù)為例,對(duì)郵編和年齡泛化后的數(shù)據(jù)如表2所示。

ZIPCodeAgeDisease

476*2*HeanDisease

476*2*HeartDisease

476*2*HeartDisease

4790?>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表23-Anonymity病人信息

經(jīng)過(guò)泛化后,有多條記錄的半標(biāo)識(shí)列屬性值相同,所有半標(biāo)識(shí)列屬性值相

同的行的集合被稱為相等集。如表2中1,2,3行是一個(gè)相等集,4,5,6行

也是一個(gè)相等集。

K-Anonymity定義如下:

K-Anonymity要求對(duì)于任意一行紀(jì)錄,其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k,

即至少有k-1條紀(jì)錄半標(biāo)識(shí)列屬性值與該條紀(jì)錄相同。

表2中的數(shù)據(jù)是一個(gè)3-Anonymity的數(shù)據(jù)集。

作為一個(gè)衡量隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的指標(biāo),K-Anonymity可用于衡量個(gè)人標(biāo)識(shí)泄

露的風(fēng)險(xiǎn),理論上來(lái)說(shuō),對(duì)于K-Anonymity數(shù)據(jù)集,對(duì)于任意紀(jì)錄,攻擊者

只有1/k的概率將該紀(jì)錄與具體用戶關(guān)聯(lián)。

2.2.2L-Diversity

L-Diversity可用于保護(hù)個(gè)人標(biāo)識(shí)泄漏的風(fēng)險(xiǎn),但是無(wú)法保護(hù)屬性泄漏的風(fēng)

險(xiǎn)。對(duì)于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過(guò)同質(zhì)屬性攻擊與背景知識(shí)

攻擊兩種方式攻擊用戶的屬性信息。

1.同質(zhì)屬性攻擊。對(duì)于表2半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Bob

郵編為47677,年齡為29,則Bob一定對(duì)應(yīng)于前面三條記錄,從而可以確定

Bob有心臟病。

2.背景知識(shí)攻擊。對(duì)于表2半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Alice

郵編為47673,年齡為36,則Alice一定對(duì)應(yīng)于后面三條記錄,如果攻擊者知

道Alice患有心臟病的幾率很小,則能判斷Alice很有可能患有癌癥。

L-Diversity定義如下:

如果對(duì)于任意相等集內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)的集合,包含L個(gè)"合適"

值,則稱該相等集是滿足L-Diversity。

基于表2的數(shù)據(jù)通過(guò)插入干擾記錄,一個(gè)3-anonymity2-Diversity的數(shù)據(jù)集

如表3表7F:

ZIPCodeAgeDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*Flu

4790*>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表33-Anonymity2-Diversity病人信息

相對(duì)于K-Anonymity標(biāo)準(zhǔn),符合L-Deversity標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了

屬性數(shù)據(jù)泄露的風(fēng)險(xiǎn)。對(duì)于滿足L-Diversity的數(shù)據(jù)集,理論上,攻擊者最多只

有1/L的概率能夠?qū)傩孕孤豆?,將特定用戶與其敏感信息關(guān)聯(lián)起來(lái)。

2.2.3T-Closeness

直觀來(lái)說(shuō),隱私信息泄露的程度可以根據(jù)攻擊者增量獲得的個(gè)人信息衡

量。

假設(shè)攻擊者在訪問(wèn)數(shù)據(jù)集之前已知的個(gè)人信息為B0,然后假設(shè)攻擊者訪問(wèn)

所有半標(biāo)識(shí)列都已移除的數(shù)據(jù)集,Q為數(shù)據(jù)集敏感數(shù)據(jù)的分布信息,根據(jù)Q,

攻擊者更新后的個(gè)人信息為最后攻擊者訪問(wèn)脫敏后的數(shù)據(jù)集,由于知道用

Blo

戶的半標(biāo)識(shí)列的信息,攻擊者可以將某用戶與某相等集聯(lián)系在一起,通過(guò)該相

等集的敏感數(shù)據(jù)分布信息攻擊者更新后的個(gè)人信息為

P,B2O

L-Diversity約束是通過(guò)約束P的diversity屬性,盡量減少B0和B2之間

的信息量差距,差距越小,說(shuō)明隱私信息泄露越少。T-Closeness約束則期望

減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相

等集分布信息之間得到更多的個(gè)人隱私信息。

T-Closeness的定義:如果一個(gè)相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全

局分布之間的距離小于T,則稱該相等類滿足T-Closeness約束。如果數(shù)據(jù)集

中的所有相等類都滿足T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness。

T-Closeness約束限定了半標(biāo)識(shí)列屬性與敏感信息的全局分布之間的聯(lián)

系,減弱了半標(biāo)識(shí)列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過(guò)敏感信息的

分布信息進(jìn)行屬性泄露攻擊的可能性。不過(guò)同時(shí)也肯定導(dǎo)致了一定程度的信息

丟失,所以管理者通過(guò)T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護(hù)。

2.3常見數(shù)據(jù)脫敏算法

K-Anonymity,L-Diversity和T-Closeness均依賴對(duì)半標(biāo)識(shí)列進(jìn)行數(shù)據(jù)變形處

理,使得攻擊者無(wú)法直接進(jìn)行屬性泄露攻擊,常見的數(shù)據(jù)變形處理方式如表

4:

名稱描述示例

將數(shù)據(jù)替換成一個(gè)常量,常用作不需要該500—>0

Hiding

敏感字段時(shí).635—>0

將數(shù)據(jù)映射為一個(gè)hash值(不一定是一一

Jim,Green—>4563934453

Hashing映射),常用作將不定長(zhǎng)數(shù)據(jù)映射成定長(zhǎng)

Tom,Cluz—>4334565433

的hash值。

將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找Smith—>Clemetz

Permutation

回原始值,支持正確的聚合或連接操作。Jones—>Spefde

為數(shù)量值增加一個(gè)固定的偏移量,隱藏?cái)?shù)253—>1253

Shift

值部分特征.254—>1254

500—>25000

Enumeration將數(shù)據(jù)映射為新值,同時(shí)保持?jǐn)?shù)據(jù)順序.

400—>20000

Truncation將數(shù)據(jù)尾部截?cái)?,只保留前半部分?/p>

Prefix-10.199.90.105—>10.199.32.12

保持IP前n位不變,混淆其余部分.

preserving10.199.90.106—>10.199.56.192

23454323—>234-23

Mask數(shù)據(jù)長(zhǎng)度不變,但只保留部分?jǐn)?shù)據(jù)信息.

14562334—>145—34

28—>20

Floor數(shù)據(jù)或是日期取整2013052012:30:45—>20130520

12:00:00

表4常用數(shù)據(jù)變形操作

此外,K-Anonymity,L-Diversity和T-Closeness約束可能還需要生成

干擾數(shù)據(jù),敏感數(shù)據(jù)干擾項(xiàng)的生成策略與方法也是保證K-Anonymity,L-Dive

rsity和T-Closeness的重要條件,在這里篇幅有限,就不過(guò)多介紹。

三、主要應(yīng)用

數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)使用數(shù)據(jù)銷毀

數(shù)據(jù)采集

數(shù)據(jù)采集方

數(shù)據(jù)傳編

數(shù)據(jù)使用

數(shù)據(jù)使用方

數(shù)據(jù)加工數(shù)據(jù)加工

隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)與通信技術(shù)的迅猛發(fā)展,社會(huì)逐步進(jìn)入了

數(shù)據(jù)時(shí)代。海量數(shù)據(jù)在各種信息系統(tǒng)上被存儲(chǔ)和處理,其中包含大量有價(jià)值的

敏感數(shù)據(jù)。目前,大量敏感數(shù)據(jù)都存儲(chǔ)在政府、企業(yè)或機(jī)構(gòu)的數(shù)據(jù)平臺(tái)中,基

于當(dāng)前的法律法規(guī),數(shù)據(jù)在進(jìn)行采集、傳輸、交換和共享的過(guò)程中要采用必要

的手段防止數(shù)據(jù)泄露,保證數(shù)據(jù)安全。數(shù)據(jù)脫敏技術(shù)的應(yīng)用目的主要包括兩方

面:一是以保護(hù)敏感數(shù)據(jù)安全、實(shí)現(xiàn)合法合規(guī)為主要目的;二是在達(dá)到第一目

標(biāo)的前提下,盡可能地保證數(shù)據(jù)可用性以及可挖掘價(jià)值。

數(shù)據(jù)脫敏技術(shù)通常應(yīng)用在涉及到個(gè)人隱私數(shù)據(jù)存儲(chǔ)和應(yīng)用的部分行業(yè)領(lǐng)

域,因此廣泛應(yīng)用于政務(wù)、金融、電信、醫(yī)療、能源、互聯(lián)網(wǎng)等行業(yè)領(lǐng)域。在

政務(wù)行業(yè)中,工商、公安、稅務(wù)、社保等政府部門及公共事業(yè)部門,采集的公

民個(gè)人信息及企業(yè)敏感信息,需要針對(duì)數(shù)據(jù)采集、傳輸、應(yīng)用、歸檔等全生命

周期進(jìn)行數(shù)據(jù)脫敏并同步實(shí)施其他數(shù)據(jù)安全防護(hù)手段。在金融和電信行業(yè)中,

由于金融客戶的個(gè)人賬戶信息、交易記錄等信息以及運(yùn)營(yíng)商內(nèi)部存儲(chǔ)大量的客

戶信息均屬于敏感信息,對(duì)數(shù)據(jù)庫(kù)杳詢返回的結(jié)果進(jìn)行敏感數(shù)據(jù)遮蓋,防止數(shù)

據(jù)泄露。在醫(yī)療和能源行業(yè),醫(yī)院系統(tǒng)中存儲(chǔ)大量患者隱私信息以及電力行業(yè)

內(nèi)部不同部門甚至是跨組織、跨區(qū)域間的電力數(shù)據(jù)共享場(chǎng)景越來(lái)越普遍,對(duì)敏

感數(shù)據(jù)進(jìn)行脫敏,既能滿足國(guó)家對(duì)數(shù)據(jù)隱私保護(hù)的基準(zhǔn)要求,又能對(duì)用戶隱私

數(shù)據(jù)的有效保護(hù),維護(hù)和提升醫(yī)療和能源行業(yè)領(lǐng)域的形象和公信力。在互聯(lián)網(wǎng)

行業(yè),用戶行為數(shù)據(jù)更是成為企業(yè)指導(dǎo)業(yè)務(wù)增收的重要資源,用戶行為分析、

個(gè)性化推薦、精準(zhǔn)營(yíng)銷等應(yīng)用方向成為多數(shù)互聯(lián)網(wǎng)企業(yè)的通用服務(wù)手段,相應(yīng)

地分析挖掘應(yīng)用不可避免。

未來(lái),越來(lái)越多的行業(yè)將采集數(shù)據(jù),利用大數(shù)據(jù)技術(shù)提高產(chǎn)業(yè)效率,從而

推動(dòng)產(chǎn)業(yè)升級(jí)。數(shù)據(jù)量將進(jìn)一步匯聚,規(guī)模將以指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)脫敏技術(shù)的

應(yīng)用場(chǎng)景將擴(kuò)展到國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域,隨著需求的增長(zhǎng)和多樣化,數(shù)據(jù)脫敏

技術(shù)也將得到長(zhǎng)足的發(fā)展。

四、發(fā)展趨勢(shì)

《中華人民共和國(guó)密碼法》

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論