數(shù)據(jù)脫敏技術(shù)研究及展望_第1頁(yè)
數(shù)據(jù)脫敏技術(shù)研究及展望_第2頁(yè)
數(shù)據(jù)脫敏技術(shù)研究及展望_第3頁(yè)
數(shù)據(jù)脫敏技術(shù)研究及展望_第4頁(yè)
數(shù)據(jù)脫敏技術(shù)研究及展望_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

隨著物聯(lián)網(wǎng)、人工智能、5G等信息技術(shù)的快速發(fā)展和不斷應(yīng)用,大數(shù)據(jù)時(shí)代已悄然到來(lái),全球各行業(yè)領(lǐng)域的數(shù)據(jù)儲(chǔ)量和數(shù)據(jù)產(chǎn)業(yè)規(guī)模正呈現(xiàn)爆發(fā)式增長(zhǎng)的態(tài)勢(shì)。IDC預(yù)測(cè),2018—2025年,全球數(shù)據(jù)量將從33ZB猛增至175ZB,而根據(jù)工業(yè)和信息化部相關(guān)預(yù)測(cè),2021—2025年,我國(guó)的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將從1.3萬(wàn)億元突破至3萬(wàn)億元,數(shù)據(jù)已然成為推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展最重要的基礎(chǔ)生產(chǎn)要素之一。數(shù)據(jù)價(jià)值持續(xù)釋放的同時(shí),數(shù)據(jù)安全問(wèn)題受關(guān)注度也在不斷攀升,Risk

BasedSecurity報(bào)告顯示,2021年全球公開(kāi)披露的數(shù)據(jù)泄露事件高達(dá)4145起,共導(dǎo)致約227億條數(shù)據(jù)被泄露,其中影響較大的泄露事件包括:5.53億Facebook用戶的全名、出生日期、電話號(hào)碼等敏感數(shù)據(jù)被泄露;7億多條LinkedIn用戶的全名、性別、電子郵件、電話號(hào)碼、行業(yè)信息等敏感數(shù)據(jù)在RaidForums上被黑客出售等。數(shù)據(jù)泄露事件的日益增加給個(gè)人生活、企業(yè)利益以及國(guó)家安全造成了不同程度的威脅,因此,如何確保數(shù)據(jù)安全已成為當(dāng)前數(shù)據(jù)產(chǎn)業(yè)發(fā)展中需要解決的首要問(wèn)題。而目前,針對(duì)數(shù)據(jù)安全問(wèn)題的傳統(tǒng)解決方案大都聚焦于數(shù)據(jù)加密處理、數(shù)據(jù)訪問(wèn)控制等,其目的是通過(guò)嚴(yán)格控制數(shù)據(jù)應(yīng)用范圍來(lái)降低數(shù)據(jù)被泄露的風(fēng)險(xiǎn),這明顯不能滿足當(dāng)前數(shù)據(jù)互聯(lián)互通已成為發(fā)展趨勢(shì)的需求。因此,如何在保證數(shù)據(jù)安全的前提下,最大限度地進(jìn)行數(shù)據(jù)價(jià)值的挖掘使用,已成為大數(shù)據(jù)時(shí)代最受關(guān)注的問(wèn)題之一。近年來(lái),數(shù)據(jù)脫敏技術(shù)作為解決平衡數(shù)據(jù)安全和數(shù)據(jù)共享問(wèn)題的重要技術(shù)手段,逐漸進(jìn)入人們的視野,并被廣泛應(yīng)用于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中,其因較好地平衡了數(shù)據(jù)的安全性和可用性,已成為業(yè)界研究的熱點(diǎn)

。1數(shù)據(jù)脫敏概述1.1數(shù)據(jù)脫敏定義敏感數(shù)據(jù)

是指泄露以后可能會(huì)給個(gè)人生活、企業(yè)利益以及國(guó)家安全帶來(lái)嚴(yán)重威脅和損害的數(shù)據(jù),敏感數(shù)據(jù)不但包括個(gè)人隱私數(shù)據(jù),例如姓名、手機(jī)號(hào)碼、身份證號(hào)碼、工作單位、銀行賬號(hào)、電子郵箱、家庭成員、社會(huì)關(guān)系、醫(yī)療信息、教育經(jīng)歷等;還包括社會(huì)機(jī)構(gòu)的隱私數(shù)據(jù),例如企事業(yè)單位的組織架構(gòu)、核心技術(shù)、經(jīng)營(yíng)情況、員工薪酬等。數(shù)據(jù)脫敏又稱數(shù)據(jù)漂白、數(shù)據(jù)變形或數(shù)據(jù)去隱私化,是指在保留數(shù)據(jù)原始特征的情況下,根據(jù)給定的脫敏規(guī)則和策略對(duì)敏感數(shù)據(jù)進(jìn)行變換,從而去除數(shù)據(jù)中的敏感信息,以保護(hù)敏感數(shù)據(jù)避免未經(jīng)授權(quán)而被非法訪問(wèn)、獲取,同時(shí)又可以根據(jù)需要對(duì)敏感數(shù)據(jù)進(jìn)行相關(guān)處理,使得敏感數(shù)據(jù)依舊可以被使用。數(shù)據(jù)脫敏在保證敏感數(shù)據(jù)安全性的同時(shí)保證了數(shù)據(jù)的有效性和可用性,既避免了敏感數(shù)據(jù)被泄露的風(fēng)險(xiǎn),也較好地解決了敏感數(shù)據(jù)在非安全、非可信環(huán)境中的使用問(wèn)題

。1.2數(shù)據(jù)脫敏分類根據(jù)面向的應(yīng)用場(chǎng)景不同以及技術(shù)實(shí)現(xiàn)方式不同,數(shù)據(jù)脫敏技術(shù)可以分為靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏。1.2.1靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏一般適用于在開(kāi)發(fā)、測(cè)試、數(shù)據(jù)分析、培訓(xùn)等非生產(chǎn)環(huán)境應(yīng)用場(chǎng)景中對(duì)非實(shí)時(shí)訪問(wèn)數(shù)據(jù)進(jìn)行脫敏,為了避免泄露風(fēng)險(xiǎn),數(shù)據(jù)必須先脫敏后使用。靜態(tài)數(shù)據(jù)脫敏的目標(biāo)在于根據(jù)設(shè)置好的數(shù)據(jù)脫敏規(guī)則和策略,對(duì)大批量的數(shù)據(jù)集進(jìn)行統(tǒng)一脫敏處理,脫敏操作不會(huì)破壞數(shù)據(jù)的內(nèi)在關(guān)聯(lián)關(guān)系和統(tǒng)計(jì)特征等有價(jià)值的信息,在滿足非生產(chǎn)環(huán)境應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)使用需求的同時(shí),又能保證數(shù)據(jù)提供方最大限度地降低數(shù)據(jù)的敏感程度,確保數(shù)據(jù)在使用過(guò)程中不會(huì)發(fā)生敏感信息泄露。靜態(tài)數(shù)據(jù)脫敏如圖1所示。圖1靜態(tài)數(shù)據(jù)脫敏1.2.2動(dòng)態(tài)數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏一般適用于敏感數(shù)據(jù)需要對(duì)外提供訪問(wèn)服務(wù)的生產(chǎn)環(huán)境應(yīng)用場(chǎng)景中。動(dòng)態(tài)數(shù)據(jù)脫敏的目標(biāo)在于根據(jù)設(shè)置好的數(shù)據(jù)脫敏規(guī)則和策略,對(duì)外部在線申請(qǐng)?jiān)L問(wèn)的敏感數(shù)據(jù)進(jìn)行實(shí)時(shí)的脫敏處理,并能即時(shí)反饋數(shù)據(jù)脫敏后的處理結(jié)果,其數(shù)據(jù)脫敏規(guī)則和策略需要根據(jù)不同情況下對(duì)于相同敏感數(shù)據(jù)的訪問(wèn)做不同的脫敏處理。例如,根據(jù)訪問(wèn)的用戶對(duì)象不同,需要設(shè)置不同的脫敏規(guī)則和策略,從而使得不同用戶對(duì)象根據(jù)不同的脫敏方案進(jìn)行相應(yīng)的敏感數(shù)據(jù)訪問(wèn)。動(dòng)態(tài)數(shù)據(jù)脫敏可以實(shí)時(shí)調(diào)整數(shù)據(jù)脫敏規(guī)則和策略。動(dòng)態(tài)數(shù)據(jù)脫敏如圖2所示。1.2.3兩種脫敏方式比較為了更加全面、直觀地展現(xiàn)靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏之間的差異,本文從應(yīng)用場(chǎng)景、脫敏狀況、部署方式、優(yōu)缺點(diǎn)等方面對(duì)兩種脫敏方式進(jìn)行簡(jiǎn)要比較,如表1所示。表1靜態(tài)數(shù)據(jù)脫敏與動(dòng)態(tài)數(shù)據(jù)脫敏比較由比較結(jié)果可以看出,在應(yīng)用場(chǎng)景方面,靜態(tài)數(shù)據(jù)脫敏應(yīng)用于開(kāi)發(fā)、測(cè)試、數(shù)據(jù)分析、培訓(xùn)等非生產(chǎn)環(huán)境場(chǎng)景中,而動(dòng)態(tài)數(shù)據(jù)脫敏應(yīng)用于需要對(duì)外提供訪問(wèn)服務(wù)的生產(chǎn)環(huán)境場(chǎng)景中。在脫敏狀況方面,靜態(tài)數(shù)據(jù)脫敏對(duì)非實(shí)時(shí)訪問(wèn)數(shù)據(jù)進(jìn)行脫敏,而動(dòng)態(tài)數(shù)據(jù)脫敏則在使用敏感數(shù)據(jù)時(shí)才進(jìn)行脫敏。在部署方式方面,靜態(tài)數(shù)據(jù)脫敏包括單服務(wù)器部署和成對(duì)服務(wù)器部署,而動(dòng)態(tài)數(shù)據(jù)脫敏包括主動(dòng)服務(wù)模式和代理部署兩種方式。靜態(tài)數(shù)據(jù)脫敏的優(yōu)點(diǎn)包括:數(shù)據(jù)脫敏后不會(huì)破壞數(shù)據(jù)的內(nèi)在關(guān)聯(lián)關(guān)系和統(tǒng)計(jì)特征等有價(jià)值的信息,且數(shù)據(jù)信息損失很小,其脫敏效果比動(dòng)態(tài)數(shù)據(jù)脫敏好;但其缺點(diǎn)也很明顯,由于需要對(duì)大批量的數(shù)據(jù)集進(jìn)行統(tǒng)一脫敏處理,計(jì)算開(kāi)銷較大,處理效率不高,而且在進(jìn)行脫敏操作時(shí)容易暴露所有待脫敏的數(shù)據(jù)。動(dòng)態(tài)數(shù)據(jù)脫敏的優(yōu)勢(shì)在于:可以根據(jù)用戶的不同角色、不同權(quán)限設(shè)置不同的脫敏級(jí)別,以達(dá)到對(duì)脫敏數(shù)據(jù)的分級(jí)保護(hù)。由于動(dòng)態(tài)數(shù)據(jù)脫敏對(duì)所有數(shù)據(jù)采取按需脫敏的策略,一定程度上提高了需求方獲取脫敏后數(shù)據(jù)的時(shí)效性。另外,動(dòng)態(tài)數(shù)據(jù)脫敏還支持對(duì)數(shù)據(jù)的動(dòng)態(tài)更新。其缺點(diǎn)則包括:對(duì)系統(tǒng)的魯棒性要求較高,脫敏算法實(shí)現(xiàn)難度較高,脫敏效果不及靜態(tài)數(shù)據(jù)脫敏。因此,根據(jù)上述兩種脫敏方式的比較可以得出結(jié)論:靜態(tài)數(shù)據(jù)脫敏技術(shù)和動(dòng)態(tài)數(shù)據(jù)脫敏技術(shù)都存在各自的優(yōu)缺點(diǎn),兩種脫敏方式各有其適用的應(yīng)用場(chǎng)景,因此在實(shí)際使用中,應(yīng)結(jié)合各自的技術(shù)特點(diǎn)和應(yīng)用場(chǎng)景需求進(jìn)行選擇。2數(shù)據(jù)脫敏需求在大數(shù)據(jù)時(shí)代,為了滿足各種社會(huì)生產(chǎn)發(fā)展需求,我們需要從海量數(shù)據(jù)中獲取有用信息,因此需要對(duì)各類數(shù)據(jù)進(jìn)行開(kāi)發(fā)、測(cè)試、交換、共享等高效融合、挖掘,以創(chuàng)造出更高的數(shù)據(jù)使用價(jià)值。但是當(dāng)前數(shù)據(jù)安全需求與合規(guī)監(jiān)管要求對(duì)數(shù)據(jù)挖掘提出了更高的要求,而數(shù)據(jù)脫敏技術(shù)則相應(yīng)需要滿足以下方面需求:(1)能夠精確識(shí)別數(shù)據(jù)中的重要敏感信息。數(shù)據(jù)脫敏過(guò)程中的首要關(guān)鍵環(huán)節(jié)是能夠?qū)Υ髷?shù)據(jù)中的重要敏感信息進(jìn)行精確識(shí)別和匹配,因此,需要根據(jù)數(shù)據(jù)的分類、分級(jí)策略,創(chuàng)建針對(duì)大數(shù)據(jù)中的重要信息、核心信息、敏感信息、個(gè)人信息等多維度信息的特征庫(kù)模型,通過(guò)正則表達(dá)式、深度學(xué)習(xí)等方式對(duì)脫敏過(guò)程中數(shù)據(jù)的各類重要敏感信息進(jìn)行精確識(shí)別和匹配。(2)數(shù)據(jù)脫敏性能需滿足大數(shù)據(jù)處理需求。大數(shù)據(jù)時(shí)代的數(shù)據(jù)脫敏需要面對(duì)的是海量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)脫敏工具已無(wú)法完成如此體量數(shù)據(jù)的收集、篩選、脫敏、投遞等操作,這就對(duì)數(shù)據(jù)脫敏的性能提出了更高的要求。因此,需要通過(guò)機(jī)器學(xué)習(xí)、集群化部署等方式進(jìn)行多任務(wù)并行處理,以實(shí)現(xiàn)數(shù)據(jù)處理能力的提升,從而滿足大數(shù)據(jù)場(chǎng)景下數(shù)據(jù)脫敏的批量、快速處理需求。(3)需保證數(shù)據(jù)脫敏后在各環(huán)節(jié)的關(guān)聯(lián)性。數(shù)據(jù)脫敏規(guī)則和策略的制定需要確保數(shù)據(jù)脫敏后在應(yīng)用場(chǎng)景諸如開(kāi)發(fā)、測(cè)試、交換、共享等各應(yīng)用階段的數(shù)據(jù)關(guān)聯(lián)性和業(yè)務(wù)語(yǔ)義不變,例如,數(shù)據(jù)脫敏后,原始數(shù)據(jù)的定義不能出現(xiàn)歧義;原始數(shù)據(jù)的類型、格式、長(zhǎng)度等要素不能發(fā)生變化;原始數(shù)據(jù)之間的各種關(guān)聯(lián)關(guān)系不能發(fā)生變化。從而更好地保證數(shù)據(jù)脫敏后在各應(yīng)用環(huán)節(jié)的可用性。(4)需做到對(duì)數(shù)據(jù)脫敏操作全流程監(jiān)管。為確保數(shù)據(jù)脫敏操作過(guò)程的安全可靠,需要對(duì)數(shù)據(jù)脫敏操作進(jìn)行系統(tǒng)化、規(guī)范化的全流程監(jiān)管,以實(shí)現(xiàn)操作過(guò)程的安全、可控。例如,需對(duì)脫敏數(shù)據(jù)的敏感內(nèi)容進(jìn)行審計(jì);對(duì)數(shù)據(jù)脫敏后的內(nèi)容與開(kāi)展業(yè)務(wù)所需的內(nèi)容進(jìn)行匹配;針對(duì)不同的外部訪問(wèn)對(duì)象使用不同的脫敏規(guī)則和策略,并對(duì)其訪問(wèn)操作進(jìn)行全程監(jiān)控,以確保訪問(wèn)數(shù)據(jù)的安全性。3數(shù)據(jù)脫敏算法數(shù)據(jù)脫敏技術(shù)的目的是通過(guò)一定的方法對(duì)敏感數(shù)據(jù)進(jìn)行處理以降低敏感數(shù)據(jù)的敏感程度或者使得敏感數(shù)據(jù)不再包含敏感信息內(nèi)容,從而使敏感數(shù)據(jù)經(jīng)脫敏后在保證其可用性、關(guān)聯(lián)性的前提下,達(dá)到數(shù)據(jù)失真的目的。脫敏算法的選擇和應(yīng)用是數(shù)據(jù)脫敏技術(shù)的核心問(wèn)題,我們應(yīng)根據(jù)不同的場(chǎng)景、不同的數(shù)據(jù)類型、不同的數(shù)據(jù)特征以及不同的脫敏需求等,選擇不同的脫敏算法。傳統(tǒng)的脫敏算法包括:替換、仿真、加密、遮掩、混淆、偏移、均值化等。此外,為了提高數(shù)據(jù)集整體的隱私安全性,有效降低數(shù)據(jù)的敏感程度,實(shí)現(xiàn)高可靠的敏感信息保護(hù)能力,還存在更為復(fù)雜的數(shù)據(jù)匿名化算法,包括K-匿名(K-Anonymity)、L-多樣性(L-Diversity)、T-相近(T-Closeness)等。3.1傳統(tǒng)脫敏算法3.1.1替換替換是指使用具有相似業(yè)務(wù)特征的偽裝數(shù)據(jù)對(duì)原始數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行替代,使得原始數(shù)據(jù)中的相關(guān)字段失去原有語(yǔ)義,從而破壞其可讀性。為了確保數(shù)據(jù)的安全性,替換所使用的數(shù)據(jù)一般具有不可逆性。替換包括映射替換、隨機(jī)替換和參數(shù)替換。映射替換使用替換碼表對(duì)原始數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行整體替換;隨機(jī)替換使用隨機(jī)字符對(duì)原始數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行部分替換;參數(shù)替換通過(guò)將敏感數(shù)據(jù)作為參數(shù)輸入,經(jīng)過(guò)一定規(guī)則的函數(shù)變換以獲得脫敏后的數(shù)據(jù)。替換算法雖然是最為常用的脫敏算法之一,但該算法會(huì)導(dǎo)致脫敏后的數(shù)據(jù)失去其業(yè)務(wù)屬性,不利于數(shù)據(jù)的后續(xù)使用。以表2數(shù)據(jù)為例,使用數(shù)據(jù)替換方式將表格中所有性別整體替換為“XX”,脫敏后數(shù)據(jù)效果如表3所示。3.1.2仿真仿真是仿照原始數(shù)據(jù)中的敏感數(shù)據(jù)內(nèi)容生成符合敏感數(shù)據(jù)原始內(nèi)容語(yǔ)義和格式的新數(shù)據(jù),通過(guò)相同語(yǔ)義的新數(shù)據(jù)替換原來(lái)的敏感數(shù)據(jù),以保證脫敏后的數(shù)據(jù)能夠保持業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而使得脫敏后的數(shù)據(jù)具有較好的可用性[13]。以表2數(shù)據(jù)為例,將表格中所有姓名仿真脫敏后仍為有意義的姓名,脫敏后的數(shù)據(jù)效果如表3所示。3.1.3加密加密是指通過(guò)使用諸如MD5、Hash、AES等密碼學(xué)算法對(duì)敏感數(shù)據(jù)進(jìn)行加密操作,加密處理后的數(shù)據(jù)與敏感數(shù)據(jù)的原始內(nèi)容在邏輯規(guī)則和格式上保持一致,外部未經(jīng)授權(quán)的用戶只能訪問(wèn)到無(wú)實(shí)際意義的密文數(shù)據(jù),在特定需求場(chǎng)景下,系統(tǒng)也可以給相關(guān)需求方提供解密能力以恢復(fù)敏感數(shù)據(jù)的原始內(nèi)容。以表2數(shù)據(jù)為例,將表格中所有身份證號(hào)按照某種加密算法進(jìn)行加密脫敏,脫敏后數(shù)據(jù)效果如表3所示。3.1.4遮掩遮掩是指通過(guò)使用諸如“*”“﹖”“﹟”等特殊符號(hào)對(duì)敏感數(shù)據(jù)中的部分內(nèi)容進(jìn)行掩飾,使得敏感數(shù)據(jù)只選擇公開(kāi)部分原始內(nèi)容[17]。該算法在實(shí)現(xiàn)數(shù)據(jù)脫敏、達(dá)到保護(hù)敏感數(shù)據(jù)真實(shí)信息的同時(shí),較好地保持了敏感數(shù)據(jù)原始內(nèi)容的格式,是目前使用較為廣泛的脫敏算法。以表2數(shù)據(jù)為例,將表格中所有身份證號(hào)的前6位保留不變,其余部分使用“*”進(jìn)行遮掩,脫敏后的數(shù)據(jù)效果如表3所示。3.1.5混淆混淆是指通過(guò)對(duì)敏感數(shù)據(jù)內(nèi)容在指定條件下進(jìn)行打亂重排和重新分布,從而破壞與其他字段數(shù)據(jù)的關(guān)聯(lián)關(guān)系,使得混淆后的數(shù)據(jù)不再具有原始內(nèi)容的語(yǔ)義?;煜惴梢员3置舾袛?shù)據(jù)原始內(nèi)容的組成格式,例如將數(shù)字混淆為數(shù)字、字母混淆為字母、符號(hào)混淆為符號(hào),一般不會(huì)影響數(shù)據(jù)統(tǒng)計(jì)特性等業(yè)務(wù)數(shù)據(jù)信息。以表2數(shù)據(jù)為例,將表格中手機(jī)號(hào)的前3位網(wǎng)絡(luò)識(shí)別號(hào)保留不變,對(duì)其余部分進(jìn)行無(wú)規(guī)則打亂,脫敏后的數(shù)據(jù)效果如表3所示。3.1.6偏移偏移主要是通過(guò)對(duì)敏感數(shù)據(jù)內(nèi)容進(jìn)行隨機(jī)移位來(lái)改變數(shù)據(jù)內(nèi)容,偏移算法一般適用于數(shù)值型數(shù)據(jù)。例如,我們可以將個(gè)人相關(guān)敏感時(shí)間數(shù)據(jù)統(tǒng)一偏移一定的數(shù)字以實(shí)現(xiàn)數(shù)據(jù)脫敏的目的,不過(guò)該算法在諸如背景關(guān)聯(lián)等特定條件下也存在被破解的風(fēng)險(xiǎn),因此在實(shí)際應(yīng)用中一般是結(jié)合其他算法共同使用。以表2數(shù)據(jù)為例,將表格中所有到賬時(shí)間進(jìn)行偏移操作,脫敏后的數(shù)據(jù)效果如表3所示。表2原始數(shù)據(jù)表A表3傳統(tǒng)脫敏算法的脫敏效果3.1.7均值化均值化一般針對(duì)數(shù)值型的敏感數(shù)據(jù),首先對(duì)指定范圍的敏感數(shù)據(jù)進(jìn)行求和,然后計(jì)算出其平均值,最后將脫敏后的數(shù)據(jù)隨機(jī)分布在均值附近,以保持?jǐn)?shù)據(jù)的總和不發(fā)生變化,該算法在一定程度上保證了數(shù)據(jù)的統(tǒng)計(jì)特性。以表2數(shù)據(jù)為例,將表格中所有工資數(shù)據(jù)進(jìn)行平均值處理,工資總數(shù)不變,脫敏后的各工資數(shù)據(jù)值在均值9320.15附近,脫敏后的數(shù)據(jù)效果如表3所示。3.2數(shù)據(jù)匿名化算法3.2.1K-匿名K-匿名(K-Anonymity)最早由Samarati和Sweeney于1998年提出,其基本思想是如果在一組公開(kāi)的數(shù)據(jù)集中,任何一條記錄都不能與其他至少k-1條記錄進(jìn)行直接區(qū)分,則稱該條記錄滿足K-Anonymity。在該數(shù)據(jù)集中,每種敏感數(shù)據(jù)的屬性組合需要同時(shí)出現(xiàn)在k條記錄中

,無(wú)法被區(qū)分的k條記錄被稱為一個(gè)等價(jià)類。K-匿名雖然可以對(duì)敏感數(shù)據(jù)進(jìn)行匿名化處理,但沒(méi)有對(duì)敏感數(shù)據(jù)的屬性進(jìn)行任何保護(hù),這就容易導(dǎo)致數(shù)據(jù)遭受背景知識(shí)攻擊和同質(zhì)攻擊等。以表4原始數(shù)據(jù)表B為例,表中“ID號(hào)”和“姓名”為標(biāo)識(shí)符屬性,“性別”“年齡”“身高”為準(zhǔn)標(biāo)識(shí)符屬性,“疾病”為敏感屬性。為防止病人病歷信息的泄露,在匿名化后的表格中,將不再發(fā)布“ID號(hào)”和“姓名”字段值,“性別”字段的部分值用“*”代替,匿名化后的“性別”“年齡”“身高”3個(gè)屬性具有2-匿名性,即任何一行字段在這三列上的值的組合都至少出現(xiàn)了2次,詳細(xì)結(jié)果如表5所示。表4原始數(shù)據(jù)表B表52-匿名表3.2.2L-多樣性L-多樣性(L-Diversity)是指如果對(duì)于任意相等數(shù)據(jù)集(等價(jià)類)內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)屬性集合,至少包含L個(gè)“良好表示”(Well-Represented)值,則稱該等價(jià)類滿足L-Diversity,如果數(shù)據(jù)集中所有等價(jià)類都滿足L-Diversity,則稱該數(shù)據(jù)集滿足L-Diversity。L-多樣性是對(duì)K-匿名在敏感數(shù)據(jù)屬性方面的一種改進(jìn),相較K-匿名,L-多樣性使得未經(jīng)授權(quán)的外部用戶最多只有1/L的概率能夠獲取敏感數(shù)據(jù)中的敏感信息內(nèi)容,顯著降低了敏感數(shù)據(jù)被泄露的風(fēng)險(xiǎn)。以表6原始數(shù)據(jù)表C為例,L-多樣性后的結(jié)果如表7所示,表中有3個(gè)等價(jià)類,每個(gè)等價(jià)類中至少包含3個(gè)不同的敏感屬性值,因此這部分公開(kāi)的數(shù)據(jù)就滿足3-多樣性屬性。表6原始數(shù)據(jù)表C表73-多樣性匿名表3.2.3T-相近T-相近(T-Closeness)在L-多樣性的基礎(chǔ)上進(jìn)行了改進(jìn)強(qiáng)化,增加了對(duì)數(shù)據(jù)敏感屬性值分布的約束,其要求每一個(gè)等價(jià)類中敏感屬性值的分布與整個(gè)數(shù)據(jù)表中敏感屬性值的分布之間的差異不超過(guò)給定的參數(shù)t,即該等價(jià)類滿足t-Closeness,從而使得每個(gè)等價(jià)類中敏感屬性值的統(tǒng)計(jì)分布與整個(gè)數(shù)據(jù)表中敏感屬性值的總體分布“相近”,即該數(shù)據(jù)表滿足t-Closeness。在這3種匿名化算法中,K-匿名可以抵御鏈接攻擊,但無(wú)法解決同質(zhì)攻擊問(wèn)題;L-多樣性雖然可以抵御同質(zhì)攻擊,但卻不能解決偏斜攻擊和相似性攻擊;T-相近則可以有效解決偏斜攻擊和相似性攻擊,實(shí)現(xiàn)敏感數(shù)據(jù)的隱私保護(hù)需求。4數(shù)據(jù)脫敏展望近年來(lái),數(shù)據(jù)脫敏技術(shù)已逐漸應(yīng)用于社會(huì)生產(chǎn)的各相關(guān)領(lǐng)域,數(shù)據(jù)脫敏技術(shù)在一定程度上有效地保護(hù)了各類敏感數(shù)據(jù)隱私信息的外泄。與此同時(shí),數(shù)據(jù)脫敏技術(shù)本身也經(jīng)歷了從只適用于非生產(chǎn)環(huán)境的靜態(tài)數(shù)據(jù)脫敏到可以適用于生產(chǎn)環(huán)境的動(dòng)態(tài)數(shù)據(jù)脫敏的應(yīng)用場(chǎng)景的演進(jìn),而隨著信息化技術(shù)的不斷深入發(fā)展,文本、圖片、音視頻、XML、HTML以及各類報(bào)表等非結(jié)構(gòu)化數(shù)據(jù)將會(huì)成為數(shù)據(jù)脫敏技術(shù)未來(lái)研究的重要目標(biāo)對(duì)象。因此,隨著未來(lái)社會(huì)生產(chǎn)中數(shù)據(jù)脫敏場(chǎng)景需求的日益多樣化和復(fù)雜化,數(shù)據(jù)脫敏技術(shù)仍面臨著不斷優(yōu)化和提升的需求,未來(lái)數(shù)據(jù)脫敏技術(shù)的發(fā)展趨勢(shì)將可能包括以下幾個(gè)方面。4.1數(shù)據(jù)脫敏的更合規(guī)化當(dāng)前隨著數(shù)據(jù)泄露事件的頻發(fā)以及《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》等數(shù)據(jù)法律法規(guī)的相繼出臺(tái),使得各領(lǐng)域企業(yè)不得不將數(shù)據(jù)使用的合規(guī)性作為首要考慮的問(wèn)題。數(shù)據(jù)脫敏技術(shù)本身在能夠有效保護(hù)敏感數(shù)據(jù)隱私信息泄露的同時(shí),也面臨著如何使用才能更合法合規(guī)這一現(xiàn)實(shí)問(wèn)題,這也決定了數(shù)據(jù)脫敏技術(shù)將來(lái)能否全面普及應(yīng)用。未來(lái)在數(shù)據(jù)脫敏技術(shù)的使用過(guò)程中,可以考慮將政策監(jiān)管要求、企業(yè)業(yè)務(wù)需求同數(shù)據(jù)脫敏技術(shù)算法策略的選擇相結(jié)合,在符合國(guó)家政策法規(guī)的前提下,最大限度地幫助企業(yè)實(shí)現(xiàn)能夠滿足業(yè)務(wù)需求的數(shù)據(jù)脫敏處理,這將是數(shù)據(jù)脫敏技術(shù)后續(xù)研究的重要方向。4.2數(shù)據(jù)脫敏的高性能化隨著各行業(yè)領(lǐng)域的數(shù)據(jù)儲(chǔ)量和數(shù)據(jù)產(chǎn)業(yè)規(guī)模的爆發(fā)式增長(zhǎng),數(shù)據(jù)脫敏技術(shù)在實(shí)際操作過(guò)程中所需面臨的處理敏感數(shù)據(jù)的規(guī)模也呈指數(shù)級(jí)地提升,當(dāng)前數(shù)據(jù)脫敏技術(shù)尚達(dá)不到處理不斷增長(zhǎng)的海量數(shù)據(jù)的要求。此外,由于未來(lái)社會(huì)生產(chǎn)對(duì)數(shù)據(jù)使用實(shí)時(shí)性的需求愈發(fā)迫切,數(shù)據(jù)脫敏技術(shù)即使能夠滿足應(yīng)對(duì)大規(guī)模數(shù)據(jù)處理的需求,但其是否能夠?qū)崟r(shí)、高效地完成針對(duì)大規(guī)模數(shù)據(jù)的快速脫敏處理,做到“即脫即用”,也將成為迫切需求。因此,能滿足大規(guī)模數(shù)據(jù)處理和快速響應(yīng)的高性能需求將成為未來(lái)數(shù)據(jù)脫敏技術(shù)另一重要發(fā)展方向。4.3數(shù)據(jù)脫敏的非結(jié)構(gòu)化當(dāng)前數(shù)據(jù)脫敏技術(shù)主要針對(duì)數(shù)據(jù)庫(kù)等有數(shù)據(jù)結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù)

,相較結(jié)構(gòu)化數(shù)據(jù),文本、圖片、音視頻、XML、HTML以及各類報(bào)表等非結(jié)構(gòu)化數(shù)據(jù)在當(dāng)前社會(huì)生產(chǎn)中的應(yīng)用程度已越來(lái)越高,各領(lǐng)域企業(yè)對(duì)涉及用戶敏感信息的非結(jié)構(gòu)化數(shù)據(jù)的挖掘和使用也越加頻繁,原先針對(duì)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)脫敏技術(shù)已無(wú)法滿足非結(jié)構(gòu)化數(shù)據(jù)的脫敏需求。因此,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的脫敏技術(shù)研究將成為未來(lái)新的探索方向。4.4數(shù)據(jù)脫敏的高

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論