




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
...wd......wd......wd...大數(shù)據(jù)脫敏方案2017-1-15更改履歷版本號修改編號更改時間更改的圖表和章節(jié)號更改簡要描述更改人批準(zhǔn)人目錄1.概述41.1.編寫目的41.2.數(shù)據(jù)脫敏的定義41.3.電網(wǎng)數(shù)據(jù)脫敏需求42.脫敏方案52.1.脫敏算法52.1.1.K-Anonymity(K-匿名)52.1.2.L-Diversity52.1.3.T-Closeness52.2.脫敏規(guī)那么53.電網(wǎng)應(yīng)用場景63.1.云平臺功能設(shè)計73.2.大數(shù)據(jù)平臺功能設(shè)計7概述編寫目的本文檔描述了數(shù)據(jù)脫敏的研究成果和方法論。旨在為具有數(shù)據(jù)脫敏需求的開發(fā)人員和工程提供參考和借鑒。數(shù)據(jù)脫敏的定義敏感數(shù)據(jù)一般指不當(dāng)使用或未經(jīng)授權(quán)被人接觸或修改會不利于國家利益或不利于個人依法享有的個人隱私權(quán)的所有信息。工業(yè)和信息化部編制的?信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南?明確要求,處理個人信息應(yīng)當(dāng)具有特定、明確和合理的目的,應(yīng)當(dāng)在個人信息主體知情的情況下獲得個人信息主體的同意,應(yīng)當(dāng)在達(dá)成個人信息使用目的之后刪除個人信息。這項標(biāo)準(zhǔn)最顯著的特點(diǎn)是將個人信息分為個人一般信息和個人\t"://baike.baidu/_blank"敏感信息,并提出了默許同意和明示同意的概念。對于個人一般信息的處理可以建設(shè)在默許同意的根基上,只要個人信息主體沒有明確表示反對,便可收集和利用。但對于個人敏感信息,那么需要建設(shè)在明示同意的根基上,在收集和利用之前,必須首先獲得個人信息主體明確的授權(quán)。這項標(biāo)準(zhǔn)還正式提出了處理個人信息時應(yīng)當(dāng)遵循的八項基本原那么,即目的明確、最少夠用、公開告知、個人同意、質(zhì)量保證、安全保障、誠信履行和責(zé)任明確,劃分了收集、加工、轉(zhuǎn)移、刪除四個環(huán)節(jié),并針對每一個環(huán)節(jié)提出了落實(shí)八項基本原那么的具體要求。數(shù)據(jù)脫敏(DataMasking),又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對數(shù)據(jù)脫敏的定義為:指對某些敏感信息通過脫敏規(guī)那么進(jìn)展數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣,就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。敏感數(shù)據(jù),又稱隱私數(shù)據(jù),常見的敏感數(shù)據(jù)有:姓名、身份證號碼、地址、號碼、銀行賬號、郵箱地址、所屬城市、、密碼類(如賬戶查詢密碼、取款密碼、登錄密碼等)、組織機(jī)構(gòu)名稱、營業(yè)執(zhí)照號碼、銀行帳號、交易日期、交易金額等。隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)商業(yè)價值的挖掘,用戶的精準(zhǔn)定位,大數(shù)據(jù)中蘊(yùn)藏的巨大商業(yè)價值被逐步挖掘出來,但是同時也帶來了巨大的挑戰(zhàn)–個人隱私信息的保護(hù)。個人信息與個人行為(比方位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問行為)等,這些都是人的隱私,也是我們所關(guān)注的一類敏感信息,在大數(shù)據(jù)價值挖掘的根基上如何保護(hù)人的隱私信息,也將是數(shù)據(jù)脫敏必須解決的難題。數(shù)據(jù)脫敏需求隨著國家電網(wǎng)數(shù)據(jù)應(yīng)用的不斷深入,有許多應(yīng)用需要和外部系統(tǒng)對接,數(shù)據(jù)需要對外提供服務(wù)才能表達(dá)出它的價值,大數(shù)據(jù)時代是數(shù)據(jù)融合的時代,如何在數(shù)據(jù)融合的過程中,保證數(shù)據(jù)在開發(fā)、測試、生產(chǎn)、應(yīng)用等各個環(huán)節(jié)的安全,成為信息安全部門的重要任務(wù)。國家電網(wǎng)數(shù)據(jù)脫敏需求包括:通過數(shù)據(jù)抽取、數(shù)據(jù)漂白、數(shù)據(jù)混淆等處理過程,用來滿足測試、開發(fā)、培訓(xùn)、數(shù)據(jù)共享和數(shù)據(jù)融合場景下的敏感數(shù)據(jù)保護(hù)需求,并使得數(shù)據(jù)處理過程滿足國家電網(wǎng)的敏感數(shù)據(jù)防護(hù)的政策規(guī)定。具體脫敏需求包括:防止生產(chǎn)庫中的敏感數(shù)據(jù)泄漏通過對生產(chǎn)庫中的身份、地址、用戶卡號、手機(jī)號等敏感信息進(jìn)展混淆、打亂后再提供給第三方使用,防止生產(chǎn)庫中的敏感數(shù)據(jù)泄漏。保證測試、開發(fā)、應(yīng)用階段的數(shù)據(jù)關(guān)聯(lián)性通過脫敏策略和算法,保證脫敏數(shù)據(jù)有效性〔保持原有數(shù)據(jù)類型和業(yè)務(wù)格式不變〕、完整性〔保證長度不變、數(shù)據(jù)含義不喪失〕、關(guān)系性〔保持表間、表內(nèi)數(shù)據(jù)關(guān)聯(lián)關(guān)系〕。以提升測試、開發(fā)、應(yīng)用環(huán)節(jié)的數(shù)據(jù)真實(shí)性和可用性。保證數(shù)據(jù)維護(hù)和數(shù)據(jù)共享的安全對數(shù)據(jù)庫訪問者的用戶名、IP、工具類型、時間等進(jìn)展監(jiān)控,控制數(shù)據(jù)訪問結(jié)果的差異化,數(shù)據(jù)結(jié)果可以劃分為真實(shí)數(shù)據(jù)、掩碼數(shù)據(jù)、數(shù)據(jù)阻斷、行限定數(shù)據(jù)等,通過訪問者的不同訪問策略,滿足細(xì)粒度的數(shù)據(jù)訪問需求。例如DBA可維護(hù)但無法查看敏感數(shù)據(jù)、業(yè)務(wù)系統(tǒng)可以訪問真實(shí)數(shù)據(jù)、分析系統(tǒng)可以訪問脫敏后的數(shù)據(jù)。保證隱私數(shù)據(jù)管理的政策合規(guī)性數(shù)據(jù)的脫敏和數(shù)據(jù)處理必須在國家電網(wǎng)的相關(guān)政策規(guī)定允許的情況下進(jìn)展,脫敏規(guī)那么符合國家電網(wǎng)的數(shù)據(jù)管理要求。脫敏方案脫敏流程數(shù)據(jù)脫敏的流程一般分為:敏感數(shù)據(jù)發(fā)現(xiàn)、敏感數(shù)據(jù)梳理、脫敏方案制定、脫敏任務(wù)執(zhí)行四大步驟,結(jié)合數(shù)據(jù)脫敏算法、數(shù)據(jù)脫敏規(guī)那么以及脫敏的環(huán)境來到達(dá)最正確的數(shù)據(jù)脫敏效果。敏感數(shù)據(jù)發(fā)現(xiàn)敏感數(shù)據(jù)的發(fā)現(xiàn)分為人工發(fā)現(xiàn)和自動發(fā)現(xiàn)兩種。對于國家電網(wǎng)相對固定的業(yè)務(wù)數(shù)據(jù),可以采用人工甄別,明確指定那些列、那些庫的數(shù)據(jù)是需要脫敏,這些數(shù)據(jù)一般數(shù)據(jù)構(gòu)造和數(shù)據(jù)長度不會有變化,大局部為數(shù)值型和固定長度的字符。比方:單位代碼、戶號、戶名、用電地址等標(biāo)識列,針對這些數(shù)據(jù)可以通過人工指定脫敏規(guī)那么和不同的數(shù)據(jù)訪問策略,保證敏感信息不被泄漏。自動識別根據(jù)人工指定或預(yù)定義的敏感數(shù)據(jù)特征,借助敏感數(shù)據(jù)信息庫和分詞系統(tǒng),自動識別數(shù)據(jù)庫中包含的敏感信息,相對于人工識別可以減少工作量和防止遺漏。一般采用自動發(fā)現(xiàn)為主,結(jié)合人工發(fā)現(xiàn)和審核,來完成敏感數(shù)據(jù)的發(fā)現(xiàn)和定義,最終形成完善的敏感數(shù)據(jù)字典。敏感數(shù)據(jù)梳理在敏感數(shù)據(jù)發(fā)現(xiàn)的根基上,完成敏感數(shù)據(jù)列、敏感數(shù)據(jù)關(guān)系的調(diào)整,以保證數(shù)據(jù)的關(guān)聯(lián)關(guān)系。通過屏蔽、變形、替換、隨機(jī)、格式保存加密、強(qiáng)加密等數(shù)據(jù)脫敏算法,針對不同的數(shù)據(jù)類型進(jìn)展數(shù)據(jù)掩碼擾亂。脫敏方案制定對于不同的數(shù)據(jù)脫敏需求,在根基脫敏算法的根基上,可配置專門的脫敏策略。脫敏方案的制定主要依靠脫敏策略和脫敏算法的復(fù)用來實(shí)現(xiàn),通過配置和擴(kuò)展脫密算法以制定最優(yōu)方案。脫敏任務(wù)執(zhí)行脫敏任務(wù)的停頓、啟動、暫停等操作,支持任務(wù)并行處理,支持脫敏任務(wù)的中斷續(xù)延等。脫敏算法脫敏算法特征通常根據(jù)不同數(shù)據(jù)特征選擇不同的脫敏算法,對常見數(shù)據(jù)如姓名、證件號、銀行賬戶、金額、日期、住址、號碼、Email地址、車牌號、車架號、企業(yè)名稱、工商注冊號、組織機(jī)構(gòu)代碼、納稅人識別號等敏感數(shù)據(jù)進(jìn)展脫敏,脫敏算法通常包括屏蔽、變形、替換、隨機(jī)、格式保存加密〔FPE〕和強(qiáng)加密算法〔如AES〕。脫敏算法具有如下特性:同義替換使用一樣含義的數(shù)據(jù)替換原有的敏感數(shù)據(jù),如姓名脫敏后仍然為有意義的姓名,住址脫敏后仍然為住址。局部數(shù)據(jù)遮蔽將原數(shù)據(jù)中局部或全部內(nèi)容,用“*〞或“#〞等字符進(jìn)展替換,遮蓋局部或全部原文?;旌掀帘螌⑾嚓P(guān)的列作為一個組進(jìn)展屏蔽,以保證這些相關(guān)列中被屏蔽的數(shù)據(jù)保持同樣的關(guān)系,例如,城市、省、在屏蔽后保持一致。確定性屏蔽確保在運(yùn)行屏蔽后生成可重復(fù)的屏蔽值??纱_保特定的值〔如,客戶號、身份證號碼、銀行卡號〕在所有數(shù)據(jù)庫中屏蔽為同一個值。可逆脫敏確保脫敏后的數(shù)據(jù)可復(fù)原,便于將第三方分析機(jī)構(gòu)和內(nèi)局部析團(tuán)隊基于脫敏后數(shù)據(jù)上的分析的結(jié)果復(fù)原為業(yè)務(wù)數(shù)據(jù)。K-Anonymity(K-匿名)算法描述:要求對于任意一行記錄,其所屬的相等集內(nèi)記錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識列屬性值與該條記錄一樣。理論上來說,對于K-Anonymity數(shù)據(jù)集,對于任意記錄,攻擊者只有1/k的概率將該記錄與具體用戶關(guān)聯(lián)。算法步驟:先移除標(biāo)識列泛化半標(biāo)識列算法優(yōu)缺點(diǎn):優(yōu)點(diǎn):可以用于保護(hù)個人標(biāo)識泄漏的風(fēng)險。缺點(diǎn):容易受到鏈接式攻擊,無法保護(hù)屬性泄露的風(fēng)險。對于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過同質(zhì)屬性攻擊與背景知識攻擊兩種方式攻擊用戶的屬性信息。對移除標(biāo)識列的數(shù)據(jù)根據(jù)半標(biāo)識列進(jìn)展分組,每組最少有k條記錄,每組中至少有k-1條記錄的半標(biāo)識列的值與該記錄一樣。L-Diversity算法描述:如果對于任意相等集內(nèi)所有記錄對應(yīng)的敏感數(shù)據(jù)的集合,包含L個“適宜〞值,那么稱該相等集是滿足L-Deversity。如果數(shù)據(jù)集中所有相等集都滿足L-Deversity,那么稱該數(shù)據(jù)集滿足L-Deversity。相對于K-Anonymity標(biāo)準(zhǔn),符合L-Deversity標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄漏的風(fēng)險。對于滿足L-Derversity的數(shù)據(jù)集,理論上,攻擊者最多只有1/L的概率能夠?qū)傩孕孤豆?,將特定用戶與其敏感信息關(guān)聯(lián)起來。通過插入干擾數(shù)據(jù)構(gòu)造符合L-Diversity的數(shù)據(jù)集。在K-Anonymity的根基上,每個數(shù)據(jù)集中,其敏感信息列有L個不同的值,攻擊者只有1/L的幾率獲得正確的敏感信息。T-Closeness算法描述:L-Diversity是通過約束P的diversity屬性,盡量減少B0和B2之間的信息量差距,差距越小,說明隱私信息泄漏越少。T-Closeness約束那么期望減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相等集分布信息之間得到更多的個人隱私信息。如果一個相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全局分布之間的距離小于T,那么稱該相等類滿足T-Closeness約束。如果數(shù)據(jù)集中的所有相等類都滿足T-Closeness,那么稱該數(shù)據(jù)集滿足T-Closeness.T-Closeness約束限定了半標(biāo)識列屬性與敏感信息的全局分布之間的聯(lián)系,減弱了半標(biāo)識列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過敏感信息的分布信息進(jìn)展屬性泄露攻擊的可能性。不過同時也肯定導(dǎo)致了一定程度的信息喪失,所以管理者通過T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護(hù)。算法用例原始數(shù)據(jù)我們以用采用戶數(shù)據(jù)為例:ORG_NO〔單位代碼〕CONS_NO〔戶號〕CONS_NAME〔戶名〕ELEC_ADDR〔用電地址〕ELEC_TYPE_CODE〔用電類型〕LINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP334083001103520128944浙江長興縣供電公司浙江省湖州市長興縣泗安鎮(zhèn)塔上行政村張家灣自然村402195200004710AC00101315334083001103520093806浙江奇碟汽車零部件浙江省湖州市長興縣泗安鎮(zhèn)五里渡行政村五里渡新村自然村100195200003720AC001011880334083001103520113877華能長興光伏發(fā)電有限責(zé)任公司浙江省湖州市長興縣泗安鎮(zhèn)三里亭行政村亭子頭自然村杰夫廠區(qū)100195200001710AC001021240334083001103520091731長興縣泗安鎮(zhèn)錢莊村村民委員會浙江省湖州市長興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村100195200001540AC0010180334083001103520091731長興縣泗安鎮(zhèn)錢莊村村民委員會浙江省湖州市長興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村403195200002540AC0010280334083001103520189655浙江物產(chǎn)汽車安全科技浙江省湖州市長興縣泗安鎮(zhèn)趙村村行政村趙村廟自然村100195200001610AC00102630334083001103520161668華能長興光伏發(fā)電有限責(zé)任公司浙江省湖州市長興縣泗安鎮(zhèn)三里亭村行政村亭子頭自然村402195200004410AC001012500334083001103520025635長興泗安嚴(yán)義明蔬菜種植園浙江省湖州市長興縣泗安鎮(zhèn)塔上村行政村塔上大灣自然村403195200002500AC0010180334083001103520128944浙江長興縣供電公司浙江省湖州市長興縣泗安鎮(zhèn)塔上行政村張家灣自然村402195200004710AC001013K-Anonymity(k=2)ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP3340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)40219520000>4000AC001013153340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)40219520000>4000AC0010125003340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>3000AC0010118803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>3000AC00101803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)40319520000>2000AC00102803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)40319520000>2000AC00102803340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>1000AC0010212403340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>1000AC00102630L-Diversity(L=2)ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP3340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)40219520000>4000AC001013153340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)40219520000>4000AC0010125003340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>3000AC0010118803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>3000AC00101803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)40319520000>2000AC00102803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)40319520000>2000AC00102803340830011035200*浙江省湖州市長興縣泗安鎮(zhèn)40319520000>2000AC001021203340830011035201*浙江省湖州市長興縣泗安鎮(zhèn)10019520000>1000AC001021240脫敏規(guī)那么脫敏規(guī)那么,一般的脫敏規(guī)那么分類為可恢復(fù)與不可恢復(fù)兩類。可恢復(fù)類,指脫敏后的數(shù)據(jù)可以通過一定的方式,可以恢復(fù)成原來的敏感數(shù)據(jù),此類脫敏規(guī)那么主要指各類加解密算法規(guī)那么。不可恢復(fù)類,指脫敏后的數(shù)據(jù)被脫敏的局部使用任何方式都不能恢復(fù)出。一般可分為替換算法和生成算法兩大類。替換算法即將需要脫敏的局部使用定義好的字符或字符串替換,生成類算法那么更復(fù)雜一些,要求脫敏后的數(shù)據(jù)符合邏輯規(guī)那么,即是“看起來很真實(shí)的假數(shù)據(jù)〞。常用的脫敏規(guī)那么主要有:編號名稱描述例如1Hiding〔隱匿〕將數(shù)據(jù)替換成一個常量,常用作不需要該敏感字段時500->0630->02Hashing〔hash映射〕將數(shù)據(jù)映射為一個hash值〔不一定是一一映射〕,常用作將不定長數(shù)據(jù)應(yīng)設(shè)成定長的hash值Jim,Green->456684923Tom,Cluz->8593759843Permutation〔唯一值映射〕將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找回原始值,支持正確的聚合或連接操作Smith->ClemetzJones->Spefde4Shift〔偏移〕將數(shù)量值增加一個固定的偏移量,隱藏數(shù)值局部特征253->1253254->12545Enumeration〔排序映射〕將數(shù)據(jù)映射為新值,同時保持?jǐn)?shù)據(jù)順序500->25000400->200006Truncation〔截斷〕將數(shù)據(jù)尾部階段,只保存前半局>021010-88888888->0107Prefix-preserving〔局部混淆〕保持IP前n位不變,混淆其余局部05->06->928Mask〔掩碼〕數(shù)據(jù)長度不變,但只保存局部數(shù)據(jù)信息2345323->234—2314562334->145—349Floor〔偏移取整〕數(shù)據(jù)或是日期取整28->202013052012:30:45->2013052012:00:00脫敏環(huán)境數(shù)據(jù)脫敏的環(huán)境一般按照生產(chǎn)環(huán)境和非生產(chǎn)環(huán)境〔開發(fā)、測試、外包、數(shù)據(jù)分析等〕進(jìn)展劃分,根據(jù)數(shù)據(jù)脫敏產(chǎn)品應(yīng)用場景的將數(shù)據(jù)脫敏劃分為靜態(tài)數(shù)據(jù)脫敏〔staticdatamasking〕和動態(tài)數(shù)據(jù)脫敏〔dynamicdatamasking〕,靜態(tài)數(shù)據(jù)脫敏〔SDM〕與動態(tài)數(shù)據(jù)脫敏〔DDM〕主要的區(qū)別是:是否在使用敏感數(shù)據(jù)當(dāng)時進(jìn)展脫敏。靜態(tài)數(shù)據(jù)脫敏〔SDM〕一般用在非生產(chǎn)環(huán)境,在敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用,一般用于解決測試、開發(fā)庫需要生產(chǎn)庫的數(shù)據(jù)量與數(shù)據(jù)間的關(guān)聯(lián),以排查問題或進(jìn)展數(shù)據(jù)分析等,但又不能將敏感數(shù)據(jù)存儲于非生產(chǎn)環(huán)境的問題。動態(tài)數(shù)據(jù)脫敏〔DDM〕一般用在生產(chǎn)環(huán)境,在訪問敏感數(shù)據(jù)當(dāng)時進(jìn)展脫敏,一般用來解決在生產(chǎn)環(huán)境需要根據(jù)不同情況對同一敏感數(shù)據(jù)讀取時需要進(jìn)展不同級別脫敏的問題。數(shù)據(jù)脫敏方式按照數(shù)據(jù)處理方式的不同,可以將數(shù)據(jù)脫敏分為靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏兩大類。靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏指將數(shù)據(jù)文件進(jìn)展去敏感、去隱私化的處理同時保證數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。外發(fā)給第三方公司進(jìn)展開發(fā)測試或是數(shù)據(jù)分析。得到的分析結(jié)果后能夠?qū)⒎治龀龅臄?shù)據(jù)進(jìn)展回溯。該脫敏方式適用于工程開發(fā)單位需要獲取完整的數(shù)據(jù)才能保證數(shù)據(jù)分析工作的順利完成,對于數(shù)據(jù)提供方,又不希望敏感數(shù)據(jù)泄漏出去,在這種情況下,就需要對數(shù)據(jù)進(jìn)展可回溯的脫敏方式,保證發(fā)送出去的數(shù)據(jù)不包含敏感信息,當(dāng)工程開發(fā)單位開發(fā)完成后,將分析系統(tǒng)或結(jié)果數(shù)據(jù)回溯成真實(shí)的結(jié)果數(shù)據(jù)。這樣既保證了開發(fā)過程中的數(shù)據(jù)共享和結(jié)果一致性,又保證了真實(shí)數(shù)據(jù)不會在開發(fā)過程中泄漏。靜態(tài)數(shù)據(jù)的脫敏非常適合數(shù)據(jù)擁有者在和多個外部開發(fā)團(tuán)隊的數(shù)據(jù)融合和數(shù)據(jù)共享中使用,保證開發(fā)、測試環(huán)節(jié)不會泄漏數(shù)據(jù)。動態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏指用戶在前端應(yīng)用處調(diào)取后臺數(shù)據(jù)庫中敏感數(shù)據(jù)時,進(jìn)展數(shù)據(jù)脫敏,再反響至前臺呈現(xiàn)??稍谕ㄓ崒用嫔?,通過代理部署方式,對業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中敏感數(shù)據(jù)進(jìn)展透明的、實(shí)時的脫敏。通常依據(jù)用戶的角色、職責(zé)和其他IT定義身份特征,動態(tài)的對生產(chǎn)數(shù)據(jù)庫返回的數(shù)據(jù)進(jìn)展專門的屏蔽、加密、隱藏和審計,可確保不同級別的用戶按照其身份特征恰如其分的訪問敏感數(shù)據(jù),并且不需要對生產(chǎn)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)展任何改變。動態(tài)數(shù)據(jù)脫敏同樣支持同義替換、局部遮蔽、混合脫敏、確定性脫敏及可逆脫敏,通??筛鶕?jù)不同用戶身份特征,指定對應(yīng)的數(shù)據(jù)脫敏算法。通過動態(tài)脫敏功能,能夠幫助國家電網(wǎng)公司快速、低風(fēng)險、平穩(wěn)的提供生產(chǎn)數(shù)據(jù)庫的實(shí)時隱私保護(hù)。典型的應(yīng)用場景表達(dá)在:1:保護(hù)生產(chǎn)環(huán)境對于國家電網(wǎng)大型復(fù)雜系統(tǒng)環(huán)境下,為了給客戶提供高水平的服務(wù),有時意味著開發(fā)人員、數(shù)據(jù)庫管理員、設(shè)計人員、專業(yè)參謀和其他系統(tǒng)需要不受限制的訪問生產(chǎn)數(shù)據(jù),以便迅速解決重大問題和快速響應(yīng)。由此造成了對客戶信息、、地址等隱私信息的違規(guī)訪問途徑。動態(tài)數(shù)據(jù)脫敏可以有效解決這一風(fēng)險,并且不會喪失快速響應(yīng)的能力。2:降低外包風(fēng)險對于大型復(fù)雜系統(tǒng),往往依賴大量的外包IT人員和開發(fā)單位來開展和維護(hù)業(yè)務(wù),這些外包人員能夠通過應(yīng)用程序,報表和開發(fā)、運(yùn)維工具訪問生產(chǎn)數(shù)據(jù),這意味著隱私數(shù)據(jù)完全暴露在不可控的環(huán)境中;動態(tài)數(shù)據(jù)脫敏可以對不同用戶和應(yīng)用的訪問進(jìn)展實(shí)時的隱私數(shù)據(jù)屏蔽,幫助國家電網(wǎng)有效保護(hù)重要數(shù)據(jù)資產(chǎn)的訪問。3:保護(hù)通用帳戶風(fēng)險數(shù)據(jù)庫維護(hù)人員常常會使用強(qiáng)度很弱的通用密碼,便于開發(fā)人員和DBA訪問和監(jiān)控生產(chǎn)數(shù)據(jù)庫,便利的同時也為獲取關(guān)鍵隱私數(shù)據(jù)開了方便之門。通過提供過敏后的數(shù)據(jù)掩碼,一方面可以防止來自非生產(chǎn)環(huán)境的登錄,并且可以根據(jù)規(guī)那么向不同的登錄用戶和系統(tǒng)提供經(jīng)過脫敏的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)脫敏技術(shù)大數(shù)據(jù)平臺通過將所有數(shù)據(jù)整合起來,充分分析與挖掘數(shù)據(jù)的內(nèi)在價值,為業(yè)務(wù)部門提供數(shù)據(jù)平臺,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)服務(wù)。大數(shù)據(jù)平臺接入的數(shù)據(jù)中可能包括很多用戶的隱私和敏感信息,如用電記錄、用電用戶支付信息、國家機(jī)密信息等,這些數(shù)據(jù)存在可能泄漏的風(fēng)險。大數(shù)據(jù)平臺一般通過用戶認(rèn)證,權(quán)限管理以及數(shù)據(jù)加密等技術(shù)保證數(shù)據(jù)的安全,但是這并不能完全從技術(shù)上保證數(shù)據(jù)的安全。嚴(yán)格的來說,任何有權(quán)限訪問用戶數(shù)據(jù)的人員,如ETL工程師或是數(shù)據(jù)分析人員等,均有可能導(dǎo)致數(shù)據(jù)泄漏的風(fēng)險。另一方面,沒有訪問用戶數(shù)據(jù)權(quán)限的人員,也可能有對該數(shù)據(jù)進(jìn)展分析挖掘的需求,數(shù)據(jù)的訪問約束大大限制的充分挖掘數(shù)據(jù)價值的范圍。數(shù)據(jù)脫敏通過對數(shù)據(jù)進(jìn)展脫敏,在保證數(shù)據(jù)可用性的同時,也在一定范圍內(nèi)保證惡意攻擊者無法將數(shù)據(jù)與具體用戶關(guān)聯(lián)到一起,從而保證用戶數(shù)據(jù)的隱私性。數(shù)據(jù)脫敏方案作為大數(shù)據(jù)平臺整體數(shù)據(jù)安全解決方案的重要組成局部,是構(gòu)建安全可靠的大數(shù)據(jù)平臺必不可少的功能特性。用戶隱私數(shù)據(jù)保護(hù)與挖掘用戶數(shù)據(jù)價值是兩個互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,需要抹去全部的用戶標(biāo)識信息,使得數(shù)據(jù)潛在的分析價值大大降低。另一方面,完全保存用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價值,同時導(dǎo)致用戶隱私泄露的風(fēng)險無法控制。因此大數(shù)據(jù)脫敏平臺的設(shè)計目標(biāo)并不是實(shí)現(xiàn)工具算法用來完全抹去全部的用戶標(biāo)識信息,而是包括如下幾個目標(biāo):數(shù)據(jù)泄露風(fēng)險可控。首先,實(shí)現(xiàn)基于大數(shù)據(jù)平臺的脫敏算法庫,可并行,高效的按照脫敏規(guī)那么對隱私數(shù)據(jù)進(jìn)展脫敏。其次,基于數(shù)據(jù)脫敏的理論根基,建設(shè)用戶隱私數(shù)據(jù)泄露風(fēng)險的衡量模型,可定性定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險。可管理。結(jié)合大數(shù)據(jù)平臺的用戶認(rèn)證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級別的權(quán)限管理體系,實(shí)現(xiàn)對隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機(jī)制。結(jié)合公司制度,標(biāo)準(zhǔn),法務(wù)等管理,實(shí)現(xiàn)在盡可能保護(hù)用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險的前提下,最大化保存數(shù)據(jù)分析挖掘的價值??蓪徲嫛?shù)據(jù)的訪問要保證可回溯,可審計,當(dāng)發(fā)生數(shù)據(jù)泄露時,要保證能夠通過審計日志找到對應(yīng)的泄露人員。大數(shù)據(jù)平臺的數(shù)據(jù)來源比較廣泛,根據(jù)現(xiàn)在流行的數(shù)據(jù)采集技術(shù),可以分為流式數(shù)據(jù)和批量數(shù)據(jù)兩種。流式數(shù)據(jù)脫密流式數(shù)據(jù)是指不斷產(chǎn)生、實(shí)時計算、動態(tài)增加且要求及時響應(yīng)的數(shù)據(jù),它具有海量和實(shí)時性等特點(diǎn),一般將實(shí)時或準(zhǔn)實(shí)時的數(shù)據(jù)處理技術(shù)歸為流式數(shù)據(jù)處理技術(shù)。包括:ApacheStorm、\t":///article/2015-03-09/target="SparkStreaming等?;赟torm的流式數(shù)據(jù)脫敏\t"://cnblogs/zeppelin/p/_blank"Storm是一個分布式的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 檢驗醫(yī)學(xué)在中醫(yī)診斷中的應(yīng)用考核試卷
- 貴金屬加工過程中的生產(chǎn)調(diào)度優(yōu)化考核試卷
- 認(rèn)證認(rèn)可風(fēng)險管理考核試卷
- 程序員自學(xué)編程的學(xué)習(xí)計劃
- 人教版語文三年級上冊2.3奇怪的大石頭練習(xí)卷2
- 農(nóng)業(yè)項目資金控制與保障措施
- 橋梁建設(shè)中的質(zhì)量控制措施
- 語文教師家校合作成長計劃
- 酒店行業(yè)員工服務(wù)質(zhì)量約談記錄范文
- 院科兩級急救醫(yī)療質(zhì)量改進(jìn)流程
- 中國經(jīng)導(dǎo)管左心耳封堵術(shù)臨床路徑專家共識(2025版)解讀
- 煤礦數(shù)字化智慧礦山整體解決方案(技術(shù)方案)
- 理化外包合同協(xié)議
- 水務(wù)集團(tuán)筆試題目及答案
- 實(shí)際施工人裝修合同協(xié)議
- 無人機(jī)在水利行業(yè)的應(yīng)用
- 特種設(shè)備-叉車應(yīng)急預(yù)案
- 粘土心墻土石壩設(shè)計計算書
- 2025黔西南民族職業(yè)技術(shù)學(xué)院輔導(dǎo)員考試題庫
- 2024年食品安全員考試必會試題與答案
- 2024年成都高新區(qū)所屬事業(yè)單位招聘教師筆試真題
評論
0/150
提交評論