版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化
業(yè)務(wù)規(guī)程(試行)
中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所
北京國際大數(shù)據(jù)交易所
2023年11月
前言
為規(guī)范數(shù)據(jù)處理行為,指導(dǎo)組織正確開展數(shù)據(jù)清洗、去標(biāo)識(shí)化、
匿名化處理等業(yè)務(wù)活動(dòng)及相應(yīng)的技術(shù)測(cè)試評(píng)估,支撐數(shù)據(jù)共享、交
易、開放等流通活動(dòng)合規(guī)、有序進(jìn)行,激活數(shù)據(jù)要素市場(chǎng),依據(jù)《個(gè)
人信息保護(hù)法》《數(shù)據(jù)安全法》,結(jié)合《北京市數(shù)字經(jīng)濟(jì)促進(jìn)條例》《北
京市數(shù)字經(jīng)濟(jì)全產(chǎn)業(yè)鏈開放發(fā)展行動(dòng)方案》等法規(guī)政策要求,在北
京市經(jīng)濟(jì)和信息化局指導(dǎo)下,中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究
所、北京國際大數(shù)據(jù)交易所聯(lián)合編制本報(bào)告。
組織依據(jù)法律法規(guī)要求及相關(guān)業(yè)務(wù)場(chǎng)景需要,對(duì)其控制的數(shù)據(jù)
資源進(jìn)行清洗、去標(biāo)識(shí)化、匿名化處理,是為滿足數(shù)據(jù)處理目的對(duì)
原始數(shù)據(jù)逐步深入加工改造的過程,是提升數(shù)據(jù)可用性和安全性的
關(guān)鍵數(shù)據(jù)處理活動(dòng)。
本報(bào)告以業(yè)務(wù)操作規(guī)程形式為組織提供數(shù)據(jù)清洗、去標(biāo)識(shí)化、
匿名化處理的流程和方法指引,可以作為組織提升自身數(shù)據(jù)質(zhì)量和
可用性的指引方法,作為數(shù)據(jù)交易中介機(jī)構(gòu)審核交易數(shù)據(jù)合規(guī)性、
安全性和可流通性的參考規(guī)則,以及作為相關(guān)認(rèn)證、檢測(cè)機(jī)構(gòu)結(jié)合
應(yīng)用場(chǎng)景針對(duì)相關(guān)技術(shù)進(jìn)行安全測(cè)試評(píng)估的評(píng)價(jià)工具,支持、鼓勵(lì)
數(shù)據(jù)加工、咨詢、安全、檢測(cè)、認(rèn)證等第三方數(shù)據(jù)服務(wù)機(jī)構(gòu)發(fā)展。
本報(bào)告所描述的技術(shù)方法適用于廣義的數(shù)據(jù)范疇,包括但不限
于個(gè)人數(shù)據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,但特殊數(shù)據(jù)類型需要遵守
相應(yīng)的特別管理要求。本報(bào)告所描述的數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名
化處理,是基于數(shù)據(jù)資源的加工處理過程。有“數(shù)”才能對(duì)“數(shù)”
進(jìn)行處理,通過采集、標(biāo)識(shí)、編碼形成數(shù)據(jù)資源,是對(duì)數(shù)據(jù)進(jìn)行清
洗、去標(biāo)識(shí)化、匿名化處理的前提。前者是形成數(shù)據(jù)的基礎(chǔ),后者
是維護(hù)數(shù)據(jù)質(zhì)量和安全的關(guān)鍵。
本報(bào)告主要描述各數(shù)據(jù)處理活動(dòng)的基本原理和通用技術(shù)方法,
需要結(jié)合實(shí)際場(chǎng)景具體適用。本報(bào)告所引用的部分技術(shù)方法參考了
《GB/T37964-2019信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》等相關(guān)
標(biāo)準(zhǔn)指南,在此基礎(chǔ)上,結(jié)合《個(gè)人信息保護(hù)法》等法律法規(guī)的界
定,根據(jù)技術(shù)特性和處理效果,對(duì)去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)進(jìn)行
了區(qū)分。本報(bào)告所描述的相關(guān)技術(shù)方法仍在不斷豐富、演進(jìn)和迭代,
相關(guān)應(yīng)用場(chǎng)景也在不斷發(fā)展變化,本報(bào)告將持續(xù)跟蹤觀察,適時(shí)更
新、補(bǔ)充、調(diào)整和校正。歡迎各組織積極反饋技術(shù)適用情況和建議,
提供技術(shù)適用場(chǎng)景和實(shí)踐案例。
目錄
一、處理目標(biāo)及相互關(guān)系............................................................................................1
(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障.....................................................................1
(二)去標(biāo)識(shí)化是數(shù)據(jù)脫敏的關(guān)鍵.....................................................................1
(三)匿名化是去標(biāo)識(shí)化的強(qiáng)化.........................................................................2
二、數(shù)據(jù)處理原則........................................................................................................4
(一)合法合規(guī).....................................................................................................4
(二)安全優(yōu)先.....................................................................................................4
(三)平衡效用.....................................................................................................4
(四)技管結(jié)合.....................................................................................................4
(五)有效溯源.....................................................................................................5
三、數(shù)據(jù)清洗規(guī)程........................................................................................................5
(一)處理目的.....................................................................................................5
(二)處理流程.....................................................................................................6
(三)常見技術(shù)方法.............................................................................................9
四、數(shù)據(jù)去標(biāo)識(shí)化規(guī)程..............................................................................................12
(一)處理目的...................................................................................................12
(二)處理流程...................................................................................................13
(三)常見技術(shù)方法...........................................................................................18
五、數(shù)據(jù)匿名化規(guī)程..................................................................................................21
(一)處理目的...................................................................................................21
(二)處理流程...................................................................................................21
(三)常見技術(shù)方法...........................................................................................25
六、數(shù)據(jù)處理環(huán)境要求..............................................................................................29
(一)管理制度要求...........................................................................................29
(二)技術(shù)能力要求...........................................................................................30
(三)人員能力要求...........................................................................................30
(四)過程控制要求...........................................................................................30
(五)事故管理要求...........................................................................................31
附件一:常見直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例..............................................................32
附件二:常見標(biāo)識(shí)符的去標(biāo)識(shí)化或匿名化參考......................................................36
附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議..............................................................40
參考資料......................................................................................................................43
表目錄
表1數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的技術(shù)特點(diǎn)和差異.................................3
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
習(xí)近平總書記在2023年中國國際服務(wù)貿(mào)易交易會(huì)全球服務(wù)貿(mào)易
峰會(huì)上發(fā)表視頻致辭指出,要“推動(dòng)數(shù)據(jù)基礎(chǔ)制度先行先試改革”。
《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用
的意見》要求“創(chuàng)新技術(shù)手段,推動(dòng)個(gè)人信息匿名化處理”。規(guī)范數(shù)
據(jù)清洗、去標(biāo)識(shí)化、匿名化處理,有助于提升數(shù)據(jù)的可用、可信、可
流通、可追溯水平,推動(dòng)數(shù)據(jù)要素強(qiáng)化優(yōu)質(zhì)供給,是建立合規(guī)高效、
場(chǎng)內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度的重要內(nèi)容。具體來說,為滿
足數(shù)據(jù)可用性和安全性進(jìn)行的數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理,是
數(shù)據(jù)產(chǎn)品進(jìn)場(chǎng)上市的條件,也是數(shù)據(jù)資產(chǎn)登記、交易的前提,更是數(shù)
據(jù)應(yīng)用、建模釋放二次衍生價(jià)值的底線。本報(bào)告通過明晰數(shù)據(jù)清洗、
去標(biāo)識(shí)化、匿名化處理三者之間的關(guān)系,總結(jié)各項(xiàng)處理活動(dòng)的處理目
的、流程、技術(shù)方法及環(huán)境要求,以期為相關(guān)組織開展相應(yīng)數(shù)據(jù)處理
活動(dòng)和測(cè)試評(píng)估提供參考。
一、處理目標(biāo)及相互關(guān)系
(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障
數(shù)據(jù)清洗是運(yùn)用一定方法修正識(shí)別到的數(shù)據(jù)問題,實(shí)現(xiàn)數(shù)據(jù)的規(guī)
范性、完整性、一致性、準(zhǔn)確性和可溯源性,提高數(shù)據(jù)質(zhì)量的過程。
數(shù)據(jù)清洗旨在滿足數(shù)據(jù)的可用性要求,是數(shù)據(jù)資源預(yù)處理的第一步,
也是保證后續(xù)處理結(jié)果準(zhǔn)確、科學(xué)、有效的重要一環(huán)。數(shù)據(jù)清洗作為
數(shù)據(jù)后續(xù)開發(fā)利用的基礎(chǔ),是數(shù)據(jù)去標(biāo)識(shí)化和匿名化處理的前置步驟。
(二)去標(biāo)識(shí)化是數(shù)據(jù)脫敏的關(guān)鍵
數(shù)據(jù)去標(biāo)識(shí)化是指數(shù)據(jù)經(jīng)過處理,使其在不借助額外信息的情況
1
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
下無法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的過程。數(shù)據(jù)去標(biāo)識(shí)化處理強(qiáng)調(diào)
標(biāo)識(shí)符的“不可識(shí)別性”,即對(duì)數(shù)據(jù)內(nèi)含的相關(guān)敏感信息內(nèi)容進(jìn)行脫
敏處理,通過去除、替換、模糊等方法,達(dá)到不借助額外信息的情況
下無法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的效果。
數(shù)據(jù)去標(biāo)識(shí)化與在先的標(biāo)識(shí)形成過程分屬數(shù)據(jù)處理的不同階段
及場(chǎng)景。標(biāo)識(shí)形成是產(chǎn)生數(shù)據(jù)的過程,使得被標(biāo)識(shí)對(duì)象據(jù)此可以被組
織進(jìn)行有效管理和開發(fā)利用。數(shù)據(jù)去標(biāo)識(shí)化是標(biāo)識(shí)數(shù)據(jù)產(chǎn)生后的加工
處理過程,旨在提升標(biāo)識(shí)信息的安全防護(hù)水平,確保敏感的標(biāo)識(shí)內(nèi)容
不被未經(jīng)授權(quán)的主體獲取和利用。去標(biāo)識(shí)化處理是強(qiáng)化標(biāo)識(shí)數(shù)據(jù)安全
性的重要保障。例如,制造業(yè)企業(yè)通過對(duì)產(chǎn)品、零部件、設(shè)備進(jìn)行標(biāo)
識(shí),形成了可精準(zhǔn)定位產(chǎn)品和設(shè)備的數(shù)據(jù)資源,在委托外部第三方技
術(shù)開發(fā)商進(jìn)行相關(guān)應(yīng)用系統(tǒng)開發(fā)時(shí),需要對(duì)含有敏感內(nèi)容或涉及商業(yè)
秘密的數(shù)據(jù)進(jìn)行去標(biāo)識(shí)化處理。
數(shù)據(jù)去標(biāo)識(shí)化處理暗含了相關(guān)標(biāo)識(shí)符具有“復(fù)原”的可能,去標(biāo)
識(shí)化無法單獨(dú)實(shí)現(xiàn)匿名化的法律效力。例如,對(duì)個(gè)人信息進(jìn)行去標(biāo)識(shí)
化處理后的數(shù)據(jù),仍屬于個(gè)人信息范疇。
(三)匿名化是去標(biāo)識(shí)化的強(qiáng)化
數(shù)據(jù)匿名化是指數(shù)據(jù)經(jīng)過處理,無法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)
符且不能復(fù)原的過程。數(shù)據(jù)匿名化處理在強(qiáng)調(diào)標(biāo)識(shí)符的“不可識(shí)別性”
基礎(chǔ)上,要求標(biāo)識(shí)符同時(shí)滿足“難以復(fù)原性”標(biāo)準(zhǔn),是數(shù)據(jù)去標(biāo)識(shí)化
的進(jìn)一步處理,即數(shù)據(jù)去標(biāo)識(shí)化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識(shí)符難以復(fù)
原的過程。經(jīng)匿名化處理后數(shù)據(jù)的初始效用將受到較大程度的改變。
2
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
與數(shù)據(jù)去標(biāo)識(shí)化相比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信
息也難以識(shí)別特定自然人和被處理的標(biāo)識(shí)符。例如,對(duì)個(gè)人信息進(jìn)行
匿名化處理后的數(shù)據(jù),不再屬于個(gè)人信息范疇。但匿名化處理僅是描
述應(yīng)用匿名化技術(shù)的過程,并非描述數(shù)據(jù)達(dá)到絕對(duì)匿名化的狀態(tài),完
滿、絕對(duì)的不可復(fù)原狀態(tài)無法100%確定。
表1數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的技術(shù)特點(diǎn)和差異
加工后數(shù)據(jù)改造程度數(shù)據(jù)有用性數(shù)據(jù)安全性
(相對(duì)原始數(shù)據(jù))(針對(duì)個(gè)體記錄)(脫敏程度)
低
清洗后數(shù)據(jù)低高
(單獨(dú)可識(shí)別)
中
去標(biāo)識(shí)化數(shù)據(jù)中中(不借助額外信息不可
識(shí)別)
高
匿名化數(shù)據(jù)高低(借助額外信息也難以
復(fù)原的不可識(shí)別)
來源:中國信息通信研究院
去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)沒有嚴(yán)格界分,二者核心都是通過技
術(shù)手段對(duì)標(biāo)識(shí)信息進(jìn)行脫敏處理,實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)內(nèi)容的保護(hù),實(shí)踐
中兩類技術(shù)通??梢越M合使用實(shí)現(xiàn)預(yù)期處理效果。本報(bào)告根據(jù)抗重新
識(shí)別的風(fēng)險(xiǎn)能力大小和對(duì)敏感內(nèi)容安全防護(hù)程度的差異,將相關(guān)技術(shù)
劃分為去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)。仍保留原始數(shù)據(jù)個(gè)體顆粒度的,
納入去標(biāo)識(shí)化技術(shù)方法范疇;不再保留原始數(shù)據(jù)個(gè)體顆粒度,或原始
數(shù)據(jù)記錄的真實(shí)性已受到顯著減損,或原始數(shù)據(jù)記錄不對(duì)外披露的,
納入匿名化技術(shù)方法范疇。
3
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
二、數(shù)據(jù)處理原則
(一)合法合規(guī)
組織開展數(shù)據(jù)清洗、去標(biāo)識(shí)化和匿名化處理,應(yīng)滿足我國法律、
法規(guī)、規(guī)章和標(biāo)準(zhǔn)規(guī)范對(duì)數(shù)據(jù)安全和個(gè)人信息保護(hù)的有關(guān)規(guī)定,不得
不當(dāng)損害國家、社會(huì)和第三方組織及個(gè)人的合法正當(dāng)權(quán)益。
(二)安全優(yōu)先
組織應(yīng)采取相應(yīng)的管理和技術(shù)措施,保證數(shù)據(jù)加工處理過程的安
全性。數(shù)據(jù)的安全性考慮是組織開展數(shù)據(jù)去標(biāo)識(shí)化、匿名化處理活動(dòng)
的首要目的,以降低數(shù)據(jù)在后續(xù)流通、應(yīng)用環(huán)節(jié)的安全風(fēng)險(xiǎn),降低數(shù)
據(jù)安全事故發(fā)生概率。
(三)平衡效用
組織應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求,面向場(chǎng)景化應(yīng)用需求,選
擇恰當(dāng)?shù)那逑础⑷?biāo)識(shí)化和匿名化處理路徑和技術(shù),在確保安全的前
提下,強(qiáng)調(diào)數(shù)據(jù)質(zhì)量要求,盡可能滿足預(yù)期效用,促進(jìn)數(shù)據(jù)安全性和
可用性的有效平衡。
(四)技管結(jié)合
組織應(yīng)綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)數(shù)據(jù)處理的最佳效
果,根據(jù)工作目標(biāo)和數(shù)據(jù)安全要求制定適當(dāng)?shù)牟呗?,選擇合適的模型
和技術(shù),建立完善的管理架構(gòu)、操作權(quán)限和責(zé)任機(jī)制,將技術(shù)和管理
措施嵌入數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理全流程,并定期跟蹤評(píng)估
和持續(xù)改進(jìn)。
4
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
(五)有效溯源
組織應(yīng)明確各環(huán)節(jié)的數(shù)據(jù)處理權(quán)限和流程,對(duì)數(shù)據(jù)清洗、去標(biāo)識(shí)
化、匿名化設(shè)置訪問控制程序,采取措施清晰記錄數(shù)據(jù)處理過程的細(xì)
節(jié)、使用的參數(shù)和控制措施,及時(shí)發(fā)現(xiàn)已經(jīng)出現(xiàn)或可能出現(xiàn)的偏差或
不當(dāng)操作,支撐后續(xù)對(duì)數(shù)據(jù)處理過程進(jìn)行維護(hù)、審計(jì)和追溯。
三、數(shù)據(jù)清洗規(guī)程
(一)處理目的
組織實(shí)施數(shù)據(jù)清洗活動(dòng),應(yīng)保證清洗加工過程和輸出結(jié)果符合以
下要求:
1.規(guī)范性
數(shù)據(jù)來源合法,數(shù)據(jù)的格式、質(zhì)量及存儲(chǔ)標(biāo)準(zhǔn)應(yīng)統(tǒng)一,應(yīng)使用相
同度量單位描述同一場(chǎng)景下的同類數(shù)據(jù),滿足數(shù)據(jù)互聯(lián)互通要求,不
存在空值、無效值,響應(yīng)依據(jù)規(guī)范標(biāo)準(zhǔn)的各種查詢和各種計(jì)算。
2.準(zhǔn)確性
應(yīng)對(duì)數(shù)據(jù)所指向的內(nèi)容客觀、真實(shí)、準(zhǔn)確描述,可對(duì)清洗前后的
數(shù)據(jù)進(jìn)行內(nèi)外部比對(duì)校驗(yàn),并對(duì)具有時(shí)效要求的數(shù)據(jù)根據(jù)時(shí)間特性及
時(shí)更新,確保清洗加工不造成數(shù)據(jù)失真、錯(cuò)漏。
3.完整性
清洗后的數(shù)據(jù)應(yīng)保證數(shù)據(jù)的連續(xù)性、完整性,源數(shù)據(jù)應(yīng)在源頭或
備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。
4.一致性
5
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
各字段內(nèi)的數(shù)據(jù)應(yīng)與字段描述一致,同一個(gè)數(shù)據(jù)在同一時(shí)刻在不
同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)保持一致。
5.可溯源性
應(yīng)在數(shù)據(jù)清洗轉(zhuǎn)換前對(duì)原始數(shù)據(jù)進(jìn)行備份,對(duì)清洗過程所使用的
方法、參數(shù)和路徑進(jìn)行記錄,保證原始數(shù)據(jù)可溯源,便于后續(xù)查證或
重新使用。
(二)處理流程
數(shù)據(jù)清洗的流程通常包括抽取清洗對(duì)象、明確清洗規(guī)則、標(biāo)識(shí)錯(cuò)
誤數(shù)據(jù)、數(shù)據(jù)修正處理、數(shù)據(jù)轉(zhuǎn)換檢驗(yàn)、評(píng)估清洗結(jié)果六個(gè)步驟。
1.抽取清洗對(duì)象
(1)明確清洗對(duì)象
選取需要進(jìn)行清洗處理的數(shù)據(jù),明確清洗的數(shù)據(jù)范圍、類型、性
質(zhì)、體量、內(nèi)容、關(guān)系、質(zhì)量等信息,全面分析清洗標(biāo)的的情況,對(duì)
清洗數(shù)據(jù)進(jìn)行分類分級(jí)。
(2)對(duì)清洗對(duì)象進(jìn)行抽取
清洗對(duì)象的抽取應(yīng)當(dāng)允許對(duì)結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等不同類型數(shù)
據(jù)進(jìn)行抽取,包括對(duì)數(shù)據(jù)的全量抽取和增量抽取,數(shù)據(jù)抽取后的表結(jié)
構(gòu)應(yīng)與抽取來源的表結(jié)構(gòu)保持一致。
2.定義清洗規(guī)則
(1)確定清洗效果和目標(biāo)
根據(jù)清洗的必要性,分析對(duì)應(yīng)數(shù)據(jù)資源的特點(diǎn)和清洗復(fù)雜程度,
6
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
結(jié)合業(yè)務(wù)要求或用戶和其他相關(guān)方的需求,明確清洗的程度和需要達(dá)
到的質(zhì)量效果。
(2)確定清洗邏輯規(guī)則
結(jié)合所抽取的清洗對(duì)象的數(shù)據(jù)特點(diǎn),以需求為導(dǎo)向,以應(yīng)用為目
標(biāo),以數(shù)據(jù)的可用性為評(píng)價(jià)標(biāo)準(zhǔn),明確各數(shù)據(jù)錯(cuò)誤類型的判斷標(biāo)準(zhǔn)及
相應(yīng)的修正處理方式。
3.標(biāo)識(shí)錯(cuò)誤數(shù)據(jù)
(1)篩選錯(cuò)誤數(shù)據(jù)
分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問題和對(duì)應(yīng)的數(shù)據(jù)。按照常見
錯(cuò)誤數(shù)據(jù)的類型,對(duì)數(shù)據(jù)問題進(jìn)行分類,針對(duì)性進(jìn)行錯(cuò)誤標(biāo)識(shí),并支
持對(duì)已標(biāo)識(shí)的錯(cuò)誤數(shù)據(jù)進(jìn)行查詢定位??刹捎媒y(tǒng)計(jì)學(xué)、關(guān)聯(lián)規(guī)則、業(yè)
務(wù)區(qū)分等方法來對(duì)目標(biāo)數(shù)據(jù)進(jìn)行錯(cuò)誤檢測(cè),識(shí)別出數(shù)據(jù)的錯(cuò)誤類型并
進(jìn)行標(biāo)識(shí)。例如,通過使用統(tǒng)計(jì)學(xué)方法(例如均值、標(biāo)準(zhǔn)差、范圍或
分位數(shù))對(duì)數(shù)據(jù)進(jìn)行分析和可視化,發(fā)現(xiàn)異常值或離群值,從而標(biāo)識(shí)
錯(cuò)誤數(shù)據(jù)。
(2)常見錯(cuò)誤類型
殘缺數(shù)據(jù):數(shù)據(jù)中缺失一些記錄,或一條記錄中缺失一些值,或
兩者都缺失。
偏差數(shù)據(jù):數(shù)據(jù)沒有嚴(yán)格按照要求記錄,包括格式內(nèi)容錯(cuò)誤、邏
輯錯(cuò)誤、不合規(guī)數(shù)據(jù)等。
重復(fù)數(shù)據(jù):數(shù)據(jù)中出現(xiàn)多條相同記錄,或多條記錄反映同一內(nèi)容,
7
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
通常發(fā)生在數(shù)據(jù)來自不同來源、數(shù)據(jù)多次采集、瑕疵數(shù)據(jù)更正備份等
情形。
其他錯(cuò)誤:數(shù)據(jù)未能準(zhǔn)確反映所描述的對(duì)象的其他情形,如非結(jié)
構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、無意義數(shù)據(jù)、不相關(guān)數(shù)據(jù)等。
4.數(shù)據(jù)修正處理
對(duì)已標(biāo)識(shí)的殘缺數(shù)據(jù)、偏差數(shù)據(jù)、重復(fù)數(shù)據(jù)和其他錯(cuò)誤數(shù)據(jù)分別
采用針對(duì)性的方法和工具進(jìn)行處理。常見的數(shù)據(jù)清洗工具包括軟件工
具、腳本等類型。選擇清洗方法和策略時(shí),應(yīng)根據(jù)清洗目標(biāo)和業(yè)務(wù)需
要,結(jié)合數(shù)據(jù)錯(cuò)誤類型,采取刪除、填充、更換等不同的方式處理,
具體可參考本節(jié)“(三)常見技術(shù)方法”。
5.數(shù)據(jù)轉(zhuǎn)換檢驗(yàn)
(1)錯(cuò)誤數(shù)據(jù)轉(zhuǎn)換
對(duì)錯(cuò)誤數(shù)據(jù)的格式、信息代碼、值的沖突進(jìn)行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換前
應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。
(2)轉(zhuǎn)換結(jié)果檢驗(yàn)
一是內(nèi)容檢驗(yàn),即對(duì)轉(zhuǎn)換后數(shù)據(jù)內(nèi)容的完整性、全面性進(jìn)行檢驗(yàn),
包括非空檢驗(yàn)和數(shù)據(jù)量檢驗(yàn)。
二是格式檢驗(yàn),即對(duì)照數(shù)據(jù)格式樣例或相關(guān)標(biāo)準(zhǔn)對(duì)轉(zhuǎn)換后數(shù)據(jù)格
式的規(guī)范性、一致性進(jìn)行檢驗(yàn)。
三是邏輯檢驗(yàn),即結(jié)合相關(guān)聯(lián)數(shù)據(jù)對(duì)轉(zhuǎn)換后數(shù)據(jù)邏輯是否符合預(yù)
先設(shè)定的范圍、區(qū)間、大小、數(shù)值關(guān)系等規(guī)則的約束性要求進(jìn)行檢驗(yàn)。
8
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
四是合規(guī)檢驗(yàn),即結(jié)合業(yè)務(wù)場(chǎng)景的合規(guī)要求對(duì)轉(zhuǎn)換后數(shù)據(jù)內(nèi)容是
否符合法律法規(guī)和強(qiáng)制性標(biāo)準(zhǔn)的要求進(jìn)行檢驗(yàn)。
6.評(píng)估清洗結(jié)果
數(shù)據(jù)清洗后及時(shí)評(píng)價(jià)輸出結(jié)果是否符合事先設(shè)定清洗規(guī)則和規(guī)
范性、準(zhǔn)確性、完整性、一致性、可溯源性等目標(biāo)要求,并從業(yè)務(wù)角
度評(píng)估清洗后數(shù)據(jù)的有用性,判斷是否可以支撐后續(xù)加工處理活動(dòng)。
(三)常見技術(shù)方法
1.殘缺數(shù)據(jù)處理
組織應(yīng)當(dāng)按照所需處理數(shù)據(jù)的字段缺失比例和重要性,采取差異
化的策略進(jìn)行處理。重要性高,缺失率低的字段,可以通過計(jì)算結(jié)果
填充并進(jìn)行核驗(yàn);重要性高,缺失率高的字段,重新采集獲取或通過
其他渠道取數(shù)補(bǔ)全;重要性低,缺失率低的字段,不做處理或簡單填
充;重要性低,缺失率高的字段,可以選擇刪除該字段。
(1)刪除缺失值
當(dāng)樣本數(shù)量充足,且出現(xiàn)缺失值的樣本占比相對(duì)較小時(shí),可以備
份當(dāng)前數(shù)據(jù)后,直接刪除后期加工處理不需要的字段和缺失值。
(2)填充缺失內(nèi)容
存在缺失率較低但相對(duì)重要的數(shù)據(jù)項(xiàng)時(shí),可以通過計(jì)算填充并進(jìn)
行核驗(yàn)的方式進(jìn)行補(bǔ)全,包括不同指標(biāo)的計(jì)算結(jié)果填充和同一指標(biāo)的
計(jì)算結(jié)果填充。
不同指標(biāo)的計(jì)算結(jié)果填充:即通過數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)之間的邏輯聯(lián)
9
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
系,采取相應(yīng)的計(jì)算方法得到缺失內(nèi)容。包括熱卡填補(bǔ)法、最近距離
決定填補(bǔ)法、回歸填補(bǔ)法、多重填補(bǔ)方法、K-最近鄰法、有序最近鄰
法等。例如,數(shù)據(jù)中年齡字段缺失,可以從公民身份證號(hào)中提取年齡
字段。
同一指標(biāo)的計(jì)算結(jié)果填充:即通過對(duì)同一指標(biāo)列的數(shù)據(jù)采取均值、
中位數(shù)、眾數(shù)等方式進(jìn)行計(jì)算,將相應(yīng)結(jié)果進(jìn)行填充,多用于數(shù)值型
數(shù)據(jù)。例如,某一記錄的身高數(shù)據(jù)缺失,可以使用該字段的均值進(jìn)行
填充。
(3)重新采集數(shù)據(jù)補(bǔ)全
存在缺失率較高且相對(duì)重要的數(shù)據(jù)項(xiàng)時(shí),可以通過線下補(bǔ)充收集、
業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)、新增抽取其他數(shù)據(jù)源數(shù)據(jù)等方式,進(jìn)行關(guān)聯(lián)對(duì)
比后填補(bǔ)。
2.偏差(異常)數(shù)據(jù)處理
組織應(yīng)當(dāng)對(duì)未符合規(guī)范要求,存在格式、邏輯及內(nèi)容不匹配等方
面偏差的數(shù)據(jù)進(jìn)行處理。
(1)格式不規(guī)范數(shù)據(jù)
對(duì)存在格式不規(guī)范等問題的數(shù)據(jù)進(jìn)行處理,包括全、半角處理和
無效字符處理。按照事先定義的規(guī)則進(jìn)行全、半角符號(hào)統(tǒng)一,以半自
動(dòng)校驗(yàn)結(jié)合半人工方式發(fā)現(xiàn)錯(cuò)誤字符,進(jìn)行自動(dòng)化修正或人工修正。
(2)邏輯沖突數(shù)據(jù)
對(duì)存在不符合邏輯約束要求、相互間存在沖突的數(shù)據(jù)進(jìn)行處理,
10
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
可通過直接推理、關(guān)聯(lián)修正和邏輯重構(gòu)等方式進(jìn)行,并再次進(jìn)行校驗(yàn)。
直接推理:了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接處
理簡單邏輯錯(cuò)誤的數(shù)據(jù)。
關(guān)聯(lián)修正:借助分箱、聚類、回歸等方法識(shí)別邏輯錯(cuò)誤數(shù)據(jù),通
過相互驗(yàn)證的方法修正矛盾內(nèi)容。
邏輯重構(gòu):對(duì)于重要性較高的不合理數(shù)據(jù)進(jìn)行人工干預(yù),或重新
采集數(shù)據(jù),引入更多數(shù)據(jù)源進(jìn)行邏輯的重新梳理并再次進(jìn)行校驗(yàn)。
(3)內(nèi)容不匹配數(shù)據(jù)
對(duì)存在噪聲數(shù)據(jù)、超出明確取值范圍,以及數(shù)據(jù)中存在敏感信息
或內(nèi)容不符合要求等數(shù)據(jù)進(jìn)行處理。通過設(shè)定判定規(guī)則,借助自動(dòng)化
手段判斷數(shù)據(jù)是否在規(guī)則范圍內(nèi),不在規(guī)則范圍內(nèi)的,進(jìn)行警告及人
工處理。
噪聲數(shù)據(jù):對(duì)噪聲值進(jìn)行平滑處理,或在不影響數(shù)據(jù)結(jié)構(gòu)和后續(xù)
使用情況下,將噪聲數(shù)據(jù)進(jìn)行刪除處理。
離群值數(shù)據(jù):判斷超出明確取值范圍數(shù)據(jù)的來源是否可靠,數(shù)據(jù)
的存在是否合理,合理的數(shù)據(jù)予以保留,不合理數(shù)據(jù)予以調(diào)整。
內(nèi)容不對(duì)應(yīng)數(shù)據(jù):識(shí)別內(nèi)容與字段要求不匹配的問題類型,如人
工填寫錯(cuò)誤、導(dǎo)入數(shù)據(jù)時(shí)沒有對(duì)齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,通過
關(guān)聯(lián)、修正或重新采集等方式匹配相應(yīng)字段進(jìn)行填補(bǔ)。
3.重復(fù)數(shù)據(jù)處理
將具有相同含義的數(shù)據(jù)判定為重復(fù)數(shù)據(jù),包括相同數(shù)據(jù)和相似數(shù)
據(jù)。
11
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
相同數(shù)據(jù):形式、含義和內(nèi)容均相同的數(shù)據(jù),根據(jù)來源權(quán)威性和
應(yīng)用場(chǎng)合,選擇最恰當(dāng)渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完
整性的情況下進(jìn)行合并處理。
相似數(shù)據(jù):識(shí)別相似數(shù)據(jù)的各自含義,判斷數(shù)據(jù)的實(shí)質(zhì)含義上是
否存在差異,實(shí)質(zhì)含義相同的數(shù)據(jù)按照相同數(shù)據(jù)進(jìn)行處理,實(shí)質(zhì)含義
有差異的數(shù)據(jù),不能界定為重復(fù)數(shù)據(jù),應(yīng)分別保留。
4.其他錯(cuò)誤數(shù)據(jù)處理
針對(duì)數(shù)據(jù)未能準(zhǔn)確反映所描述的對(duì)象的其他情形,可以采取以下
通用方式進(jìn)行處理:
將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);將無意義數(shù)據(jù)、
不相關(guān)數(shù)據(jù)在進(jìn)行必要性和相關(guān)性評(píng)估后進(jìn)行刪除,提升后續(xù)數(shù)據(jù)處
理效率;對(duì)仍存在問題未處理的錯(cuò)誤數(shù)據(jù)存入問題數(shù)據(jù)庫,便于后續(xù)
查證或重新使用。
四、數(shù)據(jù)去標(biāo)識(shí)化規(guī)程
(一)處理目的
組織實(shí)施數(shù)據(jù)去標(biāo)識(shí)化,應(yīng)當(dāng)確保經(jīng)過處理的數(shù)據(jù)達(dá)到以下效果:
1.標(biāo)識(shí)不可識(shí)別
對(duì)數(shù)據(jù)中的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符進(jìn)行處理,避免未經(jīng)授權(quán)的主
體無需借助其他額外信息,直接根據(jù)這些標(biāo)識(shí)內(nèi)容便可以識(shí)別出原始
信息主體或相關(guān)標(biāo)識(shí)符。
2.控制被識(shí)別風(fēng)險(xiǎn)
12
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
將去標(biāo)識(shí)化后的數(shù)據(jù)可能被未經(jīng)授權(quán)的主體再次識(shí)別的風(fēng)險(xiǎn)控
制在可接受的范圍內(nèi),確保標(biāo)識(shí)符暴露的風(fēng)險(xiǎn)不會(huì)因數(shù)據(jù)接收方之間
的潛在串通或新數(shù)據(jù)的增加而增加。
3.兼顧數(shù)據(jù)效用目標(biāo)
有效平衡數(shù)據(jù)的安全性和可用性,選擇合適的去標(biāo)識(shí)化模型和技
術(shù),確保去標(biāo)識(shí)化后的數(shù)據(jù)盡量滿足數(shù)據(jù)開發(fā)利用的預(yù)期目的和效用,
在數(shù)據(jù)安全前提下最大發(fā)揮去標(biāo)識(shí)化數(shù)據(jù)應(yīng)用價(jià)值。
(二)處理流程
數(shù)據(jù)去標(biāo)識(shí)化的流程通常包括確定去標(biāo)識(shí)化對(duì)象、制定去標(biāo)識(shí)化
目標(biāo)和計(jì)劃、識(shí)別相關(guān)標(biāo)識(shí)符、對(duì)標(biāo)識(shí)符進(jìn)行處理、驗(yàn)證審核處理結(jié)
果、評(píng)估重新標(biāo)識(shí)風(fēng)險(xiǎn)六個(gè)步驟。
1.確定去標(biāo)識(shí)化對(duì)象
組織對(duì)于自身合法取得、合法持有,并實(shí)際控制的數(shù)據(jù),應(yīng)當(dāng)基
于外部和內(nèi)部的多方面因素的考量確定需要進(jìn)行去標(biāo)識(shí)處理的數(shù)據(jù)
范圍。
(1)法規(guī)標(biāo)準(zhǔn)要求
根據(jù)國家、地區(qū)或行業(yè)的相關(guān)政策、法律、法規(guī)等的強(qiáng)制性規(guī)定,
判斷待收集、存儲(chǔ)、使用、加工或向第三方提供的數(shù)據(jù)是否涉及去標(biāo)
識(shí)化的相關(guān)要求。例如,《個(gè)人信息保護(hù)法》第51條要求,個(gè)人信息
處理者應(yīng)當(dāng)采取加密、去標(biāo)識(shí)化等安全技術(shù)措施,防止未經(jīng)授權(quán)的訪
問以及個(gè)人信息泄露、篡改、丟失。
13
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
(2)組織策略要求
根據(jù)自身數(shù)據(jù)管理要求,或者按照與相關(guān)合作方約定,判斷數(shù)據(jù)
進(jìn)行內(nèi)外部應(yīng)用時(shí)是否需要進(jìn)行去標(biāo)識(shí)化處理。例如,將個(gè)人信息對(duì)
外展示時(shí),參考《GB/T35273—2020信息安全技術(shù)個(gè)人信息安全規(guī)
范》,涉及通過界面展示個(gè)人信息的(如顯示屏幕、紙面),個(gè)人信息
控制者宜對(duì)需展示的個(gè)人信息采取去標(biāo)識(shí)化處理等措施,降低個(gè)人信
息在展示環(huán)節(jié)的泄露風(fēng)險(xiǎn)。
(3)數(shù)據(jù)來源方要求
根據(jù)數(shù)據(jù)采集時(shí)是否存在對(duì)數(shù)據(jù)來源方等作出了去標(biāo)識(shí)化的相
關(guān)承諾或約定,判斷對(duì)數(shù)據(jù)進(jìn)行加工或向第三方提供時(shí)是否需要進(jìn)行
去標(biāo)識(shí)化處理。例如,組織已在產(chǎn)品隱私政策中聲明,將用戶個(gè)人信
息用于對(duì)外提供學(xué)術(shù)研究或描述的結(jié)果時(shí),承諾對(duì)結(jié)果中所包含的個(gè)
人信息進(jìn)行去標(biāo)識(shí)化處理。
2.制定去標(biāo)識(shí)化目標(biāo)
均衡數(shù)據(jù)安全性和可用性兩方面需求,確定數(shù)據(jù)去標(biāo)識(shí)化處理需
要達(dá)到的效果。
(1)明確標(biāo)識(shí)被識(shí)別風(fēng)險(xiǎn)的控制要求
分析數(shù)據(jù)的來源、性質(zhì)、類型,梳理待處理數(shù)據(jù)是否涉及法律法
規(guī)要求和相關(guān)承諾,結(jié)合去標(biāo)識(shí)化后數(shù)據(jù)的主要用途和使用范圍,考
慮可能采用的去標(biāo)識(shí)化模型和技術(shù)的應(yīng)用方向及能力,綜合評(píng)價(jià)組織
對(duì)相關(guān)標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符被重新識(shí)別的風(fēng)險(xiǎn)的不可接受程度。
(2)明確滿足數(shù)據(jù)可用性的最低要求
14
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
結(jié)合數(shù)據(jù)去標(biāo)識(shí)化后的用途,評(píng)估相關(guān)技術(shù)方法的應(yīng)用對(duì)初始數(shù)
據(jù)的改造程度,分析數(shù)據(jù)去標(biāo)識(shí)化后對(duì)業(yè)務(wù)活動(dòng)的可能影響,提出數(shù)
據(jù)有用性的最低要求。
3.識(shí)別相關(guān)標(biāo)識(shí)符
根據(jù)去標(biāo)識(shí)化的目標(biāo),針對(duì)需要去標(biāo)識(shí)化的數(shù)據(jù),識(shí)別出需要進(jìn)
行處理的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。組織可以通過以下方法識(shí)別:
(1)查表識(shí)別
組織通過預(yù)先建立標(biāo)識(shí)符元數(shù)據(jù)索引表,待具體識(shí)別時(shí),將待識(shí)
別數(shù)據(jù)的各個(gè)屬性名稱或字段名稱,逐個(gè)與元數(shù)據(jù)表中的標(biāo)識(shí)符進(jìn)行
比對(duì)。標(biāo)識(shí)符元數(shù)據(jù)索引表應(yīng)當(dāng)包括標(biāo)識(shí)符名稱、含義、格式要求、
常用數(shù)據(jù)類型、常用字段名稱等信息。查表識(shí)別法適用于數(shù)據(jù)集格式
和屬性相對(duì)明確的去標(biāo)識(shí)化場(chǎng)景。
(2)規(guī)則判定
組織通過總結(jié)可能涉及直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù)格式和規(guī)
律,確立相關(guān)標(biāo)識(shí)符識(shí)別規(guī)則,然后通過運(yùn)行軟件程序,自動(dòng)化地從
數(shù)據(jù)集中識(shí)別出標(biāo)識(shí)數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)識(shí)識(shí)別均可適用規(guī)則判定法。如
通過建立身份證號(hào)識(shí)別規(guī)則,識(shí)別非結(jié)構(gòu)化存儲(chǔ)的司法判決書中的身
份證號(hào)。
(3)人工分析
在必要場(chǎng)景下,組織通過人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識(shí)符
15
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
和準(zhǔn)標(biāo)識(shí)符。人工分析法適用性較強(qiáng),當(dāng)數(shù)據(jù)集中有特別含義的數(shù)據(jù),
或數(shù)據(jù)具有特殊值、容易引起注意的值,或者數(shù)據(jù)集中的多個(gè)不同數(shù)
據(jù)子集之間存在關(guān)聯(lián)、引用關(guān)系時(shí),人工分析可以針對(duì)性地識(shí)別和分
析。
4.對(duì)標(biāo)識(shí)符進(jìn)行處理
對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化前,應(yīng)當(dāng)先通過數(shù)據(jù)清洗,形成規(guī)范化或
滿足特定格式要求的數(shù)據(jù)。在此基礎(chǔ)上,針對(duì)不同特征和處理要求的
數(shù)據(jù)類型,考慮去標(biāo)識(shí)化的影響,在可接受的被重新識(shí)別風(fēng)險(xiǎn)范圍內(nèi)
盡量滿足數(shù)據(jù)可用性的最低要求,選取有效的去標(biāo)識(shí)化技術(shù)方法和模
型進(jìn)行處理。具體可參考本節(jié)“(三)常見技術(shù)方法”。
技術(shù)選擇需要考量相關(guān)因素包括:數(shù)據(jù)是否可以刪除,是否需要
保留至少若干個(gè)類別的數(shù)據(jù)項(xiàng);去標(biāo)識(shí)后的數(shù)據(jù)是否需要保持唯一性、
可逆性,是否需要保持原有的數(shù)據(jù)格式、表達(dá)順序、統(tǒng)計(jì)特征等;是
否可以對(duì)屬性值實(shí)施隨機(jī)噪聲添加;以及運(yùn)用該去標(biāo)識(shí)化技術(shù)的成本
考量、可承受的重新標(biāo)識(shí)風(fēng)險(xiǎn)范圍和業(yè)務(wù)影響等。
5.驗(yàn)證數(shù)據(jù)處理結(jié)果
對(duì)數(shù)據(jù)去標(biāo)識(shí)化結(jié)果進(jìn)行驗(yàn)證,確保處理后的數(shù)據(jù)在安全性和可
用性方面符合預(yù)設(shè)要求。
(1)安全性驗(yàn)證
驗(yàn)證經(jīng)去標(biāo)識(shí)化處理后數(shù)據(jù)的安全性,確保所生成數(shù)據(jù)被重新識(shí)
別的風(fēng)險(xiǎn)在組織預(yù)設(shè)的可接受風(fēng)險(xiǎn)范圍內(nèi)。組織可以通過檢查生成的
數(shù)據(jù)結(jié)果、檢查去標(biāo)識(shí)化過程及記錄、開展入侵者測(cè)試等方式驗(yàn)證去
16
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
標(biāo)識(shí)化數(shù)據(jù)的安全性。
(2)有用性驗(yàn)證
分析去標(biāo)識(shí)化后的數(shù)據(jù)對(duì)于預(yù)期應(yīng)用和業(yè)務(wù)的影響,判斷處理后
數(shù)據(jù)的質(zhì)量是否還能滿足預(yù)期業(yè)務(wù)用途。組織可以對(duì)原始數(shù)據(jù)和去標(biāo)
識(shí)化后數(shù)據(jù)分別執(zhí)行統(tǒng)計(jì)計(jì)算,并對(duì)計(jì)算結(jié)果進(jìn)行比較,判斷去標(biāo)識(shí)
化后的計(jì)算結(jié)果是否仍可接受。
6.評(píng)估被識(shí)別風(fēng)險(xiǎn)
對(duì)去標(biāo)識(shí)化后的數(shù)據(jù)進(jìn)行標(biāo)識(shí)符被識(shí)別的風(fēng)險(xiǎn)進(jìn)行評(píng)估,與預(yù)期
可接受的風(fēng)險(xiǎn)閾值進(jìn)行比較。若風(fēng)險(xiǎn)超出閾值,需繼續(xù)進(jìn)行調(diào)整直到
滿足要求。標(biāo)識(shí)符被識(shí)別風(fēng)險(xiǎn)評(píng)估常見的流程包括評(píng)估準(zhǔn)備、定性評(píng)
估、定量評(píng)估、形成評(píng)估結(jié)論等環(huán)節(jié),組織可借鑒《GB/T42460-2023
信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化效果評(píng)估指南》進(jìn)行流程設(shè)計(jì)。
按照標(biāo)識(shí)符被識(shí)別的風(fēng)險(xiǎn)從高到低,可以將相應(yīng)的風(fēng)險(xiǎn)閾值劃分
為高風(fēng)險(xiǎn)、較高風(fēng)險(xiǎn)、可控風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)4個(gè)等級(jí)。
高風(fēng)險(xiǎn)(4級(jí)):能直接識(shí)別主體或敏感屬性的數(shù)據(jù),即包含直
接標(biāo)識(shí)符的數(shù)據(jù);較高風(fēng)險(xiǎn)(3級(jí)):僅消除直接標(biāo)識(shí)符的數(shù)據(jù),即
刪除了直接標(biāo)識(shí)符,但仍包含準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù);可控風(fēng)險(xiǎn)(2級(jí)):
消除直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù),即對(duì)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符均進(jìn)
行了處理,在不借助額外信息的情況下,無法識(shí)別或關(guān)聯(lián)識(shí)別個(gè)人信
息主體或特定標(biāo)識(shí)內(nèi)容;低風(fēng)險(xiǎn)(1級(jí)),不再保留個(gè)體顆粒度的聚
合數(shù)據(jù),如總計(jì)數(shù)、最大值、最小值、平均值等。
17
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
(三)常見技術(shù)方法
本報(bào)告將仍保留原始數(shù)據(jù)個(gè)體顆粒度的技術(shù)類型,納入去標(biāo)識(shí)化
技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全技
術(shù)個(gè)人信息去標(biāo)識(shí)化指南》。組織根據(jù)需要選擇相應(yīng)的去標(biāo)識(shí)化技術(shù),
常見的去標(biāo)識(shí)化技術(shù)包括數(shù)據(jù)抽樣技術(shù)、加解密技術(shù)、假名化技術(shù)、
抑制遮蓋技術(shù)等,不同技術(shù)之間可以結(jié)合使用。
1.數(shù)據(jù)抽樣技術(shù)
數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對(duì)原始數(shù)據(jù)集
進(jìn)行分析和評(píng)估。對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識(shí)別出特定標(biāo)識(shí)符
的不確定性,可以作為后續(xù)應(yīng)用其他技術(shù)強(qiáng)化去標(biāo)識(shí)化效果的初步處
理。
數(shù)據(jù)抽樣的方式較多,需要根據(jù)數(shù)據(jù)集的特點(diǎn)和預(yù)期的使用場(chǎng)景
進(jìn)行選擇,包括隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣等。
2.加解密技術(shù)
加解密技術(shù)是指利用算法對(duì)數(shù)據(jù)進(jìn)行加密和解密操作,以密碼學(xué)
為基礎(chǔ)構(gòu)建加密函數(shù),輸入敏感數(shù)據(jù)和相關(guān)標(biāo)識(shí)符,輸出處理后的加
密隱藏?cái)?shù)據(jù)。同時(shí)在有需要的時(shí)候,可以對(duì)數(shù)據(jù)進(jìn)行解密操作,即在
擁有密鑰的條件下,可以對(duì)標(biāo)識(shí)符進(jìn)行復(fù)原。常見的數(shù)據(jù)加密方法包
括確定性加密、保序加密、保留格式加密、同態(tài)加密等。
確定性加密:指通過確定性加密結(jié)果替代數(shù)據(jù)中的標(biāo)識(shí)符值。確
定性加密是一種非隨機(jī)加密方法,可以保證數(shù)據(jù)真實(shí)可用,一定程度
上保證數(shù)據(jù)在統(tǒng)計(jì)處理、隱私防挖掘方面的有用性,也可以生成用于
18
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對(duì)確定性加密結(jié)果的分析
多用于檢查數(shù)據(jù)值是否相等。
保序加密:指通過保序加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。保序加
密同樣是一種非隨機(jī)加密方法,密文的排序與明文的排序相同。對(duì)保
序加密結(jié)果的分析多用于檢查數(shù)據(jù)是否相等和排序關(guān)系比較。
保留格式加密:指加密過程要求密文與明文具有相同的格式,可
用保留格式加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。保留格式加密可以保證
加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長度,有助于在不需要修
改應(yīng)用系統(tǒng)匹配格式的情況下實(shí)現(xiàn)去標(biāo)識(shí)化。
同態(tài)加密:指將原始數(shù)據(jù)加密后,對(duì)得到的密文進(jìn)行特定的運(yùn)算,
得到的計(jì)算結(jié)果等價(jià)于基于原始明文數(shù)據(jù)直接進(jìn)行相同計(jì)算所得到
的數(shù)據(jù)結(jié)果。同態(tài)加密是一種隨機(jī)加密,對(duì)經(jīng)過同態(tài)加密的數(shù)據(jù)進(jìn)行
處理得到相同的輸出結(jié)果,處理過程不會(huì)泄露任何原始內(nèi)容。
3.假名化技術(shù)
假名化技術(shù)是指使用虛構(gòu)的名稱或數(shù)值,替換原始數(shù)據(jù)的直接標(biāo)
識(shí)符或準(zhǔn)標(biāo)識(shí)符的過程。假名化技術(shù)保留了原始數(shù)據(jù)的唯一性特點(diǎn),
也被稱為編碼。不同數(shù)據(jù)在假名化處理后依然可以進(jìn)行關(guān)聯(lián),并且不
會(huì)泄露原始標(biāo)識(shí)符。當(dāng)需要唯一區(qū)分?jǐn)?shù)據(jù)值并且沒有保留關(guān)于原始屬
性的直接標(biāo)識(shí)符的字符或任何其他隱含信息時(shí),可以使用假名化技術(shù)。
假名可以獨(dú)立生成或借助密鑰編碼生成。
獨(dú)立生成假名:即不依賴于被替代的原始值,生成獨(dú)立于標(biāo)識(shí)符
的假名創(chuàng)建技術(shù),如使用隨機(jī)值代替標(biāo)識(shí)符原始值。組織需要?jiǎng)?chuàng)建假
19
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
名與原始標(biāo)識(shí)的分配表,并采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對(duì)
該分配表的訪問。
基于密鑰的假名編碼:即基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技
術(shù),通過對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名,也被稱為對(duì)
標(biāo)識(shí)符進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密
鑰及對(duì)應(yīng)的算法解密。
4.抑制遮蓋技術(shù)
抑制遮蓋技術(shù)即對(duì)需要進(jìn)行處理的標(biāo)識(shí)符或數(shù)據(jù)項(xiàng)進(jìn)行刪除或
屏蔽。抑制技術(shù)主要適用于分類數(shù)據(jù),可用于數(shù)值與非數(shù)值數(shù)據(jù)屬性,
執(zhí)行相對(duì)容易,通過直接刪除或屏蔽降低關(guān)聯(lián)識(shí)別的風(fēng)險(xiǎn),且可以保
持?jǐn)?shù)據(jù)的真實(shí)性,但會(huì)造成一定程度的信息缺失。但過多的抑制會(huì)影
響數(shù)據(jù)的效用,為保證數(shù)據(jù)的可用性,組織需要對(duì)抑制的數(shù)據(jù)項(xiàng)數(shù)量
和范圍設(shè)定上限。抑制遮蓋需要是永久性的,而不僅僅是“隱藏”功
能,如果底層數(shù)據(jù)仍然可訪問或編輯,則未達(dá)到抑制遮蓋效果。根據(jù)
抑制方式的差異,抑制遮蓋技術(shù)可以分為直接刪除或字符掩碼屏蔽。
直接刪除:即從數(shù)據(jù)集中直接刪除相關(guān)標(biāo)識(shí)符,或刪除標(biāo)識(shí)符中
的部分屬性或內(nèi)容,或者刪除涉及特定屬性標(biāo)識(shí)符的數(shù)據(jù)記錄。
字符掩碼:通過使用一致的符號(hào)(例如“*”或“x”)來替換原
數(shù)據(jù)標(biāo)識(shí)符或標(biāo)識(shí)符中的部分?jǐn)?shù)值。區(qū)別于仍具有唯一性的假名,進(jìn)
行同一屬性的數(shù)值所替換的字符掩碼均為相同,具有一致性。
20
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
五、數(shù)據(jù)匿名化規(guī)程
(一)處理目的
1.促使標(biāo)識(shí)難以復(fù)原
數(shù)據(jù)匿名化處理是數(shù)據(jù)去標(biāo)識(shí)化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識(shí)符
難以復(fù)原的過程,是數(shù)據(jù)去標(biāo)識(shí)化的進(jìn)一步處理。與數(shù)據(jù)去標(biāo)識(shí)化相
比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信息也難以識(shí)別特定自然
人和已被處理的標(biāo)識(shí)符。
2.符合風(fēng)險(xiǎn)可接受水平
任何數(shù)據(jù)均有被復(fù)原的可能。數(shù)據(jù)匿名化處理并非追求完美、絕
對(duì)的匿名化狀態(tài),強(qiáng)調(diào)的是運(yùn)用匿名化技術(shù)將原始數(shù)據(jù)相關(guān)標(biāo)識(shí)符的
可識(shí)別性降低到監(jiān)管和組織可接受的風(fēng)險(xiǎn)水平。如果信息主體和相關(guān)
標(biāo)識(shí)符的識(shí)別需要不合理的時(shí)間、努力或資源,則不視為是可復(fù)原的。
3.支持統(tǒng)計(jì)、訓(xùn)練用途
經(jīng)匿名化處理的數(shù)據(jù),數(shù)據(jù)顆粒度、精確度受到影響,不再保留
個(gè)體數(shù)據(jù)記錄。例如,經(jīng)匿名化處理的個(gè)人信息,不再屬于個(gè)人信息
范疇。與基于個(gè)體特征識(shí)別的用戶畫像、設(shè)備定位等用途不同,對(duì)數(shù)
據(jù)匿名化處理主要為了支撐統(tǒng)計(jì)分析、算法訓(xùn)練、科學(xué)研究等場(chǎng)景。
(二)處理流程
數(shù)據(jù)匿名化的流程通常包括明確匿名化處理對(duì)象、設(shè)定匿名化處
理目標(biāo)、先行去標(biāo)識(shí)化處理、實(shí)施數(shù)據(jù)匿名化處理、評(píng)估匿名化效果、
定期追蹤復(fù)原風(fēng)險(xiǎn)六個(gè)步驟。
21
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
1.確定匿名化對(duì)象
根據(jù)法律要求和業(yè)務(wù)用途,確定需要進(jìn)行匿名化處理的數(shù)據(jù)類型
和范圍。
(1)按照監(jiān)管要求確定處理對(duì)象
例如,組織遵照《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》要求,因
保證行車安全需要,在無法征得個(gè)人同意采集到車外個(gè)人信息且需要
向車外提供時(shí),對(duì)相關(guān)數(shù)據(jù)進(jìn)行匿名化處理,包括刪除含有能夠識(shí)別
自然人的畫面,或者對(duì)畫面中的人臉信息等進(jìn)行局部輪廓化處理等。
(2)遵循最小必要原則確定處理對(duì)象
例如,征信機(jī)構(gòu)按照《征信業(yè)務(wù)管理辦法》規(guī)定,在個(gè)人不良信
息保存期限屆滿時(shí),將個(gè)人不良信息在對(duì)外服務(wù)和應(yīng)用中刪除;作為
樣本數(shù)據(jù)繼續(xù)使用的,進(jìn)行匿名化處理。
(3)履行約定或承諾義務(wù)確定處理對(duì)象
例如,組織按照《GB/T35273-2020信息安全技術(shù)個(gè)人信息安全
規(guī)范》規(guī)定,在相關(guān)數(shù)據(jù)超出個(gè)人信息約定的存儲(chǔ)期限或達(dá)成處理目
的后,以及組織停止運(yùn)營其產(chǎn)品或服務(wù)時(shí)或用戶注銷賬戶時(shí),對(duì)個(gè)人
信息進(jìn)行刪除或匿名化處理。
(4)基于業(yè)務(wù)開展需要確定處理對(duì)象
例如,國家衛(wèi)生健康委等四部門發(fā)布的《涉及人的生命科學(xué)和醫(yī)
學(xué)研究倫理審查辦法》中,將“使用匿名化的信息數(shù)據(jù)開展研究”作
為“免除倫理審查”的情形之一,組織為減少科研業(yè)務(wù)不必要的合規(guī)
負(fù)擔(dān),使用匿名化數(shù)據(jù)開展涉及人的生命科學(xué)和醫(yī)學(xué)研究。
22
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
2.設(shè)定匿名化目標(biāo)
滿足安全性要求是數(shù)據(jù)匿名化處理的首要目標(biāo)。組織應(yīng)結(jié)合業(yè)務(wù)
場(chǎng)景和安全防護(hù)管理要求,根據(jù)數(shù)據(jù)的性質(zhì)、使用環(huán)境和使用的匿名
化技術(shù)等,結(jié)合匿名化數(shù)據(jù)的主要用途和使用場(chǎng)景,對(duì)標(biāo)識(shí)符被復(fù)原
的可能性進(jìn)行分析,評(píng)估相應(yīng)的風(fēng)險(xiǎn),設(shè)定可被組織和監(jiān)管部門接受
和認(rèn)可的風(fēng)險(xiǎn)閾值。
3.先行去標(biāo)識(shí)化處理
組織應(yīng)將去標(biāo)識(shí)化作為匿名化處理的一部分執(zhí)行,結(jié)合前述數(shù)據(jù)
去標(biāo)識(shí)化業(yè)務(wù)規(guī)程,識(shí)別相關(guān)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符,針對(duì)性進(jìn)行去
標(biāo)識(shí)化處理,先行滿足數(shù)據(jù)的“不可識(shí)別性”要求,達(dá)到數(shù)據(jù)在不借
助額外信息的情況下無法直接識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的效果,
為后續(xù)的匿名化操作奠定基礎(chǔ)。
4.實(shí)施匿名化處理
組織針對(duì)已去標(biāo)識(shí)化的數(shù)據(jù)應(yīng)用匿名化技術(shù),使未獲得授權(quán)主體
不能輕易地將該數(shù)據(jù)與可能包含額外信息的其他數(shù)據(jù)相結(jié)合,從而難
以復(fù)原特定自然人信息或相關(guān)標(biāo)識(shí)符。不同匿名化技術(shù)的技術(shù)特點(diǎn)不
同,選擇處理技術(shù)時(shí),應(yīng)當(dāng)結(jié)合數(shù)據(jù)類型和性質(zhì)、業(yè)務(wù)場(chǎng)景、處理目
的等進(jìn)行綜合考量,相關(guān)技術(shù)具體可參考本節(jié)“(三)常見技術(shù)方法”。
選擇匿名化技術(shù)過程中需要考慮以下因素:
一是考慮所采用的匿名化技術(shù)進(jìn)行處理后數(shù)據(jù)是否仍滿足預(yù)期
效用。匿名化處理可能對(duì)原始數(shù)據(jù)格式、數(shù)值和表達(dá)方式進(jìn)行較大變
動(dòng),將對(duì)原始數(shù)據(jù)的保真性、顆粒度形成較大影響。
23
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
二是考慮將相關(guān)匿名化技術(shù)和去標(biāo)識(shí)化技術(shù)組合使用,形成系統(tǒng)
性匿名化處理方案。例如,如果某個(gè)屬性類別的數(shù)值直接刪除不會(huì)影
響數(shù)據(jù)效用,可以選擇抑制遮蓋技術(shù)對(duì)相關(guān)數(shù)據(jù)項(xiàng)予以刪除處理。
三是考慮不同匿名化技術(shù)的適用場(chǎng)景。結(jié)合技術(shù)特點(diǎn)和目標(biāo)要求
選擇相應(yīng)技術(shù)。如針對(duì)連續(xù)值屬性的數(shù)據(jù)可以采用噪聲添加、數(shù)據(jù)擾
動(dòng)等隨機(jī)化技術(shù),針對(duì)無需體現(xiàn)個(gè)體數(shù)據(jù)記錄的情形可以采用聚合統(tǒng)
計(jì)等技術(shù)。同時(shí),針對(duì)同一場(chǎng)景或同一數(shù)據(jù)類型的匿名化處理,也可
多種匿名化技術(shù)結(jié)合使用。
5.評(píng)估匿名化效果
組織應(yīng)用適當(dāng)?shù)哪涿夹g(shù)后,應(yīng)當(dāng)對(duì)匿名化處理的效果進(jìn)行分
析評(píng)估。計(jì)算標(biāo)識(shí)符被復(fù)原或重新標(biāo)識(shí)風(fēng)險(xiǎn)的方法需要綜合考慮數(shù)據(jù)
因素和環(huán)境因素?!禛B/T42460-2023信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)
化效果評(píng)估指南》提供了“基于K匿名模型的重標(biāo)識(shí)風(fēng)險(xiǎn)計(jì)算方案
及評(píng)估事例”,可供組織借鑒參考。
k-匿名值是一種計(jì)算數(shù)據(jù)集重新識(shí)別風(fēng)險(xiǎn)水平的方法,指數(shù)據(jù)集
中可以分組在一起的相同記錄的最小數(shù)量。在評(píng)估數(shù)據(jù)集的總體重新
識(shí)別風(fēng)險(xiǎn)時(shí),通常采用最小值來表示最壞情況。k-匿名值較高意味著
重新識(shí)別的風(fēng)險(xiǎn)較低,k匿名性值較低意味著風(fēng)險(xiǎn)較高。K-匿名值為
1表示記錄是唯一的。k-匿名值需要結(jié)合實(shí)際場(chǎng)景、處理目標(biāo)和安全
等級(jí)要求進(jìn)行具體設(shè)定。在可能的情況下,應(yīng)設(shè)置更高的k-匿名閾值,
以最小化任何重新識(shí)別風(fēng)險(xiǎn)。需注意,k-匿名可能不適用于所有類型
的數(shù)據(jù)集或其他復(fù)雜情形。
24
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
6.定期追蹤復(fù)原風(fēng)險(xiǎn)
組織應(yīng)當(dāng)定期追蹤內(nèi)外部相關(guān)主體對(duì)匿名化處理數(shù)據(jù)的使用情
況,評(píng)估新技術(shù)、新數(shù)據(jù)、新主體的引入可能帶來的標(biāo)識(shí)符被復(fù)原的
新隱患,考慮數(shù)據(jù)的流通范圍、可能的技術(shù)演變等,以及未知的跨庫
數(shù)據(jù)可能導(dǎo)致與匿名數(shù)據(jù)集匹配的情形,進(jìn)而采取適當(dāng)措施保護(hù)相關(guān)
標(biāo)識(shí)符免受復(fù)原識(shí)別和披露的風(fēng)險(xiǎn)。
(三)常見技術(shù)方法
本報(bào)告將不再保留原始數(shù)據(jù)個(gè)體顆粒度,或原始數(shù)據(jù)記錄真實(shí)性
已受到顯著減損,或原始數(shù)據(jù)記錄不對(duì)外披露的技術(shù)類型,納入匿名
化技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全
技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》。組織可結(jié)合具體場(chǎng)景單獨(dú)或組合選用
聚合統(tǒng)計(jì)、泛化、隨機(jī)化、數(shù)據(jù)合成、隱私計(jì)算等技術(shù)進(jìn)行處理。
1.聚合統(tǒng)計(jì)技術(shù)
聚合統(tǒng)計(jì)技術(shù)指將數(shù)據(jù)集從記錄列表轉(zhuǎn)換為匯總值或相關(guān)統(tǒng)計(jì)
值的方法,可以視為求和、計(jì)數(shù)、平均、最大值與最小值等一系列統(tǒng)
計(jì)技術(shù)的集合。由于聚合統(tǒng)計(jì)技術(shù)的輸出是“統(tǒng)計(jì)值”,該值有利于
對(duì)數(shù)據(jù)進(jìn)行整體報(bào)告或分析,產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所
有記錄,且不會(huì)披露任何個(gè)體記錄,很大程度上降低了個(gè)體的標(biāo)識(shí)符
被重新識(shí)別的風(fēng)險(xiǎn)。當(dāng)組織不需要單獨(dú)的數(shù)據(jù)記錄且聚合數(shù)據(jù)足以滿
足預(yù)期效用時(shí)可以采用聚合統(tǒng)計(jì)技術(shù)。
例如,2022年我國18-80歲女性平均體重59.8kg,如果以平均體
重來標(biāo)識(shí)數(shù)據(jù)集中每個(gè)人的體重值,則未獲得授權(quán)主體無法根據(jù)體重
25
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
屬性將某一條數(shù)據(jù)記錄(女,北京,1.63m,59.8kg,1990年9月1
日)關(guān)聯(lián)到特定個(gè)人。
使用聚合統(tǒng)計(jì)技術(shù)應(yīng)注意兩方面的應(yīng)用要求:一是數(shù)據(jù)聚合統(tǒng)計(jì)
可能會(huì)顯著改變數(shù)據(jù)的初始用途,因?yàn)檩敵龅慕Y(jié)果為統(tǒng)計(jì)值,無法反
映每一單獨(dú)數(shù)據(jù)記錄的特征;二是應(yīng)用聚合統(tǒng)計(jì)技術(shù)對(duì)原始數(shù)據(jù)的樣
本量具有一定要求,若原始數(shù)據(jù)記錄的數(shù)量很少,則結(jié)合其他數(shù)據(jù)容
易推斷出其中具體的單獨(dú)數(shù)據(jù)記錄的特征。
2.泛化技術(shù)
泛化技術(shù)也是一種概括方法,又被稱為離散化處理,是通過降低
數(shù)據(jù)所選屬性的顆粒度、精度,對(duì)數(shù)據(jù)進(jìn)行更概括、抽象描述的匿名
化技術(shù)。使用泛化技術(shù)的目標(biāo)是減少屬性唯一值的數(shù)量,使得被泛化
后的值被數(shù)據(jù)集中多個(gè)記錄所共享,從而增加某個(gè)特定數(shù)據(jù)記錄被推
測(cè)出的難度。例如,將一個(gè)人的年齡轉(zhuǎn)換為年齡范圍,或?qū)⒕_位置
轉(zhuǎn)換為不太精確的位置。
數(shù)據(jù)泛化的程度需要均衡預(yù)期目的和風(fēng)險(xiǎn)控制兩方面要求。數(shù)據(jù)
范圍過大可能意味著數(shù)據(jù)效用的顯著損失,數(shù)據(jù)范圍過小可能意味著
幾乎不修改數(shù)據(jù),特定數(shù)據(jù)記錄仍然很容易重新識(shí)別。常見的泛化方
法包括取整、頂層與底層編碼等。
取整:即為數(shù)值型標(biāo)識(shí)符選定一個(gè)取整基數(shù),然后將每個(gè)具體值
向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率
確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。例
如,如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率
26
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
為0.7,若向下取整至0,概率為0.3。同時(shí)還可以按要求進(jìn)行受控取
整,如確保取整值的求和結(jié)果與原始數(shù)據(jù)的求和取整值相同。
頂層與底層編碼:即為數(shù)值型標(biāo)識(shí)符設(shè)定一個(gè)可能的取值范圍,
用高于或低于所設(shè)定的臨界值的描述替換某一特定數(shù)據(jù)記錄在該屬
性上的具體數(shù)值,主要適用于連續(xù)或分類有序的數(shù)據(jù)類型。例如,將
某一員工的薪水值設(shè)置為“高于10000元”,其中“10000”為高收入
值的界限,而不記錄準(zhǔn)確的金額。
3.隨機(jī)化技術(shù)
隨機(jī)化技術(shù)指通過隨機(jī)修改數(shù)據(jù)屬性的值,使得隨機(jī)化處理后的
值區(qū)別于原來的真實(shí)值。隨機(jī)化技術(shù)降低了未經(jīng)授權(quán)主體從同一數(shù)據(jù)
記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力,會(huì)對(duì)原始數(shù)據(jù)記錄
的真實(shí)性造成一定影響。常見的隨機(jī)化技術(shù)有數(shù)據(jù)擾動(dòng)、數(shù)據(jù)置換等。
數(shù)據(jù)擾動(dòng):又稱噪聲添加,即通過添加隨機(jī)值來修改數(shù)據(jù)中的值,
同時(shí)盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計(jì)特性,包括屬性的分布、
平均值、方差、標(biāo)準(zhǔn)偏差、協(xié)方差以及相關(guān)性。數(shù)據(jù)擾動(dòng)的程度應(yīng)當(dāng)
控制在一定范圍內(nèi)容,如果擾動(dòng)程度太小,匿名化效果較弱;如果擾
動(dòng)程度太大,最終值將與原始值相差太大,數(shù)據(jù)集的效用可能會(huì)降低。
數(shù)據(jù)擾動(dòng)通常用于數(shù)值型標(biāo)識(shí)符,例如對(duì)日期前后隨機(jī)+/-3個(gè)自然日。
數(shù)據(jù)置換:相當(dāng)于一種洗牌,即重新排列數(shù)據(jù)屬性中的標(biāo)識(shí)符,
使之無法與原始記錄對(duì)應(yīng),但各個(gè)屬性的值仍在數(shù)據(jù)集中表示,保持
了原有數(shù)據(jù)集中所選屬性整體的準(zhǔn)確統(tǒng)計(jì)分布。數(shù)值型標(biāo)識(shí)符和非數(shù)
值型標(biāo)識(shí)符均可使用數(shù)據(jù)置換技術(shù)。在保持所選屬性之間原有相關(guān)性
27
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
的情況下,置換算法可用于單個(gè)或多個(gè)屬性。例如,對(duì)姓名進(jìn)行假名
化處理后,對(duì)職位、性別、年齡等進(jìn)行亂序重排。
4.數(shù)據(jù)合成技術(shù)
數(shù)據(jù)合成技術(shù)是顯著修改原有數(shù)據(jù)的所有屬性,重新合成產(chǎn)生新
的微數(shù)據(jù)的方法。合成數(shù)據(jù)集與原始數(shù)據(jù)的特征相符,可根據(jù)所選的
統(tǒng)計(jì)特性隨機(jī)生成,但不會(huì)體現(xiàn)原始數(shù)據(jù)的任何特定記錄。但若是合
成后數(shù)據(jù)與原始數(shù)據(jù)的擬合度過高可能會(huì)存在被關(guān)聯(lián)識(shí)別風(fēng)險(xiǎn)。
通常合成數(shù)據(jù)的生成會(huì)在假名化的基礎(chǔ)上,采用隨機(jī)化技術(shù)與抽
樣技術(shù)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常適用于應(yīng)用
程序開發(fā)、測(cè)試和應(yīng)用,將其作為真實(shí)數(shù)據(jù)的替代項(xiàng),幫助數(shù)據(jù)開發(fā)
主體獲得與基于真實(shí)數(shù)據(jù)的處理同樣的效果。
5.隱私計(jì)算技術(shù)
隱私計(jì)算技術(shù)是指在保護(hù)數(shù)據(jù)本身不對(duì)外泄露的前提下實(shí)現(xiàn)數(shù)
據(jù)分析計(jì)算的技術(shù)集合,通過對(duì)所涉及的隱私信息進(jìn)行描述、度量、
評(píng)價(jià)和融合等操作,形成一套符號(hào)化、公式化且具有量化評(píng)價(jià)標(biāo)準(zhǔn)的
隱私計(jì)算方法,達(dá)到對(duì)數(shù)據(jù)“可用不可見”的目的。目前主流的隱私
計(jì)算技術(shù)主要分為三大方向:一是以多方安全計(jì)算為代表的基于密碼
學(xué)的隱私計(jì)算技術(shù);二是以聯(lián)邦學(xué)習(xí)為代表的人工智能與隱私保護(hù)技
術(shù)融合衍生的技術(shù);三是以可信執(zhí)行環(huán)境為代表的基于可信硬件的隱
私計(jì)算技術(shù)。
多方安全計(jì)算:是指在無可信第三方的情況下,多個(gè)參與方共同
計(jì)算一個(gè)目標(biāo)函數(shù),在不泄露己方數(shù)據(jù)的同時(shí)完成數(shù)據(jù)計(jì)算,并且保
28
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
證每一方僅獲取自己的計(jì)算結(jié)果,無法通過計(jì)算過程中的交互數(shù)據(jù)推
測(cè)出其他任意一方的輸入數(shù)據(jù)。多方安全計(jì)算通常應(yīng)用于聯(lián)合數(shù)據(jù)分
析、數(shù)據(jù)可信交換、分布式投票、隱私競標(biāo)和拍賣、黑名單安全查詢、
數(shù)據(jù)庫檢索等場(chǎng)景。
聯(lián)邦學(xué)習(xí):是指實(shí)現(xiàn)在本地原始數(shù)據(jù)不出庫的情況下,各方通過
對(duì)中間加密數(shù)據(jù)的流通、參數(shù)交換和處理,共同建立虛擬的共有模型,
完成多方聯(lián)合的機(jī)器學(xué)習(xí)訓(xùn)練。聯(lián)邦學(xué)習(xí)可以從技術(shù)上有效解決數(shù)據(jù)
孤島問題,讓參與方在不泄露各自擁有的用戶數(shù)據(jù)的基礎(chǔ)上,實(shí)現(xiàn)聯(lián)
合建模和AI協(xié)作,加速隱私計(jì)算在不同場(chǎng)景的應(yīng)用與落地。根據(jù)參
與方的數(shù)據(jù)分布和特征重疊情況的不同,可以分為橫向聯(lián)邦學(xué)習(xí)、縱
向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。
可信執(zhí)行環(huán)境:是指將需要保護(hù)的數(shù)據(jù)和代碼存儲(chǔ)在可信執(zhí)行環(huán)
境中,即通過軟硬件方法在中央處理器中構(gòu)建一個(gè)安全的區(qū)域,對(duì)這
些數(shù)據(jù)和代碼的任何訪問都必須通過基于硬件的訪問控制,防止它們
在使用中未經(jīng)授權(quán)被訪問或修改,從而保證其內(nèi)部加載的程序和數(shù)據(jù)
在機(jī)密性和完整性上得到保護(hù)??尚艌?zhí)行環(huán)境是一種硬件解決方案,
安全性較高,但運(yùn)維成本相應(yīng)上升,多用于本地和遠(yuǎn)程驗(yàn)證場(chǎng)景。
六、數(shù)據(jù)處理環(huán)境要求
(一)管理制度要求
組織應(yīng)當(dāng)遵守法律法規(guī)及強(qiáng)制性標(biāo)準(zhǔn)的相關(guān)要求,銜接自身數(shù)據(jù)
管理制度,制定數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理各環(huán)節(jié)的審批流程,
推進(jìn)數(shù)據(jù)分類分級(jí)管理,梳理特殊數(shù)據(jù)類型的內(nèi)、外部特別管理要求,
29
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
在此基礎(chǔ)上細(xì)化數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的權(quán)限要求和操作
規(guī)范,并嵌入組織內(nèi)部管理機(jī)制。
(二)技術(shù)能力要求
組織應(yīng)當(dāng)強(qiáng)化數(shù)據(jù)處理的基礎(chǔ)技術(shù)保障,具備數(shù)據(jù)收集、存儲(chǔ)、
加工、分析、挖掘和安全防護(hù)的各類技術(shù)工具,具有安全、便捷、高
效的技術(shù)應(yīng)用系統(tǒng)和可信環(huán)境,熟知數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處
理的常見技術(shù)方法和應(yīng)用特點(diǎn),結(jié)合業(yè)務(wù)場(chǎng)景和內(nèi)外部要求,統(tǒng)籌組
合形成平衡數(shù)據(jù)安全要求和業(yè)務(wù)應(yīng)用目的的有效數(shù)據(jù)處理技術(shù)方案。
(三)人員能力要求
組織應(yīng)當(dāng)提升內(nèi)部人員的數(shù)據(jù)處理能力和安全防護(hù)水平,明確各
崗位數(shù)據(jù)合規(guī)職責(zé)和數(shù)據(jù)處理權(quán)限要求,定期組織數(shù)據(jù)處理技能培訓(xùn)
和安全合規(guī)教育,要求參與數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的人員
應(yīng)當(dāng)具備相應(yīng)的數(shù)據(jù)處理能力,嚴(yán)格按照數(shù)據(jù)安全管理制度和流程進(jìn)
行操作。必要情況下,組織可以尋求第三方技術(shù)服務(wù)機(jī)構(gòu)、法律服務(wù)
機(jī)構(gòu)、審計(jì)咨詢機(jī)構(gòu)、數(shù)據(jù)安全防護(hù)機(jī)構(gòu)、檢測(cè)認(rèn)證機(jī)構(gòu)等協(xié)助提供
技術(shù)能力和業(yè)務(wù)合規(guī)支持。
(四)過程控制要求
組織應(yīng)當(dāng)推進(jìn)數(shù)據(jù)處理過程的實(shí)時(shí)可控和動(dòng)態(tài)審計(jì),采取措施清
晰記錄數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理過程的細(xì)節(jié)、使用的參數(shù)和
執(zhí)行情況,監(jiān)控審查去標(biāo)識(shí)化各步驟實(shí)施過程,及時(shí)發(fā)現(xiàn)已經(jīng)出現(xiàn)或
可能出現(xiàn)的錯(cuò)誤或偏差,有效采取措施進(jìn)行糾正和防護(hù),并對(duì)監(jiān)控審
查過程進(jìn)行記錄,便于日后審查、維護(hù)、回溯和審計(jì)。同時(shí)加強(qiáng)對(duì)第
30
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
三方接收者的數(shù)據(jù)授權(quán)和授權(quán)跟蹤管理,采取技術(shù)保障措施和商業(yè)流
程防范去標(biāo)識(shí)、匿名化數(shù)據(jù)的再識(shí)別和意外泄露。
(五)事故管理要求
組織應(yīng)當(dāng)完善數(shù)據(jù)處理風(fēng)險(xiǎn)和安全事件管理機(jī)制,做好數(shù)據(jù)風(fēng)險(xiǎn)
識(shí)別、風(fēng)險(xiǎn)評(píng)估、風(fēng)險(xiǎn)處置等工作,制定并實(shí)施數(shù)據(jù)安全事件應(yīng)急預(yù)
案,針對(duì)不同等級(jí)的風(fēng)險(xiǎn)采取針對(duì)性的風(fēng)險(xiǎn)處置措施,關(guān)注涉及數(shù)據(jù)
標(biāo)識(shí)符、數(shù)據(jù)映射表、匿名化處理記錄表等信息的泄露風(fēng)險(xiǎn),防范惡
意重新標(biāo)識(shí)行為。發(fā)生數(shù)據(jù)泄露、篡改、丟失等安全事件的,應(yīng)當(dāng)立
即采取補(bǔ)救措施,及時(shí)通知管理機(jī)構(gòu)并按規(guī)定告知相關(guān)數(shù)據(jù)主體。
附件一:常見直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例
附件二:常見標(biāo)識(shí)符的去標(biāo)識(shí)化或匿名化參考
附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議
31
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
附件一:常見直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例
(一)直接標(biāo)識(shí)符示例
直接標(biāo)識(shí)符通常表現(xiàn)為在特定環(huán)境下可以單獨(dú)識(shí)別特定自然人
或數(shù)據(jù)所描述特定對(duì)象的識(shí)別號(hào)碼、特征或代碼。需注意,標(biāo)識(shí)符的
識(shí)別難度并不與數(shù)據(jù)的敏感程度直接掛鉤。本報(bào)告分別列舉了個(gè)人數(shù)
據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的部分直接標(biāo)識(shí)符示例,常見的直接標(biāo)識(shí)
符包括但不限于:
類型序號(hào)常見直接標(biāo)識(shí)符
1姓名
2公民身份號(hào)碼
3護(hù)照號(hào)
4工作學(xué)習(xí)編號(hào),包括工號(hào)、學(xué)號(hào)等
5電話號(hào)碼
6傳真號(hào)碼
7銀行賬戶
8駕照號(hào)
個(gè)人9車牌號(hào)
數(shù)據(jù)10社會(huì)保障號(hào)碼
11健康卡號(hào)碼
12病歷號(hào)碼
13網(wǎng)絡(luò)賬號(hào)、昵稱等
14網(wǎng)絡(luò)身份標(biāo)識(shí)號(hào)(ID)
15個(gè)人移動(dòng)終端設(shè)備標(biāo)識(shí)符
16詳細(xì)住址
17電子郵件地址
18個(gè)人行蹤軌跡
32
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)
19生物識(shí)別碼,包括指紋和聲紋等識(shí)別碼
20全臉圖片圖像及其他任何可比對(duì)的圖像
1組織機(jī)構(gòu)名稱
2營業(yè)執(zhí)照編號(hào)
3統(tǒng)一社會(huì)信用代碼
4法定代表人姓名
5稅務(wù)登記證號(hào)
6社會(huì)保險(xiǎn)登記證號(hào)碼
7統(tǒng)計(jì)登記證號(hào)碼
企業(yè)
8銀行賬戶信息
數(shù)據(jù)
9組織許可證號(hào)
10企業(yè)注冊(cè)地址
11網(wǎng)絡(luò)和系統(tǒng)賬號(hào)信息
12網(wǎng)站標(biāo)識(shí)碼,互聯(lián)網(wǎng)協(xié)議(IP)地址號(hào)
13網(wǎng)絡(luò)通用資源定位符(URL)
14合同編號(hào)
15商業(yè)發(fā)票編號(hào)
1設(shè)備標(biāo)識(shí)符和序列號(hào)
2設(shè)備位置信息
3設(shè)備使用記錄
4設(shè)備故障或警報(bào)記錄
物聯(lián)網(wǎng)5商品條碼
數(shù)據(jù)6貨運(yùn)設(shè)備識(shí)別碼
7集裝箱識(shí)別代碼
8醫(yī)療器械唯一標(biāo)識(shí)(UDI)
9數(shù)字版權(quán)唯一標(biāo)識(shí)符(DCI)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆上海華東師大二附中英語高三第一學(xué)期期末經(jīng)典試題含解析
- 2025屆寧夏青銅峽市吳忠中學(xué)分校數(shù)學(xué)高三上期末學(xué)業(yè)水平測(cè)試模擬試題含解析
- 安徽省合肥市金湯白泥樂槐六校2025屆高二生物第一學(xué)期期末達(dá)標(biāo)檢測(cè)試題含解析
- 北京市順義第九中學(xué)2025屆高一上數(shù)學(xué)期末質(zhì)量檢測(cè)試題含解析
- 2025屆江蘇省南京市田家炳中學(xué)英語高三第一學(xué)期期末綜合測(cè)試模擬試題含解析
- 2025屆廣東省深圳市南山區(qū)高三數(shù)學(xué)第一學(xué)期期末監(jiān)測(cè)模擬試題含解析
- 上海市寶山區(qū)吳淞中學(xué)2025屆高一數(shù)學(xué)第一學(xué)期期末質(zhì)量檢測(cè)模擬試題含解析
- 山東省2025屆高一數(shù)學(xué)第一學(xué)期期末綜合測(cè)試試題含解析
- 2025屆吉林省延邊朝鮮族自治州汪清縣第六中學(xué)生物高一上期末復(fù)習(xí)檢測(cè)試題含解析
- 2025屆貴州省貴陽市普通高中英語高三第一學(xué)期期末達(dá)標(biāo)檢測(cè)模擬試題含解析
- 日常巡店流程課件
- 《上海市中學(xué)物理課程標(biāo)準(zhǔn)》試行稿
- 奶牛牧場(chǎng)經(jīng)營管理課件
- 涉密人員培訓(xùn)和教育
- 存儲(chǔ)設(shè)備擴(kuò)容與數(shù)據(jù)遷移服務(wù)
- smt部門年工作計(jì)劃
- 關(guān)于數(shù)學(xué)的知識(shí)講座
- 護(hù)士與醫(yī)生的合作與溝通
- 陰莖損傷的護(hù)理課件
- 皮膚科住院醫(yī)師規(guī)范化培訓(xùn)內(nèi)容與標(biāo)準(zhǔn)
- 蘇教版六年級(jí)上冊(cè)數(shù)學(xué)認(rèn)識(shí)百分?jǐn)?shù)(課件)
評(píng)論
0/150
提交評(píng)論