G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》_第1頁
G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》_第2頁
G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》_第3頁
G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》_第4頁
G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息安全技術(shù)個(gè)人信息去標(biāo)識化指南 I Ⅱ 12規(guī)范性引用文件 13術(shù)語和定義 14概述 34.1去標(biāo)識化目標(biāo) 34.2去標(biāo)識化原則 4.3重標(biāo)識風(fēng)險(xiǎn) 34.4去標(biāo)識化影響 4.5不同公開共享類型對去標(biāo)識化的影響 45去標(biāo)識化過程 45.1概述 45.2確定目標(biāo) 55.3識別標(biāo)識 55.4處理標(biāo)識 65.5驗(yàn)證審批 75.6監(jiān)控審查 86角色職責(zé)與人員管理 96.1角色職責(zé) 96.2人員管理 9附錄A(資料性附錄)常用去標(biāo)識化技術(shù) 附錄B(資料性附錄)常用去標(biāo)識化模型 附錄C(資料性附錄)去標(biāo)識化模型和技術(shù)的選擇 24附錄D(資料性附錄)去標(biāo)識化面臨的挑戰(zhàn) 參考文獻(xiàn) 信息安全技術(shù)個(gè)人信息去標(biāo)識化指南本標(biāo)準(zhǔn)描述了個(gè)人信息去標(biāo)識化的目標(biāo)和原則,提出了去標(biāo)識化過程和管理措施。本標(biāo)準(zhǔn)針對微數(shù)據(jù)提供具體的個(gè)人信息去標(biāo)識化指導(dǎo),適用于組織開展個(gè)人信息去標(biāo)識化工作,也適用于網(wǎng)絡(luò)安全相關(guān)主管部門、第三方評估機(jī)構(gòu)等組織開展個(gè)人信息安全監(jiān)督管理、評估等工作。2規(guī)范性引用文件下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T25069—2010信息安全技術(shù)術(shù)語GB/T25069—2010界定的以及下列術(shù)語和定義適用于本文件。以電子或其他方式記錄的能夠單獨(dú)或與其他信息結(jié)合識別特定自然人身份或反映特定自然人活動(dòng)情況的各種信息。個(gè)人信息主體personaldatasubject個(gè)人信息所標(biāo)識的自然人。通過對個(gè)人信息的技術(shù)處理,使其在不借助額外信息的情況下,無法識別個(gè)人信息主體的過程。一個(gè)結(jié)構(gòu)化數(shù)據(jù)集,其中每條(行)記錄對應(yīng)一個(gè)個(gè)人信息主體,記錄中的每個(gè)字段(列)對應(yīng)一個(gè)聚合數(shù)據(jù)aggregatedata表征一組個(gè)人信息主體的數(shù)據(jù)。2標(biāo)識符identifier微數(shù)據(jù)中的一個(gè)或多個(gè)屬性,可以實(shí)現(xiàn)對個(gè)人信息主體的唯一識別。直接標(biāo)識符directidentifier微數(shù)據(jù)中的屬性,在特定環(huán)境下可以單獨(dú)識別個(gè)人信息主體。準(zhǔn)標(biāo)識符quasi-identifier微數(shù)據(jù)中的屬性,結(jié)合其他屬性可唯一識別個(gè)人信息主體。把去標(biāo)識化的數(shù)據(jù)集重新關(guān)聯(lián)到原始個(gè)人信息主體或一組個(gè)人信息主體的過程。數(shù)據(jù)集中需要保護(hù)的屬性,該屬性值的泄露、修改、破壞或丟失會對個(gè)人產(chǎn)生損害。有用性usefulnes數(shù)據(jù)對于應(yīng)用有著具體含義、具有使用意義的特性。完全公開共享completelypublicsharing數(shù)據(jù)一旦發(fā)布,很難召回,一般通過互聯(lián)網(wǎng)直接公開發(fā)布。受控公開共享controlledpublicsharing通過數(shù)據(jù)使用協(xié)議對數(shù)據(jù)的使用進(jìn)行約束。注2:同英文術(shù)語TheDataUseAgreementModel。領(lǐng)地公開共享enclavepublicsharing在物理或虛擬的領(lǐng)地范圍內(nèi)共享,數(shù)據(jù)不能流出到領(lǐng)地范圍外。3去標(biāo)識化技術(shù)de-identificationtechnique降低數(shù)據(jù)集中信息和個(gè)人信息主體關(guān)聯(lián)程度的技術(shù)。去標(biāo)識化模型de-identificationmodel應(yīng)用去標(biāo)識化技術(shù)并能計(jì)算重標(biāo)識風(fēng)險(xiǎn)的方法。4.1去標(biāo)識化目標(biāo)去標(biāo)識化目標(biāo)包括:a)對直接標(biāo)識符和準(zhǔn)標(biāo)識符進(jìn)行刪除或變換,避免攻擊者根據(jù)這些屬性直接識別或結(jié)合其他信息識別出原始個(gè)人信息主體;b)控制重標(biāo)識的風(fēng)險(xiǎn),根據(jù)可獲得的數(shù)據(jù)情況和應(yīng)用場景選擇合適的模型和技術(shù),將重標(biāo)識的風(fēng)險(xiǎn)控制在可接受范圍內(nèi),確保重標(biāo)識風(fēng)險(xiǎn)不會隨著新數(shù)據(jù)發(fā)布而增加,確保數(shù)據(jù)接收方之間的潛在串通不會增加重標(biāo)識風(fēng)險(xiǎn);c)在控制重標(biāo)識風(fēng)險(xiǎn)的前提下,結(jié)合業(yè)務(wù)目標(biāo)和數(shù)據(jù)特性,選擇合適的去標(biāo)識化模型和技術(shù),確保去標(biāo)識化后的數(shù)據(jù)集盡量滿足其預(yù)期目的(有用)。4.2去標(biāo)識化原則對數(shù)據(jù)集進(jìn)行去標(biāo)識化,應(yīng)遵循以下原則:a)合規(guī):應(yīng)滿足我國法律、法規(guī)和標(biāo)準(zhǔn)規(guī)范對個(gè)人信息安全保護(hù)的有關(guān)規(guī)定,并持續(xù)跟進(jìn)有關(guān)法b)個(gè)人信息安全保護(hù)優(yōu)先:應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求,對個(gè)人信息進(jìn)行恰當(dāng)?shù)娜?biāo)識化處理,在保護(hù)個(gè)人信息安全的前提下確保去標(biāo)識化后的數(shù)據(jù)具有應(yīng)用價(jià)值;c)技術(shù)和管理相結(jié)合:根據(jù)工作目標(biāo)制定適當(dāng)?shù)牟呗?,選擇適當(dāng)?shù)哪P秃图夹g(shù),綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)最佳效果。包括設(shè)定具體的崗位,明確相應(yīng)職責(zé);對去標(biāo)識化過程中形成的輔助信息(例如密鑰、映射表等)采取有效的安全防護(hù)措施等;d)充分應(yīng)用軟件工具:針對大規(guī)模數(shù)據(jù)集的去標(biāo)識化工作,應(yīng)考慮使用軟件工具提高去標(biāo)識化e)持續(xù)改進(jìn):在完成去標(biāo)識化工作后應(yīng)進(jìn)行評估和定期重評估,對照工作目標(biāo),評估工作效果(包括重標(biāo)識風(fēng)險(xiǎn)和有用性)與效率,持續(xù)改進(jìn)方法、技術(shù)和工具。并就相關(guān)工作進(jìn)行文檔記錄。常見的用于重標(biāo)識的方法如下:a)分離:將屬于同一個(gè)個(gè)人信息主體的所有記錄提取出來;b)關(guān)聯(lián):將不同數(shù)據(jù)集中關(guān)于相同個(gè)人信息主體的信息聯(lián)系起來;c)推斷:通過其他屬性的值以一定概率判斷出一個(gè)屬性的值。4b)重標(biāo)識一條特定記錄的個(gè)人信息主體;c)盡可能多的將記錄和其對應(yīng)的個(gè)人信息主體關(guān)d)判定一個(gè)特定的個(gè)人信息主體在數(shù)據(jù)集中是否存在;e)推斷和一組其他屬性關(guān)聯(lián)的敏感屬性。在開展去標(biāo)識化工作之前需要根據(jù)應(yīng)用需求確定數(shù)據(jù)的公開共享類型,不同公開共享類型可能引發(fā)的重標(biāo)識風(fēng)險(xiǎn)和對去標(biāo)識化的要求如表1所示。公開共享類型高高中中低低實(shí)施過程中和完成后進(jìn)行有效的監(jiān)控和審查。如圖1所示。監(jiān)控審查b)組織策略。了解數(shù)據(jù)是否屬于組織列入的重要數(shù)據(jù)或敏感數(shù)據(jù)范疇,數(shù)據(jù)應(yīng)用時(shí)是否存在去c)數(shù)據(jù)來源。了解這些數(shù)據(jù)采集時(shí)是否做過去標(biāo)識化相關(guān)承諾。f)關(guān)聯(lián)情況。了解數(shù)據(jù)披露歷史和去標(biāo)識化歷史情況,待披露數(shù)據(jù)是否和歷史數(shù)據(jù)存在關(guān)聯(lián)a)風(fēng)險(xiǎn)級別。了解數(shù)據(jù)屬性和業(yè)務(wù)特性,擬采用的重標(biāo)識風(fēng)險(xiǎn)e)去標(biāo)識化模型和技術(shù)。了解數(shù)據(jù)適用的保護(hù)或去標(biāo)識化標(biāo)準(zhǔn),以及可能采用的去標(biāo)識化模型6b)數(shù)據(jù)中存在混亂或錯(cuò)誤情況,如“備注”字段前100條記錄人工分析法是通過人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識符和準(zhǔn)標(biāo)識數(shù)據(jù)集中多個(gè)非常見標(biāo)識符屬性后識別出唯一的用戶身份;7范圍內(nèi)滿足數(shù)據(jù)有用性的最低要求。選擇的參考因素f)是否需要保持原有數(shù)據(jù)值順序;變成數(shù)字類型表示(1/0);a)若存在多個(gè)需要去標(biāo)識化的標(biāo)識符,b)依次選擇相應(yīng)的工具或程序;對數(shù)據(jù)集去標(biāo)識化后進(jìn)行驗(yàn)證,以確保生成的數(shù)據(jù)集在重標(biāo)識風(fēng)險(xiǎn)和數(shù)據(jù)有用性方面都符合預(yù)設(shè)a)檢查生成的數(shù)據(jù)文件,以確保文件8d)進(jìn)行有針對性的入侵者測試,看看是否有具備合格能力的外部人員可以使用公開的數(shù)據(jù)集執(zhí)e)讓團(tuán)隊(duì)利用內(nèi)部數(shù)據(jù)進(jìn)行有針對性的入侵者測試,模擬違規(guī)者或敵對內(nèi)幕人士可能發(fā)生的這些方法不能保證去標(biāo)識化后的數(shù)據(jù)滿足個(gè)人信息安全保護(hù)的要求,但它們可以作為整個(gè)組織風(fēng)險(xiǎn)評估的一部分??勺C明的個(gè)人信息安全保護(hù)應(yīng)依賴于形式化方法,例如用于規(guī)劃組織數(shù)據(jù)發(fā)布的差分隱私方法。通過使用經(jīng)過驗(yàn)證的去標(biāo)識化軟件,可以大大簡化去標(biāo)識化數(shù)據(jù)的個(gè)人信息安全保護(hù)的去標(biāo)識化降低了數(shù)據(jù)質(zhì)量和生成數(shù)據(jù)集的有用性。因此,需要考慮去標(biāo)識化后的數(shù)據(jù)集對于預(yù)期存在一些方法用于驗(yàn)證數(shù)據(jù)有用性。例如,內(nèi)部人員可對原始數(shù)據(jù)集和去標(biāo)識化的數(shù)據(jù)集執(zhí)行統(tǒng)監(jiān)控審查過程也應(yīng)記錄到文檔中,記錄內(nèi)容至少包括監(jiān)控審查對象、時(shí)間、過程、結(jié)果和措施等9進(jìn)行重標(biāo)識風(fēng)險(xiǎn)評估。這是由于重標(biāo)識技術(shù)以及重標(biāo)識攻擊能力都在迅速演變,所以要通過重標(biāo)識風(fēng)b)執(zhí)行者c)監(jiān)督者b)個(gè)人信息去標(biāo)識化工作崗位招聘時(shí)應(yīng)按照相關(guān)法律、c)與個(gè)人信息去標(biāo)識化工作崗位人員工作合同或補(bǔ)充文檔中,應(yīng)明確其理解工作職責(zé)和要承擔(dān)a)組織應(yīng)定期開展業(yè)務(wù)和安全培訓(xùn),確保個(gè)人信息去標(biāo)識化工作崗位人員接受充分和最新的培(資料性附錄)常用去標(biāo)識化技術(shù)A.1統(tǒng)計(jì)技術(shù)A.1.1概述統(tǒng)計(jì)技術(shù)是一種對數(shù)據(jù)集進(jìn)行去標(biāo)識化或提升去標(biāo)識化技術(shù)有效性的常用方法,主要包含數(shù)據(jù)抽樣和數(shù)據(jù)聚合兩種技術(shù)。數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對原始數(shù)據(jù)集進(jìn)行分析和評估的,它是提升去標(biāo)識化技術(shù)有效性的重要方法。對數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面:a)從數(shù)據(jù)集中抽取樣本的方法很多,各方法差異很大,需根據(jù)數(shù)據(jù)集的特點(diǎn)和預(yù)期的使用場景來b)數(shù)據(jù)抽樣經(jīng)常用于去標(biāo)識化的預(yù)處理,對數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識別出特定個(gè)人信息主體的不確定性,從而可以提高后續(xù)應(yīng)用的其他去標(biāo)識化技術(shù)的有效性。c)數(shù)據(jù)抽樣可以簡化對數(shù)據(jù)集的計(jì)算量,因此,在對大樣本的數(shù)據(jù)集進(jìn)行去標(biāo)識化時(shí),首先進(jìn)行抽樣,然后再采用某項(xiàng)特定的技術(shù)進(jìn)行去標(biāo)識化。例如:某市從1000萬市民中隨機(jī)抽取1萬人的4項(xiàng)信息(性別、學(xué)歷、籍貫、身高)。如果攻擊者發(fā)現(xiàn)市民A的情況完全符合記錄甲(男,本科,北京,1.75m),攻擊者并不能確定記錄甲就是指市民A,因?yàn)锳并不一定在此抽樣數(shù)據(jù)集中。A.1.3數(shù)據(jù)聚合數(shù)據(jù)聚合作為一系列統(tǒng)計(jì)技術(shù)(如求和、計(jì)數(shù)、平均、最大值與最小值)的集合,應(yīng)用于微數(shù)據(jù)中的屬性時(shí),產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所有記錄。對數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面:a)數(shù)據(jù)聚合可能會降低數(shù)據(jù)的有用性;因?yàn)榈玫降氖墙y(tǒng)計(jì)值,無法反映獨(dú)立數(shù)據(jù)記錄的特征。b)數(shù)據(jù)聚合對重標(biāo)識攻擊非常有效;數(shù)據(jù)聚合的輸出是“統(tǒng)計(jì)值”,該值有利于對數(shù)據(jù)進(jìn)行整體報(bào)告或分析,而不會披露任何個(gè)體記錄。例如:2012年我國18歲及以上成年男性平均身高1.67m。如果數(shù)據(jù)集以平均身高來標(biāo)識數(shù)據(jù)集A.2密碼技術(shù)A.2.1概述本節(jié)描述適用于去標(biāo)識化的密碼技術(shù)。使用密碼技術(shù)應(yīng)遵循國家密碼管理相關(guān)規(guī)定。確定性加密是一種非隨機(jī)加密方法。在去標(biāo)識化過程中應(yīng)用時(shí),可以用確定性加密結(jié)果替代微數(shù)對確定性加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方a)確定性加密可以保證數(shù)據(jù)真實(shí)可用,即相同的兩個(gè)數(shù)據(jù)用同一密鑰進(jìn)行加密將產(chǎn)生兩個(gè)一樣b)確定性加密可以一定程度上保證數(shù)據(jù)在統(tǒng)計(jì)處理、隱私防挖掘方面的有用性,確定性加密也可以生成用于精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對確定性加密結(jié)果的分析局限于檢c)對確定性加密的重標(biāo)識攻擊主要在于不具備密鑰使用權(quán)時(shí)的攻擊;關(guān)聯(lián)性攻擊則可能適用于采用同一密鑰進(jìn)行確定性加密的密文,攻擊能否成功很大程度上取決于對加密算法參數(shù)的保序加密是一種非隨機(jī)加密方法。用作去標(biāo)識化技術(shù)時(shí),可以用保序加密值替代微數(shù)據(jù)中的標(biāo)識b)保序加密可以在有限的范圍內(nèi)保證加密結(jié)果在統(tǒng)計(jì)處理、隱私防挖掘、數(shù)據(jù)外包存儲與處理結(jié)果的分析局限于檢查數(shù)據(jù)相等和排序比較關(guān)系。c)保序加密數(shù)據(jù)的完全重標(biāo)識僅可能適用于擁有密鑰的一方。關(guān)聯(lián)性攻擊能否成功很大程度上對保留格式加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)某些保留格式加密具有確定性加密技術(shù)一樣的特點(diǎn),如相同數(shù)據(jù)在同一密鑰下加密生成同樣理后的結(jié)果。同態(tài)加密用加密值替代微數(shù)據(jù)中的標(biāo)識符值。學(xué)運(yùn)算的結(jié)果。當(dāng)作為去標(biāo)識化技術(shù)的一部分加以采用時(shí),同態(tài)秘密共享可用信息共享算法得出的兩個(gè)或以上若干份額替代數(shù)據(jù)記錄中的任何標(biāo)識符或敏感屬性。這樣,便可將這些若干份額分配給兩個(gè)或以上的份額持有者。這些份額持有者的數(shù)量通過秘密共享方案加以確定。有效的同態(tài)秘密共享的特性是,相同份額持有者共享機(jī)密的兩個(gè)值可與加密方案的同態(tài)運(yùn)算相結(jié)標(biāo)識化數(shù)據(jù)進(jìn)行任何安全運(yùn)算。同態(tài)密鑰共享并不會降低數(shù)據(jù)的真實(shí)性。共享秘密數(shù)據(jù)的存儲開銷是有限的?;诎踩喾接?jì)算執(zhí)行的數(shù)據(jù)去標(biāo)識化的處理技術(shù)是靈活同態(tài)密鑰共享會產(chǎn)生微數(shù)據(jù)的分布式實(shí)例,該類實(shí)例可被同態(tài)運(yùn)算或安全多方計(jì)算技術(shù)處理。同抑制技術(shù)即對不滿足隱私保護(hù)的數(shù)據(jù)項(xiàng)刪除,不進(jìn)行發(fā)布。包括從所有記錄中選定的屬性(如屏抑制技術(shù)可用于防止基于關(guān)聯(lián)規(guī)則推導(dǎo)的攻擊,因?yàn)椴话l(fā)布能最大化降低關(guān)聯(lián)規(guī)則支持度和置信在將屏蔽技術(shù)作為唯一的去標(biāo)識化技術(shù)的系統(tǒng)中,應(yīng)采取安全措施和組織其他的管理措施去保護(hù)結(jié)合使用可能識別出相關(guān)個(gè)人信息主體。通常應(yīng)用局部抑制技術(shù)來移除準(zhǔn)標(biāo)識符在泛化后仍然出現(xiàn)的稀有值(或這些值的稀有組合)。局部抑制技術(shù)應(yīng)用于分類值,而泛化通常應(yīng)用于數(shù)值,其共同目標(biāo)是增加共享其標(biāo)識符值的記A.3.4記錄抑制“記錄抑制”是一種從數(shù)據(jù)集中刪除整個(gè)記錄或一些記錄的去標(biāo)識化技術(shù)。典型應(yīng)用場景為刪除包含稀有屬性(如異常值)組合的記錄。A.3.5注意事項(xiàng)抑制技術(shù)會導(dǎo)致信息丟失,抑制技術(shù)處理后的數(shù)據(jù)有被重標(biāo)識的風(fēng)險(xiǎn),因此需要與其他去標(biāo)識化技術(shù)相結(jié)合以降低數(shù)據(jù)的重標(biāo)識風(fēng)險(xiǎn)。過多的抑制會影響數(shù)據(jù)的效用,所以在具體應(yīng)用時(shí),為保證數(shù)據(jù)的可用性,要對抑制的數(shù)據(jù)項(xiàng)數(shù)量設(shè)定一個(gè)上限值。在某個(gè)具體應(yīng)用中,需要對某組織的不同工作年限的薪資水平進(jìn)行分析,原始數(shù)據(jù)集包括{姓名,性a)姓名是直接標(biāo)識符,需要應(yīng)用抑制技術(shù)刪除;通過{職務(wù),工作年限)或{職務(wù),性別}也可以推導(dǎo)出該組織中的一部分員工,因此應(yīng)用抑制技術(shù)刪除職務(wù)屬性;屬性值進(jìn)行泛化處理,如薪水泛化為5000~10000、10000~15000、15000~20000等,工作年限泛化為0~3年、4~6年等;c)如果數(shù)據(jù)記錄中只有1人工作年限為0~3年,薪水為15000~20000,則能夠定位到某個(gè)員工,應(yīng)用抑制技術(shù)刪除該條記錄。A.4假名化技術(shù)A.4.1概述假名化技術(shù)是一種使用假名替換直接標(biāo)識(或其他準(zhǔn)標(biāo)識符)的去標(biāo)識化技術(shù)。假名化技術(shù)為每一個(gè)人信息主體創(chuàng)建唯一的標(biāo)識符,以取代原來的直接標(biāo)識或準(zhǔn)標(biāo)識符。不同數(shù)據(jù)集中的相關(guān)記錄在進(jìn)行假名化處理后依然可以進(jìn)行關(guān)聯(lián),并且不會泄露個(gè)人信息主體的身份。在使用假名化技術(shù)的過程中,通常會使用一些輔助信息。這些輔助信息包括從原始數(shù)據(jù)集中刪除的標(biāo)識符、假名分配表或密鑰等,采取必要的措施來保護(hù)這些輔助信息有利于降低重標(biāo)識風(fēng)險(xiǎn)。假名創(chuàng)建技術(shù)主要包括獨(dú)立于標(biāo)識符的假名創(chuàng)建技術(shù)和基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建技術(shù)。假名創(chuàng)建技術(shù)的選擇需要考慮以下因素:創(chuàng)建假名的成本、散列函數(shù)的抗碰撞能力以及重標(biāo)識過程中假名被還原的手段。獨(dú)立于標(biāo)識符的假名創(chuàng)建技術(shù)不依賴于被替代的屬性原始值,而是獨(dú)立生成,典型方法為用隨機(jī)值代替屬性原始值。基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建技術(shù)通過對屬性值采用加密或散列等密碼技術(shù)生成假名,這一過程也稱為對數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對應(yīng)的算法解密,而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。A.4.2獨(dú)立于標(biāo)識符的假名創(chuàng)建獨(dú)立于標(biāo)識符的假名創(chuàng)建技術(shù)不依賴于被替代的屬性原始值,而是獨(dú)立生成,典型方法為用隨機(jī)值代替屬性原始值。使用該類技術(shù)時(shí)需創(chuàng)建假名與原始標(biāo)識的分配表。根據(jù)去標(biāo)識化的目標(biāo),應(yīng)采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對該分配表的訪問。例如,使用去標(biāo)識化后數(shù)據(jù)的應(yīng)用系統(tǒng)禁止訪問分配表。A.4.3基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建技術(shù)通過對屬性值采用加密或散列等密碼技術(shù)生成假名,這一過程也稱為對數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對應(yīng)的算法解密,而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。采用多種密碼技術(shù)的組合可更好地保護(hù)屬性原始值。采用加密方法來創(chuàng)建假名的計(jì)算成本很高,但非常有效。應(yīng)采取特殊措施來保護(hù)密鑰,防止密鑰被未授權(quán)訪問,包括密鑰與數(shù)據(jù)分離,不與第三方共享密鑰,安全地刪除密鑰以防重標(biāo)識等。散列函數(shù)的單向運(yùn)算及抗碰撞能力等特性,使其適用于假名化過程。但是,當(dāng)散列算法和所用密鑰是已知的,且有可能遍歷散列函數(shù)生成數(shù)值空間時(shí),散列函數(shù)是可逆的。因此使用密鑰散列函數(shù)時(shí)可增加另一隨機(jī)輸入,增強(qiáng)其對抗暴力搜索攻擊的能力,防止未經(jīng)授權(quán)的重標(biāo)識。即使采用了安全的散列技術(shù),如果在使用或執(zhí)行散列算法中發(fā)生了疏忽,或未經(jīng)授權(quán)共享密鑰,均可能導(dǎo)致數(shù)據(jù)的重標(biāo)識。A.4.4注意事項(xiàng)如果采用恰當(dāng)?shù)姆绞綐?gòu)建假名與原始標(biāo)識的分配表,并能對分配表和分配技術(shù)加以保護(hù),則能夠有效地降低數(shù)據(jù)的重標(biāo)識風(fēng)險(xiǎn)。采用多個(gè)原始標(biāo)識符對應(yīng)一個(gè)假名的分配表比采用一一對應(yīng)的分配表能夠更加有效降低重標(biāo)識風(fēng)險(xiǎn)。加密技術(shù)通常是一一對應(yīng)的分配技術(shù);散列技術(shù)由于碰撞性的存在,通常是多對一的分配技術(shù);采用純隨機(jī)的方式構(gòu)建分配表通常也是多對一的。采用多個(gè)原始標(biāo)識符對應(yīng)一個(gè)假名的分配表方法和分配技術(shù),會導(dǎo)致在以標(biāo)識符為統(tǒng)計(jì)對象的數(shù)據(jù)分析結(jié)果失真,從而降低數(shù)據(jù)的有用性。加密技術(shù)能夠還原標(biāo)識符,在需要還原原始標(biāo)識符的情況下采用該技術(shù)。A.4.5示例在某個(gè)具體的應(yīng)用中,需要從外部某數(shù)據(jù)庫中抽取包含人名的有效數(shù)據(jù)以供分析,采用如下步驟進(jìn)行去標(biāo)識化:a)構(gòu)建常用人名字典表。常用人名字典表有200個(gè)常用人名構(gòu)成:龔小虹、黃益洪、龍家銳、b)制定人名與假名的分配技術(shù)。分配技術(shù)采用純隨機(jī)方式,對于每一個(gè)標(biāo)識符(人名),隨機(jī)生成一個(gè)不小于1并且不大于200的隨機(jī)數(shù),從字典表中的對應(yīng)位置獲取假名,進(jìn)行替換。c)使用字典表和分配技術(shù),完成對人名的去標(biāo)識化,在去標(biāo)識過程中,在遇到人名“辛培軍”時(shí),隨機(jī)生成了數(shù)5,則使用字典中的排列第5的名字該示例使用隨機(jī)方式構(gòu)建分配規(guī)則,采用了多對一的方式,在保留適當(dāng)可用性的同時(shí),降低了數(shù)據(jù)的重標(biāo)識風(fēng)險(xiǎn)。A.5泛化技術(shù)泛化技術(shù)是指一種降低數(shù)據(jù)集中所選屬性粒度的去標(biāo)識化技術(shù),對數(shù)據(jù)進(jìn)行更概括、抽象的描述。使得被泛化后的值(或多個(gè)值的集合)被數(shù)據(jù)集中多個(gè)記錄所共享,從而增加某特定個(gè)人信息主體被推取整涉及為所選的屬性選定一個(gè)取整基數(shù),然后將每個(gè)值向上或向下取整至最接近取整基數(shù)的倍如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率為0.7,若向下取整至0,概率為0.3。泛化技術(shù)為某一屬性設(shè)定一個(gè)可能的最大(或最小)閾值。頂層與底層編碼技術(shù)使用表示頂層(或于原來的真實(shí)值。該過程降低了攻擊者從同一數(shù)據(jù)記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力。隨機(jī)化技術(shù)并不能保證數(shù)據(jù)在記錄集的真實(shí)性。為達(dá)到特定的目標(biāo),有效隨機(jī)化過程需要逐項(xiàng)定置換是在不修改屬性值的情況下對數(shù)據(jù)集記錄中所選屬性的值進(jìn)行重新排序的一種技術(shù)。因此,置換保持了整個(gè)數(shù)據(jù)集中所選屬性的準(zhǔn)確統(tǒng)計(jì)分布。置換技術(shù)適用于數(shù)字與非數(shù)字值。因?yàn)橛^察到的不一致性可能有助于對置換算法實(shí)施逆向工程,不同置換技術(shù)的區(qū)別在于方法與復(fù)雜性的差別。在保持所選屬性之間原有相關(guān)性的情況下,置換A.6.4微聚集“微聚集”是指用某種算法方式計(jì)算出來的平均值代替連續(xù)屬性所有值的去標(biāo)識化技術(shù)。對于每種連續(xù)屬性,或?qū)τ谒x的一組連續(xù)屬性,數(shù)據(jù)集中的所有記錄都進(jìn)行了分組,具有最近屬性值的記錄屬于同一組,而且每一組中至少有k個(gè)記錄。每一種屬性的新值替換為該屬性所在組中的平均值。每組中的各個(gè)值越接近,數(shù)據(jù)的有效性就保持得越好。微聚集的輸出是微數(shù)據(jù),該技術(shù)不能保證數(shù)據(jù)的真實(shí)性。微聚集技術(shù)的不同之處在于:選擇的屬性、屬性值之間的相似性計(jì)算方式以及其他考慮因素。A.7數(shù)據(jù)合成技術(shù)數(shù)據(jù)合成是一種以人工方式產(chǎn)生微數(shù)據(jù)的方法,用以表示預(yù)定義的統(tǒng)計(jì)數(shù)據(jù)模型。對數(shù)據(jù)合成技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)合成數(shù)據(jù)集與原始數(shù)據(jù)特性相符,但不包含現(xiàn)有個(gè)人信息主體有關(guān)的任何數(shù)據(jù),但是,若合成后的數(shù)據(jù)與原始數(shù)據(jù)的擬合度過高可能會導(dǎo)致敏感信息泄露。b)創(chuàng)建合成數(shù)據(jù)的方法很多。理論上,數(shù)據(jù)可根據(jù)所選的統(tǒng)計(jì)特性隨機(jī)生成。該類模型的關(guān)鍵特征主要體現(xiàn)在每種屬性(總體與子總體)的分布以及屬性之間的內(nèi)部關(guān)系。實(shí)際上,合成數(shù)據(jù)的生成會采用隨機(jī)化技術(shù)與抽樣技術(shù)對真實(shí)數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常用于測試工具與應(yīng)用。c)合成數(shù)據(jù)可用于開發(fā)查詢。合成數(shù)據(jù)可用作真實(shí)數(shù)據(jù)的替代項(xiàng):數(shù)據(jù)管理者能在實(shí)際數(shù)據(jù)中重現(xiàn)在合成數(shù)據(jù)中執(zhí)行的查詢,以確保基于合成數(shù)據(jù)的處理能夠同樣正確應(yīng)用于真實(shí)數(shù)據(jù)。利用差分隱私機(jī)制可以保證合成數(shù)據(jù)的隱私。K-匿名模型是在發(fā)布數(shù)據(jù)時(shí)保護(hù)個(gè)人信息安全的一種模型。K-匿名模型要求發(fā)布的數(shù)據(jù)中,指定標(biāo)識符(直接標(biāo)識符或準(zhǔn)標(biāo)識符)屬性值相同的每一等價(jià)類至少包含K個(gè)記錄,使攻擊者不人信息所屬的具體個(gè)體,從而保護(hù)了個(gè)人信息安L-多樣性是針對屬性值差異性不大的數(shù)據(jù)集提出的一種增強(qiáng)概念。為防止確定性推導(dǎo),L-多樣性要求在K-匿名的基礎(chǔ)上,實(shí)現(xiàn)每一等價(jià)類在每一敏感屬性上存在至少L個(gè)不同值。在數(shù)據(jù)分布很不均T-接近性是L-多樣性的增強(qiáng)概念,適用于發(fā)布數(shù)據(jù)集的敏感屬性分求任何等價(jià)類中敏感屬性的分布與整個(gè)數(shù)據(jù)集中相應(yīng)屬性的分布之間的距離小于閾值T。a)每行記錄重標(biāo)識概率的計(jì)算方法取決于數(shù)據(jù)集中其他行對于準(zhǔn)標(biāo)識符的屬性是否具有相同的值。對于每一行,重標(biāo)識的概率等于1除以其等價(jià)類的大小,即,給定記錄行重標(biāo)識概率=1/等價(jià)類大小。例如,大小為5的等價(jià)類中的每一行都有重標(biāo)識的概率為0.2。因此,具有較大等價(jià)b)根據(jù)所使用的發(fā)布模型采用適當(dāng)?shù)娘L(fēng)險(xiǎn)衡量方法雖然每行記錄重標(biāo)識的概率等于1除以其等價(jià)類的大小,但是具體的計(jì)算數(shù)據(jù)集中重標(biāo)識風(fēng)公開共享數(shù)據(jù)發(fā)布應(yīng)使用最大風(fēng)險(xiǎn)。因?yàn)閷τ诠_數(shù)據(jù)發(fā)布,應(yīng)假設(shè)有攻擊者會進(jìn)行炫耀式受控共享數(shù)據(jù)發(fā)布應(yīng)使用嚴(yán)格的平均風(fēng)險(xiǎn)。受控共享數(shù)據(jù)發(fā)布數(shù)據(jù)集的訪問僅限于選定數(shù)量衡量數(shù)據(jù)集中重標(biāo)識風(fēng)險(xiǎn)。為了保護(hù)具有高度重標(biāo)識風(fēng)險(xiǎn)的獨(dú)特行或等價(jià)類,平均值通常建議為0.33,即數(shù)據(jù)集中等價(jià)類的最小尺寸應(yīng)為3。實(shí)際使用時(shí)重標(biāo)識的最大概率也可以定為重標(biāo)識風(fēng)險(xiǎn)會受到環(huán)境風(fēng)險(xiǎn)的影響。環(huán)境風(fēng)險(xiǎn)是針對數(shù)據(jù)集發(fā)起一次或多次重標(biāo)識攻擊的概率。于數(shù)據(jù)隱私和安全性的控制范圍;接收方進(jìn)行重標(biāo)識攻擊的動(dòng)機(jī)和能力。這兩個(gè)因素都起身份驗(yàn)證攻擊的可能性會有所不同。隱私和安全控制水平越高,重標(biāo)識攻擊的可能性 對包括外部合作或分包場所涉及的人員在內(nèi)的所有個(gè)人和團(tuán)隊(duì)成員進(jìn)行強(qiáng)制性和持——應(yīng)有應(yīng)對違反隱私協(xié)議的必要措施,可能的措施包括立即向數(shù)據(jù)保管人發(fā)出書面 信息披露相關(guān)的計(jì)算機(jī)和文件需要被妥善保管,例如用組合門確定信息接收方發(fā)起重標(biāo)識攻擊可能性的另一個(gè)主要因素是他們的動(dòng)機(jī)和能力。信息接●信息接收方是否曾經(jīng)訪問可以關(guān)聯(lián)到實(shí)施重標(biāo)識攻擊數(shù)據(jù)的其他隱私數(shù)據(jù)庫或數(shù)隱私和安全控制水平動(dòng)機(jī)和能力高低中高中低中高低低中高除了故意發(fā)起重標(biāo)識攻擊,受控共享數(shù)據(jù)發(fā)布的接收方也可能無意中重標(biāo)識一個(gè)或多個(gè)p所有人中具有數(shù)據(jù)集中討論的條件或特征的個(gè)體的百分比;3)數(shù)據(jù)泄露在受控共享數(shù)據(jù)發(fā)布的情況下,需考慮的第三種攻擊是接收方的數(shù)據(jù)泄露。如果信息接概率等于信息接收方設(shè)施發(fā)生信息泄露的概率。應(yīng)使用公開的數(shù)據(jù)來了解各行業(yè)信息接總體風(fēng)險(xiǎn)表示數(shù)據(jù)集中一行或多行數(shù)據(jù)被重標(biāo)識攻擊概率。根據(jù)數(shù)據(jù)風(fēng)險(xiǎn)和環(huán)境風(fēng)險(xiǎn),可以計(jì)算布中對數(shù)據(jù)集的隱私損失進(jìn)行度量。差分隱私確保數(shù)據(jù)集中任何特定的個(gè)人信息主體的存在與否無法從去標(biāo)識化數(shù)據(jù)集或系統(tǒng)響應(yīng)中推導(dǎo)出。即使攻擊者能夠訪問其他相關(guān)的數(shù)據(jù)集,只要隱私損失限定生。隨機(jī)噪聲既可在采集點(diǎn)(本地模式)添加至每一個(gè)人信息主體信息的輸入中,也可以添加至差分隱或報(bào)表軟件做出響應(yīng)前,軟件組件會添加一定量的隨機(jī)噪聲,且該噪聲與查詢所對應(yīng)的隱私損失成本地模式適用于執(zhí)行數(shù)據(jù)采集的實(shí)體不受個(gè)人信息主體信任,或采集數(shù)據(jù)的實(shí)體正尋求降低風(fēng)險(xiǎn)并執(zhí)行數(shù)據(jù)最小化的情形。在該模型中,首先對屬于單個(gè)個(gè)人信息主體的數(shù)據(jù)或數(shù)據(jù)的計(jì)算結(jié)果進(jìn)行特定概率分布生成一個(gè)隨機(jī)量,并添加到每一單獨(dú)的數(shù)據(jù)或從屬于個(gè)人信息主體的數(shù)據(jù)測量的結(jié)當(dāng)源自大量設(shè)備的隨機(jī)化數(shù)據(jù)聚合并用于采集點(diǎn)的統(tǒng)計(jì)分析時(shí),分析結(jié)果會緊密與總體的集體行給定查詢或函數(shù)的敏感度S描述了增加、刪除、修改一個(gè)個(gè)人信息主體時(shí)該查詢或函數(shù)的返回結(jié)果最多會改變多少的情況。為了“隱藏”帶來變化的個(gè)人信息主體,需要將一定比例的噪聲添加至該特殊查詢或函數(shù)的所有返回結(jié)果中。隱私預(yù)算e是差分隱私系統(tǒng)設(shè)計(jì)的一個(gè)參數(shù)。以拉普拉斯噪聲為例,由于噪聲的標(biāo)準(zhǔn)差與S/e成正比,則e越大,標(biāo)準(zhǔn)差越小,隱私預(yù)算開銷越小,但通常也會帶來較大的隱私風(fēng)險(xiǎn)。較小的e會增加標(biāo)準(zhǔn)差,從而增加了較大噪聲值添加至實(shí)際結(jié)果中的概率,因此提供了更大程度的隱私保護(hù)。B.2.4.4累積隱私損失差分隱私算法對其應(yīng)答的每次查詢會產(chǎn)生隱私成本或隱私損失。在精心設(shè)計(jì)的差分隱私算法中,單次查詢損失可以足夠小,不使隱私受到侵犯,但這些損失的累積效應(yīng)最終會導(dǎo)致對隱私的侵犯。為了計(jì)算隱私預(yù)算中發(fā)生的變化,需對從多次查詢中累積損失的概念進(jìn)行規(guī)定。例如在差分隱私算法中出現(xiàn)了含有相似隱私成本C的n次查詢,則總體隱私預(yù)算開銷將不高于nC。隱私預(yù)算耗盡并不意味著對隱私一定有侵犯,而只是表明數(shù)學(xué)保證的失效。一旦保證失效,攻擊者就可能利用算法輸出并運(yùn)用推導(dǎo)、關(guān)聯(lián)及其他類型的重標(biāo)識技術(shù)實(shí)施攻擊,可能會導(dǎo)致重標(biāo)識攻擊的成功實(shí)施。B.2.5差分隱私去標(biāo)識化示例差分隱私模型的以下特性導(dǎo)致其在實(shí)際應(yīng)用中魯棒性更強(qiáng):●攻擊者背景知識無關(guān)性:攻擊者擁有的背景知識和計(jì)算能力不會影響隱私保護(hù)程度,即使攻擊者獲得數(shù)據(jù)集中除某條記錄外的所有記錄,仍然無法得知這條數(shù)據(jù)是否存在于數(shù)據(jù)集中;●隱私預(yù)算可組合性:如果用保證程度分別為ε?和ε?的差分隱私來回應(yīng)給定數(shù)據(jù)集的兩個(gè)查詢,則該對查詢提供的隱私保護(hù)程度為(ε?+εz);●后期處理的安全性:該模型不會限制差分隱私結(jié)果的用途,即無論差分隱私結(jié)果與什么結(jié)合或怎么被轉(zhuǎn)換,它仍然是差分隱私的;●噪聲量與數(shù)據(jù)集大小無關(guān)性:隱私保護(hù)所添加的噪聲量不隨數(shù)據(jù)集的增大而增加,所以差分隱私保護(hù)僅通過添加與數(shù)據(jù)集大小無關(guān)的少量噪聲,就能達(dá)到高級別的隱私保護(hù);●數(shù)據(jù)分布特性保持性:對數(shù)據(jù)集實(shí)施差分隱私保護(hù)機(jī)制時(shí),雖然對數(shù)據(jù)集加入了噪聲,但是數(shù)據(jù)集的分布特性仍能保持。下面以醫(yī)療患者的直方圖發(fā)布為例對差分隱私模型的使用進(jìn)行示例說明。第一步,獲取原始輸入數(shù)據(jù)集H={h?,h?,…,h,},如表B.2所示,它表示的是個(gè)人信息的原始數(shù)心臟病人數(shù)心臟病人數(shù)姓名心臟病該處的輸入數(shù)據(jù)集為H={2,1,3,4,3,4}。發(fā)布如圖B.1所示的直方圖會導(dǎo)致表B.1中個(gè)人隱私景知識獲知桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過直方圖的桶[40,50]計(jì)數(shù)為3,能夠推斷出Dave有心臟病。任意給定兩個(gè)鄰近數(shù)據(jù)集D和D',D和D'屬性結(jié)構(gòu)相同且最多有一條不同的記錄,若隨機(jī)算法P[M(D)=O]≤exp(e)×P[M(第三步,計(jì)算數(shù)據(jù)集的敏感度S,敏感度是指刪除數(shù)據(jù)集中任一記錄對查詢結(jié)果造成的最大改變,對于數(shù)據(jù)集D上的任意一個(gè)函數(shù)f:D→R*,d表示函數(shù)f的輸出維度,若隨機(jī)算法M滿足如下設(shè)隨機(jī)算法M輸入為數(shù)據(jù)集D,輸出為實(shí)體對象r∈range(M),q(D,r)為可用性函數(shù),S為函數(shù)q(D,r)的敏感度。若算法M以正比于exp(e×q(D,r)/2S)的概率從range(M)中選擇并輸出r,那么知道Dave的年齡為46歲,同時(shí)獲得了桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過直方圖的桶[40,50]計(jì)數(shù)5,已經(jīng)不能推斷出Dave是否有心臟病。(資料性附錄)去標(biāo)識化模型和技術(shù)的選擇C.1常用去標(biāo)識化技術(shù)和模型的特性常用去標(biāo)識化技術(shù)和模型的特性見表C.1。表C.1常用去標(biāo)識化技術(shù)和模型的特性類別降低分離降低關(guān)聯(lián)降低推導(dǎo)√低聚合統(tǒng)計(jì)數(shù)據(jù)√√√√XX中√×X中同態(tài)加密√××X高√XXX高同態(tài)秘密√XXX高√√×低局部抑制√低記錄抑制√低√XX低b/中√×低√×低隨機(jī)化噪聲添加×低×中×X中√√√類別降低分離降低關(guān)聯(lián)降低推導(dǎo)×√√中/高4√×高b如果不需要查看映射表。除非K匿名是基于微聚集實(shí)現(xiàn)的。b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“*”來表示。如所有的姓名都使用“***”代替。a)抑制屏蔽。直接刪除身份證號或使用統(tǒng)一的“*”來表示。如所有的身份證號都使用“******”代替?!?40524********0014”“440524188*****0014”或“******188******x×*”代替,上述數(shù)據(jù)可分別用在需要保密出生日期、保密出生日期但允許對數(shù)據(jù)按時(shí)代做統(tǒng)計(jì)分析、保密所有信息但允許對出生日期按時(shí)代做統(tǒng)計(jì)分析等場景。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原身份證號,如使用數(shù)據(jù)集中的記錄順序號替代原身份銀行卡號在很多應(yīng)用中和個(gè)人身份密切關(guān)聯(lián),是一種常用的標(biāo)識符。銀行卡號是按照規(guī)則進(jìn)行編a)抑制屏蔽。直接刪除銀行卡號或使用統(tǒng)一的“*”來表示。如所有的銀行卡號都使用“*****”代替。b)部分屏蔽。屏蔽銀行卡號中的一部分,以保護(hù)卡號信息。如分別可以屏蔽銀行卡號中的發(fā)卡用密碼和字符編碼技術(shù)。這種方法適用于使用銀行卡號做數(shù)據(jù)庫主鍵的應(yīng)用場景。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原銀行卡號,如使用隨機(jī)產(chǎn)生符合身份證號編碼規(guī)則的b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“*”來表示。如所有的地址都使用“******”d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原地址數(shù)據(jù),數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性方法。如使用“黑龍江省雞西市特鐵縣北京路23號”代替“江西省吉安市安??h安平路1a)抑制屏蔽。直接刪除電話號碼或使用統(tǒng)一的“*”來表示。如所有的電話號碼******”“198****8888”或“*******8888”代替。c)隨機(jī)替代。使用隨機(jī)生成的一串?dāng)?shù)字來表示,如使用隨機(jī)生成的“2346544580”來取代b)抑制屏蔽。直接刪除數(shù)值或使用統(tǒng)一的“*”來表示。如所有的數(shù)值都使用“*****”e)頂層和底層編碼。大于或小于一個(gè)特定值的處理成某個(gè)固定值。例如,年齡超過70歲的一律用“大于70歲”描述,以保障滿足此條件的人數(shù)多于20000人。d)部分屏蔽。使用數(shù)值的高位部分代替原有數(shù)值,如百分制考試成績?nèi)渴褂萌サ魝€(gè)位數(shù)、保留十位數(shù)的數(shù)值代替。e)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則,將記錄集中的所有的身高數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回原數(shù)據(jù)集中。這種方法可以保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性不變。f)噪聲添加。相對原始數(shù)據(jù),產(chǎn)生微小的隨機(jī)數(shù),將其加到原始數(shù)值上并代替原始數(shù)值。如對于身高1.72m,產(chǎn)生隨機(jī)數(shù)值一0.11m,加到原始數(shù)值后將其變?yōu)?.61m。g)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原始數(shù)據(jù),數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性在數(shù)據(jù)集中,日期有多種存在形式,包括出生日期、開始日期、紀(jì)念日等。常見的對日期的去標(biāo)識化方法包括:a)泛化編碼。使用概括、抽象的日期來表示,如使用1880年代替1880年1月1日。b)抑制屏蔽。直接刪除日期數(shù)據(jù)或使用統(tǒng)一的“x”來表示。如所有的數(shù)值都使用“某年某日”代替。c)部分屏蔽。對日期中的一部分做屏蔽,如1880年某月1日代替1880年1月1日。d)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則,將記錄集中的所有的日期數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回到原數(shù)據(jù)集中。這種方法有利于保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性。e)噪聲添加。相對原始數(shù)據(jù),產(chǎn)生微小的隨機(jī)數(shù),將其加到原始數(shù)值上并代替原始數(shù)值。如對于出生日期1880年1月1日,產(chǎn)生隨數(shù)值32天,加到原始數(shù)值后將其變?yōu)?880年2月2日。D數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原日期數(shù)據(jù),如使用“1972年8月12日”代替“1880年C.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論