G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》

上傳人：文*** IP屬地：云南上傳時(shí)間：2024-04-16 格式：DOCX 頁數(shù)：59 大?。?33.68KB 積分：13 舉報(bào) 版權(quán)申訴

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》_第2頁

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》_第3頁

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》_第4頁

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》_第5頁

已閱讀5頁，還剩54頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南 I Ⅱ 12規(guī)范性引用文件 13術(shù)語和定義 14概述 34.1去標(biāo)識(shí)化目標(biāo) 34.2去標(biāo)識(shí)化原則 4.3重標(biāo)識(shí)風(fēng)險(xiǎn) 34.4去標(biāo)識(shí)化影響 4.5不同公開共享類型對(duì)去標(biāo)識(shí)化的影響 45去標(biāo)識(shí)化過程 45.1概述 45.2確定目標(biāo) 55.3識(shí)別標(biāo)識(shí) 55.4處理標(biāo)識(shí) 65.5驗(yàn)證審批 75.6監(jiān)控審查 86角色職責(zé)與人員管理 96.1角色職責(zé) 96.2人員管理 9附錄A(資料性附錄)常用去標(biāo)識(shí)化技術(shù) 附錄B(資料性附錄)常用去標(biāo)識(shí)化模型附錄C(資料性附錄)去標(biāo)識(shí)化模型和技術(shù)的選擇 24附錄D(資料性附錄)去標(biāo)識(shí)化面臨的挑戰(zhàn) 參考文獻(xiàn) 信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南本標(biāo)準(zhǔn)描述了個(gè)人信息去標(biāo)識(shí)化的目標(biāo)和原則，提出了去標(biāo)識(shí)化過程和管理措施。本標(biāo)準(zhǔn)針對(duì)微數(shù)據(jù)提供具體的個(gè)人信息去標(biāo)識(shí)化指導(dǎo)，適用于組織開展個(gè)人信息去標(biāo)識(shí)化工作，也適用于網(wǎng)絡(luò)安全相關(guān)主管部門、第三方評(píng)估機(jī)構(gòu)等組織開展個(gè)人信息安全監(jiān)督管理、評(píng)估等工作。2規(guī)范性引用文件下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件，僅注日期的版本適用于本文件。凡是不注日期的引用文件，其最新版本(包括所有的修改單)適用于本文件。GB/T25069—2010信息安全技術(shù)術(shù)語GB/T25069—2010界定的以及下列術(shù)語和定義適用于本文件。以電子或其他方式記錄的能夠單獨(dú)或與其他信息結(jié)合識(shí)別特定自然人身份或反映特定自然人活動(dòng)情況的各種信息。個(gè)人信息主體personaldatasubject個(gè)人信息所標(biāo)識(shí)的自然人。通過對(duì)個(gè)人信息的技術(shù)處理，使其在不借助額外信息的情況下，無法識(shí)別個(gè)人信息主體的過程。一個(gè)結(jié)構(gòu)化數(shù)據(jù)集，其中每條(行)記錄對(duì)應(yīng)一個(gè)個(gè)人信息主體，記錄中的每個(gè)字段(列)對(duì)應(yīng)一個(gè)聚合數(shù)據(jù)aggregatedata表征一組個(gè)人信息主體的數(shù)據(jù)。2標(biāo)識(shí)符identifier微數(shù)據(jù)中的一個(gè)或多個(gè)屬性，可以實(shí)現(xiàn)對(duì)個(gè)人信息主體的唯一識(shí)別。直接標(biāo)識(shí)符directidentifier微數(shù)據(jù)中的屬性，在特定環(huán)境下可以單獨(dú)識(shí)別個(gè)人信息主體。準(zhǔn)標(biāo)識(shí)符quasi-identifier微數(shù)據(jù)中的屬性，結(jié)合其他屬性可唯一識(shí)別個(gè)人信息主體。把去標(biāo)識(shí)化的數(shù)據(jù)集重新關(guān)聯(lián)到原始個(gè)人信息主體或一組個(gè)人信息主體的過程。數(shù)據(jù)集中需要保護(hù)的屬性，該屬性值的泄露、修改、破壞或丟失會(huì)對(duì)個(gè)人產(chǎn)生損害。有用性u(píng)sefulnes數(shù)據(jù)對(duì)于應(yīng)用有著具體含義、具有使用意義的特性。完全公開共享completelypublicsharing數(shù)據(jù)一旦發(fā)布，很難召回，一般通過互聯(lián)網(wǎng)直接公開發(fā)布。受控公開共享controlledpublicsharing通過數(shù)據(jù)使用協(xié)議對(duì)數(shù)據(jù)的使用進(jìn)行約束。注2:同英文術(shù)語TheDataUseAgreementModel。領(lǐng)地公開共享enclavepublicsharing在物理或虛擬的領(lǐng)地范圍內(nèi)共享，數(shù)據(jù)不能流出到領(lǐng)地范圍外。3去標(biāo)識(shí)化技術(shù)de-identificationtechnique降低數(shù)據(jù)集中信息和個(gè)人信息主體關(guān)聯(lián)程度的技術(shù)。去標(biāo)識(shí)化模型de-identificationmodel應(yīng)用去標(biāo)識(shí)化技術(shù)并能計(jì)算重標(biāo)識(shí)風(fēng)險(xiǎn)的方法。4.1去標(biāo)識(shí)化目標(biāo)去標(biāo)識(shí)化目標(biāo)包括：a)對(duì)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符進(jìn)行刪除或變換，避免攻擊者根據(jù)這些屬性直接識(shí)別或結(jié)合其他信息識(shí)別出原始個(gè)人信息主體；b)控制重標(biāo)識(shí)的風(fēng)險(xiǎn)，根據(jù)可獲得的數(shù)據(jù)情況和應(yīng)用場景選擇合適的模型和技術(shù)，將重標(biāo)識(shí)的風(fēng)險(xiǎn)控制在可接受范圍內(nèi)，確保重標(biāo)識(shí)風(fēng)險(xiǎn)不會(huì)隨著新數(shù)據(jù)發(fā)布而增加，確保數(shù)據(jù)接收方之間的潛在串通不會(huì)增加重標(biāo)識(shí)風(fēng)險(xiǎn)；c)在控制重標(biāo)識(shí)風(fēng)險(xiǎn)的前提下，結(jié)合業(yè)務(wù)目標(biāo)和數(shù)據(jù)特性，選擇合適的去標(biāo)識(shí)化模型和技術(shù)，確保去標(biāo)識(shí)化后的數(shù)據(jù)集盡量滿足其預(yù)期目的(有用)。4.2去標(biāo)識(shí)化原則對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化，應(yīng)遵循以下原則：a)合規(guī)：應(yīng)滿足我國法律、法規(guī)和標(biāo)準(zhǔn)規(guī)范對(duì)個(gè)人信息安全保護(hù)的有關(guān)規(guī)定，并持續(xù)跟進(jìn)有關(guān)法b)個(gè)人信息安全保護(hù)優(yōu)先：應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求，對(duì)個(gè)人信息進(jìn)行恰當(dāng)?shù)娜?biāo)識(shí)化處理，在保護(hù)個(gè)人信息安全的前提下確保去標(biāo)識(shí)化后的數(shù)據(jù)具有應(yīng)用價(jià)值；c)技術(shù)和管理相結(jié)合：根據(jù)工作目標(biāo)制定適當(dāng)?shù)牟呗?，選擇適當(dāng)?shù)哪Ｐ秃图夹g(shù)，綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)最佳效果。包括設(shè)定具體的崗位，明確相應(yīng)職責(zé)；對(duì)去標(biāo)識(shí)化過程中形成的輔助信息(例如密鑰、映射表等)采取有效的安全防護(hù)措施等；d)充分應(yīng)用軟件工具：針對(duì)大規(guī)模數(shù)據(jù)集的去標(biāo)識(shí)化工作，應(yīng)考慮使用軟件工具提高去標(biāo)識(shí)化e)持續(xù)改進(jìn)：在完成去標(biāo)識(shí)化工作后應(yīng)進(jìn)行評(píng)估和定期重評(píng)估，對(duì)照工作目標(biāo)，評(píng)估工作效果(包括重標(biāo)識(shí)風(fēng)險(xiǎn)和有用性)與效率，持續(xù)改進(jìn)方法、技術(shù)和工具。并就相關(guān)工作進(jìn)行文檔記錄。常見的用于重標(biāo)識(shí)的方法如下：a)分離：將屬于同一個(gè)個(gè)人信息主體的所有記錄提取出來；b)關(guān)聯(lián)：將不同數(shù)據(jù)集中關(guān)于相同個(gè)人信息主體的信息聯(lián)系起來；c)推斷：通過其他屬性的值以一定概率判斷出一個(gè)屬性的值。4b)重標(biāo)識(shí)一條特定記錄的個(gè)人信息主體；c)盡可能多的將記錄和其對(duì)應(yīng)的個(gè)人信息主體關(guān)d)判定一個(gè)特定的個(gè)人信息主體在數(shù)據(jù)集中是否存在；e)推斷和一組其他屬性關(guān)聯(lián)的敏感屬性。在開展去標(biāo)識(shí)化工作之前需要根據(jù)應(yīng)用需求確定數(shù)據(jù)的公開共享類型，不同公開共享類型可能引發(fā)的重標(biāo)識(shí)風(fēng)險(xiǎn)和對(duì)去標(biāo)識(shí)化的要求如表1所示。公開共享類型高高中中低低實(shí)施過程中和完成后進(jìn)行有效的監(jiān)控和審查。如圖1所示。監(jiān)控審查b)組織策略。了解數(shù)據(jù)是否屬于組織列入的重要數(shù)據(jù)或敏感數(shù)據(jù)范疇，數(shù)據(jù)應(yīng)用時(shí)是否存在去c)數(shù)據(jù)來源。了解這些數(shù)據(jù)采集時(shí)是否做過去標(biāo)識(shí)化相關(guān)承諾。f)關(guān)聯(lián)情況。了解數(shù)據(jù)披露歷史和去標(biāo)識(shí)化歷史情況，待披露數(shù)據(jù)是否和歷史數(shù)據(jù)存在關(guān)聯(lián)a)風(fēng)險(xiǎn)級(jí)別。了解數(shù)據(jù)屬性和業(yè)務(wù)特性，擬采用的重標(biāo)識(shí)風(fēng)險(xiǎn)e)去標(biāo)識(shí)化模型和技術(shù)。了解數(shù)據(jù)適用的保護(hù)或去標(biāo)識(shí)化標(biāo)準(zhǔn)，以及可能采用的去標(biāo)識(shí)化模型6b)數(shù)據(jù)中存在混亂或錯(cuò)誤情況，如“備注”字段前100條記錄人工分析法是通過人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)數(shù)據(jù)集中多個(gè)非常見標(biāo)識(shí)符屬性后識(shí)別出唯一的用戶身份；7范圍內(nèi)滿足數(shù)據(jù)有用性的最低要求。選擇的參考因素f)是否需要保持原有數(shù)據(jù)值順序；變成數(shù)字類型表示(1/0);a)若存在多個(gè)需要去標(biāo)識(shí)化的標(biāo)識(shí)符，b)依次選擇相應(yīng)的工具或程序；對(duì)數(shù)據(jù)集去標(biāo)識(shí)化后進(jìn)行驗(yàn)證，以確保生成的數(shù)據(jù)集在重標(biāo)識(shí)風(fēng)險(xiǎn)和數(shù)據(jù)有用性方面都符合預(yù)設(shè)a)檢查生成的數(shù)據(jù)文件，以確保文件8d)進(jìn)行有針對(duì)性的入侵者測試，看看是否有具備合格能力的外部人員可以使用公開的數(shù)據(jù)集執(zhí)e)讓團(tuán)隊(duì)利用內(nèi)部數(shù)據(jù)進(jìn)行有針對(duì)性的入侵者測試，模擬違規(guī)者或敵對(duì)內(nèi)幕人士可能發(fā)生的這些方法不能保證去標(biāo)識(shí)化后的數(shù)據(jù)滿足個(gè)人信息安全保護(hù)的要求，但它們可以作為整個(gè)組織風(fēng)險(xiǎn)評(píng)估的一部分?？勺C明的個(gè)人信息安全保護(hù)應(yīng)依賴于形式化方法，例如用于規(guī)劃組織數(shù)據(jù)發(fā)布的差分隱私方法。通過使用經(jīng)過驗(yàn)證的去標(biāo)識(shí)化軟件，可以大大簡化去標(biāo)識(shí)化數(shù)據(jù)的個(gè)人信息安全保護(hù)的去標(biāo)識(shí)化降低了數(shù)據(jù)質(zhì)量和生成數(shù)據(jù)集的有用性。因此，需要考慮去標(biāo)識(shí)化后的數(shù)據(jù)集對(duì)于預(yù)期存在一些方法用于驗(yàn)證數(shù)據(jù)有用性。例如，內(nèi)部人員可對(duì)原始數(shù)據(jù)集和去標(biāo)識(shí)化的數(shù)據(jù)集執(zhí)行統(tǒng)監(jiān)控審查過程也應(yīng)記錄到文檔中，記錄內(nèi)容至少包括監(jiān)控審查對(duì)象、時(shí)間、過程、結(jié)果和措施等9進(jìn)行重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估。這是由于重標(biāo)識(shí)技術(shù)以及重標(biāo)識(shí)攻擊能力都在迅速演變，所以要通過重標(biāo)識(shí)風(fēng)b)執(zhí)行者c)監(jiān)督者b)個(gè)人信息去標(biāo)識(shí)化工作崗位招聘時(shí)應(yīng)按照相關(guān)法律、c)與個(gè)人信息去標(biāo)識(shí)化工作崗位人員工作合同或補(bǔ)充文檔中，應(yīng)明確其理解工作職責(zé)和要承擔(dān)a)組織應(yīng)定期開展業(yè)務(wù)和安全培訓(xùn)，確保個(gè)人信息去標(biāo)識(shí)化工作崗位人員接受充分和最新的培(資料性附錄)常用去標(biāo)識(shí)化技術(shù)A.1統(tǒng)計(jì)技術(shù)A.1.1概述統(tǒng)計(jì)技術(shù)是一種對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化或提升去標(biāo)識(shí)化技術(shù)有效性的常用方法，主要包含數(shù)據(jù)抽樣和數(shù)據(jù)聚合兩種技術(shù)。數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對(duì)原始數(shù)據(jù)集進(jìn)行分析和評(píng)估的，它是提升去標(biāo)識(shí)化技術(shù)有效性的重要方法。對(duì)數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面：a)從數(shù)據(jù)集中抽取樣本的方法很多，各方法差異很大，需根據(jù)數(shù)據(jù)集的特點(diǎn)和預(yù)期的使用場景來b)數(shù)據(jù)抽樣經(jīng)常用于去標(biāo)識(shí)化的預(yù)處理，對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識(shí)別出特定個(gè)人信息主體的不確定性，從而可以提高后續(xù)應(yīng)用的其他去標(biāo)識(shí)化技術(shù)的有效性。c)數(shù)據(jù)抽樣可以簡化對(duì)數(shù)據(jù)集的計(jì)算量，因此，在對(duì)大樣本的數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化時(shí)，首先進(jìn)行抽樣，然后再采用某項(xiàng)特定的技術(shù)進(jìn)行去標(biāo)識(shí)化。例如：某市從1000萬市民中隨機(jī)抽取1萬人的4項(xiàng)信息(性別、學(xué)歷、籍貫、身高)。如果攻擊者發(fā)現(xiàn)市民A的情況完全符合記錄甲(男，本科，北京，1.75m),攻擊者并不能確定記錄甲就是指市民A,因?yàn)锳并不一定在此抽樣數(shù)據(jù)集中。A.1.3數(shù)據(jù)聚合數(shù)據(jù)聚合作為一系列統(tǒng)計(jì)技術(shù)(如求和、計(jì)數(shù)、平均、最大值與最小值)的集合，應(yīng)用于微數(shù)據(jù)中的屬性時(shí)，產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所有記錄。對(duì)數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面：a)數(shù)據(jù)聚合可能會(huì)降低數(shù)據(jù)的有用性；因?yàn)榈玫降氖墙y(tǒng)計(jì)值，無法反映獨(dú)立數(shù)據(jù)記錄的特征。b)數(shù)據(jù)聚合對(duì)重標(biāo)識(shí)攻擊非常有效；數(shù)據(jù)聚合的輸出是“統(tǒng)計(jì)值”,該值有利于對(duì)數(shù)據(jù)進(jìn)行整體報(bào)告或分析，而不會(huì)披露任何個(gè)體記錄。例如：2012年我國18歲及以上成年男性平均身高1.67m。如果數(shù)據(jù)集以平均身高來標(biāo)識(shí)數(shù)據(jù)集A.2密碼技術(shù)A.2.1概述本節(jié)描述適用于去標(biāo)識(shí)化的密碼技術(shù)。使用密碼技術(shù)應(yīng)遵循國家密碼管理相關(guān)規(guī)定。確定性加密是一種非隨機(jī)加密方法。在去標(biāo)識(shí)化過程中應(yīng)用時(shí)，可以用確定性加密結(jié)果替代微數(shù)對(duì)確定性加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方a)確定性加密可以保證數(shù)據(jù)真實(shí)可用，即相同的兩個(gè)數(shù)據(jù)用同一密鑰進(jìn)行加密將產(chǎn)生兩個(gè)一樣b)確定性加密可以一定程度上保證數(shù)據(jù)在統(tǒng)計(jì)處理、隱私防挖掘方面的有用性，確定性加密也可以生成用于精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對(duì)確定性加密結(jié)果的分析局限于檢c)對(duì)確定性加密的重標(biāo)識(shí)攻擊主要在于不具備密鑰使用權(quán)時(shí)的攻擊；關(guān)聯(lián)性攻擊則可能適用于采用同一密鑰進(jìn)行確定性加密的密文，攻擊能否成功很大程度上取決于對(duì)加密算法參數(shù)的保序加密是一種非隨機(jī)加密方法。用作去標(biāo)識(shí)化技術(shù)時(shí)，可以用保序加密值替代微數(shù)據(jù)中的標(biāo)識(shí)b)保序加密可以在有限的范圍內(nèi)保證加密結(jié)果在統(tǒng)計(jì)處理、隱私防挖掘、數(shù)據(jù)外包存儲(chǔ)與處理結(jié)果的分析局限于檢查數(shù)據(jù)相等和排序比較關(guān)系。c)保序加密數(shù)據(jù)的完全重標(biāo)識(shí)僅可能適用于擁有密鑰的一方。關(guān)聯(lián)性攻擊能否成功很大程度上對(duì)保留格式加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面：a)某些保留格式加密具有確定性加密技術(shù)一樣的特點(diǎn)，如相同數(shù)據(jù)在同一密鑰下加密生成同樣理后的結(jié)果。同態(tài)加密用加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。學(xué)運(yùn)算的結(jié)果。當(dāng)作為去標(biāo)識(shí)化技術(shù)的一部分加以采用時(shí)，同態(tài)秘密共享可用信息共享算法得出的兩個(gè)或以上若干份額替代數(shù)據(jù)記錄中的任何標(biāo)識(shí)符或敏感屬性。這樣，便可將這些若干份額分配給兩個(gè)或以上的份額持有者。這些份額持有者的數(shù)量通過秘密共享方案加以確定。有效的同態(tài)秘密共享的特性是，相同份額持有者共享機(jī)密的兩個(gè)值可與加密方案的同態(tài)運(yùn)算相結(jié)標(biāo)識(shí)化數(shù)據(jù)進(jìn)行任何安全運(yùn)算。同態(tài)密鑰共享并不會(huì)降低數(shù)據(jù)的真實(shí)性。共享秘密數(shù)據(jù)的存儲(chǔ)開銷是有限的。基于安全多方計(jì)算執(zhí)行的數(shù)據(jù)去標(biāo)識(shí)化的處理技術(shù)是靈活同態(tài)密鑰共享會(huì)產(chǎn)生微數(shù)據(jù)的分布式實(shí)例，該類實(shí)例可被同態(tài)運(yùn)算或安全多方計(jì)算技術(shù)處理。同抑制技術(shù)即對(duì)不滿足隱私保護(hù)的數(shù)據(jù)項(xiàng)刪除，不進(jìn)行發(fā)布。包括從所有記錄中選定的屬性(如屏抑制技術(shù)可用于防止基于關(guān)聯(lián)規(guī)則推導(dǎo)的攻擊，因?yàn)椴话l(fā)布能最大化降低關(guān)聯(lián)規(guī)則支持度和置信在將屏蔽技術(shù)作為唯一的去標(biāo)識(shí)化技術(shù)的系統(tǒng)中，應(yīng)采取安全措施和組織其他的管理措施去保護(hù)結(jié)合使用可能識(shí)別出相關(guān)個(gè)人信息主體。通常應(yīng)用局部抑制技術(shù)來移除準(zhǔn)標(biāo)識(shí)符在泛化后仍然出現(xiàn)的稀有值(或這些值的稀有組合)。局部抑制技術(shù)應(yīng)用于分類值，而泛化通常應(yīng)用于數(shù)值，其共同目標(biāo)是增加共享其標(biāo)識(shí)符值的記A.3.4記錄抑制“記錄抑制”是一種從數(shù)據(jù)集中刪除整個(gè)記錄或一些記錄的去標(biāo)識(shí)化技術(shù)。典型應(yīng)用場景為刪除包含稀有屬性(如異常值)組合的記錄。A.3.5注意事項(xiàng)抑制技術(shù)會(huì)導(dǎo)致信息丟失，抑制技術(shù)處理后的數(shù)據(jù)有被重標(biāo)識(shí)的風(fēng)險(xiǎn)，因此需要與其他去標(biāo)識(shí)化技術(shù)相結(jié)合以降低數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。過多的抑制會(huì)影響數(shù)據(jù)的效用，所以在具體應(yīng)用時(shí)，為保證數(shù)據(jù)的可用性，要對(duì)抑制的數(shù)據(jù)項(xiàng)數(shù)量設(shè)定一個(gè)上限值。在某個(gè)具體應(yīng)用中，需要對(duì)某組織的不同工作年限的薪資水平進(jìn)行分析，原始數(shù)據(jù)集包括{姓名，性a)姓名是直接標(biāo)識(shí)符，需要應(yīng)用抑制技術(shù)刪除；通過{職務(wù)，工作年限)或{職務(wù)，性別}也可以推導(dǎo)出該組織中的一部分員工，因此應(yīng)用抑制技術(shù)刪除職務(wù)屬性；屬性值進(jìn)行泛化處理，如薪水泛化為5000～10000、10000～15000、15000～20000等，工作年限泛化為0～3年、4～6年等；c)如果數(shù)據(jù)記錄中只有1人工作年限為0～3年，薪水為15000～20000,則能夠定位到某個(gè)員工，應(yīng)用抑制技術(shù)刪除該條記錄。A.4假名化技術(shù)A.4.1概述假名化技術(shù)是一種使用假名替換直接標(biāo)識(shí)(或其他準(zhǔn)標(biāo)識(shí)符)的去標(biāo)識(shí)化技術(shù)。假名化技術(shù)為每一個(gè)人信息主體創(chuàng)建唯一的標(biāo)識(shí)符，以取代原來的直接標(biāo)識(shí)或準(zhǔn)標(biāo)識(shí)符。不同數(shù)據(jù)集中的相關(guān)記錄在進(jìn)行假名化處理后依然可以進(jìn)行關(guān)聯(lián)，并且不會(huì)泄露個(gè)人信息主體的身份。在使用假名化技術(shù)的過程中，通常會(huì)使用一些輔助信息。這些輔助信息包括從原始數(shù)據(jù)集中刪除的標(biāo)識(shí)符、假名分配表或密鑰等，采取必要的措施來保護(hù)這些輔助信息有利于降低重標(biāo)識(shí)風(fēng)險(xiǎn)。假名創(chuàng)建技術(shù)主要包括獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)和基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)。假名創(chuàng)建技術(shù)的選擇需要考慮以下因素：創(chuàng)建假名的成本、散列函數(shù)的抗碰撞能力以及重標(biāo)識(shí)過程中假名被還原的手段。獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)不依賴于被替代的屬性原始值，而是獨(dú)立生成，典型方法為用隨機(jī)值代替屬性原始值?；诿艽a技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)通過對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名，這一過程也稱為對(duì)數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對(duì)應(yīng)的算法解密，而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。A.4.2獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)不依賴于被替代的屬性原始值，而是獨(dú)立生成，典型方法為用隨機(jī)值代替屬性原始值。使用該類技術(shù)時(shí)需創(chuàng)建假名與原始標(biāo)識(shí)的分配表。根據(jù)去標(biāo)識(shí)化的目標(biāo)，應(yīng)采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對(duì)該分配表的訪問。例如，使用去標(biāo)識(shí)化后數(shù)據(jù)的應(yīng)用系統(tǒng)禁止訪問分配表。A.4.3基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)通過對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名，這一過程也稱為對(duì)數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對(duì)應(yīng)的算法解密，而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。采用多種密碼技術(shù)的組合可更好地保護(hù)屬性原始值。采用加密方法來創(chuàng)建假名的計(jì)算成本很高，但非常有效。應(yīng)采取特殊措施來保護(hù)密鑰，防止密鑰被未授權(quán)訪問，包括密鑰與數(shù)據(jù)分離，不與第三方共享密鑰，安全地刪除密鑰以防重標(biāo)識(shí)等。散列函數(shù)的單向運(yùn)算及抗碰撞能力等特性，使其適用于假名化過程。但是，當(dāng)散列算法和所用密鑰是已知的，且有可能遍歷散列函數(shù)生成數(shù)值空間時(shí)，散列函數(shù)是可逆的。因此使用密鑰散列函數(shù)時(shí)可增加另一隨機(jī)輸入，增強(qiáng)其對(duì)抗暴力搜索攻擊的能力，防止未經(jīng)授權(quán)的重標(biāo)識(shí)。即使采用了安全的散列技術(shù)，如果在使用或執(zhí)行散列算法中發(fā)生了疏忽，或未經(jīng)授權(quán)共享密鑰，均可能導(dǎo)致數(shù)據(jù)的重標(biāo)識(shí)。A.4.4注意事項(xiàng)如果采用恰當(dāng)?shù)姆绞綐?gòu)建假名與原始標(biāo)識(shí)的分配表，并能對(duì)分配表和分配技術(shù)加以保護(hù)，則能夠有效地降低數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。采用多個(gè)原始標(biāo)識(shí)符對(duì)應(yīng)一個(gè)假名的分配表比采用一一對(duì)應(yīng)的分配表能夠更加有效降低重標(biāo)識(shí)風(fēng)險(xiǎn)。加密技術(shù)通常是一一對(duì)應(yīng)的分配技術(shù)；散列技術(shù)由于碰撞性的存在，通常是多對(duì)一的分配技術(shù)；采用純隨機(jī)的方式構(gòu)建分配表通常也是多對(duì)一的。采用多個(gè)原始標(biāo)識(shí)符對(duì)應(yīng)一個(gè)假名的分配表方法和分配技術(shù)，會(huì)導(dǎo)致在以標(biāo)識(shí)符為統(tǒng)計(jì)對(duì)象的數(shù)據(jù)分析結(jié)果失真，從而降低數(shù)據(jù)的有用性。加密技術(shù)能夠還原標(biāo)識(shí)符，在需要還原原始標(biāo)識(shí)符的情況下采用該技術(shù)。A.4.5示例在某個(gè)具體的應(yīng)用中，需要從外部某數(shù)據(jù)庫中抽取包含人名的有效數(shù)據(jù)以供分析，采用如下步驟進(jìn)行去標(biāo)識(shí)化：a)構(gòu)建常用人名字典表。常用人名字典表有200個(gè)常用人名構(gòu)成：龔小虹、黃益洪、龍家銳、b)制定人名與假名的分配技術(shù)。分配技術(shù)采用純隨機(jī)方式，對(duì)于每一個(gè)標(biāo)識(shí)符(人名),隨機(jī)生成一個(gè)不小于1并且不大于200的隨機(jī)數(shù)，從字典表中的對(duì)應(yīng)位置獲取假名，進(jìn)行替換。c)使用字典表和分配技術(shù)，完成對(duì)人名的去標(biāo)識(shí)化，在去標(biāo)識(shí)過程中，在遇到人名“辛培軍”時(shí)，隨機(jī)生成了數(shù)5,則使用字典中的排列第5的名字該示例使用隨機(jī)方式構(gòu)建分配規(guī)則，采用了多對(duì)一的方式，在保留適當(dāng)可用性的同時(shí)，降低了數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。A.5泛化技術(shù)泛化技術(shù)是指一種降低數(shù)據(jù)集中所選屬性粒度的去標(biāo)識(shí)化技術(shù)，對(duì)數(shù)據(jù)進(jìn)行更概括、抽象的描述。使得被泛化后的值(或多個(gè)值的集合)被數(shù)據(jù)集中多個(gè)記錄所共享，從而增加某特定個(gè)人信息主體被推取整涉及為所選的屬性選定一個(gè)取整基數(shù)，然后將每個(gè)值向上或向下取整至最接近取整基數(shù)的倍如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率為0.7,若向下取整至0,概率為0.3。泛化技術(shù)為某一屬性設(shè)定一個(gè)可能的最大(或最小)閾值。頂層與底層編碼技術(shù)使用表示頂層(或于原來的真實(shí)值。該過程降低了攻擊者從同一數(shù)據(jù)記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力。隨機(jī)化技術(shù)并不能保證數(shù)據(jù)在記錄集的真實(shí)性。為達(dá)到特定的目標(biāo)，有效隨機(jī)化過程需要逐項(xiàng)定置換是在不修改屬性值的情況下對(duì)數(shù)據(jù)集記錄中所選屬性的值進(jìn)行重新排序的一種技術(shù)。因此，置換保持了整個(gè)數(shù)據(jù)集中所選屬性的準(zhǔn)確統(tǒng)計(jì)分布。置換技術(shù)適用于數(shù)字與非數(shù)字值。因?yàn)橛^察到的不一致性可能有助于對(duì)置換算法實(shí)施逆向工程，不同置換技術(shù)的區(qū)別在于方法與復(fù)雜性的差別。在保持所選屬性之間原有相關(guān)性的情況下，置換A.6.4微聚集“微聚集”是指用某種算法方式計(jì)算出來的平均值代替連續(xù)屬性所有值的去標(biāo)識(shí)化技術(shù)。對(duì)于每種連續(xù)屬性，或?qū)τ谒x的一組連續(xù)屬性，數(shù)據(jù)集中的所有記錄都進(jìn)行了分組，具有最近屬性值的記錄屬于同一組，而且每一組中至少有k個(gè)記錄。每一種屬性的新值替換為該屬性所在組中的平均值。每組中的各個(gè)值越接近，數(shù)據(jù)的有效性就保持得越好。微聚集的輸出是微數(shù)據(jù)，該技術(shù)不能保證數(shù)據(jù)的真實(shí)性。微聚集技術(shù)的不同之處在于：選擇的屬性、屬性值之間的相似性計(jì)算方式以及其他考慮因素。A.7數(shù)據(jù)合成技術(shù)數(shù)據(jù)合成是一種以人工方式產(chǎn)生微數(shù)據(jù)的方法，用以表示預(yù)定義的統(tǒng)計(jì)數(shù)據(jù)模型。對(duì)數(shù)據(jù)合成技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面：a)合成數(shù)據(jù)集與原始數(shù)據(jù)特性相符，但不包含現(xiàn)有個(gè)人信息主體有關(guān)的任何數(shù)據(jù)，但是，若合成后的數(shù)據(jù)與原始數(shù)據(jù)的擬合度過高可能會(huì)導(dǎo)致敏感信息泄露。b)創(chuàng)建合成數(shù)據(jù)的方法很多。理論上，數(shù)據(jù)可根據(jù)所選的統(tǒng)計(jì)特性隨機(jī)生成。該類模型的關(guān)鍵特征主要體現(xiàn)在每種屬性(總體與子總體)的分布以及屬性之間的內(nèi)部關(guān)系。實(shí)際上，合成數(shù)據(jù)的生成會(huì)采用隨機(jī)化技術(shù)與抽樣技術(shù)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常用于測試工具與應(yīng)用。c)合成數(shù)據(jù)可用于開發(fā)查詢。合成數(shù)據(jù)可用作真實(shí)數(shù)據(jù)的替代項(xiàng)：數(shù)據(jù)管理者能在實(shí)際數(shù)據(jù)中重現(xiàn)在合成數(shù)據(jù)中執(zhí)行的查詢，以確保基于合成數(shù)據(jù)的處理能夠同樣正確應(yīng)用于真實(shí)數(shù)據(jù)。利用差分隱私機(jī)制可以保證合成數(shù)據(jù)的隱私。K-匿名模型是在發(fā)布數(shù)據(jù)時(shí)保護(hù)個(gè)人信息安全的一種模型。K-匿名模型要求發(fā)布的數(shù)據(jù)中，指定標(biāo)識(shí)符(直接標(biāo)識(shí)符或準(zhǔn)標(biāo)識(shí)符)屬性值相同的每一等價(jià)類至少包含K個(gè)記錄，使攻擊者不人信息所屬的具體個(gè)體，從而保護(hù)了個(gè)人信息安L-多樣性是針對(duì)屬性值差異性不大的數(shù)據(jù)集提出的一種增強(qiáng)概念。為防止確定性推導(dǎo)，L-多樣性要求在K-匿名的基礎(chǔ)上，實(shí)現(xiàn)每一等價(jià)類在每一敏感屬性上存在至少L個(gè)不同值。在數(shù)據(jù)分布很不均T-接近性是L-多樣性的增強(qiáng)概念，適用于發(fā)布數(shù)據(jù)集的敏感屬性分求任何等價(jià)類中敏感屬性的分布與整個(gè)數(shù)據(jù)集中相應(yīng)屬性的分布之間的距離小于閾值T。a)每行記錄重標(biāo)識(shí)概率的計(jì)算方法取決于數(shù)據(jù)集中其他行對(duì)于準(zhǔn)標(biāo)識(shí)符的屬性是否具有相同的值。對(duì)于每一行，重標(biāo)識(shí)的概率等于1除以其等價(jià)類的大小，即，給定記錄行重標(biāo)識(shí)概率=1/等價(jià)類大小。例如，大小為5的等價(jià)類中的每一行都有重標(biāo)識(shí)的概率為0.2。因此，具有較大等價(jià)b)根據(jù)所使用的發(fā)布模型采用適當(dāng)?shù)娘L(fēng)險(xiǎn)衡量方法雖然每行記錄重標(biāo)識(shí)的概率等于1除以其等價(jià)類的大小，但是具體的計(jì)算數(shù)據(jù)集中重標(biāo)識(shí)風(fēng)公開共享數(shù)據(jù)發(fā)布應(yīng)使用最大風(fēng)險(xiǎn)。因?yàn)閷?duì)于公開數(shù)據(jù)發(fā)布，應(yīng)假設(shè)有攻擊者會(huì)進(jìn)行炫耀式受控共享數(shù)據(jù)發(fā)布應(yīng)使用嚴(yán)格的平均風(fēng)險(xiǎn)。受控共享數(shù)據(jù)發(fā)布數(shù)據(jù)集的訪問僅限于選定數(shù)量衡量數(shù)據(jù)集中重標(biāo)識(shí)風(fēng)險(xiǎn)。為了保護(hù)具有高度重標(biāo)識(shí)風(fēng)險(xiǎn)的獨(dú)特行或等價(jià)類，平均值通常建議為0.33,即數(shù)據(jù)集中等價(jià)類的最小尺寸應(yīng)為3。實(shí)際使用時(shí)重標(biāo)識(shí)的最大概率也可以定為重標(biāo)識(shí)風(fēng)險(xiǎn)會(huì)受到環(huán)境風(fēng)險(xiǎn)的影響。環(huán)境風(fēng)險(xiǎn)是針對(duì)數(shù)據(jù)集發(fā)起一次或多次重標(biāo)識(shí)攻擊的概率。于數(shù)據(jù)隱私和安全性的控制范圍；接收方進(jìn)行重標(biāo)識(shí)攻擊的動(dòng)機(jī)和能力。這兩個(gè)因素都起身份驗(yàn)證攻擊的可能性會(huì)有所不同。隱私和安全控制水平越高，重標(biāo)識(shí)攻擊的可能性對(duì)包括外部合作或分包場所涉及的人員在內(nèi)的所有個(gè)人和團(tuán)隊(duì)成員進(jìn)行強(qiáng)制性和持——應(yīng)有應(yīng)對(duì)違反隱私協(xié)議的必要措施，可能的措施包括立即向數(shù)據(jù)保管人發(fā)出書面信息披露相關(guān)的計(jì)算機(jī)和文件需要被妥善保管，例如用組合門確定信息接收方發(fā)起重標(biāo)識(shí)攻擊可能性的另一個(gè)主要因素是他們的動(dòng)機(jī)和能力。信息接●信息接收方是否曾經(jīng)訪問可以關(guān)聯(lián)到實(shí)施重標(biāo)識(shí)攻擊數(shù)據(jù)的其他隱私數(shù)據(jù)庫或數(shù)隱私和安全控制水平動(dòng)機(jī)和能力高低中高中低中高低低中高除了故意發(fā)起重標(biāo)識(shí)攻擊，受控共享數(shù)據(jù)發(fā)布的接收方也可能無意中重標(biāo)識(shí)一個(gè)或多個(gè)p所有人中具有數(shù)據(jù)集中討論的條件或特征的個(gè)體的百分比；3)數(shù)據(jù)泄露在受控共享數(shù)據(jù)發(fā)布的情況下，需考慮的第三種攻擊是接收方的數(shù)據(jù)泄露。如果信息接概率等于信息接收方設(shè)施發(fā)生信息泄露的概率。應(yīng)使用公開的數(shù)據(jù)來了解各行業(yè)信息接總體風(fēng)險(xiǎn)表示數(shù)據(jù)集中一行或多行數(shù)據(jù)被重標(biāo)識(shí)攻擊概率。根據(jù)數(shù)據(jù)風(fēng)險(xiǎn)和環(huán)境風(fēng)險(xiǎn)，可以計(jì)算布中對(duì)數(shù)據(jù)集的隱私損失進(jìn)行度量。差分隱私確保數(shù)據(jù)集中任何特定的個(gè)人信息主體的存在與否無法從去標(biāo)識(shí)化數(shù)據(jù)集或系統(tǒng)響應(yīng)中推導(dǎo)出。即使攻擊者能夠訪問其他相關(guān)的數(shù)據(jù)集，只要隱私損失限定生。隨機(jī)噪聲既可在采集點(diǎn)(本地模式)添加至每一個(gè)人信息主體信息的輸入中，也可以添加至差分隱或報(bào)表軟件做出響應(yīng)前，軟件組件會(huì)添加一定量的隨機(jī)噪聲，且該噪聲與查詢所對(duì)應(yīng)的隱私損失成本地模式適用于執(zhí)行數(shù)據(jù)采集的實(shí)體不受個(gè)人信息主體信任，或采集數(shù)據(jù)的實(shí)體正尋求降低風(fēng)險(xiǎn)并執(zhí)行數(shù)據(jù)最小化的情形。在該模型中，首先對(duì)屬于單個(gè)個(gè)人信息主體的數(shù)據(jù)或數(shù)據(jù)的計(jì)算結(jié)果進(jìn)行特定概率分布生成一個(gè)隨機(jī)量，并添加到每一單獨(dú)的數(shù)據(jù)或從屬于個(gè)人信息主體的數(shù)據(jù)測量的結(jié)當(dāng)源自大量設(shè)備的隨機(jī)化數(shù)據(jù)聚合并用于采集點(diǎn)的統(tǒng)計(jì)分析時(shí)，分析結(jié)果會(huì)緊密與總體的集體行給定查詢或函數(shù)的敏感度S描述了增加、刪除、修改一個(gè)個(gè)人信息主體時(shí)該查詢或函數(shù)的返回結(jié)果最多會(huì)改變多少的情況。為了“隱藏”帶來變化的個(gè)人信息主體，需要將一定比例的噪聲添加至該特殊查詢或函數(shù)的所有返回結(jié)果中。隱私預(yù)算e是差分隱私系統(tǒng)設(shè)計(jì)的一個(gè)參數(shù)。以拉普拉斯噪聲為例，由于噪聲的標(biāo)準(zhǔn)差與S/e成正比，則e越大，標(biāo)準(zhǔn)差越小，隱私預(yù)算開銷越小，但通常也會(huì)帶來較大的隱私風(fēng)險(xiǎn)。較小的e會(huì)增加標(biāo)準(zhǔn)差，從而增加了較大噪聲值添加至實(shí)際結(jié)果中的概率，因此提供了更大程度的隱私保護(hù)。B.2.4.4累積隱私損失差分隱私算法對(duì)其應(yīng)答的每次查詢會(huì)產(chǎn)生隱私成本或隱私損失。在精心設(shè)計(jì)的差分隱私算法中，單次查詢損失可以足夠小，不使隱私受到侵犯，但這些損失的累積效應(yīng)最終會(huì)導(dǎo)致對(duì)隱私的侵犯。為了計(jì)算隱私預(yù)算中發(fā)生的變化，需對(duì)從多次查詢中累積損失的概念進(jìn)行規(guī)定。例如在差分隱私算法中出現(xiàn)了含有相似隱私成本C的n次查詢，則總體隱私預(yù)算開銷將不高于nC。隱私預(yù)算耗盡并不意味著對(duì)隱私一定有侵犯，而只是表明數(shù)學(xué)保證的失效。一旦保證失效，攻擊者就可能利用算法輸出并運(yùn)用推導(dǎo)、關(guān)聯(lián)及其他類型的重標(biāo)識(shí)技術(shù)實(shí)施攻擊，可能會(huì)導(dǎo)致重標(biāo)識(shí)攻擊的成功實(shí)施。B.2.5差分隱私去標(biāo)識(shí)化示例差分隱私模型的以下特性導(dǎo)致其在實(shí)際應(yīng)用中魯棒性更強(qiáng)：●攻擊者背景知識(shí)無關(guān)性：攻擊者擁有的背景知識(shí)和計(jì)算能力不會(huì)影響隱私保護(hù)程度，即使攻擊者獲得數(shù)據(jù)集中除某條記錄外的所有記錄，仍然無法得知這條數(shù)據(jù)是否存在于數(shù)據(jù)集中；●隱私預(yù)算可組合性：如果用保證程度分別為ε?和ε?的差分隱私來回應(yīng)給定數(shù)據(jù)集的兩個(gè)查詢，則該對(duì)查詢提供的隱私保護(hù)程度為(ε?+εz);●后期處理的安全性：該模型不會(huì)限制差分隱私結(jié)果的用途，即無論差分隱私結(jié)果與什么結(jié)合或怎么被轉(zhuǎn)換，它仍然是差分隱私的；●噪聲量與數(shù)據(jù)集大小無關(guān)性：隱私保護(hù)所添加的噪聲量不隨數(shù)據(jù)集的增大而增加，所以差分隱私保護(hù)僅通過添加與數(shù)據(jù)集大小無關(guān)的少量噪聲，就能達(dá)到高級(jí)別的隱私保護(hù)；●數(shù)據(jù)分布特性保持性：對(duì)數(shù)據(jù)集實(shí)施差分隱私保護(hù)機(jī)制時(shí)，雖然對(duì)數(shù)據(jù)集加入了噪聲，但是數(shù)據(jù)集的分布特性仍能保持。下面以醫(yī)療患者的直方圖發(fā)布為例對(duì)差分隱私模型的使用進(jìn)行示例說明。第一步，獲取原始輸入數(shù)據(jù)集H={h?,h?,…,h,},如表B.2所示，它表示的是個(gè)人信息的原始數(shù)心臟病人數(shù)心臟病人數(shù)姓名心臟病該處的輸入數(shù)據(jù)集為H={2,1,3,4,3,4}。發(fā)布如圖B.1所示的直方圖會(huì)導(dǎo)致表B.1中個(gè)人隱私景知識(shí)獲知桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過直方圖的桶[40,50]計(jì)數(shù)為3,能夠推斷出Dave有心臟病。任意給定兩個(gè)鄰近數(shù)據(jù)集D和D',D和D'屬性結(jié)構(gòu)相同且最多有一條不同的記錄，若隨機(jī)算法P[M(D)=O]≤exp(e)×P[M(第三步，計(jì)算數(shù)據(jù)集的敏感度S,敏感度是指刪除數(shù)據(jù)集中任一記錄對(duì)查詢結(jié)果造成的最大改變，對(duì)于數(shù)據(jù)集D上的任意一個(gè)函數(shù)f:D→R*,d表示函數(shù)f的輸出維度，若隨機(jī)算法M滿足如下設(shè)隨機(jī)算法M輸入為數(shù)據(jù)集D,輸出為實(shí)體對(duì)象r∈range(M),q(D,r)為可用性函數(shù)，S為函數(shù)q(D,r)的敏感度。若算法M以正比于exp(e×q(D,r)/2S)的概率從range(M)中選擇并輸出r,那么知道Dave的年齡為46歲，同時(shí)獲得了桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過直方圖的桶[40,50]計(jì)數(shù)5,已經(jīng)不能推斷出Dave是否有心臟病。(資料性附錄)去標(biāo)識(shí)化模型和技術(shù)的選擇C.1常用去標(biāo)識(shí)化技術(shù)和模型的特性常用去標(biāo)識(shí)化技術(shù)和模型的特性見表C.1。表C.1常用去標(biāo)識(shí)化技術(shù)和模型的特性類別降低分離降低關(guān)聯(lián)降低推導(dǎo)√低聚合統(tǒng)計(jì)數(shù)據(jù)√√√√XX中√×X中同態(tài)加密√××X高√XXX高同態(tài)秘密√XXX高√√×低局部抑制√低記錄抑制√低√XX低b/中√×低√×低隨機(jī)化噪聲添加×低×中×X中√√√類別降低分離降低關(guān)聯(lián)降低推導(dǎo)×√√中/高4√×高b如果不需要查看映射表。除非K匿名是基于微聚集實(shí)現(xiàn)的。b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“*”來表示。如所有的姓名都使用“***”代替。a)抑制屏蔽。直接刪除身份證號(hào)或使用統(tǒng)一的“*”來表示。如所有的身份證號(hào)都使用“******”代替?！?40524********0014”“440524188*****0014”或“******188******x×*”代替，上述數(shù)據(jù)可分別用在需要保密出生日期、保密出生日期但允許對(duì)數(shù)據(jù)按時(shí)代做統(tǒng)計(jì)分析、保密所有信息但允許對(duì)出生日期按時(shí)代做統(tǒng)計(jì)分析等場景。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原身份證號(hào)，如使用數(shù)據(jù)集中的記錄順序號(hào)替代原身份銀行卡號(hào)在很多應(yīng)用中和個(gè)人身份密切關(guān)聯(lián)，是一種常用的標(biāo)識(shí)符。銀行卡號(hào)是按照規(guī)則進(jìn)行編a)抑制屏蔽。直接刪除銀行卡號(hào)或使用統(tǒng)一的“*”來表示。如所有的銀行卡號(hào)都使用“*****”代替。b)部分屏蔽。屏蔽銀行卡號(hào)中的一部分，以保護(hù)卡號(hào)信息。如分別可以屏蔽銀行卡號(hào)中的發(fā)卡用密碼和字符編碼技術(shù)。這種方法適用于使用銀行卡號(hào)做數(shù)據(jù)庫主鍵的應(yīng)用場景。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原銀行卡號(hào)，如使用隨機(jī)產(chǎn)生符合身份證號(hào)編碼規(guī)則的b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“*”來表示。如所有的地址都使用“******”d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原地址數(shù)據(jù)，數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性方法。如使用“黑龍江省雞西市特鐵縣北京路23號(hào)”代替“江西省吉安市安?？h安平路1a)抑制屏蔽。直接刪除電話號(hào)碼或使用統(tǒng)一的“*”來表示。如所有的電話號(hào)碼******”“198****8888”或“*******8888”代替。c)隨機(jī)替代。使用隨機(jī)生成的一串?dāng)?shù)字來表示，如使用隨機(jī)生成的“2346544580”來取代b)抑制屏蔽。直接刪除數(shù)值或使用統(tǒng)一的“*”來表示。如所有的數(shù)值都使用“*****”e)頂層和底層編碼。大于或小于一個(gè)特定值的處理成某個(gè)固定值。例如，年齡超過70歲的一律用“大于70歲”描述，以保障滿足此條件的人數(shù)多于20000人。d)部分屏蔽。使用數(shù)值的高位部分代替原有數(shù)值，如百分制考試成績?nèi)渴褂萌サ魝€(gè)位數(shù)、保留十位數(shù)的數(shù)值代替。e)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則，將記錄集中的所有的身高數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回原數(shù)據(jù)集中。這種方法可以保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性不變。f)噪聲添加。相對(duì)原始數(shù)據(jù)，產(chǎn)生微小的隨機(jī)數(shù)，將其加到原始數(shù)值上并代替原始數(shù)值。如對(duì)于身高1.72m,產(chǎn)生隨機(jī)數(shù)值一0.11m,加到原始數(shù)值后將其變?yōu)?.61m。g)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原始數(shù)據(jù)，數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性在數(shù)據(jù)集中，日期有多種存在形式，包括出生日期、開始日期、紀(jì)念日等。常見的對(duì)日期的去標(biāo)識(shí)化方法包括：a)泛化編碼。使用概括、抽象的日期來表示，如使用1880年代替1880年1月1日。b)抑制屏蔽。直接刪除日期數(shù)據(jù)或使用統(tǒng)一的“x”來表示。如所有的數(shù)值都使用“某年某日”代替。c)部分屏蔽。對(duì)日期中的一部分做屏蔽，如1880年某月1日代替1880年1月1日。d)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則，將記錄集中的所有的日期數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回到原數(shù)據(jù)集中。這種方法有利于保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性。e)噪聲添加。相對(duì)原始數(shù)據(jù)，產(chǎn)生微小的隨機(jī)數(shù)，將其加到原始數(shù)值上并代替原始數(shù)值。如對(duì)于出生日期1880年1月1日，產(chǎn)生隨數(shù)值32天，加到原始數(shù)值后將其變?yōu)?880年2月2日。D數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原日期數(shù)據(jù)，如使用“1972年8月12日”代替“1880年C.

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》

文檔簡介

溫馨提示

最新文檔

評(píng)論

G-T 37964-2019 《信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔