![《隱私計算 脫敏效果評估技術(shù)要求(征求意見稿)》_第1頁](http://file4.renrendoc.com/view8/M03/01/03/wKhkGWbGyZ-AM_sNAAHrYAOK5qc518.jpg)
![《隱私計算 脫敏效果評估技術(shù)要求(征求意見稿)》_第2頁](http://file4.renrendoc.com/view8/M03/01/03/wKhkGWbGyZ-AM_sNAAHrYAOK5qc5182.jpg)
![《隱私計算 脫敏效果評估技術(shù)要求(征求意見稿)》_第3頁](http://file4.renrendoc.com/view8/M03/01/03/wKhkGWbGyZ-AM_sNAAHrYAOK5qc5183.jpg)
![《隱私計算 脫敏效果評估技術(shù)要求(征求意見稿)》_第4頁](http://file4.renrendoc.com/view8/M03/01/03/wKhkGWbGyZ-AM_sNAAHrYAOK5qc5184.jpg)
![《隱私計算 脫敏效果評估技術(shù)要求(征求意見稿)》_第5頁](http://file4.renrendoc.com/view8/M03/01/03/wKhkGWbGyZ-AM_sNAAHrYAOK5qc5185.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1T/CSACXXXX—XXXX隱私計算脫敏效果評估技術(shù)要求本標(biāo)準(zhǔn)描述了脫敏效果評估的技術(shù)要求,包括單次脫敏效果評估、基于數(shù)據(jù)挖掘的脫敏效果評估、脫敏系統(tǒng)效果評估三種類型,第一類評估是指將執(zhí)行脫敏算法前的隱私信息與脫敏后的隱私信息進(jìn)行可逆性、信息偏差性和信息損失性的評估;第二類評估是指對采用數(shù)據(jù)挖掘技術(shù)分析特定個人一定時間內(nèi)的已通過單次脫敏效果評估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評估;第三類評估是指指對采用數(shù)據(jù)挖掘技術(shù)分析若干特定個人或所有個人一定時間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評估的脫敏信息,以推算出特定個人已脫敏的隱私信息分量程度的評估。本標(biāo)準(zhǔn)適用于規(guī)范各類組織的隱私信息脫敏處理活動,也適用于主管監(jiān)管部門、第三方評估機構(gòu)等組織對隱私信息脫敏處理活動進(jìn)行監(jiān)督、管理和評估。2規(guī)范性引用文件本文件引述下列文件中的部分內(nèi)容。下列文件中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本指南,不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術(shù)術(shù)語GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個人信息去標(biāo)識化指南GB/T37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型T/CESAAAAAA-XXXX隱私計算脫敏控制技術(shù)要求3術(shù)語和定義3.1個人信息personalinformation以電子或者其他方式記錄的能夠單獨或者與其他信息結(jié)合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包含個人信息本身及其衍生信息,不包括匿名化處理后的信息。[來源:GB/T35273—2020,3.1,有修改]3.2隱私信息所有者privateinformationowner隱私信息所標(biāo)識或者關(guān)聯(lián)的自然人、組織、設(shè)備或程序等實體。3.3隱私信息處理者privateinformationprocessor對隱私信息進(jìn)行收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實體。3.4敏感屬性privateattribute信息載體中含有敏感個人信息的屬性,泄露、修改或破壞該屬性值會對個人權(quán)益產(chǎn)生影響。2T/CSACXXXX—XXXX[來源:GB/T37964-2019,3.10]3.5隱私信息privacyinformation能通過信息系統(tǒng)進(jìn)行處理的敏感個人信息,是個人信息記錄中的標(biāo)識符、準(zhǔn)標(biāo)識符和敏感屬性的集合。注:隱私信息包括個人生物特征信息、銀行賬號、通健康生理信息、交易信息、14歲以下(含)3.6原始信息rawinformation當(dāng)前主體采集或者接收到的信息,其包含隱私信息,需要進(jìn)行脫敏處理。3.7脫敏信息desensitizedinformation經(jīng)過特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關(guān)聯(lián)到特定的隱私信息所有者。3.8脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級、脫敏時機、脫敏算法及其參數(shù)選擇等約束信息。3.9延伸控制extendedcontrol在數(shù)據(jù)流通與共享過程中,收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等環(huán)節(jié)的隱私操作迭代控制、控制策略動態(tài)調(diào)整、控制策略可控傳遞,以及控制策略執(zhí)行可信驗證。3.10信息模態(tài)informationmode個人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語音等。3.11數(shù)據(jù)脫敏datadesensitization通過一系列數(shù)據(jù)處理方法對原始數(shù)據(jù)進(jìn)行處理以減少或消除隱私信息的一種數(shù)據(jù)保護(hù)方法。[來源:GB/T37988-2019,3.12,有修改]3.12可逆性reversibility被脫敏掉的隱私信息被復(fù)原的可能性。3.13信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測到的脫敏信息與原始信息的偏差。3.14信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對可用性的影響程度。3.15隱私信息抽取與度量extractionandmeasurementofprivateinformation通過對采集或接收的信息進(jìn)行分析,提取不同模態(tài)信息中的隱私信息分量,并對隱私信息分量進(jìn)行分類以及量化隱私信息分量的敏感度或保護(hù)程度。T/CSACXXXX—XXXX3.16隱私度量動態(tài)調(diào)整privacymetricsdynamicallyadjusted通過識別判斷隱私信息所屬的應(yīng)用場景,對隱私信息分量的敏感度或保護(hù)程度進(jìn)行針對性的度量調(diào)整。3.17隱私延伸控制privacyextendedcontrols在數(shù)據(jù)泛在流通與共享過程中,對全生命周期各環(huán)節(jié)的隱私操作進(jìn)行迭代控制。3.18隱私按需保護(hù)privacyprotectedasintended約束隱私信息處理者根據(jù)延伸控制策略,對接收到的隱私信息進(jìn)行按需脫敏、按需刪除等處理,提供場景自適應(yīng)的隱私保護(hù)能力。4概述4.1脫敏效果評估的目標(biāo)脫敏效果評估的目標(biāo)包括:a)脫敏后的數(shù)據(jù)應(yīng)該符合法律法規(guī)和脫敏控制的要求;b)脫敏效果評估應(yīng)從可逆性、信息偏差性、信息損失性這三個維度來驗證隱私信息脫敏處理的有效性和安全性;c)脫敏效果評估應(yīng)該確保脫敏后的數(shù)據(jù)可以安全地用于特定的分析、共享或存儲等需求。4.2脫敏效果評估的基本原則保護(hù)效果評估是對從脫敏后的隱私信息中恢復(fù)損失信息的難度進(jìn)行評價。脫敏效果評估執(zhí)行策略思路如圖1所示,若保護(hù)效果評估未達(dá)到預(yù)期效果,則可能重新執(zhí)行隱私信息抽取與度量、隱私度量動態(tài)調(diào)整、隱私延伸控制、隱私按需保護(hù),詳細(xì)示例見附錄A。包括:a)脫敏效果評估的指標(biāo)體系,采用可逆性、信息偏差性和信息損失性等評估指標(biāo);b)單次脫敏效果評估,通過分析脫敏算法執(zhí)行前后的信息,衡量已脫敏的隱私信息分量的可恢復(fù)程度;c)基于數(shù)據(jù)挖掘的脫敏效果評估,通過收集特定個人一定時間內(nèi)的脫敏信息,采用數(shù)據(jù)挖掘技術(shù)試圖推算出已脫敏的隱私信息分量;d)脫敏系統(tǒng)效果評估,通過收集若干特定個人或所有個人的一定時間內(nèi)的脫敏信息,采用數(shù)據(jù)挖掘技術(shù)試圖推算特定個人的已脫敏的隱私信息分量;e)單次脫敏效果評估、基于數(shù)據(jù)挖掘的脫敏效果評估和脫敏系統(tǒng)效果評估的區(qū)別在于評估對象的數(shù)據(jù)集合范圍和規(guī)模不同。4T/CSACXXXX—XXXX圖1脫敏效果評估執(zhí)行策略思路4.2.1單次脫敏效果評估單次脫敏效果評估,是對從原始信息得到中間信息這一單一過程進(jìn)行的評估。單次脫敏效果可以從可逆性、信息偏差性、信息損失性三個維度進(jìn)行評估,若單次脫敏效果評估未達(dá)到預(yù)期閾值,則需反饋到隱私按需保護(hù)組件重新定義隱私操作。4.2.2基于數(shù)據(jù)挖掘的脫敏效果評估基于數(shù)據(jù)挖掘的脫敏效果評估,是指對采用數(shù)據(jù)挖掘技術(shù)分析特定個人一定時間內(nèi)的已通過單次脫敏效果評估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評估?;跀?shù)據(jù)挖掘的脫敏效果可以從可逆性、信息偏差性、信息損失性三個維度進(jìn)行評估。若基于數(shù)據(jù)挖掘的脫敏效果評估未達(dá)到預(yù)期閾值,則需反饋到隱私度量動態(tài)調(diào)整組件和隱私延伸控制組件更換場景描述和重新調(diào)整控制策略。4.2.3脫敏系統(tǒng)效果評估脫敏系統(tǒng)效果評估是指對采用數(shù)據(jù)挖掘技術(shù)分析若干特定個人或所有個人一定時間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評估的脫敏信息,以推算出特定個人已脫敏的隱私信息分量程度的評估。脫敏系統(tǒng)整體效果可以從可逆性、信息偏差性、信息損失性三個維度進(jìn)行評估。若脫敏系統(tǒng)效果評估未達(dá)到預(yù)期閾值,則需反饋到隱私信息抽取與度量組件、隱私度量動態(tài)調(diào)整組件和隱私延伸控制組件重新調(diào)整原始度量、更換場景描述和重新調(diào)整控制策略。4.3脫敏效果評估的使用脫敏效果評估是支撐信息發(fā)布、統(tǒng)計查詢和數(shù)據(jù)交換的決策依據(jù),也是篩選和自動化選擇隱私保護(hù)算法的基礎(chǔ)。脫敏效果評估的結(jié)果包括:單次脫敏效果評估的結(jié)果、基于數(shù)據(jù)挖掘的脫敏效果評估的結(jié)果和脫敏系統(tǒng)效果評估的結(jié)果,這三種類別評估結(jié)果的使用對象和作用如下:a)單次脫敏效果評估的結(jié)果:可以為隱私信息處理者、安全合規(guī)審查團(tuán)隊等使用,以便衡量本次脫敏操作的效果和脫敏信息的可用性、安全性等,是否符合本次的脫敏期望;b)基于數(shù)據(jù)挖掘的脫敏效果評估的結(jié)果:可以為脫敏系統(tǒng)使用者、脫敏系統(tǒng)開發(fā)者等使用,以便衡量個人敏感數(shù)據(jù)在系統(tǒng)內(nèi)流轉(zhuǎn)時,脫敏操作對個人信息的保護(hù)效果;c)脫敏系統(tǒng)效果評估的結(jié)果:可以為監(jiān)管機構(gòu)、數(shù)據(jù)管理者等使用,以便衡量個人信息在跨系統(tǒng)流轉(zhuǎn)時的隱私保護(hù)效果。5脫敏效果評估通用技術(shù)要求5T/CSACXXXX—XXXX5.1脫敏效果評估指標(biāo)體系5.1.1脫敏效果評估指標(biāo)體系概述脫敏效果評估指標(biāo)體系包括可逆性、信息偏差性和信息損失性等三類指標(biāo),根據(jù)應(yīng)用場景、數(shù)據(jù)模態(tài)、脫敏控制策略等要素,為每個評估維度設(shè)置相應(yīng)的權(quán)重,進(jìn)行加權(quán)計算,得出脫敏效果的綜合評估結(jié)果。5.1.2可逆性評估指標(biāo)可逆性評估是衡量從脫敏算法處理后信息中復(fù)原隱私信息的可能性。由于脫敏旨在保護(hù)敏感個人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評估指標(biāo),具體如下:1)脫敏算法為不可逆算法,應(yīng)依據(jù)脫敏算法參數(shù)確立可逆性評估指標(biāo);2)脫敏算法為可逆算法,應(yīng)依據(jù)脫敏算法恢復(fù)密鑰強度確立可逆性評估指標(biāo)。b)脫敏算法參數(shù)強度,評估脫敏算法使用的參數(shù)強度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強度指標(biāo)的所占權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強度指標(biāo)所占權(quán)重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法參數(shù)強度指標(biāo)所占權(quán)重值較高。c)信息還原性,評估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度,以此評估脫敏效果的可逆性,具體如下:1)恢復(fù)信息的準(zhǔn)確度越高,脫敏效果的可逆性就相對越高;2)恢復(fù)信息的偏差度越高,脫敏效果的可逆性就相對越低。5.1.3信息偏差性評估指標(biāo)信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計指標(biāo),例如:均方差、平均絕對值、KL散度、歐氏距離、余弦距離、峰值信噪比、結(jié)構(gòu)相似性指數(shù)、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇均方差、平均絕對值等指標(biāo)為統(tǒng)計偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為音頻、圖像、視頻等的數(shù)據(jù),應(yīng)選擇峰值信噪比、結(jié)構(gòu)相似性指數(shù)等指標(biāo)為統(tǒng)計偏差性評估指標(biāo)。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),應(yīng)選擇分布形狀等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),應(yīng)選擇累積分布函數(shù)等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo)。c)模型應(yīng)用準(zhǔn)確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構(gòu)建訓(xùn)練模型,選擇合適的驗證集或測試集,比較模型在驗證集或測試集上的效果,以此評估脫敏效果的信息偏差性,具體如下:1)模型在驗證集或測試集上的效果越好,脫敏效果的信息偏差性相對越低;6T/CSACXXXX—XXXX2)模型在驗證集或測試集上的效果越差,脫敏效果的信息偏差性相對越高。d)數(shù)據(jù)隨機性分析,評估脫敏算法對隱私信息的隨機性影響程度,以此評估脫敏效果的信息偏差性,具體如下:1)脫敏算法對隱私信息的隨機性影響越小,脫敏效果的信息偏差性相對越低;2)脫敏算法對隱私信息的隨機性影響越大,脫敏效果的信息偏差性相對越高。5.1.4信息損失性評估指標(biāo)信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標(biāo),通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖像、音頻等的數(shù)據(jù),應(yīng)選擇信息熵等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏效果的信息損失性相對越高。b)互信息,互信息是衡量兩個隨機變量之間相互依賴程度的度量指標(biāo),通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進(jìn)行量化評估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇互信息等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏效果的信息損失性相對越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計指標(biāo),例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)分布特征等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏效果的信息損失性相對越低。d)數(shù)據(jù)關(guān)聯(lián)性,計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關(guān)聯(lián)性的度量指標(biāo),例如:相關(guān)系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性越高,脫敏效果的信息損失性相對越低。e)數(shù)據(jù)可用性,評估脫敏數(shù)據(jù)在特定應(yīng)用場景下的可用程度指標(biāo),例如:數(shù)據(jù)分析、模型訓(xùn)練等應(yīng)用場景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為音頻、圖像等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)可用性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏效果的信息損失性相對越低。5.2單次脫敏效果評估的技術(shù)要求單次脫敏效果評估,將執(zhí)行脫敏算法前的隱私信息與脫敏后的隱私信息進(jìn)行可逆性、信息偏差性和信息損失性的評估。具體的技術(shù)要求分為可逆性評估的技術(shù)要求,信息偏差性評估的技術(shù)要求和信息損失性評估的技術(shù)要求。單次脫敏效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖2所示。T/CSACXXXX—XXXX圖2單次脫敏效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.2.1可逆性評估的技術(shù)要求單次脫敏效果評估中,可逆性的評估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場景,確定可逆性對應(yīng)的權(quán)重值,具體如1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果可逆性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),脫敏效果可逆性評估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)隱私信息模態(tài)及應(yīng)用場景,選擇5.1.2節(jié)中的評估指標(biāo),評估已脫敏的隱私信息分量的被還原能力,并根據(jù)確立的各可逆性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)隱私數(shù)據(jù)在數(shù)據(jù)域內(nèi)流轉(zhuǎn)場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)可適用于文本、圖像等模態(tài)的數(shù)據(jù);2)隱私數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)的權(quán)重值應(yīng)設(shè)置較高。c)單次脫敏效果評估結(jié)論的可逆性指標(biāo)未達(dá)到脫敏效果期望閾值時,應(yīng)重新定義隱私操作,具體如下:1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,重新選擇脫敏算法,并設(shè)置該脫敏算法的參數(shù);2)重新定義隱私操作后,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行單次脫敏效果的可逆性評估。5.2.2信息偏差性評估的技術(shù)要求單次脫敏效果評估中,信息偏差性的評估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場景,確定信息偏差性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),脫敏效果信息偏差性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果信息偏差性評估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計特性,選擇5.1.3節(jié)中的評估指標(biāo),評估脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于數(shù)據(jù)規(guī)模較小的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于數(shù)據(jù)規(guī)模較大的數(shù)據(jù)。8T/CSACXXXX—XXXXc)單次脫敏效果評估結(jié)論的可逆性指標(biāo)符合脫敏效果期望閾值,但其信息偏差性未達(dá)到脫敏效果期望閾值時,應(yīng)重新定義隱私操作,具體如下:1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,修改脫敏算法的參數(shù);2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略。5.2.3信息損失性評估的技術(shù)要求單次脫敏效果評估中,信息損失性的評估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場景,確定信息損失性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),脫敏效果信息損失性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果信息損失性評估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計特性,選擇5.1.4節(jié)中的評估指標(biāo),評估脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)信息熵、互信息等指標(biāo)可適用于數(shù)據(jù)規(guī)模較小的數(shù)據(jù);2)信息可用性、數(shù)據(jù)分布特征等指標(biāo)可適用于數(shù)據(jù)規(guī)模較大的數(shù)據(jù)。c)單次脫敏效果評估結(jié)論的可逆性指標(biāo)符合脫敏效果期望閾值,但其信息損失性未達(dá)到脫敏效果期望閾值時,應(yīng)重新定義隱私操作,具體如下:。1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,修改脫敏算法的參數(shù);2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略。5.3基于數(shù)據(jù)挖掘的脫敏效果評估的技術(shù)要求基于數(shù)據(jù)挖掘的脫敏效果評估,是指對采用數(shù)據(jù)挖掘技術(shù)分析特定個人一定時間內(nèi)的已通過單次脫敏效果評估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評估。具體的技術(shù)要求分為信息偏差性評估的技術(shù)要求和信息損失性評估的技術(shù)要求?;跀?shù)據(jù)挖掘的脫敏效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖3所示。圖3基于數(shù)據(jù)挖掘的脫敏效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.3.1信息偏差性評估的技術(shù)要求9T/CSACXXXX—XXXX基于數(shù)據(jù)挖掘的脫敏效果評估中,信息偏差性的評估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對特定個人一定時間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應(yīng)的真實隱私信息進(jìn)行偏差性的對比分析,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)基于數(shù)據(jù)挖掘的脫敏效果評估結(jié)論的信息偏差性達(dá)到脫敏需求閾值時,應(yīng)重新調(diào)整控制策略,具體如下:1)應(yīng)反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略;2)重新調(diào)整控制策略,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行基于數(shù)據(jù)挖掘的脫敏效果的信息偏差性評估。5.3.2信息損失性評估的技術(shù)要求基于數(shù)據(jù)挖掘的脫敏效果評估中,信息損失性的評估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對特定個人一定時間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應(yīng)的真實隱私信息進(jìn)行損失性的對比分析,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)基于數(shù)據(jù)挖掘的脫敏效果評估結(jié)論的信息偏差性達(dá)到脫敏需求閾值,而信息損失性未達(dá)到脫敏效果期望閾值時,應(yīng)更換場景描述,具體如下:1)應(yīng)反饋到隱私度量動態(tài)調(diào)整組件中的場景識別和度量調(diào)整模塊,修正場景識別、度量調(diào)整機制;2)重新更換場景描述,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行基于數(shù)據(jù)挖掘的脫敏效果的信息損失性評估。5.4脫敏系統(tǒng)效果評估的技術(shù)要求脫敏系統(tǒng)效果評估,是指對采用數(shù)據(jù)挖掘技術(shù)分析若干特定個人或所有個人一定時間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評估的脫敏信息,以推算出特定個人已脫敏的隱私信息分量程度的評估。具體的技術(shù)要求分為信息偏差性評估的技術(shù)要求和信息損失性評估的技術(shù)要求。脫敏系統(tǒng)效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖4所示T/CSACXXXX—XXXX圖4脫敏系統(tǒng)效果評估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.4.1信息偏差性評估的技術(shù)要求脫敏系統(tǒng)效果評估中,信息偏差性的評估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對若干特定個人或所有個人一定時間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應(yīng)的真實隱私信息進(jìn)行偏差性的對比分析,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)脫敏系統(tǒng)效果評估結(jié)論的信息偏差性達(dá)到脫敏需求閾值時,應(yīng)重新調(diào)整控制策略,具體如下:1)應(yīng)反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略;2)重新調(diào)整控制策略,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行脫敏系統(tǒng)效果的信息偏差性評估。5.4.2信息損失性評估的技術(shù)要求脫敏系統(tǒng)效果評估中,信息損失性的評估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對若干特定個人或所有個人一定時間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應(yīng)的真實隱私信息進(jìn)行損失性的對比分析,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)脫敏系統(tǒng)效果評估結(jié)論的信息偏差性達(dá)到脫敏效果期望閾值,而信息損失性未達(dá)到脫敏效果期望閾值,應(yīng)更換場景描述,具體如下:1)應(yīng)反饋到隱私度量動態(tài)調(diào)整組件中的場景識別和度量調(diào)整模塊,修正場景識別、度量調(diào)整機制;T/CSACXXXX—XXXX2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私信息抽取與度量組件中的隱私信息抽取、隱私信息分類及隱私信息度量模塊,修正隱私信息的抽取、分類和度量。6脫敏效果評估的評估報告要求6.1形成評估報告的目的評估報告可以更好地幫助當(dāng)前信息擁有者、主管監(jiān)管部門、第三方評估機構(gòu)等組織對敏感信息脫敏處理活動的把控,能夠更加直觀地展示脫敏效果評估的結(jié)果。6.2評估報告的組成內(nèi)容評估報告的內(nèi)容由評估項目概述、被評估對象描述、單項評估結(jié)果分析、整體評估、等級評估結(jié)論五部分組成。6.3評估項目概述組成內(nèi)容評估內(nèi)容概述由評估的目的、評估的依據(jù)、評估的過程、評估報告的分發(fā)范圍四部分組成。評估目的部分主要簡述評估開展的背景、評估涉及的主體和評估目標(biāo)等內(nèi)容。評估的依據(jù)部分主要分類列出開展評估活動所依據(jù)的標(biāo)準(zhǔn)、文件和合同等。評估的過程部分應(yīng)根據(jù)實際評估情況描述等級評估工作流程、評估每個階段完成的關(guān)鍵任務(wù)和評估的時間節(jié)點等內(nèi)容。評估報告的分發(fā)范圍部分應(yīng)說明等級評估報告正本的份數(shù)與分發(fā)范圍。6.4被評估對象描述組成內(nèi)容被評估對象描述包括可選擇的評估類型、待評估的數(shù)據(jù)、待評估數(shù)據(jù)的類型和所屬主體、脫敏要求四部分??蛇x擇的評估類型包括單次脫敏效果評估、基于數(shù)據(jù)挖掘的脫敏效果評估、脫敏系統(tǒng)效果評估三類。待評估的數(shù)據(jù)伴隨選擇的評估類型不同會有所不同,具體在“5.2單次脫敏效果評估的技術(shù)要求”、“5.3基于數(shù)據(jù)挖掘的脫敏效果評估的技術(shù)要求”、“5.4脫敏系統(tǒng)效果評估的技術(shù)要求”中進(jìn)行了描述。待評估數(shù)據(jù)的類型包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩個類別,每一個類別下又可以細(xì)分多個子類別,例如結(jié)構(gòu)化數(shù)據(jù)下的文本型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)下的圖片型數(shù)據(jù)等。所屬主體用于描述當(dāng)前數(shù)據(jù)擁有者的信息。脫敏要求是脫敏控制集合中曾經(jīng)和當(dāng)前信息所屬主脫敏要求的并集。6.5單項評估結(jié)果分析組成內(nèi)容單項評估內(nèi)容包括“5.1脫敏效果評估指標(biāo)體系”中涉及的一個或多個類別。由達(dá)標(biāo)的評估點匯總分析和存在問題的評估點匯總分析兩部分構(gòu)成。達(dá)標(biāo)的評估點匯總分析是針對評估結(jié)果中存在的符合項進(jìn)行匯總分析,存在問題的評估點匯總分析是針對評估結(jié)果中存在的部分符合項和不符合項進(jìn)行匯總和分析,例如,當(dāng)單項評估為脫敏效果可逆性評估時,評估點可以為脫敏后數(shù)據(jù)恢復(fù)為脫敏前數(shù)據(jù)的還原度是否符合預(yù)期。6.6整體評估組成內(nèi)容整體評估從單項評估結(jié)果與脫敏要求的匹配程度進(jìn)行分析和整體評價。整體評估結(jié)果示例如表1所示。T/CSACXXXX—XXXX表1整體評估結(jié)果示例單項評估結(jié)果類別評估點與脫敏要求的匹配程度級別單項評估得分權(quán)重參考可逆性評估結(jié)果恢復(fù)信息的準(zhǔn)確度高0.6…………信息偏差性評估結(jié)果歐式距離中70.2…………信息損失性評估結(jié)果信息熵低40.2…………6.7等級評估結(jié)論組成內(nèi)容說明等級評估結(jié)論確定的方法,并根據(jù)單項評估得分和對應(yīng)的權(quán)重參考,給出被測對象的等級評估結(jié)論,等級評估結(jié)論示例如表2所示。表2等級評估結(jié)論示例等級評估結(jié)論脫敏效果評估綜合分?jǐn)?shù)優(yōu)9-10良7-8中4-6差0-3T/CSACXXXX—XXXX脫敏效果評估示例A.1概述根據(jù)脫敏效果評估指標(biāo)體系,本附錄介紹單次脫敏效果評估、基于數(shù)據(jù)挖掘的脫敏效果評估、脫敏系統(tǒng)效果評估的方法,可供進(jìn)行脫敏效果評估時參考。脫敏效果評估過程的關(guān)鍵處理環(huán)節(jié)如下。A.2單次脫敏效果評估單次脫敏效果評估流程如下:a)收集待評測的原始數(shù)據(jù)與脫敏后數(shù)據(jù)。原始數(shù)據(jù)示例如表A.1所示,脫敏后數(shù)據(jù)示例如表A.2所示。其涉及到的敏感信息屬性為“姓名”、“身份證號碼”、“年齡”、“手機號碼”,本示例中年選擇“年齡”屬性作為評估示例;表A.1原始數(shù)據(jù)12345678表A.2脫敏后數(shù)據(jù)12345678b)判斷隱私信息所屬場景,本次評估示例中隱私信息的應(yīng)用場景為醫(yī)療問診類場景,數(shù)據(jù)模態(tài)為數(shù)值型數(shù)據(jù),數(shù)據(jù)規(guī)模較小,由此確定可逆性、信息偏差性和信息損失性對應(yīng)的權(quán)重值為0.2、0.6、0.2;c)依據(jù)隱私信息模態(tài)和應(yīng)用場景,選擇恢復(fù)信息的準(zhǔn)確度和恢復(fù)信息的偏差度為本次脫敏效果評估的可逆性的評估指標(biāo)。經(jīng)評估,脫敏后數(shù)據(jù)恢復(fù)得到原始信息的準(zhǔn)確度達(dá)到了脫敏效果期望閾值,恢復(fù)信息的偏差度達(dá)到了脫敏效果期望閾值;T/CSACXXXX—XXXXd)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計特性,選擇均值和方差為本次脫敏效果評估的信息偏差性的評估指標(biāo)。經(jīng)評估,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的均值變化量未達(dá)到脫敏效果期望閾值,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的方差變化量達(dá)到了脫敏效果期望閾值;e)依據(jù)數(shù)據(jù)信息量及關(guān)聯(lián)性,選擇信息熵差值為本次脫敏效果評估的信息損失性評估指標(biāo)。經(jīng)評估,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的信息熵差值達(dá)到了脫敏效果期望閾值。A.3基于數(shù)據(jù)挖掘的脫敏效果評估基于數(shù)據(jù)挖掘的脫敏效果評估流程如下:a)收集得到用戶“張三”一定時間內(nèi)的其他場景中的脫敏后數(shù)據(jù)如表A.3,A.4所示。選擇決策樹算法對收集到的用戶“張三”的脫敏信息進(jìn)行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-35};表A.3收集到的用戶“張三”在網(wǎng)絡(luò)問診場景中的脫敏后數(shù)據(jù)1表A.4收集到的用戶“張三”在交通票務(wù)場景中的脫敏后數(shù)據(jù)1男b)使用信息偏差性和信息損失性的評估指標(biāo)作為基于數(shù)據(jù)挖掘的脫敏效果評估指標(biāo)。經(jīng)評估推斷出的用戶“張三”的隱私信息與對應(yīng)的真實隱私信息的信息偏差性指標(biāo)未達(dá)到脫敏效果期望閾值,信息損失性指標(biāo)也未達(dá)到脫敏效果期望閾值。A.4脫敏系統(tǒng)效果評估脫敏系統(tǒng)效果評估流程如下:a)收集得到用戶“王*”和用戶“吳*”一定時間內(nèi)的其他場景中的脫敏后數(shù)據(jù)如表A.5,A.6所示,以及用戶“張三”一定時間內(nèi)的各個場景中的脫敏后數(shù)據(jù)如表A.3,A.4所示。選擇決策樹算法對收集到的用戶“張三”、用戶“王*”和用戶“吳*”用戶的脫敏信息進(jìn)行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-34};表A.5收集到的用戶“王*”在醫(yī)療問診場景中的脫敏后數(shù)據(jù)1表A.6收集到的用戶“吳*”在網(wǎng)約車場景中的脫敏后數(shù)據(jù)序號1b)使用信息偏差性和信息損失性的評估指標(biāo)作為基于數(shù)據(jù)挖掘的脫敏效果評估指標(biāo)。經(jīng)評估推斷出的用戶“張三”的隱私信息與對應(yīng)的真實隱私信息的信息偏差性指標(biāo)達(dá)到了脫敏效果期望閾值,信息損失性指標(biāo)未達(dá)到脫敏效果期望閾值。T/CSACXXXX—XXXX可逆性的計算方法B.1概述可逆性可以通過逆向映射、字典攻擊、統(tǒng)計攻擊、機器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計攻擊、機器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。B.2逆向映射逆向映射是一種簡單的可逆性評估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。B.3字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來還原脫敏結(jié)果的方法。攻擊者通過窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。B.4統(tǒng)計分析統(tǒng)計分析是一種基于脫敏結(jié)果統(tǒng)計特征來推斷原始數(shù)據(jù)的方法。攻擊者通過分析脫敏結(jié)果的統(tǒng)計特征,如頻率分布、均值、方差等,來推測原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過添加噪音、擾動或其他技術(shù)來破壞統(tǒng)計特征,從而提高脫敏結(jié)果的安全性。B.5機器學(xué)習(xí)攻擊機器學(xué)習(xí)攻擊是一種利用機器學(xué)習(xí)模型來還原脫敏結(jié)果的方法。攻擊者可以使用機器學(xué)習(xí)算法,通過訓(xùn)練模型來學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機器學(xué)習(xí)攻擊,脫敏算法需要采用對抗性機器學(xué)習(xí)技術(shù)或其他防御機制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。T/CSACXXXX—XXXX信息偏差性的計算方法C.1概述信息偏差性可以通過計算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計算信息偏差性的方法,可供隱私脫敏的組織者參考。C.2均方誤差對于兩個數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。均方誤差的計算公式如下:n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第i個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.3均絕對誤差對于兩個數(shù)據(jù)集X和Y,平均絕對誤差(MeanAbsoluteError,MAE)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。平均絕對誤差的計算公式如下:其中,n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第yi個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均絕對誤差,平均絕對誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對誤差越小,表示脫敏操作引入的偏差越小。平均絕對誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.4Kullback-Leibler散度對于兩個離散分布P和Q,其中P表示真實分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估一個概率分布相對于另一個概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個數(shù),表示P分布中第i個元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的偏差,可以計算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運用的數(shù)據(jù)模態(tài)為:編碼型。C.5歐氏距離的計算方法歐式距離(Euclideandistance,ED)是指兩個n維向量之間的距離,即歐理距離。計算兩個向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的歐氏距離,如果歐氏距離較小,則說明脫敏操作引入的偏差較小,反之則說明脫敏操作引入的偏差較大。歐氏距離可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.6余弦距離的計算方法余弦距離(Cosinedistance,CD)是指兩個向量之間的夾角余弦值,用于衡量它們的相似度。計算兩個向量和y的歐氏距離的公式如下:其中,是兩個向量的點集,llxll和llyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說明脫敏操作引入的偏差較小,如果余弦距離接近0,則說明脫敏操作引入的偏差較大。余弦距離可運用的數(shù)據(jù)模態(tài)為:音頻型。C.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡稱PSNR)是一種用于衡量兩個數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計算兩個數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號的最大可能取值(對于8位圖像通常為255),MSE表示均方誤差,是兩個數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。T/CSACXXXX—XXXXC.8結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡稱SSIM)是一種用于衡量兩個圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評估圖像的相似度。SSIM的計算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λa其中,和y表示兩個圖像,l(x,y)表示亮度相似度,c(x,y)表示對比度相似度,s(x,y)表示結(jié)構(gòu)相似度,a是一個參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。C.9平均數(shù)平均數(shù)(Average,AVE)是一種常見的統(tǒng)計量,通過比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進(jìn)行比較和分析。平均數(shù)的計算公式如下:其中,表示數(shù)據(jù)集中的第i個數(shù)據(jù)點,N表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進(jìn)行比較和分析。中位數(shù)的計算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為偶數(shù),中位數(shù)是排序后中間兩個數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.11標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫為SD)是用來衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計量。標(biāo)準(zhǔn)差可以用來比較不同數(shù)據(jù)集之間的離散程度。計算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點,表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點的總數(shù)。T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.12方差方差(Variance,Var)是一種統(tǒng)計量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計算方差的公式如下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金融行業(yè)中AI技術(shù)的倫理問題
- 人工智能與人形機器人融合趨勢
- 臨汾職業(yè)技術(shù)學(xué)院《書法鑒賞》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西工業(yè)貿(mào)易職業(yè)技術(shù)學(xué)院《中醫(yī)科研方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北汽車工業(yè)學(xué)院科技學(xué)院《醫(yī)學(xué)機能學(xué)(二)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東財經(jīng)大學(xué)《稅法模擬實訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 承德醫(yī)學(xué)院《品牌形象設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 西藏民族大學(xué)《網(wǎng)頁動畫設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 石家莊鐵路職業(yè)技術(shù)學(xué)院《財政金融》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東環(huán)境保護(hù)工程職業(yè)學(xué)院《輻射劑量與防護(hù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年度檢修計劃
- 2024-2025學(xué)年冀教版數(shù)學(xué)五年級上冊期末測試卷(含答案)
- 商業(yè)綜合體市場調(diào)研報告
- 資源枯竭型城市的轉(zhuǎn)型發(fā)展 課件 2024-2025學(xué)年高二上學(xué)期地理人教版選擇性必修2
- 少兒素描課件
- 2025屆河北省衡水市衡水中學(xué)高考仿真模擬英語試卷含解析
- 天津市部分區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 生物 含解析
- 變壓器投標(biāo)書-技術(shù)部分
- 《我國跨境電子商務(wù)消費者權(quán)益保護(hù)問題研究》
- 2024九省聯(lián)考適應(yīng)性考試【甘肅省】歷史試卷及答案解析
- 四年級語文下冊第六單元【集體備課】(教材解讀+教學(xué)設(shè)計)
評論
0/150
提交評論