版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
T/CSACXXXX—XXXX隱私計(jì)算脫敏算法能力評估技術(shù)要求本文件描述脫敏算法能力評估的技術(shù)體系,規(guī)定脫敏算法評估的基本原則,包含脫敏算法能力的評估指標(biāo)體系、脫敏算法能力評估通用技術(shù)要求等。本文件適用于規(guī)范各類組織的隱私信息脫敏處理活動,也可為主管監(jiān)管部門、第三方評估機(jī)構(gòu)等組織對隱私信息脫敏處理活動進(jìn)行監(jiān)督、管理和評估提供參考。2規(guī)范性引用文件本文件引述下列文件中的部分內(nèi)容。下列文件中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本指南;不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術(shù)術(shù)語GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個人信息去標(biāo)識化指南GB/T37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型T/CESAXXXX2023隱私計(jì)算脫敏控制技術(shù)要求3術(shù)語和定義3.1個人信息personalinformation以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包含個人信息本身及其衍生信息,不包括匿名化處理后的信息。[來源:GB/T35273—2020,3.1,有修改]3.2標(biāo)識符identity可以明顯識別記錄主體身份的屬性集合,包括姓名、電話號碼、身份證號碼等信息。3.3組合起來可以識別記錄主體身份的屬性集合,包括年齡、性別、郵編等信息。3.4隱私信息privateinformation能通過信息系統(tǒng)進(jìn)行處理的敏感個人信息,是個人信息記錄中的標(biāo)識符、準(zhǔn)標(biāo)識符和敏感屬性的集合。注:隱私信息包括個人生物特征信息、銀行賬號、通健康生理信息、交易信息、14歲以下(含)3.5隱私信息所有者privateinformationowner2T/CSACXXXX—XXXX隱私信息所標(biāo)識或者關(guān)聯(lián)的自然人、組織、設(shè)備或程序等實(shí)體。3.6隱私信息處理者privateinformationprocessor對隱私信息進(jìn)行收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實(shí)體。3.7敏感屬性sensitiveattribute信息載體中含有敏感個人信息的屬性,泄露、修改或破壞該屬性值會對個人權(quán)益產(chǎn)生影響。注:在潛在的重標(biāo)識攻擊期間需要防止其值與任何一個隱私信息主體相關(guān)聯(lián)。[來源:GB/T37964-2019,3.10]3.8原始信息rawinformation當(dāng)前主體采集或者接收到的信息,其包含個人敏感信息,需要進(jìn)行脫敏處理。3.9脫敏信息desensitizedinformation經(jīng)過特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關(guān)聯(lián)到特定的隱私信息所有者。3.10脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級、脫敏時機(jī)、脫敏算法及其參數(shù)選擇等約束信息。3.11信息模態(tài)informationmode個人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語音等。3.12數(shù)據(jù)脫敏datadesensitization通過一系列數(shù)據(jù)處理方法對原始數(shù)據(jù)進(jìn)行處理以減少或消除個人敏感信息的一種數(shù)據(jù)保護(hù)方法。[來源:GB/T37988-2019,3.12,有修改]3.13脫敏算法desensitizationalgorithm通過對隱私信息的技術(shù)處理,使其在不借助額外信息的情況下,無法識別或者關(guān)聯(lián)隱私信息主體。注:脫敏算法包括k-匿名、差分隱私等算法。[來源:GB/T35273—2020,3.15]3.14可逆性reversibility被脫敏掉的隱私信息被復(fù)原的可能性。3.15信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測到的脫敏信息與原始信息的偏差。3.16信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對可用性的影響程度。3.17復(fù)雜性complexity3T/CSACXXXX—XXXX執(zhí)行脫敏算法所需要的資源開銷。3.18泛化generalization將一類屬性中的特定值用一個更寬泛的值代替,以更概括、抽象的方式描述數(shù)據(jù)。注:泛化技術(shù)包括替換、取整、K-匿名、模糊化、概化等手段。[來源:GB/T37964—2019,A.5.1,有修改]3.19抑制suppression將某個屬性、屬性的值或者屬性值的一部分進(jìn)行刪除或者以特定的符號代替。3.20解耦和置換anatomizationandpermutation去除準(zhǔn)標(biāo)識符和敏感屬性間的關(guān)聯(lián)性,而不改變準(zhǔn)標(biāo)識符或敏感屬性的值。3.21擾動perturbation用合成的數(shù)據(jù)值取代原始的數(shù)據(jù)值,改變后的數(shù)據(jù)與真實(shí)數(shù)據(jù)主體失去關(guān)聯(lián)性。3.22差分隱私differentialprivacy通過擾動的方式對個人隱私信息進(jìn)行脫敏,且擾動添加的噪聲類型和參數(shù)滿足差分的數(shù)學(xué)定義。4概述脫敏算法能力評估的目標(biāo)包括:a)脫敏算法能力應(yīng)符合法律規(guī)定與脫敏控制要求,可支持自動選擇算法;b)在第三方評估的過程中,保障不同的單位和團(tuán)體所采用的脫敏算法具有合規(guī)性和一致性,防止跨系統(tǒng)中的隱私泄露問題,預(yù)防全社會各系統(tǒng)隱私保護(hù)的短板效應(yīng)。4.2基本原則脫敏算法能力評估分為可逆性評估、信息偏差性評估、信息損失性評估和復(fù)雜性評估,并且依據(jù)所采用脫敏算法的類別,為以上四個評估維度賦予相應(yīng)的權(quán)重值。其中,可逆性評估是衡量脫敏算法處理后信息中復(fù)原隱私信息的可能性;信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度;信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度;復(fù)雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。4.3用途脫敏算法能力評估技術(shù)要求可以為企業(yè)自身、監(jiān)督管理部門、安全合規(guī)團(tuán)隊(duì)以及第三方評估機(jī)構(gòu)等主體適用,用以評估其脫敏算法前后脫敏信息的可逆性、信息偏差性、信息損失性是否符合發(fā)布的要求,以及脫敏算法的資源開銷是否符合性能要求。4T/CSACXXXX—XXXX5脫敏算法能力評估通用技術(shù)要求5.1脫敏算法分類5.1.1脫敏算法分類概述根據(jù)脫敏算法的實(shí)現(xiàn)原理、應(yīng)用場景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類技術(shù)。5.1.2基于差分隱私技術(shù)的脫敏算法基于差分隱私技術(shù)的脫敏算法主要采用拉普拉斯機(jī)制、指數(shù)機(jī)制、稀疏向量技術(shù)和隨機(jī)響應(yīng)技術(shù)。附錄B.2給出了27種基于差分隱私技術(shù)的脫敏算法描述示例。具體如下:a)拉普拉斯機(jī)制,是指通過向源數(shù)據(jù)中添加拉普拉斯噪聲以滿足差分隱私的要求,該機(jī)制可以保證數(shù)據(jù)集中任何特定的個人信息主體的存在與否,無法從脫敏數(shù)據(jù)集或系統(tǒng)響應(yīng)結(jié)果中推導(dǎo)出;即使攻擊者能夠訪問其他相關(guān)的數(shù)據(jù)集,只要隱私損失限定在一定范圍內(nèi),就可以保證隱私信息無法被獲??;b)指數(shù)機(jī)制,是指通過一個評分函數(shù)輸出查詢函數(shù)的每個可能輸出分?jǐn)?shù),并返回分?jǐn)?shù)近似最大的回復(fù)來實(shí)現(xiàn)差分隱私保護(hù);該機(jī)制可以在不向原始數(shù)據(jù)添加噪聲的基礎(chǔ)上滿足差分隱私的要求;c)稀疏向量技術(shù),用于回答有一個預(yù)先固定的閾值T的查詢,該技術(shù)將在被查詢值中添加噪聲,并將結(jié)果與閾值T進(jìn)行比較,并只返回高于閾值T的c個查詢結(jié)果;適用于需要多次查詢的場景;d)隨機(jī)響應(yīng)技術(shù),是指通過模糊用戶對問題的結(jié)果響應(yīng),用戶將以一定的概率返回自己的真實(shí)數(shù)據(jù)或者值域中包含的其他可能數(shù)據(jù),從而實(shí)現(xiàn)在保護(hù)用戶隱私的情況下進(jìn)行頻數(shù)統(tǒng)計(jì)的目的,一般用于本地化差分隱私場景中。5.1.3基于泛化技術(shù)的脫敏算法基于泛化技術(shù)的脫敏算法是指通過引入不確定性或模糊性,使原始隱私信息變得更加模糊或不精確,以實(shí)現(xiàn)對隱私信息的脫敏;可以基于規(guī)則、概率分布或其他方式進(jìn)行,可用于文本類數(shù)據(jù)、圖像類數(shù)據(jù)、音頻類數(shù)據(jù)以及視頻類數(shù)據(jù)的脫敏。附錄B.3給出了22種基于泛化技術(shù)的脫敏算法描述示例。5.1.4基于匿名技術(shù)的脫敏算法基于匿名技術(shù)的脫敏算法包括k-匿名算法、l-多樣性算法、t-貼近性算法等數(shù)據(jù)處理手段。附錄B.4給出了12種基于匿名技術(shù)的脫敏算法描述示例。具體如下:a)k-匿名算法,要求發(fā)布的數(shù)據(jù)中指定標(biāo)識符(直接標(biāo)識符或準(zhǔn)標(biāo)識符)屬性值相同的每一等價類至少包含k個記錄,使攻擊者不能判別出個人信息所屬的具體個體,從而保護(hù)個人信息安全;b)l-多樣性算法,是對k-匿名算法的改進(jìn),該算法首先對數(shù)據(jù)進(jìn)行k-匿名處理生成多個等價類,并通過確保每個等價類中的敏感屬性具有多樣性,防止通過背景知識攻擊識別敏感信息;c)t-貼近性算法,進(jìn)一步改進(jìn)了l-多樣性算法,通過確保每個等價類中敏感屬性的分布與整體數(shù)據(jù)集的分布相似,防止敏感屬性分布的偏離。5.1.5基于置換技術(shù)的脫敏算法5T/CSACXXXX—XXXX基于置換技術(shù)的脫敏算法是指將原始隱私信息中的具體值替換為其他確定性或隨機(jī)性的值,從而實(shí)現(xiàn)對隱私信息的脫敏。置換可以基于規(guī)則、概率分布或其他方式進(jìn)行,例如:將具體的數(shù)字替換為某個范圍內(nèi)的值,或者將文本中的具體詞語替換為一般性類別的詞語。附錄B.5給出了19種基于置換技術(shù)的脫敏算法描述示例。5.2脫敏算法能力評估指標(biāo)體系5.2.1脫敏算法能力評估指標(biāo)體系概述脫敏算法能力評估的指標(biāo)體系包括可逆性、信息偏差性、信息損失性和復(fù)雜性等四類指標(biāo),且基于測評樣本基準(zhǔn)數(shù)據(jù)集,對各類脫敏算法進(jìn)行能力評估。5.2.2可逆性評估指標(biāo)可逆性評估是衡量從脫敏算法處理后信息中復(fù)原隱私信息的可能性。由于脫敏旨在保護(hù)敏感個人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評估指標(biāo),具體如下:1)脫敏算法為不可逆算法,應(yīng)依據(jù)脫敏算法參數(shù)確立可逆性評估指標(biāo);2)脫敏算法為可逆算法,應(yīng)依據(jù)脫敏算法恢復(fù)密鑰強(qiáng)度確立可逆性評估指標(biāo)。b)脫敏算法參數(shù)強(qiáng)度,評估脫敏算法使用的參數(shù)強(qiáng)度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強(qiáng)度指標(biāo)的所占權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較高。c)信息還原性,評估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度,以此評估脫敏算法的可逆性,具體如下:1)恢復(fù)信息的準(zhǔn)確度越高,脫敏算法的可逆性就相對越高;2)恢復(fù)信息的偏差度越高,脫敏算法的可逆性就相對越低。5.2.3信息偏差性評估指標(biāo)信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計(jì)偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計(jì)指標(biāo),例如:均方差、平均絕對值、KL散度、歐氏距離、余弦距離、峰值信噪比、結(jié)構(gòu)相似性指數(shù)、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇均方差、平均絕對值等指標(biāo)為統(tǒng)計(jì)偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為音頻、圖像、視頻等的數(shù)據(jù),應(yīng)選擇峰值信噪比、結(jié)構(gòu)相似性指數(shù)等指標(biāo)為統(tǒng)計(jì)偏差性評估指標(biāo)。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),應(yīng)選擇分布形狀等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),應(yīng)選擇累積分布函數(shù)等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo)。6T/CSACXXXX—XXXXc)模型應(yīng)用準(zhǔn)確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構(gòu)建訓(xùn)練模型,選擇合適的驗(yàn)證集或測試集,比較模型在驗(yàn)證集或測試集上的效果,以此評估脫敏算法的信息偏差性,具體如下:1)模型在驗(yàn)證集或測試集上的效果越好,脫敏算法的信息偏差性相對越低;2)模型在驗(yàn)證集或測試集上的效果越差,脫敏算法的信息偏差性相對越高。d)數(shù)據(jù)隨機(jī)性分析,評估脫敏算法對隱私信息的隨機(jī)性影響程度,以此評估脫敏算法的信息偏差性,具體如下:1)脫敏算法對隱私信息的隨機(jī)性影響越小,脫敏算法的信息偏差性相對越低;2)脫敏算法對隱私信息的隨機(jī)性影響越大,脫敏算法的信息偏差性相對越高。5.2.4信息損失性評估指標(biāo)信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標(biāo),通過計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖像、音頻等的數(shù)據(jù),應(yīng)選擇信息熵等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏算法的信息損失性相對越高。b)互信息,互信息是衡量兩個隨機(jī)變量之間相互依賴程度的度量指標(biāo),通過計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進(jìn)行量化評估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇互信息等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏算法的信息損失性相對越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計(jì)指標(biāo),例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)分布特征等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏算法的信息損失性相對越低。d)數(shù)據(jù)關(guān)聯(lián)性,計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關(guān)聯(lián)性的度量指標(biāo),例如:相關(guān)系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性越高,脫敏算法的信息損失性相對越低。e)數(shù)據(jù)可用性,評估脫敏數(shù)據(jù)在特定應(yīng)用場景下的可用程度指標(biāo),例如:數(shù)據(jù)分析、模型訓(xùn)練等應(yīng)用場景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為音頻、圖像等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)可用性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏算法的信息損失性相對越低。5.2.5復(fù)雜性評估指標(biāo)復(fù)雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。復(fù)雜性度量方法如下:a)時間復(fù)雜度,用于衡量算法執(zhí)行所需時間的度量指標(biāo),可以通過分析算法中的操作、迭代次數(shù)和數(shù)據(jù)規(guī)模等來確定,例如:常數(shù)時間、線性時間、對數(shù)時間、平方時間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應(yīng)選擇時間復(fù)雜度等指標(biāo)為復(fù)雜性評估指標(biāo);2)脫敏算法執(zhí)行的時間復(fù)雜度越高,脫敏算法的復(fù)雜性相對越高。7T/CSACXXXX—XXXXb)空間復(fù)雜度,用于衡量算法執(zhí)行所需內(nèi)存空間的度量指標(biāo),可以通過分析算法中使用的額外數(shù)據(jù)結(jié)構(gòu)、變量和遞歸調(diào)用的深度等來確定,例如:常數(shù)空間、線性空間、指數(shù)空間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應(yīng)選擇空間復(fù)雜度等指標(biāo)為復(fù)雜性評估指標(biāo);2)脫敏算法執(zhí)行的空間復(fù)雜度越高,脫敏算法的復(fù)雜性相對越高。c)計(jì)算資源需求,評估算法執(zhí)行所需的計(jì)算資源,包括CPU執(zhí)行時間、占用內(nèi)存等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應(yīng)選擇計(jì)算資源需求等指標(biāo)為復(fù)雜性評估指標(biāo);2)脫敏算法執(zhí)行的計(jì)算資源需求越高,脫敏算法的復(fù)雜性相對越高。5.2.6算法能力綜合評估指標(biāo)在脫敏算法能力評估的過程中,需要根據(jù)所采用脫敏算法的類別和數(shù)據(jù)應(yīng)用場景,分別為可逆性、信息偏差性、信息損失性以及復(fù)雜性四個評估維度設(shè)置相應(yīng)的權(quán)重,進(jìn)行加權(quán)計(jì)算,得出算法能力的綜合評估結(jié)果。例如:基于差分隱私技術(shù)的脫敏算法的信息偏差性評估的權(quán)重值應(yīng)設(shè)置較高;基于泛化技術(shù)的脫敏算法的信息損失性評估的權(quán)重值應(yīng)設(shè)置較高;基于匿名技術(shù)的脫敏算法的信息損失性評估的權(quán)重值應(yīng)設(shè)置較高;基于置換技術(shù)的脫敏算法的可逆性評估的權(quán)重值應(yīng)設(shè)置較高。附錄A.2給出了一種不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重參考。5.3脫敏算法可逆性評估脫敏算法可逆性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定算法可逆性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法可逆性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法可逆性評估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇5.2.2節(jié)中的評估指標(biāo),衡量脫敏信息的被還原能力,評估內(nèi)容包括但不限于:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度等,并根據(jù)確立的各可逆性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)隱私數(shù)據(jù)在數(shù)據(jù)域內(nèi)流轉(zhuǎn)場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)可適用于文本、圖像等模態(tài)的數(shù)據(jù);2)隱私數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)的權(quán)重值應(yīng)設(shè)置較高。c)綜合考慮算法類別、算法參數(shù)、數(shù)據(jù)模態(tài)等因素,設(shè)計(jì)合理的可逆性評估方案,設(shè)置合理的可逆性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和可信性,具體如下:1)分類為置換技術(shù)的脫敏算法,其可逆性評估的權(quán)重值應(yīng)設(shè)置較高;2)分類為差分隱私技術(shù)、泛化技術(shù)、匿名技術(shù)的脫敏算法,其可逆性評估的權(quán)重值應(yīng)設(shè)置較低。5.4脫敏算法信息偏差性評估脫敏算法信息偏差性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定信息偏差性對應(yīng)的權(quán)重值,具體如下:8T/CSACXXXX—XXXX1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息偏差性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息偏差性評估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇5.2.3節(jié)中的評估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,評估內(nèi)容包括但不限于:數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)應(yīng)用測試、隨機(jī)性分析等,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)規(guī)模、數(shù)據(jù)分布、數(shù)據(jù)模態(tài)等因素,設(shè)計(jì)合理的信息偏差性評估方案,設(shè)置合理的信息偏差性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和可用性,具體如下:1)分類為差分隱私技術(shù)的脫敏算法,其信息偏差性評估的權(quán)重值應(yīng)設(shè)置較高;2)分類為匿名技術(shù)、泛化技術(shù)、置換技術(shù)的脫敏算法,其信息偏差性評估的權(quán)重值應(yīng)設(shè)置較低。5.5脫敏算法信息損失性評估脫敏算法信息損失性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定信息損失性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息損失性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息損失性評估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇5.2.4節(jié)中的評估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,評估內(nèi)容包括但不限于:信息熵、互信息、數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性、信息可用性等,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)可用、數(shù)據(jù)關(guān)聯(lián)、應(yīng)用場景等因素,設(shè)計(jì)合理的信息損失性評估方案,設(shè)置合理的信息損失性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類為泛化技術(shù)、匿名技術(shù)的脫敏算法,其信息損失性評估的權(quán)重值應(yīng)設(shè)置較高;2)分類為差分隱私技術(shù)、置換技術(shù)的脫敏算法,其信息損失性評估的權(quán)重值應(yīng)設(shè)置較低。5.6脫敏算法復(fù)雜性評估脫敏算法復(fù)雜性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定算法復(fù)雜性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),算法復(fù)雜性評估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),算法復(fù)雜性評估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇5.2.5節(jié)中的評估指標(biāo),衡量脫敏算法的執(zhí)行效率和資源消耗情況,評估內(nèi)容包括但不限于:時間復(fù)雜度、空間復(fù)雜度、資源消耗等,并根據(jù)確立的各復(fù)雜性指標(biāo)的權(quán)重值進(jìn)行評估,具體如下:1)時間復(fù)雜度、空間復(fù)雜度等指標(biāo)可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù);2)資源消耗等指標(biāo)可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù)。9T/CSACXXXX—XXXXc)綜合考慮平臺資源、數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模、數(shù)據(jù)結(jié)構(gòu)等因素,設(shè)計(jì)合理的復(fù)雜性評估方案,設(shè)置合理的復(fù)雜性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類為差分隱私技術(shù)的脫敏算法,其復(fù)雜性評估的權(quán)重值應(yīng)設(shè)置較高;2)分類為泛化技術(shù)、匿名技術(shù)、置換技術(shù)的脫敏算法,其復(fù)雜性評估的權(quán)重值應(yīng)設(shè)置較低。6脫敏算法能力評估的報告要求6.1形成評估報告的目的評估報告可以更好的幫助當(dāng)前信息擁有者、主管監(jiān)管部門、第三方評估機(jī)構(gòu)等組織等對脫敏算法能力的把控,能夠更加直觀的展示脫敏算法能力評估的結(jié)果。6.2評估報告的組成內(nèi)容評估報告的內(nèi)容由評估項(xiàng)目概述、評估指標(biāo)、單項(xiàng)評估結(jié)果分析、整體評估、等級評估結(jié)論五部分組成。6.3評估項(xiàng)目概述組成內(nèi)容評估內(nèi)容概述由評估的目的、評估的依據(jù)、評估的過程、評估報告的分發(fā)范圍四部分組成。評估目的部分主要簡述評估開展的背景、評估涉及的主體和評估目標(biāo)等內(nèi)容。評估的依據(jù)部分主要分類列出開展評估活動所依據(jù)的標(biāo)準(zhǔn)、文件和合同等。評估的過程部分應(yīng)根據(jù)實(shí)際評估情況描述等級評估工作流程、評估每個階段完成的關(guān)鍵任務(wù)和評估的時間節(jié)點(diǎn)等內(nèi)容。評估報告的分發(fā)范圍部分應(yīng)說明等級評估報告正本的份數(shù)與分發(fā)范圍。6.4評估指標(biāo)評估指標(biāo)由脫敏算法適用的場景、評估點(diǎn)、評估指標(biāo)量化等級三部分組成。脫敏算法適用的場景主要描述了被評估脫敏算法的可適用場景、適用數(shù)據(jù)類型等內(nèi)容。評估點(diǎn)應(yīng)根據(jù)實(shí)際情況與算法用途進(jìn)行設(shè)定與描述。評估指標(biāo)量化部分應(yīng)說明評估量化指標(biāo)的來源與適用范圍。6.5單項(xiàng)評估結(jié)果分析單項(xiàng)評估內(nèi)容包括“5.2脫敏算法能力評估指標(biāo)體系”中涉及的一個或多個類別。由達(dá)標(biāo)的評估點(diǎn)匯總分析和存在問題的評估點(diǎn)匯總分析兩部分構(gòu)成。達(dá)標(biāo)的評估點(diǎn)匯總分析是針對評估結(jié)果中存在的符合項(xiàng)進(jìn)行匯總分析,存在問題的評估點(diǎn)匯總分析是針對評估結(jié)果中存在的部分符合項(xiàng)和不符合項(xiàng)進(jìn)行匯總和分析,例如,當(dāng)單項(xiàng)評估為脫敏算法信息偏差性評估時,評估點(diǎn)可以為脫敏前后數(shù)據(jù)之間的余弦距離是否符合預(yù)期、脫敏前后數(shù)據(jù)之間的余弦距離是否符合預(yù)期等。6.6整體評估組成內(nèi)容整體評估從單項(xiàng)評估結(jié)果與脫敏要求的匹配程度進(jìn)行分析和整體評價。整體評估結(jié)果示例如表1所示。表1整體評估結(jié)果示例單項(xiàng)評估結(jié)果類別評估點(diǎn)與脫敏要求的單項(xiàng)評估得分權(quán)重參考T/CSACXXXX—XXXX匹配程度級別可逆性評估結(jié)果恢復(fù)信息的準(zhǔn)確度較高0.2…信息偏差性評估結(jié)果歐式距離值較高0.5…信息損失性評估結(jié)果信息熵較高0.2復(fù)雜性評估技術(shù)結(jié)果時間復(fù)雜度較高50.1…6.7等級評估結(jié)論組成內(nèi)容說明等級評估結(jié)論確定的方法,并根據(jù)單項(xiàng)評估得分和對應(yīng)的權(quán)重參考,給出被測對象的等級評估結(jié)論,等級評估結(jié)論示例如表2所示。表2等級評估結(jié)論示例等級評估結(jié)論脫敏效果評估綜合分?jǐn)?shù)優(yōu)9-10良7-8中4-6差0-3T/CSACXXXX—XXXX脫敏算法能力評估示例A.1概述本附錄以k-匿名算法對文本類醫(yī)療數(shù)據(jù)的脫敏能力評估為例,介紹針對脫敏算法能力評估指標(biāo)體系的使用方法,供進(jìn)行脫敏算法能力評估時參考。脫敏算法能力評估過程的關(guān)鍵處理環(huán)節(jié)包括脫敏算法評估維度權(quán)重確定、敏感信息屬性確定、評估指標(biāo)選定、可逆性評估、信息偏差性評估、信息損失性評估、復(fù)雜性評估以及評估報告生成。A.2脫敏算法評估維度權(quán)重確定根據(jù)數(shù)據(jù)的使用場景、來源、脫敏意圖等因素,定義脫敏算法評估維度的權(quán)重。本示例中數(shù)據(jù)的應(yīng)用場景為醫(yī)療問診場景,數(shù)據(jù)模態(tài)為結(jié)構(gòu)化數(shù)據(jù),使用的k-匿名算法(脫敏參數(shù)k=3)屬于泛化技術(shù),參考表A.1建議的不同脫敏算法類別(泛化、匿名、置換、差分隱私)處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重,將可逆性、信息偏差性、信息損失性、復(fù)雜性四個維度的對應(yīng)權(quán)重分別為0.2、0.2、0.5、0.1。表A.1不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重參考T/CSACXXXX—XXXXA.3敏感信息屬性確定收集并整理待評測的原始數(shù)據(jù)和經(jīng)過k-匿名算法處理后的數(shù)據(jù),在本示例中,原始數(shù)據(jù)如表A.2所示,k-匿名算法處理后的數(shù)據(jù)如表A.3所示。確定本次脫敏操作的敏感信息屬性為“年齡”。表A.2原始數(shù)據(jù)123456789表A.3脫敏后數(shù)據(jù)1234癌癥56789A.4評估指標(biāo)選定a)確定可逆性的評估為算法的可逆程度,脫敏算法參數(shù)以及信息的還原性。評估指標(biāo)為脫敏算法是否為不可逆算法,脫敏算法的參數(shù)對于原始數(shù)據(jù)數(shù)據(jù)規(guī)模的脫敏強(qiáng)度是否合適,通過脫敏后的隱私信息還原出原始隱私信息的程度;b)確定信息偏差性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的平均絕對誤差和歐氏距離。評估指標(biāo)為脫敏前后數(shù)據(jù)間的平均絕對誤差0~2.13時為偏差性較低,2.13~4.63時為偏差性中等,4.63T/CSACXXXX—XXXX以上為偏差性較高。脫敏前后數(shù)據(jù)間的歐氏距離0~7.04時為偏差性較低,7.04~9.38時為偏差性中等,9.38以上為偏差性較高;c)確定信息損失性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的信息熵差值和互信息。評估指標(biāo)為脫敏前后數(shù)據(jù)間的信息熵差值0~0.06時為信息損失性低,0.06~4.36時為信息損失性中等,4.36以上信息損失性高。脫敏前后數(shù)據(jù)間的互信息為0.8~1.0時為信息損失性低,0.4~0.8為信息損失性中等,0~0.4為信息損失性高;d)確定復(fù)雜性的評估為脫敏算法的時間復(fù)雜度和空間復(fù)雜度。評估指標(biāo)為脫敏算法的時間復(fù)雜度小于0(logn)為復(fù)雜性低,O(logn)o(n)間為復(fù)雜性中等,大于o(n)為復(fù)雜性高。脫敏算法的空間復(fù)雜度小于等于o(1)為復(fù)雜性低,為o(n)為復(fù)雜性中等,大于on2)為復(fù)雜性高。A.5可逆性評估本次脫敏使用的脫敏算法類別為泛化技術(shù),使用k-匿名算法,判斷該脫敏算法為不可逆算法,參數(shù)k=3,數(shù)據(jù)量為9條,通過脫敏后的隱私信息還原出原始隱私信息的概率為0.1,故本次脫敏任務(wù)中的可逆性低。A.6信息偏差性評估計(jì)算得到脫敏前后數(shù)據(jù)的平均絕對誤差為13.44,依據(jù)評估指標(biāo)13.44>4.64,脫敏前后數(shù)據(jù)的歐氏距離為11.00,依據(jù)評估指標(biāo)11.00>9.38,故本次脫敏效果中的偏差性高。A.7信息損失性評估計(jì)算得到脫敏前數(shù)據(jù)的信息熵為3.17。脫敏后數(shù)據(jù)的信息熵為1.58。脫敏前后數(shù)據(jù)的信息熵差值為1.59,依據(jù)評估指標(biāo)0.06<1.59<4.36,脫敏前后數(shù)據(jù)的互信息為0.48,依據(jù)評估指標(biāo)0.4<0.48<0.8,故本次脫敏效果中的信息損失性中等。A.8復(fù)雜性評估分析k-匿名算法的時間復(fù)雜度為o(n*log(m)),空間復(fù)雜度為o(n),故本次脫敏效果中的復(fù)雜性高。A.9評估報告生成對可逆性評估結(jié)果、信息偏差性評估結(jié)果、信息損失性評估結(jié)果、復(fù)雜性評估結(jié)果進(jìn)行加權(quán)操作,得出算法能力的綜合評估結(jié)果。T/CSACXXXX—XXXX脫敏算法分類示例B.1概述本附錄以脫敏算法的按需選擇為例,根據(jù)脫敏算法的實(shí)現(xiàn)原理、應(yīng)用場景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類技術(shù)。在本示例中,分別介紹基于差分隱私技術(shù)的脫敏算法描述示例、基于泛化的脫敏算法描述示例、基于匿名的脫敏算法描述示例和基于置換的脫敏算法描述示例,,供執(zhí)行脫敏算法選擇操作時參考。B.2基于差分隱私技術(shù)的脫敏算法表B.1給出了27種基于差分隱私技術(shù)的脫敏算法描述示例。表B.1基于差分隱私技術(shù)的脫敏算法描述示例1nism2Noisyaplace3NoisyMax3表4 56789ntialMmNoisyT/CSACXXXX—XXXXNoisyMax4Vectorue1Vectorue2Vectorue3表Vectorue4表輸入:數(shù)值列表Vectorue5輸入:數(shù)值列表Vectorue6輸入:數(shù)值列表Numeric表輸入:數(shù)值列表組por組輸入:數(shù)值列表T/CSACXXXX—XXXXnNoisy組NoisyB.3基于泛化技術(shù)的脫敏算法表B.2給出了22種基于泛化技術(shù)的脫敏算法描述示例。表B.2基于泛化技術(shù)的脫敏算法描述示例1n2輸入:數(shù)值34息別5p_replace61參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時間、區(qū)域點(diǎn)集73參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時間、區(qū)域點(diǎn)集8_reduction9輸入:圖像blur輸入:圖像T/CSACXXXX—XXXXbox_blur輸入:圖像輸入:圖像輸入:圖像輸入:視頻blur_video輸入:視頻box_blur_輸入:視頻輸入:視頻o輸入:視頻輸入:音頻c輸入:音頻輸入:音頻輸入:音頻B.4基于匿名技術(shù)的脫敏算法表B.3給出了12種基于匿名技術(shù)的脫敏算法描述示例。表C.3基于匿名技術(shù)的脫敏算法描述示例12輸入:經(jīng)緯度參數(shù):匿名度k,匿名區(qū)域面積s_cd,圓環(huán)內(nèi)徑系數(shù)rho3輸入:經(jīng)緯度參數(shù):匿名度k,匿名區(qū)域面積s_cdT/CSACXXXX—XXXX4alCloagorithm輸入:經(jīng)度、緯度參數(shù):最小匿名度k,橫縱坐標(biāo)范圍c5輸入:經(jīng)度、緯度6ymity與真實(shí)位置一起形成K-匿名輸入:經(jīng)度、緯度參數(shù):匿名度k、虛擬位置庫經(jīng)緯度789iversity數(shù)量,用于調(diào)節(jié)某一敏感屬性出現(xiàn)的次數(shù),用件輸入:經(jīng)度、緯度參數(shù):匿名度k、虛擬位置庫經(jīng)緯度用于返回距離用戶最近的k輸入:經(jīng)度、緯度參數(shù):匿名度k、所有用戶經(jīng)緯度B.5基于置換技術(shù)的脫敏算法表B.4給出了19種基于置換技術(shù)的脫敏算法描述示例。表B.4基于置換技術(shù)的脫敏算法描述示例12Shift3T/CSACXXXX—XXXX45據(jù)6從第2個字符用*代替,返回處理后的字7字符串中間的字符用*代替,返回處理后89將圖像的每個像素的RGB通道值隨機(jī)打?qū)D像的每個像素的RGB通道值加上一將每一幀的每個像素RGB通道值加上一video_remove_bg20T/CSACXXXX—XXXX可逆性的計(jì)算方法C.1概述可逆性可以通過逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。C.2逆向映射逆向映射是一種簡單的可逆性評估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。C.3字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來還原脫敏結(jié)果的方法。攻擊者通過窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機(jī)化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。C.4統(tǒng)計(jì)分析統(tǒng)計(jì)分析是一種基于脫敏結(jié)果統(tǒng)計(jì)特征來推斷原始數(shù)據(jù)的方法。攻擊者通過分析脫敏結(jié)果的統(tǒng)計(jì)特征,如頻率分布、均值、方差等,來推測原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過添加噪音、擾動或其他技術(shù)來破壞統(tǒng)計(jì)特征,從而提高脫敏結(jié)果的安全性。C.5機(jī)器學(xué)習(xí)攻擊機(jī)器學(xué)習(xí)攻擊是一種利用機(jī)器學(xué)習(xí)模型來還原脫敏結(jié)果的方法。攻擊者可以使用機(jī)器學(xué)習(xí)算法,通過訓(xùn)練模型來學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機(jī)器學(xué)習(xí)攻擊,脫敏算法需要采用對抗性機(jī)器學(xué)習(xí)技術(shù)或其他防御機(jī)制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。21T/CSACXXXX—XXXX信息偏差性的計(jì)算方法D.1概述信息偏差性可以通過計(jì)算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計(jì)算信息偏差性的方法,可供隱私脫敏的組織者參考。D.2均方誤差對于兩個數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。均方誤差的計(jì)算公式如下:n表示數(shù)據(jù)點(diǎn)的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第i個數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.3均絕對誤差對于兩個數(shù)據(jù)集X和Y,平均絕對誤差(MeanAbsoluteError,MAE)是用來衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。平均絕對誤差的計(jì)算公式如下:其中,n表示數(shù)據(jù)點(diǎn)的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第yi個數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均絕對誤差,平均絕對誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對誤差越小,表示脫敏操作引入的偏差越小。平均絕對誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.4Kullback-Leibler散度對于兩個離散分布P和Q,其中P表示真實(shí)分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評估一個概率分布相對于另一個概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個數(shù),表示P分布中第i個元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。22T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的偏差,可以計(jì)算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運(yùn)用的數(shù)據(jù)模態(tài)為:編碼型。D.5歐氏距離的計(jì)算方法歐式距離(Euclideandistance,ED)是指兩個n維向量之間的距離,即歐理距離。計(jì)算兩個向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的歐氏距離,如果歐氏距離較小,則說明脫敏操作引入的偏差較小,反之則說明脫敏操作引入的偏差較大。歐氏距離可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.6余弦距離的計(jì)算方法余弦距離(Cosinedistance,CD)是指兩個向量之間的夾角余弦值,用于衡量它們的相似度。計(jì)算兩個向量和y的歐氏距離的公式如下:其中,是兩個向量的點(diǎn)集,llxll和Ilyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說明脫敏操作引入的偏差較小,如果余弦距離接近0,則說明脫敏操作引入的偏差較大。余弦距離可運(yùn)用的數(shù)據(jù)模態(tài)為:音頻型。D.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡稱PSNR)是一種用于衡量兩個數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計(jì)算兩個數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號的最大可能取值(對于8位圖像通常為255),MSE表示均方誤差,是兩個數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。23T/CSACXXXX—XXXXD.8結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡稱SSIM)是一種用于衡量兩個圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評估圖像的相似度。SSIM的計(jì)算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λaz其中,和y表示兩個圖像,l(x,y)表示亮度相似度,c(x,y)表示對比度相似度,s(x,y)表示結(jié)構(gòu)相似度,a是一個參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。D.9平均數(shù)平均數(shù)(Average,AVE)是一種常見的統(tǒng)計(jì)量,通過比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進(jìn)行比較和分析。平均數(shù)的計(jì)算公式如下:其中,表示數(shù)據(jù)集中的第i個數(shù)據(jù)點(diǎn),N表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計(jì)量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進(jìn)行比較和分析。中位數(shù)的計(jì)算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為偶數(shù),中位數(shù)是排序后中間兩個數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.11標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫為SD)是用來衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計(jì)量。標(biāo)準(zhǔn)差可以用來比較不同數(shù)據(jù)集之間的離散程度。計(jì)算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:24T/CSACXXXX—XXXX其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點(diǎn),表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.12方差方差(Variance,Var)是一種統(tǒng)計(jì)量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點(diǎn)的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算方差的公式如下:其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點(diǎn),表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.13最大值最大值(MaximumValue,縮寫為Max)是數(shù)據(jù)集中的最大觀測值,它表示數(shù)據(jù)集中的最高點(diǎn)或最大的數(shù)據(jù)點(diǎn)。最大值可以幫助確定數(shù)據(jù)集中的極端值,幫助了解數(shù)據(jù)的范圍和數(shù)據(jù)的分布情況,在數(shù)據(jù)分析和統(tǒng)計(jì)中,最大值經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算最大值的公式如下:Max=max(x1,x2,…,xn)其中,X1,X2,…,xn表示數(shù)據(jù)集中的數(shù)據(jù)點(diǎn),而Max表示數(shù)據(jù)集的最大值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的最大值的差值。最大值的差值越大,表示脫敏操作引入的偏差越大,最大值的差值越小,表示脫敏操作引入的偏差越小。最大值可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.14最小值最小值(MinimumValue,縮寫為Min)是數(shù)據(jù)集中的最小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇科版數(shù)學(xué)七年級上冊3.3《代數(shù)式的值1》聽評課記錄
- UI設(shè)計(jì)師年度總結(jié)
- 學(xué)校年終工作總結(jié)
- 室內(nèi)設(shè)計(jì)師年度總結(jié)
- 高中生物教師個人年終工作總結(jié)
- 顧問工作計(jì)劃模板
- 人事月份工作計(jì)劃
- 護(hù)士長工作計(jì)劃范文
- 大賽項(xiàng)目招商合作協(xié)議書范本
- 城市居民房租賃合同范本
- 高質(zhì)量社區(qū)建設(shè)的路徑與探索
- 數(shù)字化時代的酒店員工培訓(xùn):技能升級
- 足球守門員撲救技巧:撲救結(jié)合守護(hù)球門安全
- 《學(xué)術(shù)規(guī)范和論文寫作》課件全套 第1-10章 知:認(rèn)識研究與論文寫作 - 引文規(guī)范
- 帶式輸送機(jī)滾筒出廠檢驗(yàn)規(guī)范
- 起重機(jī)更換卷筒施工方案
- 《信息檢索基礎(chǔ)知識》課件
- 具有履行合同所必須的設(shè)備和專業(yè)技術(shù)能力的承諾函-設(shè)備和專業(yè)技術(shù)能力承諾
- 01智慧物流信息技術(shù)概述
- 茶多糖和茶多酚的降血糖作用研究
- 混床計(jì)算書(新)
評論
0/150
提交評論