《隱私計算 脫敏算法能力評估技術要求(征求意見稿)》_第1頁
《隱私計算 脫敏算法能力評估技術要求(征求意見稿)》_第2頁
《隱私計算 脫敏算法能力評估技術要求(征求意見稿)》_第3頁
《隱私計算 脫敏算法能力評估技術要求(征求意見稿)》_第4頁
《隱私計算 脫敏算法能力評估技術要求(征求意見稿)》_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

T/CSACXXXX—XXXX隱私計算脫敏算法能力評估技術要求本文件描述脫敏算法能力評估的技術體系,規(guī)定脫敏算法評估的基本原則,包含脫敏算法能力的評估指標體系、脫敏算法能力評估通用技術要求等。本文件適用于規(guī)范各類組織的隱私信息脫敏處理活動,也可為主管監(jiān)管部門、第三方評估機構等組織對隱私信息脫敏處理活動進行監(jiān)督、管理和評估提供參考。2規(guī)范性引用文件本文件引述下列文件中的部分內容。下列文件中,注日期的引用文件,僅該日期對應的版本適用于本指南;不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術術語GB/T35273-2020信息安全技術個人信息安全規(guī)范GB/T37964-2019信息安全技術個人信息去標識化指南GB/T37988-2019信息安全技術數(shù)據(jù)安全能力成熟度模型T/CESAXXXX2023隱私計算脫敏控制技術要求3術語和定義3.1個人信息personalinformation以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包含個人信息本身及其衍生信息,不包括匿名化處理后的信息。[來源:GB/T35273—2020,3.1,有修改]3.2標識符identity可以明顯識別記錄主體身份的屬性集合,包括姓名、電話號碼、身份證號碼等信息。3.3組合起來可以識別記錄主體身份的屬性集合,包括年齡、性別、郵編等信息。3.4隱私信息privateinformation能通過信息系統(tǒng)進行處理的敏感個人信息,是個人信息記錄中的標識符、準標識符和敏感屬性的集合。注:隱私信息包括個人生物特征信息、銀行賬號、通健康生理信息、交易信息、14歲以下(含)3.5隱私信息所有者privateinformationowner2T/CSACXXXX—XXXX隱私信息所標識或者關聯(lián)的自然人、組織、設備或程序等實體。3.6隱私信息處理者privateinformationprocessor對隱私信息進行收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實體。3.7敏感屬性sensitiveattribute信息載體中含有敏感個人信息的屬性,泄露、修改或破壞該屬性值會對個人權益產生影響。注:在潛在的重標識攻擊期間需要防止其值與任何一個隱私信息主體相關聯(lián)。[來源:GB/T37964-2019,3.10]3.8原始信息rawinformation當前主體采集或者接收到的信息,其包含個人敏感信息,需要進行脫敏處理。3.9脫敏信息desensitizedinformation經過特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關聯(lián)到特定的隱私信息所有者。3.10脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級、脫敏時機、脫敏算法及其參數(shù)選擇等約束信息。3.11信息模態(tài)informationmode個人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語音等。3.12數(shù)據(jù)脫敏datadesensitization通過一系列數(shù)據(jù)處理方法對原始數(shù)據(jù)進行處理以減少或消除個人敏感信息的一種數(shù)據(jù)保護方法。[來源:GB/T37988-2019,3.12,有修改]3.13脫敏算法desensitizationalgorithm通過對隱私信息的技術處理,使其在不借助額外信息的情況下,無法識別或者關聯(lián)隱私信息主體。注:脫敏算法包括k-匿名、差分隱私等算法。[來源:GB/T35273—2020,3.15]3.14可逆性reversibility被脫敏掉的隱私信息被復原的可能性。3.15信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測到的脫敏信息與原始信息的偏差。3.16信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對可用性的影響程度。3.17復雜性complexity3T/CSACXXXX—XXXX執(zhí)行脫敏算法所需要的資源開銷。3.18泛化generalization將一類屬性中的特定值用一個更寬泛的值代替,以更概括、抽象的方式描述數(shù)據(jù)。注:泛化技術包括替換、取整、K-匿名、模糊化、概化等手段。[來源:GB/T37964—2019,A.5.1,有修改]3.19抑制suppression將某個屬性、屬性的值或者屬性值的一部分進行刪除或者以特定的符號代替。3.20解耦和置換anatomizationandpermutation去除準標識符和敏感屬性間的關聯(lián)性,而不改變準標識符或敏感屬性的值。3.21擾動perturbation用合成的數(shù)據(jù)值取代原始的數(shù)據(jù)值,改變后的數(shù)據(jù)與真實數(shù)據(jù)主體失去關聯(lián)性。3.22差分隱私differentialprivacy通過擾動的方式對個人隱私信息進行脫敏,且擾動添加的噪聲類型和參數(shù)滿足差分的數(shù)學定義。4概述脫敏算法能力評估的目標包括:a)脫敏算法能力應符合法律規(guī)定與脫敏控制要求,可支持自動選擇算法;b)在第三方評估的過程中,保障不同的單位和團體所采用的脫敏算法具有合規(guī)性和一致性,防止跨系統(tǒng)中的隱私泄露問題,預防全社會各系統(tǒng)隱私保護的短板效應。4.2基本原則脫敏算法能力評估分為可逆性評估、信息偏差性評估、信息損失性評估和復雜性評估,并且依據(jù)所采用脫敏算法的類別,為以上四個評估維度賦予相應的權重值。其中,可逆性評估是衡量脫敏算法處理后信息中復原隱私信息的可能性;信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度;信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度;復雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。4.3用途脫敏算法能力評估技術要求可以為企業(yè)自身、監(jiān)督管理部門、安全合規(guī)團隊以及第三方評估機構等主體適用,用以評估其脫敏算法前后脫敏信息的可逆性、信息偏差性、信息損失性是否符合發(fā)布的要求,以及脫敏算法的資源開銷是否符合性能要求。4T/CSACXXXX—XXXX5脫敏算法能力評估通用技術要求5.1脫敏算法分類5.1.1脫敏算法分類概述根據(jù)脫敏算法的實現(xiàn)原理、應用場景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類技術。5.1.2基于差分隱私技術的脫敏算法基于差分隱私技術的脫敏算法主要采用拉普拉斯機制、指數(shù)機制、稀疏向量技術和隨機響應技術。附錄B.2給出了27種基于差分隱私技術的脫敏算法描述示例。具體如下:a)拉普拉斯機制,是指通過向源數(shù)據(jù)中添加拉普拉斯噪聲以滿足差分隱私的要求,該機制可以保證數(shù)據(jù)集中任何特定的個人信息主體的存在與否,無法從脫敏數(shù)據(jù)集或系統(tǒng)響應結果中推導出;即使攻擊者能夠訪問其他相關的數(shù)據(jù)集,只要隱私損失限定在一定范圍內,就可以保證隱私信息無法被獲?。籦)指數(shù)機制,是指通過一個評分函數(shù)輸出查詢函數(shù)的每個可能輸出分數(shù),并返回分數(shù)近似最大的回復來實現(xiàn)差分隱私保護;該機制可以在不向原始數(shù)據(jù)添加噪聲的基礎上滿足差分隱私的要求;c)稀疏向量技術,用于回答有一個預先固定的閾值T的查詢,該技術將在被查詢值中添加噪聲,并將結果與閾值T進行比較,并只返回高于閾值T的c個查詢結果;適用于需要多次查詢的場景;d)隨機響應技術,是指通過模糊用戶對問題的結果響應,用戶將以一定的概率返回自己的真實數(shù)據(jù)或者值域中包含的其他可能數(shù)據(jù),從而實現(xiàn)在保護用戶隱私的情況下進行頻數(shù)統(tǒng)計的目的,一般用于本地化差分隱私場景中。5.1.3基于泛化技術的脫敏算法基于泛化技術的脫敏算法是指通過引入不確定性或模糊性,使原始隱私信息變得更加模糊或不精確,以實現(xiàn)對隱私信息的脫敏;可以基于規(guī)則、概率分布或其他方式進行,可用于文本類數(shù)據(jù)、圖像類數(shù)據(jù)、音頻類數(shù)據(jù)以及視頻類數(shù)據(jù)的脫敏。附錄B.3給出了22種基于泛化技術的脫敏算法描述示例。5.1.4基于匿名技術的脫敏算法基于匿名技術的脫敏算法包括k-匿名算法、l-多樣性算法、t-貼近性算法等數(shù)據(jù)處理手段。附錄B.4給出了12種基于匿名技術的脫敏算法描述示例。具體如下:a)k-匿名算法,要求發(fā)布的數(shù)據(jù)中指定標識符(直接標識符或準標識符)屬性值相同的每一等價類至少包含k個記錄,使攻擊者不能判別出個人信息所屬的具體個體,從而保護個人信息安全;b)l-多樣性算法,是對k-匿名算法的改進,該算法首先對數(shù)據(jù)進行k-匿名處理生成多個等價類,并通過確保每個等價類中的敏感屬性具有多樣性,防止通過背景知識攻擊識別敏感信息;c)t-貼近性算法,進一步改進了l-多樣性算法,通過確保每個等價類中敏感屬性的分布與整體數(shù)據(jù)集的分布相似,防止敏感屬性分布的偏離。5.1.5基于置換技術的脫敏算法5T/CSACXXXX—XXXX基于置換技術的脫敏算法是指將原始隱私信息中的具體值替換為其他確定性或隨機性的值,從而實現(xiàn)對隱私信息的脫敏。置換可以基于規(guī)則、概率分布或其他方式進行,例如:將具體的數(shù)字替換為某個范圍內的值,或者將文本中的具體詞語替換為一般性類別的詞語。附錄B.5給出了19種基于置換技術的脫敏算法描述示例。5.2脫敏算法能力評估指標體系5.2.1脫敏算法能力評估指標體系概述脫敏算法能力評估的指標體系包括可逆性、信息偏差性、信息損失性和復雜性等四類指標,且基于測評樣本基準數(shù)據(jù)集,對各類脫敏算法進行能力評估。5.2.2可逆性評估指標可逆性評估是衡量從脫敏算法處理后信息中復原隱私信息的可能性。由于脫敏旨在保護敏感個人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評估指標,具體如下:1)脫敏算法為不可逆算法,應依據(jù)脫敏算法參數(shù)確立可逆性評估指標;2)脫敏算法為可逆算法,應依據(jù)脫敏算法恢復密鑰強度確立可逆性評估指標。b)脫敏算法參數(shù)強度,評估脫敏算法使用的參數(shù)強度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強度指標的所占權重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強度指標所占權重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法參數(shù)強度指標所占權重值較高。c)信息還原性,評估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復信息的準確度、恢復信息的偏差度,以此評估脫敏算法的可逆性,具體如下:1)恢復信息的準確度越高,脫敏算法的可逆性就相對越高;2)恢復信息的偏差度越高,脫敏算法的可逆性就相對越低。5.2.3信息偏差性評估指標信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計指標,例如:均方差、平均絕對值、KL散度、歐氏距離、余弦距離、峰值信噪比、結構相似性指數(shù)、均值、中位數(shù)、方差、標準差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應選擇均方差、平均絕對值等指標為統(tǒng)計偏差性評估指標;2)數(shù)據(jù)模態(tài)為音頻、圖像、視頻等的數(shù)據(jù),應選擇峰值信噪比、結構相似性指數(shù)等指標為統(tǒng)計偏差性評估指標。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),應選擇分布形狀等指標為數(shù)據(jù)分布偏差性評估指標;2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),應選擇累積分布函數(shù)等指標為數(shù)據(jù)分布偏差性評估指標。6T/CSACXXXX—XXXXc)模型應用準確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構建訓練模型,選擇合適的驗證集或測試集,比較模型在驗證集或測試集上的效果,以此評估脫敏算法的信息偏差性,具體如下:1)模型在驗證集或測試集上的效果越好,脫敏算法的信息偏差性相對越低;2)模型在驗證集或測試集上的效果越差,脫敏算法的信息偏差性相對越高。d)數(shù)據(jù)隨機性分析,評估脫敏算法對隱私信息的隨機性影響程度,以此評估脫敏算法的信息偏差性,具體如下:1)脫敏算法對隱私信息的隨機性影響越小,脫敏算法的信息偏差性相對越低;2)脫敏算法對隱私信息的隨機性影響越大,脫敏算法的信息偏差性相對越高。5.2.4信息損失性評估指標信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標,通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為圖像、音頻等的數(shù)據(jù),應選擇信息熵等指標為信息損失性評估指標;2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏算法的信息損失性相對越高。b)互信息,互信息是衡量兩個隨機變量之間相互依賴程度的度量指標,通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進行量化評估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應選擇互信息等指標為信息損失性評估指標;2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏算法的信息損失性相對越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計指標,例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應選擇數(shù)據(jù)分布特征等指標為信息損失性評估指標;2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏算法的信息損失性相對越低。d)數(shù)據(jù)關聯(lián)性,計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關聯(lián)性的度量指標,例如:相關系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應選擇數(shù)據(jù)關聯(lián)性等指標為信息損失性評估指標;2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關聯(lián)性越高,脫敏算法的信息損失性相對越低。e)數(shù)據(jù)可用性,評估脫敏數(shù)據(jù)在特定應用場景下的可用程度指標,例如:數(shù)據(jù)分析、模型訓練等應用場景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標,具體如下:1)數(shù)據(jù)模態(tài)為音頻、圖像等的數(shù)據(jù),應選擇數(shù)據(jù)可用性等指標為信息損失性評估指標;2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏算法的信息損失性相對越低。5.2.5復雜性評估指標復雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。復雜性度量方法如下:a)時間復雜度,用于衡量算法執(zhí)行所需時間的度量指標,可以通過分析算法中的操作、迭代次數(shù)和數(shù)據(jù)規(guī)模等來確定,例如:常數(shù)時間、線性時間、對數(shù)時間、平方時間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復雜性的評估指標,以此評估脫敏算法的復雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應選擇時間復雜度等指標為復雜性評估指標;2)脫敏算法執(zhí)行的時間復雜度越高,脫敏算法的復雜性相對越高。7T/CSACXXXX—XXXXb)空間復雜度,用于衡量算法執(zhí)行所需內存空間的度量指標,可以通過分析算法中使用的額外數(shù)據(jù)結構、變量和遞歸調用的深度等來確定,例如:常數(shù)空間、線性空間、指數(shù)空間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復雜性的評估指標,以此評估脫敏算法的復雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應選擇空間復雜度等指標為復雜性評估指標;2)脫敏算法執(zhí)行的空間復雜度越高,脫敏算法的復雜性相對越高。c)計算資源需求,評估算法執(zhí)行所需的計算資源,包括CPU執(zhí)行時間、占用內存等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復雜性的評估指標,以此評估脫敏算法的復雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都應選擇計算資源需求等指標為復雜性評估指標;2)脫敏算法執(zhí)行的計算資源需求越高,脫敏算法的復雜性相對越高。5.2.6算法能力綜合評估指標在脫敏算法能力評估的過程中,需要根據(jù)所采用脫敏算法的類別和數(shù)據(jù)應用場景,分別為可逆性、信息偏差性、信息損失性以及復雜性四個評估維度設置相應的權重,進行加權計算,得出算法能力的綜合評估結果。例如:基于差分隱私技術的脫敏算法的信息偏差性評估的權重值應設置較高;基于泛化技術的脫敏算法的信息損失性評估的權重值應設置較高;基于匿名技術的脫敏算法的信息損失性評估的權重值應設置較高;基于置換技術的脫敏算法的可逆性評估的權重值應設置較高。附錄A.2給出了一種不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標維度權重參考。5.3脫敏算法可逆性評估脫敏算法可逆性評估的具體內容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應用場景,確定算法可逆性對應的權重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法可逆性評估的權重值應設置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法可逆性評估的權重值應設置較高。b)結合隱私信息數(shù)據(jù)模態(tài)及應用場景,選擇5.2.2節(jié)中的評估指標,衡量脫敏信息的被還原能力,評估內容包括但不限于:恢復信息的準確度、恢復信息的偏差度等,并根據(jù)確立的各可逆性指標的權重值進行評估,具體如下:1)隱私數(shù)據(jù)在數(shù)據(jù)域內流轉場景下,恢復信息的準確度、恢復信息的偏差度指標可適用于文本、圖像等模態(tài)的數(shù)據(jù);2)隱私數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場景下,恢復信息的準確度、恢復信息的偏差度指標的權重值應設置較高。c)綜合考慮算法類別、算法參數(shù)、數(shù)據(jù)模態(tài)等因素,設計合理的可逆性評估方案,設置合理的可逆性評估權重值,保證評估結果的準確性和可信性,具體如下:1)分類為置換技術的脫敏算法,其可逆性評估的權重值應設置較高;2)分類為差分隱私技術、泛化技術、匿名技術的脫敏算法,其可逆性評估的權重值應設置較低。5.4脫敏算法信息偏差性評估脫敏算法信息偏差性評估的具體內容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應用場景,確定信息偏差性對應的權重值,具體如下:8T/CSACXXXX—XXXX1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息偏差性評估的權重值應設置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息偏差性評估的權重值應設置較高。b)結合隱私信息數(shù)據(jù)模態(tài)及應用場景,選擇5.2.3節(jié)中的評估指標,衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,評估內容包括但不限于:數(shù)據(jù)統(tǒng)計、數(shù)據(jù)應用測試、隨機性分析等,并根據(jù)確立的各信息偏差性指標的權重值進行評估,具體如下:1)均方誤差、平均數(shù)等指標可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)規(guī)模、數(shù)據(jù)分布、數(shù)據(jù)模態(tài)等因素,設計合理的信息偏差性評估方案,設置合理的信息偏差性評估權重值,保證評估結果的準確性和可用性,具體如下:1)分類為差分隱私技術的脫敏算法,其信息偏差性評估的權重值應設置較高;2)分類為匿名技術、泛化技術、置換技術的脫敏算法,其信息偏差性評估的權重值應設置較低。5.5脫敏算法信息損失性評估脫敏算法信息損失性評估的具體內容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應用場景,確定信息損失性對應的權重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息損失性評估的權重值應設置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息損失性評估的權重值應設置較高。b)結合隱私信息數(shù)據(jù)模態(tài)及應用場景,選擇5.2.4節(jié)中的評估指標,衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,評估內容包括但不限于:信息熵、互信息、數(shù)據(jù)分布特征、數(shù)據(jù)關聯(lián)性、信息可用性等,并根據(jù)確立的各信息損失性指標的權重值進行評估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關聯(lián)性等指標可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)可用、數(shù)據(jù)關聯(lián)、應用場景等因素,設計合理的信息損失性評估方案,設置合理的信息損失性評估權重值,保證評估結果的準確性和有效性,具體如下:1)分類為泛化技術、匿名技術的脫敏算法,其信息損失性評估的權重值應設置較高;2)分類為差分隱私技術、置換技術的脫敏算法,其信息損失性評估的權重值應設置較低。5.6脫敏算法復雜性評估脫敏算法復雜性評估的具體內容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應用場景,確定算法復雜性對應的權重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),算法復雜性評估的權重值應設置較低;2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),算法復雜性評估的權重值應設置較高。b)結合隱私信息數(shù)據(jù)模態(tài)及應用場景,選擇5.2.5節(jié)中的評估指標,衡量脫敏算法的執(zhí)行效率和資源消耗情況,評估內容包括但不限于:時間復雜度、空間復雜度、資源消耗等,并根據(jù)確立的各復雜性指標的權重值進行評估,具體如下:1)時間復雜度、空間復雜度等指標可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù);2)資源消耗等指標可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù)。9T/CSACXXXX—XXXXc)綜合考慮平臺資源、數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模、數(shù)據(jù)結構等因素,設計合理的復雜性評估方案,設置合理的復雜性評估權重值,保證評估結果的準確性和有效性,具體如下:1)分類為差分隱私技術的脫敏算法,其復雜性評估的權重值應設置較高;2)分類為泛化技術、匿名技術、置換技術的脫敏算法,其復雜性評估的權重值應設置較低。6脫敏算法能力評估的報告要求6.1形成評估報告的目的評估報告可以更好的幫助當前信息擁有者、主管監(jiān)管部門、第三方評估機構等組織等對脫敏算法能力的把控,能夠更加直觀的展示脫敏算法能力評估的結果。6.2評估報告的組成內容評估報告的內容由評估項目概述、評估指標、單項評估結果分析、整體評估、等級評估結論五部分組成。6.3評估項目概述組成內容評估內容概述由評估的目的、評估的依據(jù)、評估的過程、評估報告的分發(fā)范圍四部分組成。評估目的部分主要簡述評估開展的背景、評估涉及的主體和評估目標等內容。評估的依據(jù)部分主要分類列出開展評估活動所依據(jù)的標準、文件和合同等。評估的過程部分應根據(jù)實際評估情況描述等級評估工作流程、評估每個階段完成的關鍵任務和評估的時間節(jié)點等內容。評估報告的分發(fā)范圍部分應說明等級評估報告正本的份數(shù)與分發(fā)范圍。6.4評估指標評估指標由脫敏算法適用的場景、評估點、評估指標量化等級三部分組成。脫敏算法適用的場景主要描述了被評估脫敏算法的可適用場景、適用數(shù)據(jù)類型等內容。評估點應根據(jù)實際情況與算法用途進行設定與描述。評估指標量化部分應說明評估量化指標的來源與適用范圍。6.5單項評估結果分析單項評估內容包括“5.2脫敏算法能力評估指標體系”中涉及的一個或多個類別。由達標的評估點匯總分析和存在問題的評估點匯總分析兩部分構成。達標的評估點匯總分析是針對評估結果中存在的符合項進行匯總分析,存在問題的評估點匯總分析是針對評估結果中存在的部分符合項和不符合項進行匯總和分析,例如,當單項評估為脫敏算法信息偏差性評估時,評估點可以為脫敏前后數(shù)據(jù)之間的余弦距離是否符合預期、脫敏前后數(shù)據(jù)之間的余弦距離是否符合預期等。6.6整體評估組成內容整體評估從單項評估結果與脫敏要求的匹配程度進行分析和整體評價。整體評估結果示例如表1所示。表1整體評估結果示例單項評估結果類別評估點與脫敏要求的單項評估得分權重參考T/CSACXXXX—XXXX匹配程度級別可逆性評估結果恢復信息的準確度較高0.2…信息偏差性評估結果歐式距離值較高0.5…信息損失性評估結果信息熵較高0.2復雜性評估技術結果時間復雜度較高50.1…6.7等級評估結論組成內容說明等級評估結論確定的方法,并根據(jù)單項評估得分和對應的權重參考,給出被測對象的等級評估結論,等級評估結論示例如表2所示。表2等級評估結論示例等級評估結論脫敏效果評估綜合分數(shù)優(yōu)9-10良7-8中4-6差0-3T/CSACXXXX—XXXX脫敏算法能力評估示例A.1概述本附錄以k-匿名算法對文本類醫(yī)療數(shù)據(jù)的脫敏能力評估為例,介紹針對脫敏算法能力評估指標體系的使用方法,供進行脫敏算法能力評估時參考。脫敏算法能力評估過程的關鍵處理環(huán)節(jié)包括脫敏算法評估維度權重確定、敏感信息屬性確定、評估指標選定、可逆性評估、信息偏差性評估、信息損失性評估、復雜性評估以及評估報告生成。A.2脫敏算法評估維度權重確定根據(jù)數(shù)據(jù)的使用場景、來源、脫敏意圖等因素,定義脫敏算法評估維度的權重。本示例中數(shù)據(jù)的應用場景為醫(yī)療問診場景,數(shù)據(jù)模態(tài)為結構化數(shù)據(jù),使用的k-匿名算法(脫敏參數(shù)k=3)屬于泛化技術,參考表A.1建議的不同脫敏算法類別(泛化、匿名、置換、差分隱私)處理文本類醫(yī)療數(shù)據(jù)時的評估指標維度權重,將可逆性、信息偏差性、信息損失性、復雜性四個維度的對應權重分別為0.2、0.2、0.5、0.1。表A.1不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標維度權重參考T/CSACXXXX—XXXXA.3敏感信息屬性確定收集并整理待評測的原始數(shù)據(jù)和經過k-匿名算法處理后的數(shù)據(jù),在本示例中,原始數(shù)據(jù)如表A.2所示,k-匿名算法處理后的數(shù)據(jù)如表A.3所示。確定本次脫敏操作的敏感信息屬性為“年齡”。表A.2原始數(shù)據(jù)123456789表A.3脫敏后數(shù)據(jù)1234癌癥56789A.4評估指標選定a)確定可逆性的評估為算法的可逆程度,脫敏算法參數(shù)以及信息的還原性。評估指標為脫敏算法是否為不可逆算法,脫敏算法的參數(shù)對于原始數(shù)據(jù)數(shù)據(jù)規(guī)模的脫敏強度是否合適,通過脫敏后的隱私信息還原出原始隱私信息的程度;b)確定信息偏差性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的平均絕對誤差和歐氏距離。評估指標為脫敏前后數(shù)據(jù)間的平均絕對誤差0~2.13時為偏差性較低,2.13~4.63時為偏差性中等,4.63T/CSACXXXX—XXXX以上為偏差性較高。脫敏前后數(shù)據(jù)間的歐氏距離0~7.04時為偏差性較低,7.04~9.38時為偏差性中等,9.38以上為偏差性較高;c)確定信息損失性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的信息熵差值和互信息。評估指標為脫敏前后數(shù)據(jù)間的信息熵差值0~0.06時為信息損失性低,0.06~4.36時為信息損失性中等,4.36以上信息損失性高。脫敏前后數(shù)據(jù)間的互信息為0.8~1.0時為信息損失性低,0.4~0.8為信息損失性中等,0~0.4為信息損失性高;d)確定復雜性的評估為脫敏算法的時間復雜度和空間復雜度。評估指標為脫敏算法的時間復雜度小于0(logn)為復雜性低,O(logn)o(n)間為復雜性中等,大于o(n)為復雜性高。脫敏算法的空間復雜度小于等于o(1)為復雜性低,為o(n)為復雜性中等,大于on2)為復雜性高。A.5可逆性評估本次脫敏使用的脫敏算法類別為泛化技術,使用k-匿名算法,判斷該脫敏算法為不可逆算法,參數(shù)k=3,數(shù)據(jù)量為9條,通過脫敏后的隱私信息還原出原始隱私信息的概率為0.1,故本次脫敏任務中的可逆性低。A.6信息偏差性評估計算得到脫敏前后數(shù)據(jù)的平均絕對誤差為13.44,依據(jù)評估指標13.44>4.64,脫敏前后數(shù)據(jù)的歐氏距離為11.00,依據(jù)評估指標11.00>9.38,故本次脫敏效果中的偏差性高。A.7信息損失性評估計算得到脫敏前數(shù)據(jù)的信息熵為3.17。脫敏后數(shù)據(jù)的信息熵為1.58。脫敏前后數(shù)據(jù)的信息熵差值為1.59,依據(jù)評估指標0.06<1.59<4.36,脫敏前后數(shù)據(jù)的互信息為0.48,依據(jù)評估指標0.4<0.48<0.8,故本次脫敏效果中的信息損失性中等。A.8復雜性評估分析k-匿名算法的時間復雜度為o(n*log(m)),空間復雜度為o(n),故本次脫敏效果中的復雜性高。A.9評估報告生成對可逆性評估結果、信息偏差性評估結果、信息損失性評估結果、復雜性評估結果進行加權操作,得出算法能力的綜合評估結果。T/CSACXXXX—XXXX脫敏算法分類示例B.1概述本附錄以脫敏算法的按需選擇為例,根據(jù)脫敏算法的實現(xiàn)原理、應用場景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類技術。在本示例中,分別介紹基于差分隱私技術的脫敏算法描述示例、基于泛化的脫敏算法描述示例、基于匿名的脫敏算法描述示例和基于置換的脫敏算法描述示例,,供執(zhí)行脫敏算法選擇操作時參考。B.2基于差分隱私技術的脫敏算法表B.1給出了27種基于差分隱私技術的脫敏算法描述示例。表B.1基于差分隱私技術的脫敏算法描述示例1nism2Noisyaplace3NoisyMax3表4 56789ntialMmNoisyT/CSACXXXX—XXXXNoisyMax4Vectorue1Vectorue2Vectorue3表Vectorue4表輸入:數(shù)值列表Vectorue5輸入:數(shù)值列表Vectorue6輸入:數(shù)值列表Numeric表輸入:數(shù)值列表組por組輸入:數(shù)值列表T/CSACXXXX—XXXXnNoisy組NoisyB.3基于泛化技術的脫敏算法表B.2給出了22種基于泛化技術的脫敏算法描述示例。表B.2基于泛化技術的脫敏算法描述示例1n2輸入:數(shù)值34息別5p_replace61參數(shù):用戶id、進入區(qū)域的時間、區(qū)域點集73參數(shù):用戶id、進入區(qū)域的時間、區(qū)域點集8_reduction9輸入:圖像blur輸入:圖像T/CSACXXXX—XXXXbox_blur輸入:圖像輸入:圖像輸入:圖像輸入:視頻blur_video輸入:視頻box_blur_輸入:視頻輸入:視頻o輸入:視頻輸入:音頻c輸入:音頻輸入:音頻輸入:音頻B.4基于匿名技術的脫敏算法表B.3給出了12種基于匿名技術的脫敏算法描述示例。表C.3基于匿名技術的脫敏算法描述示例12輸入:經緯度參數(shù):匿名度k,匿名區(qū)域面積s_cd,圓環(huán)內徑系數(shù)rho3輸入:經緯度參數(shù):匿名度k,匿名區(qū)域面積s_cdT/CSACXXXX—XXXX4alCloagorithm輸入:經度、緯度參數(shù):最小匿名度k,橫縱坐標范圍c5輸入:經度、緯度6ymity與真實位置一起形成K-匿名輸入:經度、緯度參數(shù):匿名度k、虛擬位置庫經緯度789iversity數(shù)量,用于調節(jié)某一敏感屬性出現(xiàn)的次數(shù),用件輸入:經度、緯度參數(shù):匿名度k、虛擬位置庫經緯度用于返回距離用戶最近的k輸入:經度、緯度參數(shù):匿名度k、所有用戶經緯度B.5基于置換技術的脫敏算法表B.4給出了19種基于置換技術的脫敏算法描述示例。表B.4基于置換技術的脫敏算法描述示例12Shift3T/CSACXXXX—XXXX45據(jù)6從第2個字符用*代替,返回處理后的字7字符串中間的字符用*代替,返回處理后89將圖像的每個像素的RGB通道值隨機打將圖像的每個像素的RGB通道值加上一將每一幀的每個像素RGB通道值加上一video_remove_bg20T/CSACXXXX—XXXX可逆性的計算方法C.1概述可逆性可以通過逆向映射、字典攻擊、統(tǒng)計攻擊、機器學習等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計攻擊、機器學習的方法描述,可供隱私脫敏的組織者參考。C.2逆向映射逆向映射是一種簡單的可逆性評估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準確還原原始數(shù)據(jù),說明脫敏算法不安全。逆向映射的關鍵在于找到逆向映射函數(shù)或算法,使得脫敏結果能夠被逆向操作還原。C.3字典攻擊字典攻擊是一種基于預先構建的字典或映射表來還原脫敏結果的方法。攻擊者通過窮舉字典中的映射關系,嘗試將脫敏結果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機化技術或其他安全措施,使得字典攻擊的成功率極低。C.4統(tǒng)計分析統(tǒng)計分析是一種基于脫敏結果統(tǒng)計特征來推斷原始數(shù)據(jù)的方法。攻擊者通過分析脫敏結果的統(tǒng)計特征,如頻率分布、均值、方差等,來推測原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過添加噪音、擾動或其他技術來破壞統(tǒng)計特征,從而提高脫敏結果的安全性。C.5機器學習攻擊機器學習攻擊是一種利用機器學習模型來還原脫敏結果的方法。攻擊者可以使用機器學習算法,通過訓練模型來學習脫敏結果與原始數(shù)據(jù)之間的映射關系,一旦攻擊者成功構建了準確的模型,即可使用該模型將脫敏結果還原回原始數(shù)據(jù)。為了抵御機器學習攻擊,脫敏算法需要采用對抗性機器學習技術或其他防御機制,使得攻擊者難以構建準確的模型。21T/CSACXXXX—XXXX信息偏差性的計算方法D.1概述信息偏差性可以通過計算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關計算信息偏差性的方法,可供隱私脫敏的組織者參考。D.2均方誤差對于兩個數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來衡量它們之間的差異程度的統(tǒng)計指標。它的作用是評估模型預測或擬合的準確性,或者比較兩個數(shù)據(jù)集之間的差異程度。均方誤差的計算公式如下:n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第i個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.3均絕對誤差對于兩個數(shù)據(jù)集X和Y,平均絕對誤差(MeanAbsoluteError,MAE)是用來衡量它們之間的差異程度的統(tǒng)計指標。它的作用是評估模型預測或擬合的準確性,或者比較兩個數(shù)據(jù)集之間的差異程度。平均絕對誤差的計算公式如下:其中,n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第yi個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均絕對誤差,平均絕對誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對誤差越小,表示脫敏操作引入的偏差越小。平均絕對誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.4Kullback-Leibler散度對于兩個離散分布P和Q,其中P表示真實分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來衡量它們之間的差異程度的統(tǒng)計指標。它的作用是評估一個概率分布相對于另一個概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個數(shù),表示P分布中第i個元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。22T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的偏差,可以計算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運用的數(shù)據(jù)模態(tài)為:編碼型。D.5歐氏距離的計算方法歐式距離(Euclideandistance,ED)是指兩個n維向量之間的距離,即歐理距離。計算兩個向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的歐氏距離,如果歐氏距離較小,則說明脫敏操作引入的偏差較小,反之則說明脫敏操作引入的偏差較大。歐氏距離可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.6余弦距離的計算方法余弦距離(Cosinedistance,CD)是指兩個向量之間的夾角余弦值,用于衡量它們的相似度。計算兩個向量和y的歐氏距離的公式如下:其中,是兩個向量的點集,llxll和Ilyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說明脫敏操作引入的偏差較小,如果余弦距離接近0,則說明脫敏操作引入的偏差較大。余弦距離可運用的數(shù)據(jù)模態(tài)為:音頻型。D.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡稱PSNR)是一種用于衡量兩個數(shù)據(jù)集之間的重建質量或差異程度的指標。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個數(shù)據(jù)集的質量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計算兩個數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號的最大可能取值(對于8位圖像通常為255),MSE表示均方誤差,是兩個數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。23T/CSACXXXX—XXXXD.8結構相似性指數(shù)結構相似性指數(shù)(StructuralSimilarityIndex,簡稱SSIM)是一種用于衡量兩個圖像之間結構相似度的指標。它綜合考慮了亮度、對比度和結構等因素,能夠更準確地評估圖像的相似度。SSIM的計算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λaz其中,和y表示兩個圖像,l(x,y)表示亮度相似度,c(x,y)表示對比度相似度,s(x,y)表示結構相似度,a是一個參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的結構相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結構相似性指數(shù)接近1,則說明脫敏操作引入的偏差較小,如果結構相似性指數(shù)接近0,則說明脫敏操作引入的偏差越小。結構相似性指數(shù)可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。D.9平均數(shù)平均數(shù)(Average,AVE)是一種常見的統(tǒng)計量,通過比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進行比較和分析。平均數(shù)的計算公式如下:其中,表示數(shù)據(jù)集中的第i個數(shù)據(jù)點,N表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進行比較和分析。中位數(shù)的計算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為偶數(shù),中位數(shù)是排序后中間兩個數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.11標準差標準差(StandardDeviation,縮寫為SD)是用來衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計量。標準差可以用來比較不同數(shù)據(jù)集之間的離散程度。計算數(shù)據(jù)集標準差的公式如下:24T/CSACXXXX—XXXX其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點,表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的標準差的差值。標準差的差值越大,表示脫敏操作引入的偏差越大,標準差的差值越小,表示脫敏操作引入的偏差越小。標準差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.12方差方差(Variance,Var)是一種統(tǒng)計量,用于描述數(shù)據(jù)集內數(shù)據(jù)點的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點的分布情況和數(shù)據(jù)的穩(wěn)定性,經常用于比較不同數(shù)據(jù)集之間的差異或進行數(shù)據(jù)篩選。計算方差的公式如下:其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點,表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.13最大值最大值(MaximumValue,縮寫為Max)是數(shù)據(jù)集中的最大觀測值,它表示數(shù)據(jù)集中的最高點或最大的數(shù)據(jù)點。最大值可以幫助確定數(shù)據(jù)集中的極端值,幫助了解數(shù)據(jù)的范圍和數(shù)據(jù)的分布情況,在數(shù)據(jù)分析和統(tǒng)計中,最大值經常用于比較不同數(shù)據(jù)集之間的差異或進行數(shù)據(jù)篩選。計算最大值的公式如下:Max=max(x1,x2,…,xn)其中,X1,X2,…,xn表示數(shù)據(jù)集中的數(shù)據(jù)點,而Max表示數(shù)據(jù)集的最大值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的最大值的差值。最大值的差值越大,表示脫敏操作引入的偏差越大,最大值的差值越小,表示脫敏操作引入的偏差越小。最大值可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.14最小值最小值(MinimumValue,縮寫為Min)是數(shù)據(jù)集中的最小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論