2022年數(shù)據(jù)價值釋放與隱私保護計算應用研究報告_第1頁
2022年數(shù)據(jù)價值釋放與隱私保護計算應用研究報告_第2頁
2022年數(shù)據(jù)價值釋放與隱私保護計算應用研究報告_第3頁
2022年數(shù)據(jù)價值釋放與隱私保護計算應用研究報告_第4頁
2022年數(shù)據(jù)價值釋放與隱私保護計算應用研究報告_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)價值釋放與隱私保護計算應用研究報告(2022年)目錄一、數(shù)據(jù)概念內涵及價值 1(一)數(shù)據(jù)定義 1(二)數(shù)據(jù)的特征 2(三)數(shù)據(jù)的價值 3(四)隱私保護計算助力數(shù)據(jù)價值釋放 5二、隱私保護計算技術概述 8(一)隱私保護計算及其關鍵技術 8(二)基于隱私保護計算技術的數(shù)據(jù)流通模式 10(三)基于隱私保護計算技術的數(shù)據(jù)流通場景 13三、隱私保護計算技術落地應用案例 14(一)金融行業(yè)應用案例 14(二)醫(yī)療行業(yè)應用案例 36(三)政務行業(yè)應用案例 46四、隱私保護計算技術應用困境及建議 52圖目錄圖1DIKW模型 4圖3數(shù)據(jù)價值釋放路徑模型 8圖2基于隱私保護計算技術的數(shù)據(jù)流通模式 圖4銀行與外部數(shù)據(jù)源對接示意圖 17圖5橫向聯(lián)邦反欺詐模型指標對比 23圖6基于匿蹤查詢技術提供銀行間隱私黑名單查詢服務 24圖7匿蹤查詢業(yè)務流程 25圖8隱匿查詢雙盲方案 28圖9數(shù)據(jù)流與管控流分離 28圖10基于區(qū)塊鏈隱私保護計算的大數(shù)據(jù)智能風控產品技術架構 33圖聯(lián)合建模前后不良貸款率對比 35圖12融合外部數(shù)據(jù)的建模效果 35圖13全基因組關聯(lián)分析結果的曼哈頓圖 40圖14傳統(tǒng)方案和隱私保護計算平臺技術方案架構對比 40圖15基于隱私保護計算服務平臺的聯(lián)合DRG建模的流程 44圖16PHEV與BEV充電負荷曲線 50圖17電動汽車充電總負荷曲線 50表目錄表1DIKW模型解釋 5表2基于數(shù)據(jù)流通的場景分類 13表3傳統(tǒng)計算方案與隱私保護計算反欺詐方案對比 18表4傳統(tǒng)計算方案與隱匿查詢雙盲方案對比 29表5傳統(tǒng)解決方案與隱私保護計算解決方案對比 34表6P值最高的單核苷酸多態(tài)性列表 39表7傳統(tǒng)方案和隱私保護計算平臺技術方案性能對比 41表8傳統(tǒng)技術方案與安全計算平臺創(chuàng)新方案對比 51數(shù)據(jù)價值釋放與隱私保護計算應用研究報告(2021數(shù)據(jù)價值釋放與隱私保護計算應用研究報告(2021年)PAGEPAGE10一、數(shù)據(jù)概念內涵及價值(一)數(shù)據(jù)定義(DAMA)1ISO/IEC合于交流、解釋或處理的形式化方式對信息進行可重新解釋的表示并。(二)數(shù)據(jù)的特征事實相關性:數(shù)據(jù)是對客觀事實的描述,是與客觀事實相關的、無序的、未經加工處理的原始材料。01(三)數(shù)據(jù)的價值的“數(shù)據(jù)-信息-知識-智慧”(Data-Information-Knowledge-Wisdom,DIKW)(1DIKW模DIKW模型的理解(1),圖1DIKW模型

來源:中國信息通信研究院數(shù)據(jù)信息,解決“知是何”(Who,When,Where,What)以及(Why)(Howto)的問題。智慧is表1DIKW模型解釋數(shù)據(jù)信息知識智慧核心內涵陳述Representation描述Descriptions解釋和指導ExplanationsInstructions預測和判斷Prediction特征事實依賴/無意義有意義/邏輯性本質性/原則性/經驗性/指導性啟示性解決問題知有無知是何who,where知為何、知何為why,howto知最優(yōu)whatisthebest時間維度過去和現(xiàn)在未來意義指導“正確”做事的事來源:中國信息通信研究院(四)隱私保護計算助力數(shù)據(jù)價值釋放立足國家“十四五”規(guī)劃綱要的“數(shù)字中國”遠景目標,隱私保打造數(shù)字經濟競爭優(yōu)勢,驅動生產方式變革加快數(shù)字社會建設步伐,驅動生活方式變革提高數(shù)字政府建設水平,驅動治理方式變革一是有二是激發(fā)安全技術創(chuàng)新活力,營造良好數(shù)字生態(tài)一助力(3)。來源:中國信息通信研究院圖3數(shù)據(jù)價值釋放路徑模型二、隱私保護計算技術概述(一)隱私保護計算及其關鍵技術(Privacy-Preserving是一套包含人工智能、密碼學、數(shù)據(jù)科學等眾多領域交叉融合的跨學科技術體系3。它安全多方計算(SecureMulti-PartyComputation,SMPC),由中國科學院院士姚期智于1982年通過“百萬富翁問題”提出,旨在解3中國信通院《隱私保護計算技術研究報告》(Federated(Homomorphic(DifferentialDwork2006年針對二是(Confidential基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計算來保護數(shù)據(jù)應用中的隱私安全4。其基本原理是將需5。(二)基于隱私保護計算技術的數(shù)據(jù)流通模式和如圖2):4ConfidentialComputingDeepDivev1.05中國信通院《隱私保護計算與合規(guī)應用研究報告》來源:中國信息通信研究院圖2基于隱私保護計算技術的數(shù)據(jù)流通模式可信環(huán)境模式IntelSGX,ARMTrustZone等,較容易產生供應商鎖定等供應可證模式是指數(shù)據(jù)的運算態(tài)或結果態(tài)的安全性可由其使用的密碼算法的理論該模式的優(yōu)勢是其采用基于密碼學的安全多方計算和同態(tài)加密可度量模式該技術的優(yōu)勢是能夠實現(xiàn)隱私風險的量化評估,但是會對數(shù)據(jù)的精度形成不可忽略的影響,因此對精度要求較高的場景需酌情使用。(三)基于隱私保護計算技術的數(shù)據(jù)流通場景(2)。表2基于數(shù)據(jù)流通的場景分類序號特點介紹參與方式需要保護的數(shù)據(jù)隱私保護相關技術典型應用場景1單數(shù)據(jù)方主動開放數(shù)據(jù)擁有方主(單方發(fā)布數(shù)據(jù)的個人信息和敏感內容。差分隱私等數(shù)據(jù)等。2無數(shù)據(jù)方申請使用無數(shù)據(jù)方提供根據(jù)查詢條件進行查詢并反饋查詢結果。的數(shù)據(jù)PSI、PIR等征信查詢、訂單查詢、敏感疾病查詢等。3多數(shù)據(jù)方聯(lián)合計算雙方或多方各數(shù)據(jù)方的數(shù)據(jù)安全多方計算、聯(lián)邦學習、可信執(zhí)行環(huán)境聯(lián)合風控、聯(lián)合營銷等。來源:中國信息通信研究院對數(shù)據(jù)進行脫敏處理或使用差分隱私等技術時往往會給數(shù)據(jù)加入噪保障了數(shù)據(jù)和個人隱私的安全。包括隱私集合求交PSI和隱私信息檢索PIR等。三、隱私保護計算技術落地應用案例(一)金融行業(yè)應用案例基于隱私保護計算縱向聯(lián)邦的銀行交易反欺詐案例在加速金融業(yè)與信息科技的創(chuàng)新融合。金融科技(FinTech)在使支APP等多個工具,各機構的+(4)。來源:隱私保護計算服務提供商圖4銀行與外部數(shù)據(jù)源對接示意圖PSI功能6,以縱向聯(lián)邦的方式,(6PSI功能:允許持有各自集合的兩方共同計算兩個集合的交集。在協(xié)議交互的最后,一方或是兩方應該得到正確的交集,而且不會得到交集以外另一方集合中的任何信息。(崔泓睿,劉天怡,郁昱等:《多方安全計算熱點:隱私保護集合求交技術(PSI)分析研究報告》,2019.)3所示模型的模型評估指標C可以達到080.51表3傳統(tǒng)計算方案與隱私保護計算反欺詐方案對比方案反欺詐模型準確性反欺詐效率是否引入同行業(yè)標簽數(shù)據(jù)源實時性傳統(tǒng)方案低低否否低隱私保護計算反欺詐方案高高是是高來源:隱私保護計算服務提供商7AUC:機器學習領域中的一種模型評估指標:其值越接近1則代表模型效果越好。8KS:機器學習領域中的一種模型風險區(qū)分能力評估指標:其值越大則模型的風險區(qū)分能力越強。AI9的(避免了各方分別轉換算法所需的定制化改造帶來的巨大工作量和時間成本。20-40中小銀行間橫向反欺詐建模和黑名單共享案例9(DataFlow傳遞另一AB的反欺詐模型共建試點項目為例,在該反欺A和銀行B分別提供欺詐樣本數(shù)據(jù),包括(來源:隱私保護計算服務提供商圖5橫向聯(lián)邦反欺詐模型指標對比在模型效果方面(5所示)AB分別在本地構建反欺詐模型,模型評估指標AUC0.71,風險區(qū)分能力評估指標KS0.231C值和S040.355。由此可見,基于隱私保護計算技術的橫向聯(lián)邦應用為金融(6)。來源:隱私保護計算服務提供商圖6基于匿蹤查詢技術提供銀行間隱私黑名單查詢服務ID的前IDID為客戶身份三要素信息(姓名、身份證號、手機號),待查ID和各維度ID的黑名單在實際匿蹤查詢業(yè)務中(7所示),X要判斷一個客ID是否存在于本行查詢技術,向銀行A、銀行B、銀行CID是否在其黑來源:隱私保護計算服務提供商圖7匿蹤查詢業(yè)務流程AB分別提供百萬級別的訓練樣本,A、銀行、銀行C720ms420M,可基于隱私保護計算技術的同業(yè)風控聯(lián)盟案例移動互聯(lián)網及大數(shù)據(jù)技術的蓬勃發(fā)展加速了數(shù)字經濟時代的到3人行征信報告主要通過匯總和加工各家金融機構主動上報的信(粒度為天的征信報告無法幫助金融機構及時識別短時多頭借貸的用安全隱私風險:傳統(tǒng)的外部三方數(shù)據(jù)查詢一般需要查詢方將經MD5SHA256處理后的用戶唯一標識發(fā)送至數(shù)據(jù)提供方,并通過APIIDMD5加密之后進行對比,相等則即可識別出參與信息報送的金融機構數(shù)量及其用戶量影響著征信報告的覆蓋度另一盟模式下,客戶名單共享易造成客戶流失,以致金融機構彼此提防,數(shù)據(jù)共享意愿低。(8)。來源:隱私保護計算服務提供商圖8隱匿查詢雙盲方案來源:隱私保護計算服務提供商圖9數(shù)據(jù)流與管控流分離(9),4都有明顯改善(如表4所示)。表4傳統(tǒng)計算方案與隱匿查詢雙盲方案對比對比項傳統(tǒng)方案隱匿查詢雙盲方案數(shù)據(jù)安全查詢數(shù)據(jù)可被解析,存在數(shù)據(jù)泄露風險數(shù)據(jù)不出本地的前提下多方聯(lián)合計算,有效降低數(shù)據(jù)泄露風險數(shù)據(jù)實時性多頭名單數(shù)據(jù)更新不及時,金融機構無法第一時間識別風險可實時更新聯(lián)盟多頭數(shù)據(jù)數(shù)據(jù)質量助貸查詢多資方模式導致查詢被污染參與方彼此直連,保證數(shù)據(jù)質量數(shù)據(jù)開放生態(tài)無法避免客戶流失帶來的同業(yè)競爭,參與方數(shù)據(jù)共享意愿低身份雙盲設計,參與方可放心進行數(shù)據(jù)共享,提升生態(tài)開放性來源:隱私保護計算服務提供商100融機構,日均計算量達到60多萬,滿足實時多頭數(shù)據(jù)預警應用場景的業(yè)務需求,后續(xù)可增設場景解決授權額度共享等痛點問題?;趨^(qū)塊鏈和隱私保護計算技術的小微企業(yè)智能風控產品案例95%傳統(tǒng)解決方案是將經脫敏技術處理后的多方數(shù)據(jù)聚集在一起進行計1010業(yè)界常用于加密散列函數(shù)逆運算的預先計算好的表,為破解密碼散列值的工具。受法來源:隱私保護計算服務提供商圖10基于區(qū)塊鏈隱私保護計算的大數(shù)據(jù)智能風控產品技術架構10所示),豐富了信貸用戶風控數(shù)據(jù)特征維(5)。表5傳統(tǒng)解決方案與隱私保護計算解決方案對比對比項傳統(tǒng)解決方案隱私保護計算解決方案參與方數(shù)據(jù)聚合一方后進行計算分析多方聯(lián)合分布式計算特征維度受制于數(shù)據(jù)安全,特征維度缺失多方聯(lián)合,幾乎涵蓋全部特征維度計算效率單一節(jié)點計算效率低數(shù)據(jù)并行計算,多方聯(lián)合,顯著提高效率計算精度有損失無損失數(shù)據(jù)安全性多方參與數(shù)據(jù)出域,存在極大安全隱患數(shù)據(jù)不出域,實現(xiàn)數(shù)據(jù)的“可用不可見”來源:隱私保護計算服務提供商構等十余家跨行業(yè)數(shù)據(jù)源提供的上千個數(shù)據(jù)維度的外部大數(shù)據(jù)進行1.8111C11cre14recsn)11F1分數(shù)(F1Score):統(tǒng)計學中用來衡量二分類模型精確度的一種指標。從62.2%提升到70.0%,提升幅度13%,召回率(Recall)提升59%(如圖12所示),大大提升了銀行的大數(shù)據(jù)風控應用能力。來源:隱私保護計算服務提供商圖11聯(lián)合建模前后不良貸款率對比來源:隱私保護計算服務提供商圖12融合外部數(shù)據(jù)的建模效果3塊鏈和隱私保護計算技術保護了數(shù)據(jù)提供者和數(shù)據(jù)使用者雙方的數(shù)(二)醫(yī)療行業(yè)應用案例全基因組安全聯(lián)邦學習分析案例(Genome-WideAssociationGWAS是指在人類全基因組范圍內篩選出與疾病相關的變異序列,即單核苷酸多態(tài)性(SNPs)。傳統(tǒng)的GWAS解決方案需要以足夠大的病例和對照樣本數(shù)量為基礎,對其所有感興趣的SNPs進行基因分型,然后分析每個SNP與疾病的關聯(lián),計算其關聯(lián)強度和OR值12。在傳統(tǒng)的解決方案中,GWAS非常依賴大量基因數(shù)據(jù)的積累,樣本量不足是各項GWAS研究中的常見問題和困難。即使多方以豐一是12OR值:優(yōu)勢比,流行病學研究中病例對照研究的一個常用指標。二是個基因位點(SNPs)的數(shù)據(jù)就可以基本確定一個個體的身份。面對如此敏感的醫(yī)療數(shù)據(jù),當前GWAS依賴統(tǒng)一大數(shù)據(jù)平臺的實現(xiàn)方式其為制約GWAS強直性脊柱炎(AnkylosingSpondylitis,AS)是最常見的自身免1000萬強直性脊柱炎患者,人群龐大。研究發(fā)現(xiàn),該病與HLA-B2790%的相關性,因此開展強直性脊柱炎的GWASGWAS分析,為解決生物醫(yī)學數(shù)據(jù)開放共享問題提供了思路。隱私保護功能的安全聯(lián)邦學習(Privacy-preservingSecurityFederated表6P值最高的單核苷酸多態(tài)性列表單核苷酸多態(tài)性染色體位置P值exm-rs8863906303349945.00E-17exm-rs28447456303437036.00E-17exm-rs9702706303473065.00E-17rs9702706303473066.50E-17rs25166856303616087.20E-16rs122109476307351059.10E-16exm-rs43277306307809365.00E-15rs121927046307922707.30E-15exm-rs22548476309338488.20E-15exm-rs16347316309556812.10E-14exm-rs16193766309833265.00E-14exm5295056309934404.20E-13rs28941796310666716.30E-13exm-rs37348546310788364.33E-12exm5296536310792645.20E-11來源:隱私保護計算服務提供商(6分P13所示)可使得疾病相關的基因變異情況一目了然,為臨來源:隱私保護計算服務提供商圖13全基因組關聯(lián)分析結果的曼哈頓圖GWAS研究作為兼具隱私保護和跨機構數(shù)據(jù)(14所示);在研究過程中只交換加密的經過處理中間計算結(7)。來源:隱私保護計算服務提供商圖14傳統(tǒng)方案和隱私保護計算平臺技術方案架構對比表7傳統(tǒng)方案和隱私保護計算平臺技術方案性能對比對比項傳統(tǒng)方案隱私保護計算平臺參與方單一參與方或數(shù)據(jù)匯到一方后分析多方聯(lián)盟式合作數(shù)據(jù)樣本量受限于參與方或單一數(shù)據(jù)源樣本量多方合作顯著提高樣本規(guī)模及維度的豐富程度計算效率受限于單一節(jié)點計算效率多方聯(lián)邦模式計算,數(shù)據(jù)并行分析,顯著提高效率計算精度基礎參考標準與傳統(tǒng)技術方案比較均方誤差在10?22~10?28之間數(shù)據(jù)安全性多方參與時需要數(shù)據(jù)物理轉移,匯總分析,存在原始數(shù)據(jù)直接暴露的安全風險數(shù)據(jù)不出域的情況下完成聯(lián)合結果安全性計算結果不支持定向發(fā)放使用計算結果定向發(fā)放使用來源:隱私保護計算服務提供商基于隱私保護計算平臺打造的全基因組關聯(lián)分析引擎,能滿足GWAS(GB~TB(10+中心GWASGWAS基于“安全多方計算+DRG付費認較為先進和科學的醫(yī)保支付方式之一的“醫(yī)療診斷相關分組”(DiagnosisRelatedGroups,DRG)持續(xù)受到重視。DRG1313《國家醫(yī)療保障DRG分組與付費技術規(guī)范》機構,但在疾病診斷相關組-預付費(DRG-PPS)模式下,醫(yī)保部門就醫(yī)提供便利和保障,成為醫(yī)保DRG量,擴大數(shù)據(jù)規(guī)模,最終獲得了更準確的DRG分類模型,幫助醫(yī)療機構進行DRG預測。來源:隱私保護計算服務提供商圖15基于隱私保護計算服務平臺的聯(lián)合DRG建模的流程DRG15初始化:AB在本地進行隱私保護計算節(jié)數(shù)據(jù)準備AB將本地樣本數(shù)據(jù)加載到各6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論