區(qū)塊鏈與數(shù)據治理_第1頁
區(qū)塊鏈與數(shù)據治理_第2頁
區(qū)塊鏈與數(shù)據治理_第3頁
區(qū)塊鏈與數(shù)據治理_第4頁
區(qū)塊鏈與數(shù)據治理_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 專家解讀:區(qū)塊鏈與數(shù)據治理 摘 要 當下,大數(shù)據的“堰塞湖”已經形成,數(shù)據治理問題迫在眉睫。傳統(tǒng)的治理概念來自政府、企業(yè)、IT領域,數(shù)據治理既有其一般性,也有其特殊性。本文提出數(shù)據治理的根本保障在于增加大數(shù)據價值實現(xiàn)過程的透明性。區(qū)塊鏈憑借去中心、公開透明和不可篡改的特性與大數(shù)據價值實現(xiàn)的透明性需求相契合,能夠克服當前數(shù)據治理存在的問題,為數(shù)據治理提供了新的解決思路。同時,基于區(qū)塊鏈實現(xiàn)數(shù)據治理也面臨諸多挑戰(zhàn)。關鍵詞:數(shù)據治理;區(qū)塊鏈;隱私保護;溯源問責;決策可信 大數(shù)據時代,數(shù)據源源不斷產生并自主匯聚至多方數(shù)據收集者,數(shù)據已經成為企業(yè)間競爭的關鍵和影響國家競爭力的重要因素,由此數(shù)據治理成為

2、企業(yè)治理和國家治理的重點領域和重要方式1,2 。然而,大規(guī)模數(shù)據收集也帶來嚴峻的隱私泄露、數(shù)據濫用和數(shù)據決策不可信等問題,對傳統(tǒng)的數(shù)據治理提出了新的挑戰(zhàn)。例如,“Facebook-劍橋分析”事件3就是大規(guī)模數(shù)據收集導致的隱私泄露、數(shù)據濫用和決策不可信的典型案例。進一步,大規(guī)模數(shù)據自主匯聚還導致數(shù)據壟斷困境的出現(xiàn),使數(shù)據被不合理的分配與享用4。大數(shù)據的“堰塞湖”已經產生,如何使這些問題得到有效解決,并使數(shù)據得到正確和規(guī)范的使用是決定大數(shù)據繼續(xù)發(fā)揮價值的關鍵,也是目前數(shù)據治理亟待解決的問題。 上述問題產生的主要原因是大數(shù)據價值實現(xiàn)過程的不透明。大數(shù)據收集和共享流通過程不透明導致隱私泄露和數(shù)據濫用等

3、問題追蹤問責困難,并且致使數(shù)據壟斷問題悄然形成卻缺乏評估和解決依據;大數(shù)據存儲、處理和共享流通等過程中缺乏透明導致數(shù)據被篡改等問題難以被發(fā)現(xiàn),影響決策數(shù)據質量并最終導致數(shù)據決策不可信。由此可以得出,當前數(shù)據治理的根本保障在于增加大數(shù)據價值實現(xiàn)過程的透明性。數(shù)據收集和共享流通過程透明地對數(shù)據流向進行記錄,以溯源問責的方式進行隱私保護5和為解決數(shù)據壟斷提供依據;數(shù)據存儲、處理和共享流通等過程透明使決策數(shù)據可審計和促進數(shù)據決策可信。數(shù)據治理實現(xiàn)途徑有多種方式,除了法律法規(guī)和政策標準,還需要技術方法的保駕護航。區(qū)塊鏈起源于數(shù)字貨幣,具有公開透明、去中心和不可篡改的特性。該技術的進步發(fā)展為解決當前數(shù)據治

4、理面臨的問題帶來新的機遇6-10。 本文提出了數(shù)據治理的根本保障在于增加大數(shù)據價值實現(xiàn)過程中的透明性,總結了數(shù)據治理的發(fā)展歷程和技術上實現(xiàn)數(shù)據治理的關鍵內容,并對基于區(qū)塊鏈實現(xiàn)數(shù)據治理的研究現(xiàn)狀進行分析和總結,最后提出目前數(shù)據治理面臨的挑戰(zhàn)。1 數(shù)據治理概述介 “治理”(Governance)一詞起源于拉丁文“掌舵”(Steering),最初用于“政府治理”,目標是協(xié)調政府與其他社會主體之間的利益。后來逐漸受到企業(yè)的認同和重視,出現(xiàn)了“企業(yè)治理”,目標是協(xié)調企業(yè)內部利益相關者的利益。伴隨著IT資源和數(shù)據資源的日益豐富,又出現(xiàn)了“IT治理”和“數(shù)據治理”1,2。后來,由于大數(shù)據的流通性、多源數(shù)據

5、融合和涉及多方參與主體等應用特性,“數(shù)據治理”又進一步延伸,出現(xiàn)了“大數(shù)據治理”?!按髷?shù)據治理”關注大數(shù)據生命周期中數(shù)據生產者、數(shù)據收集者、數(shù)據使用者、數(shù)據處理者和數(shù)據監(jiān)管者等各方參與主體,其目標是在兼顧各方參與主體的權利、責任和利益的前提下發(fā)揮數(shù)據價值,即大數(shù)據價值實現(xiàn)和風險規(guī)避。由于“大數(shù)據治理”是“數(shù)據治理”的延伸,為避免混淆,本文后續(xù)內容采用“數(shù)據治理”的概念來探討大數(shù)據時代的數(shù)據治理。數(shù)據治理的發(fā)展過程和涉及的參與主體如圖1所示。 大數(shù)據的應用特性與數(shù)據治理的目標決定了當下數(shù)據治理的關鍵內容。目前,數(shù)據治理的關鍵內容和挑戰(zhàn)聚焦在以下3個方面:(1) 提高決策數(shù)據質量。大數(shù)據價值實現(xiàn)需

6、要多源數(shù)據的融合,然而大數(shù)據來源廣泛且生命周期內涉及多方參與主體,數(shù)據是否真實產生、數(shù)據被篡改和多源數(shù)據的標準和類型不一致等問題都會影響決策數(shù)據質量,進而影響數(shù)據使用者的數(shù)據決策結果。所以,數(shù)據治理需要支持大數(shù)據在其全生命周期內的溯源。(2) 評估與監(jiān)管個人隱私數(shù)據的使用。大數(shù)據應用的流通特征使數(shù)據生產者對數(shù)據獲取和共享缺乏知情權和控制權。作為數(shù)據生產者,用戶不知道哪些數(shù)據被收集、被誰收集、收集之后流向哪里和作何使用。同時,數(shù)據的收集匯聚導致數(shù)據壟斷現(xiàn)象出現(xiàn)。數(shù)據壟斷可能會阻礙市場競爭、使消費者福利受損、阻礙行業(yè)技術創(chuàng)新和帶來更嚴重的個人隱私泄露風險等問題,但數(shù)據監(jiān)管者卻無法對數(shù)據應用進行評估

7、和監(jiān)管;此外,大數(shù)據應用的多源數(shù)據融合特征還可能會引發(fā)更嚴峻的隱私泄露問題。所以,數(shù)據治理需要對個人隱私數(shù)據使用進行評估與監(jiān)管。(3) 促進數(shù)據共享。數(shù)據共享可以促進大數(shù)據價值實現(xiàn)和緩解數(shù)據壟斷,但同時也需要解決隱私保護等問題。一方面,數(shù)據共享雙方之間發(fā)生數(shù)據共享流通時,考慮到隱私問題,需要以有效的方式保護數(shù)據生產者的個人隱私。另一方面,限于法律和實際應用中的一些因素,需要在不直接傳輸原始數(shù)據情況下,依據多方數(shù)據持有者的數(shù)據實現(xiàn)分布式數(shù)據集進行統(tǒng)計分析和分布式機器學習。由于多方參與者之間不存在完全的可信性,此時應該能夠保護數(shù)據使用者對其共享過程進行驗證。所以,數(shù)據治理需要在權衡數(shù)據生產者和數(shù)據

8、使用者等參與主體利益的前提下促進數(shù)據共享。數(shù)據治理需要綜合法律法規(guī)、政策標準和技術方法等多種途徑實現(xiàn)。一方面,國際組織和國家相關部門出臺相應的法律法規(guī)和政策標準。例如,國際數(shù)據治理研究所從組織、規(guī)則和過程三方面總結數(shù)據治理的要素11;以及,國際標準ISO/IEC 38505-1:信息技術IT治理數(shù)據治理為數(shù)據治理參與主體提供原則、定義以及模型,幫助數(shù)據治理參與主體評估、指導和監(jiān)督其數(shù)據利用的過程12。另一方面,數(shù)據治理亟需安全、可靠的技術方法,為大數(shù)據應用過程中數(shù)據隱私保護、提高決策數(shù)據質量、促進數(shù)據共享和評估監(jiān)管數(shù)據應用的合規(guī)性等問題提供技術支持。圖1 數(shù)據治理發(fā)展過程和涉及的參與主體2 基

9、于區(qū)塊鏈實現(xiàn)數(shù)據治理區(qū)塊鏈本質上是一種去中心化的分布式數(shù)據庫,在增加大數(shù)據價值實現(xiàn)過程的透明性方面具有天然的優(yōu)勢,為解決當前數(shù)據治理的關鍵問題提供了可行性。2.1 支持審計的數(shù)據存儲和處理數(shù)據決策滲透在人們生產、生活的方方面面,由于涉及多方利益相關者,數(shù)據在存儲、處理和共享流通等過程中存在數(shù)據被篡改、數(shù)據偽造,以及不同來源數(shù)據的類型和標準規(guī)則差異等問題,這些問題都會影響決策數(shù)據質量。所以,數(shù)據使用者需要對決策數(shù)據進行審計。區(qū)塊鏈作為去中心化的分布式數(shù)據庫,可以實現(xiàn)支持審計的數(shù)據存儲和處理。此外,基于區(qū)塊鏈在不同利益主體之間構建去中心分布式數(shù)據庫系統(tǒng),數(shù)據通過全網快速廣播至各個利益主體,也能夠保

10、證數(shù)據共享流通的真實性和及時性。區(qū)塊鏈網絡內各節(jié)點都存儲數(shù)據,數(shù)據一旦存入區(qū)塊鏈就不會被篡改或者丟失,即使存在通信故障和蓄意攻擊等問題,也仍然能保證數(shù)據存儲的正確性,數(shù)據使用者可以對其進行審計。此外,將數(shù)據存入區(qū)塊鏈還支持數(shù)據處理過程和處理結果的可審計性。對于傳統(tǒng)的數(shù)據庫管理系統(tǒng),數(shù)據庫中存儲和維護當前數(shù)據狀態(tài),僅將數(shù)據處理過程等信息存在數(shù)據庫日志,用于故障恢復,并不支持數(shù)據的歷史狀態(tài)查詢。然而,區(qū)塊鏈作為去中心分布式數(shù)據庫,支持數(shù)據的歷史狀態(tài)查詢,用以確認當前數(shù)據狀態(tài)是否正確。基于區(qū)塊鏈進行數(shù)據存儲和處理,在保險13、醫(yī)療14-17和供應鏈18-21等數(shù)據完整性要求較高領域是有重要意義的。由

11、此,數(shù)據使用者可以對決策數(shù)據進行審計并在可信數(shù)據上執(zhí)行分析和進行決策22-25。針對不同來源數(shù)據的類型和標準規(guī)則不一致等問題,可以基于區(qū)塊鏈和智能合約制定統(tǒng)一的數(shù)據類型和標準規(guī)則。智能合約會被存儲和同步在區(qū)塊鏈各個節(jié)點,區(qū)塊鏈會根據智能合約上的代碼自動執(zhí)行驗證。由于智能合約的執(zhí)行過程公開透明,使其執(zhí)行過程和執(zhí)行結果是可審計的,能提高多源數(shù)據共享效率且不存在單點失敗。2.2 支持溯源問責的數(shù)據獲取和共享在傳統(tǒng)的數(shù)據獲取和數(shù)據共享過程,由數(shù)據收集者制定數(shù)據使用協(xié)議并據此告知用戶數(shù)據收集、共享和使用等信息。用戶作為數(shù)據生產者,對數(shù)據的知情權和可控權仍然限于法律約束和第三方信用背書。然而,由于數(shù)據獲取

12、和共享等過程對外不可見,其契約履行情況也無從考證。2014年皮尤研究中心關于美國隱私狀況的報告指出,91%的受訪者認為他們已經失去對數(shù)據收集者收集和使用個人數(shù)據的控制,61%的受訪者對不了解數(shù)據收集者如何使用個人數(shù)據感到沮喪26;2016年中國網民權益保護調查報告顯示,84%的網民對個人隱私泄露帶來的不良影響有深切的感受27。數(shù)據獲取和數(shù)據共享不透明導致隱私泄露問題更為嚴峻。傳統(tǒng)的加密、差分等隱私保護技術雖然對數(shù)據隱私具有一定的保護作用,但是目前還不足以應對大規(guī)模數(shù)據收集帶來的隱私泄露風險。應用區(qū)塊鏈的去中心性和不可篡改性,可以記錄數(shù)據的獲取和共享情況,進一步實施追蹤溯源,并結合策略承諾(Po

13、licy Compliance)、違反檢測(Violation Detection)和隱私審計(Privacy Audit),可以在隱私保護技術無效的情況下以溯源問責的方式保護隱私,也可以為評估監(jiān)管數(shù)據和解決數(shù)據壟斷問題提供技術支持。目前,已有研究利用區(qū)塊鏈增加移動應用28、醫(yī)療29,30和物聯(lián)網31-33等領域的數(shù)據獲取和共享流通的透明性?;趨^(qū)塊鏈實現(xiàn)數(shù)據獲取和共享的框架可以分為四層:數(shù)據獲取層存儲層區(qū)塊鏈層共享層。在數(shù)據獲取層,數(shù)據生產者對數(shù)據收集內容、形式和目的等具有知情權;在存儲層,采用傳統(tǒng)數(shù)據庫管理系統(tǒng)、云存儲和分布式存儲系統(tǒng)等方式存儲數(shù)據,并采用加密技術對數(shù)據進行加密來保護數(shù)據安

14、全和隱私;在區(qū)塊鏈層,由區(qū)塊鏈執(zhí)行去中心化的訪問控制,使任何數(shù)據訪問情況都通過區(qū)塊鏈的交易被記錄在區(qū)塊鏈;在共享層,實現(xiàn)數(shù)據共享并對共享關系進行保護。正是通過上述四層,區(qū)塊鏈增加數(shù)據獲取和共享流通的透明性。2.3 支持驗證的分布式數(shù)據統(tǒng)計分析和機器學習在醫(yī)學研究、公共安全和商業(yè)合作等一些應用領域,需要在大規(guī)模分布式數(shù)據集上執(zhí)行統(tǒng)計分析34-36和機器學習任務37-41,但考慮法律法規(guī)等因素的限制,需要在不泄露隱私數(shù)據前提下進行分布式數(shù)據統(tǒng)計分析和機器學習。針對分布式數(shù)據集統(tǒng)計分析,現(xiàn)有方案基于安全多方計算、秘密共享、本地化差分隱私和同態(tài)加密等技術實現(xiàn)。然而,安全多方計算方法不適用于大規(guī)模數(shù)據提

15、供者參與;秘密共享使數(shù)據提供者失去數(shù)據控制權;本地化差分隱私需要平衡數(shù)據的可用性和隱私損失;同態(tài)加密能夠保證數(shù)據提供者不失去數(shù)據控制權,而且不需要考慮隱私損失,但是實現(xiàn)的前提是數(shù)據提供者提供真實數(shù)據和計算節(jié)點的可信計算。針對分布式機器學習,由于數(shù)據提供者和數(shù)據需求者之間不存在完全的信任,各個數(shù)據提供者也可能會提供不可靠的數(shù)據或參數(shù)擾亂最終結果,以及由于經濟利益等因素提前退出。所以,數(shù)據使用者需要對分布式數(shù)據集統(tǒng)計分析和分布式機器學習進行驗證,以及需要合理的經濟激勵促進其順利執(zhí)行。基于區(qū)塊鏈實現(xiàn)可驗證的分布式數(shù)據集統(tǒng)計分析常包括數(shù)據提供者、多個計算節(jié)點、多個驗證節(jié)點和數(shù)據查詢者。其中,數(shù)據提供者

16、提供加密數(shù)據,多個結算節(jié)點執(zhí)行密文計算,由區(qū)塊鏈組成多個驗證節(jié)點并對計算節(jié)點的計算進行驗證。除此之外,分布式數(shù)據集統(tǒng)計分析需要考慮數(shù)據機密性、數(shù)據提供者和數(shù)據之間不可連接性、查詢結果機密性和計算結果的魯棒性等安全和隱私問題。為此通常采用洗牌和同態(tài)加密等技術進行保護?;趨^(qū)塊鏈實現(xiàn)可驗證的和公平的分布式機器學習,數(shù)據提供者將本地機器學習參數(shù)上傳和存儲至區(qū)塊鏈,由區(qū)塊鏈執(zhí)行交叉驗證,將分布式機器學習過程的每一步都記錄在區(qū)塊鏈。同時,還可以結合零知識證明和密碼學承諾對惡意的參與方進行經濟懲罰,通過經濟激勵促進公平。除此以外,分布式機器學習需要考慮數(shù)據提供者本地參數(shù)的安全性,因為本地參數(shù)也可能會泄露數(shù)

17、據或者機器學習模型。為此通常采用差分隱私、秘密共享和同態(tài)加密等技術對其進行保護。3 挑戰(zhàn)與問題區(qū)塊鏈為數(shù)據治理提供了新的思路,但數(shù)據治理具體實現(xiàn)過程中也將面臨諸多挑戰(zhàn),同時對區(qū)塊鏈自身技術有了更高的要求。此外,基于區(qū)塊鏈實現(xiàn)數(shù)據治理會導致政府和企業(yè)的管控機制和業(yè)務流程發(fā)生重大變革,這將對政府管理和企業(yè)管理提出新挑戰(zhàn)。目前,數(shù)據治理實現(xiàn)過程面臨的挑戰(zhàn)與問題主要包括以下3個方面:(1) 數(shù)據治理實現(xiàn)過程中面臨的挑戰(zhàn)。一方面,雖然將數(shù)據共享流通信息記錄在區(qū)塊鏈可以實現(xiàn)溯源問責,但是在大規(guī)模數(shù)據收集和數(shù)據共享流通錯綜復雜背景下,如何實現(xiàn)跨平臺和跨領域的溯源問責是具有挑戰(zhàn)性的問題。同時,溯源問責也可能會

18、帶來隱私泄露問題,所以溯源問責過程的隱私保護也至關重要。另一方面,雖然將數(shù)據存入區(qū)塊鏈,可以一定程度上防止數(shù)據篡改和保證數(shù)據可以進行追蹤溯源,但是保證數(shù)據存入區(qū)塊鏈之前的真實性和可靠性仍存在挑戰(zhàn)。(2) 對區(qū)塊鏈自身技術提出的新挑戰(zhàn)。區(qū)塊鏈自身的存儲需求限制、隱私與安全、可擴展性和互操作性等方面還存在大量待解決的問題,現(xiàn)有比特幣、以太坊和超級賬本等主流的區(qū)塊鏈還不能滿足數(shù)據治理的需求。為此應該考慮設計輕量級的、高可擴展的、互聯(lián)通性較強的適用于數(shù)據治理需求的區(qū)塊鏈。同時,伴隨著各類區(qū)塊鏈系統(tǒng)的出現(xiàn),區(qū)塊鏈系統(tǒng)評價標準與評估規(guī)范也成為亟待解決的問題。(3) 對政府管理和企業(yè)管理提出的挑戰(zhàn)。區(qū)塊鏈的去中心化特性將打破傳統(tǒng)的中心化管理方式,對政府和企業(yè)的管理權威帶來挑戰(zhàn);同時,去中心化特性還會使數(shù)據安全和保密的責任置于多方,對政府和企業(yè)的數(shù)據管理等方面帶來新的挑戰(zhàn)。此外,基于區(qū)塊鏈實現(xiàn)數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論