大數(shù)據(jù)概論及應(yīng)用實(shí)踐 課件 劉愛芹 第7-11章 大數(shù)據(jù)安全-大數(shù)據(jù)應(yīng)用_第1頁
大數(shù)據(jù)概論及應(yīng)用實(shí)踐 課件 劉愛芹 第7-11章 大數(shù)據(jù)安全-大數(shù)據(jù)應(yīng)用_第2頁
大數(shù)據(jù)概論及應(yīng)用實(shí)踐 課件 劉愛芹 第7-11章 大數(shù)據(jù)安全-大數(shù)據(jù)應(yīng)用_第3頁
大數(shù)據(jù)概論及應(yīng)用實(shí)踐 課件 劉愛芹 第7-11章 大數(shù)據(jù)安全-大數(shù)據(jù)應(yīng)用_第4頁
大數(shù)據(jù)概論及應(yīng)用實(shí)踐 課件 劉愛芹 第7-11章 大數(shù)據(jù)安全-大數(shù)據(jù)應(yīng)用_第5頁
已閱讀5頁,還剩211頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章

大數(shù)據(jù)安全大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第7章

數(shù)據(jù)可視化數(shù)據(jù)時(shí)代,數(shù)據(jù)的安全問題愈發(fā)明顯。大數(shù)據(jù)因其蘊(yùn)藏的巨大價(jià)值和集中化的存儲(chǔ)管理模式,更易成為網(wǎng)絡(luò)攻擊的重點(diǎn)目標(biāo),針對(duì)大數(shù)據(jù)的勒索攻擊和數(shù)據(jù)泄露問題日益嚴(yán)重,全球范圍內(nèi)大數(shù)據(jù)安全事件頻發(fā)。大數(shù)據(jù)安全問題是人類社會(huì)在信息化發(fā)展過程中無法回避的問題,它將網(wǎng)絡(luò)空間與現(xiàn)實(shí)社會(huì)連接得更緊密了,使傳統(tǒng)安全問題與非傳統(tǒng)安全熔于一爐,不僅給個(gè)人和企業(yè)帶來了威脅,甚至還可以危及和影響社會(huì)安全、國(guó)家安全。本章首先介紹傳統(tǒng)的數(shù)據(jù)安全問題,并指出大數(shù)據(jù)安全與傳統(tǒng)信息安全的不同,然后討論了大數(shù)據(jù)保護(hù)的基本原則,給出了大數(shù)據(jù)時(shí)代數(shù)據(jù)安全和隱私保護(hù)的支撐技術(shù)以及對(duì)策,最后通過相關(guān)的典型案例闡述數(shù)據(jù)安全泄露帶來的巨大影響,并簡(jiǎn)要介紹目前各國(guó)保護(hù)數(shù)據(jù)安全的實(shí)踐。目錄CONTENTS概述7.1大數(shù)據(jù)保護(hù)的基本原則 7.2數(shù)據(jù)安全與隱私保護(hù)的支撐技術(shù)7.3本章小結(jié)7.6習(xí)題7.7數(shù)據(jù)安全與隱私保護(hù)的對(duì)策7.4概

述PART01

一般來說,數(shù)據(jù)安全主要包括兩個(gè)層面:一是數(shù)據(jù)防護(hù)的安全,二是數(shù)據(jù)內(nèi)容的安全。7.1.1

大數(shù)據(jù)安全與傳統(tǒng)信息安全的異同從表面看,數(shù)據(jù)安全與傳統(tǒng)信息安全很多方面都是相似的。數(shù)據(jù)安全與傳統(tǒng)信息安全,同樣面臨著病毒、蠕蟲、木馬等惡意攻擊、黑客攻擊以及軟件漏洞引起的信息泄露等共性問題。然而在大數(shù)據(jù)時(shí)代,傳統(tǒng)信息安全在豐富的應(yīng)用場(chǎng)景,以及大數(shù)據(jù)特有的特點(diǎn),比如數(shù)據(jù)類型多,來源復(fù)雜、分布式存儲(chǔ)等,導(dǎo)致了信息安全的原則以及安全需求的內(nèi)涵得到了展開和引申,數(shù)據(jù)安全更加關(guān)注與數(shù)據(jù)全生命周期的內(nèi)容安全防護(hù)及隱私保護(hù)。傳統(tǒng)的信息安全主要關(guān)注個(gè)人電腦、智能終端、網(wǎng)絡(luò)服務(wù)器等用戶或系統(tǒng)的安全防護(hù)。而在大數(shù)據(jù)時(shí)代,由于引入了數(shù)據(jù)服務(wù)提供商、云平臺(tái)、智能互聯(lián)網(wǎng)數(shù)據(jù)中心、虛擬化等新的角色及技術(shù),帶來了新的安全隱患以及威脅。實(shí)體間的數(shù)據(jù)交互、共享與服務(wù)是大數(shù)據(jù)產(chǎn)業(yè)的重要應(yīng)用,是對(duì)傳統(tǒng)信息安全的引申。在豐富的應(yīng)用場(chǎng)景下,為實(shí)體間的數(shù)據(jù)交互提供各種各樣的數(shù)據(jù)安全交互技術(shù)及管理措施是數(shù)據(jù)安全的重要任務(wù),為防止敏感信息泄露及數(shù)據(jù)非法濫用等帶來的安全威脅與風(fēng)險(xiǎn)。7.1.1

大數(shù)據(jù)安全與傳統(tǒng)信息安全的異同具體來說,大數(shù)據(jù)安全主要有以下幾個(gè)方面。(1)大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo)在網(wǎng)絡(luò)空間中,數(shù)據(jù)越多,受到的關(guān)注也越高,因此,大數(shù)據(jù)更容易被發(fā)現(xiàn)的大目標(biāo)。一方面,大數(shù)據(jù)對(duì)于潛在的攻擊者具有較大的吸引力,因?yàn)榇髷?shù)據(jù)不僅量大,而且包含了大量復(fù)雜和敏感的數(shù)據(jù)。另一方面,當(dāng)數(shù)據(jù)在一個(gè)地方大量聚聚以后,安全屏障一旦被攻破,攻擊者就能一次性獲得較大的收益。(2)大數(shù)據(jù)加大隱私泄露風(fēng)險(xiǎn)從大數(shù)據(jù)的技術(shù)角度看,Hadoop等大數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)的聚合增加了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。Hadoop作為一個(gè)分布式系統(tǒng)架構(gòu),具有海量數(shù)據(jù)的存儲(chǔ)能力,存儲(chǔ)的數(shù)據(jù)量可以達(dá)到PB級(jí)別。一旦數(shù)據(jù)保護(hù)機(jī)制被突破,將給企業(yè)帶來不可估量的巨額損失。同樣,目前被企業(yè)廣泛推崇的NoSQL數(shù)據(jù)庫(非關(guān)系型數(shù)據(jù)庫)相對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫而言,NoSQL數(shù)據(jù)庫具有更高級(jí)的安全風(fēng)險(xiǎn)。7.1.1

大數(shù)據(jù)安全與傳統(tǒng)信息安全的異同具體來說,大數(shù)據(jù)安全主要有以下幾個(gè)方面。(3)大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中大數(shù)據(jù)為企業(yè)帶來商業(yè)價(jià)值的同時(shí),也可能會(huì)被黑客利用來攻擊企業(yè),給企業(yè)造成損失。為了實(shí)現(xiàn)更加精準(zhǔn)的工具,黑客會(huì)收集各種各樣的信息,如社交網(wǎng)絡(luò)、郵件、微博、電子商行、電話和家庭住址等,這些海量數(shù)據(jù)為黑客發(fā)起攻擊提供了更多的機(jī)會(huì)。(4)大數(shù)據(jù)成為高級(jí)可持續(xù)攻擊的載體在大數(shù)據(jù)時(shí)代,黑客往往將自己的攻擊行為進(jìn)行較好的隱藏,依靠傳統(tǒng)的安全防護(hù)機(jī)制很難被監(jiān)測(cè)到。因?yàn)?,傳統(tǒng)的安全監(jiān)測(cè)機(jī)制一般是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測(cè),而更高級(jí)可持續(xù)攻擊是一個(gè)實(shí)施過程,并不具備能夠?qū)崟r(shí)檢測(cè)出來的明顯特征,因而無法被實(shí)時(shí)檢測(cè)。7.1.2隱私和個(gè)人信息安全問題傳統(tǒng)的隱私是隱蔽、不公開的私事,實(shí)際上是個(gè)人的秘密。大數(shù)據(jù)時(shí)代的隱私與傳統(tǒng)的不同,內(nèi)容更多,分為個(gè)人信息、個(gè)人事務(wù)、個(gè)人領(lǐng)域。大數(shù)據(jù)的價(jià)值并不單純地來源于它的用途,而更多地源自其二次利用。這些細(xì)小數(shù)據(jù)可能無關(guān)痛癢,一旦它們通過自動(dòng)化技術(shù)整合后,就會(huì)逐漸還原和預(yù)測(cè)個(gè)人生活的軌跡和全貌,使得個(gè)人隱私無所遁形。據(jù)哈佛大學(xué)研究顯示,只要知道一個(gè)人的年齡、性別和郵編,就可以在公開的數(shù)據(jù)庫中識(shí)別出此人87%的身份信息。自從進(jìn)去大數(shù)據(jù)時(shí)代以來,數(shù)據(jù)泄露事件時(shí)有發(fā)生。7.1.3

國(guó)家安全問題大數(shù)據(jù)作為一種社會(huì)資源,不僅給互聯(lián)網(wǎng)帶來了變革,同時(shí)也給全球的政治、經(jīng)濟(jì)、軍事、文化、生態(tài)等帶來影響,已經(jīng)成為衡量綜合國(guó)力的重要標(biāo)準(zhǔn)。大數(shù)據(jù)事關(guān)國(guó)家主權(quán)和安全,必須高度重視。1.大數(shù)據(jù)成為國(guó)家之間博弈的新戰(zhàn)場(chǎng)大數(shù)據(jù)意味著海量數(shù)量,也意味著更復(fù)雜、更敏感的數(shù)據(jù),特別是關(guān)系國(guó)家安全和利益的數(shù)據(jù),如國(guó)防建設(shè)數(shù)據(jù)、軍事數(shù)據(jù)、外交數(shù)據(jù)等,極易成為網(wǎng)絡(luò)攻擊的目標(biāo)。一旦機(jī)密情況被竊取或者泄露,就會(huì)關(guān)系到整個(gè)國(guó)家的命運(yùn)。2.自媒體平臺(tái)成為影響國(guó)家意識(shí)形態(tài)安全的重要因素自媒體又稱“公民媒體”或“個(gè)人媒體”,是指私人化、平民化、普泛化、自主化的傳播者,以現(xiàn)代化、電子化的手段,向不特定的大多數(shù)或者特定的單個(gè)人傳遞規(guī)范性及非規(guī)范性信息的新媒體的總稱。但是自媒體的發(fā)展良莠不齊,一些自媒體平臺(tái)上垃圾文章、低劣文章層次不窮,甚至一些自媒體為了追求點(diǎn)擊率,不惜突破道德底線發(fā)布的虛假信息,受眾群體難以分辨真?zhèn)?,沖擊了主流發(fā)布的權(quán)威性。7.1.4

數(shù)據(jù)采集及治理的安全問題一般來說,大數(shù)據(jù)包括了政府及公共數(shù)據(jù)、企業(yè)大數(shù)據(jù)以及個(gè)人大數(shù)據(jù)。政府及公共大數(shù)據(jù)包含的敏感信息一旦被濫用將成為影響深灰穩(wěn)定的安全隱患1.政府及公共大數(shù)據(jù)政府及公共大數(shù)據(jù)是政府所擁有和管理的數(shù)據(jù),如公安、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、環(huán)境、金融、統(tǒng)計(jì)、氣象等數(shù)據(jù);也包括因管理服務(wù)需求而采集的外部大數(shù)據(jù),如互聯(lián)網(wǎng)輿論數(shù)據(jù)等,一般分為五類:(1)擁有政府資源權(quán)利才有可能采集到的數(shù)據(jù):如稅收類、財(cái)政類等數(shù)據(jù);(2)利用政府資源權(quán)限才有可能匯總或獲取的數(shù)據(jù),如建設(shè)類、農(nóng)業(yè)類、工業(yè)類等數(shù)據(jù);(3)事業(yè)單位產(chǎn)生的數(shù)據(jù),如城市建筑管理、交通設(shè)施管理、醫(yī)院信息系統(tǒng)管理、教育資源及管理等數(shù)據(jù);(4)政府監(jiān)管職責(zé)所擁有的數(shù)據(jù),如人口普查、食品藥品管理等數(shù)據(jù);(5)政府部門提供服務(wù)的數(shù)據(jù),如社保、水電、教育信息、醫(yī)療信息、交通路況、公安等數(shù)據(jù)。7.1.4

數(shù)據(jù)采集及治理的安全問題2.企業(yè)大數(shù)據(jù)企業(yè)大數(shù)據(jù)的采集方法種類也很多,通常是以下幾種:(1)工業(yè)遠(yuǎn)程數(shù)據(jù)采集在工業(yè)生產(chǎn)設(shè)備中,利用計(jì)算機(jī)固定終端或移動(dòng)終端實(shí)時(shí)、高效地進(jìn)行數(shù)據(jù)采集及錄入,可同時(shí)解決設(shè)備遠(yuǎn)程監(jiān)控、調(diào)試運(yùn)維問題。然而,遠(yuǎn)程采集及接入也帶來了互聯(lián)網(wǎng)、無線網(wǎng)絡(luò)和移動(dòng)網(wǎng)絡(luò)等網(wǎng)絡(luò)安全問題以及工業(yè)生產(chǎn)自身特殊的安全管控問題。例如,在智能制造環(huán)境下的工控系統(tǒng)中,引入工業(yè)大數(shù)據(jù)采集及控制模塊,如沒有進(jìn)行有效的網(wǎng)絡(luò)信息安全及數(shù)據(jù)安全防護(hù)措施,工業(yè)網(wǎng)絡(luò)IP化就為非法入侵提供了攻擊途徑,增加了工控系統(tǒng)遭受網(wǎng)絡(luò)非法入侵和惡意攻擊的風(fēng)險(xiǎn)。7.1.4

數(shù)據(jù)采集及治理的安全問題(2)基于物聯(lián)網(wǎng)的大數(shù)據(jù)采集物聯(lián)網(wǎng)(InternetofThings,簡(jiǎn)稱IoT)是實(shí)現(xiàn)物物相連的一種新的網(wǎng)絡(luò)連接形態(tài),是現(xiàn)代電子信息技術(shù)和網(wǎng)絡(luò)技術(shù)深度融合發(fā)展的產(chǎn)物。通過物聯(lián)網(wǎng)IoT前段感知設(shè)備,采集見客物體的動(dòng)態(tài)信息,實(shí)現(xiàn)物理世界與信息世界的無縫銜接,為各行各業(yè)提供新的應(yīng)用模式,是實(shí)現(xiàn)智慧城市及智能生產(chǎn)的重要環(huán)節(jié)。然而IoT網(wǎng)絡(luò)上的數(shù)據(jù)采集也面臨一些安全挑戰(zhàn),智能傳感監(jiān)測(cè)節(jié)點(diǎn)和直接控制IoT網(wǎng)絡(luò)的各種設(shè)備以及多源異構(gòu)數(shù)據(jù)的實(shí)時(shí)采集,數(shù)據(jù)間都有可能存在頻繁的交互與協(xié)同工作,具有強(qiáng)冗余性和互補(bǔ)性。而且,由于各行各業(yè)、社會(huì)組織見數(shù)據(jù)的頻繁交互,任何一家企業(yè)數(shù)據(jù)發(fā)生泄露,隨時(shí)可能危及其他組織或整個(gè)行業(yè)。IoT數(shù)據(jù)采集的時(shí)效、交互及安全特性關(guān)系整個(gè)信息系統(tǒng)的安全性,重要性不言而喻。7.1.4

數(shù)據(jù)采集及治理的安全問題(3)行業(yè)大數(shù)據(jù)采集行業(yè)數(shù)據(jù)的采集通常包括企業(yè)內(nèi)部數(shù)據(jù)的采集以及企業(yè)間互操作產(chǎn)生數(shù)據(jù)的交互采集。企業(yè)內(nèi)部的數(shù)據(jù)采集一般在企業(yè)內(nèi)網(wǎng)中完成,安全的威脅主要由內(nèi)網(wǎng)的安全技術(shù)及管理的漏洞產(chǎn)生,如權(quán)限管理漏洞等。企業(yè)間互操作的交互數(shù)據(jù)采集,如果在專網(wǎng)或公網(wǎng)上通過建立基于WebService的數(shù)據(jù)采集系統(tǒng)進(jìn)行,利用現(xiàn)有的安全套接層和基于安全套接層的超文本傳輸協(xié)議可獲得鏈接安全,保證數(shù)據(jù)傳輸?shù)陌踩?,但并沒有提供對(duì)敏感數(shù)據(jù)的脫敏防護(hù)。7.1.4

數(shù)據(jù)采集及治理的安全問題

3.個(gè)人大數(shù)據(jù)個(gè)人大數(shù)據(jù)通常是通過用戶客戶端與服務(wù)器端之間的交互來完成。最常見的方法是通過客戶端進(jìn)行數(shù)據(jù)采集。通常利用安卓、iOS或Window是的用戶客戶端進(jìn)行用戶應(yīng)用及行為數(shù)據(jù)的采集,然后發(fā)送給服務(wù)端,再進(jìn)行存儲(chǔ)和分析。采用這種方式的數(shù)據(jù)采集可能帶來個(gè)人隱私泄露等數(shù)據(jù)安全問題,主要包括以下三點(diǎn):(1)數(shù)據(jù)的隱私性問題如果不采用任何安全保護(hù)措施數(shù)據(jù)在傳輸過程中可能會(huì)被截獲,導(dǎo)致用戶隱私泄露。另一方面,一些客戶端應(yīng)用程序(如App)下載安裝時(shí)便默認(rèn)設(shè)置可獲得用戶隱私的權(quán)限,或被入侵的木馬更改權(quán)限。7.1.4

數(shù)據(jù)采集及治理的安全問題

(2)數(shù)據(jù)的可信性問題數(shù)據(jù)在傳輸過程中也可能被黑客或者惡意第三方劫持及偽造,這種偽造可能是直接利用傳輸中的API,也可能是模擬APP或木馬,篡改或偽造數(shù)據(jù),影響數(shù)據(jù)的真實(shí)性。(3)數(shù)據(jù)的完整性問題采用客戶端采集數(shù)據(jù)時(shí),為了保證盡量不影響用戶的體驗(yàn),一般在本地終端先進(jìn)行緩存,然后再打包壓縮并通過公網(wǎng)進(jìn)行傳輸。如果客戶端承載的網(wǎng)絡(luò)因某種原因傳輸不成功,則數(shù)據(jù)會(huì)累積在本地的緩存中。受緩存空間的限額,或在數(shù)據(jù)全部發(fā)送過程中,客戶端被中斷,都可能出現(xiàn)部分?jǐn)?shù)據(jù)丟失,影響數(shù)據(jù)數(shù)據(jù)采集的完整及時(shí)性,導(dǎo)致采集的數(shù)據(jù)缺少準(zhǔn)確性。7.1.5

數(shù)據(jù)存儲(chǔ)與管理的安全問題

大數(shù)據(jù)可通過云計(jì)算平臺(tái)存儲(chǔ)在云端,在基于云計(jì)算的大數(shù)據(jù)存儲(chǔ)架構(gòu)中,數(shù)據(jù)安全是云存儲(chǔ)安全的一個(gè)重要問題。用戶數(shù)據(jù)存儲(chǔ)在云端可能出現(xiàn)被竊取、丟失等現(xiàn)象,導(dǎo)致信息泄露,將給企業(yè)和用戶帶來不同程度的經(jīng)濟(jì)損失。一般來說,基于云計(jì)算的云端數(shù)據(jù)存儲(chǔ)方法,如果采取數(shù)據(jù)托管的應(yīng)用模式,也就是說,將數(shù)據(jù)托管在網(wǎng)絡(luò)營(yíng)運(yùn)商等商業(yè)機(jī)構(gòu)提供的云服務(wù)器中,采用云端安全接入技術(shù),用戶通過有效的賬戶名和密碼可對(duì)數(shù)據(jù)進(jìn)行訪問,根據(jù)其權(quán)限進(jìn)行存取等操作,但是仍舊可能存在風(fēng)險(xiǎn)。(1)如果用戶的文檔不進(jìn)行加密存儲(chǔ),也就是說,以明文形式存于云端服務(wù)器,一旦云端服務(wù)器在技術(shù)或管理上存在安全漏洞,用戶的數(shù)據(jù)就存在被非法閱讀、竊取、篡改及偽造的風(fēng)險(xiǎn)。(2)用戶的文檔存放在云服務(wù)器中,云服務(wù)提供商的業(yè)務(wù)轉(zhuǎn)型、云服務(wù)器的可靠性問題,或缺少容災(zāi)備份功能,都有可能造成數(shù)據(jù)損壞丟失的風(fēng)險(xiǎn)。7.1.5

數(shù)據(jù)存儲(chǔ)與管理的安全問題

為了解決這個(gè)問題,可以采取一些措施來加強(qiáng)數(shù)據(jù)的安全性。例如,可以使用加密技術(shù)來保護(hù)數(shù)據(jù),使其在傳輸或存儲(chǔ)時(shí)不易被竊取??梢允褂冒踩木W(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)庫系統(tǒng),并對(duì)訪問數(shù)據(jù)的用戶進(jìn)行身份驗(yàn)證和授權(quán),以防止未經(jīng)授權(quán)的人員訪問數(shù)據(jù)。此外,還可以定期進(jìn)行數(shù)據(jù)備份,以應(yīng)對(duì)災(zāi)難性數(shù)據(jù)丟失的情況??傊?,確保數(shù)據(jù)存儲(chǔ)與管理的安全是非常重要的,需要采取多種措施來確保數(shù)據(jù)安全性。7.1.6

數(shù)據(jù)分析及處理的安全問題在大數(shù)據(jù)時(shí)代,可通過對(duì)數(shù)據(jù)的采集、識(shí)別、提取等處理形成有價(jià)值的關(guān)聯(lián)信息及知識(shí),該過程涉及數(shù)據(jù)智能分析技術(shù)。人工智能技術(shù)的發(fā)展,使得數(shù)據(jù)智能分析挖掘及處理能力變得越來越強(qiáng)大,許多看似不相關(guān)的數(shù)據(jù)可被有機(jī)地聯(lián)系起來,形成有價(jià)值的關(guān)聯(lián)特征。例如,如果將某人的上網(wǎng)瀏覽記錄、聊天內(nèi)容、購(gòu)物過程、好友群和其他記錄數(shù)據(jù)關(guān)聯(lián)在一起,就很大程度上可分析出其閱讀及消費(fèi)偏好和習(xí)慣,商家利用這些關(guān)聯(lián)信息便可預(yù)測(cè)出其潛在的消費(fèi)需求,提前為其提供必要的信息、產(chǎn)品或服務(wù)。進(jìn)一步講,如果再將其個(gè)人信息以及移動(dòng)接入的網(wǎng)絡(luò)信息,包括手機(jī)號(hào)碼、智能終端的硬件標(biāo)識(shí)位置信息關(guān)聯(lián)起來,就能勾畫出某人的個(gè)人綜合信息及行為軌跡,形成其個(gè)人畫像。然而,這些過程伴隨著個(gè)人隱私的曝光和泄露,帶來一定的安全威脅及風(fēng)險(xiǎn)。值得指出的是,黑客也可同時(shí)擁有數(shù)據(jù)智能分析技術(shù),分析挖掘所需的關(guān)聯(lián)信息,給用戶帶來安全隱患或威脅。7.1.7數(shù)據(jù)交互、共享與服務(wù)的安全與隱私實(shí)體間的數(shù)據(jù)交互、共享與服務(wù)是大數(shù)據(jù)產(chǎn)業(yè)的重要應(yīng)用,豐富的應(yīng)用場(chǎng)景數(shù)據(jù)交互及共享方式。在實(shí)際的應(yīng)用中,實(shí)體的數(shù)據(jù)交互及共享流程取決于其應(yīng)用長(zhǎng)及商業(yè)模式,如果沒有采取任何隱私保護(hù)措施,將帶來敏感信息泄露等安全威脅與風(fēng)險(xiǎn)。圖7-4給出一種三個(gè)實(shí)體間數(shù)據(jù)交互應(yīng)用場(chǎng)景。圖7-4三個(gè)實(shí)體間的數(shù)據(jù)交互應(yīng)用場(chǎng)景PART02大數(shù)據(jù)保護(hù)的基本原則

大數(shù)據(jù)保護(hù)的基本原則包括數(shù)據(jù)主權(quán)原則、數(shù)據(jù)保護(hù)原則、數(shù)據(jù)自由流通原則和數(shù)據(jù)安全原則。7.2.1

數(shù)據(jù)主權(quán)原則 數(shù)據(jù)主權(quán)原則是大數(shù)據(jù)保護(hù)的首要原則。數(shù)據(jù)是關(guān)系到個(gè)人安全、社會(huì)安全和國(guó)家安全的重要戰(zhàn)略資源。大數(shù)據(jù)時(shí)代,無論是在經(jīng)濟(jì)發(fā)展和國(guó)家建設(shè)方面,還是在社會(huì)穩(wěn)定方面,世界各國(guó)對(duì)數(shù)據(jù)資源的依賴越來越多,國(guó)家之間競(jìng)爭(zhēng)和博弈的主戰(zhàn)場(chǎng)也從傳統(tǒng)領(lǐng)域逐漸轉(zhuǎn)向到大數(shù)據(jù)領(lǐng)域。數(shù)據(jù)主權(quán)原則指的是一個(gè)國(guó)家獨(dú)立自主地對(duì)本國(guó)數(shù)據(jù)進(jìn)行占有、管理、控制、利用和保護(hù)的權(quán)力。數(shù)據(jù)主權(quán)原則對(duì)內(nèi)體現(xiàn)為一個(gè)國(guó)家對(duì)其證券管轄地域內(nèi)任何數(shù)據(jù)的生成、傳播、處理、分析、利用和教義等用友最高權(quán)力,對(duì)外表現(xiàn)為一個(gè)國(guó)家有權(quán)決定以何種程序、何種方式參加到國(guó)際數(shù)據(jù)活動(dòng)中,并有權(quán)采取必要措施保護(hù)數(shù)據(jù)權(quán)益免受其他國(guó)家侵害。7.2.2

數(shù)據(jù)保護(hù)原則 數(shù)據(jù)保護(hù)原則的主旨是確認(rèn)數(shù)據(jù)為獨(dú)立的法律關(guān)系客體,奠定構(gòu)建數(shù)據(jù)規(guī)則的制度基礎(chǔ)。在這樣的原則下,數(shù)據(jù)的法律性質(zhì)和法律地位得以明確,從而使數(shù)據(jù)成為一種獨(dú)立利益而受到法律的確認(rèn)和保護(hù)。具體而言,數(shù)據(jù)保護(hù)原則包含兩個(gè)方面的含義。第一,數(shù)據(jù)不是人類的“共同財(cái)產(chǎn)”,數(shù)據(jù)的權(quán)屬關(guān)系應(yīng)該受到法律的調(diào)整,法律須確認(rèn)權(quán)利人對(duì)數(shù)據(jù)的權(quán)利。第二,數(shù)據(jù)應(yīng)該由法律進(jìn)行保護(hù),數(shù)據(jù)的流通過程須受到法律的保護(hù),規(guī)范合理的數(shù)據(jù)流通不但能確保數(shù)據(jù)的合理使用,同時(shí)還能促進(jìn)數(shù)據(jù)的再生和再利用。7.2.2

數(shù)據(jù)保護(hù)原則 因此,數(shù)據(jù)保護(hù)原則通常包括以下幾個(gè)方面:(1)合法性:在處理個(gè)人信息時(shí),必須遵守法律和法規(guī)的規(guī)定。(2)適用性:只有在符合法律規(guī)定的情況下,才能處理個(gè)人信息。(3)正當(dāng)性:在處理個(gè)人信息時(shí),必須有合理的理由和目的。(4)限制性:對(duì)個(gè)人信息的處理必須限制在必要的范圍內(nèi)。(5)正確性:個(gè)人信息必須準(zhǔn)確無誤,如果發(fā)現(xiàn)有錯(cuò)誤,應(yīng)當(dāng)及時(shí)更正。(6)完整性:個(gè)人信息必須完整,不能缺少重要內(nèi)容。(7)可用性:個(gè)人信息必須可以被合法使用。(8)保密性:個(gè)人信息必須保密,不能被泄露給第三方。所謂的數(shù)據(jù)自由流通原則是指法律應(yīng)該確保數(shù)據(jù)作為獨(dú)立的客體能夠在市場(chǎng)上自由流通,而不對(duì)數(shù)據(jù)流通給予不必要的限制。這一原則主要體現(xiàn)在兩個(gè)方面。一是促進(jìn)數(shù)據(jù)自由流通、數(shù)據(jù)作為一種獨(dú)立的生產(chǎn)要是,只有充分流通起來,才能夠促進(jìn)社會(huì)生產(chǎn)力的發(fā)展。二是反對(duì)數(shù)據(jù)壟斷,對(duì)于那些利用數(shù)據(jù)技術(shù)優(yōu)勢(shì)來阻礙數(shù)據(jù)自由流通的行為,應(yīng)該予以堅(jiān)決抵制。為了確保數(shù)據(jù)共享的順利實(shí)現(xiàn),要積極貫徹落實(shí)數(shù)據(jù)自由流通原則,才能在全球范圍內(nèi)消除數(shù)字鴻溝,建立國(guó)際數(shù)據(jù)共享的新秩序。為實(shí)現(xiàn)數(shù)據(jù)共享,要堅(jiān)持?jǐn)?shù)據(jù)自由流通原則,加強(qiáng)政府對(duì)數(shù)據(jù)共享的宏觀控制能力,在數(shù)據(jù)共享的發(fā)展戰(zhàn)略上保持濕度超前的政策管理,建立促進(jìn)數(shù)據(jù)共享的政策法規(guī)制度,加強(qiáng)信息技術(shù)的共享。7.2.3

數(shù)據(jù)自由流通原則數(shù)據(jù)安全原則是指通過法律機(jī)制來保障數(shù)據(jù)的安全,以免數(shù)據(jù)面臨遺失、不法接觸、毀壞、利用、變更或泄露的危險(xiǎn)。從安全形態(tài)上講,數(shù)據(jù)安全包括數(shù)據(jù)存儲(chǔ)安全和數(shù)據(jù)傳輸安全。從內(nèi)容上講,數(shù)據(jù)安全可分為信息網(wǎng)絡(luò)的硬件、軟件的安全,數(shù)據(jù)系統(tǒng)的安全和數(shù)據(jù)系統(tǒng)中數(shù)據(jù)的安全。從主體角度看,數(shù)據(jù)安全可以分為國(guó)家安全、社會(huì)數(shù)據(jù)安全、企業(yè)數(shù)據(jù)安全和個(gè)人數(shù)據(jù)安全。具體而言,數(shù)據(jù)安全包括以下幾個(gè)方面的含義。第一,保障數(shù)據(jù)的真實(shí)性和完整性,既要加強(qiáng)對(duì)靜態(tài)存儲(chǔ)的數(shù)據(jù)的安全保護(hù),使其不被非授權(quán)訪問、篡改和偽造。也要加強(qiáng)對(duì)數(shù)據(jù)傳輸過程的安全保護(hù),使其不被中途篡改、不發(fā)生丟失和缺損等。第二,保障數(shù)據(jù)的安全使用,數(shù)據(jù)及其使用必須具有保密性,禁止任何機(jī)構(gòu)和個(gè)人的非授權(quán)訪問,僅為取得授權(quán)的機(jī)構(gòu)和個(gè)人獲取和使用。第三,以合理的安全措施保障數(shù)據(jù)系統(tǒng)具有可用性,可以為確定的合法授權(quán)使用者提供服務(wù)。7.2.4

數(shù)據(jù)安全原則具體的安全措施可以從以下幾個(gè)方面考慮:(1)數(shù)據(jù)加密:對(duì)數(shù)據(jù)進(jìn)行加密處理,以防止數(shù)據(jù)被未經(jīng)授權(quán)的人訪問和竊取。(2)數(shù)據(jù)審查:定期審查數(shù)據(jù),以發(fā)現(xiàn)和修復(fù)潛在的安全漏洞和問題。(3)數(shù)據(jù)備份:定期備份數(shù)據(jù),以防止數(shù)據(jù)丟失和破壞。(4)訪問控制:對(duì)數(shù)據(jù)進(jìn)行訪問控制,只允許被授權(quán)的人訪問和處理數(shù)據(jù)。(5)安全策略:制定和實(shí)施合適的安全策略,以確保數(shù)據(jù)的安全性。7.2.4

數(shù)據(jù)安全原則PART03數(shù)據(jù)安全與隱私保護(hù)的支撐技術(shù)

數(shù)據(jù)安全的重要性已經(jīng)毋庸置疑,目前支撐數(shù)據(jù)全生命周期安全防護(hù)的技術(shù)也比較成熟。這里我們重點(diǎn)介紹密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)、公鑰基礎(chǔ)設(shè)施、數(shù)字證書以及訪問控制等技術(shù)和方案。7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)密碼學(xué)是語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及通訊理論與技術(shù)的重要分支,隨著現(xiàn)代信息技術(shù)及應(yīng)用的高速發(fā)展,已成為一門綜合性尖端技術(shù)科學(xué),以及信息與網(wǎng)絡(luò)通信的重要支撐技術(shù)。密碼學(xué)由密碼編碼學(xué)和密碼分析學(xué)構(gòu)成,通過提供數(shù)據(jù)機(jī)密性、數(shù)據(jù)完整性、身份與屬性鑒別、數(shù)字簽名以及抗否認(rèn)等算法,支撐數(shù)據(jù)安全的防護(hù)體系,是數(shù)據(jù)安全與隱私保護(hù)的核心理論基礎(chǔ)。下面主要主要幾種常見的密碼學(xué)的關(guān)鍵技術(shù)。

1.數(shù)據(jù)加密技術(shù)數(shù)據(jù)加密技術(shù)是一個(gè)利用加密密鑰通過加密算法將明文信息轉(zhuǎn)換成密文信息的處理過程,收到密文的接收方利用解密密鑰通過解密算法還原成明文。加密技術(shù)是網(wǎng)絡(luò)與信息安全的基礎(chǔ)。7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)通常將加密算法和解密算法通稱為密碼算法,并分為對(duì)稱密碼算法和非對(duì)稱密碼算法兩大類。(1)對(duì)稱密碼算法在對(duì)稱密碼算法中,加密運(yùn)算使用同一把密鑰,對(duì)稱密碼模型如圖7-6所示。

圖7-6對(duì)稱密碼模型7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)圖中對(duì)稱密碼模型由五部分組成:①明文②加密算法③密鑰④密文⑤解密算法。由于加密算法與解密算法采用同一算法,加密密鑰與解密密鑰為同一把密鑰,故成為對(duì)稱加密算法,常見的對(duì)稱加密算法有AES、3DES以及國(guó)密SM4.對(duì)稱密碼算法的優(yōu)點(diǎn)是加密和解密速度快,適用于直接對(duì)大量數(shù)據(jù)進(jìn)行加密。其保密性主要取決于密鑰的安全性,發(fā)送及接收雙方需要事先約定共有密鑰。如何在公開及分布的計(jì)算機(jī)網(wǎng)絡(luò)上安全、大量產(chǎn)生、保管以及分發(fā)密鑰是一個(gè)挑戰(zhàn),且由于對(duì)稱密碼算法中雙方使用相同密鑰,因此無法實(shí)現(xiàn)數(shù)據(jù)簽名和不可否認(rèn)性等功能。(2)非對(duì)稱密碼算法非對(duì)稱密碼算法與對(duì)稱密碼算法不同,它具有兩把不同密鑰,一把成為公鑰,另一把成為私鑰。兩把相關(guān)的密鑰形成一對(duì)密鑰,根據(jù)應(yīng)用需要,任何一把都可以用于加密,而另外一把則用于解密。非對(duì)稱密碼模型如圖7-7所示。7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)圖7-7非對(duì)稱密碼模型7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)非對(duì)稱密碼算法的特點(diǎn)是用公鑰加密的文件只能用私鑰解密,而用私鑰加密的文件只能用于公鑰解密。公鑰是公開存放的,所有的人或?qū)嶓w都可得到它。私鑰是私有的,而不應(yīng)被其他人或?qū)嶓w獲得,且需保持機(jī)密性。非對(duì)稱密碼算法又稱為公鑰密碼算法。

2.完整性校驗(yàn)技術(shù)與散列算法數(shù)據(jù)完整性是用于評(píng)測(cè)數(shù)據(jù)在存儲(chǔ)、傳輸、交互以及分享各個(gè)環(huán)節(jié)中,是否是否部分損壞、丟失或者篡改,目的是確保數(shù)據(jù)在整個(gè)生命周期個(gè)環(huán)節(jié)中的一致性。完整性校驗(yàn)技術(shù)是網(wǎng)絡(luò)通信的重要支撐技術(shù),更是數(shù)字簽名及區(qū)塊鏈的核心算法基礎(chǔ)。消息摘要算法也稱為數(shù)字摘要算法,它是一種吧任意程度的輸入消息串變化成固定長(zhǎng)度的輸出串的函數(shù),是一個(gè)單向函數(shù)。消息的轉(zhuǎn)化是一個(gè)不可逆的過程。一般完整性校驗(yàn)機(jī)制通過消息鑒別機(jī)理來實(shí)現(xiàn)。而消息鑒別可利用帶密鑰消息摘要算法形成消息鑒別碼,或利用不帶密鑰的散列函數(shù)形成散列嗎對(duì)消息進(jìn)行完整性校驗(yàn)。7.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)(1)消息鑒別碼消息鑒別碼也稱密碼校驗(yàn)和,是一種帶密鑰的消息摘要算法。圖7-9給出了消息鑒別碼的一般鑒別模型,其鑒別原來是,通過消息摘要算法和密鑰K將要傳送的消息轉(zhuǎn)化為一個(gè)固定長(zhǎng)度的消息鑒別碼,將該消息鑒別碼作為鑒別標(biāo)識(shí)加入到要傳送的消息中,接收方利用與發(fā)送方共享的密鑰K以及約定的同一消息摘要算法對(duì)收到的消息M在本地產(chǎn)生一個(gè)消息鑒別碼,將其收到的消息鑒別碼進(jìn)行比對(duì),如果它們相同,可認(rèn)為收到的消息在傳輸過程中沒有被篡改,從而鑒別了消息的完整性,否則認(rèn)為收到的消息不完整或被篡改過。需要特別說明的是,消息鑒別碼僅用于鑒別消息M的完整性及可靠性,即保證信息沒有被篡改I,不是虛假或偽造的消息,但并不保證M被傳輸?shù)谋C苄浴?.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)

(2)散列函數(shù)散列函數(shù)又成雜湊函數(shù)或哈希函數(shù),是一種不帶密鑰的消息摘要算法,它將任意長(zhǎng)度輸入變換成固定長(zhǎng)度的輸出,該輸出稱為散列值。目前散列函數(shù)作為區(qū)塊鏈的核心算法得到廣泛應(yīng)用,為區(qū)塊鏈技術(shù)提供重要的密碼學(xué)支撐。該變換是一種壓縮映射,也就是說,散列值的空間通常遠(yuǎn)小于輸入的空間,不同的輸入可能會(huì)散列或相同的輸出,產(chǎn)生碰撞,所以從而散列值來確定唯一的輸入值是不可能的。同樣,需要特別說明的是,散列函數(shù)是單向函數(shù),僅用于鑒別消息M的完整性及可靠性,即保證信息沒有被篡改和偽造,但并不保證M被傳輸?shù)谋C苄浴?.3.1密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)3.數(shù)字簽名技術(shù)提出數(shù)字簽名的目的是為了保證信息傳輸過程的完整性,防止信息交互中發(fā)生抵賴,即防止發(fā)送方否認(rèn)已發(fā)送報(bào)文以及接收方偽造報(bào)文。數(shù)字簽名的產(chǎn)生及鑒別過程如下:(1)發(fā)送方產(chǎn)生一對(duì)密鑰,安全保存其私鑰,將公鑰向公眾公開(包括接收方);(2)利用散列函數(shù)將要發(fā)送的消息轉(zhuǎn)為消息摘要;(3)用發(fā)送者私鑰將消息摘要加密,形成數(shù)字簽名,并與消息一起傳送給接收方。(4)接收方在本地利用同一款散列函數(shù)將收到的消息部分轉(zhuǎn)為消息摘要;(5)接收方利用發(fā)送方的公鑰解密收到的簽名部分,得到消息摘要;(6)將本地產(chǎn)生的消息摘要與解密得到的消息摘要對(duì)比,如果相同,則可以斷定:收到的消息是完整的,在傳輸過程中沒有被修改,否則消息被修改過。“簽名”說明消息確實(shí)為持有公鑰的發(fā)送方發(fā)出。7.3.2

公鑰基礎(chǔ)設(shè)施公鑰基礎(chǔ)設(shè)施(PublicKeyInfrastructure,簡(jiǎn)稱PKI)是一種信息安全技術(shù)。它是建立在公鑰密碼技術(shù)基礎(chǔ)上的安全基礎(chǔ)設(shè)施,可提供公鑰加密和數(shù)字簽名等安全服務(wù)。采用PKI架構(gòu)可以進(jìn)行密鑰和數(shù)字證書的自助管理,建立一個(gè)安全的網(wǎng)絡(luò)環(huán)境。使各實(shí)體或用戶可以在多種應(yīng)用環(huán)境下便捷地使用加密和數(shù)字簽名技術(shù),從而保證網(wǎng)絡(luò)數(shù)據(jù)的機(jī)密性、完整性、有效性以及不可否認(rèn)性。一般來說,PKI采用數(shù)字證書管理公鑰,通過第三方可信任的認(rèn)證機(jī)構(gòu),把實(shí)體的公鑰和實(shí)體的其他標(biāo)識(shí)信息捆綁在一起,使其他實(shí)體在互聯(lián)網(wǎng)驗(yàn)證該實(shí)體的身份。PKI將公鑰密碼和對(duì)稱密碼有機(jī)結(jié)合起來,在互聯(lián)網(wǎng)實(shí)現(xiàn)密鑰的自動(dòng)管理,并保證數(shù)據(jù)的安全傳輸。7.3.2

公鑰基礎(chǔ)設(shè)施通常,PKI的體系結(jié)構(gòu)主要包括以下幾個(gè)方面:

1.認(rèn)證機(jī)構(gòu)CA是數(shù)據(jù)證書的簽發(fā)機(jī)構(gòu),它負(fù)責(zé)頒發(fā)及管理PKI體系下所有實(shí)體的數(shù)字證書,是PKI的核心、權(quán)威、可信任、公正的第三方認(rèn)證機(jī)構(gòu),同時(shí)管理實(shí)體數(shù)字證書的黑名單登記和黑名單發(fā)布。注冊(cè)機(jī)構(gòu)分擔(dān)CA的功能,增強(qiáng)可擴(kuò)展負(fù)責(zé)證書申請(qǐng)者的信息錄入、審核以及數(shù)字證書發(fā)放等工作,也可有CA直接實(shí)現(xiàn)。

2.數(shù)字證書和數(shù)字證書庫管理數(shù)字證書是一個(gè)經(jīng)由CA證書授權(quán)中心利用數(shù)字簽名技術(shù)簽發(fā)的數(shù)字文件,其格式采用ITU-TX.509國(guó)際標(biāo)準(zhǔn),它包含數(shù)字證書擁有者的公鑰、名稱、CA中心的數(shù)字簽名以及有效時(shí)間段等信息。7.3.2

公鑰基礎(chǔ)設(shè)施

3.密鑰備份及恢復(fù)管理密鑰備份及恢復(fù)管理主要提供密鑰的生成、更新、備份及恢復(fù)服務(wù)。

4.多個(gè)PKI間的交叉認(rèn)證一般來說,每個(gè)PKI獨(dú)立運(yùn)行。當(dāng)有拓展應(yīng)該需求時(shí),如移動(dòng)漫游業(yè)務(wù),多個(gè)PKI可通過交叉認(rèn)證建立相互信任已經(jīng)互聯(lián)關(guān)系。

5.時(shí)間戳由CA管理的時(shí)間戳是一個(gè)可信的時(shí)間權(quán)威,提供給各實(shí)體作為參照“時(shí)間”。

6.不可抵賴機(jī)制PKI系統(tǒng)主要通過數(shù)字簽名技術(shù)提供不可抵賴性服務(wù)。進(jìn)行數(shù)字簽名時(shí),簽名私鑰只由簽名者掌控,因此簽名者就不能否認(rèn)有起簽署的文檔。7.3.3

數(shù)字證書數(shù)字證書是一種用于識(shí)別和認(rèn)證網(wǎng)絡(luò)實(shí)體的數(shù)字憑證。它通常由一個(gè)第三方機(jī)構(gòu)(數(shù)字證書頒發(fā)機(jī)構(gòu))頒發(fā),用于證明一個(gè)網(wǎng)絡(luò)實(shí)體的身份。數(shù)字證書可以用來保護(hù)大數(shù)據(jù)安全,例如在數(shù)據(jù)交換過程中使用數(shù)字證書來驗(yàn)證數(shù)據(jù)的合法性。數(shù)字證書具有以下三個(gè)特點(diǎn):(1)安全當(dāng)用戶申請(qǐng)證書時(shí),計(jì)算機(jī)上會(huì)有兩個(gè)不同的證書用于驗(yàn)證用戶的交互信息。如果您的計(jì)算機(jī)以其他方式使用,則用戶必須獲得證書以驗(yàn)證計(jì)算機(jī)的使用。即使有人偷了你的證書,它也不能被備份或獲取用戶帳戶信息。從而保證了賬戶信息的安全性。(2)獨(dú)特性

數(shù)字證書根據(jù)用戶的身份授予相應(yīng)的訪問權(quán)限。如果將計(jì)算機(jī)更改為登錄帳戶,則用戶將無法執(zhí)行備份證書,并且只能執(zhí)行該操作以驗(yàn)證帳戶信息。(3)便利性

數(shù)字證書可以直接由CA中心用戶打開,不需要數(shù)字證書這是非??煽康摹K梢杂行У乇WC數(shù)據(jù)信息網(wǎng)絡(luò)的安全,在用戶瀏覽數(shù)據(jù)信息網(wǎng)絡(luò)或進(jìn)行在線交易時(shí)使用數(shù)字證書。7.3.4

訪問控制訪問控制是一種通過對(duì)資源的訪問、獲取和操作進(jìn)行身份驗(yàn)證和授權(quán)管理,使資源能夠在合法范圍內(nèi)被使用或受限使用的技術(shù),是維護(hù)網(wǎng)絡(luò)安全、數(shù)據(jù)安全的重要措施。訪問控制是主體根據(jù)策略對(duì)客體進(jìn)行不同權(quán)限訪問的過程,主要包括五大要素:主體、客體、認(rèn)證、授權(quán)以及策略。(1)主體。主體是能夠訪問客體的實(shí)體,包括人、進(jìn)程或者設(shè)備等具有能夠訪問客體屬性的實(shí)體,主體可以在系統(tǒng)中執(zhí)行操作、在客體之間傳遞信息或者修改系統(tǒng)狀態(tài)。(2)客體??腕w是系統(tǒng)中需要被保護(hù)的實(shí)體的集合,包括文件、記錄、數(shù)據(jù)塊等靜態(tài)實(shí)體,也包括進(jìn)程等可執(zhí)行指令的實(shí)體。(3)認(rèn)證。認(rèn)證是指訪問控制客體對(duì)主體進(jìn)行身份確認(rèn)的過程,從而確保主體具有其所請(qǐng)求的權(quán)限。7.3.4

訪問控制(4)授權(quán)。授權(quán)是指授予某個(gè)主體對(duì)某資源的訪問權(quán)限的過程,強(qiáng)調(diào)的是某個(gè)主體可以對(duì)某資源進(jìn)行哪些操作(讀、寫、執(zhí)行等)。(5)策略。策略是指主體對(duì)客體訪問的規(guī)則集合,規(guī)定了主體對(duì)客體可以實(shí)施讀、寫和執(zhí)行等操作的行為,以及客體對(duì)主體的條件約束。策略體現(xiàn)的是一種授權(quán)行為,授予主體對(duì)客體何種類型的訪問權(quán)限,這種權(quán)限應(yīng)該被限制在規(guī)則集合中。有效的訪問控制保證只有經(jīng)過授權(quán)的主體才能夠在權(quán)限范圍內(nèi)訪問客體,未經(jīng)授權(quán)的主體禁止訪問客體,能夠很好地防止隱私信息的泄露和權(quán)限的濫用。PART04數(shù)據(jù)安全與隱私保護(hù)的對(duì)策

在當(dāng)前發(fā)展階段中,用戶的信息基本上暴露在互聯(lián)網(wǎng)公司面前,所以怎樣提高用戶的信息安全意識(shí),維護(hù)個(gè)人隱私權(quán)不受侵犯是一個(gè)亟待解決的重要問題。7.4

數(shù)據(jù)安全與隱私保護(hù)的對(duì)策在當(dāng)前生活中,人們已經(jīng)無法離開智能手機(jī)。大家不僅能夠通過智能手機(jī)來進(jìn)行通信,更為重要的是可以通過智能手機(jī)來獲取所關(guān)心的信息。很多手機(jī)軟件服務(wù)隨著智能手機(jī)普及后也逐漸增加,而一些新開發(fā)的軟件,最開始都是免費(fèi)為用戶體驗(yàn)使用?;ヂ?lián)網(wǎng)公司并不是在做虧本買賣,而是利用用戶瀏覽網(wǎng)頁的實(shí)時(shí)用戶數(shù)據(jù)來獲取高額利潤(rùn)。在當(dāng)前發(fā)展階段中,用戶的信息基本上暴露在互聯(lián)網(wǎng)公司面前,所以怎樣提高用戶的信息安全意識(shí),維護(hù)個(gè)人隱私權(quán)不受侵犯是一個(gè)亟待解決的重要問題。7.4.1

使用隱私保護(hù)技術(shù)對(duì)于數(shù)據(jù)加密技術(shù),要選擇最新、最復(fù)雜的算法對(duì)數(shù)據(jù)進(jìn)行加密,使加密后的數(shù)據(jù)儲(chǔ)存與應(yīng)用更加安全。當(dāng)然,解密時(shí)也要匹配高強(qiáng)度的密鑰,不給違法犯罪分子留有可乘之機(jī)。只有這樣才能夠最大限度的保障數(shù)據(jù)的安全,有效降低數(shù)據(jù)泄漏風(fēng)險(xiǎn)。在發(fā)布數(shù)據(jù)信息的時(shí)候,可以選擇匿名等方式來傳播,以此來保護(hù)數(shù)據(jù)信息傳輸過程中的安全。7.4.2

定期備份數(shù)據(jù)定期備份數(shù)據(jù)是將數(shù)據(jù)在一定的時(shí)間間隔內(nèi)備份到另一個(gè)安全的地方,以防止數(shù)據(jù)丟失。當(dāng)數(shù)據(jù)發(fā)生損壞或丟失時(shí),可以通過恢復(fù)備份數(shù)據(jù)來保護(hù)數(shù)據(jù)安全。為了保證備份數(shù)據(jù)的完整性和可用性,應(yīng)該定期進(jìn)行備份,并對(duì)備份數(shù)據(jù)進(jìn)行審計(jì)和測(cè)試,確保備份數(shù)據(jù)可以用于恢復(fù)。定期備份數(shù)據(jù)是保護(hù)數(shù)據(jù)安全的重要手段,應(yīng)該納入數(shù)據(jù)安全管理體系中,并定期審計(jì)備份數(shù)據(jù)的狀態(tài),以確保數(shù)據(jù)安全。7.4.3

定期審計(jì)數(shù)據(jù)安全狀態(tài)定期審計(jì)數(shù)據(jù)安全狀態(tài)是指定期對(duì)數(shù)據(jù)安全進(jìn)行審計(jì),以確保數(shù)據(jù)安全。定期審計(jì)數(shù)據(jù)安全狀態(tài)可以及時(shí)發(fā)現(xiàn)和解決數(shù)據(jù)安全問題,保證數(shù)據(jù)安全。審計(jì)數(shù)據(jù)安全狀態(tài)包括對(duì)數(shù)據(jù)安全管理體系進(jìn)行審計(jì),檢查數(shù)據(jù)安全管理制度和流程是否規(guī)范、有效,以及對(duì)數(shù)據(jù)安全措施進(jìn)行審計(jì),檢查數(shù)據(jù)安全措施是否正確實(shí)施、有效。定期審計(jì)數(shù)據(jù)安全狀態(tài)是保護(hù)數(shù)據(jù)安全的重要手段,應(yīng)該納入數(shù)據(jù)安全管理體系中,并制定審計(jì)計(jì)劃和方案,確保審計(jì)工作得到有效實(shí)施。7.4.4

注重對(duì)大數(shù)據(jù)和隱私保護(hù)的監(jiān)督和管理從法律角度上來看,各相關(guān)部門要進(jìn)行有效調(diào)研,在此基礎(chǔ)上盡快有針對(duì)性地進(jìn)行相關(guān)立法,要做到法律要跟隨社會(huì)的發(fā)展,對(duì)新型的事物及時(shí)的做出反映,起到良好的監(jiān)督與制約的作用。同時(shí),要不斷完善有關(guān)大數(shù)據(jù)保護(hù)和隱私保護(hù)的相關(guān)法律體系,從法律上為用戶維權(quán)提供有效保障。除此之外,相關(guān)監(jiān)管部門要強(qiáng)化對(duì)大數(shù)據(jù)和隱私保護(hù)的監(jiān)督和管理,如果發(fā)現(xiàn)問題要及時(shí)進(jìn)行處理,最大限度的維護(hù)用戶的合法權(quán)益。把事前、事中以及事后監(jiān)督密切聯(lián)系起來,完善個(gè)人隱私信息保護(hù)機(jī)制,設(shè)置合理的進(jìn)入權(quán)限,對(duì)互聯(lián)網(wǎng)企業(yè)的操作和運(yùn)行行為進(jìn)行有效監(jiān)督,降低其發(fā)生違規(guī)行為的幾率;如果通過監(jiān)督發(fā)現(xiàn)確實(shí)存在此種行為,那么就要強(qiáng)制性進(jìn)行制止,并且對(duì)涉事企業(yè)進(jìn)行相應(yīng)的處罰。要是有效的監(jiān)管深入數(shù)據(jù)應(yīng)用環(huán)節(jié)的各個(gè)方面,從源頭開始監(jiān)管與治理,要始終樹立事前監(jiān)督、事中監(jiān)督、事后監(jiān)督同樣重要的思維。發(fā)現(xiàn)問題及時(shí)處理,確保用戶的個(gè)人隱私及相關(guān)數(shù)據(jù)處于一個(gè)相對(duì)安全的網(wǎng)絡(luò)環(huán)境中,最大程度的避免數(shù)據(jù)泄露和隱私泄露的危險(xiǎn),不給違法犯罪分子留有可乘之機(jī)。本章小結(jié)PART05

本章從大數(shù)據(jù)處理基本流程的安全開始闡述,接下來講解了大數(shù)據(jù)保護(hù)的基本原則,大數(shù)據(jù)安全的支撐技術(shù)以及數(shù)據(jù)安全保護(hù)的對(duì)策,從不同角度講述人類在數(shù)據(jù)安全方面做出的努力。7.5本章小結(jié)本章小結(jié)

大數(shù)據(jù)的安全問題,不僅關(guān)系到公民的個(gè)人隱私,更關(guān)系到社會(huì)安全甚至國(guó)家安全。大數(shù)據(jù)時(shí)代,海量的數(shù)據(jù),更容易誘發(fā)安全問題,一旦發(fā)生安全問題,后果將不看預(yù)想。本章從大數(shù)據(jù)處理基本流程的安全開始闡述,接下來講解了大數(shù)據(jù)保護(hù)的基本原則,大數(shù)據(jù)安全的支撐技術(shù)以及數(shù)據(jù)安全保護(hù)的對(duì)策,從不同角度講述人類在數(shù)據(jù)安全方面做出的努力。習(xí)

題PART06

本章從大數(shù)據(jù)處理基本流程的安全開始闡述,接下來講解了大數(shù)據(jù)保護(hù)的基本原則,大數(shù)據(jù)安全的支撐技術(shù)以及數(shù)據(jù)安全保護(hù)的對(duì)策,從不同角度講述人類在數(shù)據(jù)安全方面做出的努力。習(xí)題

1、大數(shù)據(jù)安全與傳統(tǒng)信息安全的異同是什么?2、大數(shù)據(jù)保護(hù)的基本原則是什么?3、數(shù)據(jù)安全與隱私保護(hù)的支撐技術(shù)有哪些?并簡(jiǎn)單進(jìn)行闡述?4、數(shù)據(jù)安全與隱私保護(hù)的對(duì)策有哪些?并簡(jiǎn)單進(jìn)行闡述?7.6習(xí)題感謝您的耐心觀看大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第八章

大數(shù)據(jù)思維大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第八章

大數(shù)據(jù)思維在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是一座“寶藏”,而思維是打開寶藏的大門鑰匙,只有建立符合大數(shù)據(jù)時(shí)代發(fā)展的思維,才能最大程度地挖掘出數(shù)據(jù)的潛在價(jià)值。所以,大數(shù)據(jù)的發(fā)展,不僅取決于大數(shù)據(jù)的資源的擴(kuò)展,還取決于大數(shù)據(jù)的應(yīng)用,更取決于大數(shù)據(jù)思維的形成。只有具備大數(shù)據(jù)思維,才能更好地運(yùn)用大數(shù)據(jù)資源和大數(shù)據(jù)技術(shù)。也就是說,大數(shù)據(jù)發(fā)展必須是數(shù)據(jù)、技術(shù)和思維三大要素的聯(lián)動(dòng)。本章首先介紹傳統(tǒng)的思維方式,并指出大數(shù)據(jù)時(shí)代需要新的思維方式,然后介紹大數(shù)據(jù)思維方式,包括全樣兒非抽樣,效率而非精確、相關(guān)而非因果、以數(shù)據(jù)為中心,“人人為我,我為人人”等,最后給出運(yùn)用大數(shù)據(jù)思維的具體實(shí)例。目錄CONTENTS概述8.1傳統(tǒng)的思維方式8.2大數(shù)據(jù)時(shí)代的思維方式8.3本章小結(jié)8.5習(xí)題8.6數(shù)據(jù)安全與隱私保護(hù)的對(duì)策8.4概

述PART01

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是一座“寶藏”,而思維是打開寶藏的大門鑰匙,只有建立符合大數(shù)據(jù)時(shí)代發(fā)展的思維,才能最大程度地挖掘出數(shù)據(jù)的潛在價(jià)值。PART02傳統(tǒng)的思維方式

傳統(tǒng)的思維方式可以定義為是機(jī)械思維,可以追溯到古希臘,它是思辨的思想和邏輯推理的能力,通過這些從實(shí)踐中總結(jié)出基本的結(jié)論,然后通過邏輯繼續(xù)延伸。8.2

傳統(tǒng)的思維方式 傳統(tǒng)的思維方式可以定義為是機(jī)械思維,可以追溯到古希臘,它是思辨的思想和邏輯推理的能力,通過這些從實(shí)踐中總結(jié)出基本的結(jié)論,然后通過邏輯繼續(xù)延伸,最有代表的歐幾里得的幾何學(xué)和托勒密的地心說。目前,大多數(shù)學(xué)者,普遍都遵循這機(jī)械思維。如果把他們的方法論做一個(gè)簡(jiǎn)單的概括,其核心思想有兩點(diǎn),一是需要有一個(gè)簡(jiǎn)單的元模型,這個(gè)模型可能是假設(shè)出來的,然后再利用這個(gè)元模型構(gòu)建復(fù)雜的模型;二是整個(gè)模型要和歷史數(shù)據(jù)相吻合。被廣泛地應(yīng)用在動(dòng)態(tài)規(guī)劃管理學(xué)上。另外一個(gè)典型的機(jī)械思維的案例是牛頓的方法論,核心思想可以概括成三點(diǎn):第一,世界變化的規(guī)律是確定的;第二,因?yàn)橛写_定性做保障,因此規(guī)律不僅是可以被認(rèn)識(shí)的,而且是可以用簡(jiǎn)單的公式或者語音描述清楚。這一點(diǎn)在牛頓之前,大部分人不認(rèn)可,而是歸結(jié)于神的作用。這些規(guī)律應(yīng)該是放之四海皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐,這種認(rèn)知是在牛頓之后才有的。PART03大數(shù)據(jù)時(shí)代的思維方式

數(shù)據(jù)安全的重要性已經(jīng)毋庸置疑,目前支撐數(shù)據(jù)全生命周期安全防護(hù)的技術(shù)也比較成熟。這里我們重點(diǎn)介紹密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)、公鑰基礎(chǔ)設(shè)施、數(shù)字證書以及訪問控制等技術(shù)和方案。8.3大數(shù)據(jù)時(shí)代的思維方式在大數(shù)據(jù)時(shí)代,機(jī)械思維的局限性越來越明顯,并非所有的規(guī)律都可以用簡(jiǎn)單的原理來描述,同時(shí)不確定性也無處不在。因此,如何在承認(rèn)不確定性的情況下,如何去的科學(xué)上的突破,或者把事情做得更高,這就需要一種新的方法論的誕生。因此,大數(shù)據(jù),不僅是一次技術(shù)革命,同時(shí)也是一次思維革命。從理論上來說,相對(duì)于人類有限的數(shù)據(jù)采集和分析能力,自然界和人類社會(huì)存在的數(shù)據(jù)是無限的。以有限對(duì)無線,如何才能慧眼識(shí)珠,找到人們所需的數(shù)據(jù),無疑是一種思維的指引。因此,就像經(jīng)典力學(xué)和相對(duì)論的誕生改變了人們的思維模式一樣,大數(shù)也在潛移默化地改變?nèi)藗兊乃枷搿>S克托.邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是思維方式的轉(zhuǎn)變:全樣兒非抽樣、效率而非精確、相關(guān)而非因果。此外,人們解決問題的思維方式,正在朝著“以數(shù)據(jù)為中心”以及“我為人人,人人為我”的方式邁進(jìn)。8.3.1

全樣而非抽樣過去,由于數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和處理能力的限制,在進(jìn)行科學(xué)分析中,通常采用抽樣的方法,即從全集數(shù)據(jù)中抽取一部分樣本數(shù)據(jù),對(duì)這些樣本數(shù)據(jù)進(jìn)行處理分析,來推斷出全集數(shù)據(jù)的總體特征。抽樣的基本要求是要保證所抽取的樣品單位相對(duì)全部樣品具有充分的代表性。抽樣的目的是從被抽取樣本的分析、研究結(jié)果來估計(jì)和推斷全部樣本的特性,是科學(xué)實(shí)驗(yàn)、質(zhì)量檢驗(yàn)、社會(huì)調(diào)查等普遍采用的一種經(jīng)濟(jì)有效的工作和研究方法。但是,抽樣分析方法有優(yōu)點(diǎn)也有缺點(diǎn)。抽樣保證了在客觀條件達(dá)不到的情況下,可能得出一個(gè)相對(duì)靠譜的結(jié)論,提供一定的參考價(jià)值。但是,抽樣分析的結(jié)果具有不穩(wěn)定性。當(dāng)下大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù)的核心就是對(duì)數(shù)量數(shù)據(jù)能夠進(jìn)行實(shí)時(shí)采集、存儲(chǔ)和處理。8.3.2

效率而非精確過去,采用抽樣分析的方法,就必須追求分析方法的精確性,因?yàn)槌闃臃治鲋皇轻槍?duì)部分樣本的分析,其分析結(jié)果被應(yīng)用到全集數(shù)據(jù)以后,誤差極其容易被放大,這就意味著,抽樣分析的極小誤差,被放大到全集數(shù)據(jù)以后,可能就會(huì)變成一個(gè)很大的誤差,導(dǎo)致出現(xiàn)“失之毫厘謬以千里”的現(xiàn)象。因此,為了保證誤差被放大到全集數(shù)據(jù)時(shí)仍然處于可以接受的范圍,就必須確保抽樣分析結(jié)果的精確性。當(dāng)下的大數(shù)據(jù)時(shí)代,越多越多的不確定性的出現(xiàn),因此我們?cè)絹碓侥軌蛉萑滩痪_的數(shù)據(jù)。傳統(tǒng)的樣本分析師門很難容忍錯(cuò)誤數(shù)據(jù)的存在,因?yàn)樗麄儺吷荚谘芯咳绾畏乐购捅苊忮e(cuò)誤的出現(xiàn)。在收集樣本的時(shí)候,統(tǒng)計(jì)學(xué)家會(huì)采用一定的策略來減少錯(cuò)誤發(fā)生的頻率。在公布結(jié)果之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。綜上,大數(shù)據(jù)時(shí)代人們開始重新審視精確性的優(yōu)劣。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)據(jù)化、網(wǎng)絡(luò)化的時(shí)代,就可能會(huì)錯(cuò)過重要的信息。8.3.3相關(guān)而非因果過去,數(shù)據(jù)分析的目的,一方面是解釋事物背后的發(fā)展機(jī)理,例如,某大型超市的某個(gè)門店在某個(gè)時(shí)期內(nèi)凈利潤(rùn)下降很多,這就需要信息部門對(duì)相關(guān)銷售數(shù)據(jù)進(jìn)行詳細(xì)分析找出發(fā)生問題的原因。另一方面是用于預(yù)測(cè)未來可能發(fā)生的時(shí)間。在無法確定因果關(guān)系是,數(shù)據(jù)為人們提供了解決問題的新方法。數(shù)據(jù)中包含的信息可以幫助消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系,幫助我們得到我們想要知道的答案,這就是大數(shù)據(jù)思維的核心。從因果關(guān)系到相關(guān)性,并不是抽象的,而是有一整套的算法能夠讓人們從數(shù)據(jù)中尋找相關(guān)性,最后去解決各種各樣的難題。8.3.4以數(shù)據(jù)為中心

在很長(zhǎng)一段時(shí)期內(nèi)的科學(xué)研究領(lǐng)域,無論是研究語音識(shí)別、機(jī)器翻譯、圖像識(shí)別的學(xué)者,還是研究自然語言理解的學(xué)者,分成了界限明確的兩派,一派堅(jiān)持采用傳統(tǒng)的人工智能方法解決問題,簡(jiǎn)單來講就是模仿人,另外一派在倡導(dǎo)數(shù)據(jù)驅(qū)動(dòng)方法。由于數(shù)據(jù)量有限,在最初的機(jī)器翻譯領(lǐng)域,學(xué)者通常采用的人工智能的方法。計(jì)算機(jī)研發(fā)人員將語法規(guī)則和雙語詞典結(jié)合在一起。在20世紀(jì)90年代互聯(lián)網(wǎng)興起之后,數(shù)據(jù)的獲取變得非常容易,可用的數(shù)據(jù)量也愈加龐大,因此,從1994年到2004年十年的時(shí)間里,機(jī)器反應(yīng)的準(zhǔn)確性提高了一倍,其中20%左右的貢獻(xiàn)來自于方法的改進(jìn),80%則來自數(shù)據(jù)量的提升。數(shù)據(jù)驅(qū)動(dòng)方法從20世紀(jì)70年代開始起步,在80-90年代得到緩慢但穩(wěn)步的發(fā)展。目前,全球各個(gè)領(lǐng)域數(shù)據(jù)不斷向外擴(kuò)展,漸漸形成了另外一個(gè)特點(diǎn),越來越多的數(shù)據(jù)開始交叉,各個(gè)維度的數(shù)據(jù)從點(diǎn)和線形成網(wǎng),或者換個(gè)角度說,數(shù)據(jù)之間的關(guān)聯(lián)性極大地增加了。8.3.5我為人人,人人為我“我為人人,人人為我”是大數(shù)據(jù)思維的又一體現(xiàn),城市的智能交通管理便是一個(gè)例子。在智能手機(jī)和智能汽車(特斯拉等)出現(xiàn)之前,世界上的很多大城市雖然都有交通管理中心,但是它們能夠得到的交通路況信息最快也有20分鐘滯后。如果沒有足夠跟蹤足夠多的人出行情況的實(shí)時(shí)信息的工具,一個(gè)城市即使部署再多的采樣觀察點(diǎn),再頻繁地報(bào)告各種交通事故和擁堵的情況,整體交通路況信息的實(shí)時(shí)性也不會(huì)有多大改進(jìn)。但是,在能夠定位的智能手機(jī)出現(xiàn)以后,這種情況就從根本上得到了改變。當(dāng)下智能手機(jī)足夠普及并且大部分用戶開放了他們的實(shí)時(shí)位置信息(符合大數(shù)據(jù)的完備性),使得做地圖服務(wù)的公司,比如百度或者高德,有可能實(shí)時(shí)地得到任何一個(gè)人口密度較大的城市的人員流動(dòng)信息,并且根據(jù)其流動(dòng)的速度和所在的位置,很容易區(qū)分步行的人群和行進(jìn)的汽車。8.3.5我為人人,人人為我由于收集信息的公司和提供地圖服務(wù)的公司是一家,因此從數(shù)據(jù)采集、數(shù)據(jù)處理以及到信息發(fā)布,中間的延時(shí)微乎其微,所提供的交通路況信息要及時(shí)的多。使用過百度或者高德地圖的人,對(duì)比六七年前,都很明顯地感到了其中的差別。同時(shí)還可以通過分析歷史數(shù)據(jù)來預(yù)測(cè)某些更及時(shí)的信息。目前,一些科研單位和公司的研發(fā)部門,已經(jīng)開始利用一個(gè)城市交通狀況的歷史數(shù)據(jù),結(jié)合實(shí)時(shí)數(shù)據(jù),預(yù)測(cè)出一段時(shí)間以內(nèi)(比如一個(gè)小時(shí)內(nèi))該城市各條道路可能出現(xiàn)的交通狀況,并且?guī)椭鲂姓咭?guī)劃最優(yōu)的出行路線。上述的實(shí)例,很好地闡述了大數(shù)據(jù)時(shí)代“我為人人,人人為我”的全新理念和思維,每個(gè)使用導(dǎo)航軟件的智能手機(jī)用戶,一方面共享自己的實(shí)時(shí)位置信息給導(dǎo)航軟件公司,使得導(dǎo)航軟件公司可以從大量用戶那里獲得實(shí)時(shí)的交通路況大數(shù)據(jù),另一方面,每個(gè)用戶又在享受導(dǎo)航軟件公司提供的基于交通大數(shù)據(jù)的實(shí)時(shí)導(dǎo)航服務(wù)。PART04運(yùn)用大數(shù)據(jù)思維的典型案例

為了進(jìn)一步加深對(duì)大數(shù)據(jù)思維的理解并應(yīng)用,下面對(duì)相關(guān)的典型案例進(jìn)行描述。8.4運(yùn)用大數(shù)據(jù)思維的典型案例為了進(jìn)一步加深對(duì)大數(shù)據(jù)思維的理解并應(yīng)用,下面對(duì)相關(guān)的典型案例進(jìn)行描述,如表8-1所示。8.4.1商品比價(jià)網(wǎng)站美國(guó)有一家創(chuàng)新企業(yè),可以幫助人們做購(gòu)買決策,告訴消費(fèi)者什么時(shí)候買什么產(chǎn)品,什么時(shí)候買最便宜,預(yù)測(cè)產(chǎn)品的價(jià)格趨勢(shì)。這家公司背后的驅(qū)動(dòng)力就是大數(shù)據(jù)。他們?cè)谌蚋鞔缶W(wǎng)站上搜集數(shù)十億計(jì)的數(shù)據(jù),然后幫助數(shù)以萬計(jì)的用戶省錢,為他們的采購(gòu)找到最好時(shí)間,提高生產(chǎn)率,降低交易成本,為終端的消費(fèi)者帶去更多價(jià)值。在這類模式下,盡管對(duì)一些零售商的利潤(rùn)會(huì)進(jìn)一步受擠壓,但從商業(yè)本質(zhì)上來講,可以把錢更多地放回到消費(fèi)者的口袋里,讓購(gòu)物變的更理性。這是依靠大數(shù)據(jù)催生出來的一項(xiàng)全新產(chǎn)業(yè)。這家為數(shù)以萬計(jì)的客戶省錢的公司,后來被eBay以高價(jià)收購(gòu)。8.4.2啤酒與尿布“啤酒與尿布”的故事,是全球最大的零售商沃爾瑪發(fā)現(xiàn)的。沃爾瑪?shù)墓ぷ魅藛T在按照周期統(tǒng)計(jì)產(chǎn)品的銷售信息是,發(fā)現(xiàn)了一個(gè)非常奇怪的現(xiàn)象:每到周末的時(shí)候,超市里啤酒和尿布的銷量就會(huì)突然大增。為了搞清楚其中的原因,他們派出工作人員進(jìn)行調(diào)查。通過一段時(shí)間的觀察和走訪之后,他們了解到,在美國(guó)有孩子的家庭中,太太經(jīng)常囑咐丈夫下班后要為孩子買尿布,而丈夫們?cè)谫I完尿布以后又順手帶回了自己愛喝的啤酒(休息時(shí)喝酒是很多男人的習(xí)慣),因此,周末時(shí)啤酒和尿布銷售一起增長(zhǎng)。弄清楚原因以后,沃爾瑪打破常規(guī),嘗試將啤酒和尿布擺放在一起,結(jié)果使得啤酒和尿布的銷售雙雙激增,為公司帶來了巨大的利潤(rùn)。通過這個(gè)故事我們看到,本來尿布與啤酒是兩個(gè)風(fēng)馬牛不相及的物品,但如果關(guān)聯(lián)在一起,銷量就增加了。8.4.3零售商Target的基于大數(shù)據(jù)的商品營(yíng)銷美國(guó)人逛超市,除了大家熟悉的沃爾瑪,還有美國(guó)第三大零售商Target,也是人們經(jīng)常光顧的商超。一個(gè)真實(shí)的故事:一名美國(guó)男子闖入他家附近的Target,抗議說超市竟然給他17歲的女兒發(fā)嬰兒尿布和童車的優(yōu)惠券,這是赤裸裸的侮辱,他要起訴超市。店鋪經(jīng)理就立刻跑出來承認(rèn)錯(cuò)誤,一臉懵的經(jīng)理也不知道發(fā)生了什么事。一個(gè)月以后這位父親又跑來道歉,這個(gè)時(shí)候他才知道他的女兒的確懷孕了。Target比她的父親知道他女兒懷孕足足早了一個(gè)月,那么Target是怎么知道的呢?這個(gè)女孩也沒有買過任何母嬰用品?。吭瓉磉@就是神秘的大數(shù)據(jù)起的作用。Target從數(shù)據(jù)倉庫中挖掘出了25項(xiàng)與懷孕高度相關(guān)的商品,制作了一個(gè)懷孕預(yù)測(cè)的指數(shù),根據(jù)指數(shù)能夠在很小的誤差范圍內(nèi)預(yù)測(cè)顧客有沒有懷孕。實(shí)際上這個(gè)女孩只是買了一些沒有味道的濕紙巾和一些補(bǔ)鎂的藥品,就被Target鎖定了。8.4.4

吸煙有害身體健康的法律訴訟關(guān)于吸煙是否有害健康,在過去,由于數(shù)據(jù)量有限,而且常常不是多維度的,這樣的相關(guān)性很難找得到,即使偶爾找到了,人們也未必接受,因?yàn)檫@和傳統(tǒng)的觀念不一樣。20世紀(jì)90年代中期,在美國(guó)和加拿大圍繞香煙是否對(duì)人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關(guān)鍵,是采用因果關(guān)系判定,還是采用相關(guān)性判定,決定了那些訴訟案判決的最終結(jié)果。各州檢察官們和專家們經(jīng)過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達(dá)成和解,同意賠償3655億美元。在這場(chǎng)歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對(duì)人體有害的因果關(guān)系的證據(jù),而依然是采用了統(tǒng)計(jì)上強(qiáng)相關(guān)性的證據(jù),只是這一次的證據(jù)能夠讓陪審團(tuán)和法官信服。在這場(chǎng)馬拉松式的訴訟過程中,其實(shí)人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強(qiáng)相關(guān)性上來了。如果在法律上都能夠被作為證據(jù)接受,那么把相關(guān)性的結(jié)果應(yīng)用到其他領(lǐng)域更是順理成章的事情了。8.4.5

基于大數(shù)據(jù)的藥品研發(fā)通過因果分析找到答案,進(jìn)而研制出治療某種疾病的藥物,是傳統(tǒng)的藥物研制方式,青霉素的發(fā)明過程就非常有代表性。19世紀(jì)中期,奧匈帝國(guó)的塞麥爾維斯、法國(guó)的巴斯德等人發(fā)現(xiàn)微生物細(xì)菌會(huì)導(dǎo)致很多疾病,因此人們很容易相當(dāng)殺死細(xì)菌就能治好疾病,這就是因果關(guān)系。在整個(gè)青霉素和其他抗生素的發(fā)明過程中,人類就是不斷地分析原因,然后尋找答案。通過這種因果關(guān)系找到答案非常讓人信服。按照因果關(guān)系,研制一種新藥就需要如此長(zhǎng)的時(shí)間、如此高的成本。這顯然不是患者可以等待和負(fù)擔(dān)的,也不是醫(yī)生、科學(xué)家、制藥公司想要的,但是過去沒有辦法,只能這么做。如今,有了大數(shù)據(jù),尋找特效藥的方法就和過去有所不同了。美國(guó)一共有5000多種處方藥,人類會(huì)得的疾病大概有一萬種。如果將每一種藥和每一種疾病進(jìn)行配對(duì),就會(huì)發(fā)現(xiàn)一些意外的驚喜。這種先有結(jié)果再反推原因的做法,和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反。無疑,這種做法會(huì)比較快,前提是足夠多的數(shù)據(jù)支持。8.4.6

基于大數(shù)據(jù)的微信朋友圈廣告微信朋友圈廣告已成為各大商家和品牌方進(jìn)行商品推廣使用最廣泛的途徑之一。它通常以圖文形式呈現(xiàn),通過在用戶朋友圈的內(nèi)容流中插入廣告,向用戶展示推廣的產(chǎn)品、服務(wù)或者品牌。那么微信朋友圈是如何兼顧自己和廣告商的利益,首先,它根據(jù)收集到的大量數(shù)據(jù)對(duì)用戶的特征、興趣、行為習(xí)慣等信息進(jìn)行分析,形成用戶畫像模型,其次,根據(jù)廣告主的設(shè)定與用戶畫像模型進(jìn)行匹配,計(jì)算出匹配度最大的結(jié)果,精準(zhǔn)推送給用戶。最后,系統(tǒng)會(huì)對(duì)廣告的展示量、點(diǎn)擊量等數(shù)據(jù)進(jìn)行收集和分析,以評(píng)估廣告的效果,并根據(jù)廣告的效果和用戶反饋,不斷地進(jìn)行優(yōu)化,從而提升廣告的匹配度和用戶體驗(yàn)。這樣以來,如果一個(gè)廣告很少被點(diǎn)擊,微信朋友圈就會(huì)盡量少地展示這個(gè)廣告。對(duì)廣告主來說省錢了,因?yàn)椴挥没ㄥX在無用的廣告上面。對(duì)微信朋友圈來說,不展示這些廣告就可以把有限而寶貴的搜索流量留給那些可能被點(diǎn)擊的廣告,從而增加自己的收入。對(duì)用戶來說,也不會(huì)看到自己不想看并且跟自己沒關(guān)系的廣告,提升了用戶的體驗(yàn)。這就是用數(shù)據(jù)來獲得智能。8.4.7

搜索引擎“點(diǎn)擊模型”各個(gè)搜索引擎都有一個(gè)度量用戶點(diǎn)擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型,通常被稱為“點(diǎn)擊模型”隨著數(shù)據(jù)量的積累,點(diǎn)擊模型對(duì)搜索結(jié)果排名的預(yù)測(cè)越來越準(zhǔn)確,它的重要性也越來越大。目前,它在搜索排序中至少占70%~80%的權(quán)重,也就是說搜索算法中其他所有的因素加起來都不如它重要。換句話說,在當(dāng)今的搜索引擎中,因果關(guān)系已經(jīng)沒有數(shù)據(jù)的相關(guān)性重要了。當(dāng)然,點(diǎn)擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小。對(duì)于常見的搜索,例如“虛擬現(xiàn)實(shí)”,積累足夠多的用戶點(diǎn)擊數(shù)據(jù)并不需要太長(zhǎng)的時(shí)間。當(dāng)整個(gè)搜索行業(yè)都意識(shí)到點(diǎn)擊數(shù)據(jù)的重要性后,這個(gè)市場(chǎng)上的競(jìng)爭(zhēng)就從技術(shù)競(jìng)爭(zhēng)變成了數(shù)據(jù)競(jìng)爭(zhēng)。因此,搜索質(zhì)量的競(jìng)爭(zhēng)就成了瀏覽器或者其他客戶端軟件市場(chǎng)占有率的競(jìng)爭(zhēng)。雖然在外人看來這些互聯(lián)網(wǎng)公司競(jìng)爭(zhēng)的是技術(shù),但更準(zhǔn)確地講,它們是數(shù)據(jù)層面的競(jìng)爭(zhēng)。8.4.8

流感趨勢(shì)預(yù)測(cè)以流感為例,很多國(guó)家都有規(guī)定,當(dāng)醫(yī)生發(fā)現(xiàn)新型流感病例時(shí)需要告知疾控中心。但由于人們可能患病不能及時(shí)就醫(yī),同時(shí)信息傳回疾控中心也需要時(shí)間,因此,通告新流感病例時(shí)往往會(huì)有一定的延遲。很早之前,就有工程師發(fā)現(xiàn)某些搜索字詞非常有助于了解流感病情況。在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多。到了過敏季節(jié),與過敏有關(guān)的搜索會(huì)顯著上升。而到了夏季,與曬傷有關(guān)的搜索與會(huì)大幅增加。于是這些工程師開發(fā)了一個(gè)可以預(yù)測(cè)流感趨勢(shì)的工具,它采用大數(shù)據(jù)分析技術(shù),利用用戶在搜索引擎輸入的搜索關(guān)鍵詞來判斷整個(gè)地區(qū)的流感情況。工程師把人們最頻繁檢索的詞條和官方發(fā)布的季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,并構(gòu)建數(shù)學(xué)模型實(shí)現(xiàn)流感預(yù)測(cè)。流感趨勢(shì)預(yù)測(cè)并不是依賴于對(duì)隨機(jī)抽樣的分析,而是分析了幾十億互聯(lián)網(wǎng)檢索記錄而得到的結(jié)論。分析整個(gè)數(shù)據(jù)庫,而不是對(duì)一個(gè)樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測(cè)出任何特定尺度的數(shù)據(jù)特征。8.4.9大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問題,在自然語言處理上表現(xiàn)得很明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z言的學(xué)科方向)。在2000年的時(shí)候,微軟研究中心的米歇爾?班科和埃里克?比爾一直在尋求Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立再百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往四種常見的算法中逐漸添加數(shù)據(jù),先是已簽完字,再到一億字,最后到十億。、隨著數(shù)據(jù)的增多,四種算法的表現(xiàn)都大幅度提高了。后來,班科和比爾在他們發(fā)表的研究論文中寫到:如此一來,我們得重新衡量一下,更多的人力物力是應(yīng)該消耗在算法發(fā)展上,還是在語料庫發(fā)展上。所以,數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還重要,因此大叔的的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效。8.4.10

百度翻譯2007年,百度公司開始涉足機(jī)器翻譯,并于當(dāng)年推出在線翻譯服務(wù),最初僅提供英語到中文和中文到英語的翻譯功能。起初,百度翻譯僅是收集大量的雙語對(duì)照數(shù)據(jù),這些數(shù)據(jù)包含了源語言和目標(biāo)語言的對(duì)應(yīng)關(guān)系,通過對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練和模型構(gòu)建,提高翻譯的準(zhǔn)確率。隨著科技的發(fā)展,百度翻譯擴(kuò)大數(shù)據(jù)源的類型和采集途徑,盡可能地收集所有的翻譯,比如會(huì)從各種各樣語言的公司網(wǎng)站上去尋找聯(lián)合國(guó)和歐洲委員會(huì)這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本,甚至?xí)账僮x項(xiàng)目中的書籍翻譯。百度翻譯通過對(duì)這些數(shù)據(jù)使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí),形成機(jī)器翻譯模型,通過大量的訓(xùn)練和迭代優(yōu)化,模型可以學(xué)習(xí)到源語言和目標(biāo)語言之間的對(duì)應(yīng)關(guān)系,從而生成更加準(zhǔn)確和通順的目標(biāo)語言的翻譯結(jié)果。當(dāng)今,百度翻譯一直在不斷地進(jìn)行技術(shù)創(chuàng)新和優(yōu)化,提升翻譯質(zhì)量和用戶體驗(yàn),同時(shí)也積極與其他領(lǐng)域進(jìn)行合作,比如語音識(shí)別技術(shù)、圖像識(shí)別技術(shù)等,提供更全面、更準(zhǔn)確的翻譯服務(wù)。本章小結(jié)PART05

本章首先介紹了傳統(tǒng)的思維方式,然后重點(diǎn)介紹了這5種思維方式,并給出了對(duì)應(yīng)的案例。大數(shù)據(jù)不僅改變每個(gè)人的日常生活和工作方式,也將改變商業(yè)組織和社會(huì)組織的運(yùn)行方式。8.5本章小結(jié)本章小結(jié)

大數(shù)據(jù)時(shí)代的到來,不僅是一次技術(shù)革命,同時(shí)也是一場(chǎng)思維革命。在大數(shù)據(jù)時(shí)代,我們做事的思維也將從根本上發(fā)生改變,最大的思維轉(zhuǎn)變方式有5種:全樣而非抽樣、效率而非精確、相關(guān)而非因果、以數(shù)據(jù)為中心以及“我為人人,人人為我”。本章首先介紹了傳統(tǒng)的思維方式,然后重點(diǎn)介紹了這5種思維方式,并給出了對(duì)應(yīng)的案例。大數(shù)據(jù)不僅改變每個(gè)人的日常生活和工作方式,也將改變商業(yè)組織和社會(huì)組織的運(yùn)行方式。習(xí)

題PART06

本章首先介紹了傳統(tǒng)的思維方式,然后重點(diǎn)介紹了這5種思維方式,并給出了對(duì)應(yīng)的案例。大數(shù)據(jù)不僅改變每個(gè)人的日常生活和工作方式,也將改變商業(yè)組織和社會(huì)組織的運(yùn)行方式。習(xí)題

1、傳統(tǒng)思維的核心思想是什么?2、大數(shù)據(jù)時(shí)代需要新的思維方式的原因是什么?3、大數(shù)據(jù)時(shí)代人類思維方式的轉(zhuǎn)變體現(xiàn)在幾個(gè)方面?4、請(qǐng)闡述“啤酒和尿布”商業(yè)故事中使用的是哪種大數(shù)據(jù)思維方式8.6習(xí)題感謝您的耐心觀看大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第九章

數(shù)據(jù)開放與共享大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice隨著大數(shù)據(jù)時(shí)代的發(fā)展,數(shù)據(jù)作為最重要的“基石”,受到越來越多的關(guān)注和普遍重視,而大數(shù)據(jù)的真正價(jià)值則在于其如何被充分利用。因此,數(shù)據(jù)開放和共享成為大數(shù)據(jù)應(yīng)用過程中的關(guān)鍵因素,數(shù)據(jù)開放和共享的重要性也被達(dá)成共識(shí)。數(shù)據(jù)開放強(qiáng)調(diào)的是原始數(shù)據(jù)的方法。數(shù)據(jù)共享則強(qiáng)調(diào)的打破“數(shù)據(jù)孤島”,不同部門之間的數(shù)據(jù)共通,最終形成大數(shù)據(jù)的合力。本章主要闡述數(shù)據(jù)開放與共享的基本概念與原則、數(shù)據(jù)開放與共享平臺(tái)以及典型案例分享。第九章

數(shù)據(jù)開放與共享目錄CONTENTS概述9.1數(shù)據(jù)開放與共享原則9.2大數(shù)據(jù)時(shí)代的思維方式9.3數(shù)據(jù)開放與共享平臺(tái)9.5習(xí)題9.7數(shù)據(jù)開放與共享的分類9.4本章小結(jié)9.6概

述PART01

本章主要闡述數(shù)據(jù)開放與共享的基本概念與原則、數(shù)據(jù)開放與共享平臺(tái)以及典型案例分享。9.1.1

數(shù)據(jù)開放與共享的概念 根據(jù)維基百科的定義,開放數(shù)據(jù)是指一種經(jīng)過挑選與許可的數(shù)據(jù),這些數(shù)據(jù)不受著作權(quán)、專利權(quán)以及其他管理機(jī)制的限制,可以被任何人自由免費(fèi)地訪問、獲取、利用和分享?!堕_放數(shù)據(jù)憲章》則將開放數(shù)據(jù)定義為具備必要的技術(shù)和法律特性,從而能被任何人在任何時(shí)間和任何地點(diǎn)進(jìn)行自由使用、再利用和分發(fā)的電子數(shù)據(jù)。有兩個(gè)核心要素被特意強(qiáng)調(diào),一是數(shù)據(jù),是指原始的、未經(jīng)處理的餅允許個(gè)人和企業(yè)自由利用的數(shù)據(jù),在科學(xué)研究領(lǐng)域是指原始的、未經(jīng)處理的科學(xué)數(shù)據(jù)。二是開放,一般來說有兩層含義:①技術(shù)上的開放,即以機(jī)器可讀的標(biāo)準(zhǔn)格式開放;②法律上的開放,即不受限制地明確允許商業(yè)和非商業(yè)利用和再利用。數(shù)據(jù)共享是指數(shù)據(jù)的擁有者將數(shù)據(jù)向其他機(jī)構(gòu)和個(gè)人開放的行為,例如科研人員將實(shí)驗(yàn)過程中使用的數(shù)據(jù)向其他科研人員共享,以便于實(shí)驗(yàn)結(jié)果的可重現(xiàn)性。開放數(shù)據(jù)的宗旨是提供免費(fèi)、公開和透明的數(shù)據(jù)信息,這些數(shù)據(jù)能適用于任何領(lǐng)域,如政府運(yùn)作、商業(yè)經(jīng)營(yíng)等。開放數(shù)據(jù)本身并沒有明顯的商業(yè)價(jià)值,但經(jīng)過公眾、企業(yè)等加工處理以后,可能會(huì)產(chǎn)生巨大的商業(yè)價(jià)值。9.1.2數(shù)據(jù)開放與共享的發(fā)展歷程 1991年,免費(fèi)操作系統(tǒng)Linux橫空出世,互聯(lián)網(wǎng)的普及為軟件自由運(yùn)動(dòng)的興起發(fā)揮了重要作用。隨著越來越多的公司和個(gè)人采取開放源代碼的做法,開源一次被正名并獲得全世界軟件行業(yè)的認(rèn)同,開放源代碼促進(jìn)會(huì)于1998年創(chuàng)建并宣揚(yáng)開源的原則。軟件由代碼和數(shù)據(jù)共同組成,當(dāng)開放源代碼成為一種共識(shí)的時(shí)候,開放數(shù)據(jù)也成為一種必然的選擇。源代碼開放只涉及技術(shù)層面,但數(shù)據(jù)開放涉及面更廣,不僅關(guān)乎技術(shù),還與數(shù)據(jù)內(nèi)容相關(guān),直指安全與隱私,因此數(shù)據(jù)開放面臨更大的挑戰(zhàn)和阻力。數(shù)據(jù)開放的訴求,首先指向了公共領(lǐng)域和公共數(shù)據(jù),即政府采集、擁有的數(shù)據(jù)。與此同時(shí),學(xué)術(shù)界對(duì)月數(shù)據(jù)公開的需求日漸強(qiáng)烈,特別是國(guó)家財(cái)政支持的科研項(xiàng)目成果和數(shù)據(jù)如何惠及公眾也成為焦點(diǎn)話題。數(shù)據(jù)開放與共享的第一階段強(qiáng)調(diào)的是信息的共享,即經(jīng)過加工整理和處理后的數(shù)據(jù)。當(dāng)前,數(shù)據(jù)開放與共享的數(shù)據(jù)越來越大,范圍越來越廣,除了政府開放數(shù)據(jù),還有很多企業(yè)和個(gè)人個(gè)加入到數(shù)據(jù)開放與共享的運(yùn)動(dòng)中。9.1.2數(shù)據(jù)開放與共享的發(fā)展歷程 同時(shí)數(shù)據(jù)開放和共享也具備了一定的理論基礎(chǔ)。主要包括數(shù)據(jù)資產(chǎn)理論、數(shù)據(jù)權(quán)理論和開放政府理論?,F(xiàn)在,身處大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)被當(dāng)做一種重要的戰(zhàn)資源,也可以成為一種資產(chǎn)。隨著數(shù)據(jù)的進(jìn)一步開放,國(guó)家和政府加強(qiáng)了對(duì)數(shù)據(jù)主權(quán)的關(guān)注,并將其納入到數(shù)據(jù)主權(quán)的范疇。數(shù)據(jù)權(quán)包括數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)利。數(shù)據(jù)主權(quán)的主體是國(guó)家,是一個(gè)國(guó)家獨(dú)立對(duì)本國(guó)數(shù)據(jù)進(jìn)行管理和利用的權(quán)利,是對(duì)數(shù)據(jù)的占有和控制。數(shù)據(jù)權(quán)利的主體是公民,是相對(duì)于公民數(shù)據(jù)采集義務(wù)而形成的對(duì)數(shù)據(jù)利用的權(quán)利。同時(shí),伴隨著大數(shù)據(jù)時(shí)代的發(fā)展和智慧服務(wù)型政府的創(chuàng)建,數(shù)據(jù)作為最重要的基石和原料正在得到各利益相關(guān)的普遍重視,政府?dāng)?shù)據(jù)的資源優(yōu)勢(shì)和應(yīng)用市場(chǎng)優(yōu)勢(shì)日益凸顯,政府?dāng)?shù)據(jù)資源的共享與開放已成為世界各國(guó)政府的普遍共識(shí)。PART02數(shù)據(jù)開放與共享原則

數(shù)據(jù)開放與共享原則是開放數(shù)據(jù)的基本綱領(lǐng),包括對(duì)于政府等數(shù)據(jù)提供者的要求、所涉范圍及目的等各個(gè)方面。9.2數(shù)據(jù)開放與共享原則數(shù)據(jù)滿足八項(xiàng)條件時(shí)可成為“開放數(shù)據(jù)”:(1)完整。除非涉及國(guó)家安全、商業(yè)機(jī)密、個(gè)人隱私或其他特別限制,所有的政府?dāng)?shù)據(jù)都應(yīng)開放,開放是原則,不開放是例外。(2)原始性。是指從數(shù)據(jù)源頭采集的原始數(shù)據(jù),而不是被修改或加工過的數(shù)據(jù)。(3)及時(shí)。在第一時(shí)間開放和更新數(shù)據(jù)。(4)可獲取。數(shù)據(jù)可被獲取,并盡可能地?cái)U(kuò)大用戶范圍和利用種類。(5)可機(jī)讀。數(shù)據(jù)可被計(jì)算機(jī)自動(dòng)抓取和處理。(6)非歧視性。數(shù)據(jù)對(duì)所有人都平等開放,不需要特別登記。(7)非專屬性。數(shù)據(jù)格式不能獨(dú)家控制,任何實(shí)體都不得排除他人使用數(shù)據(jù)的權(quán)利。(8)免于授權(quán)。數(shù)據(jù)不受版權(quán)、專利、商標(biāo)或貿(mào)易保密規(guī)則的約束或已得到授權(quán)使用(除非涉及國(guó)家安全、商業(yè)機(jī)密、個(gè)人隱私或其他特別限制)。9.2數(shù)據(jù)開放與共享原則政府開放數(shù)據(jù)的五大原則,分別是默認(rèn)開放數(shù)據(jù)為默認(rèn)規(guī)則、注重質(zhì)量和數(shù)據(jù)、讓所有人可以、為改善治理發(fā)布數(shù)據(jù)、為激勵(lì)創(chuàng)新發(fā)布數(shù)據(jù)。(1)開放數(shù)據(jù)為默認(rèn)規(guī)則?;凇耙怨_為常態(tài),不公開為例外”的政府信息公開院長(zhǎng),數(shù)據(jù)開放與共享也應(yīng)遵循“以公開為常態(tài),不公開為例外”的開放原則,法律需對(duì)這些不開放的數(shù)據(jù)加以明確規(guī)定。(2)質(zhì)量和數(shù)量。政府機(jī)構(gòu)需要發(fā)布各種各樣的已經(jīng)審核和過濾的數(shù)據(jù)集。數(shù)據(jù)開放的核心是原始數(shù)據(jù)的開放,此外還應(yīng)包括特定背景下的信息開放乃至包括事實(shí)、數(shù)據(jù)、信息、知識(shí)和智慧的整個(gè)數(shù)據(jù)鏈的開放,特別是關(guān)鍵領(lǐng)域的高價(jià)值數(shù)據(jù)集應(yīng)面向社會(huì)和公民全面開放。(3)所有人可用。數(shù)據(jù)開放與共享過程中不能僅關(guān)注經(jīng)濟(jì)性、效率性和效益性,更需要關(guān)注個(gè)體公平,避免大數(shù)據(jù)時(shí)代的數(shù)據(jù)鴻溝造成新的“數(shù)據(jù)貧富差距”問題。社會(huì)中的任何一個(gè)人都擁有平等獲取大數(shù)據(jù)的權(quán)利,真正實(shí)現(xiàn)開發(fā)的平等對(duì)待必須要取消獲取數(shù)據(jù)的門檻,即取消數(shù)據(jù)特權(quán)。9.2數(shù)據(jù)開放與共享原則政府開放數(shù)據(jù)的五大原則,分別是默認(rèn)開放數(shù)據(jù)為默認(rèn)規(guī)則、注重質(zhì)量和數(shù)據(jù)、讓所有人可以、為改善治理發(fā)布數(shù)據(jù)、為激勵(lì)創(chuàng)新發(fā)布數(shù)據(jù)。(4)發(fā)布數(shù)據(jù)改善治理。政府機(jī)構(gòu)需要國(guó)家之間分享開放數(shù)據(jù)的最佳實(shí)踐,發(fā)布某些“關(guān)鍵數(shù)據(jù)集”并從民間社會(huì)征求建議。(5)鼓勵(lì)創(chuàng)新發(fā)布數(shù)據(jù)。應(yīng)認(rèn)識(shí)到多樣性對(duì)刺激創(chuàng)造力和創(chuàng)新的重要性,政府機(jī)構(gòu)應(yīng)該發(fā)布“高價(jià)值”數(shù)據(jù)集,并吸引開發(fā)社區(qū)和開放數(shù)據(jù)創(chuàng)業(yè)基金。14個(gè)重點(diǎn)開發(fā)領(lǐng)域包括:公司、犯罪與司法、地球觀測(cè)、教育、能源與環(huán)境、財(cái)政與合同、地理空間、全球發(fā)展、政府問責(zé)與民主、健康、科學(xué)與研究、統(tǒng)計(jì)、社會(huì)流動(dòng)性與福利、交通運(yùn)輸與基礎(chǔ)設(shè)施等。9.2數(shù)據(jù)開放與共享原則3項(xiàng)共同行動(dòng)計(jì)劃包括:G8國(guó)家的行動(dòng)計(jì)劃、發(fā)布高價(jià)值的數(shù)據(jù)和元數(shù)據(jù)的映射。(1)G8國(guó)家的行動(dòng)計(jì)劃。2013年6月,美、英、法、德、意、加、日、俄召開八國(guó)集團(tuán)首腦會(huì)議,八國(guó)領(lǐng)導(dǎo)人在北愛爾蘭簽署了《八國(guó)集團(tuán)開放數(shù)據(jù)憲章》,并于同年10月發(fā)布各國(guó)執(zhí)行《G8開放數(shù)據(jù)憲章》的國(guó)家行動(dòng)計(jì)劃。(2)發(fā)布高價(jià)值的數(shù)據(jù)。第一,按照第一、第二原則積極推進(jìn)14個(gè)領(lǐng)域的數(shù)據(jù)開放。第二,共同推進(jìn)有關(guān)國(guó)家統(tǒng)計(jì)、地圖、選舉、預(yù)算的關(guān)鍵數(shù)據(jù)集建設(shè)和發(fā)布。第三,加大民主、環(huán)境等關(guān)鍵領(lǐng)域開放數(shù)據(jù)的提供力度。第四,對(duì)其余類別數(shù)據(jù)發(fā)布情況進(jìn)行闡述。(3)元數(shù)據(jù)的映射。致力并承諾繼續(xù)維護(hù)G8元數(shù)據(jù)映射的實(shí)踐活動(dòng)。PART03數(shù)據(jù)開放與共享的政策國(guó)外數(shù)據(jù)開放與共享的政策與數(shù)據(jù)開放與共享實(shí)施指南9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

1.歐盟2006年,歐盟修訂委員會(huì)發(fā)布的《信息再利用決議》提出,所有來自于公共部門的文件均可用于任何目的(商業(yè)性或非商業(yè)性),除非受到第三方版權(quán)保護(hù);除非有正當(dāng)理由,大部分公共部門的數(shù)據(jù)都將免費(fèi)或收取極少費(fèi)用;強(qiáng)制要求提供通用機(jī)讀格式的數(shù)據(jù),確保數(shù)據(jù)的有效再利用;引入監(jiān)管機(jī)制,保證原則的執(zhí)行。2010年,歐盟通信委員會(huì)向歐洲議會(huì)提交了《開放數(shù)據(jù):創(chuàng)新、增長(zhǎng)和透明合理的引擎》的報(bào)告,報(bào)告以開放數(shù)據(jù)為核心,制定了應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的戰(zhàn)略。根據(jù)歐盟2012年通過的歐盟及成員國(guó)科技資源和數(shù)據(jù)共享的決定,公共科研數(shù)據(jù)公開作為科技資源共享的核心內(nèi)容之一。該決定認(rèn)為公開具體的科研實(shí)驗(yàn)數(shù)據(jù),科研避免浪費(fèi)科技資源和不必要的重復(fù)勞動(dòng),有利于整合歐盟的公共研發(fā)投入和科技資源及科研基礎(chǔ)設(shè)施的共享,有利于歐盟統(tǒng)一的研究區(qū)域建設(shè)和成員國(guó)科技資源相互之間的優(yōu)化配置,促進(jìn)科技成果的轉(zhuǎn)化和提高歐盟的創(chuàng)新能力。9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

1.歐盟2014年,歐盟發(fā)布了《數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)戰(zhàn)略》,聚焦深入研究基于大數(shù)據(jù)價(jià)值鏈的創(chuàng)新機(jī)制,提出大力推動(dòng)“數(shù)據(jù)價(jià)值鏈戰(zhàn)略計(jì)劃”,通過一個(gè)以數(shù)據(jù)為核心的連貫性歐盟生態(tài)體現(xiàn),讓數(shù)據(jù)價(jià)值鏈的不同階段產(chǎn)生價(jià)值。數(shù)據(jù)價(jià)值鏈的主要原則是:高質(zhì)量數(shù)據(jù)的廣泛獲得性,包括公共資訊數(shù)據(jù)的免費(fèi)獲得;作為數(shù)字化單一市場(chǎng)的一部分,歐盟內(nèi)數(shù)據(jù)的自由流動(dòng);尋求個(gè)人潛在隱私問題與其數(shù)據(jù)再利用潛力之間的適當(dāng)平衡,同時(shí)賦予公民以其希望的形式使用自己數(shù)據(jù)的權(quán)利。9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

2.美國(guó)2009年,美國(guó)公布了以透明性、公眾參與、協(xié)同為三大核心的《開放政府指令》,以聯(lián)邦政府為主,在各個(gè)政府結(jié)構(gòu)內(nèi)都開通了相應(yīng)的網(wǎng)站,制定了開放政府計(jì)劃。該指令要求行政管理部門和機(jī)構(gòu)在實(shí)現(xiàn)創(chuàng)建一個(gè)更加開放的政府的過程中采取以下步驟:發(fā)布在線政府信息,提高政府信息質(zhì)量,創(chuàng)建并制度化開放政府文化,創(chuàng)建支持開放政府的政策框架;抓住數(shù)字機(jī)遇,加大政府開放數(shù)據(jù)的權(quán)力,建立21世紀(jì)數(shù)字平臺(tái),以期更好地為美國(guó)人民服務(wù);管理作為資產(chǎn)的信息,確保聯(lián)邦政府對(duì)信息資源的充分利用。9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

2.美國(guó)2013年,美國(guó)通過《政府信息公開和機(jī)器可讀行政命令》,正式確立了政府?dāng)?shù)據(jù)開放的基本框架。該命令中指出,確保以多種方式將數(shù)據(jù)公開發(fā)布,讓數(shù)據(jù)易于被發(fā)現(xiàn)、獲取和利用,政府部門應(yīng)當(dāng)保護(hù)個(gè)人隱私、保密和確保國(guó)家安全。在此基礎(chǔ)上,原先不易獲得的數(shù)據(jù)應(yīng)當(dāng)能夠?yàn)槠髽I(yè)家、研究人員以及其他任何致力于開發(fā)新產(chǎn)品和新服務(wù)的人所使用。美國(guó)政府表示將持續(xù)致力于實(shí)現(xiàn)數(shù)據(jù)的開放工作,并且力求提供一站式資源,匯總所有目前以及開放的數(shù)據(jù)和開源軟件,讓開發(fā)者和社會(huì)大眾能夠更好地利用數(shù)據(jù)開放實(shí)現(xiàn)更高價(jià)值。2014年,《美國(guó)開放數(shù)據(jù)行動(dòng)計(jì)劃》發(fā)布,其目標(biāo)是鼓勵(lì)創(chuàng)新,讓數(shù)據(jù)走出政府,得到更多的創(chuàng)新應(yīng)用。2014年美國(guó)又進(jìn)一步推動(dòng)了《數(shù)據(jù)法令》的頒布,全面推進(jìn)了數(shù)據(jù)的開放。之后,美國(guó)政府、美國(guó)政府參與的國(guó)際組織以及凡屬于美國(guó)納稅收入支持的機(jī)構(gòu)與活動(dòng)都必須保證數(shù)據(jù)的公開透明。9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

3.英國(guó)2009年,英國(guó)國(guó)家檔案館首先公布了《信息權(quán)利小組報(bào)告》,該報(bào)告大力提倡政府、行業(yè)和第三方平臺(tái)使用信息通信技術(shù),創(chuàng)造更好的公共服務(wù)。2012年,由英國(guó)內(nèi)閣辦公室部長(zhǎng)與財(cái)政部主記長(zhǎng)共同提交了《開放數(shù)據(jù)白皮書:釋放潛能》,并發(fā)布最新修訂的《自由保護(hù)法案》,要求政府部門必須以機(jī)器可讀的形式來發(fā)布數(shù)據(jù),同時(shí)對(duì)開放數(shù)據(jù)的版權(quán)許可、收費(fèi)等進(jìn)行了規(guī)定。隨后,英國(guó)發(fā)布了《公共部門透明委員會(huì):公關(guān)數(shù)據(jù)原則》,確定了公關(guān)數(shù)據(jù)開放的形式、格式、許可使用范圍、公共機(jī)構(gòu)鼓勵(lì)數(shù)據(jù)的再利用等14項(xiàng)原則。在2012年的《開放數(shù)據(jù)策略》中,英國(guó)政府公布了衛(wèi)生部、財(cái)政部、司法部、國(guó)防部、稅務(wù)與海關(guān)司、能源和氣候變化部、國(guó)家發(fā)展部、教育部、外交部和內(nèi)閣部共10個(gè)部門的各自不同的開放數(shù)據(jù)策略。9.3.1國(guó)外數(shù)據(jù)開放與共享的政策

3.英國(guó)2013年,英國(guó)政府開放數(shù)據(jù)政策更注重各個(gè)部門與機(jī)構(gòu)承擔(dān)的責(zé)任,積極構(gòu)建政府開放數(shù)據(jù)的長(zhǎng)遠(yuǎn)發(fā)展藍(lán)圖。英國(guó)政

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論