大數(shù)據(jù)安全38課件_第1頁(yè)
大數(shù)據(jù)安全38課件_第2頁(yè)
大數(shù)據(jù)安全38課件_第3頁(yè)
大數(shù)據(jù)安全38課件_第4頁(yè)
大數(shù)據(jù)安全38課件_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)安全專題研究賀文娜大數(shù)據(jù)安全專題研究賀文娜主要內(nèi)容一、什么是大數(shù)據(jù)二、大數(shù)據(jù)的相關(guān)技術(shù)三、大數(shù)據(jù)的應(yīng)用四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)五、機(jī)遇與挑戰(zhàn)主要內(nèi)容一、什么是大數(shù)據(jù)一、什么是大數(shù)據(jù)1、大數(shù)據(jù)的定義2、大數(shù)據(jù)的特點(diǎn)3、大數(shù)據(jù)結(jié)構(gòu)類型4、大數(shù)據(jù)實(shí)例5、大數(shù)據(jù)發(fā)展史一、什么是大數(shù)據(jù)1、大數(shù)據(jù)的定義有多大?---數(shù)據(jù)度量有多大?---數(shù)據(jù)度量

1B=一個(gè)字符或一粒沙子

1KB=一個(gè)句子或幾撮沙子

1MB=一個(gè)20頁(yè)的幻燈片演示文稿、一本小書或一大湯勺沙子

1GB=書架上9米長(zhǎng)的書或者整整一鞋盒子的沙子

1TB=300小時(shí)的優(yōu)質(zhì)視頻、美國(guó)國(guó)會(huì)圖書館存儲(chǔ)容量的十分之一或者一個(gè)操場(chǎng)沙箱

1PB=35萬張數(shù)字照片或者一片1.6公里長(zhǎng)的海灘

1EB=1999年全世界生成的信息的一半或上海到香港之間的海灘

1ZB=無法想象,或者幾乎全世界所有的海灘之和。1B=一個(gè)字符或一粒沙子大數(shù)據(jù)(bigdata),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。1、大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),也稱巨量資料,指的是所涉及的資料最早將大數(shù)據(jù)用于IT環(huán)境的是知名咨詢公司麥肯錫。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來?!薄按髷?shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。最早將大數(shù)據(jù)用于IT環(huán)境的是知名咨詢公司麥肯錫。2、大數(shù)據(jù)的特點(diǎn)(4v)Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。2、大數(shù)據(jù)的特點(diǎn)(4v)Volume(大量)、Vel3、大數(shù)據(jù)的結(jié)構(gòu)類型3、大數(shù)據(jù)的結(jié)構(gòu)類型4、大數(shù)據(jù)的實(shí)例一分鐘我們能干些什么呢???!一分鐘能產(chǎn)生多少數(shù)據(jù)呢???!電子郵件用戶發(fā)送204,166,677(2億)條信息;Google收到超過2,000,000(200萬)個(gè)搜索查詢;Facebook用戶分享684,478(68萬)條內(nèi)容;Twitter用戶發(fā)送超過100,000(10萬)條微博;蘋果公司收到大約47,000(5萬)個(gè)應(yīng)用下載;571個(gè)新網(wǎng)站誕生。。。。4、大數(shù)據(jù)的實(shí)例一分鐘我們能干些什么呢??。?、大數(shù)據(jù)發(fā)展史IT科技浪潮5、大數(shù)據(jù)發(fā)展史IT科技浪潮我們周圍到處都是數(shù)字信息。(無線電波、電話電路、計(jì)算機(jī)電纜)三種主要的模擬/數(shù)字轉(zhuǎn)換為數(shù)據(jù)增長(zhǎng)提供了動(dòng)力:用膠片拍攝影像轉(zhuǎn)換為數(shù)字拍攝影像、模擬語(yǔ)音轉(zhuǎn)換成為了數(shù)字語(yǔ)音、模擬電視轉(zhuǎn)換成為數(shù)字電視。2007年是人類創(chuàng)造的信息量有史以來第一次在理論上超過可用存儲(chǔ)空間總量的一年。數(shù)字信息的增長(zhǎng)是因?yàn)榫W(wǎng)絡(luò)應(yīng)用的不斷增長(zhǎng)。約30年前,大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化的,如今,多媒體技術(shù)的普及后,非結(jié)構(gòu)化數(shù)據(jù)爆炸式增長(zhǎng)。我們周圍到處都是數(shù)字信息。(無線電波、電話電路、計(jì)算機(jī)電纜)可視化是引起數(shù)字世界急劇膨脹的原因之一。由于數(shù)碼相機(jī)、數(shù)碼監(jiān)控?cái)z像機(jī)和數(shù)字電視內(nèi)容的加速增多,及信息的大量復(fù)制趨勢(shì),使得數(shù)字世界的容量和速度超過之前。個(gè)人日常生活的“數(shù)字足跡”也大大刺激了數(shù)字宇宙的快速增長(zhǎng)。通過互聯(lián)網(wǎng)、電子郵件、移動(dòng)電話、數(shù)碼相機(jī)和在線信用卡交易等方式,每個(gè)人的日常生活都在數(shù)字化。大數(shù)據(jù)快速增長(zhǎng)的部分原因歸于智能設(shè)備的普及,比如傳感器和醫(yī)療設(shè)備,以及智能建筑。非結(jié)構(gòu)化信息的增長(zhǎng)部分歸功于寬帶數(shù)據(jù)的增長(zhǎng)。可視化是引起數(shù)字世界急劇膨脹的原因之一。由全球數(shù)字信息五年間增長(zhǎng)了10倍全球數(shù)字信息五年間增長(zhǎng)了10倍大數(shù)據(jù)與云計(jì)算大數(shù)據(jù)與云計(jì)算二、大數(shù)據(jù)的相關(guān)技術(shù)大數(shù)據(jù)技術(shù)框架1234二、大數(shù)據(jù)的相關(guān)技術(shù)大數(shù)據(jù)技術(shù)框架1234分布式文件系統(tǒng)特點(diǎn):支持PB級(jí)的大數(shù)據(jù)集;提供高可靠、高吞吐率的順序數(shù)據(jù)訪問;存儲(chǔ)與計(jì)算共享節(jié)點(diǎn)(存儲(chǔ)節(jié)點(diǎn)會(huì)同時(shí)參與應(yīng)用程序的執(zhí)行);使用廉價(jià)的硬件(高可擴(kuò)展性)。典型的代表:

GFS(Google)、HDFS(Hadoop)0分布式文件系統(tǒng)0HDFS-分布式文件系統(tǒng)采用典型的主從結(jié)構(gòu)的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)文件系統(tǒng)元數(shù)據(jù)和應(yīng)用數(shù)據(jù)分離存放。名字節(jié)點(diǎn):整個(gè)集群的主節(jié)點(diǎn),管理元數(shù)據(jù),文件訪問的控制。數(shù)據(jù)節(jié)點(diǎn):從節(jié)點(diǎn),負(fù)責(zé)來自客戶端的讀寫請(qǐng)求,完成對(duì)文件內(nèi)容的提取和保存。文件分塊,采用一次寫多次讀的文件訪問模式。HDFS-分布式文件系統(tǒng)HDFS-分布式文件系統(tǒng)HDFS-分布式文件系統(tǒng)MapReduce

MapReduce計(jì)算模型可以說是大數(shù)據(jù)處理的核心算法。MapReduce實(shí)現(xiàn)了Map和Reduce兩個(gè)功能。Map把一個(gè)函數(shù)應(yīng)用于集合中的所有成員,然后返回一個(gè)基于這個(gè)處理的結(jié)果集。Reduce對(duì)結(jié)果集進(jìn)行分類和歸納。Map()和Reduce()兩個(gè)函數(shù)可能會(huì)并行運(yùn)行,即使不是在同一的系統(tǒng)的同一時(shí)刻。MapReduce單詞計(jì)數(shù)給一個(gè)巨大的文本,計(jì)算單詞的個(gè)數(shù)?!單詞計(jì)數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題定義Map和Reduce函數(shù)單詞計(jì)數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題

Step1:自動(dòng)對(duì)文本進(jìn)行分割,形成初始的<key,value>對(duì)。單詞計(jì)數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題

Step2:在分割之后的每一對(duì)<key,value>進(jìn)行用戶定義的Map進(jìn)行處理,再生成新的<key,value>對(duì)。單詞計(jì)數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題

Step3:對(duì)輸出的結(jié)果集歸攏、排序(系統(tǒng)自動(dòng)完成)。單詞計(jì)數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題

Step4:通過Reduce操作生成最后結(jié)果。單詞計(jì)數(shù)00NOSQL特點(diǎn):不需要預(yù)定義模式(不需要預(yù)定義數(shù)據(jù)模式,預(yù)定義表結(jié)構(gòu),數(shù)據(jù)每條記錄都可能有不同的屬性和格式);無共享(將數(shù)據(jù)劃分后存儲(chǔ)在各個(gè)本地服務(wù)器上);彈性可擴(kuò)展(運(yùn)行時(shí)可動(dòng)態(tài)添加刪除節(jié)點(diǎn));分區(qū);異步復(fù)制。

NOSQLNOSQL產(chǎn)品分類數(shù)據(jù)庫(kù)名稱作者列存數(shù)據(jù)庫(kù)HbaseHadoopAzureTablesMicrosoftCassandraApacheHypertable開源SimpleDBAmazon文檔數(shù)據(jù)庫(kù)MongoDB開源CounchDB開源鍵值存儲(chǔ)Redis開源LevelDB開源BerkeleyDB開源圖數(shù)據(jù)庫(kù)Neo4jNeoTechnologiesInfoGridNetMeshInc0NOSQL產(chǎn)品分類數(shù)據(jù)庫(kù)名稱作者列存數(shù)據(jù)庫(kù)HbaseHado三、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)驅(qū)動(dòng)新應(yīng)用,應(yīng)用于各行各業(yè)三、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)驅(qū)動(dòng)新應(yīng)用,應(yīng)用于各行各業(yè)應(yīng)用實(shí)例

1、奧巴馬的大數(shù)據(jù)奧巴馬和他的大數(shù)據(jù)團(tuán)隊(duì)擁有海量數(shù)據(jù)和相應(yīng)的處理能力,使他在大選中以332票對(duì)206票擊敗了共和黨的米特.羅姆尼。2、Google通過其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛好進(jìn)行分析,幫助廣告商評(píng)估廣告活動(dòng)效率,預(yù)估在未來可能存在高達(dá)數(shù)千億的市場(chǎng)規(guī)模。

3、Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。應(yīng)用實(shí)例4、通過Google檢索信息挖掘可以得到流感的傳播情況;5、通過Twitter信息可以預(yù)測(cè)股票行情;

6、預(yù)測(cè)犯罪;

7、智能交通。

4、通過Google檢索信息挖掘可以得到流感的傳播情況四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)1、大數(shù)據(jù)中的用戶隱私保護(hù)大量事實(shí)表明,大數(shù)據(jù)未能妥善處理會(huì)對(duì)用戶的隱私造成極大地侵害。人們面臨的威脅并不僅限于個(gè)人隱私泄露,還在于基于大數(shù)據(jù)對(duì)人們狀態(tài)行為的預(yù)測(cè)。2、大數(shù)據(jù)的可信性偽造或刻意制造的數(shù)據(jù),錯(cuò)誤的數(shù)據(jù)往導(dǎo)致錯(cuò)誤的結(jié)論;數(shù)據(jù)在傳播過程中的逐步失真。密碼學(xué)中的數(shù)字簽名、消息鑒別碼等技術(shù)可以用四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)1、大數(shù)據(jù)中的用戶隱私保護(hù)于驗(yàn)證數(shù)據(jù)的完整性,但是應(yīng)用于大數(shù)據(jù)的真實(shí)性時(shí)面臨很大困難,源于數(shù)據(jù)粒度的差異。

3、如何實(shí)現(xiàn)大數(shù)據(jù)訪問控制大數(shù)據(jù)訪問控制的難點(diǎn)在于:難以預(yù)設(shè)角色,實(shí)現(xiàn)角色劃分;難以預(yù)知每個(gè)角色的實(shí)際權(quán)限。

4、保護(hù)技術(shù)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)、社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)、數(shù)字水印技術(shù)、數(shù)據(jù)溯源技術(shù)、角色挖掘、風(fēng)險(xiǎn)自適應(yīng)的訪問控制。于驗(yàn)證數(shù)據(jù)的完整性,但是應(yīng)用于大數(shù)據(jù)的真實(shí)五、機(jī)遇與挑戰(zhàn)大數(shù)據(jù)對(duì)當(dāng)今企業(yè)來說,既是絕佳的商機(jī),也是巨大的挑戰(zhàn)。機(jī)遇:數(shù)據(jù)規(guī)模越大,處理的難度也越大,但對(duì)其進(jìn)行挖掘可能得到的價(jià)值更大。首先,大數(shù)據(jù)反映輿情和民意。其次,企業(yè)和政府的信息系統(tǒng)每天源源不斷產(chǎn)生大量數(shù)據(jù)。

挑戰(zhàn):

目前,大數(shù)據(jù)技術(shù)的運(yùn)用仍存在一些困難與挑戰(zhàn)體現(xiàn)在四個(gè)環(huán)節(jié)中。五、機(jī)遇與挑戰(zhàn)大數(shù)據(jù)對(duì)當(dāng)今企業(yè)來說,既是絕佳的商(1)數(shù)據(jù)收集要對(duì)來自收集的數(shù)據(jù)去偽存真,盡可能收集異源異構(gòu)的數(shù)據(jù),必要時(shí)還與歷史數(shù)據(jù)對(duì)照,多角度驗(yàn)證數(shù)據(jù)的全面性和可信性。(2)數(shù)據(jù)存儲(chǔ)。要達(dá)到低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計(jì)算技術(shù),在存儲(chǔ)時(shí)要按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,通過過濾和去重,減少存儲(chǔ)量,同時(shí)加入便于日后檢索的標(biāo)簽。(3)數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個(gè)參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源(1)數(shù)據(jù)收集要對(duì)來自收集的數(shù)據(jù)去偽存真,異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論