




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)安全專題研究第1頁主要內(nèi)容一、什么是大數(shù)據(jù)二、大數(shù)據(jù)相關(guān)技術(shù)三、大數(shù)據(jù)應(yīng)用四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)五、機(jī)遇與挑戰(zhàn)第2頁一、什么是大數(shù)據(jù)1、大數(shù)據(jù)定義2、大數(shù)據(jù)特點(diǎn)3、大數(shù)據(jù)結(jié)構(gòu)類型4、大數(shù)據(jù)實(shí)例5、大數(shù)據(jù)發(fā)展史第3頁有多大?-數(shù)據(jù)度量第4頁 1 B = 一個(gè)字符或一粒沙子1 KB = 一個(gè)句子或幾撮沙子1 MB = 一個(gè)20 頁幻燈片演示文稿、一本小書或一大湯勺沙子1 GB = 書架上9 米長(zhǎng)書或者整整一鞋盒子沙子1 TB = 300 小時(shí)優(yōu)質(zhì)視頻、美國(guó)國(guó)會(huì)圖書館存放容量十分之一或者一個(gè)操場(chǎng)沙箱1 PB = 35 萬張數(shù)字照片或者一片1.6 公里長(zhǎng)海灘1 EB = 1999 年全世界
2、生成信息二分之一或上海到香港之間海灘1 ZB = 無法想象,或者幾乎全世界全部海灘之和。第5頁大數(shù)據(jù)(big data),也稱巨量資料,指是所包括資料量規(guī)模巨大到無法透過當(dāng)前主流軟件工具在合理時(shí)間內(nèi)到達(dá)擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決議更主動(dòng)目標(biāo)資訊。1、大數(shù)據(jù)定義第6頁 最早將大數(shù)據(jù)用于IT環(huán)境是著名咨詢企業(yè)麥肯錫。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為主要生產(chǎn)原因。人們對(duì)于海量數(shù)據(jù)挖掘和利用,預(yù)示著新一波生產(chǎn)率增加和消費(fèi)者盈余浪潮到來?!?“大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已經(jīng)有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)發(fā)展
3、而引發(fā)人們關(guān)注。第7頁2、大數(shù)據(jù)特點(diǎn)(4v) Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。第8頁3、大數(shù)據(jù)結(jié)構(gòu)類型第9頁4、大數(shù)據(jù)實(shí)例一分鐘我們能干些什么呢?!一分鐘能產(chǎn)生多少數(shù)據(jù)呢?! 電子郵件用戶發(fā)送204,166,677(2億) 條信息; Google 收到超出2,000,000(200萬) 個(gè)搜索查詢; Facebook 用戶分享684,478(68萬) 條內(nèi)容; Twitter 用戶發(fā)送超出100,000 (10萬)條微博; 蘋果企業(yè)收到大約47,000 (5萬)個(gè)應(yīng)用下載; 571 個(gè)新網(wǎng)站誕生。第10頁5、大數(shù)據(jù)發(fā)展史IT科技浪潮第
4、11頁我們周圍處處都是數(shù)字信息。(無線電波、電話電路、計(jì)算機(jī)電纜)三種主要模擬/數(shù)字轉(zhuǎn)換為數(shù)據(jù)增加提供了動(dòng)力:用膠片拍攝影像轉(zhuǎn)換為數(shù)字拍攝影像、模擬語音轉(zhuǎn)換成為了數(shù)字語音、模擬電視轉(zhuǎn)換成為數(shù)字電視。是人類創(chuàng)造信息量有史以來第一次在理論上超出可用存放空間總量一年。數(shù)字信息增加是因?yàn)榫W(wǎng)絡(luò)應(yīng)用不停增加。約30年前,大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化,如今,多媒體技術(shù)普及后,非結(jié)構(gòu)化數(shù)據(jù)爆炸式增加。第12頁可視化是引發(fā)數(shù)字世界急劇膨脹原因之一。由 于數(shù)碼相機(jī)、數(shù)碼監(jiān)控?cái)z像機(jī)和數(shù)字電視內(nèi)容 加速增多,及信息大量復(fù)制趨勢(shì),使得數(shù)字世界容量和速度超出之前。個(gè)人日常生活“數(shù)字足跡”也大大刺激了數(shù)字宇宙快速增加。經(jīng)過互聯(lián)網(wǎng)、
5、電子郵件、移動(dòng)電話、數(shù)碼相機(jī)和在線信用卡交易等方式,每個(gè)人日常生活都在數(shù)字化。大數(shù)據(jù)快速增加部分原因歸于智能設(shè)備普及,比如傳感器和醫(yī)療設(shè)備,以及智能建筑。非結(jié)構(gòu)化信息增加部分歸功于寬帶數(shù)據(jù)增加。第13頁全球數(shù)字信息五年間增加了10倍第14頁大數(shù)據(jù)與云計(jì)算第15頁二、大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)技術(shù)框架1234第16頁分布式文件系統(tǒng) 特點(diǎn): 支持PB級(jí)大數(shù)據(jù)集; 提供高可靠、高吞吐率次序數(shù)據(jù)訪問; 存放與計(jì)算共享節(jié)點(diǎn)(存放節(jié)點(diǎn)會(huì)同時(shí)參加應(yīng)用程序執(zhí)行); 使用廉價(jià)硬件(高可擴(kuò)展性)。 經(jīng)典代表: GFS(Google)、HDFS(Hadoop)0第17頁HDFS-分布式文件系統(tǒng) 采取經(jīng)典主從結(jié)構(gòu)架構(gòu)設(shè)計(jì),
6、實(shí)現(xiàn)文件系統(tǒng)元數(shù)據(jù)和應(yīng)用數(shù)據(jù)分離存放。 名字節(jié)點(diǎn):整個(gè)集群主節(jié)點(diǎn),管理元數(shù)據(jù),文件訪問控制。 數(shù)據(jù)節(jié)點(diǎn):從節(jié)點(diǎn),負(fù)責(zé)來自客戶端讀寫請(qǐng)求,完成對(duì)文件內(nèi)容提取和保留。 文件分塊,采取一次寫屢次讀文件訪問模式。第18頁HDFS-分布式文件系統(tǒng)第19頁MapReduce MapReduce 計(jì)算模型能夠說是大數(shù)據(jù)處理核心算法。 MapReduce實(shí)現(xiàn)了Map和Reduce兩個(gè)功效。Map把一個(gè)函數(shù)應(yīng)用于集合中全部組員,然后返回一個(gè)基于這個(gè)處理結(jié)果集。Reduce對(duì)結(jié)果集進(jìn)行分類和歸納。 Map()和 Reduce() 兩個(gè)函數(shù)可能會(huì)并行運(yùn)行,即使不是在同一系統(tǒng)同一時(shí)刻。第20頁單詞計(jì)數(shù) 給一個(gè)巨大文本
7、,計(jì)算單詞個(gè)數(shù)?!第21頁單詞計(jì)數(shù) 使用MapReduce求解該問題 定義Map和Reduce函數(shù)第22頁單詞計(jì)數(shù) 使用MapReduce求解該問題 Step 1: 自動(dòng)對(duì)文本進(jìn)行分割,形成初始對(duì)。第23頁單詞計(jì)數(shù) 使用MapReduce求解該問題 Step 2:在分割之后每一對(duì)進(jìn)行用戶定義Map進(jìn)行處理,再生成新對(duì)。第24頁單詞計(jì)數(shù) 使用MapReduce求解該問題 Step 3:對(duì)輸出結(jié)果集歸攏、排序(系統(tǒng)自動(dòng)完成)。第25頁單詞計(jì)數(shù) 使用MapReduce求解該問題 Step 4:經(jīng)過Reduce操作生成最終結(jié)果。第26頁0第27頁NOSQL特點(diǎn): 不需要預(yù)定義模式(不需要預(yù)定義數(shù)據(jù)模式
8、,預(yù)定義表結(jié)構(gòu),數(shù)據(jù)每條統(tǒng)計(jì)都可能有不一樣屬性和格式); 無共享(將數(shù)據(jù)劃分后存放在各個(gè)當(dāng)?shù)胤?wù)器上); 彈性可擴(kuò)展(運(yùn)行時(shí)可動(dòng)態(tài)添加刪除節(jié)點(diǎn)); 分區(qū);異步復(fù)制。 第28頁NOSQL產(chǎn)品分類數(shù)據(jù)庫(kù)名稱作者列存數(shù)據(jù)庫(kù)HbaseHadoopAzure TablesMicrosoftCassandraApacheHypertable開源SimpleDBAmazon文檔數(shù)據(jù)庫(kù)MongoDB開源CounchDB開源鍵值存放Redis開源LevelDB開源Berkeley DB開源圖數(shù)據(jù)庫(kù)Neo4jNeo TechnologiesInfoGridNetMesh Inc0第29頁三、大數(shù)據(jù)應(yīng)用大數(shù)據(jù)驅(qū)動(dòng)新
9、應(yīng)用,應(yīng)用于各行各業(yè)第30頁應(yīng)用實(shí)例 1、奧巴馬大數(shù)據(jù) 奧巴馬和他大數(shù)據(jù)團(tuán)體擁有海量數(shù)據(jù)和對(duì)應(yīng)處理能力,使他在大選中以332票對(duì)206票擊敗了共和黨米特.羅姆尼。 2、Google經(jīng)過其大數(shù)據(jù)產(chǎn)品對(duì)用戶習(xí)慣和興趣進(jìn)行分析,幫助廣告商評(píng)定廣告活動(dòng)效率,預(yù)估在未來可能存在高達(dá)數(shù)千億市場(chǎng)規(guī)模。 3、Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。第31頁 4、經(jīng)過Google檢索信息挖掘能夠得到流感傳輸情況; 5、經(jīng)過Twitter信息能夠預(yù)測(cè)股票行情; 6、預(yù)測(cè)犯罪; 7、智能交通。 第32頁四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)1、大數(shù)據(jù)中用戶隱私保護(hù) 大量事實(shí)表明,大數(shù)據(jù)未能妥善處理會(huì)
10、對(duì)用戶隱私造成極大地侵害。人們面臨威脅并不但限于個(gè)人隱私泄露,還在于基于大數(shù)據(jù)對(duì)人們狀態(tài)行為預(yù)測(cè)。2、大數(shù)據(jù)可信性 偽造或刻意制造數(shù)據(jù),錯(cuò)誤數(shù)據(jù)往造成錯(cuò)誤結(jié)論;數(shù)據(jù)在傳輸過程中逐步失真。 密碼學(xué)中數(shù)字署名、消息判別碼等技術(shù)能夠用第33頁 于驗(yàn)證數(shù)據(jù)完整性,不過應(yīng)用于大數(shù)據(jù)真實(shí) 性時(shí)面臨很大困難,源于數(shù)據(jù)粒度差異。 3、怎樣實(shí)現(xiàn)大數(shù)據(jù)訪問控制 大數(shù)據(jù)訪問控制難點(diǎn)在于:難以預(yù)設(shè)角色,實(shí) 現(xiàn)角色劃分;難以預(yù)知每個(gè)角色實(shí)際權(quán)限。 4、保護(hù)技術(shù) 數(shù)據(jù)公布匿名保護(hù)技術(shù)、社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)、數(shù)字水印技術(shù)、數(shù)據(jù)溯源技術(shù)、角色挖掘、風(fēng)險(xiǎn)自適應(yīng)訪問控制。第34頁 五、機(jī)遇與挑戰(zhàn) 大數(shù)據(jù)對(duì)當(dāng)今企業(yè)來說,既是絕佳商
11、機(jī),也是巨大挑戰(zhàn)。 機(jī)遇: 數(shù)據(jù)規(guī)模越大,處理難度也越大,但對(duì)其進(jìn)行挖掘可能得到價(jià)值更大。首先,大數(shù)據(jù)反應(yīng)輿情和民意。其次,企業(yè)和政府信息系統(tǒng)每天源源不停產(chǎn)生大量數(shù)據(jù)。 挑戰(zhàn): 當(dāng)前,大數(shù)據(jù)技術(shù)利用仍存在一些困難與挑戰(zhàn)表達(dá)在四個(gè)步驟中。第35頁(1)數(shù)據(jù)搜集 要對(duì)來自搜集數(shù)據(jù)去偽存真,盡可能搜集異源異構(gòu)數(shù)據(jù),必要時(shí)還與歷史數(shù)據(jù)對(duì)照,多角度驗(yàn)證數(shù)據(jù)全方面性和可信性。(2)數(shù)據(jù)存放。要到達(dá)低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計(jì)算技術(shù),在存放時(shí)要按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,通過過濾和去重,降低存放量,同時(shí)加入便于日后檢索標(biāo)簽。(3)數(shù)據(jù)處理。有些行業(yè)數(shù)據(jù)包括上百個(gè)參數(shù),其復(fù)雜
12、性不但表達(dá)在數(shù)據(jù)樣本本身,更表達(dá)在多源第36頁異構(gòu)、多實(shí)體和多空間之間交互動(dòng)態(tài)性,難以用傳統(tǒng)方法描述與度量,處理復(fù)雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語義分析,從大量動(dòng)態(tài)而且可能是模棱兩可數(shù)據(jù)中綜合信息,并導(dǎo)出可了解內(nèi)容。(4)可視化展現(xiàn)。使結(jié)果更直觀方便于洞察。目前,盡管計(jì)算機(jī)智能化有了很大進(jìn)步,但還只能針對(duì)小規(guī)模、有結(jié)構(gòu)或類結(jié)構(gòu)數(shù)據(jù)進(jìn)行分析,談不上深層次數(shù)據(jù)挖掘,現(xiàn)有數(shù)據(jù)挖掘算法在不一樣行業(yè)中難以通用。 第37頁Thanks!第38頁1、不是井里沒有水,而是你挖不夠深。不是成功來得慢,而是你努力不夠多。2、孤獨(dú)一人時(shí)間使自己變得優(yōu)異,給來人一個(gè)驚喜,也給
13、自己一個(gè)好交代。3、命運(yùn)給你一個(gè)比他人低起點(diǎn)是想告訴你,讓你用你一生去奮斗出一個(gè)絕地還擊故事,所以有什么理由不努力!4、心中沒有過分貪求,自然苦就少??诶锊徽f多出話,自然禍就少。腹內(nèi)食物能降低,自然病就少。思緒中沒有過分欲,自然憂就少。大悲是無淚,一樣大悟無言。緣來盡可能要惜,緣盡就放。人生原來就空,對(duì)人家笑笑,對(duì)自己笑笑,笑著看天下,看日出日落,花謝花開,豈不自在,哪里來塵埃!5、心情就像衣服,臟了就拿去洗洗,曬曬,陽光自然就會(huì)蔓延開來。陽光那么好,何須自尋煩惱,過好每一個(gè)當(dāng)下,一萬個(gè)漂亮未來抵不過一個(gè)溫暖現(xiàn)在。6、不論你正遭遇著什么,你都要從落魄中站起來重振旗鼓,要繼續(xù)保持熱忱,要繼續(xù)保持
14、微笑,就像從未受傷過一樣。7、生命漂亮,永遠(yuǎn)展現(xiàn)在她進(jìn)取之中;就像大樹漂亮,是展現(xiàn)在它負(fù)勢(shì)向上高聳入云蓬勃生機(jī)中;像雄鷹漂亮,是展現(xiàn)在它搏風(fēng)擊雨如蒼天之魂翱翔中;像江河漂亮,是展現(xiàn)在它波濤洶涌一瀉千里奔流中。8、有些事,不可防止地發(fā)生,陰晴圓缺皆有規(guī)律,我們只能坦然地接收;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改變它軌跡。9、與其埋怨世界,不如改變自己。管好自己心,做好自己事,比什么都強(qiáng)。人生無完美,波折亦風(fēng)景。別把失去看得過重,放棄是另一個(gè)擁有;不要經(jīng)常艷羨他人,人做到了,心悟到了,相信屬于你風(fēng)景就在下一個(gè)拐彎處。10、有些事想開了,你就會(huì)明白,在世上,你就是你,你痛痛你自己,你累
15、累你自己,就算有些人同情你,那又怎樣,最終收拾殘局還是要靠你自己。11、人生一些障礙,你是逃不掉。與其費(fèi)盡周折繞過去,不如勇敢地攀登,或許這會(huì)鑄就你人生高點(diǎn)。12、有些壓力總是得自己扛過去,說出來就成了充滿負(fù)能量埋怨。尋求撫慰也無濟(jì)于事,還徒增了他人煩惱。13、認(rèn)識(shí)到我們所見所聞都是假象,認(rèn)識(shí)到此生都是虛幻,我們才能真正認(rèn)識(shí)到佛法真相。錢多了會(huì)壓死你,你承受得了嗎?帶,帶不走,放,放不下。時(shí)時(shí)刻刻發(fā)悲心,饒益眾生為他人。14、夢(mèng)想總是跑在我前面。努力追尋它們,為了那一瞬間同時(shí),這就是感人生命奇跡。15、懶惰不會(huì)讓你一下子跌倒,但會(huì)在不知不覺中降低你收獲;勤奮也不會(huì)讓你一夜成功,但會(huì)在不知不覺中積累你結(jié)果。人生需要挑戰(zhàn),更需要堅(jiān)持和勤奮!16、人生在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大連楓葉職業(yè)技術(shù)學(xué)院《化工安全與環(huán)?!?023-2024學(xué)年第一學(xué)期期末試卷
- 餐飲品牌形象使用權(quán)及營(yíng)銷權(quán)轉(zhuǎn)讓協(xié)議
- 車輛運(yùn)輸合同車輛運(yùn)輸合同風(fēng)險(xiǎn)評(píng)估與預(yù)警協(xié)議
- 房屋租賃合同模板(含租賃押金退還細(xì)則)詳述
- 文化遺產(chǎn)典當(dāng)?shù)盅嘿J款合同
- 汽車售后服務(wù)采購(gòu)履約保證金合同
- 場(chǎng)化運(yùn)作模式下的生態(tài)農(nóng)業(yè)承包合作協(xié)議
- 父母房產(chǎn)開發(fā)項(xiàng)目合作協(xié)議與子女權(quán)益保障協(xié)議
- 機(jī)動(dòng)車抵押貸款服務(wù)協(xié)議范本
- 財(cái)務(wù)顧問服務(wù)與財(cái)務(wù)數(shù)據(jù)保密合同
- IECQ QC 080000:2017 第四版標(biāo)準(zhǔn)(中文版)
- 醫(yī)用耗材管控中的難點(diǎn)及對(duì)策研究
- 2024屆杭州市濱江區(qū)小升初考試數(shù)學(xué)試卷含解析
- 羽毛球教案18課時(shí)完整版
- JT-T-1240-2019城市公共汽電車車輛專用安全設(shè)施技術(shù)要求
- 國(guó)外激勵(lì)研究現(xiàn)狀分析報(bào)告
- GB/T 4074.4-2024繞組線試驗(yàn)方法第4部分:化學(xué)性能
- MH-T 6107-2014民用機(jī)場(chǎng)飛行區(qū)集水口頂蓋和地井頂蓋
- CJJT226-2014 城鎮(zhèn)供水管網(wǎng)搶修技術(shù)規(guī)程
- 施工成品保護(hù)方案及措施
- 無人機(jī)飛行控制系統(tǒng)若干關(guān)鍵技術(shù)研究的開題報(bào)告
評(píng)論
0/150
提交評(píng)論