




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)安全專題研究賀文娜主要內(nèi)容一、什么是大數(shù)據(jù)二、大數(shù)據(jù)的相關(guān)技術(shù)三、大數(shù)據(jù)的應(yīng)用四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)五、機(jī)遇與挑戰(zhàn)一、什么是大數(shù)據(jù)1、大數(shù)據(jù)的定義2、大數(shù)據(jù)的特點(diǎn)3、大數(shù)據(jù)結(jié)構(gòu)類型4、大數(shù)據(jù)實(shí)例5、大數(shù)據(jù)發(fā)展史有多大?---數(shù)據(jù)度量
1B=一個(gè)字符或一粒沙子
1KB=一個(gè)句子或幾撮沙子
1MB=一個(gè)20頁的幻燈片演示文稿、一本小書或一大湯勺沙子
1GB=書架上9米長的書或者整整一鞋盒子的沙子
1TB=300小時(shí)的優(yōu)質(zhì)視頻、美國國會(huì)圖書館存儲(chǔ)容量的十分之一或者一個(gè)操場沙箱
1PB=35萬張數(shù)字照片或者一片1.6公里長的海灘
1EB=1999年全世界生成的信息的一半或上海到香港之間的海灘
1ZB=無法想象,或者幾乎全世界所有的海灘之和。大數(shù)據(jù)(bigdata),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。1、大數(shù)據(jù)的定義最早將大數(shù)據(jù)用于IT環(huán)境的是知名咨詢公司麥肯錫。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!薄按髷?shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。2、大數(shù)據(jù)的特點(diǎn)(4v)Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。3、大數(shù)據(jù)的結(jié)構(gòu)類型4、大數(shù)據(jù)的實(shí)例一分鐘我們能干些什么呢??。∫环昼娔墚a(chǎn)生多少數(shù)據(jù)呢???!電子郵件用戶發(fā)送204,166,677(2億)條信息;Google收到超過2,000,000(200萬)個(gè)搜索查詢;Facebook用戶分享684,478(68萬)條內(nèi)容;Twitter用戶發(fā)送超過100,000(10萬)條微博;蘋果公司收到大約47,000(5萬)個(gè)應(yīng)用下載;571個(gè)新網(wǎng)站誕生。。。。5、大數(shù)據(jù)發(fā)展史IT科技浪潮我們周圍到處都是數(shù)字信息。(無線電波、電話電路、計(jì)算機(jī)電纜)三種主要的模擬/數(shù)字轉(zhuǎn)換為數(shù)據(jù)增長提供了動(dòng)力:用膠片拍攝影像轉(zhuǎn)換為數(shù)字拍攝影像、模擬語音轉(zhuǎn)換成為了數(shù)字語音、模擬電視轉(zhuǎn)換成為數(shù)字電視。2007年是人類創(chuàng)造的信息量有史以來第一次在理論上超過可用存儲(chǔ)空間總量的一年。數(shù)字信息的增長是因?yàn)榫W(wǎng)絡(luò)應(yīng)用的不斷增長。約30年前,大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化的,如今,多媒體技術(shù)的普及后,非結(jié)構(gòu)化數(shù)據(jù)爆炸式增長??梢暬且饠?shù)字世界急劇膨脹的原因之一。由于數(shù)碼相機(jī)、數(shù)碼監(jiān)控?cái)z像機(jī)和數(shù)字電視內(nèi)容的加速增多,及信息的大量復(fù)制趨勢,使得數(shù)字世界的容量和速度超過之前。個(gè)人日常生活的“數(shù)字足跡”也大大刺激了數(shù)字宇宙的快速增長。通過互聯(lián)網(wǎng)、電子郵件、移動(dòng)電話、數(shù)碼相機(jī)和在線信用卡交易等方式,每個(gè)人的日常生活都在數(shù)字化。大數(shù)據(jù)快速增長的部分原因歸于智能設(shè)備的普及,比如傳感器和醫(yī)療設(shè)備,以及智能建筑。非結(jié)構(gòu)化信息的增長部分歸功于寬帶數(shù)據(jù)的增長。全球數(shù)字信息五年間增長了10倍大數(shù)據(jù)與云計(jì)算二、大數(shù)據(jù)的相關(guān)技術(shù)大數(shù)據(jù)技術(shù)框架1234分布式文件系統(tǒng)特點(diǎn):支持PB級(jí)的大數(shù)據(jù)集;提供高可靠、高吞吐率的順序數(shù)據(jù)訪問;存儲(chǔ)與計(jì)算共享節(jié)點(diǎn)(存儲(chǔ)節(jié)點(diǎn)會(huì)同時(shí)參與應(yīng)用程序的執(zhí)行);使用廉價(jià)的硬件(高可擴(kuò)展性)。典型的代表:
GFS(Google)、HDFS(Hadoop)0HDFS-分布式文件系統(tǒng)采用典型的主從結(jié)構(gòu)的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)文件系統(tǒng)元數(shù)據(jù)和應(yīng)用數(shù)據(jù)分離存放。名字節(jié)點(diǎn):整個(gè)集群的主節(jié)點(diǎn),管理元數(shù)據(jù),文件訪問的控制。數(shù)據(jù)節(jié)點(diǎn):從節(jié)點(diǎn),負(fù)責(zé)來自客戶端的讀寫請(qǐng)求,完成對(duì)文件內(nèi)容的提取和保存。文件分塊,采用一次寫多次讀的文件訪問模式。HDFS-分布式文件系統(tǒng)MapReduce
MapReduce計(jì)算模型可以說是大數(shù)據(jù)處理的核心算法。MapReduce實(shí)現(xiàn)了Map和Reduce兩個(gè)功能。Map把一個(gè)函數(shù)應(yīng)用于集合中的所有成員,然后返回一個(gè)基于這個(gè)處理的結(jié)果集。Reduce對(duì)結(jié)果集進(jìn)行分類和歸納。Map()和Reduce()兩個(gè)函數(shù)可能會(huì)并行運(yùn)行,即使不是在同一的系統(tǒng)的同一時(shí)刻。單詞計(jì)數(shù)給一個(gè)巨大的文本,計(jì)算單詞的個(gè)數(shù)?!單詞計(jì)數(shù)使用MapReduce求解該問題定義Map和Reduce函數(shù)單詞計(jì)數(shù)使用MapReduce求解該問題
Step1:自動(dòng)對(duì)文本進(jìn)行分割,形成初始的<key,value>對(duì)。單詞計(jì)數(shù)使用MapReduce求解該問題
Step2:在分割之后的每一對(duì)<key,value>進(jìn)行用戶定義的Map進(jìn)行處理,再生成新的<key,value>對(duì)。單詞計(jì)數(shù)使用MapReduce求解該問題
Step3:對(duì)輸出的結(jié)果集歸攏、排序(系統(tǒng)自動(dòng)完成)。單詞計(jì)數(shù)使用MapReduce求解該問題
Step4:通過Reduce操作生成最后結(jié)果。0NOSQL特點(diǎn):不需要預(yù)定義模式(不需要預(yù)定義數(shù)據(jù)模式,預(yù)定義表結(jié)構(gòu),數(shù)據(jù)每條記錄都可能有不同的屬性和格式);無共享(將數(shù)據(jù)劃分后存儲(chǔ)在各個(gè)本地服務(wù)器上);彈性可擴(kuò)展(運(yùn)行時(shí)可動(dòng)態(tài)添加刪除節(jié)點(diǎn));分區(qū);異步復(fù)制。
NOSQL產(chǎn)品分類數(shù)據(jù)庫名稱作者列存數(shù)據(jù)庫HbaseHadoopAzureTablesMicrosoftCassandraApacheHypertable開源SimpleDBAmazon文檔數(shù)據(jù)庫MongoDB開源CounchDB開源鍵值存儲(chǔ)Redis開源LevelDB開源BerkeleyDB開源圖數(shù)據(jù)庫Neo4jNeoTechnologiesInfoGridNetMeshInc0三、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)驅(qū)動(dòng)新應(yīng)用,應(yīng)用于各行各業(yè)應(yīng)用實(shí)例
1、奧巴馬的大數(shù)據(jù)奧巴馬和他的大數(shù)據(jù)團(tuán)隊(duì)擁有海量數(shù)據(jù)和相應(yīng)的處理能力,使他在大選中以332票對(duì)206票擊敗了共和黨的米特.羅姆尼。2、Google通過其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛好進(jìn)行分析,幫助廣告商評(píng)估廣告活動(dòng)效率,預(yù)估在未來可能存在高達(dá)數(shù)千億的市場規(guī)模。
3、Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。4、通過Google檢索信息挖掘可以得到流感的傳播情況;5、通過Twitter信息可以預(yù)測股票行情;
6、預(yù)測犯罪;
7、智能交通。
四、大數(shù)據(jù)安全問題及保護(hù)技術(shù)1、大數(shù)據(jù)中的用戶隱私保護(hù)大量事實(shí)表明,大數(shù)據(jù)未能妥善處理會(huì)對(duì)用戶的隱私造成極大地侵害。人們面臨的威脅并不僅限于個(gè)人隱私泄露,還在于基于大數(shù)據(jù)對(duì)人們狀態(tài)行為的預(yù)測。2、大數(shù)據(jù)的可信性偽造或刻意制造的數(shù)據(jù),錯(cuò)誤的數(shù)據(jù)往導(dǎo)致錯(cuò)誤的結(jié)論;數(shù)據(jù)在傳播過程中的逐步失真。密碼學(xué)中的數(shù)字簽名、消息鑒別碼等技術(shù)可以用于驗(yàn)證數(shù)據(jù)的完整性,但是應(yīng)用于大數(shù)據(jù)的真實(shí)性時(shí)面臨很大困難,源于數(shù)據(jù)粒度的差異。
3、如何實(shí)現(xiàn)大數(shù)據(jù)訪問控制大數(shù)據(jù)訪問控制的難點(diǎn)在于:難以預(yù)設(shè)角色,實(shí)現(xiàn)角色劃分;難以預(yù)知每個(gè)角色的實(shí)際權(quán)限。
4、保護(hù)技術(shù)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)、社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)、數(shù)字水印技術(shù)、數(shù)據(jù)溯源技術(shù)、角色挖掘、風(fēng)險(xiǎn)自適應(yīng)的訪問控制。五、機(jī)遇與挑戰(zhàn)大數(shù)據(jù)對(duì)當(dāng)今企業(yè)來說,既是絕佳的商機(jī),也是巨大的挑戰(zhàn)。機(jī)遇:數(shù)據(jù)規(guī)模越大,處理的難度也越大,但對(duì)其進(jìn)行挖掘可能得到的價(jià)值更大。首先,大數(shù)據(jù)反映輿情和民意。其次,企業(yè)和政府的信息系統(tǒng)每天源源不斷產(chǎn)生大量數(shù)據(jù)。
挑戰(zhàn):
目前,大數(shù)據(jù)技術(shù)的運(yùn)用仍存在一些困難與挑戰(zhàn)體現(xiàn)在四個(gè)環(huán)節(jié)中。(1)數(shù)據(jù)收集要對(duì)來自收集的數(shù)據(jù)去偽存真,盡可能收集異源異構(gòu)的數(shù)據(jù),必要時(shí)還與歷史數(shù)據(jù)對(duì)照,多角度驗(yàn)證數(shù)據(jù)的全面性和可信性。(2)數(shù)據(jù)存儲(chǔ)。要達(dá)到低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計(jì)算技術(shù),在存儲(chǔ)時(shí)要按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,通過過濾和去重,減少存儲(chǔ)量,同時(shí)加入便于日后檢索的標(biāo)簽。(3)數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個(gè)參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語義分析,從大量動(dòng)態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容。(4)可視化呈現(xiàn)。使結(jié)果更直觀以便于洞察。目前,盡管計(jì)算機(jī)智能化有了很大進(jìn)步,但還只能針對(duì)小規(guī)模、有結(jié)構(gòu)或類結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。
Thanks!!!9、春去春又回,新桃換舊符。在那桃花盛開的地方,在這醉人芬芳的季節(jié),愿你生活像春天一樣陽光,心情像桃花一樣美麗,日子像桃子一樣甜蜜。3月-253月-25Monday,March3,202510、人的志向通常和他們的能力成正比例。17:11:5817:11:5817:113/3/20255:11:58PM11、夫?qū)W須志也,才須學(xué)也,非學(xué)無以廣才,非志無以成學(xué)。3月-2517:11:5817:11Mar-2503-Mar-2512、越是無能的人,越喜歡挑剔別人的錯(cuò)兒。17:11:5817:11:5817:11Monday,March3,202513、志不立,天下無可成之事。3月-253月-2517:11:5817:11:58March3,202514、ThankyouverymuchfortakingmewithyouonthatsplendidoutingtoLondon.ItwasthefirsttimethatIhadseentheToweroranyoftheotherfamoussights.IfI'dgonealone,Icouldn'thaveseennearlyasmuch,becauseIwouldn'thaveknownmywayabout.。03三月2025
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度商鋪轉(zhuǎn)租及后續(xù)經(jīng)營權(quán)轉(zhuǎn)讓合同
- 二零二五年度安全生產(chǎn)免責(zé)協(xié)議書:企業(yè)安全生產(chǎn)責(zé)任
- 2025年度金融衍生品包銷合同性質(zhì)與風(fēng)險(xiǎn)管理策略
- 二零二五年度人力資源服務(wù)外包與人才測評(píng)合作協(xié)議
- 二零二五年度競業(yè)禁止勞動(dòng)合同在高新技術(shù)產(chǎn)業(yè)的創(chuàng)新實(shí)踐
- 二零二五年度民營企業(yè)協(xié)商解除勞動(dòng)合同及安置方案
- 二零二五年度秸稈供應(yīng)合同中的秸稈生物質(zhì)能源項(xiàng)目市場推廣合作協(xié)議
- 二零二五年度簡易棄土場租賃協(xié)議(環(huán)保園區(qū)建設(shè))
- 2025年荊門普通貨運(yùn)從業(yè)資格證考試
- 2025年揭陽貨運(yùn)從業(yè)資格證考試卷
- 計(jì)算機(jī)軟件配置管理計(jì)劃規(guī)范
- 《勞動(dòng)保障監(jiān)察條例》課件
- 外籍工作人員聘用合同范本
- 大學(xué)生就業(yè)指導(dǎo)教學(xué)-大學(xué)生就業(yè)形勢與政策
- 中華人民共和國學(xué)前教育法
- 2021年廣東省公務(wù)員錄用考試《行測》題(鄉(xiāng)鎮(zhèn)卷)【原卷版】
- 2020年全國中學(xué)生生物學(xué)競賽聯(lián)賽試題真題(含答案解析)
- 足浴技師與店內(nèi)禁止黃賭毒協(xié)議書范文
- 鐵路專業(yè)基礎(chǔ)知識(shí)考試題及答案
- 車路協(xié)同路側(cè)設(shè)備通信終端(RSU)測試技術(shù)要求(征求意見稿)
- 租電合作合同協(xié)議書范本
評(píng)論
0/150
提交評(píng)論