大數(shù)據安全與應用_第1頁
大數(shù)據安全與應用_第2頁
大數(shù)據安全與應用_第3頁
大數(shù)據安全與應用_第4頁
大數(shù)據安全與應用_第5頁
已閱讀5頁,還剩134頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據安全與應用第1頁 目錄一、大數(shù)據起源四、成功案例五、大數(shù)據安全二、什么是大數(shù)據三、大數(shù)據應用第2頁 引言 電影永無止境庫珀能在短時間掌握無數(shù)企業(yè)資料和背景,也就是將世界上已經存在海量數(shù)據(包含企業(yè)財報、電視、幾十年前報紙、互聯(lián)網、小道消 息等)挖掘出來,串聯(lián)起來,甚至將Face Book、Twitter海量社交數(shù)據挖掘得到普通大眾對某種股票感情傾向,經過海量信息挖掘、分析,使一切內幕都不是內幕,使一切趨勢都在眼前, 結果在10天內他就贏得了200萬美元。這部電影簡直是展現(xiàn)大數(shù)據魔力教材性電影,推薦沒有看過IT人士看一看。在企業(yè)、行業(yè)和國家管理中,通常只有效使用了不到20%數(shù)據(甚至更少)

2、,假如剩下80%數(shù)據價值激發(fā)起來,世界會變得怎么樣呢?永無止境是由尼爾博格執(zhí)導懸疑電影,由布萊德利庫珀、羅伯特德尼羅和安娜弗萊爾等聯(lián)袂出演,所講述是一位落魄作家?guī)扃辏昧艘粋€能夠快速提升智力神奇藍色藥品,然后他將這種高智商用于炒股。第3頁 數(shù)據本質是生產資料和資產僅供開采162年僅供開采45年僅供開采60年不可再生資源VS數(shù)據過去3年數(shù)據總量比以往4萬年還多,全球信息量將超出40ZB全球數(shù)據增加速度在每年40%左右數(shù)據不再是社會生產“副產物”,而是可被二次乃至屢次加工原料,從中能夠探索更大價值,它變成了生產資料。第4頁 數(shù)據爆炸式增加(每分鐘)Twitter上公布98000+新微博13000

3、+個iPhone應用下載Skype上37萬+分鐘語音通話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個新訂單Facebook上更新69.5萬+條新狀態(tài)12306出票1840+張第5頁 需要不一樣“看”數(shù)據方式可視:結構化資料 15%未視:半/非結構化數(shù)據 85%DB/DW主管們看戰(zhàn)情數(shù)位儀表板,其實是殘缺第6頁10萬 GB10萬 TB 需要更高性價比數(shù)據計算與儲存方式數(shù)據庫DB數(shù)據倉庫DW計算更加快 存放更省第7頁85%半/非結構化Log / Web page / Email / PDF / Image / Full-t

4、ext / MS-Office file 7 需要不一樣數(shù)據管理策略當我們想要擴充時,才發(fā)覺:架構只能 scale-up, scale-out 不易處理時間過長, time-to-value 受限成本過高, cost-efficiency 受限15% 結構化 DB/DW遺憾殘缺第8頁天天幾百 GB、 幾 TB 資料,且連續(xù)成長中儲存Storing 在收數(shù)據同時做必要前置處理 (pre-processing),并區(qū)分數(shù)據處理優(yōu)先等級 (prioritizing)計算Processing怎樣有效防止因硬件毀壞所造成資料損毀管理Managing怎樣從中挖掘出所關注事件 pattern 或 behav

5、ior分析Analyzing 超越企業(yè)現(xiàn)有 IT 數(shù)據處理能力第9頁 大數(shù)據起源適應新時代,處理新問題第10頁 目錄二、什么是大數(shù)據一、大數(shù)據起源四、成功案例五、大數(shù)據安全三、大數(shù)據應用第11頁更結構化 沒有固定結構數(shù)據,通常保留成不一樣類型文件 舉例:文本文檔、PDF文檔、圖像和視頻 含有不規(guī)則數(shù)據格式文本數(shù)據,經過使用工具能夠使之格式化 舉例:包含不一致數(shù)據值和格式網站點擊數(shù)據 含有可識別模式并能夠解析文本數(shù)據文件 舉例:自描述和含有定義模式XML數(shù)據文件包含預定義數(shù)據類型、格式和結構數(shù)據舉例:事務性數(shù)據和聯(lián)機分析處理 什么是數(shù)據?結構化半結構化“準”結構化非結構化第12頁12Social

6、 MediaMachine / SensorDOC / MediaWeb ClickstreamAppsCall LogLog 什么是數(shù)據?半結構化/非結構化數(shù)據第13頁3/13/4 什么是大數(shù)據?第14頁何為大?數(shù)據度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,04

7、8,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes3/13/6 什么是大數(shù)據?第15頁紅樓夢含標點87萬字(不含標點853509字)每個漢字占兩個字節(jié):1漢字=16bit = 2*8位=2bytes1GB 約等于 671部紅樓夢1TB

8、 約等于 631,903 部1PB 約等于 647,068,911部美國國會圖書館藏書(151,785,778冊)(年4月:收錄數(shù)據235TB )中國國家圖書館:2631萬冊1EB = 4000倍 美國國會圖書館存放信息量600美元硬盤就能夠存放全世界全部歌曲MGI預計,全球企業(yè) 2010 年在硬盤上存放了超出 7EB(1EB 等于 10 億 GB)新數(shù)據,同時,消費者在 PC 和筆記本等設備上存放了超出 6EB 新數(shù)據3/13/7數(shù)據沒有方法在可容忍時間下使用常規(guī)軟件方法完成存放、管理和處理任務 什么是大數(shù)據?第16頁對于“大數(shù)據”(Big data)研究機構Gartner給出了這么定義:“

9、大數(shù)據”是需要新處理模式才能含有更強決議力、洞察發(fā)覺力和流程優(yōu)化能力來適應海量、高增加率和多樣化信息資產。麥肯錫全球研究所給出定義:一個規(guī)模大到在獲取、存放、管理、分析方面大大超出了傳統(tǒng)數(shù)據庫軟件工具能力范圍數(shù)據集合,含有海量數(shù)據規(guī)模、快速數(shù)據流轉、多樣數(shù)據類型和價值密度低四大特征. 大數(shù)據定義第17頁 大數(shù)據帶來思維變革更加好不是因果關系而是相關關系更多不是隨機樣本而是全部數(shù)據更雜不是準確性而是混雜性第18頁 大數(shù)據帶來思維變革(更多)人口大普查全數(shù)據模式隨機采樣樣本模式大數(shù)據應用全數(shù)據模式是指在國家統(tǒng)一要求時間內,按照統(tǒng)一方法、統(tǒng)一項目、統(tǒng)一調查表和統(tǒng)一標按時點,對全國人口普遍地、逐戶逐人

10、地進行一次性調查登記;主要特點是調查組織高度集中性,普查對象全方面完整性;人口大普查耗時花費,一般來講是十年一次,新中國成立以來共進行了6次人口大普查;人口大普查是一種經典全數(shù)據模式;大數(shù)據時代小數(shù)據時代第19頁人口大普查全數(shù)據模式隨機采樣樣本模式大數(shù)據應用全數(shù)據模式人口大普查是一個耗時花費工程,普通是以十年為單位;各國每年需要進行幾百次小規(guī)模人口調查,采取隨機采樣分析方式,這是一個樣本模式;源于實用而且很好創(chuàng)新!隨機采樣分析是小數(shù)據時代產物;大數(shù)據時代小數(shù)據時代 大數(shù)據帶來思維變革(更多)第20頁人口大普查全數(shù)據模式隨機采樣樣本模式大數(shù)據應用全數(shù)據模式我們已具備了大數(shù)據各種技術能力,思維需要

11、轉換到大數(shù)據全數(shù)據模式:樣本=全部;大數(shù)據不用隨機分析法這么捷徑,而采取全部數(shù)據方法;這里“大”是相正確相撲比賽全部數(shù)據存放還不需要一個TB,不過是全部數(shù)據!在大數(shù)據時代采取隨機采樣法,就像在汽車時代騎馬一樣,即使特定情況下仍可采樣隨機采樣法,不過慢慢地我們會放棄它;大數(shù)據時代小數(shù)據時代 大數(shù)據帶來思維變革(更多)第21頁 大數(shù)據帶來思維變革(更多)Google利用網絡大數(shù)據預測流感基于全數(shù)據進行相撲比賽作弊分析埃齊奧尼Farecast有10萬億條數(shù)據預測機票價格喬布斯癌癥抗爭,本身全部DNA和腫瘤DNA排序第22頁 大數(shù)據帶來思維變革(更雜)從皮尺到哈勃望遠鏡,人類一直在追求測量準確性,首先

12、源于對未知世界認知;首先也源于搜集信息有限性;大數(shù)據簡單算法比小數(shù)據復雜算法更有效;IBM機器翻譯 VS Google機器翻譯;紛繁數(shù)據越多越好;大數(shù)據時代要求我們重新審閱數(shù)據準確性優(yōu)略;大數(shù)據不但讓我們不再期待準確性,也讓我們無法實現(xiàn)準確性;錯誤不是大數(shù)據固有問題,而是一個需要我們去處理問題,而且會將長久存在;混雜性,不是盡力防止,而是標準路徑;第23頁 大數(shù)據帶來思維變革(更加好)佛教三世因果經主要講:一是人命是自己造就;二是怎樣為自己造一個好命;三是行善積德與行兇作惡干壞事因果循環(huán)報應規(guī)律。佛教關于因果報應解釋原因和結果是揭示客觀世界中普遍聯(lián)絡著事物含有先后相繼、彼此制約一對范圍。原因是

13、指導起一定現(xiàn)象現(xiàn)象,結果是指因為原因作用而引發(fā)現(xiàn)象。哲學范圍因果關系大數(shù)據相關關系,而不強調因果關系;(舍恩伯格),其實這個只是一個對無法探究因果妥協(xié),人類應該去探尋因果,因為世界存在客觀運轉規(guī)律;舍恩伯格對大數(shù)據相關性解釋Kaggle,一個為全部些人提供數(shù)據挖掘競賽企業(yè),在一次關于二手車數(shù)據分析比賽中得到,橙色汽車有質量問題可能性是其它顏色汽車二分之一。為何?探尋事物因果關系是人類本性,不過大數(shù)據時代能夠做某種程度妥協(xié),能夠只需要關注“是什么”,而忽略“為何?”第24頁 大數(shù)據組成大數(shù)據 = 海量數(shù)據 + 復雜類型數(shù)據海量交易數(shù)據:企業(yè)內部經營交易信息主要包含聯(lián)機交易數(shù)據和聯(lián)機分析數(shù)據,是結

14、構化、經過關系數(shù)據庫進行管理和訪問靜態(tài)、歷史數(shù)據。經過這些數(shù)據,我們能了解過去發(fā)生了什么。大數(shù)據包含:交易數(shù)據和交互數(shù)據集在內全部數(shù)據集海量交互數(shù)據:源于各種網絡和社交媒體。它包含了呼叫詳細統(tǒng)計、設備和傳感器信息、GPS和地理定位映射數(shù)據、經過管理文件傳輸協(xié)議傳送海量圖像文件、Web文本和點擊流數(shù)據、評價數(shù)據、科學信息、電子郵件等等。能夠告訴我們未來會發(fā)生什么。第25頁 大數(shù)據4V特征Volume非結構化數(shù)據超大規(guī)模和增加總數(shù)據量8090%比結構化數(shù)據增加快10倍到50倍是傳統(tǒng)數(shù)據倉庫10倍到50倍Value大量不相關信息對未來趨勢與模式可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智

15、能) Velocity實時分析而非批量式分析數(shù)據輸入、處理與丟棄立竿見影而非事后見效 Variety大數(shù)據異構和多樣性很多不一樣形式(文本、圖像、視頻、機器數(shù)據)無模式或者模式不顯著不連貫語法或句義Big Data大數(shù)據TBPBEBStreamsReal timeNear timeBatchStructuredUnstructured Semi-structuredAll the above第26頁 大數(shù)據4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當于50%全美學術研究圖書館藏書信息內容5EB相當于至今全世界人類所講過話語1ZB如同全世界海灘上沙

16、子數(shù)量總和1YB相當于7000位人類體內微細胞總和普通情況下,大數(shù)據是以PB、EB、ZB為單位進行計量第27頁 大數(shù)據4V特征(Velocity)82254132215327現(xiàn)在及未來幾年內美國移動網絡數(shù)據流量增加(PB/月)源自英國Coda研究咨詢企業(yè)大數(shù)據增加速度快大數(shù)據處理速度快實時數(shù)據流處理要求,是區(qū)分大數(shù)據引用和傳統(tǒng)數(shù)據倉庫技術,BI技術關鍵差異之一;1s 是臨界點,對于大數(shù)據應用而言,必須要在1秒鐘內形成答案,不然處理結果就是過時和無效;第28頁行業(yè)/企業(yè)內數(shù)據互聯(lián)網數(shù)據物聯(lián)網數(shù)據大數(shù)據數(shù)據起源多企業(yè)內部多個應用系統(tǒng)數(shù)據、互聯(lián)網和物聯(lián)網興起,帶來了微博、社交網站、傳感器等各種起源。

17、數(shù)據類型多保留在關系數(shù)據庫中結構化數(shù)據只占少數(shù),7080%數(shù)據是如圖片、音頻、視頻、模型、連接信息、文檔等非結構化和半結構化數(shù)據。關聯(lián)性強數(shù)據之間頻繁交互,比如游客在旅行途中上傳圖片和日志,就與游客位置、行程等信息有了很強關聯(lián)性。 大數(shù)據4V特征(Variety)第29頁 大數(shù)據4V特征(Value)挖掘大數(shù)據價值類似沙里淘金,從海量數(shù)據中挖掘稀疏但寶貴信息;價值密度低,是大數(shù)據一個經典特征;大數(shù)據不但僅是技術,關鍵是產生價值能夠從各個層面進行優(yōu)化,更要考慮整體第30頁行業(yè)數(shù)據處理方式價值銀行/金融貸款、保險、發(fā)卡等多業(yè)務線數(shù)據集成份析、市場評定新產品風險評定股票等投資組合趨勢分析增加市場份額

18、提升客戶忠誠度提升整體收入降低金融風險醫(yī)療共享電子病歷及醫(yī)療統(tǒng)計,幫助快速診療穿戴式設備遠程醫(yī)療改進診療質量加緊診療速度制造/高科技產品故障、失效綜合分析專利統(tǒng)計檢索智能設備全球定位,位置服務優(yōu)化產品設計、制造降低保修成本加緊問題處理能源勘探、鉆井等傳感器陣列數(shù)據集中分析降低工程事故風險優(yōu)化勘探過程互聯(lián)網/Web2.0在線廣告投放商品評分、排名社交網絡自動匹配搜索結果優(yōu)化提升網絡用戶忠誠度改進社交網絡體驗向目標用戶提供有針對性商品與服務政府/公用事業(yè)智能城市信息網絡集成天氣、地理、水電煤等公共數(shù)據搜集、研究公共安全信息集中處理、智能分析愈加好地對外提供公共服務輿情分析準確預判安全威脅媒體/娛樂

19、收視率統(tǒng)計、熱點信息統(tǒng)計、分析創(chuàng)造更多聯(lián)合、交叉銷售商機準確評定廣告效用零售基于用戶位置信息準確促銷社交網絡購置行為分析促進客戶購置熱情順應客戶購置行為習慣13 大數(shù)據商業(yè)價值第31頁Volume海量數(shù)據規(guī)模Variety多樣數(shù)據類型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速數(shù)據流轉發(fā)覺數(shù)據價值 大數(shù)據技術要處理問題第32頁大數(shù)據技術被設計用于在成本可承受條件下,經過非??焖伲╲elocity)地采集、發(fā)覺和分析,從大量(volumes

20、)、多類別(variety)數(shù)據中提取價值(value),將是IT 領域新一代技術與架構。企業(yè)用以分析數(shù)據越全方面,分析結果就越靠近于真實。大數(shù)據分析意味著企業(yè)能夠從這些新數(shù)據中獲取新洞察力,并將其與已知業(yè)務各個細節(jié)相融合。 大數(shù)據技術要處理問題大數(shù)據產品RDBMSAnalytical DBNoSQL DBERP/CRMSaaSSocial MediaWeb AnalyticsLog FilesRFIDCall Data RecordsSensorsMachine-Generated大數(shù)據管理存儲處理過濾大數(shù)據終端使用挖掘分析搜索擴充第33頁 軟件是大數(shù)據引擎和數(shù)據中心(Data Center

21、) 一樣,軟件是大數(shù)據驅動力.軟件改變世界!第34頁IBM C&P Industry需求海量數(shù)據存放技術實時數(shù)據處理技術數(shù)據高速傳輸技術搜索技術描述分布式文件系統(tǒng)流計算引擎服務器/存放間高速通信文本檢索、智能搜索、實時搜索技術Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch數(shù)據分析技術Text Analytics Engine 自然語言處理、文本情感分析、Visual Data Modeling 機器學習、聚類關聯(lián)、數(shù)據模型 大數(shù)據包括關鍵技術第35頁基于SQL語言: 面對OLAP傳統(tǒng)行和列不基于SQL或map-

22、reduce: 由谷歌率先發(fā)起數(shù)據流: 基于運行商數(shù)據直接生成任意圖形新平臺技術數(shù)據入口/匯聚數(shù)據平臺分析不一樣范圍服務傳統(tǒng)交付模式-單片或基于設備處理方案云: 能夠充分利用物理設施彈性,以實現(xiàn)處理快速增加數(shù)據能力“數(shù)據庫將演變成一個虛擬,基于云計算,超級可擴展分布式平臺。”- Forrester analyst Jim Kobielus新傳輸方案 大數(shù)據包括關鍵技術第36頁大數(shù)據(Hadoop)NoSQL數(shù)據庫數(shù)據倉庫布署架構水平擴展水平擴展大部分垂直擴展,少數(shù)水平擴展大部分水平擴展數(shù)據類型文件存放,沒有數(shù)據類型 簡單數(shù)據類型豐富數(shù)據類型豐富數(shù)據類型數(shù)據模型非常簡陋數(shù)據模型簡單靈活數(shù)據模型豐

23、富數(shù)據模型完善豐富數(shù)據模型數(shù)據關系沒有數(shù)據關系描述非常簡單數(shù)據關系描述數(shù)據關系完善數(shù)據關系完善數(shù)據一致無一致性弱一致性強一致性強一致性數(shù)據安全安全性很弱安全性很弱安全性很高安全性很高計算類型離線批量處理,只讀,低并發(fā)實時CRUD操作,海量并發(fā)實時CRUD操作,高并發(fā)離線批量處理,只讀,低并發(fā)適用場景低密度數(shù)據海量存放,數(shù)據預處理,預計算高并發(fā)實時在線交易,查詢,報表高價值數(shù)據統(tǒng)一存放和計算平臺常見用例日志處理,用戶行為分析,搜索引擎用戶資料,微博,金融反欺詐金融賬戶,電信計費,稅務等企業(yè)數(shù)據倉庫11 大數(shù)據包括關鍵技術第37頁數(shù)據采集數(shù)據儲存與管理數(shù)據分析與挖掘計算結果展示ETL數(shù)據眾包(Cr

24、owdSouring) 大數(shù)據包括關鍵技術第38頁數(shù)據眾包是一個新數(shù)據采集方式,由企業(yè)方經過平臺把數(shù)據采集任務外包給非特定大眾網絡。 大數(shù)據包括關鍵技術數(shù)據眾包第39頁數(shù)據采集數(shù)據儲存與管理數(shù)據分析與挖掘計算結果展示ETL數(shù)據眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據分布式文件系統(tǒng)關系數(shù)據庫非關系數(shù)據庫(NoSQL)數(shù)據倉庫云計算和云存放實時流處理 大數(shù)據包括關鍵技術第40頁分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理物理存放資源不一定直接連接在當?shù)毓?jié)點上,而是經過計算機網絡與節(jié)點相連。 大數(shù)據包括關鍵技術分布式文件系統(tǒng)第41頁Googl

25、e文件系統(tǒng)(Google File System,GFS)是一個可擴展分布式文件系統(tǒng),用于大型、分布式、對大量數(shù)據進行訪問應用。它運行于廉價普通硬件上,將服務器故障視為正?,F(xiàn)象,經過軟件方式自動容錯,在確保系統(tǒng)可靠性和可用性同時,大大降低了系統(tǒng)成本。 大數(shù)據包括關鍵技術分布式文件系統(tǒng)第42頁GFS將整個系統(tǒng)分為三類角色:Client(客戶端)、Master(主服務器)、Chunk Server(數(shù)據塊服務器)。C0C1C5C2C1C5C3C0C5C2GFS MasterGFS MasterClientClientClientClientClient ReplicasMasterChunkser

26、ver 2Chunkserver NChunkserver 1GFS Architecture 大數(shù)據包括關鍵技術分布式文件系統(tǒng)第43頁關系型數(shù)據庫不足難以滿足高并發(fā)讀寫需求難以滿足對海量數(shù)據高效率存放和訪問需求難以滿足對數(shù)據庫高可擴展性和高可用性需求NoSQL= 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQL第44頁NoSQL 數(shù)據存放不需要固定表結構,通常也不存在連接操作。在大數(shù)據存取上具備關系型數(shù)據庫無法比擬性能優(yōu)勢。關系型數(shù)據庫中表都是存放一些格式化數(shù)據結構,每個元組字段組成都一樣,即使不是每個元組都需要全部字段,但數(shù)據庫會為每個元組分配全部字段。非關系型數(shù)據庫以鍵值對存放,它結構不固定,

27、每一個元組能夠有不一樣字段,每個元組能夠依據需要增加一些自己鍵值對,這么就不會局限于固定結構,能夠降低一些時間和空間開銷。 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQL第45頁 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQL第46頁Bigtable設計目標是可靠地處理PB級別數(shù)據,而且能夠布署到上千臺機器上。Bigtable已經在超出60個Google產品和項目上得到了應用,包含 Google Analytics、GoogleEarth等。 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQLCassandra是一套開源分布式NoSQL數(shù)據庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存收件箱等簡單格式數(shù)據,集

28、Google BigTable數(shù)據模型與Amazon Dynamo完全分布式架構于一身。Facebook于將 Cassandra 開源,今后被Digg、Twitter等著名Web 2.0網站所采納,成為了一個流行分布式結構化數(shù)據存放方案。第47頁 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQLDynamoDB是Amazon提供共享式數(shù)據庫云服務,可用性和擴展性都很好,性能也不錯:讀寫訪問中99.9%響應時間都在300ms內。DynamoDB經過服務器把全部數(shù)據存放在固態(tài)硬盤(SSD)上三個不一樣區(qū)域。假如有更高傳輸需求,DynamoDB也能夠在后臺添加更多服務器。HBase Hadoop Data

29、base,是一個分布式、面向列開源數(shù)據庫,HBase在Hadoop之上提供了類似于Bigtable能力,是Hadoop項目標子項目。第48頁 大數(shù)據包括關鍵技術非關系型數(shù)據庫NoSQLMongoDB是一個基于分布式文件存放數(shù)據庫。由C+語言編寫,是一個介于關系數(shù)據庫和非關系數(shù)據庫之間產品,是非關系數(shù)據庫當中功效最豐富,最像關系數(shù)據庫。它 支持數(shù)據結構非常渙散,能夠存放比較復雜數(shù)據類型。它支持查詢語言非常強大,其語法有點類似于面向對象查詢語言,幾乎能夠實現(xiàn)類似關系數(shù)據庫單表查詢絕大部分功效,而且還支持對數(shù)據建立索引。第49頁云計算(cloud computing),是分布式計算技術一個,其最基本

30、概念,是透過網絡將龐大計算處理程序自動分拆成無數(shù)個較小子程序,再交由多部服務器所組成龐大系統(tǒng)經搜尋、計算分析之后將處理結果回傳給用戶。透過這項技術,網絡服務提供者能夠在數(shù)秒之內,達成處理數(shù)以千萬計甚至億計信息,到達和“超級計算機”一樣強大效能網絡服務。云計算是一個資源交付和使用模式,指經過網絡取得應用所需資源(硬件、平臺、軟件)。提供資源網絡被稱為“云”。 大數(shù)據包括關鍵技術云計算和云存放第50頁白云下面數(shù)據跑藍藍天上白云飄假如數(shù)據是財富,那么大數(shù)據就是寶藏,而云計算就是挖掘和利用寶藏利器。沒有強大計算能力,數(shù)據寶藏終究是鏡中花;沒有大數(shù)據積淀,云計算也只能是殺雞用宰牛刀。 大數(shù)據包括關鍵技術

31、云計算和云存放第51頁云存放是在云計算(cloud computing)概念上延伸和發(fā)展出來一個新概念,是指經過集群應用、網格技術或分布式文件系統(tǒng)等功效,將網絡中大量各種不一樣類型存放設備經過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據存放和業(yè)務訪問功效一個系統(tǒng)。當云計算系統(tǒng)運算和處理關鍵是大量數(shù)據存放和管理時,云計算系統(tǒng)中就需要配置大量存放設備,那么云計算系統(tǒng)就轉變成為一個云存放系統(tǒng),所以云存放是一個以數(shù)據存放和管理為關鍵云計算系統(tǒng)。 大數(shù)據包括關鍵技術云計算和云存放第52頁數(shù)據采集數(shù)據儲存與管理數(shù)據分析與挖掘計算結果展示ETL數(shù)據眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據

32、分布式文件系統(tǒng)關系數(shù)據庫非關系數(shù)據庫(NoSQL)數(shù)據倉庫云計算和云存放實時流處理A/B Testing關聯(lián)規(guī)則分析分類聚類遺傳算法神經網絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網絡分析自然語言分析MapReduceR語言 大數(shù)據包括關鍵技術第53頁A/B測試是可用性測試一個方法,其關鍵為:同時試驗兩個元素或版本(A和B),確定哪個更加好。注冊按鈕由綠色改成紅色提升轉化率34%人性化表格提升11%轉化率。 大數(shù)據包括關鍵技術A/B Testing第54頁數(shù)據采集數(shù)據儲存與管理數(shù)據分析與挖掘計算結果展示ETL數(shù)據眾包(CrowdSouring)結構化、非結構化和半結

33、構化數(shù)據分布式文件系統(tǒng)關系數(shù)據庫非關系數(shù)據庫(NoSQL)數(shù)據倉庫云計算和云存放實時流處理A/B Testing關聯(lián)規(guī)則分析分類聚類遺傳算法神經網絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網絡分析自然語言分析MapReduceR語言標簽云(Tag Cloud)聚類圖(Clustergram)空間信息流(Spatial information flow)熱圖(Heatmap) 大數(shù)據包括關鍵技術第55頁標簽云(Tag Cloud)是一套相關標簽以及與此對應權重。權值影響標簽字體大小、顏色或其它視覺效果。經典標簽云有30至150個標簽,用以表示一個網站中內容及其熱門程度

34、。標簽通常是超鏈接,指向分類頁面。 大數(shù)據包括關鍵技術標簽云第56頁聚類圖(Clustergram)是指用圖形方式展示聚類分析結果技術,能夠有利于判斷簇數(shù)量不一樣時聚類效果。 大數(shù)據包括關鍵技術聚類圖第57頁空間信息流(Spatial information flow)是展示信息空間狀態(tài)一個可視化技術。熱圖(Heatmap)是一項數(shù)據展示技術,將變量值用不一樣顏色或高亮形式描繪出來。能夠非常直觀展現(xiàn)一些原本不易了解或表示數(shù)據,比如密度、頻率、溫度等。 大數(shù)據包括關鍵技術空間信息流與熱圖第58頁 目錄一、大數(shù)據起源四、成功案例五、大數(shù)據安全三、大數(shù)據應用二、什么是大數(shù)據第59頁59亞馬遜 “預測

35、式發(fā)貨”新專利,能夠經過對用戶數(shù)據分析,在他們還沒有下單購物前,提前發(fā)出包裹。這項技術能夠縮短發(fā)貨時間,從而降低消費者前往實體店沖動。從下單到收貨之間時間延遲可能會降低人們購物意愿,造成他們放棄網上購物。所以,亞馬遜可能會依據之前訂單和其它原因,預測用戶購物習慣,從而在他們實際下單前便將包裹發(fā)出。依據該專利文件,即使包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞企業(yè)轉運中心或卡車里。亞馬遜為了決定要運輸哪些貨物,亞馬遜可能會參考之前訂單、商品搜索統(tǒng)計、愿望清單、購物車,甚至包含用戶鼠標在某件商品上懸停時間。 消費大數(shù)據第60頁60 在籌備過程中,奧巴馬背后數(shù)據分析團體一直在

36、搜集、存放和分析選民數(shù)據。在這次大選中,奧巴馬競選陣營高級助理們決定將參考這一團體所得出數(shù)據分析結果來制訂下一步競選方案。利用在競選中可取得選民行動、行為、支持偏向方面大量數(shù)據。比如,在東海岸找到一位對女性群體具備相同號召力名人,從而復制“克魯尼效應”并為奧巴馬籌集競選資金。“Twitter政治指數(shù)”提供了一個衡量社會化媒體平臺用戶怎樣評價候選人方式。奧巴馬主動情緒指數(shù)是59,而羅姆尼只有53 政治大數(shù)據第61頁61回顧“老鼠倉”查處過程,在馬樂一案中,“大數(shù)據”首次介入。深交所以前經過“大數(shù)據”查出可疑賬戶高達300個。實際上,早在,上交所曾經有過利用“大數(shù)據”設置“捕鼠器”構想。經過建立相

37、關模型,設定一定指標預警,即相關指標到達某個預警點時監(jiān)控系統(tǒng)會自動報警。而此次在馬樂案中亮相深交所“大數(shù)據” 監(jiān)測系統(tǒng),更是引發(fā)了廣泛關注。深交全部幾十人監(jiān)控室,設置了200多個指標用于監(jiān)測預計,一旦出現(xiàn)股價偏離大盤走勢,深交所利用大數(shù)據查探異動背后是哪些人或機構在參加。 證監(jiān)會大數(shù)據第62頁62量化交易,程序化交易,高頻交易是大數(shù)據應用比較多領域。全球2/3股票交易量是由高頻交易所創(chuàng)造,參加者總收益每年高達80億美元。其中,大數(shù)據算法被用來作出交易決定?,F(xiàn)在,大多數(shù)股權交易都是經過大數(shù)據算法進行,這些算法越來越多地開始考慮社交媒體網絡和新聞網站信息來在幾秒內做出買入和賣出決定。當一個產品能夠

38、在多個交易所交易時,會形成不一樣定價,在這當中,誰能夠最快地捕捉到同一個產品在不一樣交易所之間顯著價差,誰就能捕捉到瞬間套利機會,技術成為了主要原因 金融大數(shù)據第63頁63在摩托車生產廠商哈雷戴維森企業(yè)位于賓尼法尼亞州約克市新翻新摩托車制造廠,軟件不停在統(tǒng)計著微小制造數(shù)據,如噴漆室風扇速度等等。當軟件覺察風扇速度、溫度、濕度或其它變量脫離要求數(shù)值,它就會自動調整機械。哈雷戴維森同時還使用軟件,還尋找制約企業(yè)每86秒完成一臺摩托車制造工作瓶頸。最近,這家企業(yè)管理者經過研究數(shù)據,認為安裝后擋泥板時間過長。經過調整工廠配置,哈雷戴維森提升了安裝該配件速度。美國一些紡織及化工生產商,依據從不一樣百貨企

39、業(yè)POS機上搜集產品銷售速度信息,將原來18周送貨速度降低到3周,這對百貨企業(yè)分銷商來說,能以更加快速度拿到貨物,降低倉儲。對生產商來說,積攢材料倉儲也能降低很多。 制造業(yè)大數(shù)據第64頁64谷歌基于天天來自全球30 多億條搜索指令設置了一個系統(tǒng),這個系統(tǒng)在 年甲流暴發(fā)之前就開始對美國各地域進行“流感預報”,并推出了“谷歌流感趨勢”服務。谷歌在這項服務產品介紹中寫道:搜索流感相關主題人數(shù)與實際患有流感癥狀人數(shù)之間存在著親密關系。即使并非每個搜索“流感”人都患有流感,但谷歌發(fā)覺了一些檢索詞條組合并用特定數(shù)學模型對其進行分析后發(fā)覺,這些分析結果與傳統(tǒng)流感監(jiān)測系統(tǒng)監(jiān)測結果相關性高達97%。這也就表示,

40、谷歌企業(yè)能做出與疾控部門一樣準確傳染源位置判斷,而且在時間上提前了一到兩周?!?醫(yī)療大數(shù)據第65頁65國際大石油企業(yè)一直都非常重視數(shù)據管理。如雪佛龍企業(yè)將5萬臺桌面系統(tǒng)與1800個企業(yè)站點連接,消除煉油、銷售與運輸“下游系統(tǒng)”中重復流程和系統(tǒng),每年節(jié)約5000萬美元,過去4年已取得了凈現(xiàn)值約為2億美元回報。準確預測太陽能和風能需要分析大量數(shù)據,包含風速、云層等氣象數(shù)據。丹麥風輪機制造商維斯塔斯( Vestas Wind Systems),經過在世界上最大超級計算機上布署IBM大數(shù)據處理方案,得以經過分析包含PB量級氣象匯報潮汐相位、地理空間、衛(wèi)星圖像等結構化及非結構化海量數(shù)據,優(yōu)化風力渦輪機布

41、局,有效提升風力渦輪機性能,為客戶提供準確和優(yōu)化風力渦輪機配置方案不但幫助客戶降低每千瓦時成本,而且提升了客戶投資回報預計準確度,同時它將業(yè)務用戶請求響應時間從幾星期縮短到幾小時。 能源大數(shù)據第66頁66UPS最新大數(shù)據起源是安裝在企業(yè)4.6萬多輛卡車上遠程通信傳感器,這些傳感器能夠傳回車速、方向、剎車和動力性能等方面數(shù)據。搜集到數(shù)據流不但能說明車輛日常性能,還能幫助企業(yè)重新設計物流路線。大量在線地圖數(shù)據和優(yōu)化算法,最終能幫助UPS實時地調配駕駛員收貨和配送路線。該系統(tǒng)為UPS降低了8500萬英里物流里程,由此節(jié)約了840萬加侖汽油。 交通大數(shù)據第67頁67與傳統(tǒng)電視劇有別,紙牌屋是一部依據“

42、大數(shù)據”制作作品。制作方Netflix是美國最具影響力影視網站之一,在美國本土有約2900萬訂閱用戶。Netflix成功之處于于其強大推薦系統(tǒng)Cinematch,該系統(tǒng)基于用戶視頻點播基礎數(shù)據如評分、播放、快進、時間、地點、終端等,儲存在數(shù)據庫后經過數(shù)據分析,計算出用戶可能喜愛影片,并為他提供定制化推薦。Netflix公布數(shù)據顯示,用戶在Netflix上天天產生3000多萬個行為,比如暫停、回放或者快進,同時,用戶天天還會給出400萬個評分,以及300萬次搜索請求。Netflix遂決定用這些數(shù)據來制作一部電視劇,投資過億美元制作出紙牌屋。Netflix發(fā)覺,其用戶中有很多人仍在點播1991年B

43、BC經典老片紙牌屋,這些觀眾中許多人喜歡大衛(wèi)芬奇,觀眾大多愛看奧斯卡得主凱文史派西電影,由此Netflix邀請大衛(wèi)芬奇為導演,凱文史派西為主演翻拍了紙牌屋這一政治題材劇。2月紙牌屋上線后,用戶數(shù)增加了300萬,到達2920萬。 文化傳媒大數(shù)據第68頁基于大數(shù)據應用威脅發(fā)覺技術認證技術數(shù)據真實性分析安全-即-服務 大數(shù)據應用技術第69頁基于大數(shù)據,企業(yè)能夠更主動發(fā)覺潛在安全威脅相較于傳統(tǒng)技術方案,大數(shù)據威脅發(fā)覺技術有以下優(yōu)點:1、分析內容范圍更大2、分析內容時間跨度更長3、攻擊威脅預測性4、對未知威脅檢測 大數(shù)據應用基于大數(shù)據威脅發(fā)覺技術第70頁身份認證:信息系統(tǒng)或網絡中確認操作者身份過程,傳統(tǒng)

44、認證技術只要經過用戶所知口令或者持有憑證來判別用戶傳統(tǒng)技術面臨問題:1、攻擊者總能找到方法來騙取用戶所知秘密,或竊取用戶憑證2、傳統(tǒng)認證技術中認證方式越安全往往意味著用戶負擔越重 大數(shù)據應用基于大數(shù)據認證技術第71頁基于大數(shù)據認證技術:搜集用戶行為和設備行為數(shù)據,對這些數(shù)據分析,取得用戶行為和設備行為特征,進而確定其身份。1、攻擊者極難模擬用戶行為經過認證2、減小用戶負擔3、更加好支持各系統(tǒng)認證機制統(tǒng)一1、初始階段認證,因為缺乏大量數(shù)據,認證分析不準確2、用戶隱私問題優(yōu)點缺點 大數(shù)據應用基于大數(shù)據認證技術第72頁基于大數(shù)據數(shù)據真實性分析被廣泛認為是最為有效方法優(yōu)勢:1、引入大數(shù)據分析能夠取得更

45、高識別準確率2、在進行大數(shù)據分析時,經過機器學習技術,能夠發(fā)覺更多含有新特征垃圾信息面臨困難:虛假信息定義、分析模型構建等 大數(shù)據應用基于大數(shù)據數(shù)據真實性分析第73頁關鍵問題:怎樣搜集、存放和管理大數(shù)據對信息安全企業(yè)來說,現(xiàn)實方式是經過某種方式取得大數(shù)據服務,結合自己技術特色,對外提供安全服務前景:以底層大數(shù)據服務為基礎,各個企業(yè)之間組成相互依賴、相互支撐信息安全服務體系,形成信息安全產業(yè)界良好生態(tài)環(huán)境 大數(shù)據應用大數(shù)據與“安全-即-服務”第74頁一、大數(shù)據起源四、成功案例五、大數(shù)據安全三、大數(shù)據應用二、什么是大數(shù)據 目錄第75頁塔吉特:比父親更早知道女兒懷孕曾經有一位男性用戶到一家塔吉特超市

46、店中投訴,商店竟然給他還在讀書女兒寄嬰兒用具優(yōu)惠券。這家全美第二大零售商,會搞出如此大烏龍?但經過這位父親與女兒深入溝通,才發(fā)覺自己女兒真已經懷孕了。提問:為何塔吉特能知道這個用戶懷孕了?必須有哪幾個關鍵步驟A:用戶數(shù)據搜集 B:懷孕特征庫 C:懷孕潛在用戶篩選 塔吉特在和用戶溝經過程中采取了哪種營銷方式A:電子郵件 B:直郵 C:電話營銷 D:數(shù)據庫營銷 成功案例大數(shù)據營銷第76頁關鍵步驟一:數(shù)據信息統(tǒng)計一家零售商是怎樣比一位女孩親生父親更早得知其懷孕消息呢?每位用戶首次到塔吉特刷卡消費時,都會取得一組用戶識別編號,內含用戶姓名、信用卡卡號及電子郵件等個人資料。日后凡是用戶在塔吉特消費,計算

47、機系統(tǒng)就會自動統(tǒng)計消費內容、時間等信息。再加上從其它管道取得統(tǒng)計資料,塔吉特便能形成一個龐大數(shù)據庫,利用于分析用戶喜好與需求。每個ID號還會對號入座統(tǒng)計下你人口統(tǒng)計信息:年紀、是否已婚、是否有兒女、所住市區(qū)、住址離Target車程、薪水情況、最近是否搬過家、錢包里信用卡情況、常訪問網址等等。Target還能夠從其它相關機構那里購置你其它信息:種族、就業(yè)史、喜歡讀雜志、破產統(tǒng)計、婚姻史、購房統(tǒng)計、求學統(tǒng)計、閱讀習慣等等。乍一看,你會以為這些數(shù)據毫無意義,但在Andrew Pole和用戶數(shù)據分析部手里,這些看似無用數(shù)據便暴發(fā)了前述強勁威力 成功案例大數(shù)據營銷第77頁關鍵步驟二:數(shù)據模型建立Andr

48、ew Pole想到了Target有一個迎嬰聚會(baby shower)記錄表。Andrew Pole開始對這些記錄表里用戶消費數(shù)據進行建模分析,很快就發(fā)覺了許多非常有用數(shù)據模式。比如模型發(fā)覺,許多孕婦在第2個妊娠期開始會買許多大包裝無香味護手霜;在懷孕最初20周大量購置補充鈣、鎂、鋅善存片之類保健品。最終Andrew Pole選出了25種經典商品消費數(shù)據構建了“懷孕預測指數(shù)”,經過這個指數(shù),Target能夠在很小誤差范圍內預測到用戶懷孕情況,所以Target就能早早地把孕婦優(yōu)惠廣告寄發(fā)給用戶。 成功案例大數(shù)據營銷第78頁關鍵步驟三:建立和用戶溝通渠道那么,用戶收到這么廣告會不會嚇壞了呢?Ta

49、rget很聰明地防止了這種情況,它把孕婦用具優(yōu)惠廣告夾雜在其它一大堆與懷孕不相關商品優(yōu)惠廣告當中,這么用戶就不知道Target知道她懷孕了 成功案例大數(shù)據營銷Target取得成就:依據Andrew Pole大數(shù)據模型,Target制訂了全新廣告營銷方案,結果Target孕期用具銷售展現(xiàn)了爆炸性增加。Andrew Pole大數(shù)據分析技術從孕婦這個細分用戶群開始向其它各種細分客戶群推廣,從Andrew Pole加入Target到年間,Target銷售額從440億美元增加到了670億美元。第79頁 目錄一、大數(shù)據起源五、大數(shù)據安全四、成功案例三、大數(shù)據應用二、什么是大數(shù)據第80頁1.大數(shù)據成為網絡攻

50、擊顯著目標在網絡空間中,大數(shù)據成為更輕易被“發(fā)現(xiàn)”大目標,承載著越來越多關注度。一方面,大數(shù)據不僅意味著海量數(shù)據,也意味著更復雜、更敏感數(shù)據,這些數(shù)據會引更多潛在攻擊者,成為更具吸引力目標。其次,數(shù)據大量聚集,使得黑客一次成功攻擊能夠獲得更多數(shù)據,無形中降低了黑客進攻成本,增加了“收益率”。 大數(shù)據面臨挑戰(zhàn)第81頁2.大數(shù)據加大隱私泄露風險網絡空間中數(shù)據來源涵蓋非常廣闊范圍,例如傳感器、社交網絡、記錄存檔、電子郵件等,大量數(shù)據劇集不可防止加大了用戶隱私泄露風險。一方面,大量數(shù)據匯集,包括大量企業(yè)運營數(shù)據、客戶信息、個人隱私和各種行為細節(jié)記錄。這些數(shù)據集中存儲增加了數(shù)據泄露風險,而這些數(shù)據不被濫

51、用,也成為人身安全一部分。其次,一些敏感數(shù)據全部權和使用權并沒有明確界定,很多基于大數(shù)據分析都未考慮到其中涉及到個體隱私問題。 大數(shù)據面臨挑戰(zhàn)第82頁 大數(shù)據面臨挑戰(zhàn)3.大數(shù)據對現(xiàn)有存放和安防辦法提出挑戰(zhàn)大數(shù)據存放帶來新安全問題。數(shù)據大集中后果是復雜多樣數(shù)據存放在一起,比如開發(fā)數(shù)據、客戶資料和經營數(shù)據存放在一起,可能會出現(xiàn)違規(guī)地將一些生產數(shù)據放在經營數(shù)據存放位置情況,造成企業(yè)安全管理不合規(guī)。大數(shù)據大小影響到安全控制辦法能否正確運行。對于海量數(shù)據,常規(guī)安全掃描伎倆需要花費過多地時間,已經無法滿足安全需求。安全防護伎倆更新升級速度無法跟上數(shù)據量非線性增加步伐,大數(shù)據安全防護存在漏洞。第83頁 大數(shù)

52、據面臨挑戰(zhàn)4.大數(shù)據技術被應用到攻擊伎倆中在企業(yè)用數(shù)據挖掘和數(shù)據分析等大數(shù)據技術獲取商業(yè)價值同時,黑客也正在利用這些大數(shù)據技術向企業(yè)發(fā)起攻擊。黑客最大程度地搜集更多有用信息,比如社交網絡、郵件、微博、電子商務、電話和家庭住址等信息,為發(fā)起攻擊做準備,大數(shù)據分析讓黑客攻擊更精準。另外,大數(shù)據為黑客發(fā)起攻擊提供了更多機會。黑客利用大數(shù)據發(fā)起僵尸網絡攻擊,可能會同時控制上百萬臺傀儡機并發(fā)起攻擊,這個數(shù)量級是傳統(tǒng)單點攻擊不具備。第84頁 大數(shù)據面臨挑戰(zhàn)5.大數(shù)據成為高級可連續(xù)攻擊載體黑客利用大數(shù)據將攻擊很好地隱藏起來,使傳統(tǒng)防護策略難以檢測出來。傳統(tǒng)檢測是基于單個時間點進行基于威脅特征實時匹配檢測,而

53、高級可連續(xù)攻擊(APT)是一個實施過程,并不含有能夠被實時檢測出來顯著特征,無法被實時檢測。同時,APT攻擊代碼隱藏在大量數(shù)據中,讓其極難被發(fā)覺。另外,大數(shù)據價值低密度性,讓安全分析工具極難聚焦在價值點上,黑客能夠將攻擊隱藏在大數(shù)據中,給安全服務提供商分析制造了很大困難。黑客設置任何一個會誤導安全廠商目標信息提取和檢索攻擊,都會造成安全監(jiān)測偏離應有方向。第85頁大數(shù)據安全威脅大數(shù)據基礎設施安全威脅大數(shù)據存放安全威脅隱私泄露問題針對大數(shù)據高級連續(xù)性攻擊其它安全威脅 大數(shù)據安全威脅第86頁非授權訪問信息泄露或丟失網絡基礎設施傳輸過程中破壞數(shù)據完整性拒絕服務攻擊網絡傳輸病毒攻擊者能夠經過實施嗅探、中

54、止人攻擊、重放攻擊來竊取或篡改數(shù)據。 經過干擾網絡,改變其正常作業(yè)流程或執(zhí)行武官程序,造成系統(tǒng)響應遲緩,影響正當用戶正常使用,甚至使正當用戶遭到排斥,不能得到響應服務。沒有預先經過同意,就使用網絡或計算機資源 ,主要形式有 假冒、身份攻擊、非法用戶進入網絡系統(tǒng)進行違法操作,以及正當用戶以未授權方式進行操作等。經過信息網絡傳輸計算機病毒 。 如攻擊者經過建立隱蔽隧道竊取 敏感信息,最經典有美國棱鏡門(竊取世界各地公民信息)、阿桑奇事件、斯諾登事件。 大數(shù)據基礎設施安全威脅第87頁 大數(shù)據基礎設施安全威脅普通用戶安全意識微弱,移動智能終端,網絡平臺被攻陷,數(shù)據丟失及泄露風險極大第88頁模式成熟度不

55、夠:系統(tǒng)成熟度不夠:代碼輕易產生漏洞:數(shù)據冗余和分散問題:當前標準sql技術包含嚴格訪問控制和隱私管理工具,而NoSQL沒有。NoSQL含有較多漏洞。這是計算機誕生時起就一直存在問題,至今無法處理,只能不停打漏洞補丁。NoSQL模式下數(shù)據分散在不一樣地理位置、不一樣服務器中,以實現(xiàn)數(shù)據優(yōu)化查詢和備份。在這種情況下,難以定位數(shù)據并進行保護。 大數(shù)據存放安全威脅以上主要指NoSQL非關系型數(shù)據庫存放安全威脅第89頁基于云計算架構大數(shù)據,數(shù)據存放和操作都是以服務形式提供。當前,大數(shù)據安全存放采取虛擬化海量存放技術來存放數(shù)據資源,包括數(shù)據傳輸、隔離、恢復等問題。處理大數(shù)據安全存放:1.數(shù)據加密。在大數(shù)

56、據安全服務設計中,大數(shù)據能夠按照數(shù)據安全存放需求,被存放在數(shù)據集任何存放空間,經過SSL(安全套接層)加密,實現(xiàn)數(shù)據集節(jié)點和應用程序之間移動保護大數(shù)據。在大數(shù)據傳輸服務過程中,加密為數(shù)據流上傳與下載提供有效保護。應用隱私保護和外包數(shù)據計算,屏蔽網絡攻擊。當前,PGP和TrueCrypt等程序都提供了強大加密功效。 大數(shù)據存放安全策略第90頁 2.分離密鑰和加密數(shù)據。使用加密把數(shù)據使用與數(shù)據保管分離,把密鑰與要保護數(shù)據隔離開。同時,定義產生、存放、備份、恢復等密鑰管理生命周期。3.使用過濾器。經過過濾器監(jiān)控,一旦發(fā)覺數(shù)據離開了用戶網絡,就自動阻止數(shù)據再次傳輸。4.數(shù)據備份。經過系統(tǒng)容災、敏感信息

57、集中管控和數(shù)據管理等產品,實現(xiàn)端對端數(shù)據保護,確保大數(shù)據損壞情況下有備無患和安全管控。 大數(shù)據存放安全策略第91頁 大數(shù)據中用戶無法知道數(shù)據確實切存放位置,用戶對其個人數(shù)據采集、存放、使用、分享無法有效控制。比如實名注冊一個社交網站后,用戶信息將不再受用戶本人支配,攻擊者可經過攻擊社交網站竊取用戶信息。 大數(shù)據隱私泄露第92頁 大數(shù)據隱私泄露隱私泄露,就是讓你不想被他人知道事情(這件事情主體是你)能夠被人在你不允許情況下知道第93頁 大數(shù)據隱私泄露大數(shù)據分析,方便了我們同時也侵犯了我們隱私。第94頁其它安全威脅網絡化社會使大數(shù)據易成為攻擊目標大數(shù)據濫用風險大數(shù)據誤用風險如論壇、博客、微博等為黑

58、客竊取個人信息提供了平臺。如黑客能夠利 用大數(shù)據技術最大程度地搜集用戶敏感信息。如從社交網站獲取 個人信息準確性, 基本資料比如年紀、婚姻情況等都是為經驗證,分析結果可信度不高。 大數(shù)據其它安全威脅第95頁 大數(shù)據安全大數(shù)據中用戶隱私保護大數(shù)據可信性怎樣實現(xiàn)大數(shù)據訪問控制大數(shù)據帶來安全挑戰(zhàn)第96頁用戶隱私保護大數(shù)據可信性怎樣實現(xiàn)大數(shù)據訪問控制不但限于個人隱私泄漏,還在于基于大數(shù)據對人們狀態(tài)和行為預測。當前用戶數(shù)據搜集、管理和使用缺乏監(jiān)管,主要依靠企業(yè)自律威脅之一是偽造或刻意制造數(shù)據,而錯誤數(shù)據往往會造成錯誤結論。威脅之二是數(shù)據在傳輸中逐步失真。(1)難以預設角色,實現(xiàn)角色劃分;(2)難以預知每

59、個角色實際權限。 大數(shù)據安全第97頁 大數(shù)據安全與隱私保護用戶隱私保護數(shù)據采集時的隱私保護,如數(shù)據精度處理數(shù)據發(fā)布、共享時的隱私保護,如數(shù)據的匿名處理、人工加擾等數(shù)據分析及數(shù)據生命周期的隱私保護第98頁 大數(shù)據安全與隱私保護傳統(tǒng)三大隱私保護法都沒有用1、隱私保護相關法律數(shù)據搜集者必須通知個人,他們搜集了哪些數(shù)據、作何用途,也必須在搜集工作開始之前征得個人同意通知許可不可能做到,限制大數(shù)據潛在價值挖掘太空乏且 無法真正地保護個人隱私谷歌要使用檢索詞預測流感,必須一一征得數(shù)億用戶同意一開始要用戶同意全部可能用途實際上第99頁 大數(shù)據安全與隱私保護傳統(tǒng)三大隱私保護法都沒有用2、數(shù)據含糊化有意識避開一

60、些關鍵數(shù)據Too young too simple谷歌街景谷歌圖像采集車在很多國家采集了道路和房屋圖像,當?shù)孛襟w和民眾強烈地抗議了谷歌行為。他們認為這些圖片會幫助黑幫盜賊選擇有利可圖目標。谷歌同意將他們房屋影像含糊化。第100頁 大數(shù)據安全與隱私保護傳統(tǒng)三大隱私保護法都沒有用3、數(shù)據匿名化讓全部揭示個人情況信息都不出現(xiàn)在數(shù)據集里,比如說名字、生日、住址、信用卡號等等你想太多了大數(shù)據促進了數(shù)據內容交叉檢驗。有心找你一定找到。第101頁數(shù)據公布匿名保護技術1社交網絡匿名保護技術2數(shù)據水印技術3數(shù)據溯源技術4角色挖掘技術5風險自適應訪問控制6 大數(shù)據安全與隱私保護關鍵技術第102頁數(shù)據公布匿名保護技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論