大數(shù)據(jù)安全培訓(xùn)-v10-20180419_第1頁(yè)
大數(shù)據(jù)安全培訓(xùn)-v10-20180419_第2頁(yè)
大數(shù)據(jù)安全培訓(xùn)-v10-20180419_第3頁(yè)
大數(shù)據(jù)安全培訓(xùn)-v10-20180419_第4頁(yè)
大數(shù)據(jù)安全培訓(xùn)-v10-20180419_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)安全培訓(xùn)2018.04目錄24、應(yīng)用舉例2、大數(shù)據(jù)應(yīng)用介紹1、大數(shù)據(jù)基本概念3、大數(shù)據(jù)安全現(xiàn)狀.大數(shù)據(jù)基本概念01大數(shù)據(jù)基本概念47:00,你被手機(jī)鬧鐘叫醒。昨晚你帶著一款小型可穿戴設(shè)備睡覺的。這個(gè)設(shè)備連接著你手機(jī)里的一款大數(shù)據(jù)的APP,你打開它就可以看到你昨晚睡覺時(shí)翻身次數(shù)、心跳和血壓狀況。根據(jù)測(cè)量結(jié)果,它建議你今天出門之前多喝點(diǎn)橙汁類的飲品來補(bǔ)充維生素。9:00,今天你要帶朋友到上海的南京路步行街逛逛,你打開某互聯(lián)網(wǎng)公司的大數(shù)據(jù)產(chǎn)品“XX預(yù)測(cè)”,看看步行街今天預(yù)計(jì)會(huì)有多少人,再看看上海今天的交通預(yù)測(cè)。 “XX預(yù)測(cè)” 根據(jù)以往用戶定位請(qǐng)求信息建議你乘地鐵前往步行街。12:00,逛了一圈

2、,你和朋友都累了,想找個(gè)地方吃飯。你打開大數(shù)據(jù)軟件,尋找附近的餐館。通過該軟件,你可以提前看到餐館的視頻環(huán)境,看看是否人多。大數(shù)據(jù)還可以把你臉的部分打成馬賽克,你不用擔(dān)心個(gè)人信息泄露。.大數(shù)據(jù)基本概念514:00,吃過午飯,你想去附近的公園玩玩,但你不知道應(yīng)該去世紀(jì)公園還是去中山公園。你又打開“XX預(yù)測(cè)”,希望它幫你分析一下,哪個(gè)公園相對(duì)不太擁擠。根據(jù)結(jié)果,你去了中山公園。16:00,你正在公園里休息,收到了催繳電話費(fèi)的短信。你很好奇自己過去三年每個(gè)月的消費(fèi)記錄。但過去運(yùn)營(yíng)商只能讓你查到六個(gè)月以內(nèi)的消費(fèi)信息。因?yàn)橹袊?guó)電信至少有5億用戶,每天至少能產(chǎn)生10次計(jì)費(fèi)記錄。每天50億的計(jì)費(fèi)記錄,一年下

3、來就是1800億條記錄。這是一個(gè)大數(shù)據(jù)的存儲(chǔ)和歸納技術(shù)難題。但在大數(shù)據(jù)時(shí)代,過去幾年的電話通訊信息都可以查到了。 22:00,晚上睡覺的時(shí)候,你家的孩子哭鬧起來。你把孩子的哭聲錄入一個(gè)大數(shù)據(jù)軟件中。軟件能告訴你孩子為什么哭。是餓了,還是哪里不舒服,還是說只是想撒撒嬌18:00,你回到了家,你的可穿戴設(shè)備告訴你,今天你在室內(nèi)和室外的時(shí)間分別都是多少,你一天內(nèi)吸入了多少霧霾。.大數(shù)據(jù)基本概念6數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大價(jià)值,它變成了生產(chǎn)資料。Twitter上發(fā)布98000+新微博13000+個(gè)iPhone應(yīng)用下載Skype上37萬+分鐘的語(yǔ)音通

4、話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個(gè)新訂單Facebook上更新69.5萬+條新狀態(tài)12306出票1840+張.大數(shù)據(jù)基本概念7“大數(shù)據(jù):或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息?!?維基百科.大數(shù)據(jù)基本概念8僅僅是“大”?比“大”更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值.大數(shù)據(jù)基本概念9海量異構(gòu)劣質(zhì)高維.大數(shù)據(jù)基本概念10體量Volume多樣性Variety價(jià)值密度Value

5、速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大雜低快.大數(shù)據(jù)基本概念海量沙漠充滿雜質(zhì)只為粒金爭(zhēng)分奪秒大雜低快11.大數(shù)據(jù)基本概念大數(shù)據(jù)的數(shù)據(jù)夠“大”,數(shù)據(jù)不再是稀缺資源,不能像小數(shù)據(jù)時(shí)代那樣,用最小的數(shù)據(jù)獲得最多的信息;而應(yīng)該要拿到與領(lǐng)域相關(guān)的

6、全數(shù)據(jù)大數(shù)據(jù)的數(shù)據(jù)夠“雜”,來源廣泛,格式五花八門,用戶需從海量數(shù)據(jù)中提煉有價(jià)值信息,個(gè)體數(shù)據(jù)(或嚴(yán)格因果模型)的精確性不再重要,重要的是大多數(shù)數(shù)據(jù)群共同指出的結(jié)論(相關(guān)性關(guān)系);大數(shù)據(jù)的數(shù)據(jù)夠“快”,數(shù)據(jù)產(chǎn)生得快,數(shù)據(jù)增加得快,數(shù)據(jù)隨時(shí)間的折舊也快,數(shù)據(jù)的時(shí)效性成為關(guān)鍵。大數(shù)據(jù)新思維12.大數(shù)據(jù)基本概念對(duì)比傳統(tǒng)方法大數(shù)據(jù)方法數(shù)據(jù)采集手段采樣數(shù)據(jù) 全局?jǐn)?shù)據(jù)數(shù)據(jù)源單數(shù)據(jù)源多數(shù)據(jù)源整合判斷方法基于主觀因果假設(shè)機(jī)械窮舉相關(guān)關(guān)系演繹方法孤立的推算方法大數(shù)據(jù)+小算法+上下文+知識(shí)積累分析方法描述性分析預(yù)測(cè)性和處方性分析對(duì)產(chǎn)出的預(yù)期絕對(duì)的精確性更重要更注重實(shí)時(shí)性(具體根據(jù)需求而定)13.大數(shù)據(jù)基本概念14

7、大數(shù)據(jù)不僅僅是技術(shù),關(guān)鍵是產(chǎn)生價(jià)值可以從各個(gè)層面進(jìn)行優(yōu)化,更要考慮整體.大數(shù)據(jù)價(jià)值15行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)卡等多業(yè)務(wù)線數(shù)據(jù)集成分析、市場(chǎng)評(píng)估新產(chǎn)品風(fēng)險(xiǎn)評(píng)估股票等投資組合趨勢(shì)分析增加市場(chǎng)份額提升客戶忠誠(chéng)度提高整體收入降低金融風(fēng)險(xiǎn)醫(yī)療共享電子病歷及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠(yuǎn)程醫(yī)療改善診療質(zhì)量加快診療速度制造/高科技產(chǎn)品故障、失效綜合分析專利記錄檢索智能設(shè)備全球定位,位置服務(wù)優(yōu)化產(chǎn)品設(shè)計(jì)、制造降低保修成本加快問題解決能源勘探、鉆井等傳感器陣列數(shù)據(jù)集中分析降低工程事故風(fēng)險(xiǎn)優(yōu)化勘探過程互聯(lián)網(wǎng)/Web2.0在線廣告投放商品評(píng)分、排名社交網(wǎng)絡(luò)自動(dòng)匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠

8、誠(chéng)度改善社交網(wǎng)絡(luò)體驗(yàn)向目標(biāo)用戶提供有針對(duì)性的商品與服務(wù)政府/公用事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對(duì)外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂收視率統(tǒng)計(jì)、熱點(diǎn)信息統(tǒng)計(jì)、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評(píng)估廣告效用零售基于用戶位置信息的精確促銷社交網(wǎng)絡(luò)購(gòu)買行為分析促進(jìn)客戶購(gòu)買熱情順應(yīng)客戶購(gòu)買行為習(xí)慣13.大數(shù)據(jù)應(yīng)用要解決的問題16大體量大非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)雜多樣性數(shù)據(jù)多形態(tài):音頻、視頻、文本、圖片、文件等低價(jià)值密度大量不相關(guān)信息快追求時(shí)效性時(shí)效性要求高,長(zhǎng)的時(shí)效性一般T+n(離線),實(shí)時(shí)計(jì)算的化,則要求秒級(jí)價(jià)值RO

9、I(投資回報(bào)率)傳統(tǒng)技術(shù)手段的ROI已經(jīng)達(dá)到無法接收水平.大數(shù)據(jù)應(yīng)用要解決的問題17大數(shù)據(jù)技術(shù)被設(shè)計(jì)用于在成本可承受的條件下,通過非??焖伲╲elocity)地采集、發(fā)現(xiàn)和分析,從大量(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT 領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合。大數(shù)據(jù)產(chǎn)品RDBMSAnalytical DBNoSQL DBERP/CRMSaaSSocial MediaWeb AnalyticsLog FilesRFIDCa

10、ll Data RecordsSensorsMachine-Generated大數(shù)據(jù)管理存儲(chǔ)處理過濾大數(shù)據(jù)終端使用挖掘分析搜索擴(kuò)充.軟件是大數(shù)據(jù)的引擎18和數(shù)據(jù)中心(Data Center) 一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力.軟件改變世界!.大數(shù)據(jù)涉及的關(guān)鍵技術(shù)19需求海量數(shù)據(jù)存儲(chǔ)技術(shù)實(shí)時(shí)數(shù)據(jù)處理技術(shù)數(shù)據(jù)高速傳輸技術(shù)搜索技術(shù)數(shù)據(jù)分析技術(shù)技術(shù)Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch描述分布式文件系統(tǒng)流計(jì)算引擎服務(wù)器/存儲(chǔ)間高速通信文本檢索、智能搜索、實(shí)時(shí)搜索Text Analytics Engine 自然語(yǔ)言處理

11、、文本情感分析、Visual Data Modeling 機(jī)器學(xué)習(xí)、聚類關(guān)聯(lián)、數(shù)據(jù)模 型.大數(shù)據(jù)涉及的關(guān)鍵技術(shù)20大數(shù)據(jù)(Hadoop)NoSQL 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)部署架構(gòu)水平擴(kuò)展水平擴(kuò)展大部分垂直擴(kuò)展,少數(shù)水平擴(kuò)展大部分水平擴(kuò)展數(shù)據(jù)類型文件存儲(chǔ),沒有數(shù)據(jù)類型 簡(jiǎn)單數(shù)據(jù)類型豐富的數(shù)據(jù)類型豐富的數(shù)據(jù)類型數(shù)據(jù)模型非常簡(jiǎn)陋的數(shù)據(jù)模型簡(jiǎn)單靈活數(shù)據(jù)模型豐富的數(shù)據(jù)模型完善豐富的數(shù)據(jù)模型數(shù)據(jù)關(guān)系沒有數(shù)據(jù)關(guān)系描述非常簡(jiǎn)單的數(shù)據(jù)關(guān)系描述數(shù)據(jù)關(guān)系完善數(shù)據(jù)關(guān)系完善數(shù)據(jù)一致無一致性弱一致性強(qiáng)一致性強(qiáng)一致性數(shù)據(jù)安全安全性很弱安全性很弱安全性很高安全性很高計(jì)算類型離線批量處理,只讀,低并發(fā)實(shí)時(shí)CRUD操作,海量并發(fā)實(shí)時(shí)C

12、RUD操作,高并發(fā)離線批量處理,只讀,低并發(fā)適用場(chǎng)景低密度數(shù)據(jù)海量存儲(chǔ),數(shù)據(jù)預(yù)處理,預(yù)計(jì)算高并發(fā)實(shí)時(shí)在線交易,查詢,報(bào)表高價(jià)值數(shù)據(jù)統(tǒng)一存儲(chǔ)和計(jì)算平臺(tái)常見用例日志處理,用戶行為分析,搜索引擎用戶資料,微博,金融反欺詐金融賬戶,電信計(jì)費(fèi),稅務(wù)等企業(yè)數(shù)據(jù)倉(cāng)庫(kù)11.大數(shù)據(jù)使用的關(guān)鍵技術(shù)數(shù)據(jù)采集21數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示ETL用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程.大數(shù)據(jù)使用的關(guān)鍵技術(shù)數(shù)據(jù)采集22Splunk ForwarderScribeChukwaLogstashFluentdFlume采集Fluentd

13、是另一個(gè)開源的數(shù)據(jù)收集框架。Fluentd使用C/Ruby開發(fā),使用JSON文件來統(tǒng)一日志數(shù)據(jù)。它的可插拔架構(gòu),支持各種不同種類和格式的數(shù)據(jù)源和數(shù)據(jù)輸出。FluentdLogstash用JRuby開發(fā),所有運(yùn)行時(shí)依賴JVM。支持豐富的輸入、過濾和輸出.LogstashChukwa基于Hadoop的HDFS和Map Reduce來構(gòu)建,提供擴(kuò)展性和可靠性。Chukwa同時(shí)提供對(duì)數(shù)據(jù)的展示,分析和監(jiān)視。ChukwaFlume 是Apache旗下的一款開源、高可靠、高擴(kuò)展、容易管理、支持客戶擴(kuò)展的數(shù)據(jù)采集系統(tǒng)。 Flume使用JRuby來構(gòu)建,所以依賴Java運(yùn)行環(huán)境。.Flume在商業(yè)化的大數(shù)據(jù)平

14、臺(tái)產(chǎn)品中,Splunk提供完整的數(shù)據(jù)采集,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)分析和處理,以及數(shù)據(jù)展現(xiàn)的能力。.Splunk ForwarderScribe是Facebook開發(fā)的數(shù)據(jù)(日志)收集系統(tǒng).Scribe.大數(shù)據(jù)使用的關(guān)鍵技術(shù)數(shù)據(jù)存儲(chǔ)與管理23數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示ETL用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理.大數(shù)據(jù)使用的關(guān)鍵技術(shù)分布式文件系統(tǒng)24分布式文件系統(tǒng)(Distributed File Sy

15、stem)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。.大數(shù)據(jù)使用的關(guān)鍵技術(shù)分布式文件系統(tǒng)25Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng)。盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié),但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。GFS(Google File System)Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFSHDFSLustre是一個(gè)大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護(hù)的LustreMog

16、ileFS是一套高效的文件自動(dòng)備份組件,由Six Apart開發(fā),廣泛應(yīng)用在包括LiveJournal等web2.0站點(diǎn)上.MogileFS相對(duì)比較輕量級(jí),對(duì)master服務(wù)器有單點(diǎn)依賴,用perl編寫,性能相對(duì)較差.mooseFS一個(gè)開源的輕量級(jí)分布式文件系統(tǒng),它對(duì)文件進(jìn)行管理,功能包括:文件存儲(chǔ)、文件同步、文件訪問(文件上傳、文件下載)等,解決了大容量存儲(chǔ)和負(fù)載均衡的問題。FastDFSTFS(Taobao !FileSystem)是一個(gè)高可擴(kuò)展、高可用、高性能、面向互聯(lián)網(wǎng)服務(wù)的分布式文件系統(tǒng).TFSMongoDB是一種知名的NoSql數(shù)據(jù)庫(kù),GridFS是MongoDB的一個(gè)內(nèi)置功能,它

17、提供一組文件操作的API以利用MongoDB存儲(chǔ)文件,GridFS的基本原理是將文件保存在兩個(gè)Collection中.GridFS.大數(shù)據(jù)使用的關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫(kù)NoSQL26.大數(shù)據(jù)使用的關(guān)鍵技術(shù)云計(jì)算與云存儲(chǔ)27如果數(shù)據(jù)是財(cái)富,那么大數(shù)據(jù)就是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器。沒有強(qiáng)大的計(jì)算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計(jì)算也只能是殺雞用的宰牛刀。.大數(shù)據(jù)使用的關(guān)鍵技術(shù)數(shù)據(jù)分析與挖掘28數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示ETL用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程結(jié)構(gòu)化、非結(jié)構(gòu)化和

18、半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理關(guān)聯(lián)規(guī)則分析分類、聚類遺傳算法神經(jīng)網(wǎng)絡(luò)時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言.大數(shù)據(jù)使用的關(guān)鍵技術(shù)標(biāo)簽云29標(biāo)簽云(Tag Cloud)是一套相關(guān)的標(biāo)簽以及與此相應(yīng)的權(quán)重。權(quán)值影響標(biāo)簽的字體大小、顏色或其他視覺效果。典型的標(biāo)簽云有30至150個(gè)標(biāo)簽,用以表示一個(gè)網(wǎng)站中的內(nèi)容及其熱門程度。標(biāo)簽通常是超鏈接,指向分類頁(yè)面。.大數(shù)據(jù)使用的關(guān)鍵技術(shù)聚類分析30聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果的技術(shù),可以有助于判斷簇?cái)?shù)量不同時(shí)的

19、聚類效果。.大數(shù)據(jù)使用的關(guān)鍵技術(shù)深度學(xué)習(xí)31深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。充分利用大量的非標(biāo)記數(shù)據(jù),有效挖掘數(shù)據(jù)中的層級(jí)特征,具有更強(qiáng)的表征能力,尤其適合于在圖像、語(yǔ)音等有大量的非標(biāo)記數(shù)據(jù)而又非常抽象的領(lǐng)域。簡(jiǎn)單淺層神經(jīng)網(wǎng)絡(luò)(1980)深層神經(jīng)網(wǎng)絡(luò)(2006)為何沉寂了20多年?最主要原因:計(jì)算能力支持(深層).大數(shù)據(jù)使用的關(guān)鍵技術(shù)計(jì)算結(jié)果展示32數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示ETL用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(tran

20、sform)、加載(load)至目的端的過程結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理關(guān)聯(lián)規(guī)則分析分類、聚類遺傳算法神經(jīng)網(wǎng)絡(luò)時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言熱力圖折線圖餅圖雷達(dá)圖力導(dǎo)向布局圖平行坐標(biāo)圖散點(diǎn)圖。.大數(shù)據(jù)使用的關(guān)鍵技術(shù)多形態(tài)展現(xiàn)33支持靈活的配置模式及所選模型自由選擇相宜圖表、圖形進(jìn)行可視化設(shè)計(jì)及配置加載折線圖柱狀圖散點(diǎn)圖餅圖堆積圖跑馬燈排名表信息塊地圖散點(diǎn)地圖熱力熱力圖南丁格爾玫瑰圖遷徙圖圓形關(guān)系圖力導(dǎo)向圖自定義關(guān)系圖?;鶊D文本信息柱線圖面積圖橫向柱狀

21、圖地圖熱力+散點(diǎn)內(nèi)外環(huán)儀表盤分頁(yè)表格橫 向 堆 積 圖面積堆積圖橫向排名圖人物畫像三層套圖K線圖百度地圖熱力百度地圖路線3D地圖.大數(shù)據(jù)應(yīng)用介紹02公共領(lǐng)域與大數(shù)據(jù)35電力行業(yè):智能電網(wǎng)優(yōu)化電的生產(chǎn)、分配以及電網(wǎng)安全檢測(cè)與控制智能交通:為公共交通信息化應(yīng)用系統(tǒng)、相關(guān)支撐系統(tǒng)、數(shù)據(jù)資源與交換系統(tǒng)建設(shè)提供支持電子政務(wù):提高政府決策的科學(xué)性和精準(zhǔn)性,提高預(yù)測(cè)預(yù)警能力及應(yīng)急響應(yīng)能力,節(jié)約決策成本司法系統(tǒng):公安市場(chǎng)大規(guī)模的信息化和裝備投資產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),公安的實(shí)戰(zhàn)應(yīng)用是大數(shù)據(jù)的重要應(yīng)用領(lǐng)域.互聯(lián)網(wǎng)與大數(shù)據(jù)36電子商務(wù)融合時(shí)間、地理位置、社交網(wǎng)絡(luò)多因素,進(jìn)行精準(zhǔn)推薦有效地為商家推薦優(yōu)質(zhì)上下游業(yè)務(wù)

22、網(wǎng)絡(luò)廣告深入分析網(wǎng)絡(luò)廣告的效果及其對(duì)商品銷售等的影響、廣告“讀者”對(duì)之的反應(yīng)等即時(shí)通信、社交網(wǎng)絡(luò)發(fā)現(xiàn)民眾新的交往習(xí)慣與方式發(fā)現(xiàn)民眾關(guān)注社會(huì)問題與社會(huì)熱點(diǎn)旅行預(yù)訂為游客提供旅游產(chǎn)品和旅游服務(wù)更好布局和推動(dòng)旅游假日經(jīng)濟(jì).城鎮(zhèn)化與智慧城市1、區(qū)分識(shí)別城市的功能區(qū)域(如文教、商業(yè)和住宅區(qū)軌跡數(shù)據(jù)包含乘客上車和下車地點(diǎn)的信息。人的移動(dòng)性數(shù)據(jù)可以很好地區(qū)分相同類別的興趣點(diǎn)的熱度,也可以揭示一個(gè)區(qū)域的功能2、搜尋城市道路網(wǎng)中不合理的規(guī)劃(擁堵)利用高速和環(huán)路等主干道將城市分割成區(qū)域,然后分析大規(guī)模車流軌跡數(shù)據(jù)在不同區(qū)域之間行駛的一些特征,便可找到連通性較差的區(qū)域?qū)?,從而發(fā)掘現(xiàn)有城市道路網(wǎng)的不足之處37.城鎮(zhèn)

23、化與智慧城市383、細(xì)粒度空氣質(zhì)量預(yù)測(cè) 利用地面監(jiān)測(cè)站有限的空氣質(zhì)量數(shù)據(jù)結(jié)合交通流道路結(jié)構(gòu)、興趣點(diǎn)分布、氣象條件和人流規(guī)律等大數(shù)據(jù),基于機(jī)器學(xué)習(xí)算法建立數(shù)據(jù)和空氣質(zhì)量的映射關(guān)系,從而推斷空氣質(zhì)量4、加油站排隊(duì)時(shí)間及實(shí)時(shí)油耗估計(jì) 利用裝有GPS的出租車在加油站的等待時(shí)間來估計(jì)加油站的排隊(duì)長(zhǎng)度,估算出此時(shí)加油站內(nèi)的車輛數(shù)目及加油量。通過將全城的加油站數(shù)據(jù)匯總計(jì)算任意時(shí)刻消耗的燃油數(shù).金融行業(yè)與大數(shù)據(jù)39目前,中國(guó)的大型商業(yè)銀行和保險(xiǎn)公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級(jí)別,并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長(zhǎng)。中國(guó)金融行業(yè)已步入大數(shù)據(jù)時(shí)代的初級(jí)階段,并且呈現(xiàn)快速發(fā)展勢(shì)頭。優(yōu)秀的大數(shù)據(jù)分析能力是當(dāng)今金融市場(chǎng)創(chuàng)

24、新的關(guān)鍵。.醫(yī)療行業(yè)與大數(shù)據(jù)40目前全球共拍攝了超過4.7萬億張照片每2分鐘拍攝的照片數(shù)比19世紀(jì)拍攝的照片總數(shù)還多微博上累計(jì)有超過1400億張照片發(fā)布醫(yī)療圖像的存儲(chǔ)量占全球全部照片30!大數(shù)據(jù).醫(yī)療行業(yè)與大數(shù)據(jù)41衛(wèi)生經(jīng)濟(jì)學(xué)與藥品定價(jià) 疫情監(jiān)測(cè)公共健康監(jiān)控醫(yī)療統(tǒng)籌分析系統(tǒng) 醫(yī)療“大數(shù)據(jù)”(BigData)臨床實(shí)驗(yàn)數(shù)據(jù)分析.基于大數(shù)據(jù)技術(shù)的應(yīng)用42基于大數(shù)據(jù)的應(yīng)用威脅發(fā)現(xiàn)技術(shù)認(rèn)證技術(shù)數(shù)據(jù)真實(shí)性分析安全-即-服務(wù).基于大數(shù)據(jù)技術(shù)的應(yīng)用基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)43基于大數(shù)據(jù),企業(yè)可以更主動(dòng)的發(fā)現(xiàn)潛在的安全威脅相較于傳統(tǒng)技術(shù)方案,大數(shù)據(jù)威脅發(fā)現(xiàn)技術(shù)有以下優(yōu)點(diǎn):1、分析內(nèi)容的范圍更大2、分析內(nèi)容的時(shí)間

25、跨度更長(zhǎng)3、攻擊威脅的預(yù)測(cè)性4、對(duì)未知威脅的檢測(cè).基于大數(shù)據(jù)技術(shù)的應(yīng)用基于大數(shù)據(jù)的認(rèn)證技術(shù)44身份認(rèn)證:信息系統(tǒng)或網(wǎng)絡(luò)中確認(rèn)操作者身份的過程,傳統(tǒng)認(rèn)證技術(shù)只要通過用戶所知的口令或者持有憑證來鑒別用戶傳統(tǒng)技術(shù)面臨的問題:1、攻擊者總能找到方法來騙取用戶所知的秘密,或竊取用戶憑證2、傳統(tǒng)認(rèn)證技術(shù)中認(rèn)證方式越安全往往意味著用戶負(fù)擔(dān)越重.基于大數(shù)據(jù)技術(shù)的應(yīng)用基于大數(shù)據(jù)的認(rèn)證技術(shù)45基于大數(shù)據(jù)的認(rèn)證技術(shù):收集用戶行為和設(shè)備行為數(shù)據(jù),對(duì)這些數(shù)據(jù)分析,獲得用戶行為和設(shè)備行為的特征,進(jìn)而確定其身份。1、攻擊者很難模擬用戶行為通過認(rèn)證2、減小用戶負(fù)擔(dān)3、更好的支持各系統(tǒng)認(rèn)證機(jī)制的統(tǒng)一1、初始階段的認(rèn)證,由于缺乏

26、大量數(shù)據(jù),認(rèn)證分析不準(zhǔn)確2、用戶隱私問題優(yōu)點(diǎn)缺點(diǎn).基于大數(shù)據(jù)技術(shù)的應(yīng)用基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析46基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析被廣泛認(rèn)為是最為有效的方法優(yōu)勢(shì):1、引入大數(shù)據(jù)分析可以獲得更高的識(shí)別準(zhǔn)確率2、在進(jìn)行大數(shù)據(jù)分析時(shí),通過機(jī)器學(xué)習(xí)技術(shù),可以發(fā)現(xiàn)更多具有新特征的垃圾信息面臨的困難:虛假信息的定義、分析模型的構(gòu)建等目前在電商、金融等領(lǐng)域被廣泛使用,例如識(shí)別馬甲賬戶等。.大數(shù)據(jù)安全現(xiàn)狀03大數(shù)據(jù)面臨的挑戰(zhàn)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo)48在網(wǎng)絡(luò)空間中,大數(shù)據(jù)成為更容易被“發(fā)現(xiàn)”的大目標(biāo),承載著越來越多的關(guān)注度。一方面,大數(shù)據(jù)不僅意味著海量的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會(huì)引更多的潛在攻擊

27、者,成為更具吸引力的目標(biāo)。另一方面,數(shù)據(jù)的大量聚集,使得黑客一次成功的攻擊能夠獲得更多的數(shù)據(jù),無形中降低了黑客的進(jìn)攻成本,增加了“收益率”。.大數(shù)據(jù)面臨的挑戰(zhàn)加大隱私泄露風(fēng)險(xiǎn)49網(wǎng)絡(luò)空間中的數(shù)據(jù)來源涵蓋非常廣闊的范圍,例如傳感器、社交網(wǎng)絡(luò)、記錄存檔、電子郵件等,大量數(shù)據(jù)的劇集不可避免的加大了用戶隱私泄露的風(fēng)險(xiǎn)。一方面,大量的數(shù)據(jù)匯集,包括大量的企業(yè)運(yùn)營(yíng)數(shù)據(jù)、客戶信息、個(gè)人的隱私和各種行為的細(xì)節(jié)記錄。這些數(shù)據(jù)的集中存儲(chǔ)增加了數(shù)據(jù)泄露風(fēng)險(xiǎn),而這些數(shù)據(jù)不被濫用,也成為人身安全的一部分。另一方面,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確的界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及到的個(gè)體的隱私問題。

28、.大數(shù)據(jù)面臨的挑戰(zhàn)大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中50在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價(jià)值的同時(shí),黑客也正在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客最大限度地收集更多有用信息,比如社交網(wǎng)絡(luò)、郵件、微博、電子商務(wù)、電話和家庭住址等信息,為發(fā)起攻擊做準(zhǔn)備,大數(shù)據(jù)分析讓黑客的攻擊更精準(zhǔn)。此外,大數(shù)據(jù)為黑客發(fā)起攻擊提供了更多機(jī)會(huì)。黑客利用大數(shù)據(jù)發(fā)起個(gè)人隱私信息挖掘、網(wǎng)絡(luò)輿論控制等。.大數(shù)據(jù)面臨的威脅51.拒絕服務(wù)攻擊52數(shù)據(jù)采集節(jié)點(diǎn)在運(yùn)行過程中往往是在高負(fù)載運(yùn)行的狀態(tài)。攻擊者常常會(huì)在正常數(shù)據(jù)流中混入大量的垃圾數(shù)據(jù),導(dǎo)致數(shù)據(jù)采集節(jié)點(diǎn)響應(yīng)遲緩,影響正常數(shù)據(jù)的接入,如下圖所示。此外,對(duì)于應(yīng)用展示方面,大數(shù)據(jù)平臺(tái)由于其業(yè)務(wù)的特殊性,在可靠性方面會(huì)受到挑戰(zhàn)。針對(duì)大數(shù)據(jù)平臺(tái)的拒絕服務(wù)攻擊需要受到絕對(duì)的重視。.安全漏洞頻發(fā)53近年來大數(shù)據(jù)平臺(tái)漏洞頻發(fā),且暴露出來的漏洞級(jí)別都較高。攻擊者借助這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論