大數(shù)據(jù)原理和構(gòu)成課件_第1頁
大數(shù)據(jù)原理和構(gòu)成課件_第2頁
大數(shù)據(jù)原理和構(gòu)成課件_第3頁
大數(shù)據(jù)原理和構(gòu)成課件_第4頁
大數(shù)據(jù)原理和構(gòu)成課件_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)尹航 2014 10月 成都Big Data第1頁,共36頁。大數(shù)據(jù)什么是大數(shù)據(jù)大數(shù)據(jù)原理和構(gòu)成大數(shù)據(jù)應(yīng)用大數(shù)據(jù)價(jià)值Big Data目錄第2頁,共36頁。什么是大數(shù)據(jù)第3頁,共36頁。Big Data什么是大數(shù)據(jù)HadoopIBM英特爾HP數(shù)據(jù)商業(yè)智能數(shù)據(jù)庫服務(wù)器SAP HANANoSQLSQLHDFS預(yù)測(cè)數(shù)據(jù)流運(yùn)算節(jié)點(diǎn)機(jī)器學(xué)習(xí)并行計(jì)算磁盤陣列甲骨文AMD內(nèi)存計(jì)算GoogleMap reduce 可視化GbPbTbZb第4頁,共36頁。Big Data什么是大數(shù)據(jù)由多個(gè)軟件、硬件部分組成的一個(gè)數(shù)據(jù)系統(tǒng)一個(gè)執(zhí)行體系有別于傳統(tǒng)企業(yè)數(shù)據(jù)中心,用來應(yīng)對(duì)現(xiàn)代海量數(shù)據(jù)化的生活,商業(yè)環(huán)境。不是一個(gè)行業(yè)

2、,而是一種新的數(shù)據(jù)處理方法是關(guān)于數(shù)據(jù)的運(yùn)輸和處理,以及最后有效使用的體系與云計(jì)算一樣 都是一種新的生產(chǎn)組織形式Web 2.0時(shí)代的解決方案大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊第5頁,共36頁。Big Data什么是大數(shù)據(jù)大數(shù)據(jù)的目的原始數(shù)據(jù)的處理和分類存儲(chǔ)將存儲(chǔ)的數(shù)據(jù)調(diào)取并分析最終提供決策依據(jù) 歸類數(shù)據(jù)類型有效分析組合大數(shù)據(jù)的特點(diǎn)4V海量高速多樣精確第6頁,共36頁。Big Data什么是大數(shù)據(jù)1 KB = 1024字節(jié)存儲(chǔ)單位1 MB = 1024 KB1

3、 GB = 1024MB1 TB = 1024GB 1 PB = 1024TB = 1,048,576 GB1 EB = 1024PB = 1,073,741,824 GB 1 ZB = 1024EB = 1,099,511,627,776 GB100萬 G10億 G1萬億 G22億臺(tái)215萬臺(tái)2100臺(tái)500G硬盤電腦15寸電腦排成行可以往返一次月球第7頁,共36頁。Big Data什么是大數(shù)據(jù)Volume 海量1 PB = 1024TB = 1,048,576 GB1 EB = 1024PB = 1,073,741,824 GB 1 ZB = 1024EB = 1,099,511,627,

4、776 GBIntel:人類文明開始到2003年 地球共產(chǎn)生了5EB數(shù)據(jù).2012年全年,全球產(chǎn)生數(shù)據(jù)2.7ZB 是 2003年以前的500倍2015年,全球估計(jì)產(chǎn)生數(shù)據(jù)8ZB,等于1800萬個(gè)美國國會(huì)圖書館44%35 ZB2000年 數(shù)字信息占全球數(shù)據(jù)量的25% 75%都在報(bào)紙 膠片 磁帶等媒介2013年 數(shù)字信息 98% 非數(shù)字信息 2%第8頁,共36頁。Big Data什么是大數(shù)據(jù)商業(yè)數(shù)據(jù)現(xiàn)狀Twitter2007年 5000條微博更新/天2008年 30萬條微博更新/天2009年 250萬條微博更新/天2010年 3500萬條微博更新/天2011年 2億條微博更新/天2013年 4億條

5、微博更新/天2013年 上傳時(shí)長12年的視頻/天2013年 用戶分享25億條信息/天我國一個(gè)一線城市的健康檔案數(shù)據(jù) 5PB/年我國一個(gè)智慧城市的數(shù)據(jù) 800 PB/年 一個(gè)單數(shù)據(jù)表幾億-幾百億條記錄下線商品14億件,在線商品8億件淘寶數(shù)據(jù)庫存了20PB數(shù)據(jù)平均每月增加1.5PB智能移動(dòng)終端設(shè)備的巨量增長第9頁,共36頁。Big Data什么是大數(shù)據(jù)Velocity 高速6000萬用戶登錄/天20億次 頁面訪問/天每天1.2億次網(wǎng)站訪問 響應(yīng)時(shí)間小于100毫秒大數(shù)據(jù)的驚人不止是在數(shù)量上,同時(shí)數(shù)據(jù)還是巨量具有動(dòng)態(tài)分析價(jià)值的數(shù)據(jù)。訪問響應(yīng)時(shí)間的加快,數(shù)據(jù)庫讀寫速度的加快,對(duì)電商企業(yè)來說就等于多成交。

6、對(duì)于很多情況下,動(dòng)態(tài)的數(shù)據(jù)價(jià)值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測(cè),災(zāi)難預(yù)測(cè),快消行業(yè)等。由于輸入速度加快,所以要求輸出速度也要加快第10頁,共36頁。Big Data什么是大數(shù)據(jù)Variety 多樣數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起的數(shù)據(jù)類型文檔、視頻、音頻、圖片20% 結(jié)構(gòu)化 80非結(jié)構(gòu)化企業(yè)數(shù)據(jù)2012年互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)25% 結(jié)構(gòu)化 75非結(jié)構(gòu)化50%-70%源于人與人的互動(dòng)第11頁,共36頁。Big Data什么是大數(shù)據(jù)Veracity 準(zhǔn)確大數(shù)據(jù)的核心思想之一準(zhǔn)確源自于對(duì)全部數(shù)據(jù)的處理分析基礎(chǔ)數(shù)據(jù)的真實(shí)準(zhǔn)確性,才能保證結(jié)果的有效性。第12頁,共

7、36頁。Big Data什么是大數(shù)據(jù)大數(shù)據(jù) VS 云計(jì)算兩者都是生產(chǎn)方式改變?yōu)橹?,生產(chǎn)資料改變?yōu)檩o,提高生產(chǎn)效率。云計(jì)算是將計(jì)算和存儲(chǔ),由本地轉(zhuǎn)移到了云端。大數(shù)據(jù)則是提供了一套新的計(jì)算和存儲(chǔ)工作原理。二者有本質(zhì)的不同,但卻是一個(gè)完整的體系。大數(shù)據(jù)可以是云計(jì)算的心臟,云計(jì)算是大數(shù)據(jù)服務(wù)的通路。第13頁,共36頁。Big Data什么是大數(shù)據(jù)大數(shù)據(jù) VS 物聯(lián)網(wǎng)物聯(lián)網(wǎng)是大數(shù)據(jù)的流程中的第一層采集層物聯(lián)網(wǎng)網(wǎng)關(guān)以上就進(jìn)入了大數(shù)據(jù)工作范疇。局部域內(nèi)的物聯(lián)網(wǎng)應(yīng)用解決方案等同于這個(gè)域內(nèi)的大數(shù)據(jù)系統(tǒng)第14頁,共36頁。大數(shù)據(jù)原理和構(gòu)成第15頁,共36頁。大數(shù)據(jù)的核心工作思路大數(shù)據(jù)系統(tǒng)顛覆了傳統(tǒng)數(shù)據(jù)中心的工作邏

8、輯傳統(tǒng)數(shù)據(jù)系統(tǒng)工作邏輯:運(yùn)算系統(tǒng)調(diào)動(dòng)數(shù)據(jù)庫的數(shù)據(jù),數(shù)據(jù)的移動(dòng)。大數(shù)據(jù)系統(tǒng)工作邏輯:運(yùn)算系統(tǒng)直接部署至數(shù)據(jù)處,數(shù)據(jù)僅架構(gòu)內(nèi)移動(dòng)。Big Data大數(shù)據(jù)原理和構(gòu)成第16頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成傳統(tǒng)數(shù)據(jù)系統(tǒng)工作原理客戶客戶客戶客戶客戶客戶互聯(lián)網(wǎng)路由器訪問請(qǐng)求負(fù)載均衡服務(wù)器集群DBDBDBDB數(shù)據(jù)庫集群數(shù)據(jù)調(diào)用請(qǐng)求數(shù)據(jù)移動(dòng)結(jié)果反饋第17頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成Hadoop 軟件框架大數(shù)據(jù)系統(tǒng)核心組件 MapreduceHBaseHDFSHadoop核心子項(xiàng)目第18頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成Hadoop系統(tǒng)工作原理第19頁,共36頁。Big

9、 Data大數(shù)據(jù)原理和構(gòu)成Hadoop系統(tǒng)構(gòu)架第20頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成存儲(chǔ)與數(shù)據(jù)庫的比較傳統(tǒng)數(shù)據(jù)中心HadoopJOBD RAID存儲(chǔ)系統(tǒng)HDFS容錯(cuò)性擴(kuò)展性某已分配任務(wù)出錯(cuò),該計(jì)算必須重新執(zhí)行節(jié)點(diǎn)靈活調(diào)整節(jié)點(diǎn)相對(duì)固定,擴(kuò)展時(shí)會(huì)造成無法訪問在任務(wù)執(zhí)行中任何時(shí)候可任意添加節(jié)點(diǎn)SQLNoSQL數(shù)據(jù)類型平行計(jì)算系統(tǒng)Map Reduce RAID出現(xiàn)壞盤后,重建陣列需要十多個(gè)小時(shí),這在大數(shù)據(jù)時(shí)代是無法接受的第21頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成SAP HANAHadoop 的升級(jí)內(nèi)存計(jì)算技術(shù) 真正的海量數(shù)據(jù)瞬間分析內(nèi)存數(shù)據(jù)庫 實(shí)現(xiàn)任何地點(diǎn)、任何時(shí)候、可以查看實(shí)

10、時(shí)的動(dòng)態(tài)數(shù)據(jù),任何時(shí)候都可以知道正在發(fā)生著什么。并且做出應(yīng)對(duì)。利用高性能的大數(shù)據(jù)一體機(jī)服務(wù)器,將數(shù)據(jù)庫直接植入大容量內(nèi)存中進(jìn)行實(shí)時(shí)處理。Hadoop Mapreduce HDFSHBase第22頁,共36頁。Big Data大數(shù)據(jù)原理和構(gòu)成大數(shù)據(jù)的硬件32顆處理器、每顆處理器12核 = 384核 X 96個(gè)線程32TB的內(nèi)存 很多中型企業(yè)的數(shù)據(jù)庫也只不過幾TB.可以完美運(yùn)行內(nèi)存計(jì)算數(shù)據(jù)庫大數(shù)據(jù)一體機(jī)服務(wù)器+存儲(chǔ)+網(wǎng)絡(luò) = 融合基礎(chǔ)架構(gòu)SeaMicro SM1500064顆處理器、每顆處理器8核 = 512核心4TB的內(nèi)存 5PB本地存儲(chǔ)10U的空間萬兆以太網(wǎng)System x3650 M4機(jī)架式

11、 2U2顆處理器 8核心內(nèi)存最大 768GB本地存儲(chǔ)9TB2.6萬換算成10U的空間80核心 第23頁,共36頁。大數(shù)據(jù)的軟件數(shù)據(jù)存儲(chǔ)管理數(shù)據(jù)處理數(shù)據(jù)分析Hadoop 數(shù)據(jù)庫軟件 Big Data大數(shù)據(jù)原理和構(gòu)成提取 轉(zhuǎn)換 歸類可視化 BI商業(yè)智能大數(shù)據(jù)的核心價(jià)值高附加值階段第24頁,共36頁。大數(shù)據(jù)應(yīng)用第25頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用的意義巨量數(shù)據(jù)的產(chǎn)生對(duì)所有復(fù)雜數(shù)據(jù)格式的歸類管理分析20%結(jié)構(gòu)化數(shù)據(jù)的分析利用 80%非結(jié)構(gòu)化的沒有發(fā)揮作用,商業(yè)洞察力的資源浪費(fèi)。找出最優(yōu)解決方案應(yīng)用的核心大數(shù)據(jù)分析第26頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理可視化

12、分析語義引擎數(shù)據(jù)挖掘算法預(yù)測(cè)性分析能力大數(shù)據(jù)應(yīng)用的分析方法高質(zhì)量的數(shù)據(jù)處理和管理是輸出高質(zhì)量結(jié)果的前提深入數(shù)據(jù)內(nèi)部,用機(jī)器去做人工做不到的數(shù)據(jù)價(jià)值發(fā)現(xiàn)從非結(jié)構(gòu)化數(shù)據(jù)中提取信息的方式展示數(shù)據(jù)分析結(jié)果,供使用者決策根據(jù)可視化和數(shù)據(jù)挖掘的結(jié)果做出預(yù)測(cè)第27頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用的分析邏輯DescriptivePredictivePrescriptive發(fā)生了什么?為什么?還會(huì)發(fā)生什么?還會(huì)發(fā)生什么?,如果發(fā)生了,如何應(yīng)對(duì)?第28頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用的假想一給某總辦公室、汽車、家里裝上煙感。發(fā)現(xiàn)某總在辦公室的抽煙數(shù)量最大,在車?yán)锖驮诩一静怀椤?/p>

13、那么就可以知道,某總在工作期間香煙以及與香煙有關(guān)的產(chǎn)品消費(fèi)多。那在家期間的消費(fèi)習(xí)慣又是什么,根據(jù)人的行為習(xí)慣,不抽煙但需要其他事情分散注意力。吃東西?看電視?看書?。這樣就可以深入了解一個(gè)人的消費(fèi)行為習(xí)慣,從而提前做出應(yīng)對(duì)或者積極的主動(dòng)應(yīng)對(duì)。第29頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用的假想二通過對(duì)某人淘寶購物的跟蹤分析,挖掘出他的消費(fèi)趨勢(shì)。某男,在電子商務(wù)網(wǎng)站上長期買衣服,內(nèi)衣等商品。 通過消費(fèi)記錄可以預(yù)知其單身。用百度聯(lián)盟,把世紀(jì)佳緣,花田等交友網(wǎng)站的廣告推送給他。某男開始買女士消費(fèi)品了比如衣服,鞋帽等。 則說明該男找到女朋友了。通過信用卡記錄可以分析出其關(guān)系進(jìn)展情況。發(fā)現(xiàn)其買

14、房,裝修了。則該男快結(jié)婚了。之后就是孕嬰用品的推薦。第30頁,共36頁。Big Data大數(shù)據(jù)應(yīng)用大數(shù)據(jù)的大應(yīng)用城市智能交通智能電力照明能源管理系統(tǒng)智能健康醫(yī)療體系政府財(cái)政管理綜合信息系統(tǒng)工商企業(yè)信息系統(tǒng)。第31頁,共36頁。大數(shù)據(jù)價(jià)值第32頁,共36頁。Big Data大數(shù)據(jù)價(jià)值大數(shù)據(jù)市場(chǎng)價(jià)值IDC預(yù)測(cè) 中國的大數(shù)據(jù)服務(wù)市場(chǎng) 2011年 7760萬美元 增長到 2016年 6億美元IDC預(yù)測(cè) 2016年全球市場(chǎng)規(guī)模238億美元 31.7%服務(wù)器市場(chǎng) 21.1% 存儲(chǔ)市場(chǎng)53.4%基礎(chǔ)設(shè)備40%趨勢(shì)增值服務(wù)軟件第33頁,共36頁。Big Data大數(shù)據(jù)價(jià)值大數(shù)據(jù)市場(chǎng)價(jià)值第34頁,共36頁。謝謝

15、第35頁,共36頁。樹立質(zhì)量法制觀念、提高全員質(zhì)量意識(shí)。8月-228月-22Friday, August 5, 2022人生得意須盡歡,莫使金樽空對(duì)月。03:52:5903:52:5903:528/5/2022 3:52:59 AM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。8月-2203:52:5903:52Aug-2205-Aug-22加強(qiáng)交通建設(shè)管理,確保工程建設(shè)質(zhì)量。03:52:5903:52:5903:52Friday, August 5, 2022安全在于心細(xì),事故出在麻痹。8月-228月-2203:52:5903:52:59August 5, 2022踏實(shí)肯干,努力奮斗。2022年8月5日3:52 上午8月-228月-22追求至善憑技術(shù)開拓市場(chǎng),憑管理增創(chuàng)效益,憑服務(wù)樹立形象。05 八月 20223:52:59 上午03:52:598月-22嚴(yán)格把控質(zhì)量關(guān),讓生產(chǎn)更加有保障。八月 223:52 上午8月-2203:52August 5, 2022作業(yè)標(biāo)準(zhǔn)記得牢,駕輕就熟除煩惱。2022/8/5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論