大數(shù)據(jù)行業(yè)發(fā)展與基本概念_第1頁
大數(shù)據(jù)行業(yè)發(fā)展與基本概念_第2頁
大數(shù)據(jù)行業(yè)發(fā)展與基本概念_第3頁
大數(shù)據(jù)行業(yè)發(fā)展與基本概念_第4頁
大數(shù)據(jù)行業(yè)發(fā)展與基本概念_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)基本概念與行業(yè)發(fā)展目前一頁\總數(shù)四十一頁\編于十三點(diǎn)大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展目前二頁\總數(shù)四十一頁\編于十三點(diǎn)基于歷史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同球員特點(diǎn),合理搭配,重新組隊(duì);打破傳統(tǒng)思維,通過分析比賽數(shù)據(jù),尋找“性價(jià)比”最高球員,運(yùn)用數(shù)據(jù)取得成功;布拉德?皮特主演的《點(diǎn)球成金》是一部美國奧斯卡獲獎(jiǎng)影片,所講述的是皮特扮演的棒球隊(duì)總經(jīng)理利用計(jì)算機(jī)數(shù)據(jù)分析,對(duì)球隊(duì)進(jìn)行了翻天覆地的改造,讓一家不起眼的小球隊(duì)能夠取得巨大的成功。電影《點(diǎn)球成金》目前三頁\總數(shù)四十一頁\編于十三點(diǎn)僅供開采162年僅供開采45年僅供開采60年2013年,10分鐘的信息總量將達(dá)1.8ZB2010年全球數(shù)據(jù)總量1.2ZB,年增長50%數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大價(jià)值,它變成了生產(chǎn)資料。不可再生資源VS數(shù)據(jù)2020年全球數(shù)據(jù)總量將達(dá)到40ZB目前四頁\總數(shù)四十一頁\編于十三點(diǎn)數(shù)據(jù)爆炸式增長(每分鐘……)Twitter上發(fā)布98000+新微博13000+個(gè)iPhone應(yīng)用下載Skype上37萬+分鐘的語音通話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個(gè)新訂單12306出票1840+張目前五頁\總數(shù)四十一頁\編于十三點(diǎn)傳統(tǒng)處理方式所無法解決的挑戰(zhàn)12345挑戰(zhàn)數(shù)據(jù)體量越來越大非結(jié)構(gòu)半結(jié)構(gòu)混雜處理速度要求越來越快數(shù)據(jù)應(yīng)用模式創(chuàng)新更豐富的視覺元素目前六頁\總數(shù)四十一頁\編于十三點(diǎn)需要性價(jià)比更高的儲(chǔ)存方式數(shù)據(jù)庫數(shù)據(jù)倉庫目前七頁\總數(shù)四十一頁\編于十三點(diǎn)85%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

需要不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,scale-out不易處理時(shí)間過長,time-to-value受限成本過高,cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺目前八頁\總數(shù)四十一頁\編于十三點(diǎn)需要更高效的計(jì)算方式規(guī)模時(shí)間傳統(tǒng)大數(shù)據(jù)目前九頁\總數(shù)四十一頁\編于十三點(diǎn)什么是大數(shù)據(jù)?維基百科:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)就是“未來的新石油”目前十頁\總數(shù)四十一頁\編于十三點(diǎn)容量Volume多樣Variety價(jià)值Value速度Velocity數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)以上。數(shù)據(jù)類型繁多。日志、視頻、圖片、GIS等。秒級(jí)定律。一般要求在秒級(jí)內(nèi)給出分析結(jié)果。利用低價(jià)值密度數(shù)據(jù),可以帶來高價(jià)值回報(bào)。大數(shù)據(jù)的“4V”特征目前十一頁\總數(shù)四十一頁\編于十三點(diǎn)更多的“V”可變性Variability真實(shí)性Veracity可視化Visualization數(shù)據(jù)的含義總是在快速變化的。要考慮具體的上下文。確保數(shù)據(jù)的真實(shí)性,才能保證數(shù)據(jù)分析的正確性。只有正確的可視化,原始數(shù)據(jù)才可被投入使用。目前十二頁\總數(shù)四十一頁\編于十三點(diǎn)大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展目前十三頁\總數(shù)四十一頁\編于十三點(diǎn)數(shù)據(jù)概述在人類發(fā)展歷程中,數(shù)據(jù)表現(xiàn)方式分為兩類:模擬數(shù)據(jù)(聲音,文件,圖像,視頻)數(shù)字?jǐn)?shù)據(jù)(文字,符號(hào))自從計(jì)算機(jī)發(fā)明以來,數(shù)據(jù)在計(jì)算機(jī)中都是以二進(jìn)制0和1的形式進(jìn)行保存。鑒于對(duì)數(shù)據(jù)的分類管理需要,隨之而來各種各種的數(shù)據(jù)管理軟件應(yīng)運(yùn)而生。目前十四頁\總數(shù)四十一頁\編于十三點(diǎn)目前十五頁\總數(shù)四十一頁\編于十三點(diǎn)數(shù)據(jù)倉庫NoSQLNewSQL關(guān)系型數(shù)據(jù)庫集群化大數(shù)據(jù)數(shù)據(jù)發(fā)展的五個(gè)階段目前十六頁\總數(shù)四十一頁\編于十三點(diǎn)第一階段關(guān)系型數(shù)據(jù)庫目前十七頁\總數(shù)四十一頁\編于十三點(diǎn)第二階段數(shù)據(jù)倉庫DW-DataWarehouse面向主題數(shù)據(jù)是按照一定的主題域進(jìn)行組織,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。集成的必須保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。相對(duì)穩(wěn)定某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之后,一般情況下將被長期保留,修改和刪除操作很少。反映歷史變化倉庫中的數(shù)據(jù)通常包含歷史信息,反映過去某一時(shí)點(diǎn)到目前的各個(gè)階段的信息。用于支持管理決策目前十八頁\總數(shù)四十一頁\編于十三點(diǎn)目前十九頁\總數(shù)四十一頁\編于十三點(diǎn)ETLBI目前二十頁\總數(shù)四十一頁\編于十三點(diǎn)第三階段NoSQL、NewSQL事務(wù)分析互聯(lián)網(wǎng)OldSQL大數(shù)據(jù)時(shí)代架構(gòu)多元化NewSQL分析OldSQL事務(wù)NoSQL互聯(lián)網(wǎng)目前二十一頁\總數(shù)四十一頁\編于十三點(diǎn)鍵值存儲(chǔ)數(shù)據(jù)庫NoSQL互聯(lián)網(wǎng)列式存儲(chǔ)數(shù)據(jù)庫文檔存儲(chǔ)數(shù)據(jù)庫圖像存儲(chǔ)數(shù)據(jù)庫文件存儲(chǔ)數(shù)據(jù)庫消息隊(duì)列系統(tǒng)目前二十二頁\總數(shù)四十一頁\編于十三點(diǎn)NewSQL分析目前二十三頁\總數(shù)四十一頁\編于十三點(diǎn)第四階段集群化高可用通常采用Master-Slave或者P2P模式,保障數(shù)據(jù)的災(zāi)備。分片將大規(guī)模數(shù)據(jù)按照一定規(guī)則拆分,不同的分片存儲(chǔ)在不同的結(jié)點(diǎn)。復(fù)制數(shù)據(jù)通常會(huì)在集群的多個(gè)結(jié)點(diǎn)中留存多個(gè)數(shù)據(jù)副本,以保證可靠?;旌蠎?yīng)用不同的業(yè)務(wù)場景,會(huì)混合使用多種不同的數(shù)據(jù)存儲(chǔ)系統(tǒng)。目前二十四頁\總數(shù)四十一頁\編于十三點(diǎn)服務(wù)器1分片處理前分片處理后片服務(wù)器1片服務(wù)器2片服務(wù)器3目前二十五頁\總數(shù)四十一頁\編于十三點(diǎn)服務(wù)器1復(fù)制前復(fù)制后服務(wù)器1服務(wù)器2服務(wù)器3主從復(fù)制or對(duì)等復(fù)制目前二十六頁\總數(shù)四十一頁\編于十三點(diǎn)第五階段大數(shù)據(jù)讓大象跳舞目前二十七頁\總數(shù)四十一頁\編于十三點(diǎn)Hadoop2.0生態(tài)目前二十八頁\總數(shù)四十一頁\編于十三點(diǎn)流式計(jì)算框架目前二十九頁\總數(shù)四十一頁\編于十三點(diǎn)搜索引擎框架目前三十頁\總數(shù)四十一頁\編于十三點(diǎn)某政務(wù)大數(shù)據(jù)項(xiàng)目架構(gòu)目前三十一頁\總數(shù)四十一頁\編于十三點(diǎn)大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展目前三十二頁\總數(shù)四十一頁\編于十三點(diǎn)大數(shù)據(jù)是如何成為網(wǎng)紅的?2005年2008年2011年2015年2016年2012年2014年第一款商用Hadoop項(xiàng)目誕生在美國發(fā)表第一個(gè)關(guān)于大數(shù)據(jù)的白皮書國家工信部發(fā)布物聯(lián)網(wǎng)十二五規(guī)劃成為世界經(jīng)濟(jì)論壇重要主題之一在我國政府報(bào)告中大數(shù)據(jù)首次出現(xiàn)國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》大數(shù)據(jù)“十三五”規(guī)劃出臺(tái)目前三十三頁\總數(shù)四十一頁\編于十三點(diǎn)我國大數(shù)據(jù)的發(fā)展階段時(shí)間探索起步期快速推進(jìn)器規(guī)模發(fā)展期產(chǎn)業(yè)消化期應(yīng)用成熟期市場認(rèn)可度1)大數(shù)據(jù)產(chǎn)業(yè)在中國出現(xiàn),并逐步受到關(guān)注,互聯(lián)網(wǎng)企業(yè)率先將應(yīng)用落地2)2015年我國提出《大數(shù)據(jù)發(fā)展行動(dòng)綱要》大力支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,并于2016年提升為國家戰(zhàn)略3)大數(shù)據(jù)概念廣泛普及,企業(yè)用戶不斷提升,資本市場高度關(guān)注,大數(shù)據(jù)企業(yè)規(guī)?;l(fā)展4)大數(shù)據(jù)市場相對(duì)成熟,市場熱度逐漸消化,大數(shù)據(jù)企業(yè)整合5)行業(yè)標(biāo)準(zhǔn)建立、監(jiān)管規(guī)范完善,被廣泛應(yīng)用,行業(yè)將趨于穩(wěn)定發(fā)展目前三十四頁\總數(shù)四十一頁\編于十三點(diǎn)我國大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模2017年我國大數(shù)據(jù)市場規(guī)模已達(dá)358億元,年增速達(dá)到47.3%。預(yù)計(jì)2020年,我國大數(shù)據(jù)市場規(guī)模將達(dá)到731億元。目前三十五頁\總數(shù)四十一頁\編于十三點(diǎn)我國大數(shù)據(jù)主要應(yīng)用領(lǐng)域市場吸引力應(yīng)用成熟度教育物流電信交通醫(yī)療政府公共服務(wù)金融電子商務(wù)目前三十六頁\總數(shù)四十一頁\編于十三點(diǎn)我國大數(shù)據(jù)區(qū)域分布京津冀地區(qū)依托北京,培育了一大批大數(shù)據(jù)企業(yè),是目前我國大數(shù)據(jù)企業(yè)集聚最多的地方。珠三角地區(qū)依托廣州和深圳兩個(gè)國家超級(jí)計(jì)算中心的集聚作用,在騰訊、華為、中興等一批骨干企業(yè)的帶動(dòng)下,逐漸形成了大數(shù)據(jù)集聚發(fā)展的趨勢。長三角地區(qū)依托上海、杭州、南京,吸引了大批大數(shù)據(jù)企業(yè),上海發(fā)布《上海推進(jìn)大數(shù)據(jù)研究與發(fā)展三年行動(dòng)計(jì)劃》,推動(dòng)大數(shù)據(jù)在城市管理和民生服務(wù)領(lǐng)域應(yīng)用。大西南地區(qū)以貴州、重慶為代表城市,通過積極吸引國內(nèi)外龍頭骨干企業(yè),實(shí)現(xiàn)大數(shù)據(jù)產(chǎn)業(yè)在當(dāng)?shù)氐目焖侔l(fā)展。目前三十七頁\總數(shù)四十一頁\編于十三點(diǎn)基礎(chǔ)資源/云平臺(tái)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)采集數(shù)據(jù)處理數(shù)據(jù)分析展示應(yīng)用管理工具實(shí)時(shí)接入、海量堆積多種結(jié)構(gòu)、海量存儲(chǔ)離線統(tǒng)計(jì)、實(shí)時(shí)計(jì)算數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)圖形、報(bào)表等工具庫高可用、高性能集群數(shù)據(jù)安全大數(shù)據(jù)的一般利用過程(生命周期)目前三十八頁\總數(shù)四十一頁\編于十三點(diǎn)大數(shù)據(jù)產(chǎn)業(yè)鏈及細(xì)分領(lǐng)域數(shù)據(jù)采集基礎(chǔ)軟件硬件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論