版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第1頁,共39頁。123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄第2頁,共39頁。1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景什么是大數(shù)據(jù)大數(shù)據(jù)時代第3頁,共39頁。數(shù)據(jù)量級變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級不斷增加 | 根據(jù)IDC 監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020 年之前會繼續(xù)保持下去。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜 | 大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長TBPBZBEB第4頁,共39頁。地球上至今的數(shù)據(jù)量:在2006 年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011 年,這個數(shù)字達到了1.8ZB。 而有市場研究機構(gòu)預(yù)
2、測:到2020 年,整個世界的數(shù)據(jù)總量將會增長44 倍,達到35.2ZB(1ZB=10 億TB)說明互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte) =1024PB1ZB(Zettabyte)=1024EB第5頁,共39頁。大數(shù)據(jù)時代變化數(shù)據(jù)在web 2.0的時代,人們從信息的被動接受者變成了主動創(chuàng)造者全球每秒鐘發(fā)送 2.9
3、百萬封電子郵件,每天會有 2.88 萬個小時的視頻上傳到Y(jié)outube,推特上每天發(fā)布 5 千萬條消息量級每月網(wǎng)民在Facebook 上要花費7 千億分鐘,發(fā)送和接收的數(shù)據(jù)高達1.3EBGoogle 上每天需要處理24PB 的數(shù)據(jù)第6頁,共39頁。數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動互聯(lián)第7頁,共39頁。
4、2大數(shù)據(jù)的4V特性體量Volume多樣性Variety價值密度Value速度Velocity第8頁,共39頁。數(shù)據(jù)結(jié)構(gòu)海量存儲能力讀寫速度實時大數(shù)據(jù)分析hadoophbasesparkstrom第9頁,共39頁。大數(shù)據(jù)典型特性存儲能力變化 數(shù)據(jù)量不斷增加,存儲能力也隨之不斷增強存儲能力第10頁,共39頁。大數(shù)據(jù)典型特性讀寫速度提升與云計算相結(jié)合的大數(shù)據(jù)存儲速度顯著提升數(shù)據(jù)體量讀寫速度讀寫速度第11頁,共39頁。大數(shù)據(jù)典型特性多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)多樣性第12頁,共39頁。1234體量Volume多樣性Variety價值密度Value速度Velocity4V特性從非結(jié)構(gòu)
5、化數(shù)據(jù)的超大規(guī)模和增長,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍,總數(shù)據(jù)量的8090%大數(shù)據(jù)的異構(gòu)和多樣性,多種形式(文本、圖像、視頻、機器數(shù)據(jù)),無模式或者模式不明顯,不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析,深度復(fù)雜分析,機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析,數(shù)據(jù)輸入、處理與丟棄,立竿見影而非事后見效第13頁,共39頁。3相關(guān)領(lǐng)域應(yīng)用第14頁,共39頁。軍事建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?怎樣有效提高公眾生活安全水平?人口土地、資源利用如何優(yōu)化?自然災(zāi)害、霧霾情況怎樣最大化去改善?城市交通擁堵情況怎么去解決?合
6、理規(guī)劃很重要食品安全消費行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生第15頁,共39頁。軍事食品安全消費行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生第16頁,共39頁。VS優(yōu)化城市實時交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況智能城市系統(tǒng):自動通知消防、公安、醫(yī)院等,迅速到達現(xiàn)場處理自然災(zāi)害預(yù)測:實時監(jiān)測、對潛在危機做出快速響應(yīng),通過衛(wèi)星和遙感技術(shù),遠程獲取災(zāi)區(qū)情況,制定合理救援計劃智慧城市建設(shè):宏觀調(diào)控人口、環(huán)境、土地資源利用等,做高效的城市規(guī)劃建設(shè)正確方式第17頁,共39頁。VS改善生活穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等時刻監(jiān)控健康狀況提高醫(yī)療和研發(fā):迅速解碼DNA,結(jié)合海量病例
7、迅速制定最優(yōu)治療方案改善安全和執(zhí)法:國家實時監(jiān)控恐怖主義,企業(yè)防御網(wǎng)絡(luò)攻擊,警察利用社交、公共資源數(shù)據(jù)來匹配犯罪人員信息,捕捉罪犯正確方式第18頁,共39頁。用戶行為數(shù)據(jù)用戶消費數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG、淘寶信用卡中心、螞蟻金服谷歌地圖、大眾點評、美團等APP的自動定位系統(tǒng)互聯(lián)網(wǎng)金融數(shù)據(jù)支付寶、陸金所用戶地理位置數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)簡單羅列幾個行業(yè)fackbook、新浪第19頁,共39頁。合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟策略金融服務(wù)電子商務(wù)消費行業(yè)根據(jù)用戶的喜好、交易記錄并制定權(quán)重匹配商品,提供準確的推送根據(jù)不同地域、不同年齡段的人群的消費情況及生活習(xí)慣,制定提供最優(yōu)服務(wù)的計劃結(jié)合熱
8、點、題材、政策和歷史數(shù)據(jù)及趨勢分析,制定良好的方向第20頁,共39頁。4相關(guān)技術(shù)云計算列數(shù)據(jù)庫實時分析hadoop生態(tài)集群第21頁,共39頁。數(shù)據(jù)庫數(shù)據(jù)靈活低價格高性能數(shù)據(jù)靈活非關(guān)系型(列)第22頁,共39頁。性能對比優(yōu)點缺點優(yōu)點缺點易理解 使用方便支持sql易于維護價格昂貴不能自動切片固定表結(jié)構(gòu)讀寫性能差高并發(fā)讀寫需求讀寫性能高基于鍵值對無耦合數(shù)據(jù)存儲格式豐富價格低大多免費不提供sql支持學(xué)習(xí)成本高BI支持弱關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫NoSql場景不同效果也不同,目前NoSql是最為合適大數(shù)據(jù)發(fā)展的關(guān)系型數(shù)據(jù)庫:Mysql、Oracle、SQserver等非關(guān)系型數(shù)據(jù)庫:Hbase、Mong
9、oDB、Redis等第23頁,共39頁。云計算移動電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電iPhoneDCs傳感器。我們已經(jīng)進入一個無處不網(wǎng)、無時不網(wǎng)的時代!云計算(cloud computing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法,用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算。第24頁,共39頁。大數(shù)據(jù)與云計算云計算與大數(shù)據(jù)的關(guān)系是靜與動的關(guān)系,前者強調(diào)的是計算、存儲能力;大數(shù)據(jù)需要處理大數(shù)據(jù)的能力(數(shù)據(jù)獲取、清洗、轉(zhuǎn)換、存儲、分析、統(tǒng)計等能力),其實就是強大
10、的計算能力和數(shù)據(jù)存儲能力。大數(shù)據(jù)必須采用云端分布式架構(gòu)對海量數(shù)據(jù)進行分布式存儲、分布式處理。云計算為大數(shù)據(jù)資源、大數(shù)據(jù)挖掘提供技術(shù)設(shè)施大數(shù)據(jù)挖掘為云計算建設(shè)和運作提供決策相互關(guān)聯(lián)性第25頁,共39頁。大數(shù)據(jù)之實時分析是指對規(guī)模巨大的數(shù)據(jù)進行分析,利用大數(shù)據(jù)技術(shù)高效的快速完成分析,達到近似實時的效果,更及時的反映數(shù)據(jù)的價值和意義。第26頁,共39頁。近實時的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度在當(dāng)今互聯(lián)網(wǎng)顯得極為重要 實時大數(shù)據(jù)分析spark實時分析框架共性:開源的分布式系統(tǒng),具有低延遲、可擴展和容錯性諸多優(yōu)點流式實時分析框架storm第27頁,共39頁。Hadoop集群什么是h
11、adoop?集群又是什么?是編程語言嗎?作用?設(shè)計理念?跟大數(shù)據(jù)有什么關(guān)系?第28頁,共39頁。Hadoop 是開源平臺, 本身不是數(shù)據(jù)庫, 但可處理非結(jié)構(gòu)化數(shù)據(jù) 這點關(guān)系數(shù)據(jù)庫很難做到j(luò)ava、android等程序是用來做交互的,而hadoop是用來做計算的第29頁,共39頁。哪些公司在使用Hadoop第30頁,共39頁。為什么使用Hadoop小型機小型機VPSVPSVPSVPS存儲陣列數(shù)據(jù)移動EMC存儲OracleIBM磁盤IO瓶頸帶寬瓶頸計算瓶頸cpucpu基于共享存儲和高性能計算的架構(gòu)。大型機和小型機的差別存儲陣列和普通硬盤的差別IO,穩(wěn)定性。IO能力和機器數(shù)量成非正比計算能力和機器數(shù)
12、量成正比scale-up(縱向擴展)第31頁,共39頁。集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎么來決策耕田的問題呢?一只普通的牛體力有限,很快就不行了換一只昂貴的身材健碩的牛呢?還是體力有限,很快就又不行了最后他想到一個辦法:如果找一群普通的牛,事實不會又便宜又高效呢?集群的概念就是這么得來的第32頁,共39頁。特性HDFS: Hadoop Distributed File System 分布式文件系統(tǒng) MapReduce:分布式運算框架YARN: Yet Another Resource Negotiator 資源管理調(diào)度系統(tǒng)第33頁,共39頁。生態(tài)圈第34頁,共39頁
13、。問題:怎樣存儲海量數(shù)據(jù)?HDFS分布式文件系統(tǒng) 兩個思想十分重要1.切分2.分裝第35頁,共39頁。MapReduce 介紹MapReduce = Map(拆分)+Reduce(合并、排序)第36頁,共39頁。大數(shù)據(jù)時代來臨一切真相將會展現(xiàn)在我們面前第37頁,共39頁。第38頁,共39頁。46凡事不要說我不會或不可能,因為你根本還沒有去做!47成功不是靠夢想和希望,而是靠努力和實踐48只有在天空最暗的時候,才可以看到天上的星星49上帝說:你要什么便取什么,但是要付出相當(dāng)?shù)拇鷥r50現(xiàn)在站在什么地方不重要,重要的是你往什么方向移動。51寧可辛苦一陣子,不要苦一輩子52為成功找方法,不為失敗找借口
14、53不斷反思自己的弱點,是讓自己獲得更好成功的優(yōu)良習(xí)慣。54垃圾桶哲學(xué):別人不要做的事,我揀來做!55不一定要做最大的,但要做最好的56死的方式由上帝決定,活的方式由自己決定!57成功是動詞,不是名詞!28、年輕是我們拼搏的籌碼,不是供我們揮霍的資本。59、世界上最不能等待的事情就是孝敬父母。60、身體發(fā)膚,受之父母,不敢毀傷,孝之始也; 立身行道,揚名於后世,以顯父母,孝之終也。孝經(jīng)61、不積跬步,無以致千里;不積小流,無以成江海。荀子勸學(xué)篇62、孩子:請高看自己一眼,你是最棒的!63、路雖遠行則將至,事雖難做則必成!64、活魚會逆水而上,死魚才會隨波逐流。65、怕苦的人苦一輩子,不怕苦的人
15、苦一陣子。66、有價值的人不是看你能擺平多少人,而是看你能幫助多少人。67、不可能的事是想出來的,可能的事是做出來的。68、找不到路不是沒有路,路在腳下。69、幸福源自積德,福報來自行善。70、盲目的戀愛以微笑開始,以淚滴告終。71、真正值錢的是分文不用的甜甜的微笑。72、前面是堵墻,用微笑面對,就變成一座橋。73、自尊,偉大的人格力量;自愛,維護名譽的金盾。74、今天學(xué)習(xí)不努力,明天努力找工作。75、懂得回報愛,是邁向成熟的第一步。76、讀懂責(zé)任,讀懂使命,讀懂感恩方為懂事。77、不要只會吃奶,要學(xué)會吃干糧,尤其是粗茶淡飯。78、技藝創(chuàng)造價值,本領(lǐng)改變命運。79、憑本領(lǐng)瀟灑就業(yè),靠技藝穩(wěn)拿高薪。80、為尋找
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度店長聘用合同特殊條款適用性分析
- 二零二五年度牛羊草料進口代理服務(wù)合同樣本2篇
- 二零二五年度出國留學(xué)學(xué)費支付及管理合同4篇
- 二零二五年度城市綠化打井工程監(jiān)理合同8篇
- 2025年度個人小型挖機租賃服務(wù)規(guī)范合同4篇
- 二零二五版嬰幼兒奶粉品牌授權(quán)及產(chǎn)品供應(yīng)鏈管理合同4篇
- 2025年度個人二手車轉(zhuǎn)讓及二手車增值服務(wù)合同
- 二零二五年度木工材料供應(yīng)鏈管理合同4篇
- 2025年度個人工程車租賃及道路救援服務(wù)合同2篇
- 2025年度個人車輛購置貸款延期還款合同4篇
- 回收二手機免責(zé)協(xié)議書模板
- (正式版)JC∕T 60023-2024 石膏條板應(yīng)用技術(shù)規(guī)程
- 人教版高中生物學(xué)新舊教材知識差異盤點
- (權(quán)變)領(lǐng)導(dǎo)行為理論
- 2024屆上海市浦東新區(qū)高三二模英語卷
- 2024年智慧工地相關(guān)知識考試試題及答案
- YY/T 0681.2-2010無菌醫(yī)療器械包裝試驗方法第2部分:軟性屏障材料的密封強度
- GB/T 8005.2-2011鋁及鋁合金術(shù)語第2部分:化學(xué)分析
- 不動產(chǎn)登記實務(wù)培訓(xùn)教程課件
- 不銹鋼制作合同范本(3篇)
- 2023年系統(tǒng)性硬化病診斷及診療指南
評論
0/150
提交評論