




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景什么是大數(shù)據(jù)大數(shù)據(jù)時(shí)代數(shù)據(jù)量級變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級不斷增加 | 根據(jù)IDC 監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個(gè)速度在2020 年之前會繼續(xù)保持下去。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜 | 大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長TBPBZBEB地球上至今的數(shù)據(jù)量:在2006 年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011 年,這個(gè)數(shù)字達(dá)到了1.8ZB。 而有市場研究機(jī)構(gòu)預(yù)測:到2020 年,整個(gè)世界的數(shù)據(jù)總量將會增長44 倍,達(dá)到35.2ZB
2、(1ZB=10 億TB)說明互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte) =1024PB1ZB(Zettabyte)=1024EB大數(shù)據(jù)時(shí)代變化數(shù)據(jù)在web 2.0的時(shí)代,人們從信息的被動接受者變成了主動創(chuàng)造者全球每秒鐘發(fā)送 2.9 百萬封電子郵件,每天會有 2.88 萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,推特上每天發(fā)布 5
3、 千萬條消息量級每月網(wǎng)民在Facebook 上要花費(fèi)7 千億分鐘,發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EBGoogle 上每天需要處理24PB 的數(shù)據(jù)數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動互聯(lián)2大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity數(shù)據(jù)結(jié)構(gòu)海量存儲能力讀寫速度實(shí)時(shí)大
4、數(shù)據(jù)分析hadoophbasesparkstrom大數(shù)據(jù)典型特性存儲能力變化 數(shù)據(jù)量不斷增加,存儲能力也隨之不斷增強(qiáng)存儲能力大數(shù)據(jù)典型特性讀寫速度提升與云計(jì)算相結(jié)合的大數(shù)據(jù)存儲速度顯著提升數(shù)據(jù)體量讀寫速度讀寫速度大數(shù)據(jù)典型特性多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)多樣性1234體量Volume多樣性Variety價(jià)值密度Value速度Velocity4V特性從非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍,總數(shù)據(jù)量的8090%大數(shù)據(jù)的異構(gòu)和多樣性,多種形式(文本、圖像、視頻、機(jī)器數(shù)據(jù)),無模式或者模式不明顯,不連貫的語法或句義大量的不相
5、關(guān)信息對未來趨勢與模式的可預(yù)測分析,深度復(fù)雜分析,機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析,數(shù)據(jù)輸入、處理與丟棄,立竿見影而非事后見效3相關(guān)領(lǐng)域應(yīng)用軍事建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?怎樣有效提高公眾生活安全水平?人口土地、資源利用如何優(yōu)化?自然災(zāi)害、霧霾情況怎樣最大化去改善?城市交通擁堵情況怎么去解決?合理規(guī)劃很重要食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生軍事食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生VS優(yōu)化城市實(shí)時(shí)交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況智能城市系統(tǒng):自動通知消防、公安、醫(yī)院等,迅速到達(dá)現(xiàn)場處理自然災(zāi)害預(yù)測:實(shí)
6、時(shí)監(jiān)測、對潛在危機(jī)做出快速響應(yīng),通過衛(wèi)星和遙感技術(shù),遠(yuǎn)程獲取災(zāi)區(qū)情況,制定合理救援計(jì)劃智慧城市建設(shè):宏觀調(diào)控人口、環(huán)境、土地資源利用等,做高效的城市規(guī)劃建設(shè)正確方式VS改善生活穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等時(shí)刻監(jiān)控健康狀況提高醫(yī)療和研發(fā):迅速解碼DNA,結(jié)合海量病例迅速制定最優(yōu)治療方案改善安全和執(zhí)法:國家實(shí)時(shí)監(jiān)控恐怖主義,企業(yè)防御網(wǎng)絡(luò)攻擊,警察利用社交、公共資源數(shù)據(jù)來匹配犯罪人員信息,捕捉罪犯正確方式用戶行為數(shù)據(jù)用戶消費(fèi)數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG、淘寶信用卡中心、螞蟻金服谷歌地圖、大眾點(diǎn)評、美團(tuán)等APP的自動定位系統(tǒng)互聯(lián)網(wǎng)金融數(shù)據(jù)支付寶、陸金所用戶地理位置數(shù)據(jù)互聯(lián)網(wǎng)大
7、數(shù)據(jù)簡單羅列幾個(gè)行業(yè)fackbook、新浪合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟(jì)策略金融服務(wù)電子商務(wù)消費(fèi)行業(yè)根據(jù)用戶的喜好、交易記錄并制定權(quán)重匹配商品,提供準(zhǔn)確的推送根據(jù)不同地域、不同年齡段的人群的消費(fèi)情況及生活習(xí)慣,制定提供最優(yōu)服務(wù)的計(jì)劃結(jié)合熱點(diǎn)、題材、政策和歷史數(shù)據(jù)及趨勢分析,制定良好的方向4相關(guān)技術(shù)云計(jì)算列數(shù)據(jù)庫實(shí)時(shí)分析hadoop生態(tài)集群數(shù)據(jù)庫數(shù)據(jù)靈活低價(jià)格高性能數(shù)據(jù)靈活非關(guān)系型(列)性能對比優(yōu)點(diǎn)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)易理解 使用方便支持sql易于維護(hù)價(jià)格昂貴不能自動切片固定表結(jié)構(gòu)讀寫性能差高并發(fā)讀寫需求讀寫性能高基于鍵值對無耦合數(shù)據(jù)存儲格式豐富價(jià)格低大多免費(fèi)不提供sql支持學(xué)習(xí)成本高BI支持弱關(guān)系型數(shù)
8、據(jù)庫非關(guān)系型數(shù)據(jù)庫NoSql場景不同效果也不同,目前NoSql是最為合適大數(shù)據(jù)發(fā)展的關(guān)系型數(shù)據(jù)庫:Mysql、Oracle、SQserver等非關(guān)系型數(shù)據(jù)庫:Hbase、MongoDB、Redis等云計(jì)算移動電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電iPhoneDCs傳感器。我們已經(jīng)進(jìn)入一個(gè)無處不網(wǎng)、無時(shí)不網(wǎng)的時(shí)代!云計(jì)算(cloud computing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法,用戶通過電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算。大數(shù)據(jù)與云計(jì)算云計(jì)算與大數(shù)據(jù)
9、的關(guān)系是靜與動的關(guān)系,前者強(qiáng)調(diào)的是計(jì)算、存儲能力;大數(shù)據(jù)需要處理大數(shù)據(jù)的能力(數(shù)據(jù)獲取、清洗、轉(zhuǎn)換、存儲、分析、統(tǒng)計(jì)等能力),其實(shí)就是強(qiáng)大的計(jì)算能力和數(shù)據(jù)存儲能力。大數(shù)據(jù)必須采用云端分布式架構(gòu)對海量數(shù)據(jù)進(jìn)行分布式存儲、分布式處理。云計(jì)算為大數(shù)據(jù)資源、大數(shù)據(jù)挖掘提供技術(shù)設(shè)施大數(shù)據(jù)挖掘?yàn)樵朴?jì)算建設(shè)和運(yùn)作提供決策相互關(guān)聯(lián)性大數(shù)據(jù)之實(shí)時(shí)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,利用大數(shù)據(jù)技術(shù)高效的快速完成分析,達(dá)到近似實(shí)時(shí)的效果,更及時(shí)的反映數(shù)據(jù)的價(jià)值和意義。近實(shí)時(shí)的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度在當(dāng)今互聯(lián)網(wǎng)顯得極為重要 實(shí)時(shí)大數(shù)據(jù)分析spark實(shí)時(shí)分析框架共性:開源的分布式系統(tǒng),具有低
10、延遲、可擴(kuò)展和容錯(cuò)性諸多優(yōu)點(diǎn)流式實(shí)時(shí)分析框架stormHadoop集群什么是hadoop?集群又是什么?是編程語言嗎?作用?設(shè)計(jì)理念?跟大數(shù)據(jù)有什么關(guān)系?Hadoop 是開源平臺, 本身不是數(shù)據(jù)庫, 但可處理非結(jié)構(gòu)化數(shù)據(jù) 這點(diǎn)關(guān)系數(shù)據(jù)庫很難做到j(luò)ava、android等程序是用來做交互的,而hadoop是用來做計(jì)算的哪些公司在使用Hadoop為什么使用Hadoop小型機(jī)小型機(jī)VPSVPSVPSVPS存儲陣列數(shù)據(jù)移動EMC存儲OracleIBM磁盤IO瓶頸帶寬瓶頸計(jì)算瓶頸cpucpu基于共享存儲和高性能計(jì)算的架構(gòu)。大型機(jī)和小型機(jī)的差別存儲陣列和普通硬盤的差別IO,穩(wěn)定性。IO能力和機(jī)器數(shù)量成非正
11、比計(jì)算能力和機(jī)器數(shù)量成正比scale-up(縱向擴(kuò)展)集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎么來決策耕田的問題呢?一只普通的牛體力有限,很快就不行了換一只昂貴的身材健碩的牛呢?還是體力有限,很快就又不行了最后他想到一個(gè)辦法:如果找一群普通的牛,事實(shí)不會又便宜又高效呢?集群的概念就是這么得來的特性HDFS: Hadoop Distributed File System 分布式文件系統(tǒng) MapReduce:分布式運(yùn)算框架YARN: Yet Another Resource Negotiator 資源管理調(diào)度系統(tǒng)生態(tài)圈問題:怎樣存儲海量數(shù)據(jù)?HDFS分布式文件系統(tǒng) 兩個(gè)思想十分
12、重要1.切分2.分裝MapReduce 介紹MapReduce = Map(拆分)+Reduce(合并、排序)大數(shù)據(jù)時(shí)代來臨一切真相將會展現(xiàn)在我們面前踏實(shí),奮斗,堅(jiān)持,專業(yè),努力成就未來。8月-228月-22Tuesday, August 30, 2022弄虛作假要不得,踏實(shí)肯干第一名。06:30:1206:30:1206:308/30/2022 6:30:12 AM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。8月-2206:30:1206:30Aug-2230-Aug-22重于泰山,輕于鴻毛。06:30:1206:30:1206:30Tuesday, August 30, 2022不可麻痹大意,要防微杜漸。8月-228月-2206:30:1206:30:12August 30, 2022加強(qiáng)自身建設(shè),增強(qiáng)個(gè)人的休養(yǎng)。2022年8月30日6:30 上午8月-228月-22追求卓越,讓自己更好,向上而生。30 八月 20226:30:12 上午06:30:128月-22嚴(yán)格把控質(zhì)量關(guān),讓生產(chǎn)更加有保障。八月 226:30 上午8月-2206:30August 30, 2022重規(guī)矩,嚴(yán)要求,少危險(xiǎn)。2022/8/30 6:30:1206:30:1230 August 2022好的事情馬上就會到來,一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鎮(zhèn)江資格證模擬考試
- 公司合作養(yǎng)豬合同范本
- 冷鐓模具合同范本
- 冰箱售后服務(wù)合同范本
- 農(nóng)村水田改造合同范本
- 代理交易合同范本
- 兄妹贈予房產(chǎn)合同范本
- 北京出租車司機(jī)合同范本
- 農(nóng)村承包經(jīng)營戶合同范本
- 臨時(shí)店面員工合同范本
- DB11 938-2022 綠色建筑設(shè)計(jì)標(biāo)準(zhǔn)
- 部編版語文八年級下冊第六單元名著導(dǎo)讀《鋼鐵是怎樣煉成的》問答題 (含答案)
- 2022譯林版新教材高一英語必修二單詞表及默寫表
- 全國青少年機(jī)器人技術(shù)等級考試:二級培訓(xùn)全套課件
- 九種中醫(yī)體質(zhì)辨識概述課件
- (外研版)英語四年級下冊配套同步練習(xí) (全書完整版)
- 小學(xué)數(shù)學(xué)計(jì)算能力大賽實(shí)施方案
- 古詩詞誦讀《虞美人》課件-統(tǒng)編版高中語文必修上冊
- 文物學(xué)概論-中國古代青銅器(上)
- 制作拉線課件
- 某物業(yè)公司能力素質(zhì)模型庫(參考)
評論
0/150
提交評論