第一課大數(shù)據(jù)入門概述_第1頁
第一課大數(shù)據(jù)入門概述_第2頁
第一課大數(shù)據(jù)入門概述_第3頁
第一課大數(shù)據(jù)入門概述_第4頁
第一課大數(shù)據(jù)入門概述_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)入門概述2019.03相互學(xué)習(xí),內(nèi)部,請多多指教目錄大數(shù)據(jù)l 浪潮之巔l 什么是大數(shù)據(jù)l 大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用發(fā)展史l 萌芽期l 搜索引擎l 數(shù)據(jù)倉庫l 數(shù)據(jù)挖掘ll圈介紹lHadoopl 狹義的Hadoopl 廣義的Hadoopl Hadoop的現(xiàn)在和未來(如果時間充足)Hadoop組件講解llllHdfs YarnMapReduce大數(shù)據(jù)浪潮之巔信息化浪潮發(fā)生時間標(biāo)志解決問題代表第一次浪潮1980年前后個人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)

2、、云計(jì)算和大數(shù)據(jù)信息無人駕駛、AWS、今日頭條大數(shù)據(jù)浪潮一粟什么是大數(shù)據(jù):一個段子一家快餐披薩店,外賣響了,店長拿起。店長:您好,這里是××披薩店。請問有什么需要我為您服務(wù)?顧客:你好,要訂一份披薩。店長:請問您是陳先生嗎? 顧客:你怎么知道我姓陳?店長:陳先生,因?yàn)槲覀兊腃RM(客戶關(guān)系管理)系統(tǒng)對接了三大通訊服務(wù)商,看到您的來電號碼,我就知道您貴姓了。顧客:哦,那要一份海鮮至尊披薩。店長:陳先生,海鮮披薩不適合您,建議您另選一份。顧客:為什么?店長:根據(jù)您的醫(yī)療,您的血尿酸值偏高,有痛風(fēng)的癥狀,建議您不要食用高嘌呤的。您可以試試我們店最經(jīng)典的田園蔬菜披薩,低脂、健康,符

3、合您現(xiàn)階段的飲食要求。什么是大數(shù)據(jù):一個段子顧客:你怎么知道我會喜歡這種披薩?店長:您上周在一家網(wǎng)譜。店買了一本低脂健康食譜,其中就有這款披薩的菜顧客:那好吧。我要一個家庭特大號披薩,?店長:99元。這個足夠您一家六口吃了。但您的母親應(yīng)該少吃,她上臟搭橋手術(shù),還處于恢復(fù)期。顧客:好的,知道了。我可以刷卡嗎?剛做了心店長:抱歉,陳先生。請您付現(xiàn)吧,因?yàn)槟囊呀?jīng)刷爆了,您現(xiàn)在還欠5000元,而且還不包括住房利息。顧客:那我先去附近的提款機(jī)取現(xiàn)金。店長:陳先生,根據(jù),您今天已經(jīng)超過了日提款限額。什么是大數(shù)據(jù):一個段子 顧客:算了,那直接把披薩送到我家里吧,家里有現(xiàn)金,多久能送到? 店長:大約30分鐘

4、。如果您不想等,可以 顧客:為什么?合理建議顧客上門自取。來取。 店長:我這邊看到您家的地址是某某路東段22號,距離我們店開車只有5分鐘路程, 您名下登記有一輛車號為×××××××的轎車,這輛車目前正在距離您家不到兩分鐘車程的地方。如果您等不及,可以回家拿了現(xiàn)金就開車來店里取,這大概要花您10分鐘的時間,正好是一個披薩出爐的時間。這樣,您總共只需花15至20分鐘就可以將披薩拿回家,比我們要快。放在哪兒,我要背著 顧客:(氣憤)數(shù)據(jù)包去把機(jī)房炸了!、美國西雅圖以及撒哈拉 店長:不好意思,據(jù)我所知,您的數(shù)據(jù)分別在中國內(nèi)沙漠中均有

5、您的備份,您得同一時刻炸掉三個機(jī)房才有可能銷毀您的數(shù)據(jù)什么是大數(shù)據(jù):不僅是大量數(shù)據(jù)l 數(shù)據(jù)量大l 我們的數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)l 人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量l 預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍l 數(shù)據(jù)多樣性l 在大數(shù)據(jù),數(shù)據(jù)格式變得越來越多樣,涵蓋了文本、音頻、圖片、模擬信號等不同的類型;數(shù)據(jù)來源也越來越多樣,不僅產(chǎn)生于組織內(nèi)部個環(huán)節(jié),也來自于組織外部。l 大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的的各l 10%的結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)庫中l(wèi) 90%的非結(jié)構(gòu)化數(shù)據(jù),它

6、們與人類信息密切相關(guān)什么是大數(shù)據(jù):不僅是大量數(shù)據(jù)l 處理速度快l 從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少l 1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同l 真實(shí)性l 雖然可能會有誤差,但數(shù)據(jù)都是真實(shí)的l 價值密度低l 以續(xù)不間斷為例,在對街道上的車輛進(jìn)行連過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值大數(shù)據(jù)簡史1:以前l(fā) 以前:提升單機(jī)性能:IBM小型機(jī)、EMC企業(yè)級、Oracle企業(yè)級數(shù)據(jù)庫大數(shù)據(jù)簡史2:2003年的三駕馬車Hadoop思想之源:l 大量的網(wǎng)頁怎么的搜索引擎(運(yùn)用冗余防止數(shù)據(jù)丟失)l 分布式文件系統(tǒng) GFSl Page-Rank的

7、計(jì)算問題(單臺l 分布式計(jì)算框架 Map-Reduce不夠算)l 如何快速查到數(shù)據(jù)(響應(yīng)時間僅為0.01秒,甚至更快)l NoSql數(shù)據(jù)庫系統(tǒng) Bigtable (于2006年)大數(shù)據(jù)簡史3:2006年Hadoopl 2006年 Hadoop開源l 2008年 成為Apache 頂級項(xiàng)目l GFSHadoop HDFSl MapReduceHadoop MapReducel BigtableHbasel 插播一句:開源的Hadoop之父:Doug Cuttingl 優(yōu)秀的軟件:成就Windows IBC Orcal EMCl 優(yōu)秀的開源的軟件:成就世界!Linux Javamysql Hado

8、op Spark大數(shù)據(jù)應(yīng)用:搜索引擎l 標(biāo)志公司l 解決的問題:搜索引擎需要大量的數(shù)據(jù)與計(jì)算l 特點(diǎn):l 主要用于特定場景,開發(fā)難度高l 代表應(yīng)用l GFS/HDFSl MapReduce大數(shù)據(jù)簡史4:Hadoop的發(fā)展l 2006 年 5 月,Yahoo! 建立了一個 300 個節(jié)點(diǎn)的 Hadoop 研究集群。l 2007 年 4 月,研究集群增加到兩個 1000 個節(jié)點(diǎn)的集群。l 2007 年,開始使用 Hadoop 做離線處理。l 2008 年,淘寶云梯研究并使用Hadoop。l 2008年 1月,Hadoop成為 Apache頂級項(xiàng)目。l 2008 年 2 月,Yahoo! 運(yùn)行了世界

9、上最大的 Hadoop 應(yīng)用,1萬個核。l 2008年 8月,第一個 Hadoop商業(yè)化公司 Cloudera成立。l 2010 年 5 月 ,Avro 、HBase 脫離 Hadoop 項(xiàng)目,成為 Apache 頂級項(xiàng)目。l 2010 年 9 月,Hive、Pig脫離 Hadoop,成為 Apache 頂級項(xiàng)目。l 2010年 -2011年,擴(kuò)大的 Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop, Flume,Oozie等)來擴(kuò)展 Hadoop的使用場景和可用性。l 2011 年 1 月,ZooKeeper 脫離 Hadoop,成為 Apache 頂級項(xiàng)目。大數(shù)據(jù)應(yīng)用:數(shù)據(jù)倉

10、庫l 標(biāo)志:Hive、Hbase等的開源與應(yīng)用l 解決的問題:l 用更低廉的人力(懂SQL)進(jìn)行算來實(shí)現(xiàn)數(shù)據(jù)分析需求的分布式與計(jì)l 特點(diǎn):l 數(shù)據(jù)多樣化l 用于大數(shù)據(jù)統(tǒng)計(jì)l 代表應(yīng)用l Hive、Hbase、Imapla等l Hue以及公司自研的大數(shù)據(jù)操作管理軟件大數(shù)據(jù)簡史5:2012年:從Yarn到百花齊放l 2012 年 8 月,YARN 成為 Hadoop 子項(xiàng)目。JobTrackerResourceManagerl 2014年 2月,Spark逐漸代替 MapReduce成為 Hadoop的缺省執(zhí)行引擎,并成為頂級項(xiàng)目。Apache大數(shù)據(jù)應(yīng)用:數(shù)據(jù)挖掘l 標(biāo)志:Spark、Tensor

11、Flow等技術(shù)的發(fā)展l FLAG、微軟蘋果、Netflix、BATJ.:l 大數(shù)據(jù)技術(shù)的飛速發(fā)展,使得進(jìn)行在大數(shù)據(jù)量下成為可能,并產(chǎn)生價值l 特點(diǎn):l學(xué)習(xí)與深度學(xué)習(xí)算法l 數(shù)據(jù)更加多樣化,數(shù)據(jù)量級指數(shù)級增長l 大數(shù)據(jù)分析l 代表應(yīng)用,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的l 推薦系統(tǒng)、用戶畫像l AI技術(shù)、無人駕駛Hadoop的組成設(shè)計(jì)Hadoop該注意哪些?l 高可靠性:l 因?yàn)镠adoop假設(shè)計(jì)算元素和會出現(xiàn)故障,因?yàn)樗S護(hù)多個工作數(shù)據(jù)副本,在出現(xiàn)故障時可以對失敗的節(jié)點(diǎn)重新分布處理。l 高擴(kuò)展性:l 在集群間分配任務(wù)數(shù)據(jù),可方便的擴(kuò)展數(shù)以千計(jì)的節(jié)點(diǎn)。l 高效性:l 在MapReduce的思想下,Hadoop是并行

12、工作的,以加快任務(wù)處理速度。l 高容錯性:l 自動保存多份副本數(shù)據(jù),并且能夠自動將失敗的任務(wù)重新分配。l 兼容性l 不能只給玩,要給其它人開發(fā)的組件也能用Hadoop的三大版本l Apachel Apache版本最原始(最基礎(chǔ))的版本l 技術(shù)最新l Clouderal 最早的版,2008年成立,Doug Cutting加盟l 兼容性、安全性、穩(wěn)定性較高l Cloudera在大型互聯(lián)網(wǎng)企業(yè)中用的較多l(xiāng) Hortonworksl 后起之秀,2011年成立l 離開源更加接近圈Hadoop大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)l 云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了最新的技術(shù)發(fā)展趨勢,三者既有區(qū)別又有大數(shù)據(jù)云計(jì)算為大數(shù)據(jù)提供

13、了技術(shù)基礎(chǔ)大數(shù)據(jù)為云計(jì)算提供用武之地物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源大數(shù)據(jù)技術(shù)為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐云計(jì)算為物聯(lián)網(wǎng)提供海量數(shù)據(jù)能力物聯(lián)網(wǎng)為云計(jì)算技術(shù)提供了廣闊的應(yīng)用空間物聯(lián)網(wǎng)云計(jì)算云計(jì)算l 云計(jì)算概念l 云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時隨地獲得所需的各種IT云計(jì)算l包括:虛擬化、分布式租戶等、分布式計(jì)算、多l(xiāng)物聯(lián)網(wǎng)l 物聯(lián)網(wǎng)概念l 物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把物聯(lián)網(wǎng)l物聯(lián)網(wǎng)中的包括識別和感知技術(shù)(、lRFID、傳感器等)、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等傳感器、器、和物等通過新的

14、方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化和管理應(yīng)用層智能交通 智能電網(wǎng) 智慧農(nóng)業(yè) 智能工業(yè) 智能家居 智慧醫(yī)療業(yè)務(wù)支撐平臺(中間件平臺)處理層服務(wù)支撐平臺網(wǎng)絡(luò)管理平臺信息處理平臺平臺網(wǎng)絡(luò)層電信網(wǎng)互聯(lián)網(wǎng)廣電網(wǎng)電網(wǎng)網(wǎng)其他網(wǎng)RFID網(wǎng)絡(luò)傳感器網(wǎng)絡(luò)感知層RFID和M2M終端導(dǎo)航傳感器攝像頭(a)溫濕度傳感器(b)傳感器(c)煙霧傳感器圖1-9 物聯(lián)網(wǎng)體系架構(gòu)Hadoop的現(xiàn)在和未來:真*數(shù)據(jù)遷移 用戶數(shù)據(jù)中心 另一個數(shù)據(jù)中心 傳輸設(shè)備IDC 公路 傳輸設(shè)備數(shù)據(jù)接入Hadoop的現(xiàn)在和未來:與計(jì)算分離l 數(shù)據(jù)本地化(Data Locality)的概念已不適用l 數(shù)據(jù)平衡操作成本高昂;l 網(wǎng)絡(luò)性能

15、逐年提高已經(jīng)不成為性能瓶頸;計(jì)算與解耦 - BDaaS參考架構(gòu)/計(jì)算Co-location架構(gòu)也無法保證高數(shù)據(jù)l本地化率(30% in);需求與計(jì)算需求增長不對稱,大數(shù)據(jù)集l群擴(kuò)容后存在計(jì)算l 傳統(tǒng)Hadoop架構(gòu)中使用率低與計(jì)算是綁資。定在一起的,因此當(dāng)組織需要的源,他們必須 長期下去,這種可能不需要的計(jì)算模式會導(dǎo)致越來越多的計(jì)算閑置,對IT預(yù)算造成浪費(fèi)。l 趨勢: 架構(gòu)與計(jì)算解耦、中心化共享式l 簡化管理、降低成本、使用率;備注:Hadoop Compatible File System (HCFS)參考:Unlock Big Data Analytics Efficiency with

16、Compute andStorage Disaggregation on Intel® Platformsl 共享式方便數(shù)據(jù)分析類協(xié)同數(shù)據(jù)保護(hù)及安全lHadoop的現(xiàn)在和未來:EMR與計(jì)算分離ll CPU與內(nèi)存可彈性伸縮上,不需要l 數(shù)據(jù)在對象三倍的數(shù)據(jù)l 可以根據(jù)特定的需求定制特殊的作業(yè)優(yōu)化l Spark:內(nèi)存密集型l Hive:CPU密集型l Hbase:IO密集型Hadoop的現(xiàn)在和未來: DBaaS與Serverlessl 趨勢: BDaaS向著Serverless方向演進(jìn),進(jìn)一步降低大數(shù)據(jù)分析門檻及使用成本l 無需集群部署及運(yùn)維管理成本;Serverless - BDaaS

17、參考架構(gòu)l 按需,無閑置成本;l 按使用彈性擴(kuò)容;l 高可用、容錯參考:Data management and analytics using serverless formfactorsHadoop的現(xiàn)在和未來: 數(shù)據(jù)湖數(shù)據(jù)湖是一種新興起的架構(gòu)方法,用于在集中式庫中和分析海量異構(gòu)數(shù)據(jù)。 用來解決傳統(tǒng)數(shù)據(jù)架構(gòu)中存在數(shù)據(jù)孤島、數(shù)據(jù)成本等問題。著以S3為中心的數(shù)據(jù)湖AWS構(gòu)建了數(shù)據(jù)匯聚、數(shù)據(jù)分析、元數(shù)據(jù)管理、數(shù)據(jù)湖治理、安全與等一系列服務(wù)?;跀?shù)據(jù)湖架構(gòu)的新服務(wù)也在不斷演進(jìn)。Hadoop的現(xiàn)在和未來: 數(shù)據(jù)湖數(shù)據(jù)湖是一種新興起的架構(gòu)方法,用于在集中式庫中和分析海量異構(gòu)數(shù)據(jù)。 用來解決傳統(tǒng)數(shù)據(jù)架構(gòu)中

18、存在數(shù)據(jù)孤島、數(shù)據(jù)成本等問題。著以S3為中心的數(shù)據(jù)湖AWS構(gòu)建了數(shù)據(jù)匯聚、數(shù)據(jù)分析、元數(shù)據(jù)管理、數(shù)據(jù)湖治理、安全與等一系列服務(wù)?;跀?shù)據(jù)湖架構(gòu)的新服務(wù)也在不斷演進(jìn)。敬請指正!HDFS的原理與架構(gòu)HDFS集群包括,主節(jié)點(diǎn)(NameNode) 和數(shù)據(jù)節(jié)點(diǎn)(DataNode) 以及從節(jié)點(diǎn)(Secondary Namenode)。 主節(jié)點(diǎn)(NameNode):負(fù)責(zé)管理整個文件系統(tǒng)的元數(shù)據(jù),以及每一個路徑(文件)所對應(yīng)的數(shù)據(jù)塊信息??蛻舳苏埱笳埱?數(shù)據(jù)節(jié)點(diǎn)(DataNode):負(fù)責(zé)管理用戶的文件數(shù)據(jù)塊,每一個數(shù)據(jù)塊都可以在多個主節(jié)點(diǎn)客戶端讀寫寫數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)datanode上多個副本。 從節(jié)點(diǎn)(Sec

19、ondary NameNode):用來HDFS狀態(tài)的輔助程序,每隔一段時間獲取HDFS元數(shù)據(jù)的快照。機(jī)架1機(jī)架n文件塊HDFS的HAHDFS寫數(shù)據(jù)流程N(yùn)ameNode1 向namenode請求上傳文件/user/atguigu/ss.avi2 響應(yīng)可以上傳文件客戶端3 請求上傳第一個block(0-128M),請返回datanode4返回dn1,dn2,dn3節(jié)點(diǎn),表示采用這三個節(jié)點(diǎn)數(shù)據(jù)200m0-128mDataNodeDataNode1DataNode236 dn1應(yīng)答ss.avi6 dn3應(yīng)答6 dn2應(yīng)答5 請求建立block傳輸通道5 請求建立通道5 請求建立通道Bytebuffer

20、BytebuffeBytebuffer7 傳輸數(shù)據(jù)rblk_177 blk_17 blk_1元數(shù)據(jù)HDFS讀數(shù)據(jù)流程1 請求文件/user/atguigu/ss.avi2 返回目標(biāo)文件的元數(shù)據(jù)NameNode客戶端200m5 請求讀數(shù)據(jù)blk_20-128mDataNode2DataNode3ss.aviDataNode13 請求讀數(shù)據(jù)blk_16 傳輸數(shù)據(jù)7 blk_14 傳輸數(shù)據(jù)7 blk_17 blk_27 blk_17 blk_27 blk_2元數(shù)據(jù)/user/atguigu/ss.aviblk_1,blk_2,blk_1,blk_2,blk_1,blk_2Hadoop的現(xiàn)在和未來Federation與ECl Federationl Erasure Encoding(EC)Yarn的原理與架構(gòu)ResourceManager 處理客戶端請求 啟動/ApplicationMasterNodeManager分配與調(diào)度App MstrContainerClientNodeManager 單個節(jié)點(diǎn)上的管理Client 處理來自ResourceManger 處理來自ApplicationMaster令令A(yù)pp MstrContainerApplicationMaster 為應(yīng)用程序申請分配給內(nèi)部任務(wù),并ContainerContaine

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論