




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
淺談大數(shù)據(jù)生態(tài)體系Talkingaboutbigdataecosystem何為大數(shù)據(jù)大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn):一是數(shù)據(jù)體量巨大。至少是PB級(jí)別以上量級(jí)的數(shù)據(jù)二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。三是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。四是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。大數(shù)據(jù),首先你要能存的下大數(shù)據(jù)傳統(tǒng)的文件系統(tǒng)是單機(jī)的,不能橫跨不同的機(jī)器。HDFS(HadoopDistributedFileSystem)的設(shè)計(jì)本質(zhì)上是為了大量的數(shù)據(jù)能橫跨成百上千臺(tái)機(jī)器,但是你看到的是一個(gè)文件系統(tǒng)而不是很多文件系統(tǒng)。比如你說我要獲取/hdfs/tmp/file1的數(shù)據(jù),你引用的是一個(gè)文件路徑,但是實(shí)際的數(shù)據(jù)存放在很多不同的機(jī)器上。你作為用戶,不需要知道這些,就好比在單機(jī)上你不關(guān)心文件分散在什么磁道什么扇區(qū)一樣。HDFS為你管理這些數(shù)據(jù)。那什么是HDFS(HadoopDistributedFileSystem)?一個(gè)分布式存儲(chǔ)系統(tǒng)GoogleGFS的開源實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)采用master/slave架構(gòu)模式,主要由Client、NameNode、SecondaryNameNode和DataNode組成HDFS:體系結(jié)構(gòu)示意圖NameNode管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問操作。DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求,并在NameNode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作。ClientNameNodeDataNodeblockblockblockblockblock.......DataNodeblockblockblockblockblock..............DataNodeblockblockblockblockblock.......數(shù)據(jù)請求讀寫文件相關(guān)操作處理數(shù)據(jù)存的下數(shù)據(jù)之后,你就開始考慮怎么處理數(shù)據(jù)雖然HDFS可以為你整體管理不同機(jī)器上的數(shù)據(jù),但是這些數(shù)據(jù)太大了。一臺(tái)機(jī)器讀取成TB或者PB量級(jí)的數(shù)據(jù),一臺(tái)機(jī)器慢慢跑也許需要好幾天甚至好幾周。對(duì)于很多公司來說,單機(jī)處理是不可忍受的,比如微博要更新24小時(shí)熱博,它必須在24小時(shí)之內(nèi)跑完這些處理。那么我如果要用很多臺(tái)機(jī)器處理,我就面臨了如何分配工作,如果一臺(tái)機(jī)器掛了如何重新啟動(dòng)相應(yīng)的任務(wù),機(jī)器之間如何互相通信交換數(shù)據(jù)以完成復(fù)雜的計(jì)算等等。為了解決以上可能出現(xiàn)的問題,人們正式提出了MapReduce/Tez/Spark等等框架。MapReduce是第一代計(jì)算編程模型,Tez和Spark是第二代。MapReduce的設(shè)計(jì),采用了極簡化的計(jì)算模型,只有Map和Reduce兩個(gè)計(jì)算過程,通過這個(gè)模型,已經(jīng)可以處理大數(shù)據(jù)領(lǐng)域很大一部分問題了。Hadoop概述Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)(HDFS,HadoopDistributedFileSystem)和MapReduce(GoogleMapReduce的開源實(shí)現(xiàn))為核心的Hadoop,為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。所以,用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理什么是MapReduce?找出一倉庫黃豆中最大的n個(gè)黃豆如何解決?一倉庫黃豆一桶黃豆一桶黃豆一桶黃豆一桶黃豆……篩子篩子篩子篩子黃豆黃豆黃豆黃豆一桶黃豆篩子黃豆找N個(gè)人一起篩黃豆,最后把每個(gè)人篩出的K個(gè)黃豆放在一起(總共N*K個(gè)黃豆),再交由一個(gè)人篩出N*K個(gè)黃豆里最大的K個(gè)(分布式計(jì)算)MAPReduceMapReduce模型概述一個(gè)MapReduce作業(yè)(job)通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由map任務(wù)(task)以完全并行的方式處理它們??蚣軙?huì)對(duì)map的輸出先進(jìn)行排序,然后把結(jié)果輸入給reduce任務(wù)。通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。整個(gè)框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。Map-Reduce流程MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出Key/Value對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后,會(huì)根據(jù)key值進(jìn)行排序,將具有相同key值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。MapReduce的缺點(diǎn)Hadoop的一個(gè)最主要缺陷:MapReduce計(jì)算模型延遲過高,無法勝任實(shí)時(shí)、快速計(jì)算的需求,因而只適用于離線批處理的應(yīng)用場景。1、表達(dá)能力有限:計(jì)算都必須要轉(zhuǎn)化為Map和Reduce兩個(gè)操作,但這并不是適合所有的情況,難以描述復(fù)雜的數(shù)據(jù)處理過程;2、磁盤IO開銷大:每次執(zhí)行時(shí)都需要從磁盤讀取數(shù)據(jù),并且在計(jì)算完成后需要將中間結(jié)果寫入磁盤,IO開銷較大;3、延遲高:一次計(jì)算可能需要分解成一系列按順序執(zhí)行的MapReduce任務(wù),任務(wù)之間的銜接由于涉及到IO開銷,會(huì)產(chǎn)生較高的延遲。而且在前一任務(wù)執(zhí)行完成之前,其他任務(wù)無法開始,因此難以勝任復(fù)雜、多階段的計(jì)算任務(wù)。第二代計(jì)算框架—Spark盡管MapReduce極大的簡化了大數(shù)據(jù)分析,但是隨著大數(shù)據(jù)需求和使用模式的擴(kuò)大,用戶的需求也越來越多,MapReduce顯得力不從心1.更復(fù)雜的多重處理需求(比如迭代計(jì)算,機(jī)器學(xué)習(xí)(ML),圖算法Graph);2.低延遲的交互式查詢需求而MapReduce計(jì)算模型的架構(gòu)導(dǎo)致上述兩類應(yīng)用先天緩慢,用戶迫切需要一種更快的計(jì)算模型,來補(bǔ)充MapReduce的先天不足。于是,Spark就出現(xiàn)了Spark架構(gòu)Spark的優(yōu)點(diǎn)(1)運(yùn)行速度快:Spark使用先進(jìn)的DAG執(zhí)行引擎,以支持循環(huán)數(shù)據(jù)流和內(nèi)存計(jì)算,基于內(nèi)存的執(zhí)行速度可比HadoopMapReduce快上百倍,基于磁盤的執(zhí)行速度也能快十倍;(2)易使用:Spark支持使用Scala、Java、Python和R語言進(jìn)行編程,簡潔的API設(shè)計(jì)有助于用戶輕松構(gòu)建并行程序。(3)通用性:Spark提供了完整而強(qiáng)大的技術(shù)棧,包括SQL查詢(SparkSQL)、流式計(jì)算(SparkStreaming)、機(jī)器學(xué)習(xí)(MLlib)和圖算法(GraphX)組件;(4)運(yùn)行模式多樣:Spark可以運(yùn)行于獨(dú)立的集群模式中,或運(yùn)行于Hadoop中,也可以運(yùn)行于AmazonEC2等云環(huán)境中,并且可以訪問HDFS、HBase、Hive等多種數(shù)據(jù)源;HBase數(shù)據(jù)庫HBase的特點(diǎn)?大:一個(gè)表可以有上億行,上百萬列;面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索;稀疏:對(duì)于為空(null)的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)得非常稀疏。HBase的是啥?HBase建立在HDFS之上,提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。它介于NoSQL和RDBMS之間,僅能通過行鍵(rowkey)和行鍵序列來檢索數(shù)據(jù),僅支持單行事務(wù)(可通過Hive支持來實(shí)現(xiàn)多表聯(lián)合等復(fù)雜操作)。主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。與Hadoop一樣,HBase目標(biāo)主要依靠橫向擴(kuò)展,通過不斷增加廉價(jià)的商用服務(wù)器,來增加計(jì)算和存儲(chǔ)能力。Hbase的架構(gòu)Hive介紹Hive是一個(gè)數(shù)據(jù)倉庫基礎(chǔ)工具在Hadoop中用來處理結(jié)構(gòu)化數(shù)據(jù)。它架構(gòu)在Hadoop之上,總歸為大數(shù)據(jù),并使得查詢和分析方便。并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。Hive和Hbase區(qū)別Hive:Hive是Hadoop數(shù)據(jù)倉庫,嚴(yán)格來說,不是數(shù)據(jù)庫,主要是讓開發(fā)人員能夠通過SQL來計(jì)算和處理HDFS上的結(jié)構(gòu)化數(shù)據(jù),適用于離線的批量數(shù)據(jù)計(jì)算。通過Hive可以使用HQL語言查詢存放在HDFS上的數(shù)據(jù)。HQL是一種類SQL語言,這種語言最終被轉(zhuǎn)化為Map/Reduce。應(yīng)用場景:Hive適合用來對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析查詢,例如,用來計(jì)算趨勢或者網(wǎng)站的日志。Hive不應(yīng)該用來進(jìn)行實(shí)時(shí)的查詢。因?yàn)樗枰荛L時(shí)間才可以返回結(jié)果。Hbase非常適合用來進(jìn)行大數(shù)據(jù)的實(shí)時(shí)查詢。Facebook用Hbase進(jìn)行消息和實(shí)時(shí)的分析。它也可以用來統(tǒng)計(jì)Facebook的連接數(shù)。Hive是一個(gè)數(shù)據(jù)倉庫,那么Hive和傳統(tǒng)意義上的數(shù)據(jù)庫有什么不一樣的呢?1.hive和關(guān)系數(shù)據(jù)庫存儲(chǔ)文件的系統(tǒng)不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系統(tǒng)),關(guān)系數(shù)據(jù)庫則是服務(wù)器本地的文件系統(tǒng).2.hive使用的計(jì)算模型是mapreduce,而關(guān)系數(shù)據(jù)庫則是自己設(shè)計(jì)的計(jì)算模型.3.關(guān)系數(shù)據(jù)庫都是為實(shí)時(shí)查詢的業(yè)務(wù)進(jìn)行設(shè)計(jì)的,而hive則是基于hadoop的,是為海量數(shù)據(jù)做數(shù)據(jù)挖掘設(shè)計(jì)的,實(shí)時(shí)性很差;實(shí)時(shí)性的區(qū)別導(dǎo)致hive的應(yīng)用場景和關(guān)系數(shù)據(jù)庫有很大的不同。4.Hive很容易擴(kuò)展自己的存儲(chǔ)能力和計(jì)算能力,這個(gè)是繼承hadoop的,而關(guān)系數(shù)據(jù)庫在這個(gè)方面要比數(shù)據(jù)庫差很多。1.低延遲和高性能2.可擴(kuò)展3.高可靠性4.高容錯(cuò)性5.編程模型簡單6.支持多種編程語言7.支持本地模式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能農(nóng)業(yè)作物損壞賠償與病蟲害防治服務(wù)協(xié)議
- 二零二五醫(yī)療事故賠償協(xié)議書撰寫要點(diǎn)解析
- 2025年度智能化住宅房屋租賃定金合同模板范文
- 二零二五年度知識(shí)產(chǎn)權(quán)戰(zhàn)略布局專利代理合同
- 二零二五年度主播才藝展示及經(jīng)紀(jì)管理協(xié)議
- 二零二五年度能源合同可撤銷條款與節(jié)能減排合同
- 二零二五年度全新辦公區(qū)轉(zhuǎn)租協(xié)議合同:商務(wù)辦公空間租賃權(quán)轉(zhuǎn)讓
- 二零二五年度合同管理制及流程圖編制與執(zhí)行標(biāo)準(zhǔn)合同
- 2025年度智能醫(yī)療設(shè)備研發(fā)團(tuán)隊(duì)技術(shù)人員勞動(dòng)合同
- 二零二五年度新材料專利共享許可協(xié)議
- 2025年高考語文備考訓(xùn)練之社會(huì)現(xiàn)象:“數(shù)字囤積癥”
- 2025包頭青山賓館有限公司面向社會(huì)公開招聘18人筆試參考題庫附帶答案詳解
- 《運(yùn)營管理 第7版》課件全套 馬風(fēng)才 第01-15章 運(yùn)營管理概論- 互聯(lián)網(wǎng)運(yùn)營
- 課件-DeepSeek從入門到精通
- 2025至2030年中國毛絨卡通玩具數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年度智能充電樁場地租賃合同范本3篇
- 心電監(jiān)護(hù)儀的操作及注意事項(xiàng) 課件
- GB/T 718-2024鑄造用生鐵
- 細(xì)胞生物學(xué)(全套1047張課件)
- 結(jié)構(gòu)力學(xué)+李廉錕版-+第七章 力法
- 第二章--美國學(xué)前教育--比較學(xué)前教育PPT
評(píng)論
0/150
提交評(píng)論