




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop基礎(chǔ)知識(shí)培訓(xùn)江西電信大數(shù)據(jù)支撐團(tuán)隊(duì)2014年中國電信大數(shù)據(jù)技術(shù)與應(yīng)用培訓(xùn)1ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had2企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一主要內(nèi)容第一篇
Hadoop綜述·
第二篇
HDFS
分布式文件系統(tǒng)第三篇
MapReduce
分布式計(jì)算框架·
第四篇
常用Hadoop組件介紹2ppt課件2把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一主要內(nèi)容第一篇3企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第一篇Hadoop綜述:
什么是Hadoop:
Hadoop生態(tài)系統(tǒng):
Hadoop的廠商:
Hadoop的部署3ppt課件3把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第一篇Hadoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop是什么?Hadoop是Apache基金會(huì)下的一個(gè)開源分布式計(jì)算平臺(tái),以分布式文件系統(tǒng)(HDFS)和分布式計(jì)算框架(MapReduce)為核心,為用戶提供了底層細(xì)節(jié)透明的分布式基礎(chǔ)設(shè)施。yHDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn),允許用戶將Hadoop部署
在廉價(jià)的硬件上,構(gòu)建分布式系統(tǒng)。yMapReduce分布式計(jì)算框架允許用戶在不了解分布式底層細(xì)節(jié)
的情況下開發(fā)并行、分布的應(yīng)用程序,利用大規(guī)模計(jì)算資源,解決傳統(tǒng)高性能單機(jī)無法解決的大數(shù)據(jù)處理問題HadoopNutchLucene高性能全文索引工具包高性能搜索引擎工具包版本演進(jìn)對(duì)應(yīng)Cloudera公司的CDH3u5對(duì)應(yīng)Cloudera
公司的CDH44ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop的特點(diǎn)Hadoop運(yùn)用于海量數(shù)據(jù)處理,主要有如下幾個(gè)優(yōu)勢(shì):方便Hadoop可以運(yùn)行在一般商業(yè)機(jī)器(X86服務(wù)器)構(gòu)成的大型集群上彈性Hadoop通過增加集群節(jié)點(diǎn),可以線性擴(kuò)展以處理更大的數(shù)據(jù)集;同時(shí)在負(fù)載下降時(shí),也可減少節(jié)點(diǎn),以便高效使用資源。健壯Hadoop設(shè)計(jì)之初,將故障檢測(cè)和自動(dòng)恢復(fù)作為設(shè)計(jì)目標(biāo),可以從容處理通用計(jì)算平臺(tái)上出現(xiàn)的硬件失效情況。簡單Hadoop允許用戶快速編寫出高效的并行分布式代碼。5ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HADOOP生態(tài)系統(tǒng)y經(jīng)過幾年的快速發(fā)展,Hadoop現(xiàn)在已經(jīng)發(fā)展成為包含多個(gè)相關(guān)項(xiàng)目的軟件生態(tài)系統(tǒng),成為大數(shù)據(jù)處理技術(shù)的事實(shí)標(biāo)準(zhǔn),目前典型的Hadoop生態(tài)系統(tǒng)如下所示:6ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一·發(fā)展目標(biāo)HADOOP生態(tài)系統(tǒng)(1)實(shí)時(shí)應(yīng)用場(chǎng)景(0~5s):Storm、S4等;(2)交互式場(chǎng)景(5s~1m):這種場(chǎng)景通常能要求必須支持SQL,則可行系統(tǒng)有:Cloudera
Impala、Apache
Drill、Shark等;(3)非交互式場(chǎng)景(1m~1h):通常運(yùn)行時(shí)間較長,處理數(shù)據(jù)量較大,對(duì)容錯(cuò)性和擴(kuò)展性要求較高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等;(4)批處理場(chǎng)景(1h+):通常運(yùn)行時(shí)間很長,處理數(shù)據(jù)量很大,對(duì)容錯(cuò)性和擴(kuò)展性要
求很高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等。7ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一·發(fā)展企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HADOOP廠商Hadoop處于近時(shí)間的大數(shù)據(jù)革命的風(fēng)暴眼,在Hadoop取得成功的同時(shí)也促使主流市場(chǎng)對(duì)其穩(wěn)定性、成熟的管理,豐富的SQL環(huán)境等提出更高要求,于是Hadoop廠商通過技術(shù)創(chuàng)新各顯神通。8ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一物理上的Hadoop集群9ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一物理上企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一邏輯部署的Hadoop集群10ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一邏輯部企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一簡介:
江西電信Hadoop批處理平臺(tái)共由62臺(tái)PC服務(wù)器構(gòu)成,
形成物理上獨(dú)立的3個(gè)RACK,按照功能角色分組,主控
節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、Hive接入
節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、監(jiān)控告警節(jié)點(diǎn)和ETL節(jié)點(diǎn)。主控節(jié)點(diǎn)6臺(tái)
(2臺(tái)Namenode、1臺(tái)
Jobtracker、3臺(tái)
Zookeeper)數(shù)據(jù)節(jié)點(diǎn)56臺(tái)江西電信物理部署的Hadoop集群11ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一簡介:12企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇HDFS一:
HDFS簡介二:
HDFS
架構(gòu)三:
漫畫HDFS之讀寫機(jī)制四:
漫畫HDFS之容錯(cuò)性五:
漫畫HDFS之復(fù)制策略12ppt課件12把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇HDFS企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1 HDFS簡介HDFS(HADOOP
DISTRIBUTEDFILESYSTEM),是一個(gè)分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的一種用戶級(jí)文件系統(tǒng)。有一定的容錯(cuò)性,能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS
提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案13ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1 H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
HDFS
架構(gòu)Block:大文件的存儲(chǔ)會(huì)被分割為多個(gè)block進(jìn)行存儲(chǔ)。默認(rèn)64MB,每一個(gè)blok會(huì)在多個(gè)datanode上存儲(chǔ)多份副本,默認(rèn)3份基本概念Namenode:主要負(fù)責(zé)存儲(chǔ)一些metadata信息,主要包括文件目錄、block和文件對(duì)應(yīng)關(guān)系,以及block和datanote的對(duì)應(yīng)關(guān)系Datanode:負(fù)責(zé)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)以block的形式存在14ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫15ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫(續(xù))16ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫17ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫18ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)19ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)20ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)21ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)22ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一5
HDFS
之漫畫復(fù)制策略23ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一5H24企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇
MapReduce一:MapReduce基礎(chǔ)二:MapReduce優(yōu)劣三:MapReduce工作原理24ppt課件24把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
MapReduce基礎(chǔ)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。核心操作由"Map(映射)"和"Reduce(歸約)"組成,極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上典型的MapReduce過程可以細(xì)分為Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等階段25ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
MapReduce示例1.輸入端根據(jù)輸入文本大小進(jìn)行切片形成適合Map處理的數(shù)據(jù)片2.分片后的數(shù)據(jù)申請(qǐng)Map資源,執(zhí)行本地單詞映射操作3.通過交換將map生成的結(jié)果按照單詞進(jìn)行歸并重組4.重組后的結(jié)果,申請(qǐng)Reduce資源,進(jìn)行單詞的合并統(tǒng)計(jì)5.對(duì)Reduce的結(jié)果進(jìn)行記錄合并生成輸出文件MapReduce過程示例?
對(duì)輸入的文本進(jìn)行單詞統(tǒng)計(jì)?
對(duì)輸入的文本進(jìn)行單詞統(tǒng)計(jì)26ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
MapReduce
執(zhí)行過程從MapReduce在整個(gè)Hadoop框架的位置可以看出作為Hadoop最成熟
的批處理框架,MapReduce起到承
上啟下的作用,一方面可以操作
HDFS中的數(shù)據(jù),另一方面可以被封
裝,提供Hive、Pig這樣的上層組件的調(diào)用27ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一MapReduce優(yōu)劣MapReduce的缺點(diǎn)? 通過MapReduce這個(gè)分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來,比如,自動(dòng)并行化、負(fù)載均衡和災(zāi)備管理等,這樣將極大地簡化開發(fā)者工作? MapReduce的伸縮性非常好,也就是說,每增加一臺(tái)服務(wù)器,其就能將差不多的計(jì)算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠(yuǎn)。MapReduce的缺點(diǎn)? MapReduce最大的不足則在于,其不適應(yīng)實(shí)時(shí)應(yīng)用的需求,目前還無法滿足用戶交互式的需求。28ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
MapReduce+YARN29ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3M30企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第四篇
Hadoop常用組件簡介:Hadoop常用組件——Hbase簡介:
Hadoop常用組件——Hive簡介:
Hadoop常用組件——Pig簡介:Hadoop常用組件——Zookeeper簡介:Hadoop常用組件——Sqoop簡介:Hadoop常用組件——Hue簡介30ppt課件30把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第四篇Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
Hbase簡介HBase是一個(gè)分布式的、多版本的、面向列的開源數(shù)據(jù)庫·
利用Hadoop
HDFS作為其文件存儲(chǔ)系統(tǒng),提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)利用Hadoop
MapReduce來處理HBase中的海量數(shù)據(jù)利用Zookeeper作為協(xié)同服務(wù)31ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBase
簡介(續(xù))?
大:一個(gè)表可以有上億行,上百萬列?
面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索?
稀疏:對(duì)于為空的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)的非常稀疏?
多版本:每條記錄中的數(shù)據(jù)可以有多個(gè)版本?
無類型:存在HBase中的數(shù)據(jù)都是字符串,無其他類型32ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBase與RDBMS對(duì)比Hbase的優(yōu)點(diǎn)y1
列的可以動(dòng)態(tài)增加,并且列為空就不存儲(chǔ)數(shù)據(jù),節(jié)省存儲(chǔ)空間.y2
可以自動(dòng)切分?jǐn)?shù)據(jù),使得數(shù)據(jù)存儲(chǔ)自動(dòng)具有水平擴(kuò)展.y3
可以提供高并發(fā)讀寫操作的支持Hbase的潛在缺點(diǎn)y1
不能支持條件查詢,只支持按照Row
key來查詢y2
暫時(shí)不能支持Master
server的故障切換,當(dāng)Master宕機(jī)后,整個(gè)存儲(chǔ)系統(tǒng)就會(huì)掛掉HBaseRDBMS數(shù)據(jù)類型只有字符串豐富的數(shù)據(jù)類型數(shù)據(jù)操作簡單的增刪改查各種各樣的函數(shù),表連接存儲(chǔ)模式基于列存儲(chǔ)基于表格結(jié)構(gòu)和行存儲(chǔ)數(shù)據(jù)保護(hù)更新后舊版本仍然會(huì)保留替換可伸縮性輕易的進(jìn)行增加節(jié)點(diǎn),兼容性高需要中間層,犧牲功能33ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
HBase
體系結(jié)構(gòu)34ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hbase應(yīng)用場(chǎng)景成熟的數(shù)據(jù)分析主題,業(yè)務(wù)場(chǎng)景簡單,不需要關(guān)系數(shù)據(jù)庫中很多特性,查詢模式已經(jīng)確定并且不易改變傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法承受負(fù)荷,高速插入,有大量讀取清單的需求,并且有快速隨機(jī)訪問的需求適合海量的,但是同時(shí)也是簡單的操作,具備低延時(shí)的數(shù)據(jù)返回,比如說key-value的操作,是生產(chǎn)環(huán)境對(duì)外訪問可行的方式海量數(shù)據(jù)存儲(chǔ)的驅(qū)使,具備動(dòng)態(tài)擴(kuò)展系統(tǒng)容量的需求35ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hba企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop常用組件——Hive簡介Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的類sql查詢功能,可以將類sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。36ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一當(dāng)前數(shù)據(jù)分析方法百萬級(jí)千萬級(jí)億萬級(jí)以上Unix/Linux工具
awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等RDBMS,如
Mysql、Mongodb
Oracle、DB2等· 分布式:Oracle
RAC、GreenplumHadoop(開源免費(fèi))
MPP主要基于單機(jī)計(jì)算基于集群并行計(jì)算37ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一當(dāng)前數(shù)企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HIVE
VS
SQL數(shù)據(jù)存儲(chǔ) HDFS/HBase RawDevice/Loacl
FS數(shù)據(jù)格式 用戶自定義 系統(tǒng)決定數(shù)據(jù)更新 不支持(覆蓋之前數(shù)據(jù)) 支持索引 有(0.8版本新增) 有執(zhí)行 MapReduce Executor執(zhí)行延遲 高 低可擴(kuò)展性 高(UDF、UDAF、UDTF) 低數(shù)據(jù)規(guī)模 大(數(shù)據(jù)大于TB) 小數(shù)據(jù)檢查 讀時(shí)模式 寫時(shí)模式? 列分隔符(通常為空格、”\t”、”\x001″)? 行分隔符(”\n”)? 隨時(shí)間變化的如MYSQL:MyISAM、InnoDB、MEMORY…SQL:? 需要經(jīng)常進(jìn)行修改的,面向用戶的數(shù)據(jù)添加數(shù)據(jù),HQLSQLHIVE:
不支持? 建針沒立有在數(shù)索據(jù)H引a倉,do庫需o應(yīng)p要之用掃上設(shè)描的計(jì)整,的個(gè)可,表擴(kuò)數(shù)(展據(jù)或性倉者與庫分h是區(qū)a讀d)o操o,p作因一遠(yuǎn)此致遠(yuǎn)延多遲于較寫高操(作在0.8.X版之后加入了索?引世)數(shù)界據(jù)上倉最庫大的的特性Ha是do:op
集群在
Yahoo!,2009年的規(guī)模在
4000臺(tái)節(jié)點(diǎn)左右M文a件pR存e?儲(chǔ)du格c面e式向本,主身默題具認(rèn)有有較T高ex的tF延ile遲、(Se分qu鐘en級(jí)ce)File、RCFileSQL: ? 集成的SQL
:?? 不數(shù)同據(jù)的庫數(shù)由據(jù)于庫A有CI不D
同語的義存的儲(chǔ)嚴(yán)引格擎限。制對(duì)于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱? 目前最先進(jìn)的并行數(shù)據(jù)庫
Oracle
在理論上的擴(kuò)展能力也只有
100
臺(tái)左右? 對(duì)于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱INSERT
INTO
...
VALUESUPDATE
...
SET
修改數(shù)據(jù)38ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HIV企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig是Hadoop上層的衍生架構(gòu),對(duì)比Hive(一種聲明式的語言),Pig是一種過程語言,類似于存儲(chǔ)過程一步一步的對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化Pig對(duì)MapReduce算法實(shí)現(xiàn)了一套shell,類似SQL語句,在Pig中稱為Pig
Latin,可以對(duì)數(shù)據(jù)進(jìn)行排序、過濾、求和、分組(group
by)、關(guān)聯(lián)(Joining)等操作Pig也可以由用戶自定義一些函數(shù)對(duì)數(shù)據(jù)集進(jìn)行操作,也就是傳說中的UDF(user-defined
functions)。Hadoop常用組件——Pig簡介39ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig和Hive的對(duì)比特性HivePig語言SQL-likePigLatin模式是(嚴(yán)格)是(不嚴(yán)格)分區(qū)是否服務(wù)可選(Thrift)否自定義函數(shù)是(Java)是(Java)用戶序列化/非序列化是是是否可以訪問DFS是(不嚴(yán)格)是(嚴(yán)格)Join/Order/Sort是是Shell是是流計(jì)算是是Web接口是否JDBC/ODBC是(有限制)否40ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig的設(shè)計(jì)哲學(xué)?
Pig語言可以操縱各種類型的數(shù)據(jù),無論數(shù)據(jù)是否是元數(shù)據(jù)、是否結(jié)構(gòu)化,都沒有問題,甚至可以擴(kuò)展到對(duì)鍵/值
數(shù)據(jù)的操作Pigseatanything?
Pig設(shè)計(jì)是獨(dú)立成體系的,可以在Hadoop上的HDFS上實(shí)現(xiàn)運(yùn)行,也可以在其它的文件系統(tǒng)運(yùn)行Pig
liveanywhere?
Pig可以快速的處理數(shù)據(jù),今后對(duì)pig的持續(xù)改進(jìn),將不會(huì)讓它為了實(shí)現(xiàn)某種功能而降低性能,目的就是為了讓Pig可以自由的飛翔Pigsfly?
Pig被設(shè)計(jì)為易于操作和修改,用戶可以自己定義函數(shù)實(shí)現(xiàn)很多數(shù)據(jù)操作的功能,為了更好的讓數(shù)據(jù)操作函數(shù)共享,pig發(fā)起了一個(gè)全球的pig
bank的計(jì)劃,上面會(huì)有全球pig開發(fā)工程師共享的數(shù)據(jù)操作函數(shù),這些函數(shù)可以免費(fèi)共享和使用PigsaredomesticanimalsPig什么都能吃Pig
哪兒都能活Pig哪兒都能養(yǎng)讓pig飛翔41ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一ZooKeeper是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop常用組件——ZooKeeper簡介42ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Zoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一sqoop主要用來在Hadoop和關(guān)系數(shù)據(jù)庫中傳遞數(shù)據(jù)。通過sqoop,我們可以方便的將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫導(dǎo)入到HDFS,或者將數(shù)據(jù)從HDFS導(dǎo)出到關(guān)系數(shù)據(jù)庫。Hadoop常用組件——Sqoop簡介sqoop架構(gòu)非常簡單,其整合了Hive、Hbase和Oozie,通過map-reduce任務(wù)來傳輸數(shù)據(jù),從而提供并發(fā)特性和容錯(cuò)。sqoop架構(gòu)非常簡單,其整合了Hive、Hbase和Oozie,通過map-reduce任務(wù)來傳輸數(shù)據(jù),從而提供并發(fā)特性和容錯(cuò)。43ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一sqo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一推薦采用:Pentaho
DataIntegrate中的大數(shù)據(jù)組件集成了
Sqoop,使得我們可以在界面通
過拖拽使用sqoop組件,提高大家的開發(fā)效率Pentaho——Sqoop的拓展44ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一推薦采企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hue是專門為運(yùn)營和開發(fā)人員開發(fā)的,執(zhí)行Hadoop相關(guān)應(yīng)用的圖形化用戶界面。Hue程序被整合到一個(gè)類似桌面的環(huán)境,以web程序的形式發(fā)布,用戶可以通過B/S方式使用Hadoop常用組件——Hue簡介45ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hue企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一江西電信Hue部署y推薦:數(shù)據(jù)分析人員通過Hue來使用Hive可視化的界面和說明可以使沒接觸過Hadoop的分析人員迅速上手46ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一江西電企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一企業(yè)級(jí)hadoop平臺(tái)應(yīng)用模式共勉:
人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉(zhuǎn)變,是大數(shù)據(jù)做出的最大貢獻(xiàn)之一,
也是我們?yōu)橹畩^斗的目標(biāo)。47ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一企業(yè)級(jí)嗎?fMiE謝謝才巴,信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一PDF
created
with
pdfFactoryPro
trial
version
lC!!ww.od仔actolV.com48ppt課件嗎?fMiE謝謝才巴,信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop基礎(chǔ)知識(shí)培訓(xùn)江西電信大數(shù)據(jù)支撐團(tuán)隊(duì)2014年中國電信大數(shù)據(jù)技術(shù)與應(yīng)用培訓(xùn)49ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had2企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一主要內(nèi)容第一篇
Hadoop綜述·
第二篇
HDFS
分布式文件系統(tǒng)第三篇
MapReduce
分布式計(jì)算框架·
第四篇
常用Hadoop組件介紹50ppt課件2把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一主要內(nèi)容第一篇3企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第一篇Hadoop綜述:
什么是Hadoop:
Hadoop生態(tài)系統(tǒng):
Hadoop的廠商:
Hadoop的部署51ppt課件3把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第一篇Hadoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop是什么?Hadoop是Apache基金會(huì)下的一個(gè)開源分布式計(jì)算平臺(tái),以分布式文件系統(tǒng)(HDFS)和分布式計(jì)算框架(MapReduce)為核心,為用戶提供了底層細(xì)節(jié)透明的分布式基礎(chǔ)設(shè)施。yHDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn),允許用戶將Hadoop部署
在廉價(jià)的硬件上,構(gòu)建分布式系統(tǒng)。yMapReduce分布式計(jì)算框架允許用戶在不了解分布式底層細(xì)節(jié)
的情況下開發(fā)并行、分布的應(yīng)用程序,利用大規(guī)模計(jì)算資源,解決傳統(tǒng)高性能單機(jī)無法解決的大數(shù)據(jù)處理問題HadoopNutchLucene高性能全文索引工具包高性能搜索引擎工具包版本演進(jìn)對(duì)應(yīng)Cloudera公司的CDH3u5對(duì)應(yīng)Cloudera
公司的CDH452ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop的特點(diǎn)Hadoop運(yùn)用于海量數(shù)據(jù)處理,主要有如下幾個(gè)優(yōu)勢(shì):方便Hadoop可以運(yùn)行在一般商業(yè)機(jī)器(X86服務(wù)器)構(gòu)成的大型集群上彈性Hadoop通過增加集群節(jié)點(diǎn),可以線性擴(kuò)展以處理更大的數(shù)據(jù)集;同時(shí)在負(fù)載下降時(shí),也可減少節(jié)點(diǎn),以便高效使用資源。健壯Hadoop設(shè)計(jì)之初,將故障檢測(cè)和自動(dòng)恢復(fù)作為設(shè)計(jì)目標(biāo),可以從容處理通用計(jì)算平臺(tái)上出現(xiàn)的硬件失效情況。簡單Hadoop允許用戶快速編寫出高效的并行分布式代碼。53ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HADOOP生態(tài)系統(tǒng)y經(jīng)過幾年的快速發(fā)展,Hadoop現(xiàn)在已經(jīng)發(fā)展成為包含多個(gè)相關(guān)項(xiàng)目的軟件生態(tài)系統(tǒng),成為大數(shù)據(jù)處理技術(shù)的事實(shí)標(biāo)準(zhǔn),目前典型的Hadoop生態(tài)系統(tǒng)如下所示:54ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一·發(fā)展目標(biāo)HADOOP生態(tài)系統(tǒng)(1)實(shí)時(shí)應(yīng)用場(chǎng)景(0~5s):Storm、S4等;(2)交互式場(chǎng)景(5s~1m):這種場(chǎng)景通常能要求必須支持SQL,則可行系統(tǒng)有:Cloudera
Impala、Apache
Drill、Shark等;(3)非交互式場(chǎng)景(1m~1h):通常運(yùn)行時(shí)間較長,處理數(shù)據(jù)量較大,對(duì)容錯(cuò)性和擴(kuò)展性要求較高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等;(4)批處理場(chǎng)景(1h+):通常運(yùn)行時(shí)間很長,處理數(shù)據(jù)量很大,對(duì)容錯(cuò)性和擴(kuò)展性要
求很高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等。55ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一·發(fā)展企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HADOOP廠商Hadoop處于近時(shí)間的大數(shù)據(jù)革命的風(fēng)暴眼,在Hadoop取得成功的同時(shí)也促使主流市場(chǎng)對(duì)其穩(wěn)定性、成熟的管理,豐富的SQL環(huán)境等提出更高要求,于是Hadoop廠商通過技術(shù)創(chuàng)新各顯神通。56ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一物理上的Hadoop集群57ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一物理上企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一邏輯部署的Hadoop集群58ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一邏輯部企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一簡介:
江西電信Hadoop批處理平臺(tái)共由62臺(tái)PC服務(wù)器構(gòu)成,
形成物理上獨(dú)立的3個(gè)RACK,按照功能角色分組,主控
節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、Hive接入
節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、監(jiān)控告警節(jié)點(diǎn)和ETL節(jié)點(diǎn)。主控節(jié)點(diǎn)6臺(tái)
(2臺(tái)Namenode、1臺(tái)
Jobtracker、3臺(tái)
Zookeeper)數(shù)據(jù)節(jié)點(diǎn)56臺(tái)江西電信物理部署的Hadoop集群59ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一簡介:12企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇HDFS一:
HDFS簡介二:
HDFS
架構(gòu)三:
漫畫HDFS之讀寫機(jī)制四:
漫畫HDFS之容錯(cuò)性五:
漫畫HDFS之復(fù)制策略60ppt課件12把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇HDFS企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1 HDFS簡介HDFS(HADOOP
DISTRIBUTEDFILESYSTEM),是一個(gè)分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的一種用戶級(jí)文件系統(tǒng)。有一定的容錯(cuò)性,能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS
提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案61ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1 H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
HDFS
架構(gòu)Block:大文件的存儲(chǔ)會(huì)被分割為多個(gè)block進(jìn)行存儲(chǔ)。默認(rèn)64MB,每一個(gè)blok會(huì)在多個(gè)datanode上存儲(chǔ)多份副本,默認(rèn)3份基本概念Namenode:主要負(fù)責(zé)存儲(chǔ)一些metadata信息,主要包括文件目錄、block和文件對(duì)應(yīng)關(guān)系,以及block和datanote的對(duì)應(yīng)關(guān)系Datanode:負(fù)責(zé)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)以block的形式存在62ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫63ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫(續(xù))64ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫65ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
HDFS
之漫畫讀寫66ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)67ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)68ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)69ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4
HDFS
之漫畫容錯(cuò)70ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一5
HDFS
之漫畫復(fù)制策略71ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一5H24企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇
MapReduce一:MapReduce基礎(chǔ)二:MapReduce優(yōu)劣三:MapReduce工作原理72ppt課件24把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第二篇Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
MapReduce基礎(chǔ)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。核心操作由"Map(映射)"和"Reduce(歸約)"組成,極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上典型的MapReduce過程可以細(xì)分為Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等階段73ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
MapReduce示例1.輸入端根據(jù)輸入文本大小進(jìn)行切片形成適合Map處理的數(shù)據(jù)片2.分片后的數(shù)據(jù)申請(qǐng)Map資源,執(zhí)行本地單詞映射操作3.通過交換將map生成的結(jié)果按照單詞進(jìn)行歸并重組4.重組后的結(jié)果,申請(qǐng)Reduce資源,進(jìn)行單詞的合并統(tǒng)計(jì)5.對(duì)Reduce的結(jié)果進(jìn)行記錄合并生成輸出文件MapReduce過程示例?
對(duì)輸入的文本進(jìn)行單詞統(tǒng)計(jì)?
對(duì)輸入的文本進(jìn)行單詞統(tǒng)計(jì)74ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
MapReduce
執(zhí)行過程從MapReduce在整個(gè)Hadoop框架的位置可以看出作為Hadoop最成熟
的批處理框架,MapReduce起到承
上啟下的作用,一方面可以操作
HDFS中的數(shù)據(jù),另一方面可以被封
裝,提供Hive、Pig這樣的上層組件的調(diào)用75ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一MapReduce優(yōu)劣MapReduce的缺點(diǎn)? 通過MapReduce這個(gè)分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來,比如,自動(dòng)并行化、負(fù)載均衡和災(zāi)備管理等,這樣將極大地簡化開發(fā)者工作? MapReduce的伸縮性非常好,也就是說,每增加一臺(tái)服務(wù)器,其就能將差不多的計(jì)算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠(yuǎn)。MapReduce的缺點(diǎn)? MapReduce最大的不足則在于,其不適應(yīng)實(shí)時(shí)應(yīng)用的需求,目前還無法滿足用戶交互式的需求。76ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3
MapReduce+YARN77ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一3M30企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第四篇
Hadoop常用組件簡介:Hadoop常用組件——Hbase簡介:
Hadoop常用組件——Hive簡介:
Hadoop常用組件——Pig簡介:Hadoop常用組件——Zookeeper簡介:Hadoop常用組件——Sqoop簡介:Hadoop常用組件——Hue簡介78ppt課件30把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一第四篇Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1
Hbase簡介HBase是一個(gè)分布式的、多版本的、面向列的開源數(shù)據(jù)庫·
利用Hadoop
HDFS作為其文件存儲(chǔ)系統(tǒng),提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)利用Hadoop
MapReduce來處理HBase中的海量數(shù)據(jù)利用Zookeeper作為協(xié)同服務(wù)79ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一1H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBase
簡介(續(xù))?
大:一個(gè)表可以有上億行,上百萬列?
面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索?
稀疏:對(duì)于為空的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)的非常稀疏?
多版本:每條記錄中的數(shù)據(jù)可以有多個(gè)版本?
無類型:存在HBase中的數(shù)據(jù)都是字符串,無其他類型80ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBase與RDBMS對(duì)比Hbase的優(yōu)點(diǎn)y1
列的可以動(dòng)態(tài)增加,并且列為空就不存儲(chǔ)數(shù)據(jù),節(jié)省存儲(chǔ)空間.y2
可以自動(dòng)切分?jǐn)?shù)據(jù),使得數(shù)據(jù)存儲(chǔ)自動(dòng)具有水平擴(kuò)展.y3
可以提供高并發(fā)讀寫操作的支持Hbase的潛在缺點(diǎn)y1
不能支持條件查詢,只支持按照Row
key來查詢y2
暫時(shí)不能支持Master
server的故障切換,當(dāng)Master宕機(jī)后,整個(gè)存儲(chǔ)系統(tǒng)就會(huì)掛掉HBaseRDBMS數(shù)據(jù)類型只有字符串豐富的數(shù)據(jù)類型數(shù)據(jù)操作簡單的增刪改查各種各樣的函數(shù),表連接存儲(chǔ)模式基于列存儲(chǔ)基于表格結(jié)構(gòu)和行存儲(chǔ)數(shù)據(jù)保護(hù)更新后舊版本仍然會(huì)保留替換可伸縮性輕易的進(jìn)行增加節(jié)點(diǎn),兼容性高需要中間層,犧牲功能81ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2
HBase
體系結(jié)構(gòu)82ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hbase應(yīng)用場(chǎng)景成熟的數(shù)據(jù)分析主題,業(yè)務(wù)場(chǎng)景簡單,不需要關(guān)系數(shù)據(jù)庫中很多特性,查詢模式已經(jīng)確定并且不易改變傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法承受負(fù)荷,高速插入,有大量讀取清單的需求,并且有快速隨機(jī)訪問的需求適合海量的,但是同時(shí)也是簡單的操作,具備低延時(shí)的數(shù)據(jù)返回,比如說key-value的操作,是生產(chǎn)環(huán)境對(duì)外訪問可行的方式海量數(shù)據(jù)存儲(chǔ)的驅(qū)使,具備動(dòng)態(tài)擴(kuò)展系統(tǒng)容量的需求83ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hba企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Hadoop常用組件——Hive簡介Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的類sql查詢功能,可以將類sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。84ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一當(dāng)前數(shù)據(jù)分析方法百萬級(jí)千萬級(jí)億萬級(jí)以上Unix/Linux工具
awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等RDBMS,如
Mysql、Mongodb
Oracle、DB2等· 分布式:Oracle
RAC、GreenplumHadoop(開源免費(fèi))
MPP主要基于單機(jī)計(jì)算基于集群并行計(jì)算85ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一當(dāng)前數(shù)企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HIVE
VS
SQL數(shù)據(jù)存儲(chǔ) HDFS/HBase RawDevice/Loacl
FS數(shù)據(jù)格式 用戶自定義 系統(tǒng)決定數(shù)據(jù)更新 不支持(覆蓋之前數(shù)據(jù)) 支持索引 有(0.8版本新增) 有執(zhí)行 MapReduce Executor執(zhí)行延遲 高 低可擴(kuò)展性 高(UDF、UDAF、UDTF) 低數(shù)據(jù)規(guī)模 大(數(shù)據(jù)大于TB) 小數(shù)據(jù)檢查 讀時(shí)模式 寫時(shí)模式? 列分隔符(通常為空格、”\t”、”\x001″)? 行分隔符(”\n”)? 隨時(shí)間變化的如MYSQL:MyISAM、InnoDB、MEMORY…SQL:? 需要經(jīng)常進(jìn)行修改的,面向用戶的數(shù)據(jù)添加數(shù)據(jù),HQLSQLHIVE:
不支持? 建針沒立有在數(shù)索據(jù)H引a倉,do庫需o應(yīng)p要之用掃上設(shè)描的計(jì)整,的個(gè)可,表擴(kuò)數(shù)(展據(jù)或性倉者與庫分h是區(qū)a讀d)o操o,p作因一遠(yuǎn)此致遠(yuǎn)延多遲于較寫高操(作在0.8.X版之后加入了索?引世)數(shù)界據(jù)上倉最庫大的的特性Ha是do:op
集群在
Yahoo!,2009年的規(guī)模在
4000臺(tái)節(jié)點(diǎn)左右M文a件pR存e?儲(chǔ)du格c面e式向本,主身默題具認(rèn)有有較T高ex的tF延ile遲、(Se分qu鐘en級(jí)ce)File、RCFileSQL: ? 集成的SQL
:?? 不數(shù)同據(jù)的庫數(shù)由據(jù)于庫A有CI不D
同語的義存的儲(chǔ)嚴(yán)引格擎限。制對(duì)于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱? 目前最先進(jìn)的并行數(shù)據(jù)庫
Oracle
在理論上的擴(kuò)展能力也只有
100
臺(tái)左右? 對(duì)于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱INSERT
INTO
...
VALUESUPDATE
...
SET
修改數(shù)據(jù)86ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一HIV企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig是Hadoop上層的衍生架構(gòu),對(duì)比Hive(一種聲明式的語言),Pig是一種過程語言,類似于存儲(chǔ)過程一步一步的對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化Pig對(duì)MapReduce算法實(shí)現(xiàn)了一套shell,類似SQL語句,在Pig中稱為Pig
Latin,可以對(duì)數(shù)據(jù)進(jìn)行排序、過濾、求和、分組(group
by)、關(guān)聯(lián)(Joining)等操作Pig也可以由用戶自定義一些函數(shù)對(duì)數(shù)據(jù)集進(jìn)行操作,也就是傳說中的UDF(user-defined
functions)。Hadoop常用組件——Pig簡介87ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競(jìng)爭(zhēng)力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通運(yùn)輸行業(yè)綠色環(huán)保人才需求與培養(yǎng)策略報(bào)告
- 依馬呀吉松說課課件
- 二零二五年度物流車隊(duì)車輛維修保養(yǎng)協(xié)議
- 二零二五年度玻璃深加工技術(shù)成果轉(zhuǎn)化與應(yīng)用合同范本
- 二零二五版離婚協(xié)議范本大全與婚姻家庭法律援助合同
- 2025版博物館教育功能設(shè)施合作施工協(xié)議
- 二零二五版餐飲企業(yè)廣告宣傳外包合同
- 2025年度新型廠房租賃與土地使用權(quán)管理合同
- 探討區(qū)塊鏈在職業(yè)教育中的潛力挖掘
- 2025版廠區(qū)物料運(yùn)輸服務(wù)質(zhì)量保證合同范本
- GB/T 13323-2009光學(xué)制圖
- GB 28755-2012簡易升降機(jī)安全規(guī)程
- FZ/T 43022-2011莨綢工藝飾品
- 2023年南開經(jīng)濟(jì)學(xué)考研真題
- 糖化簡介0623課件
- DB3701-T 29-2022附件:智慧中藥房建設(shè)與運(yùn)行規(guī)范
- 大專畢業(yè)論文3000字格式12篇
- 皮部經(jīng)筋推拿技術(shù)
- DBJ46-048-2018 海南省建筑工程防水技術(shù)標(biāo)準(zhǔn)
- 房地產(chǎn)湯臣樓書
- 全國行政區(qū)域身份證代碼表(EXCEL版)
評(píng)論
0/150
提交評(píng)論