




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)技術(shù)介紹大數(shù)據(jù)時(shí)代的背景“大數(shù)據(jù)”的誕生:半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)累積到了開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。如今,這個(gè)概念幾乎應(yīng)用到了所有人類(lèi)智力與發(fā)展的領(lǐng)域中。Facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器、智慧地球)、車(chē)聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)大數(shù)據(jù)的定義大數(shù)
2、據(jù)(Big data或Megadata),或稱(chēng)巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理時(shí)間內(nèi)截取、管理、處理、并整理成為人類(lèi)所能解讀的形式的信息。GBTBPB數(shù)據(jù)大爆炸EBZB地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶(hù)才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到1.8ZB.到2020年,整個(gè)世界的數(shù)據(jù)總量會(huì)增長(zhǎng)44倍,達(dá)到35ZB想要駕馭著龐大的數(shù)據(jù)必須先了解大數(shù)據(jù)的特征 多樣性(Variety)大數(shù)據(jù)具有4V特征 速度(Velocity) 價(jià)值(Value) 容量(Volume)海量數(shù)據(jù)處理,難以集中存儲(chǔ)和計(jì)算TB
3、PBEB快速地?cái)?shù)據(jù)傳輸流模式實(shí)時(shí)準(zhǔn)實(shí)時(shí)批量多種多樣的數(shù)據(jù)類(lèi)型結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化巨大的數(shù)據(jù)價(jià)值高價(jià)值低密度碎片化高離散化傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)對(duì)比傳統(tǒng)數(shù)據(jù)(DB)大數(shù)據(jù)(BD)數(shù)據(jù)規(guī)模?。∕B)大(GB、TP、PB)數(shù)據(jù)類(lèi)型單一(結(jié)構(gòu)化)繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù)與模式關(guān)系現(xiàn)有模式后有數(shù)據(jù)現(xiàn)有數(shù)據(jù)后有模式,模式種類(lèi)繁多處理對(duì)象數(shù)據(jù)各種類(lèi)型相關(guān)技術(shù)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/B test;top N排行榜數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類(lèi);聚類(lèi)大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云
4、計(jì)算;標(biāo)簽云;關(guān)系圖等存儲(chǔ):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢(xún)、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word等文件存儲(chǔ)不利于檢索、查詢(xún)和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop流計(jì)算數(shù)據(jù)源(互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)數(shù)據(jù))數(shù)據(jù)收集(ETL(kattle)、提取、轉(zhuǎn)換、加載)數(shù)據(jù)存儲(chǔ)(SQL和NoSQL)資源管理(1)、數(shù)據(jù)收集、準(zhǔn)備(2)、數(shù)據(jù)存儲(chǔ)批處理交互式流處理數(shù)據(jù)挖掘(數(shù)據(jù)倉(cāng)庫(kù)、olap、商務(wù)智能等)數(shù)據(jù)可視化用戶(hù)(3)、資源管理(4)、計(jì)算框架(5)、數(shù)據(jù)分析(6)、數(shù)據(jù)展示Hbase的優(yōu)劣1、動(dòng)態(tài)可擴(kuò)展的,創(chuàng)建表的時(shí)候不需要知道有幾列,只需要指定有幾個(gè)c
5、olumn family,并且列為空就不存儲(chǔ)數(shù)據(jù),節(jié)省存儲(chǔ)空間。為什么列是動(dòng)態(tài)的?統(tǒng)計(jì)淘寶訪問(wèn)量和購(gòu)買(mǎi)量,新平臺(tái)的統(tǒng)計(jì),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)需要停機(jī)維護(hù),而Hbase支持動(dòng)態(tài)增加2、多版本數(shù)據(jù)根據(jù)Row key和Column key定位到的Value可以有任意數(shù)量的版本值,因此對(duì)于需要存儲(chǔ)變動(dòng)歷史記錄的數(shù)據(jù),用HBase就非常方便了。3、支持事務(wù)較弱,所以有事務(wù)支持的時(shí)候都會(huì)選擇傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),Hbase事務(wù)僅僅是針對(duì)某一行的一系列Put/Delete操作。不同行、不同表間一系列操作是無(wú)法放在一個(gè)事務(wù)中的。對(duì)一張多Region表來(lái)說(shuō),還是無(wú)法保證每次修改都能封裝為一個(gè)事務(wù)。計(jì)算框架批處理: m
6、apreduce 例:報(bào)表 實(shí)時(shí)性:(毫秒級(jí))storm 例:信用卡欺詐交互式分析:(秒級(jí))spark 數(shù)據(jù)挖掘數(shù)據(jù)挖掘從海量的數(shù)據(jù)中找到有價(jià)值的金礦數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程數(shù)據(jù)可視化大數(shù)據(jù)主要應(yīng)用技術(shù)-HadoopHadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。運(yùn)行平臺(tái):Linux、Mac OS/X,Solaris,Windows高可靠性高容錯(cuò)性低成本高效性高擴(kuò)展性Hadoop 優(yōu)點(diǎn)1、高可靠性:had
7、oop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴(lài)。2、高擴(kuò)展性:hadoop是在可用的計(jì)算機(jī)集簇之間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。3、高效性:能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)之間的動(dòng)態(tài)平衡,因此處理速度非常快。4、高容錯(cuò)性:hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。5、低成本: hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務(wù)器集群是可以支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)的。Hadoop核心設(shè)計(jì)兩大核心設(shè)計(jì)MapReduceHDFSMap:任務(wù)的分解Reduce:結(jié)果的匯總NameNode:文件管理
8、DataNode:文件存儲(chǔ)Client:文件獲取HDFS架構(gòu)主從(Master/Slave)體系結(jié)構(gòu)只含有一二NameNode主服務(wù)節(jié)點(diǎn)這個(gè)節(jié)點(diǎn)管理文件系統(tǒng)中的命名空間和調(diào)度客服端對(duì)文件的訪問(wèn)通常一個(gè)機(jī)器就是一個(gè)DataNode數(shù)據(jù)節(jié)點(diǎn),DataNode管理本節(jié)點(diǎn)上數(shù)據(jù)的存儲(chǔ)在HDFS內(nèi)部,一個(gè)文件被分割為一個(gè)貨多個(gè)數(shù)據(jù)塊,并且這些數(shù)據(jù)塊被存儲(chǔ)在一批DataNode中NameNode執(zhí)行文件系統(tǒng)中命名空間的操作(打開(kāi)、關(guān)閉、重命名文件和目錄),NameNode需要執(zhí)行數(shù)據(jù)塊到DataNode映射的決策DataNode負(fù)責(zé)響應(yīng)來(lái)自客戶(hù)端的文件讀寫(xiě)要求,也要負(fù)責(zé)執(zhí)行來(lái)自NameNode的關(guān)于數(shù)據(jù)塊
9、創(chuàng)建、刪除和冗余存儲(chǔ)的指令Map/Reduce處理過(guò)程一次Map/Reduce任務(wù)過(guò)程。用戶(hù)提交給JobTracer,JobTracer把對(duì)應(yīng)的用戶(hù)程序中的Map操作和Reduce操作映射至TaskTracer節(jié)點(diǎn)中;輸入模塊負(fù)責(zé)把輸入數(shù)據(jù)分成小數(shù)據(jù)塊。然后把他們傳給Map節(jié)點(diǎn);Map節(jié)點(diǎn)得到每一個(gè)key/value對(duì),處理后產(chǎn)生一個(gè)或多個(gè)key/value對(duì),然后寫(xiě)入文件;Reduce節(jié)點(diǎn)獲取臨時(shí)文件中的數(shù)據(jù),對(duì)代用相同key的數(shù)據(jù)進(jìn)行迭代計(jì)算,然后把最終結(jié)果寫(xiě)入文件。我們要數(shù)圖書(shū)館中的所有書(shū)。你數(shù)1號(hào)書(shū)架,我數(shù)2號(hào)書(shū)架。這就是“Map”。我們?nèi)嗽蕉?,?shù)書(shū)就更快。現(xiàn)在我們到一起,把所有人的統(tǒng)
10、計(jì)數(shù)加在一起。這就是“Reduce”。Hadoop體系架構(gòu)AmbariChuKwaZooKeeperPigHiveAvroMahoutMapReduce/YARNCassandraHBaseHDFSApache Ambari是一個(gè)基于Web的工具,用于配置、管理和監(jiān)視Apache Hadoop集群,支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Apache AmbariApache Pig是一個(gè)用于大型數(shù)據(jù)集分析的平臺(tái),它包含了一個(gè)用于數(shù)據(jù)分析應(yīng)用的高級(jí)語(yǔ)言以及評(píng)估這些應(yīng)用的基礎(chǔ)設(shè)施。P
11、ig應(yīng)用的閃光特性在于它們的結(jié)構(gòu)經(jīng)得起大量的并行,也就是說(shuō)讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎(chǔ)設(shè)施層包含了產(chǎn)生Map-Reduce任務(wù)的編譯器Apache PigApache Hive是Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),促進(jìn)了數(shù)據(jù)的綜述(將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表)、即席查詢(xún)以及存儲(chǔ)在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢(xún)功能HiveQL語(yǔ)言,同時(shí)當(dāng)使用這個(gè)語(yǔ)言表達(dá)一個(gè)邏輯變得低效和繁瑣時(shí),HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。Hive類(lèi)似CloudBase,基于hadoop分布式計(jì)算平臺(tái)上的提供
12、data warehouse的sql功能的一套軟件。使得存儲(chǔ)在hadoop里面的海量數(shù)據(jù)的匯總,即席查詢(xún)簡(jiǎn)單化。Apache HiveHBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),該技術(shù)來(lái)源于 Fay Chang 所撰寫(xiě)的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(File System)所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HB
13、ase基于列的而不是基于行的模式。Apache HBaseApache Cassandra是一個(gè)高性能、可線性擴(kuò)展、高有效性數(shù)據(jù)庫(kù),可以運(yùn)行在商用硬件或云基礎(chǔ)設(shè)施上打造完美的任務(wù)關(guān)鍵性數(shù)據(jù)平臺(tái)。在橫跨數(shù)據(jù)中心的復(fù)制中,Cassandra同類(lèi)最佳,為用戶(hù)提供更低的延時(shí)以及更可靠的災(zāi)難備份。通過(guò)log-structured update、反規(guī)范化和物化視圖的強(qiáng)支持以及強(qiáng)大的內(nèi)置緩存,Cassandra的數(shù)據(jù)模型提供了方便的二級(jí)索引(column index)Apache CassandraAvro是一個(gè)數(shù)據(jù)系列化系統(tǒng);Avro是doug cutting主持的RPC項(xiàng)目,有點(diǎn)類(lèi)似Google的pro
14、tobuf和Facebook的thrift。 Avro用來(lái)做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數(shù)據(jù)結(jié)構(gòu)更緊湊Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù),當(dāng)前Mahout支持主要的4個(gè)用例:推薦挖掘:搜集用戶(hù)動(dòng)作并以此給用戶(hù)推薦可能喜歡的事物。聚集:收集文件并進(jìn)行相關(guān)文件分組。分類(lèi):從現(xiàn)有的分類(lèi)文檔中學(xué)習(xí),尋找文檔中的相似特征,并為無(wú)標(biāo)簽的文檔進(jìn)行正確的歸類(lèi)。頻繁項(xiàng)集挖掘:將一組項(xiàng)分組,并識(shí)別哪些個(gè)別項(xiàng)會(huì)經(jīng)常一起出現(xiàn)。Zookeeper是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名
15、字服務(wù)、 分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶(hù)。Apache Chukwa是個(gè)開(kāi)源的數(shù)據(jù)收集系統(tǒng),用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴(kuò)展性和穩(wěn)定性。Chukwa同樣包含了一個(gè)靈活和強(qiáng)大的工具包,用以顯示、監(jiān)視和分析結(jié)果,以保證數(shù)據(jù)的使用達(dá)到最佳效果。Hadoop平臺(tái)的安裝配置Hadoop安裝配置參考如下:http:/xia520pi/archive/2012/05/16/2503949.htmlZookeeper從程序員的角度來(lái)講可以理解為Had
16、oop的整體監(jiān)控系統(tǒng)。如果namenode,HMaster宕機(jī)后,這時(shí)候Zookeeper的重新選出leader。這是它最大的作用所在。下面詳細(xì)介紹zookeeper的作用Hadoop有NameNode,HBase有HMaster,為什么還需要zookeeper,下面給大家通過(guò)例子給大家介紹。一個(gè)Zookeeper的集群中,3個(gè)Zookeeper節(jié)點(diǎn).一個(gè)leader,兩個(gè)follower的情況下,停掉leader,然后兩個(gè)follower選舉出一個(gè)leader.獲取的數(shù)據(jù)不變.我想Zookeeper能夠幫助Hadoop做到:Hadoop,使用Zookeeper的事件處理確保整個(gè)集群只有一個(gè)N
17、ameNode,存儲(chǔ)配置信息等.HBase,使用Zookeeper的事件處理確保整個(gè)集群只有一個(gè)HMaster,察覺(jué)HRegionServer聯(lián)機(jī)和宕機(jī),存儲(chǔ)訪問(wèn)控制列表等.Hbase是一個(gè)分布式的、面向列的數(shù)據(jù)庫(kù)。Hbase利用hadoop的HDFS作為其的文件存儲(chǔ)系統(tǒng),Hbase利用hadoop的MapReduce來(lái)處理Hbase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)namegradcoursemathartzkb59787baoniu48980HBase shell的基本用法hbase提供了一個(gè)shell的終端給用戶(hù)交互。通過(guò)執(zhí)行 help get 可以看到命令的幫助信息。以網(wǎng)
18、上的一個(gè)學(xué)生成績(jī)表的例子來(lái)演示hbase的用法。這里grad對(duì)于表來(lái)說(shuō)是一個(gè)列,course對(duì)于表來(lái)說(shuō)是一個(gè)列族,這個(gè)列族由兩個(gè)列組成math和art,當(dāng)然我們可以根據(jù)我們的需要在course中建立更多的列族,如computer,physics等相應(yīng)的列添加入course列族。(1)列族 column familyhbase表中的每個(gè)列,都?xì)w屬與某個(gè)列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為前綴。例如courses:history , courses:math 都屬于 courses 這個(gè)列族。(2) 單元CellHBase中通過(guò)row和columns確定的為一個(gè)存貯單元稱(chēng)為cell。由row key, column( = + ), version 唯一確定的單元。cell中的數(shù)據(jù)是沒(méi)有類(lèi)型的,全部是字節(jié)碼形式存貯。(3)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆河北省鹿泉一中等名校高二下化學(xué)期末達(dá)標(biāo)檢測(cè)試題含解析
- 森林養(yǎng)護(hù)活動(dòng)方案
- 樓前種花活動(dòng)方案
- 水利萬(wàn)人助萬(wàn)企活動(dòng)方案
- 畢業(yè)展覽活動(dòng)方案
- 永城市扶貧活動(dòng)方案
- 四年級(jí)下冊(cè)期末作文押題《一次-的嘗試》
- 2025安全生產(chǎn)責(zé)任制考核表
- 精益生產(chǎn)十大關(guān)鍵工具
- 內(nèi)容紅利戰(zhàn)略:內(nèi)容創(chuàng)作與流量增長(zhǎng)的關(guān)鍵法則研究
- 導(dǎo)尿術(shù)實(shí)訓(xùn)總結(jié)報(bào)告
- 四環(huán)素類(lèi)的合成與結(jié)構(gòu)優(yōu)化
- 外泌體美容培訓(xùn)課件
- 氟安全技術(shù)說(shuō)明書(shū)MSDS
- 郵儲(chǔ)領(lǐng)導(dǎo)合規(guī)案防述職報(bào)告
- eps泡沫廠工藝流程
- 枕式換熱器行業(yè)分析
- 干部履歷表(中共中央組織部2015年制)
- JCT1041-2007 混凝土裂縫用環(huán)氧樹(shù)脂灌漿材料
- SPA水療管理手冊(cè)
評(píng)論
0/150
提交評(píng)論