版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)技術(shù)介紹大數(shù)據(jù)時代的背景“大數(shù)據(jù)”的誕生:半個世紀(jì)以來,隨著計算機(jī)技術(shù)全面融入社會生活,信息爆炸已經(jīng)累積到了開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。Facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)微博、Apps移動互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器、智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)大數(shù)據(jù)的定義大數(shù)
2、據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)截取、管理、處理、并整理成為人類所能解讀的形式的信息。GBTBPB數(shù)據(jù)大爆炸EBZB地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進(jìn)TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達(dá)到1.8ZB.到2020年,整個世界的數(shù)據(jù)總量會增長44倍,達(dá)到35ZB想要駕馭著龐大的數(shù)據(jù)必須先了解大數(shù)據(jù)的特征 多樣性(Variety)大數(shù)據(jù)具有4V特征 速度(Velocity) 價值(Value) 容量(Volume)海量數(shù)據(jù)處理,難以集中存儲和計算TB
3、PBEB快速地數(shù)據(jù)傳輸流模式實時準(zhǔn)實時批量多種多樣的數(shù)據(jù)類型結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化巨大的數(shù)據(jù)價值高價值低密度碎片化高離散化傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)對比傳統(tǒng)數(shù)據(jù)(DB)大數(shù)據(jù)(BD)數(shù)據(jù)規(guī)模?。∕B)大(GB、TP、PB)數(shù)據(jù)類型單一(結(jié)構(gòu)化)繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù)與模式關(guān)系現(xiàn)有模式后有數(shù)據(jù)現(xiàn)有數(shù)據(jù)后有模式,模式種類繁多處理對象數(shù)據(jù)各種類型相關(guān)技術(shù)分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計和分析:A/B test;top N排行榜數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云
4、計算;標(biāo)簽云;關(guān)系圖等存儲:結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop流計算數(shù)據(jù)源(互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)數(shù)據(jù))數(shù)據(jù)收集(ETL(kattle)、提取、轉(zhuǎn)換、加載)數(shù)據(jù)存儲(SQL和NoSQL)資源管理(1)、數(shù)據(jù)收集、準(zhǔn)備(2)、數(shù)據(jù)存儲批處理交互式流處理數(shù)據(jù)挖掘(數(shù)據(jù)倉庫、olap、商務(wù)智能等)數(shù)據(jù)可視化用戶(3)、資源管理(4)、計算框架(5)、數(shù)據(jù)分析(6)、數(shù)據(jù)展示Hbase的優(yōu)劣1、動態(tài)可擴(kuò)展的,創(chuàng)建表的時候不需要知道有幾列,只需要指定有幾個c
5、olumn family,并且列為空就不存儲數(shù)據(jù),節(jié)省存儲空間。為什么列是動態(tài)的?統(tǒng)計淘寶訪問量和購買量,新平臺的統(tǒng)計,傳統(tǒng)關(guān)系型數(shù)據(jù)庫需要停機(jī)維護(hù),而Hbase支持動態(tài)增加2、多版本數(shù)據(jù)根據(jù)Row key和Column key定位到的Value可以有任意數(shù)量的版本值,因此對于需要存儲變動歷史記錄的數(shù)據(jù),用HBase就非常方便了。3、支持事務(wù)較弱,所以有事務(wù)支持的時候都會選擇傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,Hbase事務(wù)僅僅是針對某一行的一系列Put/Delete操作。不同行、不同表間一系列操作是無法放在一個事務(wù)中的。對一張多Region表來說,還是無法保證每次修改都能封裝為一個事務(wù)。計算框架批處理: m
6、apreduce 例:報表 實時性:(毫秒級)storm 例:信用卡欺詐交互式分析:(秒級)spark 數(shù)據(jù)挖掘數(shù)據(jù)挖掘從海量的數(shù)據(jù)中找到有價值的金礦數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程數(shù)據(jù)可視化大數(shù)據(jù)主要應(yīng)用技術(shù)-HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。運(yùn)行平臺:Linux、Mac OS/X,Solaris,Windows高可靠性高容錯性低成本高效性高擴(kuò)展性Hadoop 優(yōu)點1、高可靠性:had
7、oop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。2、高擴(kuò)展性:hadoop是在可用的計算機(jī)集簇之間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。3、高效性:能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點之間的動態(tài)平衡,因此處理速度非???。4、高容錯性:hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。5、低成本: hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務(wù)器集群是可以支持?jǐn)?shù)千個節(jié)點的。Hadoop核心設(shè)計兩大核心設(shè)計MapReduceHDFSMap:任務(wù)的分解Reduce:結(jié)果的匯總NameNode:文件管理
8、DataNode:文件存儲Client:文件獲取HDFS架構(gòu)主從(Master/Slave)體系結(jié)構(gòu)只含有一二NameNode主服務(wù)節(jié)點這個節(jié)點管理文件系統(tǒng)中的命名空間和調(diào)度客服端對文件的訪問通常一個機(jī)器就是一個DataNode數(shù)據(jù)節(jié)點,DataNode管理本節(jié)點上數(shù)據(jù)的存儲在HDFS內(nèi)部,一個文件被分割為一個貨多個數(shù)據(jù)塊,并且這些數(shù)據(jù)塊被存儲在一批DataNode中NameNode執(zhí)行文件系統(tǒng)中命名空間的操作(打開、關(guān)閉、重命名文件和目錄),NameNode需要執(zhí)行數(shù)據(jù)塊到DataNode映射的決策DataNode負(fù)責(zé)響應(yīng)來自客戶端的文件讀寫要求,也要負(fù)責(zé)執(zhí)行來自NameNode的關(guān)于數(shù)據(jù)塊
9、創(chuàng)建、刪除和冗余存儲的指令Map/Reduce處理過程一次Map/Reduce任務(wù)過程。用戶提交給JobTracer,JobTracer把對應(yīng)的用戶程序中的Map操作和Reduce操作映射至TaskTracer節(jié)點中;輸入模塊負(fù)責(zé)把輸入數(shù)據(jù)分成小數(shù)據(jù)塊。然后把他們傳給Map節(jié)點;Map節(jié)點得到每一個key/value對,處理后產(chǎn)生一個或多個key/value對,然后寫入文件;Reduce節(jié)點獲取臨時文件中的數(shù)據(jù),對代用相同key的數(shù)據(jù)進(jìn)行迭代計算,然后把最終結(jié)果寫入文件。我們要數(shù)圖書館中的所有書。你數(shù)1號書架,我數(shù)2號書架。這就是“Map”。我們?nèi)嗽蕉?,?shù)書就更快?,F(xiàn)在我們到一起,把所有人的統(tǒng)
10、計數(shù)加在一起。這就是“Reduce”。Hadoop體系架構(gòu)AmbariChuKwaZooKeeperPigHiveAvroMahoutMapReduce/YARNCassandraHBaseHDFSApache Ambari是一個基于Web的工具,用于配置、管理和監(jiān)視Apache Hadoop集群,支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Apache AmbariApache Pig是一個用于大型數(shù)據(jù)集分析的平臺,它包含了一個用于數(shù)據(jù)分析應(yīng)用的高級語言以及評估這些應(yīng)用的基礎(chǔ)設(shè)施。P
11、ig應(yīng)用的閃光特性在于它們的結(jié)構(gòu)經(jīng)得起大量的并行,也就是說讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎(chǔ)設(shè)施層包含了產(chǎn)生Map-Reduce任務(wù)的編譯器Apache PigApache Hive是Hadoop的一個數(shù)據(jù)倉庫系統(tǒng),促進(jìn)了數(shù)據(jù)的綜述(將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表)、即席查詢以及存儲在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢功能HiveQL語言,同時當(dāng)使用這個語言表達(dá)一個邏輯變得低效和繁瑣時,HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。Hive類似CloudBase,基于hadoop分布式計算平臺上的提供
12、data warehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數(shù)據(jù)的匯總,即席查詢簡單化。Apache HiveHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(File System)所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HB
13、ase基于列的而不是基于行的模式。Apache HBaseApache Cassandra是一個高性能、可線性擴(kuò)展、高有效性數(shù)據(jù)庫,可以運(yùn)行在商用硬件或云基礎(chǔ)設(shè)施上打造完美的任務(wù)關(guān)鍵性數(shù)據(jù)平臺。在橫跨數(shù)據(jù)中心的復(fù)制中,Cassandra同類最佳,為用戶提供更低的延時以及更可靠的災(zāi)難備份。通過log-structured update、反規(guī)范化和物化視圖的強(qiáng)支持以及強(qiáng)大的內(nèi)置緩存,Cassandra的數(shù)據(jù)模型提供了方便的二級索引(column index)Apache CassandraAvro是一個數(shù)據(jù)系列化系統(tǒng);Avro是doug cutting主持的RPC項目,有點類似Google的pro
14、tobuf和Facebook的thrift。 Avro用來做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數(shù)據(jù)結(jié)構(gòu)更緊湊Apache Mahout是個可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫,當(dāng)前Mahout支持主要的4個用例:推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。聚集:收集文件并進(jìn)行相關(guān)文件分組。分類:從現(xiàn)有的分類文檔中學(xué)習(xí),尋找文檔中的相似特征,并為無標(biāo)簽的文檔進(jìn)行正確的歸類。頻繁項集挖掘:將一組項分組,并識別哪些個別項會經(jīng)常一起出現(xiàn)。Zookeeper是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名
15、字服務(wù)、 分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Apache Chukwa是個開源的數(shù)據(jù)收集系統(tǒng),用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴(kuò)展性和穩(wěn)定性。Chukwa同樣包含了一個靈活和強(qiáng)大的工具包,用以顯示、監(jiān)視和分析結(jié)果,以保證數(shù)據(jù)的使用達(dá)到最佳效果。Hadoop平臺的安裝配置Hadoop安裝配置參考如下:http:/xia520pi/archive/2012/05/16/2503949.htmlZookeeper從程序員的角度來講可以理解為Had
16、oop的整體監(jiān)控系統(tǒng)。如果namenode,HMaster宕機(jī)后,這時候Zookeeper的重新選出leader。這是它最大的作用所在。下面詳細(xì)介紹zookeeper的作用Hadoop有NameNode,HBase有HMaster,為什么還需要zookeeper,下面給大家通過例子給大家介紹。一個Zookeeper的集群中,3個Zookeeper節(jié)點.一個leader,兩個follower的情況下,停掉leader,然后兩個follower選舉出一個leader.獲取的數(shù)據(jù)不變.我想Zookeeper能夠幫助Hadoop做到:Hadoop,使用Zookeeper的事件處理確保整個集群只有一個N
17、ameNode,存儲配置信息等.HBase,使用Zookeeper的事件處理確保整個集群只有一個HMaster,察覺HRegionServer聯(lián)機(jī)和宕機(jī),存儲訪問控制列表等.Hbase是一個分布式的、面向列的數(shù)據(jù)庫。Hbase利用hadoop的HDFS作為其的文件存儲系統(tǒng),Hbase利用hadoop的MapReduce來處理Hbase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)namegradcoursemathartzkb59787baoniu48980HBase shell的基本用法hbase提供了一個shell的終端給用戶交互。通過執(zhí)行 help get 可以看到命令的幫助信息。以網(wǎng)
18、上的一個學(xué)生成績表的例子來演示hbase的用法。這里grad對于表來說是一個列,course對于表來說是一個列族,這個列族由兩個列組成math和art,當(dāng)然我們可以根據(jù)我們的需要在course中建立更多的列族,如computer,physics等相應(yīng)的列添加入course列族。(1)列族 column familyhbase表中的每個列,都?xì)w屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為前綴。例如courses:history , courses:math 都屬于 courses 這個列族。(2) 單元CellHBase中通過row和columns確定的為一個存貯單元稱為cell。由row key, column( = + ), version 唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的,全部是字節(jié)碼形式存貯。(3)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度山西省高校教師資格證之高等教育心理學(xué)通關(guān)考試題庫帶答案解析
- 2024年觀光型酒店項目資金需求報告代可行性研究報告
- 2023年中級安全工程師《安全生產(chǎn)技術(shù)基礎(chǔ)》考試真題(試題及答案)
- 水利水電工程管理與實務(wù)一級建造師考試試題及答案指導(dǎo)(2024年)
- 2024年度家居油漆翻新工程承包協(xié)議
- 2024年員工保密義務(wù)協(xié)議精簡
- 2024年家居裝修垃圾處理協(xié)議
- 2024年土地抵押融資協(xié)議樣本
- 2024年叉車操作工勞動協(xié)議
- 2024年繁華街區(qū)門面房銷售協(xié)議
- 幼兒園繪本故事:《我不知道我是誰》
- 18項核心制度完整版
- 三位數(shù)乘兩位數(shù)筆算乘法 說課稿
- 深化設(shè)計方案(完整版)
- 部編 二年級語文上冊 第七單元【教材解讀】
- 電大《現(xiàn)代教育原理》形考任務(wù)2
- 新疆開放大學(xué)實用寫作課堂測試答案
- SJG 77-2020 房屋建筑工程造價文件分部分項和措施項目劃分標(biāo)準(zhǔn)-高清現(xiàn)行
- 7180型自動生化分析儀儀器標(biāo)準(zhǔn)操作規(guī)程
- 藍(lán)色企業(yè)發(fā)展歷程時間軸PPT模板課件
- 經(jīng)方在治療糖尿病及其并發(fā)癥中的應(yīng)用
評論
0/150
提交評論