大數(shù)據(jù)技術(shù)介紹課件

上傳人：我*** IP屬地：貴州上傳時(shí)間：2022-08-20 格式：PPTX 頁(yè)數(shù)：38 大?。?15.27KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩33頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)介紹大數(shù)據(jù)時(shí)代的背景“大數(shù)據(jù)”的誕生：半個(gè)世紀(jì)以來(lái)，隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活，信息爆炸已經(jīng)累積到了開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息，而且其增長(zhǎng)速度也在加快。如今，這個(gè)概念幾乎應(yīng)用到了所有人類(lèi)智力與發(fā)展的領(lǐng)域中。Facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代，移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍，各種數(shù)據(jù)正在迅速膨脹并變大互聯(lián)網(wǎng)（社交、搜索、電商）、移動(dòng)互聯(lián)網(wǎng)（微博）、物聯(lián)網(wǎng)（傳感器、智慧地球）、車(chē)聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融（銀行、股市、保險(xiǎn)）、電信（通話、短信）大數(shù)據(jù)的定義大數(shù)

2、據(jù)（Big data或Megadata），或稱(chēng)巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料，指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理時(shí)間內(nèi)截取、管理、處理、并整理成為人類(lèi)所能解讀的形式的信息。GBTBPB數(shù)據(jù)大爆炸EBZB地球上至今總共的數(shù)據(jù)量：在2006年，個(gè)人用戶(hù)才剛剛邁進(jìn)TB時(shí)代，全球一共新產(chǎn)生了約180EB的數(shù)據(jù)；在2011年，這個(gè)數(shù)字達(dá)到1.8ZB.到2020年，整個(gè)世界的數(shù)據(jù)總量會(huì)增長(zhǎng)44倍，達(dá)到35ZB想要駕馭著龐大的數(shù)據(jù)必須先了解大數(shù)據(jù)的特征多樣性（Variety）大數(shù)據(jù)具有4V特征速度（Velocity）價(jià)值（Value）容量（Volume）海量數(shù)據(jù)處理，難以集中存儲(chǔ)和計(jì)算TB

3、PBEB快速地?cái)?shù)據(jù)傳輸流模式實(shí)時(shí)準(zhǔn)實(shí)時(shí)批量多種多樣的數(shù)據(jù)類(lèi)型結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化巨大的數(shù)據(jù)價(jià)值高價(jià)值低密度碎片化高離散化傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)對(duì)比傳統(tǒng)數(shù)據(jù)（DB）大數(shù)據(jù)（BD）數(shù)據(jù)規(guī)模?。∕B）大（GB、TP、PB）數(shù)據(jù)類(lèi)型單一（結(jié)構(gòu)化）繁多（結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化）數(shù)據(jù)與模式關(guān)系現(xiàn)有模式后有數(shù)據(jù)現(xiàn)有數(shù)據(jù)后有模式，模式種類(lèi)繁多處理對(duì)象數(shù)據(jù)各種類(lèi)型相關(guān)技術(shù)分析技術(shù)：數(shù)據(jù)處理：自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析：A/B test；top N排行榜數(shù)據(jù)挖掘：關(guān)聯(lián)規(guī)則分析；分類(lèi)；聚類(lèi)大數(shù)據(jù)技術(shù)：數(shù)據(jù)采集：ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù)；NoSQL；SQL等基礎(chǔ)架構(gòu)支持：云存儲(chǔ)；分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn)：云

4、計(jì)算；標(biāo)簽云；關(guān)系圖等存儲(chǔ)：結(jié)構(gòu)化數(shù)據(jù)：海量數(shù)據(jù)的查詢(xún)、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)：圖片、視頻、word等文件存儲(chǔ)不利于檢索、查詢(xún)和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)：轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案：Hadoop流計(jì)算數(shù)據(jù)源（互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)數(shù)據(jù)）數(shù)據(jù)收集（ETL（kattle）、提取、轉(zhuǎn)換、加載）數(shù)據(jù)存儲(chǔ)（SQL和NoSQL）資源管理（1）、數(shù)據(jù)收集、準(zhǔn)備（2）、數(shù)據(jù)存儲(chǔ)批處理交互式流處理數(shù)據(jù)挖掘（數(shù)據(jù)倉(cāng)庫(kù)、olap、商務(wù)智能等）數(shù)據(jù)可視化用戶(hù)（3）、資源管理（4）、計(jì)算框架（5）、數(shù)據(jù)分析（6）、數(shù)據(jù)展示Hbase的優(yōu)劣1、動(dòng)態(tài)可擴(kuò)展的，創(chuàng)建表的時(shí)候不需要知道有幾列，只需要指定有幾個(gè)c

5、olumn family，并且列為空就不存儲(chǔ)數(shù)據(jù),節(jié)省存儲(chǔ)空間。為什么列是動(dòng)態(tài)的？統(tǒng)計(jì)淘寶訪問(wèn)量和購(gòu)買(mǎi)量，新平臺(tái)的統(tǒng)計(jì)，傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)需要停機(jī)維護(hù)，而Hbase支持動(dòng)態(tài)增加2、多版本數(shù)據(jù)根據(jù)Row key和Column key定位到的Value可以有任意數(shù)量的版本值，因此對(duì)于需要存儲(chǔ)變動(dòng)歷史記錄的數(shù)據(jù)，用HBase就非常方便了。3、支持事務(wù)較弱，所以有事務(wù)支持的時(shí)候都會(huì)選擇傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)，Hbase事務(wù)僅僅是針對(duì)某一行的一系列Put/Delete操作。不同行、不同表間一系列操作是無(wú)法放在一個(gè)事務(wù)中的。對(duì)一張多Region表來(lái)說(shuō)，還是無(wú)法保證每次修改都能封裝為一個(gè)事務(wù)。計(jì)算框架批處理： m

6、apreduce 例：報(bào)表實(shí)時(shí)性：（毫秒級(jí)）storm 例：信用卡欺詐交互式分析：（秒級(jí)）spark 數(shù)據(jù)挖掘數(shù)據(jù)挖掘從海量的數(shù)據(jù)中找到有價(jià)值的金礦數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程數(shù)據(jù)可視化大數(shù)據(jù)主要應(yīng)用技術(shù)-HadoopHadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。運(yùn)行平臺(tái)：Linux、Mac OS/X，Solaris，Windows高可靠性高容錯(cuò)性低成本高效性高擴(kuò)展性Hadoop 優(yōu)點(diǎn)1、高可靠性：had

7、oop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴(lài)。2、高擴(kuò)展性：hadoop是在可用的計(jì)算機(jī)集簇之間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。3、高效性：能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)之間的動(dòng)態(tài)平衡，因此處理速度非常快。4、高容錯(cuò)性：hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。5、低成本： hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的，這些服務(wù)器集群是可以支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)的。Hadoop核心設(shè)計(jì)兩大核心設(shè)計(jì)MapReduceHDFSMap：任務(wù)的分解Reduce：結(jié)果的匯總NameNode：文件管理

8、DataNode：文件存儲(chǔ)Client：文件獲取HDFS架構(gòu)主從（Master/Slave）體系結(jié)構(gòu)只含有一二NameNode主服務(wù)節(jié)點(diǎn)這個(gè)節(jié)點(diǎn)管理文件系統(tǒng)中的命名空間和調(diào)度客服端對(duì)文件的訪問(wèn)通常一個(gè)機(jī)器就是一個(gè)DataNode數(shù)據(jù)節(jié)點(diǎn)，DataNode管理本節(jié)點(diǎn)上數(shù)據(jù)的存儲(chǔ)在HDFS內(nèi)部，一個(gè)文件被分割為一個(gè)貨多個(gè)數(shù)據(jù)塊，并且這些數(shù)據(jù)塊被存儲(chǔ)在一批DataNode中NameNode執(zhí)行文件系統(tǒng)中命名空間的操作（打開(kāi)、關(guān)閉、重命名文件和目錄），NameNode需要執(zhí)行數(shù)據(jù)塊到DataNode映射的決策DataNode負(fù)責(zé)響應(yīng)來(lái)自客戶(hù)端的文件讀寫(xiě)要求，也要負(fù)責(zé)執(zhí)行來(lái)自NameNode的關(guān)于數(shù)據(jù)塊

9、創(chuàng)建、刪除和冗余存儲(chǔ)的指令Map/Reduce處理過(guò)程一次Map/Reduce任務(wù)過(guò)程。用戶(hù)提交給JobTracer，JobTracer把對(duì)應(yīng)的用戶(hù)程序中的Map操作和Reduce操作映射至TaskTracer節(jié)點(diǎn)中；輸入模塊負(fù)責(zé)把輸入數(shù)據(jù)分成小數(shù)據(jù)塊。然后把他們傳給Map節(jié)點(diǎn)；Map節(jié)點(diǎn)得到每一個(gè)key/value對(duì)，處理后產(chǎn)生一個(gè)或多個(gè)key/value對(duì)，然后寫(xiě)入文件；Reduce節(jié)點(diǎn)獲取臨時(shí)文件中的數(shù)據(jù)，對(duì)代用相同key的數(shù)據(jù)進(jìn)行迭代計(jì)算，然后把最終結(jié)果寫(xiě)入文件。我們要數(shù)圖書(shū)館中的所有書(shū)。你數(shù)1號(hào)書(shū)架，我數(shù)2號(hào)書(shū)架。這就是“Map”。我們?nèi)嗽蕉?，?shù)書(shū)就更快。現(xiàn)在我們到一起，把所有人的統(tǒng)

10、計(jì)數(shù)加在一起。這就是“Reduce”。Hadoop體系架構(gòu)AmbariChuKwaZooKeeperPigHiveAvroMahoutMapReduce/YARNCassandraHBaseHDFSApache Ambari是一個(gè)基于Web的工具，用于配置、管理和監(jiān)視Apache Hadoop集群，支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Apache AmbariApache Pig是一個(gè)用于大型數(shù)據(jù)集分析的平臺(tái)，它包含了一個(gè)用于數(shù)據(jù)分析應(yīng)用的高級(jí)語(yǔ)言以及評(píng)估這些應(yīng)用的基礎(chǔ)設(shè)施。P

11、ig應(yīng)用的閃光特性在于它們的結(jié)構(gòu)經(jīng)得起大量的并行，也就是說(shuō)讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎(chǔ)設(shè)施層包含了產(chǎn)生Map-Reduce任務(wù)的編譯器Apache PigApache Hive是Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，促進(jìn)了數(shù)據(jù)的綜述（將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表）、即席查詢(xún)以及存儲(chǔ)在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢(xún)功能HiveQL語(yǔ)言，同時(shí)當(dāng)使用這個(gè)語(yǔ)言表達(dá)一個(gè)邏輯變得低效和繁瑣時(shí)，HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。Hive類(lèi)似CloudBase，基于hadoop分布式計(jì)算平臺(tái)上的提供

12、data warehouse的sql功能的一套軟件。使得存儲(chǔ)在hadoop里面的海量數(shù)據(jù)的匯總，即席查詢(xún)簡(jiǎn)單化。Apache HiveHBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)，該技術(shù)來(lái)源于 Fay Chang 所撰寫(xiě)的Google論文“Bigtable：一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)（File System）所提供的分布式數(shù)據(jù)存儲(chǔ)一樣，HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HB

13、ase基于列的而不是基于行的模式。Apache HBaseApache Cassandra是一個(gè)高性能、可線性擴(kuò)展、高有效性數(shù)據(jù)庫(kù)，可以運(yùn)行在商用硬件或云基礎(chǔ)設(shè)施上打造完美的任務(wù)關(guān)鍵性數(shù)據(jù)平臺(tái)。在橫跨數(shù)據(jù)中心的復(fù)制中，Cassandra同類(lèi)最佳，為用戶(hù)提供更低的延時(shí)以及更可靠的災(zāi)難備份。通過(guò)log-structured update、反規(guī)范化和物化視圖的強(qiáng)支持以及強(qiáng)大的內(nèi)置緩存，Cassandra的數(shù)據(jù)模型提供了方便的二級(jí)索引（column index）Apache CassandraAvro是一個(gè)數(shù)據(jù)系列化系統(tǒng)；Avro是doug cutting主持的RPC項(xiàng)目，有點(diǎn)類(lèi)似Google的pro

14、tobuf和Facebook的thrift。 Avro用來(lái)做以后hadoop的RPC，使hadoop的RPC模塊通信速度更快、數(shù)據(jù)結(jié)構(gòu)更緊湊Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)，當(dāng)前Mahout支持主要的4個(gè)用例：推薦挖掘：搜集用戶(hù)動(dòng)作并以此給用戶(hù)推薦可能喜歡的事物。聚集：收集文件并進(jìn)行相關(guān)文件分組。分類(lèi)：從現(xiàn)有的分類(lèi)文檔中學(xué)習(xí)，尋找文檔中的相似特征，并為無(wú)標(biāo)簽的文檔進(jìn)行正確的歸類(lèi)。頻繁項(xiàng)集挖掘：將一組項(xiàng)分組，并識(shí)別哪些個(gè)別項(xiàng)會(huì)經(jīng)常一起出現(xiàn)。Zookeeper是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)，提供的功能包括：配置維護(hù)、名

15、字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù)，將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶(hù)。Apache Chukwa是個(gè)開(kāi)源的數(shù)據(jù)收集系統(tǒng)，用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上，繼承了Hadoop的可擴(kuò)展性和穩(wěn)定性。Chukwa同樣包含了一個(gè)靈活和強(qiáng)大的工具包，用以顯示、監(jiān)視和分析結(jié)果，以保證數(shù)據(jù)的使用達(dá)到最佳效果。Hadoop平臺(tái)的安裝配置Hadoop安裝配置參考如下：http:/xia520pi/archive/2012/05/16/2503949.htmlZookeeper從程序員的角度來(lái)講可以理解為Had

16、oop的整體監(jiān)控系統(tǒng)。如果namenode,HMaster宕機(jī)后，這時(shí)候Zookeeper的重新選出leader。這是它最大的作用所在。下面詳細(xì)介紹zookeeper的作用Hadoop有NameNode，HBase有HMaster，為什么還需要zookeeper，下面給大家通過(guò)例子給大家介紹。一個(gè)Zookeeper的集群中,3個(gè)Zookeeper節(jié)點(diǎn).一個(gè)leader,兩個(gè)follower的情況下,停掉leader,然后兩個(gè)follower選舉出一個(gè)leader.獲取的數(shù)據(jù)不變.我想Zookeeper能夠幫助Hadoop做到:Hadoop,使用Zookeeper的事件處理確保整個(gè)集群只有一個(gè)N

17、ameNode,存儲(chǔ)配置信息等.HBase,使用Zookeeper的事件處理確保整個(gè)集群只有一個(gè)HMaster,察覺(jué)HRegionServer聯(lián)機(jī)和宕機(jī),存儲(chǔ)訪問(wèn)控制列表等.Hbase是一個(gè)分布式的、面向列的數(shù)據(jù)庫(kù)。Hbase利用hadoop的HDFS作為其的文件存儲(chǔ)系統(tǒng)，Hbase利用hadoop的MapReduce來(lái)處理Hbase中的海量數(shù)據(jù)，利用Zookeeper作為協(xié)同服務(wù)namegradcoursemathartzkb59787baoniu48980HBase shell的基本用法hbase提供了一個(gè)shell的終端給用戶(hù)交互。通過(guò)執(zhí)行 help get 可以看到命令的幫助信息。以網(wǎng)

18、上的一個(gè)學(xué)生成績(jī)表的例子來(lái)演示hbase的用法。這里grad對(duì)于表來(lái)說(shuō)是一個(gè)列,course對(duì)于表來(lái)說(shuō)是一個(gè)列族,這個(gè)列族由兩個(gè)列組成math和art,當(dāng)然我們可以根據(jù)我們的需要在course中建立更多的列族,如computer,physics等相應(yīng)的列添加入course列族。(1)列族 column familyhbase表中的每個(gè)列，都?xì)w屬與某個(gè)列族。列族是表的chema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如courses:history ， courses:math 都屬于 courses 這個(gè)列族。(2) 單元CellHBase中通過(guò)row和columns確定的為一個(gè)存貯單元稱(chēng)為cell。由row key, column( = + ), version 唯一確定的單元。cell中的數(shù)據(jù)是沒(méi)有類(lèi)型的，全部是字節(jié)碼形式存貯。(3)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)介紹課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)技術(shù)介紹課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔