![大數(shù)據(jù)技術(shù)基礎(chǔ)課件_第1頁](http://file4.renrendoc.com/view/82b8996ebbdc910fe5d365943dcf65a4/82b8996ebbdc910fe5d365943dcf65a41.gif)
![大數(shù)據(jù)技術(shù)基礎(chǔ)課件_第2頁](http://file4.renrendoc.com/view/82b8996ebbdc910fe5d365943dcf65a4/82b8996ebbdc910fe5d365943dcf65a42.gif)
![大數(shù)據(jù)技術(shù)基礎(chǔ)課件_第3頁](http://file4.renrendoc.com/view/82b8996ebbdc910fe5d365943dcf65a4/82b8996ebbdc910fe5d365943dcf65a43.gif)
![大數(shù)據(jù)技術(shù)基礎(chǔ)課件_第4頁](http://file4.renrendoc.com/view/82b8996ebbdc910fe5d365943dcf65a4/82b8996ebbdc910fe5d365943dcf65a44.gif)
![大數(shù)據(jù)技術(shù)基礎(chǔ)課件_第5頁](http://file4.renrendoc.com/view/82b8996ebbdc910fe5d365943dcf65a4/82b8996ebbdc910fe5d365943dcf65a45.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章:大數(shù)據(jù)技術(shù)基礎(chǔ)《大數(shù)據(jù)分析及應(yīng)用實踐》第二章:大數(shù)據(jù)技術(shù)基礎(chǔ)《大數(shù)據(jù)分析及應(yīng)用實1目錄CONTENTS2.1基礎(chǔ)架構(gòu)支持2.2云計算2.3數(shù)據(jù)采集2.4數(shù)據(jù)存儲目錄CONTENTS2.1基礎(chǔ)架構(gòu)支持2.2云計算2.3數(shù)據(jù)21.基礎(chǔ)架構(gòu)支持1.基礎(chǔ)架構(gòu)支持32.1.1HadoopHadoop是Apache軟件基金會旗下的一個開源分布式計算平臺,為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺特性,并且可以部署在廉價的計算機集群中Hadoop的核心是分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.1HadoopHadoop是Apache軟件基金42.1.1Hadoop經(jīng)過多年的發(fā)展,Hadoop項目不斷完善和成熟,目前已經(jīng)包含多個子項目(如下圖2-2所示)除了核心的HDFS和MapReduce以外,Hadoop項目還包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子項目,它們提供了互補性服務(wù)或在核心層上提供了更高層的服務(wù)Hadoop技術(shù)架構(gòu)Hadoop技術(shù)架構(gòu)圖2.1.1Hadoop經(jīng)過多年的發(fā)展,Hadoop項目不斷52.1.1Hadoop1:日志采集;2:傳輸日志;3:將日志寫入HDFS;4:從HDFS中將日志裝載入數(shù)據(jù)倉庫中;5:對裝載的數(shù)據(jù)進(jìn)行分析;6:調(diào)用Hadoop集群的M/R執(zhí)行并行計算,并返回結(jié)果;7:將結(jié)果中有價值的數(shù)據(jù)寫入HBASE數(shù)據(jù)庫;8:報表系統(tǒng)&應(yīng)用程序端通過HBASE查詢數(shù)據(jù)并展現(xiàn);項目架構(gòu)2.1.1Hadoop1:日志采集;項目架構(gòu)62.1.2HBaseHBase是運行在Hadoop上的NoSQL數(shù)據(jù)庫,它是一個分布式的、可擴展的大數(shù)據(jù)倉庫,是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng);從邏輯上講,HBase將數(shù)據(jù)按照表、行和列進(jìn)行存儲。與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。HBase表特點:a.大b.無模式c.面向列d.稀疏e.數(shù)據(jù)多版本f.數(shù)據(jù)類型單一2.1.2HBaseHBase是運行在Hadoop上的No72.1.3MapReduceMapReduce是一種編程模型,基于它寫出來的應(yīng)用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上T級別的數(shù)據(jù)集。Map—映射Reduce——歸納MapReduce就是“任務(wù)的分解與結(jié)果的匯總”MapReduce處理流程2.1.3MapReduceMapReduce是一種編程模82.1.4Hive?Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能。?本質(zhì)是將SQL轉(zhuǎn)換為MapReduce程序Hive與Hadoop關(guān)系2.1.4Hive?Hive是建立在Hadoop上的數(shù)92.1.5PigPig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig包含兩個部分:PigInterface,PigLatin。它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。Pig簡介2.1.5PigPig是一個基于Hadoop的大規(guī)模數(shù)據(jù)102.1.6R語言R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。數(shù)據(jù)存儲和處理系統(tǒng)數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大)完整連貫的統(tǒng)計分析工具優(yōu)秀的統(tǒng)計制圖功能簡便而強大的編程語言可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能功能2.1.6R語言R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)112.云計算2.云計算122.2.1云計算的特點云計算是一種計算模型,它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使用戶能夠按照自己的需要獲取計算、存儲和信息服務(wù)。云計算實現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時隨地獲得所需的各種IT資源1.可擴展性:實現(xiàn)動態(tài)的,可伸縮的擴展2.按需提供資源服務(wù):按需求提供資源,按使用量付費3.虛擬化:基于虛擬化技術(shù)快速部署資源或獲得服務(wù)4.超大規(guī)模:通過互聯(lián)網(wǎng)提供、面向海量信息處理5.高可靠性和安全性:服務(wù)器使用數(shù)據(jù)多副本容錯,計算節(jié)點同構(gòu)可互換等措施,保障服務(wù)的可靠性和安全性。云計算的特點:云計算的服務(wù)模式和類型2.2.1云計算的特點云計算是一種計算模型,它將計算任務(wù)分13商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)為云計算提供了用武之地云計算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算。當(dāng)前云計算更偏重海量存儲和計算,以及提供的云服務(wù),運行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價值性信息和預(yù)測性分析,為國家、企業(yè)、個人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計算的最終方向。2.2.2云計算與大數(shù)據(jù)商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)143.數(shù)據(jù)采集3.數(shù)據(jù)采集152.3數(shù)據(jù)采集數(shù)據(jù)采集:其實就是大數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過程數(shù)據(jù)采集的工具:攝像頭、麥克風(fēng)等都是數(shù)據(jù)采集的工具。數(shù)據(jù)采集的意義:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),數(shù)據(jù)采集成為大數(shù)據(jù)分析的前奏。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán),它是計算機與外部物理世界連接的橋梁。數(shù)據(jù)采集的方法:2.3數(shù)據(jù)采集數(shù)據(jù)采集:其實就是大數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過162.3.1數(shù)據(jù)采集的意義數(shù)據(jù)采集:其實就是大數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過程數(shù)據(jù)采集的工具:攝像頭、麥克風(fēng)等都是數(shù)據(jù)采集的工具。數(shù)據(jù)采集的意義:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),數(shù)據(jù)采集成為大數(shù)據(jù)分析的前奏。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán),它是計算機與外部物理世界連接的橋梁。數(shù)據(jù)采集的方法:系統(tǒng)日志采集方法網(wǎng)絡(luò)數(shù)據(jù)采集方法其他數(shù)據(jù)采集方法基于物聯(lián)網(wǎng)的采集方法2.3.1數(shù)據(jù)采集的意義數(shù)據(jù)采集:其實就是大數(shù)據(jù)抽取、轉(zhuǎn)換172.3.2數(shù)據(jù)采集的方法1.基于物聯(lián)網(wǎng)的采集方法數(shù)據(jù)的采集有基于物聯(lián)網(wǎng)傳感器的采集,也有基于網(wǎng)絡(luò)信息的數(shù)據(jù)采集?;谖锫?lián)網(wǎng)的采集,例如在智能交通中,數(shù)據(jù)的采集有:基于GPS的定位信息采集、基于交通攝像頭的視頻采集、基于交通卡口的圖像采集、基于路口的線圈信號采集等?;贕PS的定位信息采集基于GPS的定位信息采集基于交通攝像頭的視頻采集基于交通卡口的圖像采集基于路口的線圈信號采集智能交通中基于物聯(lián)網(wǎng)的數(shù)據(jù)采集2.3.2數(shù)據(jù)采集的方法1.基于物聯(lián)網(wǎng)的采集方法數(shù)據(jù)的采集182.3.2數(shù)據(jù)采集的方法2.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。
系統(tǒng)日志的采集Facebook的ScribeHadhoop的ChukwaCloudra的Flume
Facebook的ScribeScribe是Facebook開源的日志手機系統(tǒng),它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)上,以便于進(jìn)行集中統(tǒng)計分析處理。它為日志的“分布式收集,統(tǒng)一處理”提供了一個可擴展的,高容錯的方案。
Hadoop的Chukwachukwa是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。這是構(gòu)建在hadoop的hdfs和map/reduce框架之上的,繼承了hadoop的可伸縮性和魯棒性。Chukwa還包含了一個強大和靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。
Cloudera的FlumeFlume是一個分布式、可靠、和高可用的海量日志聚合的系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力2.3.2數(shù)據(jù)采集的方法2.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)192.3.2數(shù)據(jù)采集的方法3.網(wǎng)絡(luò)數(shù)據(jù)的采集方法1)四個主要模塊及功能網(wǎng)絡(luò)爬蟲從Internet上抓取網(wǎng)頁內(nèi)容,并抽取出需要的屬性內(nèi)容。URL隊列為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)絡(luò)的URL數(shù)據(jù)處理對爬蟲抓取的內(nèi)容進(jìn)行處理數(shù)據(jù)1.SiteUrl,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;2.SpiderData,爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);3.DPData,經(jīng)過dp處理之后的數(shù)據(jù)2)網(wǎng)絡(luò)數(shù)據(jù)采集和處理的基本步驟2.3.2數(shù)據(jù)采集的方法3.網(wǎng)絡(luò)數(shù)據(jù)的采集方法1)四個主要202.3.2數(shù)據(jù)采集的方法4.其他數(shù)據(jù)的采集方法對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2.3.2數(shù)據(jù)采集的方法4.其他數(shù)據(jù)的采集方法對于企業(yè)生產(chǎn)214.數(shù)據(jù)存儲4.數(shù)據(jù)存儲222.4.1數(shù)據(jù)存儲的概念概念:數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上。數(shù)據(jù)存儲方式與數(shù)據(jù)文件組織密切相關(guān),其關(guān)鍵在于建立記錄的邏輯與物理順序間對應(yīng)關(guān)系,確定存儲地址,以提高數(shù)據(jù)存取速度。2.4.1數(shù)據(jù)存儲的概念概念:數(shù)據(jù)以某種格式記錄在計算機內(nèi)部232.4.2數(shù)據(jù)的存儲方式開放系統(tǒng)的直連式存儲(DirectAttachedStorage,DAS)
網(wǎng)絡(luò)附加存儲(NetworkAttachedStorage,NAS)直接連接于主機服務(wù)器的一種儲存方式。每一臺主機服務(wù)器有獨立的儲存設(shè)備,可以說是一種應(yīng)用較為早的技術(shù)實現(xiàn)。DAS缺點:效率比較低無法共享數(shù)據(jù)保護(hù)流程復(fù)雜是一種用高速(光纖)網(wǎng)絡(luò)聯(lián)接專業(yè)主機服務(wù)器的一種儲存方式。NAS優(yōu)點:即插即用存儲簡單存儲設(shè)備位置靈活大數(shù)據(jù)存儲方式2.4.2數(shù)據(jù)的存儲方式開放系統(tǒng)的直連式存儲(Direct242.4.3常見數(shù)據(jù)源類型1、文本類型:Excel、TXT、CSV等。2、數(shù)據(jù)庫類型:MySQL、SQLSever、Oracle、PostgreSQL等。3、數(shù)據(jù)集群類型:Hive、Spark等。2.4.3常見數(shù)據(jù)源類型1、文本類型:Excel、TXT、25本章小結(jié)進(jìn)行大數(shù)據(jù)的大分析,需要一定的架構(gòu)支撐和技術(shù)支持。本章介紹了大數(shù)據(jù)處理過程中需要涉及的幾個重要技術(shù)平臺。Hadoop被視為事實上的大數(shù)據(jù)處理標(biāo)準(zhǔn),本章介紹了Hadoop的發(fā)展歷程,并著重介紹了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代企業(yè)如何通過公關(guān)活動吸引目標(biāo)客戶
- 理論與實踐在文化傳承中尋求創(chuàng)新發(fā)展
- 國慶節(jié)鮮奶活動方案策劃
- Module5 Unit1 He is playing the suona,but the phone rings(說課稿)-2023-2024學(xué)年外研版(三起)英語六年級下冊
- 8《上課了》說課稿-2023-2024學(xué)年道德與法治一年級上冊統(tǒng)編版001
- 2023九年級數(shù)學(xué)上冊 第23章 圖形的相似23.4 中位線說課稿 (新版)華東師大版
- 9 知法守法 依法維權(quán) 說課稿 -2023-2024學(xué)年道德與法治六年級上冊(統(tǒng)編版)
- 2024年四年級英語上冊 Module 4 The world around us Unit 11 Shapes說課稿 牛津滬教版(三起)
- Unit8 I can do this for you 第三課時(說課稿)-2024-2025學(xué)年譯林版(三起)(2024)英語三年級上冊
- 3 光的傳播會遇到阻礙嗎 說課稿-2024-2025學(xué)年科學(xué)五年級上冊教科版
- 城市基礎(chǔ)設(shè)施修繕工程的重點與應(yīng)對措施
- GB 12710-2024焦化安全規(guī)范
- 2022年中考化學(xué)模擬卷1(南京專用)
- 【牛客網(wǎng)】2024秋季校園招聘白皮書
- 2024-2025銀行對公業(yè)務(wù)場景金融創(chuàng)新報告
- 新加坡小學(xué)二年級英語試卷practice 2
- 小學(xué)五年級英語20篇英文閱讀理解(答案附在最后)
- 2023年遼寧鐵道職業(yè)技術(shù)學(xué)院高職單招(英語)試題庫含答案解析
- GB/T 23800-2009有機熱載體熱穩(wěn)定性測定法
- T-SFSF 000012-2021 食品生產(chǎn)企業(yè)有害生物風(fēng)險管理指南
- 水庫工程施工組織設(shè)計
評論
0/150
提交評論