![《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案(全)_第1頁](http://file4.renrendoc.com/view4/M01/2A/26/wKhkGGaRv2SAZ4jwAACOmVmVFXE158.jpg)
![《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案(全)_第2頁](http://file4.renrendoc.com/view4/M01/2A/26/wKhkGGaRv2SAZ4jwAACOmVmVFXE1582.jpg)
![《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案(全)_第3頁](http://file4.renrendoc.com/view4/M01/2A/26/wKhkGGaRv2SAZ4jwAACOmVmVFXE1583.jpg)
![《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案(全)_第4頁](http://file4.renrendoc.com/view4/M01/2A/26/wKhkGGaRv2SAZ4jwAACOmVmVFXE1584.jpg)
![《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案(全)_第5頁](http://file4.renrendoc.com/view4/M01/2A/26/wKhkGGaRv2SAZ4jwAACOmVmVFXE1585.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:________________________
授課學(xué)期:________________________
教師找名:_________________________
計(jì)劃
課程名稱第1章初識Hadoop2學(xué)時(shí)
學(xué)時(shí)
本章主要介紹大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求、Hadoop簡介、離線數(shù)據(jù)
內(nèi)容分析
分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程
教學(xué)目標(biāo)
要求學(xué)生了解大數(shù)據(jù)的概念、熟悉大數(shù)據(jù)的應(yīng)用場景、了解Hadoop框架、了
與
解大數(shù)據(jù)學(xué)習(xí)流程
教學(xué)要求
教學(xué)重點(diǎn)Hadoop簡介、離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程
教學(xué)難點(diǎn)離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求)
C介紹本書,引出本課時(shí)主題
1.介紹本書,引出本課時(shí)的主題
隨著新一代信息技術(shù)的迅猛發(fā)展和深入應(yīng)用,數(shù)據(jù)的規(guī)模不斷擴(kuò)大,數(shù)
據(jù)已日益成為土地、資本之后的又一種重要的生產(chǎn)要素,和各個(gè)國家和地區(qū)
爭奪的重要資源,誰掌握數(shù)據(jù)的主動權(quán)和主導(dǎo)權(quán),誰就能贏得未來。美國奧
巴馬政府將數(shù)據(jù)定義為“未來的新石油”,認(rèn)為一個(gè)國家擁有數(shù)據(jù)的規(guī)模、活
性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制
將成為陸權(quán)、海權(quán)、空權(quán)之外的另一個(gè)國家核心權(quán)力。一個(gè)全新的概念——
大數(shù)據(jù)開始風(fēng)靡全球。本節(jié)將學(xué)習(xí)大數(shù)據(jù)簡介和大數(shù)據(jù)技術(shù)的核心需求的現(xiàn)
關(guān)內(nèi)容。
2.明確學(xué)習(xí)目標(biāo)
(1)能夠熟悉大數(shù)據(jù)的五大特征
(2)能夠了解大數(shù)據(jù)的六大發(fā)展趨勢
(3)能夠了解大數(shù)據(jù)在電商行業(yè)、交通行業(yè)、醫(yī)療行業(yè)的應(yīng)用
(4)能夠理解大數(shù)據(jù)核心技術(shù)需求
Q知識講解
>大數(shù)據(jù)簡介
從前,人們用飼養(yǎng)的馬來拉貨物。當(dāng)一匹馬拉不動一車貨物時(shí),人們不
曾想過培育一匹更大更壯的馬,而是利用更多的馬?同樣的,當(dāng)一臺計(jì)算機(jī)
無法進(jìn)行海量數(shù)據(jù)計(jì)算時(shí),人們也無需去開發(fā)一臺超級計(jì)算機(jī),而應(yīng)嘗試著
使用更多計(jì)算機(jī)。
下面來看一組令人瞠目結(jié)舌的數(shù)據(jù):2018年11月11日,支付寶總交易
額2135億元,支付寶實(shí)時(shí)計(jì)算處理峰值為17.18億條/秒,天貓物流訂單量
超過10億……
這場狂歡的背后是金融科技的護(hù)航,正是因?yàn)榘⒗锇凸緭碛兄袊讉€(gè)
具有自主知識產(chǎn)權(quán)、全球首個(gè)應(yīng)用在金融核心業(yè)務(wù)的分布式數(shù)據(jù)庫平臺
OceanBase,海量交易才得以有序地進(jìn)行。分布式集群具有高性能、高并發(fā)、
高一致性、高可用性等優(yōu)勢,遠(yuǎn)遠(yuǎn)超出單臺計(jì)算機(jī)的能力范疇。
>大數(shù)據(jù)的五大特征
大數(shù)據(jù)(BigData),是指數(shù)據(jù)量巨大,無法使用傳統(tǒng)工具進(jìn)行處理的數(shù)
據(jù)集合。通常認(rèn)為,大數(shù)據(jù)的典型特征主要體現(xiàn)在以下5個(gè)方面:大量
(Volume),高速(Velocity多樣(Varity)、價(jià)值(Value)>真實(shí)性(Veracity))
即所謂的“5V”。
習(xí)題教材第I章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)賣成
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
課程名稱第2章搭建Hadoop集群計(jì)劃4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹安裝準(zhǔn)備、Linux基本命令、Hadoop集群搭建、Hadoop集群測
內(nèi)容分析
試、使用Hadoop集群
教學(xué)目標(biāo)要求學(xué)生了解虛擬機(jī)的安裝和克隆、掌握Linux基本命令的用法、熟悉Linux
與系統(tǒng)網(wǎng)絡(luò)配置、掌握Hadoop集群的搭建和配置方法、熟悉Hadoop集群案例
教學(xué)要求操作
教學(xué)重點(diǎn)Linux基本命令、Hadoop集群搭建、Hadoop集群測試、使用Hadoop集群
教學(xué)難點(diǎn)Linux基本命令、Hadoop集群搭建、Hadoop集群測試、使用Hadoop集群
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(搭建Hadoop集群)
C回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Hadoop的基本知識,“工欲善其事,必先利其器”,在深入學(xué)
習(xí)Hadoop,掌握其相關(guān)應(yīng)用前,需要學(xué)會搭建集群環(huán)境。下面將帶領(lǐng)大家從
零開始搭建一個(gè)簡單的Hadoop集群。本節(jié)主要講解安裝前的準(zhǔn)備工作。
Hadoop可以安裝在Linux系統(tǒng)和Windows系統(tǒng)上使用。由于Linux系統(tǒng)具備
便捷性和穩(wěn)定性,所以在實(shí)際開發(fā)過程中,更多的Hadoop集群是在Linux系
統(tǒng)上運(yùn)行的,本書對Linux系統(tǒng)上的Hadoop集群搭建以及使用進(jìn)行講解。
2.明確學(xué)習(xí)目標(biāo)
(5)能夠獨(dú)立完成虛擬機(jī)安裝
(6)能夠獨(dú)立完成虛擬機(jī)克隆
(7)能夠掌握Linux系統(tǒng)網(wǎng)絡(luò)配置
(8)能夠獨(dú)立完成SSH服務(wù)配置
Q知識講解
>虛擬機(jī)安裝
搭建Hadoop集群需要很多臺機(jī)器,這在個(gè)人開發(fā)測試和學(xué)習(xí)時(shí),肯定是
不切實(shí)際的。所以,可以使用虛擬機(jī)軟件在一臺電腦中,搭建出多個(gè)Linux
虛擬機(jī)環(huán)境,來進(jìn)行個(gè)人開發(fā)測試和學(xué)習(xí)。下面就開始分步演示VMware
Workstation虛擬軟件工具進(jìn)行Linux系統(tǒng)虛擬機(jī)安裝配置的過程。
1.創(chuàng)建虛擬機(jī)
2.虛擬機(jī)啟動初始化
具體細(xì)節(jié)參見教材2.1.1節(jié)內(nèi)容。
>虛擬機(jī)克隆
一臺搭載CentOS鏡像文件的Linux虛擬機(jī)已經(jīng)安裝成功,但是搭建
Hadoop集群,一臺虛擬機(jī)遠(yuǎn)遠(yuǎn)不能滿足需求,這時(shí)需要對已安裝的虛擬機(jī)進(jìn)
行克隆。
克隆就是復(fù)制原始虛擬機(jī)全部狀態(tài)的,克隆操作一旦完成,克隆的虛擬
機(jī)就可以脫離原始虛擬機(jī)獨(dú)立存在,而且在克隆的虛擬機(jī)中和原始虛擬機(jī)中
的操作是相對獨(dú)立的,不相互影響
(1)關(guān)閉虛擬機(jī)qfOl,克隆虛擬機(jī)只能在虛擬機(jī)關(guān)機(jī)狀態(tài)下進(jìn)行。
(2)鼠標(biāo)右鍵單擊虛擬機(jī)名稱,選擇“管理”,再選擇“克隆”,進(jìn)入“克
隆虛擬機(jī)向?qū)Ы缑妗保鐖D所示。
克隆虛擬機(jī)向?qū)?/p>
習(xí)題教材第2章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)賣成
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第3章HDFS分布式文件系統(tǒng)4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹HDFS簡介、HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell
內(nèi)容分析命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件處理、通信機(jī)制
RPC
教學(xué)目標(biāo)
要求學(xué)生掌握HDFS的架構(gòu)和原理、掌握HDFS的Shell和JavaAPI操作方法、
與
了解Hadoop序列化、了解Hadoop小文件處理方式
教學(xué)要求
HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命令、Java程序操作HDFS、
教學(xué)重點(diǎn)
Hadoop序列化、Hadoop小文件處理、通信機(jī)制RPC
HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命令、Java程序操作HDFS、
教學(xué)難點(diǎn)
Hadoop序列化、Hadoop小文件處理、通信機(jī)制RPC
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(HDFS簡介、HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命
Aio.,、玉早審詞i作
Q回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Hadoop集群搭建和使用,本節(jié)將學(xué)習(xí)HDFS分布式文件系統(tǒng)
的相關(guān)知識。Hadoop的核心是HDFS和MiipReduce。HDFS由NDFS系統(tǒng)演
變而來,主要解決海量大數(shù)據(jù)存儲的問題,也是目前分布式文件系統(tǒng)中應(yīng)用
比較廣泛的一個(gè)。本章將帶領(lǐng)大家深刻理解和運(yùn)用HDFS系統(tǒng)。
2.明確學(xué)習(xí)目標(biāo)
(9)能夠了解HDFS
(10)能夠理解HDFS數(shù)據(jù)的存儲和讀取方式
(11)能夠掌握HDFS的特點(diǎn)
(12)能夠掌握HDFS的存儲架構(gòu)和數(shù)據(jù)讀寫流程
(13)能夠掌握HDFS的Shell命令
(14)能夠掌握J(rèn)ava程序操作HDFS
Q知識講解
>HDFS的概念
HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系統(tǒng))是一種
通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng)。分布式存儲比
普通存儲方式節(jié)省時(shí)間。
例如,現(xiàn)有10臺計(jì)算機(jī),每臺計(jì)算機(jī)上有1TB的硬盤。如果將Hadoop
安裝在這10臺計(jì)算機(jī)上,可以使用HDFS進(jìn)行分布式的文件存儲。相當(dāng)于登
錄到一臺具有10TB存儲容量的大型機(jī)器。而用HDFS分布式的文件存儲方
式在10臺計(jì)算機(jī)上存儲,顯然比用普通方式在1臺計(jì)算機(jī)上存儲更節(jié)省時(shí)間,
這就如同3個(gè)人吃3個(gè)蘋果比1個(gè)人吃3個(gè)蘋果要快。
1.NameNode
NameNode(名稱節(jié)點(diǎn))管理文件系統(tǒng)的命名空間。它負(fù)責(zé)維護(hù)文件系統(tǒng)
樹及樹內(nèi)所有的文件和目錄。這些信息以兩個(gè)文件(命名空間鏡像文件和編
輯日志文件)的形式永久保存在本地磁盤上。同時(shí)NameNode也記錄著每個(gè)
文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息,但它并不永久保存塊的位置信息,因?yàn)?/p>
這些信息在系統(tǒng)啟動時(shí)由數(shù)據(jù)節(jié)點(diǎn)重建。
2.DataNode
DataNode(數(shù)據(jù)節(jié)點(diǎn))是HDFS實(shí)例中在單獨(dú)機(jī)器上運(yùn)行的軟件,Hadoop
集群包含一個(gè)NameNode和大量的DataNode?一般情況下DataNode以機(jī)架的
習(xí)題教材第3章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)賣成
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第4章MapReduce分布式計(jì)算框架6學(xué)時(shí)
學(xué)時(shí)
本章主要介紹認(rèn)識MapReduce、MapReduce編程組件、MapReduce作業(yè)解析、
MapReduce工作原理、Shuffle階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例
內(nèi)容分析一排序、MapReduce典型案例一倒排索引、MapReduce典型案例一連接、
MapReduce典型案例一平均分以及百分比、MapReduce典型案例一過濾敏感
詞匯
教學(xué)目標(biāo)
要求學(xué)生理解M叩Reduce的基本原理、理解MapReduce經(jīng)典案例WorldCount
與
的實(shí)現(xiàn)原理、掌握MapReduce運(yùn)行流程、掌握MapReduce程序設(shè)計(jì)方法
教學(xué)要求
MapReduce編程組件、MapReduce作業(yè)解析、MapReduce工作原理、Shuffle
階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例一排序、MapReduce典型案例
教學(xué)重點(diǎn)
—倒排索引、M叩Reduce典型案例一連接、M叩Reduce典型案例一平均分以
及百分比、MapReduce典型案例一過濾敏感詞匯
MapReduce編程組件、MapReduce作業(yè)解析、MapReduce工作原理、Shuffle
階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例一排序、MapReduce典型案例
教學(xué)難點(diǎn)
一倒排索引、MapReduce典型案例一連接、MapReduce典型案例一平均分以
及百分比、MapReduce典型案例一過濾敏感詞匯
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(認(rèn)識MapReduce、MapReduce編程組件)
3回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了HDFS分布式文件系統(tǒng),Hadoop的數(shù)據(jù)處理核心為
MapReduce分布式計(jì)算框架。這一框架的出現(xiàn),使得編程人員在不熟悉分布
式并行編程的情況下,可以將自己的程序運(yùn)行在分布式系統(tǒng)上來處理海量的
數(shù)據(jù),因此大數(shù)據(jù)開發(fā)人員需要重點(diǎn)掌握MapReduce的基本原理。
2.明確學(xué)習(xí)目標(biāo)
(15)能夠了解MapReduce核心思想
(16)能夠理解MiipReduce編程模型
(17)能夠掌握MapReduce編程案例一WorldCount
(18)能夠掌握InputFormat組件和OutputFormat組件
Q知識講解
>MapReduce核心思想
MapReduce核心思想將大數(shù)據(jù)分而治之,即將數(shù)據(jù)通過一定的數(shù)據(jù)劃分
方法,分成多個(gè)較小的具有同樣計(jì)算過程的數(shù)據(jù)塊,數(shù)據(jù)塊之間不存在依賴
關(guān)系,將每一個(gè)數(shù)據(jù)塊分給不同的節(jié)點(diǎn)去處理,最后將處理的結(jié)果進(jìn)行匯總
具體來說,對大量順序式數(shù)據(jù)元素或者記錄進(jìn)行掃描和對每個(gè)數(shù)據(jù)元素
或記錄做相應(yīng)的處理并獲得中間結(jié)果信息的兩個(gè)過程抽象為Map操作;將對
中間結(jié)果進(jìn)行收集整理和產(chǎn)生最終結(jié)果并輸出的過程被抽象為Reduce操作。
MapReduce提供統(tǒng)一框架來隱藏系統(tǒng)層的細(xì)節(jié),實(shí)現(xiàn)了自動并行處理,
如計(jì)算任務(wù)的自動劃分和調(diào)度、數(shù)據(jù)的自動化分布式存儲和劃分、處理數(shù)據(jù)
與計(jì)算任務(wù)的同步、結(jié)果數(shù)據(jù)的收集整理、系統(tǒng)通信、負(fù)載平衡、計(jì)算性能
優(yōu)化處理、處理節(jié)點(diǎn)出錯檢測和失效恢復(fù)等。
>MapReduce編程模型
MapReduce是一種分布式離線并行計(jì)算框架,主要用于大規(guī)模數(shù)據(jù)集(大
于1TB)的并行計(jì)算。HadoopMapReduce可以看作GoogleMapReduce的克
隆版。
MapReduce的特點(diǎn)是易于編程,具有良好的擴(kuò)展性,具有高容錯性,適
合PB級以上海量數(shù)據(jù)的離線處理。M叩Reduce的兩大核心思想是Map(映射)
和Reduce(化簡)。基于這兩大核心思想,M叩Reduce把數(shù)據(jù)處理流程分成兩
個(gè)主要階段:M叩階段和Reduce階段。
Map階段負(fù)責(zé)對數(shù)據(jù)進(jìn)行預(yù)處理,具體是指通過特定的輸入格式讀取文
件數(shù)據(jù),將讀取的數(shù)據(jù)以鍵值(Key-Value,K-V)對的形式進(jìn)行保存。
習(xí)題教材第4章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:________________________
授課學(xué)期:_________________________
教師盤名:_________________________
計(jì)劃
課程名稱第5章Zookeeper分布式協(xié)調(diào)服務(wù)4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹認(rèn)識ZookeeperZookeeper安裝和常用命令、Zookeeper客戶端
內(nèi)容分析
編程、Zookeeper典型應(yīng)用場景
教學(xué)目標(biāo)
要求學(xué)生理解Zookeeper的工作原理、熟悉Zookeeper的安裝、掌握Zookeeper
與
的客戶端編程方法
教學(xué)要求
教學(xué)重點(diǎn)Zookeeper安裝和常用命令、Zookeeper客戶端編程、Zookeeper典型應(yīng)用場景
教學(xué)難點(diǎn)Zookeeper安裝和常用命令、Zookeeper客戶端編程、Zookeeper典型應(yīng)用場景
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(認(rèn)識Zookeeper>Zookeeper安裝和常用命令)
C回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了MapReduce分布式計(jì)算框架,本節(jié)將介紹關(guān)于Zookeeper的
現(xiàn)關(guān)知識。Zoopkeeper是Hadoop集群管理中必不可少的組件,提供了一套分
布式集群管理的機(jī)制。在Zoopkeeper的協(xié)調(diào)下,Hadoop集群可以實(shí)現(xiàn)高可
用,保證了集群的穩(wěn)定性,對于實(shí)際生產(chǎn)環(huán)境來說,意義重大。本節(jié)先帶領(lǐng)
大家認(rèn)識一下Zookeeper,完成Zookeeper的安裝,學(xué)習(xí)一些Zookeeper常用
命令。
2.明確學(xué)習(xí)目標(biāo)
(19)能夠理解Zooke叩er的設(shè)計(jì)目的
(20)能夠理解Zookeeper的系統(tǒng)模型
(21)能夠掌握Zookeeper中的角色
(22)能夠掌握Zookeeper的工作原理
(23)能夠掌握Zookeeper單機(jī)模式
(24)能夠掌握Zookeeper全分布式
(25)能夠掌握Zookeeper服務(wù)器常用腳本
Q知識講解
>Zookeeper簡介
Zookeeper是開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù)。Zookeeper提供了同步服
務(wù)、命名服務(wù)、組服務(wù)、配置管理服務(wù),較好地解決了Hadoop中經(jīng)常出現(xiàn)的
死鎖、競態(tài)條件等問題。
死鎖是在執(zhí)行兩個(gè)或兩個(gè)以上的進(jìn)程時(shí),由競爭資源或彼此通信而造成
的阻塞現(xiàn)象。競態(tài)條件是指在執(zhí)行兩個(gè)或兩個(gè)以上的進(jìn)程時(shí),進(jìn)程執(zhí)行順序
對執(zhí)行后的結(jié)果存在影響。
Zookeeper可以與需要保證高可用的Hadoop組件搭配使用,例如,HA模
式下的HDFS、HA模式下的YARN、HBase。
>Zookeeper的設(shè)計(jì)目的
Zookeeper提供一個(gè)協(xié)調(diào)方便、易于編程的環(huán)境,能夠減輕分布式應(yīng)用程
序所承擔(dān)的協(xié)調(diào)任務(wù),其設(shè)計(jì)的主要體現(xiàn)在以下幾個(gè)方面。
(1)一致性??蛻舨徽撨B接到哪個(gè)Server,看到的都是相同的視圖。
(2)實(shí)時(shí)性。Zookeeper的數(shù)據(jù)存放在內(nèi)存當(dāng)中,可以做到高吞吐、低
延遲。
(3)可靠性。組成Zookeeper服務(wù)的服務(wù)器必須互相知道其他服務(wù)器的
習(xí)題教材第5章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第6章Hadoop2.0新特性2學(xué)時(shí)
學(xué)時(shí)
內(nèi)容分析本章主要介紹Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式
教學(xué)目標(biāo)
要求學(xué)生熟悉Hadoop2.0的改進(jìn)與提升、理解YARN架構(gòu)的原理、理解Hadoop
與
的HA模式
教學(xué)要求
教學(xué)重點(diǎn)Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式
教學(xué)難點(diǎn)Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式)
Q回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Zookeeper分布式協(xié)調(diào)服務(wù),本節(jié)將介紹關(guān)于Hadoop2.0新特
性的現(xiàn)關(guān)知識。Hadoop誕生以來,主要分為Hadoopl.O、Hadoop2.0、Hadoop3.0
三個(gè)系列的多個(gè)版本。目前最常見的是Hadoop2.0系列。Hadoop2.0指的是第
2代Hadoop,它是從Hadoop1.0發(fā)展而來的,相對于Hadoop1.0有很多改進(jìn)。
下面對Hadoop2.0新特性進(jìn)行詳細(xì)講解。
2.明確學(xué)習(xí)目標(biāo)
(26)能夠理解HDFS存在的問題
(27)能夠理解MapReduce存在的問題
(28)能夠理解HDFS2.0解決HDFS1.0中的問題
(29)能夠掌握Zookeeper的工作原理
(30)能夠掌握YARN架構(gòu)
(31)能夠掌握YARN的優(yōu)勢
(32)能夠了解HA模式
C知識講解
>Hadoop2.0的改進(jìn)
Hadoop1.0由MapReduce和HDFS組成,在高可用、擴(kuò)展性方面存在一
些問題。Hadoop2.0由HDFS、MapReduce和YARN三個(gè)分支構(gòu)成。如圖所
7J\o
>HDFS存在的問題
(1)NameNode單點(diǎn)故障。難以應(yīng)用于在線場景。
(2)NameNode壓力過大,且內(nèi)存受限,影響系統(tǒng)擴(kuò)展性。
>MapReduce存在的問題
(1)JobTracker單點(diǎn)故障。
(2)JobTracker訪問壓力大,影響系統(tǒng)擴(kuò)展性。
(3)難以支持除MapReduce之外的計(jì)算框架,如Spark、Storm>Tez等。
>HDFS2.0解決HDFS1.0中的問題
習(xí)題教材第6章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:________________________
授課學(xué)期:_________________________
教師盤名:_________________________
計(jì)劃
課程名稱第7章Hive6學(xué)時(shí)
學(xué)時(shí)
本章主要介紹數(shù)據(jù)倉庫簡介、認(rèn)識Hive、Hive安裝、Hive數(shù)據(jù)類型、Hive數(shù)
內(nèi)容分析據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive性能優(yōu)化、Hive案例
分析
教學(xué)目標(biāo)
要求學(xué)生熟悉Hive安裝、掌握Hive架構(gòu)及其原理、掌握Hive的數(shù)據(jù)庫和表
與
的操作方法、熟悉Hive函數(shù)的使用、熟悉Hive的性能優(yōu)化
教學(xué)要求
Hive數(shù)據(jù)類型、Hive數(shù)據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive
教學(xué)重點(diǎn)
性能優(yōu)化、Hive案例分析
Hive數(shù)據(jù)類型、Hive數(shù)據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive
教學(xué)難點(diǎn)
性能優(yōu)化、Hive案例分析
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(數(shù)據(jù)倉庫簡介、認(rèn)識Hive、Hive安裝、Hive數(shù)據(jù)類型)
C回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Hadoop2.0新特性的相關(guān)知識,本節(jié)帶領(lǐng)大家學(xué)習(xí)數(shù)據(jù)倉庫、
Hive、安裝Hive、Hive數(shù)據(jù)類型的相關(guān)知識。Hive是建立在Hadoop上的數(shù)
據(jù)倉庫工具,可以借助提取、轉(zhuǎn)化、加載技術(shù)(Extract-Transform-Load,ETL)
存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)。Hive的出現(xiàn)使得開發(fā)人
員使用相對簡單類SQL(StrutureQueryLanguage,結(jié)構(gòu)查詢語言)語句,就
可以操作Hadoop處理海量數(shù)據(jù),大大降低了開發(fā)人員的學(xué)習(xí)成本。
2.明確學(xué)習(xí)目標(biāo)
(33)能夠了解數(shù)據(jù)倉庫的概念
(34)能夠理解數(shù)據(jù)倉庫的使用
(35)能夠了解數(shù)據(jù)倉庫的特點(diǎn)和主流的數(shù)據(jù)倉庫
(36)能夠掌握Hive架構(gòu)
(37)能夠理解Hive和關(guān)系型數(shù)據(jù)庫比較
(38)能夠掌握Hive安裝
(39)能夠掌握Hive數(shù)據(jù)類型
Q知識講解
>數(shù)據(jù)倉庫概述
數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化但信息本身相對穩(wěn)定
的數(shù)據(jù)集合,用于支持管理決策過程。總體來說,數(shù)據(jù)倉庫可以整合多個(gè)數(shù)
據(jù)源的歷史數(shù)據(jù),進(jìn)行細(xì)粒度的、多維的分析,幫助高層管理者或者業(yè)務(wù)分
析人員做出商業(yè)戰(zhàn)略決策或商業(yè)報(bào)表。
>數(shù)據(jù)倉庫的使用
一個(gè)公司的不同項(xiàng)目可能用到不同的數(shù)據(jù)源,有的項(xiàng)目數(shù)據(jù)存在MySQL
里面,有的項(xiàng)目存在MongoDB里面,甚至還有些要做第三方數(shù)據(jù)。
如果想把這些數(shù)據(jù)整合起來,進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)倉庫(DataWarehouse,
DW)就派上用場了。它可以對多種業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選和整合,用于數(shù)據(jù)分析、
數(shù)據(jù)挖掘、數(shù)據(jù)報(bào)表,如圖所示。
數(shù)據(jù)挖掘數(shù)據(jù)分析數(shù)據(jù)報(bào)表
匚二二二二二
數(shù)據(jù)倉庫
習(xí)題教材第7章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第8章HBase分布式存儲系統(tǒng)4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹認(rèn)識HBase、HBase表設(shè)計(jì)、HBase安裝、HBaseShell常用操
內(nèi)容分析作、HBase編程、HBase過濾器和比較器、HBase與Hive結(jié)合、HBase性能
優(yōu)化
教學(xué)目標(biāo)
要求學(xué)生掌握HBase架構(gòu)及其原理、掌握HBase的存儲流程、熟悉HBase的
與
安裝和利用、理解HBase與Hive之間的關(guān)系
教學(xué)要求
HBase表設(shè)計(jì)、HBaseShell常用操作、HBase編程、HBase過濾器和比較器、
教學(xué)重點(diǎn)
HBase與Hive結(jié)合、HBase性能優(yōu)化
HBase表設(shè)計(jì)、HBaseShell常用操作、HBase編程、HBase過濾器和比較器、
教學(xué)難點(diǎn)
HBase與Hive結(jié)合、HBase性能優(yōu)化
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(認(rèn)識HBase、HBase表設(shè)計(jì)、HBase安裝、HBaseShell常用操作)
3回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Hive,本節(jié)將開始認(rèn)識HBase,還會有HBase表設(shè)計(jì)、HBase
安裝和HBaseShell常用操作的相關(guān)知識。
2.明確學(xué)習(xí)目標(biāo)
(40)能夠了解HBase
(41)能夠掌握HBase的數(shù)據(jù)模型
(42)能夠掌握HBase架構(gòu)
(43)能夠掌握HBase文件存儲格式和存儲流程
(44)能夠掌握HBase和HDFS
(45)能夠掌握HBase表設(shè)計(jì)
(46)能夠獨(dú)立完成HBase安裝
(47)能夠掌握HBaseShell常用操作
Q知識講解
>HBase簡介
HBase是一個(gè)基于Hadoop的分布式、面向列的開源數(shù)據(jù)庫,對大數(shù)據(jù)實(shí)
現(xiàn)了隨機(jī)定位和實(shí)時(shí)讀寫。
HBase是基于Google的Bigtable技術(shù)實(shí)現(xiàn)的,GoogleBigtable利用GFS
作為其文件存儲系統(tǒng),HBase利用Hadoop的HDFS作為其文件存儲系統(tǒng);
Google運(yùn)行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用Hadoop
的MapReduce來處理HBase中的海量數(shù)據(jù);GoogleBigtable利用Chubby進(jìn)
行協(xié)同服務(wù),HBase利用Zookeeper進(jìn)行協(xié)同服務(wù)。
HBase具有以下特點(diǎn)。
(1)讀取數(shù)據(jù)實(shí)時(shí)性強(qiáng):可以實(shí)現(xiàn)對大數(shù)據(jù)的隨機(jī)訪問和實(shí)時(shí)讀寫。
(2)存儲空間大:可以存儲十億行、百萬列、上千個(gè)版本的數(shù)據(jù)。
(3)具有可伸縮性:可以通過增刪節(jié)點(diǎn)實(shí)現(xiàn)數(shù)據(jù)的伸縮性存儲。
(4)可靠性強(qiáng):HBase的RegionServer之間可以實(shí)現(xiàn)自動故障轉(zhuǎn)移。
(5)面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨(dú)立檢索。
(6)數(shù)據(jù)類型單一:HBase中的數(shù)據(jù)都是字符串,沒有類型。
>HBase的數(shù)據(jù)模型
HBase是一個(gè)面向列的數(shù)據(jù)庫,數(shù)據(jù)模型主要有命名空間(Namespace)、
表(Table)、行鍵(Rowkey)、列族(ColumnFamily)>列(Column)、時(shí)間
戳(Timestamp)、單元格(Cell)o
習(xí)題教材第8章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第9章Flune4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹認(rèn)識Flume、Flume基本組件、Flume安裝、Flume數(shù)據(jù)流模型、
內(nèi)容分析
Flume的可靠性保證、Flume攔截器、采集案例
教學(xué)目標(biāo)
要求學(xué)生掌握Flume框架及其原理、熟悉Flume的安裝和使用、掌握Source、
與
Sink、Channel的使用方法、掌握攔截器的用法
教學(xué)要求
Flume基本組件、Flume數(shù)據(jù)流模型、Flume的可靠性保證、Flume攔截器、
教學(xué)重點(diǎn)
采集案例
Flume基本組件、Flume數(shù)據(jù)流模型、Flume的可靠性保證、Flume攔截器、
教學(xué)難點(diǎn)
采集案例
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(認(rèn)識Flume、Fhime基本組件、Flume安裝、Flume數(shù)據(jù)流模型)
C回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了HBase分布式存儲系統(tǒng),要想實(shí)現(xiàn)對海量數(shù)據(jù)進(jìn)行分析處理,
首先需要將各種應(yīng)用程序產(chǎn)生的海量數(shù)據(jù)高效地收集匯總,并傳輸?shù)街付ǖ?/p>
數(shù)據(jù)存儲區(qū),F(xiàn)lume作為高效的分布式數(shù)據(jù)采集工具應(yīng)運(yùn)而生。Flume是一個(gè)
基于流數(shù)據(jù)的簡單而靈活的架構(gòu),用戶通過給Flume添加各種新的功能來滿
足個(gè)性化的需求。本節(jié)將開始認(rèn)識Flume,學(xué)習(xí)Flume基本組件的使用,進(jìn)行
Flume安裝和學(xué)習(xí)Flume數(shù)據(jù)流模型的相關(guān)知識。
2.明確學(xué)習(xí)目標(biāo)
(48)能夠了解Flume
(49)能夠掌握Flume基本組件
(50)能夠掌握Flume安裝
(51)能夠掌握Flume數(shù)據(jù)流模型
(52)能夠掌握HBaseShell常用操作
Q知識講解
>Flume簡介
Flume最初是Cloudera公司推出的日志采集系統(tǒng),于2009年被捐贈給了
Apache軟件基金會,成為Hadoop相關(guān)組件之一。近幾年隨著Flume的不斷
被完善、升級版本的推出,以及Flume內(nèi)部各種組件的增加,用戶在開發(fā)過
程中使用Flume的便利性得到了很大的改善。
Flume是一種可配置、高可用的數(shù)據(jù)采集工具,主要用于采集來自各種流
媒體的數(shù)據(jù)(Web服務(wù)器的日志數(shù)據(jù)等)并傳輸?shù)郊惺綌?shù)據(jù)存儲區(qū)域。Flume
支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);并且可以對數(shù)據(jù)進(jìn)
行簡單處理,將其寫到可定制的各種數(shù)據(jù)接受方(如文本、HDFS、HBase等)。
Flume有兩個(gè)系列:FlumeOG和FlumeNG。,F(xiàn)lumeOG是指Flume0.9.x
系列,F(xiàn)lumeNG是指Flume1.x系列。目前使用FlumeNG的企業(yè)較多,因
此本書主要講解FlumeNG。
>Flume的特點(diǎn)
Flume的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面。
(1)具有復(fù)雜的流動性。Flume允許用戶構(gòu)建多跳流,允許使用扇入流
和扇出流、上下文路由和故障跳轉(zhuǎn)的備份路由(故障轉(zhuǎn)移)。
①多跳流。Flume中可以有多個(gè)代理(Agent)。事件(Event)需要通過
多個(gè)代理才能到達(dá)最終目的地,這樣的數(shù)據(jù)流被稱為多跳流。Flume的數(shù)據(jù)流
習(xí)題教材第9章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第10章Sqoop4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹認(rèn)識Sqoop、Sqoop安裝、Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop
內(nèi)容分析
數(shù)據(jù)導(dǎo)出、Sqoopjob
教學(xué)目標(biāo)
要求學(xué)生掌握Flume框架及其原理、熟悉Flume的安裝和使用、掌握Source、
與
Sink、Channel的使用方法、掌握攔截器的用法
教學(xué)要求
教學(xué)重點(diǎn)Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop數(shù)據(jù)導(dǎo)出、Sqoopjob
教學(xué)難點(diǎn)Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop數(shù)據(jù)導(dǎo)出、Sqoopjob
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(認(rèn)識Sqoop、Sqoop安裝、Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入)
3回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
上節(jié)學(xué)習(xí)了Flume的相關(guān)知識,本節(jié)將帶領(lǐng)學(xué)習(xí)進(jìn)行Sqoop安裝、Sqoop
命令、Sqoop數(shù)據(jù)導(dǎo)入的學(xué)習(xí)。Sqoop通過Hadoop的MapReduce實(shí)現(xiàn)了數(shù)據(jù)
在關(guān)系型數(shù)據(jù)庫與HDFS、Hive、HBase等組件之間的傳輸。在大數(shù)據(jù)項(xiàng)目中,
Sqoop為大規(guī)模數(shù)據(jù)的處理與存儲提供了重要支持。
2.明確學(xué)習(xí)目標(biāo)
(53)能夠了解Sqoop
(54)能夠掌握Sqoop原理和架構(gòu)
(55)能夠掌握Sqoop安裝和Sqoop命令
(56)能夠掌握將MySQL的數(shù)據(jù)導(dǎo)入HDFS
(57)能夠掌握將MySQL的數(shù)據(jù)導(dǎo)入Hive
Q知識講解
>Sqoop簡介
Sqoop是一種用于在Hadoop和結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)(如關(guān)系數(shù)據(jù)庫、大型機(jī))
之間高效傳輸數(shù)據(jù)的工具。Sqoop項(xiàng)目開始于2009年,它的出現(xiàn)主要是為了
滿足以下兩種需求。
(1)企業(yè)的業(yè)務(wù)數(shù)據(jù)大多存放在關(guān)系數(shù)據(jù)庫(如MySQL、Oracle)中,
數(shù)據(jù)量達(dá)到一定規(guī)模后,如果需要對其進(jìn)行統(tǒng)計(jì)和分析,直接使用關(guān)系數(shù)據(jù)
庫處理數(shù)據(jù)的效率較低,這時(shí)可以通過Sqoop將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫導(dǎo)入
Hadoop的HDFS(或HBase、Hive)進(jìn)行離線分析。
(2)使用Hadoop處理后的數(shù)據(jù),往往需要同步到關(guān)系數(shù)據(jù)庫中作為業(yè)
務(wù)的輔助數(shù)據(jù),這時(shí)可以通過Sqoop將Hadoop中的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫。
Sqoop擔(dān)負(fù)了將數(shù)據(jù)導(dǎo)入和導(dǎo)出Hadoop的任務(wù)。Sqoop的核心設(shè)計(jì)思想
是利用MapReduce提高數(shù)據(jù)傳輸速度。Sqo叩的導(dǎo)入和導(dǎo)出功能就是通過
M叩Reduce作業(yè)來實(shí)現(xiàn)的。
目前Sqoop主要有兩個(gè)系列:Sqoop1和Sqoop2,Sqoop1最新的穩(wěn)定版
本是1.4.7,Sqoop2的最新版本是1.99.7。1.99.7版本功能不完整,并且與1.4.7
版本不兼容,不適用于生產(chǎn)部署.目前大多數(shù)企業(yè)中主要使用的是Sqoopl,
因此本書選用1.4.7版本進(jìn)行講解。
>Sqoop原理
Sqoop的原理其實(shí)就是將導(dǎo)入導(dǎo)出命令轉(zhuǎn)化為MapReduce程序來執(zhí)行,
Sqoop在接收到命令后,都要生成MapReduce程序
習(xí)題教材第10章習(xí)題
教
學(xué)
后
記
Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
教學(xué)設(shè)計(jì)
課程名稱:Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
授課年級:____________________________________
授課學(xué)期:____________________________________
教師盤名:____________________________________
計(jì)劃
課程名稱第11章綜合項(xiàng)目-電商精準(zhǔn)營銷4學(xué)時(shí)
學(xué)時(shí)
本章主要介紹項(xiàng)目概述、項(xiàng)目詳細(xì)介紹、項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清
內(nèi)容分析
洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化
教學(xué)目標(biāo)
要求學(xué)生了解項(xiàng)目背景及需求,了解項(xiàng)目中的架構(gòu)設(shè)計(jì),了解數(shù)據(jù)來源,掌
與
握數(shù)據(jù)清洗流程,掌握數(shù)據(jù)倉庫操作流程,掌握應(yīng)用測試方法。
教學(xué)要求
教學(xué)重點(diǎn)項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化
教學(xué)難點(diǎn)項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化
教學(xué)方式課堂講解及ppt演示
第一課時(shí)
(項(xiàng)目概述、項(xiàng)目詳細(xì)介紹、項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗)
Q回顧內(nèi)容,引出本課時(shí)主題
1.回顧內(nèi)容,引出本課時(shí)的主題
在前面的章節(jié)中,詳細(xì)講解了Hadoop的基礎(chǔ)知識與核心技術(shù),以及各相
關(guān)組件的使用,包括Hadoop、Hive、HBase,Zookeeper、Flume、Sqoop等。
本節(jié)將通過一個(gè)企業(yè)級真實(shí)項(xiàng)目案例,串聯(lián)前面所學(xué)的知識點(diǎn),講解這些知
識點(diǎn)在實(shí)際開發(fā)過程中的應(yīng)用。
教
2.明確學(xué)習(xí)目標(biāo)
學(xué)
(58)能夠了解項(xiàng)目詳細(xì)介紹
過(59)能夠掌握項(xiàng)目模塊分析
(60)能夠掌握數(shù)據(jù)采集
程
(61)能夠掌握數(shù)據(jù)清洗
“知識講解
>項(xiàng)目背景介紹
電商網(wǎng)站上線之后,利用大數(shù)據(jù)技術(shù),收集用戶的行為數(shù)據(jù),進(jìn)行多維
度統(tǒng)計(jì)分析,掌握網(wǎng)站線上運(yùn)營情況,將分析結(jié)果生成相應(yīng)的數(shù)據(jù)報(bào)表,提
供給運(yùn)營部門進(jìn)行業(yè)務(wù)分析。運(yùn)營部門利用數(shù)據(jù)報(bào)表,可以制訂出相應(yīng)的網(wǎng)
站優(yōu)化方案,調(diào)整廣告投入,組織舉辦更好的促銷、精準(zhǔn)營銷等活動。
>項(xiàng)目架構(gòu)設(shè)計(jì)
項(xiàng)目架構(gòu):數(shù)據(jù)源(JS、SDK)—數(shù)據(jù)采集(Flume)—數(shù)據(jù)預(yù)處理
(MiipReduce)—數(shù)據(jù)倉庫(Hive)—數(shù)據(jù)導(dǎo)出(Sqoop)—數(shù)據(jù)存儲(MySQL)
一數(shù)據(jù)可視化。
(1)數(shù)據(jù)采集。每當(dāng)用戶通過PC端或者移動端訪問商城網(wǎng)站時(shí),網(wǎng)站
前臺后臺程序均會產(chǎn)生日志信息,前臺通過JS(JavaScript)收集到Nginx服
務(wù)器中,后臺通過SDK(SoftwareDevelopmentKit,軟件開發(fā)工具包)收集
到Nginx服務(wù)器中。然后在Nginx服務(wù)器中部署FlumeAgent采集軟件,實(shí)時(shí)
監(jiān)控目錄,將產(chǎn)生的日志文件實(shí)時(shí)的采集到HDFS當(dāng)中。
(2)數(shù)據(jù)預(yù)處理。將采集到的數(shù)據(jù)按照項(xiàng)目需求進(jìn)行初步的清洗,得到
項(xiàng)目中需要使用到的字段數(shù)據(jù)。
(3)數(shù)據(jù)倉庫。由于MapReduce操作數(shù)據(jù)編寫流程過于復(fù)雜,這里采用
Hive來對數(shù)據(jù)進(jìn)行處理。將數(shù)據(jù)導(dǎo)入到Hive中,按照項(xiàng)目的需求,寫SQL
語句來實(shí)現(xiàn)。
(4)數(shù)據(jù)存儲。處理之前的數(shù)據(jù)以及Hive的輸出數(shù)據(jù)都存儲在HDFS
中,讀取十分緩慢,很容易造成超時(shí),這里采用Sqoop工具,將數(shù)據(jù)導(dǎo)入到
MySQL中。
(5)數(shù)據(jù)可視化,為了更直觀的展示數(shù)據(jù)結(jié)果,對得到的數(shù)據(jù)結(jié)果進(jìn)行
可視化操作。
>項(xiàng)目核心關(guān)注點(diǎn)
本項(xiàng)目收集不同客戶端的用戶行為數(shù)據(jù),通過MapReduce、Hive進(jìn)行數(shù)
據(jù)分析處理,將分析結(jié)果數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫中。在此過程中需要對兒
個(gè)核心的關(guān)注點(diǎn)進(jìn)行詳細(xì)分析。
(1)購買率:購買的人數(shù)/總?cè)藬?shù)購買的人數(shù)/查看該商品的總?cè)藬?shù)。
(2)復(fù)購率:n次購買的人數(shù)/n-1次購買的人數(shù)(N>=2)。
(3)訂單數(shù)量,訂單金額,訂單的類型。
①成功訂單數(shù)量、成功訂單金額、成功訂單的類型。
②退款訂單數(shù)量、退款訂單金額、退款訂單的類型。
(4)訪客人數(shù)/會員人數(shù)。
(5)訪客轉(zhuǎn)會員的比例。
(6)廣告推廣效果。
(7)網(wǎng)站內(nèi)容相關(guān)的分析(網(wǎng)站的跳出率、頁面的跳出率)。
>重要概念
1.訪客
訪問網(wǎng)站指定用戶、一般稱為自然人,區(qū)分PC、手機(jī):
訪客統(tǒng)計(jì)指標(biāo)如下。
(1)新增訪客:第一次訪問系統(tǒng)的訪客人數(shù)。
(2)活躍訪客:給定時(shí)間段內(nèi)訪問過系統(tǒng)的訪客人數(shù)(老訪客+新訪客)。
(3)總訪客:迄今為止訪問過系統(tǒng)的訪客總?cè)藬?shù)。
(4)流失訪客:上一個(gè)時(shí)間段內(nèi)訪問過系統(tǒng),當(dāng)前時(shí)間段內(nèi)沒有訪問系
統(tǒng)的訪客人數(shù)。
(5)回流訪客:上一個(gè)時(shí)間段內(nèi)沒有訪問過系統(tǒng),當(dāng)前時(shí)間段內(nèi)訪問過
系統(tǒng)的訪客人數(shù)
2.會員
業(yè)務(wù)系統(tǒng)中注冊用戶、直接使用業(yè)務(wù)系統(tǒng)中會員標(biāo)識符來標(biāo)識。訪客登
錄系統(tǒng)后,就成為會員。
會員統(tǒng)計(jì)指標(biāo)如下。
(1)新增會員:第一次登錄系統(tǒng)的會員人數(shù)。
(2)活躍會員:給定時(shí)間段內(nèi)登錄過系統(tǒng)的會員人數(shù)(老會員+新會員)。
(3)總會員:迄今為止新增會員的總?cè)藬?shù)。
(4)回流會員。
(5)流失會員。
(6)訪客轉(zhuǎn)會員比例。
(7)新增訪客轉(zhuǎn)會員的比例。
3.會話
用戶進(jìn)入到系統(tǒng)到離開系統(tǒng)這一段時(shí)間被成為會話,這段時(shí)間的會話時(shí)
間長度就叫做會話長度,一個(gè)會話中的所有操作都屬于同一個(gè)會話。會話分
為PC端會話和移動端會話。
PC端會話采用瀏覽器的Session機(jī)制在Cookie中存儲一個(gè)存活時(shí)間,在
操作的時(shí)候,進(jìn)行判斷時(shí)間是否過期,如果過期,產(chǎn)生一個(gè)新的會話,如果
沒有過期,更新操作時(shí)間
移動端會話采用移動端的Session機(jī)制,類似PC端種植Cookie的方式,
在磁盤中寫入一個(gè)時(shí)間進(jìn)行判斷.
會話指標(biāo)如下。
(1)會話長度。
(2)會話數(shù)量。
(3)跳出會話的數(shù)量(在一個(gè)會話中,只訪問過一次網(wǎng)站的會話數(shù)量)。
4.跳出率
跳出率統(tǒng)計(jì)指標(biāo)如下。
(1)會話跳出率:跳出會話/總會話數(shù)量。
(2)頁面跳出率:從該頁面離開后進(jìn)入到其他頁面的會話數(shù)量占進(jìn)入該
頁面會話數(shù)量的百分比。
5.外鏈
外鏈統(tǒng)計(jì)指標(biāo):不同外鏈帶來的會話數(shù)量/訪客數(shù)量/訂單數(shù)量。
6.PV
PV(PageView,頁面訪問量)是用戶每次對網(wǎng)站的訪問總次數(shù),用戶,
每次對網(wǎng)站訪問都被記錄,用戶多次訪問同一頁面,訪問量累計(jì)。
7.UV
統(tǒng)計(jì)UV(UniqueVisitor,獨(dú)立訪問用戶)數(shù)量。訪問網(wǎng)站的一臺計(jì)算機(jī)
為一個(gè)訪客。00:00-24:00相同的客戶端只被計(jì)算一次。
8.獨(dú)立IP
統(tǒng)計(jì)獨(dú)立IP數(shù)量。00:00-24:00內(nèi)相同IP地址只被計(jì)算一次。
9.DV
DV(DepthView,訪問深度)指訪問了多少頁面,展示網(wǎng)站內(nèi)容對用戶
的吸引程度,結(jié)合跳出率,有助于修改網(wǎng)站內(nèi)容,提高網(wǎng)站黏性友好性。統(tǒng)
計(jì)指標(biāo):不同訪問深度訪客人數(shù)/會話數(shù)量。
>維度
數(shù)據(jù)分析只有基于相應(yīng)的維度下才有意義,常見的維度如表所示
維度解釋
時(shí)間維度年、季度、月、周、日、小時(shí)
區(qū)分用戶行為數(shù)據(jù)來自PC端、移動端還是后臺系
平臺維度統(tǒng),有Website>Android>Ios>Java_Server>
Php_Server等
瀏覽器維度卻別瀏覽器類型、瀏覽器版本
地域維度國家、省份、城市
KPI維度指定分析的指標(biāo)
比如VI、V2等等,一般用于多個(gè)版本之間進(jìn)行數(shù)
版本維度
據(jù)比較(AB測試)
支付方式維度Alipay、Weixin、銀行卡支付...
外鏈維度百度、360、google等等
操作系統(tǒng)維度操作系統(tǒng)名稱、操作系統(tǒng)版本
>項(xiàng)目模塊分析
本項(xiàng)目主要有七個(gè)模塊的數(shù)據(jù),分別為:用戶基本信息分析模塊、瀏覽
器分析模塊、地域分析模塊、外鏈分析模塊、用戶瀏覽深度分析模塊、事件
分析模塊、訂單分析模塊。
針對不同的分析模塊,我們有不同的用戶數(shù)據(jù)需求,七個(gè)模塊中,用戶
基本信息分析模塊和瀏覽器分析模塊類型一致,只是后者比前者多一個(gè)瀏覽
器維度。地域分析模塊和外鏈分析模塊分別從不同的維度進(jìn)行分析展示。用
戶瀏覽深度分析模塊、事件分析模塊以及訂單分析模塊是單獨(dú)針對業(yè)務(wù)進(jìn)行
的分析。
>用戶基本信息分析模塊
主要從訪客和會員兩個(gè)主要角度分析瀏覽相關(guān)信息,包括但不限于新增
訪客、活躍訪客、總訪客、新增會員、活躍會員、總會員以及會話分析等。
>瀏覽器分析模塊
在用戶基本信息分析的基礎(chǔ)上添加一個(gè)瀏覽器維度。
(1)瀏覽器訪客分析。
(2)瀏覽器會員分析。
(3)瀏覽器會話分析。
(4)瀏覽器PV分析。
>地域分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人門面房屋租賃合同標(biāo)準(zhǔn)樣本(2篇)
- 2025年鄉(xiāng)村農(nóng)副產(chǎn)品采購合同協(xié)議模板(2篇)
- 2025年交易會攤位制作協(xié)議樣本(2篇)
- 2025年個(gè)人挖掘機(jī)買賣合同(2篇)
- 2025年個(gè)人機(jī)械租賃合同協(xié)議(4篇)
- 2025年事業(yè)單位臨時(shí)工合同樣本(2篇)
- 寫字樓裝修解除合同協(xié)議書
- 2025年度安全設(shè)施完善租賃住宅合同示例
- 旗艦店品牌形象裝修合同
- 寵物店裝修承攬協(xié)議
- 設(shè)備日常維護(hù)及保養(yǎng)培訓(xùn)
- 設(shè)計(jì)院個(gè)人年終總結(jié)
- 鋼結(jié)構(gòu)實(shí)習(xí)報(bào)告
- 2024年建房四鄰協(xié)議范本
- FTTR-H 全光組網(wǎng)解決方案裝維理論考試復(fù)習(xí)試題
- 2024年安全生產(chǎn)月主題2024年學(xué)校安全生產(chǎn)月活動方案
- 2024年廣東佛山市中醫(yī)院三水醫(yī)院招聘61人歷年高頻考題難、易錯點(diǎn)模擬試題(共500題)附帶答案詳解
- 測繪保密協(xié)議書保密協(xié)議(2024版)
- 中級半導(dǎo)體分立器件和集成電路裝調(diào)工技能鑒定考試題庫(含答案)
- HG20202-2014 脫脂工程施工及驗(yàn)收規(guī)范
- 固定資產(chǎn)培訓(xùn)課件共-51張
評論
0/150
提交評論