《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）

上傳人：奔*** IP屬地：河北上傳時(shí)間：2024-07-13 格式：PDF 頁數(shù)：54 大?。?.41MB 積分：12 舉報(bào) 版權(quán)申訴

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）_第2頁

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）_第3頁

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）_第4頁

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）_第5頁

已閱讀5頁，還剩49頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：________________________

授課學(xué)期：________________________

教師找名：_________________________

計(jì)劃

課程名稱第1章初識Hadoop2學(xué)時(shí)

學(xué)時(shí)

本章主要介紹大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求、Hadoop簡介、離線數(shù)據(jù)

內(nèi)容分析

分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程

教學(xué)目標(biāo)

要求學(xué)生了解大數(shù)據(jù)的概念、熟悉大數(shù)據(jù)的應(yīng)用場景、了解Hadoop框架、了

與

解大數(shù)據(jù)學(xué)習(xí)流程

教學(xué)要求

教學(xué)重點(diǎn)Hadoop簡介、離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程

教學(xué)難點(diǎn)離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求)

C介紹本書，引出本課時(shí)主題

1.介紹本書，引出本課時(shí)的主題

隨著新一代信息技術(shù)的迅猛發(fā)展和深入應(yīng)用，數(shù)據(jù)的規(guī)模不斷擴(kuò)大，數(shù)

據(jù)已日益成為土地、資本之后的又一種重要的生產(chǎn)要素，和各個(gè)國家和地區(qū)

爭奪的重要資源，誰掌握數(shù)據(jù)的主動權(quán)和主導(dǎo)權(quán)，誰就能贏得未來。美國奧

巴馬政府將數(shù)據(jù)定義為“未來的新石油”，認(rèn)為一個(gè)國家擁有數(shù)據(jù)的規(guī)模、活

性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分，對數(shù)據(jù)的占有和控制

將成為陸權(quán)、海權(quán)、空權(quán)之外的另一個(gè)國家核心權(quán)力。一個(gè)全新的概念——

大數(shù)據(jù)開始風(fēng)靡全球。本節(jié)將學(xué)習(xí)大數(shù)據(jù)簡介和大數(shù)據(jù)技術(shù)的核心需求的現(xiàn)

關(guān)內(nèi)容。

2.明確學(xué)習(xí)目標(biāo)

(1)能夠熟悉大數(shù)據(jù)的五大特征

(2)能夠了解大數(shù)據(jù)的六大發(fā)展趨勢

(3)能夠了解大數(shù)據(jù)在電商行業(yè)、交通行業(yè)、醫(yī)療行業(yè)的應(yīng)用

(4)能夠理解大數(shù)據(jù)核心技術(shù)需求

Q知識講解

＞大數(shù)據(jù)簡介

從前，人們用飼養(yǎng)的馬來拉貨物。當(dāng)一匹馬拉不動一車貨物時(shí)，人們不

曾想過培育一匹更大更壯的馬，而是利用更多的馬?同樣的，當(dāng)一臺計(jì)算機(jī)

無法進(jìn)行海量數(shù)據(jù)計(jì)算時(shí)，人們也無需去開發(fā)一臺超級計(jì)算機(jī)，而應(yīng)嘗試著

使用更多計(jì)算機(jī)。

下面來看一組令人瞠目結(jié)舌的數(shù)據(jù)：2018年11月11日，支付寶總交易

額2135億元，支付寶實(shí)時(shí)計(jì)算處理峰值為17.18億條/秒，天貓物流訂單量

超過10億……

這場狂歡的背后是金融科技的護(hù)航，正是因?yàn)榘⒗锇凸緭碛兄袊讉€(gè)

具有自主知識產(chǎn)權(quán)、全球首個(gè)應(yīng)用在金融核心業(yè)務(wù)的分布式數(shù)據(jù)庫平臺

OceanBase,海量交易才得以有序地進(jìn)行。分布式集群具有高性能、高并發(fā)、

高一致性、高可用性等優(yōu)勢，遠(yuǎn)遠(yuǎn)超出單臺計(jì)算機(jī)的能力范疇。

＞大數(shù)據(jù)的五大特征

大數(shù)據(jù)(BigData),是指數(shù)據(jù)量巨大，無法使用傳統(tǒng)工具進(jìn)行處理的數(shù)

據(jù)集合。通常認(rèn)為，大數(shù)據(jù)的典型特征主要體現(xiàn)在以下5個(gè)方面：大量

(Volume),高速(Velocity多樣(Varity)、價(jià)值(Value)＞真實(shí)性(Veracity))

即所謂的“5V”。

習(xí)題教材第I章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)賣成

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

課程名稱第2章搭建Hadoop集群計(jì)劃4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹安裝準(zhǔn)備、Linux基本命令、Hadoop集群搭建、Hadoop集群測

內(nèi)容分析

試、使用Hadoop集群

教學(xué)目標(biāo)要求學(xué)生了解虛擬機(jī)的安裝和克隆、掌握Linux基本命令的用法、熟悉Linux

與系統(tǒng)網(wǎng)絡(luò)配置、掌握Hadoop集群的搭建和配置方法、熟悉Hadoop集群案例

教學(xué)要求操作

教學(xué)重點(diǎn)Linux基本命令、Hadoop集群搭建、Hadoop集群測試、使用Hadoop集群

教學(xué)難點(diǎn)Linux基本命令、Hadoop集群搭建、Hadoop集群測試、使用Hadoop集群

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(搭建Hadoop集群)

C回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Hadoop的基本知識，“工欲善其事，必先利其器”，在深入學(xué)

習(xí)Hadoop,掌握其相關(guān)應(yīng)用前，需要學(xué)會搭建集群環(huán)境。下面將帶領(lǐng)大家從

零開始搭建一個(gè)簡單的Hadoop集群。本節(jié)主要講解安裝前的準(zhǔn)備工作。

Hadoop可以安裝在Linux系統(tǒng)和Windows系統(tǒng)上使用。由于Linux系統(tǒng)具備

便捷性和穩(wěn)定性，所以在實(shí)際開發(fā)過程中，更多的Hadoop集群是在Linux系

統(tǒng)上運(yùn)行的，本書對Linux系統(tǒng)上的Hadoop集群搭建以及使用進(jìn)行講解。

2.明確學(xué)習(xí)目標(biāo)

(5)能夠獨(dú)立完成虛擬機(jī)安裝

(6)能夠獨(dú)立完成虛擬機(jī)克隆

(7)能夠掌握Linux系統(tǒng)網(wǎng)絡(luò)配置

(8)能夠獨(dú)立完成SSH服務(wù)配置

Q知識講解

>虛擬機(jī)安裝

搭建Hadoop集群需要很多臺機(jī)器，這在個(gè)人開發(fā)測試和學(xué)習(xí)時(shí)，肯定是

不切實(shí)際的。所以，可以使用虛擬機(jī)軟件在一臺電腦中，搭建出多個(gè)Linux

虛擬機(jī)環(huán)境，來進(jìn)行個(gè)人開發(fā)測試和學(xué)習(xí)。下面就開始分步演示VMware

Workstation虛擬軟件工具進(jìn)行Linux系統(tǒng)虛擬機(jī)安裝配置的過程。

1.創(chuàng)建虛擬機(jī)

2.虛擬機(jī)啟動初始化

具體細(xì)節(jié)參見教材2.1.1節(jié)內(nèi)容。

>虛擬機(jī)克隆

一臺搭載CentOS鏡像文件的Linux虛擬機(jī)已經(jīng)安裝成功，但是搭建

Hadoop集群，一臺虛擬機(jī)遠(yuǎn)遠(yuǎn)不能滿足需求，這時(shí)需要對已安裝的虛擬機(jī)進(jìn)

行克隆。

克隆就是復(fù)制原始虛擬機(jī)全部狀態(tài)的，克隆操作一旦完成，克隆的虛擬

機(jī)就可以脫離原始虛擬機(jī)獨(dú)立存在，而且在克隆的虛擬機(jī)中和原始虛擬機(jī)中

的操作是相對獨(dú)立的，不相互影響

(1)關(guān)閉虛擬機(jī)qfOl,克隆虛擬機(jī)只能在虛擬機(jī)關(guān)機(jī)狀態(tài)下進(jìn)行。

(2)鼠標(biāo)右鍵單擊虛擬機(jī)名稱，選擇“管理”，再選擇“克隆”，進(jìn)入“克

隆虛擬機(jī)向?qū)Ы缑妗保鐖D所示。

克隆虛擬機(jī)向?qū)?/p>

習(xí)題教材第2章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)賣成

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第3章HDFS分布式文件系統(tǒng)4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹HDFS簡介、HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell

內(nèi)容分析命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件處理、通信機(jī)制

RPC

教學(xué)目標(biāo)

要求學(xué)生掌握HDFS的架構(gòu)和原理、掌握HDFS的Shell和JavaAPI操作方法、

與

了解Hadoop序列化、了解Hadoop小文件處理方式

教學(xué)要求

HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命令、Java程序操作HDFS、

教學(xué)重點(diǎn)

Hadoop序列化、Hadoop小文件處理、通信機(jī)制RPC

HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命令、Java程序操作HDFS、

教學(xué)難點(diǎn)

Hadoop序列化、Hadoop小文件處理、通信機(jī)制RPC

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(HDFS簡介、HDFS存儲架構(gòu)和數(shù)據(jù)讀寫流程、HDFS的Shell命

Aio.，、玉早審詞i作

Q回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Hadoop集群搭建和使用，本節(jié)將學(xué)習(xí)HDFS分布式文件系統(tǒng)

的相關(guān)知識。Hadoop的核心是HDFS和MiipReduce。HDFS由NDFS系統(tǒng)演

變而來，主要解決海量大數(shù)據(jù)存儲的問題，也是目前分布式文件系統(tǒng)中應(yīng)用

比較廣泛的一個(gè)。本章將帶領(lǐng)大家深刻理解和運(yùn)用HDFS系統(tǒng)。

2.明確學(xué)習(xí)目標(biāo)

(9)能夠了解HDFS

(10)能夠理解HDFS數(shù)據(jù)的存儲和讀取方式

(11)能夠掌握HDFS的特點(diǎn)

(12)能夠掌握HDFS的存儲架構(gòu)和數(shù)據(jù)讀寫流程

(13)能夠掌握HDFS的Shell命令

(14)能夠掌握J(rèn)ava程序操作HDFS

Q知識講解

>HDFS的概念

HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系統(tǒng))是一種

通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng)。分布式存儲比

普通存儲方式節(jié)省時(shí)間。

例如，現(xiàn)有10臺計(jì)算機(jī)，每臺計(jì)算機(jī)上有1TB的硬盤。如果將Hadoop

安裝在這10臺計(jì)算機(jī)上，可以使用HDFS進(jìn)行分布式的文件存儲。相當(dāng)于登

錄到一臺具有10TB存儲容量的大型機(jī)器。而用HDFS分布式的文件存儲方

式在10臺計(jì)算機(jī)上存儲,顯然比用普通方式在1臺計(jì)算機(jī)上存儲更節(jié)省時(shí)間，

這就如同3個(gè)人吃3個(gè)蘋果比1個(gè)人吃3個(gè)蘋果要快。

1.NameNode

NameNode(名稱節(jié)點(diǎn))管理文件系統(tǒng)的命名空間。它負(fù)責(zé)維護(hù)文件系統(tǒng)

樹及樹內(nèi)所有的文件和目錄。這些信息以兩個(gè)文件(命名空間鏡像文件和編

輯日志文件)的形式永久保存在本地磁盤上。同時(shí)NameNode也記錄著每個(gè)

文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息，但它并不永久保存塊的位置信息，因?yàn)?/p>

這些信息在系統(tǒng)啟動時(shí)由數(shù)據(jù)節(jié)點(diǎn)重建。

2.DataNode

DataNode(數(shù)據(jù)節(jié)點(diǎn))是HDFS實(shí)例中在單獨(dú)機(jī)器上運(yùn)行的軟件，Hadoop

集群包含一個(gè)NameNode和大量的DataNode?一般情況下DataNode以機(jī)架的

習(xí)題教材第3章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)賣成

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第4章MapReduce分布式計(jì)算框架6學(xué)時(shí)

學(xué)時(shí)

本章主要介紹認(rèn)識MapReduce、MapReduce編程組件、MapReduce作業(yè)解析、

MapReduce工作原理、Shuffle階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例

內(nèi)容分析一排序、MapReduce典型案例一倒排索引、MapReduce典型案例一連接、

MapReduce典型案例一平均分以及百分比、MapReduce典型案例一過濾敏感

詞匯

教學(xué)目標(biāo)

要求學(xué)生理解M叩Reduce的基本原理、理解MapReduce經(jīng)典案例WorldCount

與

的實(shí)現(xiàn)原理、掌握MapReduce運(yùn)行流程、掌握MapReduce程序設(shè)計(jì)方法

教學(xué)要求

MapReduce編程組件、MapReduce作業(yè)解析、MapReduce工作原理、Shuffle

階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例一排序、MapReduce典型案例

教學(xué)重點(diǎn)

—倒排索引、M叩Reduce典型案例一連接、M叩Reduce典型案例一平均分以

及百分比、MapReduce典型案例一過濾敏感詞匯

MapReduce編程組件、MapReduce作業(yè)解析、MapReduce工作原理、Shuffle

階段、優(yōu)化一數(shù)據(jù)傾斜、MapReduce典型案例一排序、MapReduce典型案例

教學(xué)難點(diǎn)

一倒排索引、MapReduce典型案例一連接、MapReduce典型案例一平均分以

及百分比、MapReduce典型案例一過濾敏感詞匯

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(認(rèn)識MapReduce、MapReduce編程組件)

3回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了HDFS分布式文件系統(tǒng)，Hadoop的數(shù)據(jù)處理核心為

MapReduce分布式計(jì)算框架。這一框架的出現(xiàn)，使得編程人員在不熟悉分布

式并行編程的情況下，可以將自己的程序運(yùn)行在分布式系統(tǒng)上來處理海量的

數(shù)據(jù)，因此大數(shù)據(jù)開發(fā)人員需要重點(diǎn)掌握MapReduce的基本原理。

2.明確學(xué)習(xí)目標(biāo)

(15)能夠了解MapReduce核心思想

(16)能夠理解MiipReduce編程模型

(17)能夠掌握MapReduce編程案例一WorldCount

(18)能夠掌握InputFormat組件和OutputFormat組件

Q知識講解

>MapReduce核心思想

MapReduce核心思想將大數(shù)據(jù)分而治之，即將數(shù)據(jù)通過一定的數(shù)據(jù)劃分

方法，分成多個(gè)較小的具有同樣計(jì)算過程的數(shù)據(jù)塊，數(shù)據(jù)塊之間不存在依賴

關(guān)系，將每一個(gè)數(shù)據(jù)塊分給不同的節(jié)點(diǎn)去處理，最后將處理的結(jié)果進(jìn)行匯總

具體來說，對大量順序式數(shù)據(jù)元素或者記錄進(jìn)行掃描和對每個(gè)數(shù)據(jù)元素

或記錄做相應(yīng)的處理并獲得中間結(jié)果信息的兩個(gè)過程抽象為Map操作；將對

中間結(jié)果進(jìn)行收集整理和產(chǎn)生最終結(jié)果并輸出的過程被抽象為Reduce操作。

MapReduce提供統(tǒng)一框架來隱藏系統(tǒng)層的細(xì)節(jié)，實(shí)現(xiàn)了自動并行處理，

如計(jì)算任務(wù)的自動劃分和調(diào)度、數(shù)據(jù)的自動化分布式存儲和劃分、處理數(shù)據(jù)

與計(jì)算任務(wù)的同步、結(jié)果數(shù)據(jù)的收集整理、系統(tǒng)通信、負(fù)載平衡、計(jì)算性能

優(yōu)化處理、處理節(jié)點(diǎn)出錯檢測和失效恢復(fù)等。

>MapReduce編程模型

MapReduce是一種分布式離線并行計(jì)算框架，主要用于大規(guī)模數(shù)據(jù)集(大

于1TB)的并行計(jì)算。HadoopMapReduce可以看作GoogleMapReduce的克

隆版。

MapReduce的特點(diǎn)是易于編程，具有良好的擴(kuò)展性，具有高容錯性，適

合PB級以上海量數(shù)據(jù)的離線處理。M叩Reduce的兩大核心思想是Map(映射)

和Reduce(化簡)。基于這兩大核心思想，M叩Reduce把數(shù)據(jù)處理流程分成兩

個(gè)主要階段：M叩階段和Reduce階段。

Map階段負(fù)責(zé)對數(shù)據(jù)進(jìn)行預(yù)處理，具體是指通過特定的輸入格式讀取文

件數(shù)據(jù)，將讀取的數(shù)據(jù)以鍵值(Key-Value,K-V)對的形式進(jìn)行保存。

習(xí)題教材第4章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：________________________

授課學(xué)期：_________________________

教師盤名：_________________________

計(jì)劃

課程名稱第5章Zookeeper分布式協(xié)調(diào)服務(wù)4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹認(rèn)識ZookeeperZookeeper安裝和常用命令、Zookeeper客戶端

內(nèi)容分析

編程、Zookeeper典型應(yīng)用場景

教學(xué)目標(biāo)

要求學(xué)生理解Zookeeper的工作原理、熟悉Zookeeper的安裝、掌握Zookeeper

與

的客戶端編程方法

教學(xué)要求

教學(xué)重點(diǎn)Zookeeper安裝和常用命令、Zookeeper客戶端編程、Zookeeper典型應(yīng)用場景

教學(xué)難點(diǎn)Zookeeper安裝和常用命令、Zookeeper客戶端編程、Zookeeper典型應(yīng)用場景

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(認(rèn)識Zookeeper>Zookeeper安裝和常用命令)

C回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了MapReduce分布式計(jì)算框架，本節(jié)將介紹關(guān)于Zookeeper的

現(xiàn)關(guān)知識。Zoopkeeper是Hadoop集群管理中必不可少的組件，提供了一套分

布式集群管理的機(jī)制。在Zoopkeeper的協(xié)調(diào)下，Hadoop集群可以實(shí)現(xiàn)高可

用，保證了集群的穩(wěn)定性，對于實(shí)際生產(chǎn)環(huán)境來說，意義重大。本節(jié)先帶領(lǐng)

大家認(rèn)識一下Zookeeper,完成Zookeeper的安裝，學(xué)習(xí)一些Zookeeper常用

命令。

2.明確學(xué)習(xí)目標(biāo)

(19)能夠理解Zooke叩er的設(shè)計(jì)目的

(20)能夠理解Zookeeper的系統(tǒng)模型

(21)能夠掌握Zookeeper中的角色

(22)能夠掌握Zookeeper的工作原理

(23)能夠掌握Zookeeper單機(jī)模式

(24)能夠掌握Zookeeper全分布式

(25)能夠掌握Zookeeper服務(wù)器常用腳本

Q知識講解

>Zookeeper簡介

Zookeeper是開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù)。Zookeeper提供了同步服

務(wù)、命名服務(wù)、組服務(wù)、配置管理服務(wù)，較好地解決了Hadoop中經(jīng)常出現(xiàn)的

死鎖、競態(tài)條件等問題。

死鎖是在執(zhí)行兩個(gè)或兩個(gè)以上的進(jìn)程時(shí)，由競爭資源或彼此通信而造成

的阻塞現(xiàn)象。競態(tài)條件是指在執(zhí)行兩個(gè)或兩個(gè)以上的進(jìn)程時(shí)，進(jìn)程執(zhí)行順序

對執(zhí)行后的結(jié)果存在影響。

Zookeeper可以與需要保證高可用的Hadoop組件搭配使用，例如，HA模

式下的HDFS、HA模式下的YARN、HBase。

>Zookeeper的設(shè)計(jì)目的

Zookeeper提供一個(gè)協(xié)調(diào)方便、易于編程的環(huán)境，能夠減輕分布式應(yīng)用程

序所承擔(dān)的協(xié)調(diào)任務(wù)，其設(shè)計(jì)的主要體現(xiàn)在以下幾個(gè)方面。

(1)一致性?？蛻舨徽撨B接到哪個(gè)Server,看到的都是相同的視圖。

(2)實(shí)時(shí)性。Zookeeper的數(shù)據(jù)存放在內(nèi)存當(dāng)中，可以做到高吞吐、低

延遲。

(3)可靠性。組成Zookeeper服務(wù)的服務(wù)器必須互相知道其他服務(wù)器的

習(xí)題教材第5章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第6章Hadoop2.0新特性2學(xué)時(shí)

學(xué)時(shí)

內(nèi)容分析本章主要介紹Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式

教學(xué)目標(biāo)

要求學(xué)生熟悉Hadoop2.0的改進(jìn)與提升、理解YARN架構(gòu)的原理、理解Hadoop

與

的HA模式

教學(xué)要求

教學(xué)重點(diǎn)Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式

教學(xué)難點(diǎn)Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(Hadoop2.0的改進(jìn)、YARN資源管理框架、Hadoop的HA模式)

Q回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Zookeeper分布式協(xié)調(diào)服務(wù)，本節(jié)將介紹關(guān)于Hadoop2.0新特

性的現(xiàn)關(guān)知識。Hadoop誕生以來，主要分為Hadoopl.O、Hadoop2.0、Hadoop3.0

三個(gè)系列的多個(gè)版本。目前最常見的是Hadoop2.0系列。Hadoop2.0指的是第

2代Hadoop,它是從Hadoop1.0發(fā)展而來的，相對于Hadoop1.0有很多改進(jìn)。

下面對Hadoop2.0新特性進(jìn)行詳細(xì)講解。

2.明確學(xué)習(xí)目標(biāo)

(26)能夠理解HDFS存在的問題

(27)能夠理解MapReduce存在的問題

(28)能夠理解HDFS2.0解決HDFS1.0中的問題

(29)能夠掌握Zookeeper的工作原理

(30)能夠掌握YARN架構(gòu)

(31)能夠掌握YARN的優(yōu)勢

(32)能夠了解HA模式

C知識講解

>Hadoop2.0的改進(jìn)

Hadoop1.0由MapReduce和HDFS組成，在高可用、擴(kuò)展性方面存在一

些問題。Hadoop2.0由HDFS、MapReduce和YARN三個(gè)分支構(gòu)成。如圖所

7J\o

>HDFS存在的問題

(1)NameNode單點(diǎn)故障。難以應(yīng)用于在線場景。

(2)NameNode壓力過大，且內(nèi)存受限,影響系統(tǒng)擴(kuò)展性。

>MapReduce存在的問題

(1)JobTracker單點(diǎn)故障。

(2)JobTracker訪問壓力大，影響系統(tǒng)擴(kuò)展性。

(3)難以支持除MapReduce之外的計(jì)算框架,如Spark、Storm>Tez等。

>HDFS2.0解決HDFS1.0中的問題

習(xí)題教材第6章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：________________________

授課學(xué)期：_________________________

教師盤名：_________________________

計(jì)劃

課程名稱第7章Hive6學(xué)時(shí)

學(xué)時(shí)

本章主要介紹數(shù)據(jù)倉庫簡介、認(rèn)識Hive、Hive安裝、Hive數(shù)據(jù)類型、Hive數(shù)

內(nèi)容分析據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive性能優(yōu)化、Hive案例

分析

教學(xué)目標(biāo)

要求學(xué)生熟悉Hive安裝、掌握Hive架構(gòu)及其原理、掌握Hive的數(shù)據(jù)庫和表

與

的操作方法、熟悉Hive函數(shù)的使用、熟悉Hive的性能優(yōu)化

教學(xué)要求

Hive數(shù)據(jù)類型、Hive數(shù)據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive

教學(xué)重點(diǎn)

性能優(yōu)化、Hive案例分析

Hive數(shù)據(jù)類型、Hive數(shù)據(jù)庫操作、Hive表、Hive表的查詢、Hive函數(shù)、Hive

教學(xué)難點(diǎn)

性能優(yōu)化、Hive案例分析

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(數(shù)據(jù)倉庫簡介、認(rèn)識Hive、Hive安裝、Hive數(shù)據(jù)類型)

C回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Hadoop2.0新特性的相關(guān)知識，本節(jié)帶領(lǐng)大家學(xué)習(xí)數(shù)據(jù)倉庫、

Hive、安裝Hive、Hive數(shù)據(jù)類型的相關(guān)知識。Hive是建立在Hadoop上的數(shù)

據(jù)倉庫工具，可以借助提取、轉(zhuǎn)化、加載技術(shù)(Extract-Transform-Load,ETL)

存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)。Hive的出現(xiàn)使得開發(fā)人

員使用相對簡單類SQL(StrutureQueryLanguage,結(jié)構(gòu)查詢語言)語句，就

可以操作Hadoop處理海量數(shù)據(jù)，大大降低了開發(fā)人員的學(xué)習(xí)成本。

2.明確學(xué)習(xí)目標(biāo)

(33)能夠了解數(shù)據(jù)倉庫的概念

(34)能夠理解數(shù)據(jù)倉庫的使用

(35)能夠了解數(shù)據(jù)倉庫的特點(diǎn)和主流的數(shù)據(jù)倉庫

(36)能夠掌握Hive架構(gòu)

(37)能夠理解Hive和關(guān)系型數(shù)據(jù)庫比較

(38)能夠掌握Hive安裝

(39)能夠掌握Hive數(shù)據(jù)類型

Q知識講解

＞數(shù)據(jù)倉庫概述

數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化但信息本身相對穩(wěn)定

的數(shù)據(jù)集合，用于支持管理決策過程。總體來說，數(shù)據(jù)倉庫可以整合多個(gè)數(shù)

據(jù)源的歷史數(shù)據(jù)，進(jìn)行細(xì)粒度的、多維的分析，幫助高層管理者或者業(yè)務(wù)分

析人員做出商業(yè)戰(zhàn)略決策或商業(yè)報(bào)表。

＞數(shù)據(jù)倉庫的使用

一個(gè)公司的不同項(xiàng)目可能用到不同的數(shù)據(jù)源，有的項(xiàng)目數(shù)據(jù)存在MySQL

里面，有的項(xiàng)目存在MongoDB里面，甚至還有些要做第三方數(shù)據(jù)。

如果想把這些數(shù)據(jù)整合起來，進(jìn)行數(shù)據(jù)分析，數(shù)據(jù)倉庫(DataWarehouse,

DW)就派上用場了。它可以對多種業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選和整合，用于數(shù)據(jù)分析、

數(shù)據(jù)挖掘、數(shù)據(jù)報(bào)表，如圖所示。

數(shù)據(jù)挖掘數(shù)據(jù)分析數(shù)據(jù)報(bào)表

匚二二二二二

數(shù)據(jù)倉庫

習(xí)題教材第7章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第8章HBase分布式存儲系統(tǒng)4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹認(rèn)識HBase、HBase表設(shè)計(jì)、HBase安裝、HBaseShell常用操

內(nèi)容分析作、HBase編程、HBase過濾器和比較器、HBase與Hive結(jié)合、HBase性能

優(yōu)化

教學(xué)目標(biāo)

要求學(xué)生掌握HBase架構(gòu)及其原理、掌握HBase的存儲流程、熟悉HBase的

與

安裝和利用、理解HBase與Hive之間的關(guān)系

教學(xué)要求

HBase表設(shè)計(jì)、HBaseShell常用操作、HBase編程、HBase過濾器和比較器、

教學(xué)重點(diǎn)

HBase與Hive結(jié)合、HBase性能優(yōu)化

HBase表設(shè)計(jì)、HBaseShell常用操作、HBase編程、HBase過濾器和比較器、

教學(xué)難點(diǎn)

HBase與Hive結(jié)合、HBase性能優(yōu)化

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(認(rèn)識HBase、HBase表設(shè)計(jì)、HBase安裝、HBaseShell常用操作)

3回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Hive,本節(jié)將開始認(rèn)識HBase,還會有HBase表設(shè)計(jì)、HBase

安裝和HBaseShell常用操作的相關(guān)知識。

2.明確學(xué)習(xí)目標(biāo)

(40)能夠了解HBase

(41)能夠掌握HBase的數(shù)據(jù)模型

(42)能夠掌握HBase架構(gòu)

(43)能夠掌握HBase文件存儲格式和存儲流程

(44)能夠掌握HBase和HDFS

(45)能夠掌握HBase表設(shè)計(jì)

(46)能夠獨(dú)立完成HBase安裝

(47)能夠掌握HBaseShell常用操作

Q知識講解

>HBase簡介

HBase是一個(gè)基于Hadoop的分布式、面向列的開源數(shù)據(jù)庫，對大數(shù)據(jù)實(shí)

現(xiàn)了隨機(jī)定位和實(shí)時(shí)讀寫。

HBase是基于Google的Bigtable技術(shù)實(shí)現(xiàn)的，GoogleBigtable利用GFS

作為其文件存儲系統(tǒng)，HBase利用Hadoop的HDFS作為其文件存儲系統(tǒng)；

Google運(yùn)行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用Hadoop

的MapReduce來處理HBase中的海量數(shù)據(jù)；GoogleBigtable利用Chubby進(jìn)

行協(xié)同服務(wù)，HBase利用Zookeeper進(jìn)行協(xié)同服務(wù)。

HBase具有以下特點(diǎn)。

(1)讀取數(shù)據(jù)實(shí)時(shí)性強(qiáng)：可以實(shí)現(xiàn)對大數(shù)據(jù)的隨機(jī)訪問和實(shí)時(shí)讀寫。

(2)存儲空間大：可以存儲十億行、百萬列、上千個(gè)版本的數(shù)據(jù)。

(3)具有可伸縮性：可以通過增刪節(jié)點(diǎn)實(shí)現(xiàn)數(shù)據(jù)的伸縮性存儲。

(4)可靠性強(qiáng)：HBase的RegionServer之間可以實(shí)現(xiàn)自動故障轉(zhuǎn)移。

(5)面向列：面向列(族)的存儲和權(quán)限控制，列(族)獨(dú)立檢索。

(6)數(shù)據(jù)類型單一：HBase中的數(shù)據(jù)都是字符串，沒有類型。

>HBase的數(shù)據(jù)模型

HBase是一個(gè)面向列的數(shù)據(jù)庫，數(shù)據(jù)模型主要有命名空間(Namespace)、

表(Table)、行鍵(Rowkey)、列族(ColumnFamily)>列(Column)、時(shí)間

戳(Timestamp)、單元格(Cell)o

習(xí)題教材第8章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第9章Flune4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹認(rèn)識Flume、Flume基本組件、Flume安裝、Flume數(shù)據(jù)流模型、

內(nèi)容分析

Flume的可靠性保證、Flume攔截器、采集案例

教學(xué)目標(biāo)

要求學(xué)生掌握Flume框架及其原理、熟悉Flume的安裝和使用、掌握Source、

與

Sink、Channel的使用方法、掌握攔截器的用法

教學(xué)要求

Flume基本組件、Flume數(shù)據(jù)流模型、Flume的可靠性保證、Flume攔截器、

教學(xué)重點(diǎn)

采集案例

Flume基本組件、Flume數(shù)據(jù)流模型、Flume的可靠性保證、Flume攔截器、

教學(xué)難點(diǎn)

采集案例

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

(認(rèn)識Flume、Fhime基本組件、Flume安裝、Flume數(shù)據(jù)流模型)

C回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了HBase分布式存儲系統(tǒng)，要想實(shí)現(xiàn)對海量數(shù)據(jù)進(jìn)行分析處理,

首先需要將各種應(yīng)用程序產(chǎn)生的海量數(shù)據(jù)高效地收集匯總，并傳輸?shù)街付ǖ?/p>

數(shù)據(jù)存儲區(qū)，F(xiàn)lume作為高效的分布式數(shù)據(jù)采集工具應(yīng)運(yùn)而生。Flume是一個(gè)

基于流數(shù)據(jù)的簡單而靈活的架構(gòu)，用戶通過給Flume添加各種新的功能來滿

足個(gè)性化的需求。本節(jié)將開始認(rèn)識Flume,學(xué)習(xí)Flume基本組件的使用，進(jìn)行

Flume安裝和學(xué)習(xí)Flume數(shù)據(jù)流模型的相關(guān)知識。

2.明確學(xué)習(xí)目標(biāo)

(48)能夠了解Flume

(49)能夠掌握Flume基本組件

(50)能夠掌握Flume安裝

(51)能夠掌握Flume數(shù)據(jù)流模型

(52)能夠掌握HBaseShell常用操作

Q知識講解

>Flume簡介

Flume最初是Cloudera公司推出的日志采集系統(tǒng)，于2009年被捐贈給了

Apache軟件基金會，成為Hadoop相關(guān)組件之一。近幾年隨著Flume的不斷

被完善、升級版本的推出，以及Flume內(nèi)部各種組件的增加，用戶在開發(fā)過

程中使用Flume的便利性得到了很大的改善。

Flume是一種可配置、高可用的數(shù)據(jù)采集工具，主要用于采集來自各種流

媒體的數(shù)據(jù)(Web服務(wù)器的日志數(shù)據(jù)等)并傳輸?shù)郊惺綌?shù)據(jù)存儲區(qū)域。Flume

支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；并且可以對數(shù)據(jù)進(jìn)

行簡單處理，將其寫到可定制的各種數(shù)據(jù)接受方(如文本、HDFS、HBase等)。

Flume有兩個(gè)系列：FlumeOG和FlumeNG。，F(xiàn)lumeOG是指Flume0.9.x

系列，F(xiàn)lumeNG是指Flume1.x系列。目前使用FlumeNG的企業(yè)較多，因

此本書主要講解FlumeNG。

>Flume的特點(diǎn)

Flume的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面。

(1)具有復(fù)雜的流動性。Flume允許用戶構(gòu)建多跳流，允許使用扇入流

和扇出流、上下文路由和故障跳轉(zhuǎn)的備份路由(故障轉(zhuǎn)移)。

①多跳流。Flume中可以有多個(gè)代理(Agent)。事件(Event)需要通過

多個(gè)代理才能到達(dá)最終目的地，這樣的數(shù)據(jù)流被稱為多跳流。Flume的數(shù)據(jù)流

習(xí)題教材第9章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第10章Sqoop4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹認(rèn)識Sqoop、Sqoop安裝、Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop

內(nèi)容分析

數(shù)據(jù)導(dǎo)出、Sqoopjob

教學(xué)目標(biāo)

要求學(xué)生掌握Flume框架及其原理、熟悉Flume的安裝和使用、掌握Source、

與

Sink、Channel的使用方法、掌握攔截器的用法

教學(xué)要求

教學(xué)重點(diǎn)Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop數(shù)據(jù)導(dǎo)出、Sqoopjob

教學(xué)難點(diǎn)Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入、Sqoop數(shù)據(jù)導(dǎo)出、Sqoopjob

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

（認(rèn)識Sqoop、Sqoop安裝、Sqoop命令、Sqoop數(shù)據(jù)導(dǎo)入）

3回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

上節(jié)學(xué)習(xí)了Flume的相關(guān)知識，本節(jié)將帶領(lǐng)學(xué)習(xí)進(jìn)行Sqoop安裝、Sqoop

命令、Sqoop數(shù)據(jù)導(dǎo)入的學(xué)習(xí)。Sqoop通過Hadoop的MapReduce實(shí)現(xiàn)了數(shù)據(jù)

在關(guān)系型數(shù)據(jù)庫與HDFS、Hive、HBase等組件之間的傳輸。在大數(shù)據(jù)項(xiàng)目中，

Sqoop為大規(guī)模數(shù)據(jù)的處理與存儲提供了重要支持。

2.明確學(xué)習(xí)目標(biāo)

（53）能夠了解Sqoop

（54）能夠掌握Sqoop原理和架構(gòu)

（55）能夠掌握Sqoop安裝和Sqoop命令

（56）能夠掌握將MySQL的數(shù)據(jù)導(dǎo)入HDFS

（57）能夠掌握將MySQL的數(shù)據(jù)導(dǎo)入Hive

Q知識講解

>Sqoop簡介

Sqoop是一種用于在Hadoop和結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)（如關(guān)系數(shù)據(jù)庫、大型機(jī)）

之間高效傳輸數(shù)據(jù)的工具。Sqoop項(xiàng)目開始于2009年，它的出現(xiàn)主要是為了

滿足以下兩種需求。

（1）企業(yè)的業(yè)務(wù)數(shù)據(jù)大多存放在關(guān)系數(shù)據(jù)庫（如MySQL、Oracle）中，

數(shù)據(jù)量達(dá)到一定規(guī)模后，如果需要對其進(jìn)行統(tǒng)計(jì)和分析，直接使用關(guān)系數(shù)據(jù)

庫處理數(shù)據(jù)的效率較低，這時(shí)可以通過Sqoop將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫導(dǎo)入

Hadoop的HDFS（或HBase、Hive）進(jìn)行離線分析。

（2）使用Hadoop處理后的數(shù)據(jù)，往往需要同步到關(guān)系數(shù)據(jù)庫中作為業(yè)

務(wù)的輔助數(shù)據(jù)，這時(shí)可以通過Sqoop將Hadoop中的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫。

Sqoop擔(dān)負(fù)了將數(shù)據(jù)導(dǎo)入和導(dǎo)出Hadoop的任務(wù)。Sqoop的核心設(shè)計(jì)思想

是利用MapReduce提高數(shù)據(jù)傳輸速度。Sqo叩的導(dǎo)入和導(dǎo)出功能就是通過

M叩Reduce作業(yè)來實(shí)現(xiàn)的。

目前Sqoop主要有兩個(gè)系列：Sqoop1和Sqoop2,Sqoop1最新的穩(wěn)定版

本是1.4.7,Sqoop2的最新版本是1.99.7。1.99.7版本功能不完整，并且與1.4.7

版本不兼容，不適用于生產(chǎn)部署.目前大多數(shù)企業(yè)中主要使用的是Sqoopl,

因此本書選用1.4.7版本進(jìn)行講解。

>Sqoop原理

Sqoop的原理其實(shí)就是將導(dǎo)入導(dǎo)出命令轉(zhuǎn)化為MapReduce程序來執(zhí)行，

Sqoop在接收到命令后，都要生成MapReduce程序

習(xí)題教材第10章習(xí)題

教

學(xué)

后

記

Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

教學(xué)設(shè)計(jì)

課程名稱：Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)

授課年級：____________________________________

授課學(xué)期：____________________________________

教師盤名：____________________________________

計(jì)劃

課程名稱第11章綜合項(xiàng)目-電商精準(zhǔn)營銷4學(xué)時(shí)

學(xué)時(shí)

本章主要介紹項(xiàng)目概述、項(xiàng)目詳細(xì)介紹、項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清

內(nèi)容分析

洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化

教學(xué)目標(biāo)

要求學(xué)生了解項(xiàng)目背景及需求，了解項(xiàng)目中的架構(gòu)設(shè)計(jì)，了解數(shù)據(jù)來源，掌

與

握數(shù)據(jù)清洗流程，掌握數(shù)據(jù)倉庫操作流程，掌握應(yīng)用測試方法。

教學(xué)要求

教學(xué)重點(diǎn)項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化

教學(xué)難點(diǎn)項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗、使用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析、可視化

教學(xué)方式課堂講解及ppt演示

第一課時(shí)

（項(xiàng)目概述、項(xiàng)目詳細(xì)介紹、項(xiàng)目模塊分析、數(shù)據(jù)采集、數(shù)據(jù)清洗）

Q回顧內(nèi)容，引出本課時(shí)主題

1.回顧內(nèi)容，引出本課時(shí)的主題

在前面的章節(jié)中，詳細(xì)講解了Hadoop的基礎(chǔ)知識與核心技術(shù)，以及各相

關(guān)組件的使用，包括Hadoop、Hive、HBase,Zookeeper、Flume、Sqoop等。

本節(jié)將通過一個(gè)企業(yè)級真實(shí)項(xiàng)目案例，串聯(lián)前面所學(xué)的知識點(diǎn)，講解這些知

識點(diǎn)在實(shí)際開發(fā)過程中的應(yīng)用。

教

2.明確學(xué)習(xí)目標(biāo)

學(xué)

（58）能夠了解項(xiàng)目詳細(xì)介紹

過（59）能夠掌握項(xiàng)目模塊分析

（60）能夠掌握數(shù)據(jù)采集

程

（61）能夠掌握數(shù)據(jù)清洗

“知識講解

＞項(xiàng)目背景介紹

電商網(wǎng)站上線之后，利用大數(shù)據(jù)技術(shù)，收集用戶的行為數(shù)據(jù)，進(jìn)行多維

度統(tǒng)計(jì)分析，掌握網(wǎng)站線上運(yùn)營情況，將分析結(jié)果生成相應(yīng)的數(shù)據(jù)報(bào)表，提

供給運(yùn)營部門進(jìn)行業(yè)務(wù)分析。運(yùn)營部門利用數(shù)據(jù)報(bào)表，可以制訂出相應(yīng)的網(wǎng)

站優(yōu)化方案，調(diào)整廣告投入，組織舉辦更好的促銷、精準(zhǔn)營銷等活動。

＞項(xiàng)目架構(gòu)設(shè)計(jì)

項(xiàng)目架構(gòu)：數(shù)據(jù)源(JS、SDK)—數(shù)據(jù)采集(Flume)—數(shù)據(jù)預(yù)處理

(MiipReduce)—數(shù)據(jù)倉庫(Hive)—數(shù)據(jù)導(dǎo)出(Sqoop)—數(shù)據(jù)存儲(MySQL)

一數(shù)據(jù)可視化。

(1)數(shù)據(jù)采集。每當(dāng)用戶通過PC端或者移動端訪問商城網(wǎng)站時(shí)，網(wǎng)站

前臺后臺程序均會產(chǎn)生日志信息，前臺通過JS(JavaScript)收集到Nginx服

務(wù)器中，后臺通過SDK(SoftwareDevelopmentKit,軟件開發(fā)工具包)收集

到Nginx服務(wù)器中。然后在Nginx服務(wù)器中部署FlumeAgent采集軟件，實(shí)時(shí)

監(jiān)控目錄，將產(chǎn)生的日志文件實(shí)時(shí)的采集到HDFS當(dāng)中。

(2)數(shù)據(jù)預(yù)處理。將采集到的數(shù)據(jù)按照項(xiàng)目需求進(jìn)行初步的清洗，得到

項(xiàng)目中需要使用到的字段數(shù)據(jù)。

(3)數(shù)據(jù)倉庫。由于MapReduce操作數(shù)據(jù)編寫流程過于復(fù)雜，這里采用

Hive來對數(shù)據(jù)進(jìn)行處理。將數(shù)據(jù)導(dǎo)入到Hive中，按照項(xiàng)目的需求，寫SQL

語句來實(shí)現(xiàn)。

(4)數(shù)據(jù)存儲。處理之前的數(shù)據(jù)以及Hive的輸出數(shù)據(jù)都存儲在HDFS

中，讀取十分緩慢，很容易造成超時(shí)，這里采用Sqoop工具，將數(shù)據(jù)導(dǎo)入到

MySQL中。

(5)數(shù)據(jù)可視化，為了更直觀的展示數(shù)據(jù)結(jié)果，對得到的數(shù)據(jù)結(jié)果進(jìn)行

可視化操作。

>項(xiàng)目核心關(guān)注點(diǎn)

本項(xiàng)目收集不同客戶端的用戶行為數(shù)據(jù)，通過MapReduce、Hive進(jìn)行數(shù)

據(jù)分析處理，將分析結(jié)果數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫中。在此過程中需要對兒

個(gè)核心的關(guān)注點(diǎn)進(jìn)行詳細(xì)分析。

(1)購買率：購買的人數(shù)/總?cè)藬?shù)購買的人數(shù)/查看該商品的總?cè)藬?shù)。

(2)復(fù)購率：n次購買的人數(shù)/n-1次購買的人數(shù)(N>=2)。

(3)訂單數(shù)量，訂單金額，訂單的類型。

①成功訂單數(shù)量、成功訂單金額、成功訂單的類型。

②退款訂單數(shù)量、退款訂單金額、退款訂單的類型。

(4)訪客人數(shù)/會員人數(shù)。

(5)訪客轉(zhuǎn)會員的比例。

（6）廣告推廣效果。

（7）網(wǎng)站內(nèi)容相關(guān)的分析（網(wǎng)站的跳出率、頁面的跳出率）。

>重要概念

1.訪客

訪問網(wǎng)站指定用戶、一般稱為自然人，區(qū)分PC、手機(jī)：

訪客統(tǒng)計(jì)指標(biāo)如下。

（1）新增訪客：第一次訪問系統(tǒng)的訪客人數(shù)。

（2）活躍訪客：給定時(shí)間段內(nèi)訪問過系統(tǒng)的訪客人數(shù)（老訪客+新訪客）。

（3）總訪客：迄今為止訪問過系統(tǒng)的訪客總?cè)藬?shù)。

（4）流失訪客：上一個(gè)時(shí)間段內(nèi)訪問過系統(tǒng)，當(dāng)前時(shí)間段內(nèi)沒有訪問系

統(tǒng)的訪客人數(shù)。

（5）回流訪客：上一個(gè)時(shí)間段內(nèi)沒有訪問過系統(tǒng)，當(dāng)前時(shí)間段內(nèi)訪問過

系統(tǒng)的訪客人數(shù)

2.會員

業(yè)務(wù)系統(tǒng)中注冊用戶、直接使用業(yè)務(wù)系統(tǒng)中會員標(biāo)識符來標(biāo)識。訪客登

錄系統(tǒng)后，就成為會員。

會員統(tǒng)計(jì)指標(biāo)如下。

（1）新增會員：第一次登錄系統(tǒng)的會員人數(shù)。

（2）活躍會員：給定時(shí)間段內(nèi)登錄過系統(tǒng)的會員人數(shù)（老會員+新會員）。

（3）總會員：迄今為止新增會員的總?cè)藬?shù)。

（4）回流會員。

（5）流失會員。

（6）訪客轉(zhuǎn)會員比例。

（7）新增訪客轉(zhuǎn)會員的比例。

3.會話

用戶進(jìn)入到系統(tǒng)到離開系統(tǒng)這一段時(shí)間被成為會話，這段時(shí)間的會話時(shí)

間長度就叫做會話長度，一個(gè)會話中的所有操作都屬于同一個(gè)會話。會話分

為PC端會話和移動端會話。

PC端會話采用瀏覽器的Session機(jī)制在Cookie中存儲一個(gè)存活時(shí)間，在

操作的時(shí)候，進(jìn)行判斷時(shí)間是否過期，如果過期，產(chǎn)生一個(gè)新的會話，如果

沒有過期，更新操作時(shí)間

移動端會話采用移動端的Session機(jī)制，類似PC端種植Cookie的方式，

在磁盤中寫入一個(gè)時(shí)間進(jìn)行判斷.

會話指標(biāo)如下。

（1）會話長度。

（2）會話數(shù)量。

（3）跳出會話的數(shù)量（在一個(gè)會話中，只訪問過一次網(wǎng)站的會話數(shù)量）。

4.跳出率

跳出率統(tǒng)計(jì)指標(biāo)如下。

（1）會話跳出率：跳出會話/總會話數(shù)量。

（2）頁面跳出率：從該頁面離開后進(jìn)入到其他頁面的會話數(shù)量占進(jìn)入該

頁面會話數(shù)量的百分比。

5.外鏈

外鏈統(tǒng)計(jì)指標(biāo)：不同外鏈帶來的會話數(shù)量/訪客數(shù)量/訂單數(shù)量。

6.PV

PV（PageView,頁面訪問量）是用戶每次對網(wǎng)站的訪問總次數(shù)，用戶，

每次對網(wǎng)站訪問都被記錄，用戶多次訪問同一頁面，訪問量累計(jì)。

7.UV

統(tǒng)計(jì)UV（UniqueVisitor,獨(dú)立訪問用戶）數(shù)量。訪問網(wǎng)站的一臺計(jì)算機(jī)

為一個(gè)訪客。00:00-24:00相同的客戶端只被計(jì)算一次。

8.獨(dú)立IP

統(tǒng)計(jì)獨(dú)立IP數(shù)量。00:00-24:00內(nèi)相同IP地址只被計(jì)算一次。

9.DV

DV（DepthView,訪問深度）指訪問了多少頁面，展示網(wǎng)站內(nèi)容對用戶

的吸引程度，結(jié)合跳出率，有助于修改網(wǎng)站內(nèi)容，提高網(wǎng)站黏性友好性。統(tǒng)

計(jì)指標(biāo)：不同訪問深度訪客人數(shù)/會話數(shù)量。

>維度

數(shù)據(jù)分析只有基于相應(yīng)的維度下才有意義，常見的維度如表所示

維度解釋

時(shí)間維度年、季度、月、周、日、小時(shí)

區(qū)分用戶行為數(shù)據(jù)來自PC端、移動端還是后臺系

平臺維度統(tǒng)，有Website>Android>Ios>Java_Server>

Php_Server等

瀏覽器維度卻別瀏覽器類型、瀏覽器版本

地域維度國家、省份、城市

KPI維度指定分析的指標(biāo)

比如VI、V2等等，一般用于多個(gè)版本之間進(jìn)行數(shù)

版本維度

據(jù)比較(AB測試)

支付方式維度Alipay、Weixin、銀行卡支付...

外鏈維度百度、360、google等等

操作系統(tǒng)維度操作系統(tǒng)名稱、操作系統(tǒng)版本

>項(xiàng)目模塊分析

本項(xiàng)目主要有七個(gè)模塊的數(shù)據(jù)，分別為：用戶基本信息分析模塊、瀏覽

器分析模塊、地域分析模塊、外鏈分析模塊、用戶瀏覽深度分析模塊、事件

分析模塊、訂單分析模塊。

針對不同的分析模塊，我們有不同的用戶數(shù)據(jù)需求，七個(gè)模塊中，用戶

基本信息分析模塊和瀏覽器分析模塊類型一致，只是后者比前者多一個(gè)瀏覽

器維度。地域分析模塊和外鏈分析模塊分別從不同的維度進(jìn)行分析展示。用

戶瀏覽深度分析模塊、事件分析模塊以及訂單分析模塊是單獨(dú)針對業(yè)務(wù)進(jìn)行

的分析。

>用戶基本信息分析模塊

主要從訪客和會員兩個(gè)主要角度分析瀏覽相關(guān)信息，包括但不限于新增

訪客、活躍訪客、總訪客、新增會員、活躍會員、總會員以及會話分析等。

>瀏覽器分析模塊

在用戶基本信息分析的基礎(chǔ)上添加一個(gè)瀏覽器維度。

(1)瀏覽器訪客分析。

(2)瀏覽器會員分析。

(3)瀏覽器會話分析。

(4)瀏覽器PV分析。

>地域分析

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）

文檔簡介

溫馨提示

最新文檔

評論

《Hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》教學(xué)教案（全）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔