《Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》教學(xué)教案-01初識Hadoop_第1頁
《Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》教學(xué)教案-01初識Hadoop_第2頁
《Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》教學(xué)教案-01初識Hadoop_第3頁
《Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》教學(xué)教案-01初識Hadoop_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》教學(xué)設(shè)計課程名稱:Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)授課年級:_____________授課學(xué)期:______________教師姓名:_______________課程名稱第1章初識Hadoop計劃學(xué)時2學(xué)時內(nèi)容分析本章主要介紹大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求、Hadoop簡介、離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程教學(xué)目標(biāo)與教學(xué)要求要求學(xué)生了解大數(shù)據(jù)的概念、熟悉大數(shù)據(jù)的應(yīng)用場景、了解Hadoop框架、了解大數(shù)據(jù)學(xué)習(xí)流程教學(xué)重點Hadoop簡介、離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程教學(xué)難點離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程教學(xué)方式課堂講解及ppt演示教學(xué)過程第一課時(大數(shù)據(jù)簡介、大數(shù)據(jù)技術(shù)的核心需求)介紹本書,引出本課時主題1.介紹本書,引出本課時的主題隨著新一代信息技術(shù)的迅猛發(fā)展和深入應(yīng)用,數(shù)據(jù)的規(guī)模不斷擴大,數(shù)據(jù)已日益成為土地、資本之后的又一種重要的生產(chǎn)要素,和各個國家和地區(qū)爭奪的重要資源,誰掌握數(shù)據(jù)的主動權(quán)和主導(dǎo)權(quán),誰就能贏得未來。美國奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,認為一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為陸權(quán)、海權(quán)、空權(quán)之外的另一個國家核心權(quán)力。一個全新的概念——大數(shù)據(jù)開始風(fēng)靡全球。本節(jié)將學(xué)習(xí)大數(shù)據(jù)簡介和大數(shù)據(jù)技術(shù)的核心需求的現(xiàn)關(guān)內(nèi)容。2.明確學(xué)習(xí)目標(biāo)能夠熟悉大數(shù)據(jù)的五大特征能夠了解大數(shù)據(jù)的六大發(fā)展趨勢能夠了解大數(shù)據(jù)在電商行業(yè)、交通行業(yè)、醫(yī)療行業(yè)的應(yīng)用能夠理解大數(shù)據(jù)核心技術(shù)需求知識講解大數(shù)據(jù)簡介從前,人們用飼養(yǎng)的馬來拉貨物。當(dāng)一匹馬拉不動一車貨物時,人們不曾想過培育一匹更大更壯的馬,而是利用更多的馬。同樣的,當(dāng)一臺計算機無法進行海量數(shù)據(jù)計算時,人們也無需去開發(fā)一臺超級計算機,而應(yīng)嘗試著使用更多計算機。下面來看一組令人瞠目結(jié)舌的數(shù)據(jù):2018年11月11日,支付寶總交易額2135億元,支付寶實時計算處理峰值為17.18億條/秒,天貓物流訂單量超過10億……這場狂歡的背后是金融科技的護航,正是因為阿里巴公司擁有中國首個具有自主知識產(chǎn)權(quán)、全球首個應(yīng)用在金融核心業(yè)務(wù)的分布式數(shù)據(jù)庫平臺OceanBase,海量交易才得以有序地進行。分布式集群具有高性能、高并發(fā)、高一致性、高可用性等優(yōu)勢,遠遠超出單臺計算機的能力范疇。大數(shù)據(jù)的五大特征大數(shù)據(jù)(BigData),是指數(shù)據(jù)量巨大,無法使用傳統(tǒng)工具進行處理的數(shù)據(jù)集合。通常認為,大數(shù)據(jù)的典型特征主要體現(xiàn)在以下5個方面:大量(Volume)、高速(Velocity)、多樣(Varity)、價值(Value)、真實性(Veracity),即所謂的“5V”。1.大量(Volume)大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模巨大。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動互聯(lián)等技術(shù)的發(fā)展,人和事物的所有軌跡都可以被記錄下來,數(shù)據(jù)呈現(xiàn)爆發(fā)性增長,需要分析處理的數(shù)據(jù)量達到PB、EB,乃至ZB級。數(shù)據(jù)相關(guān)計量單位的換算關(guān)系如表所示。單位換算公式Byte1Byte=8bitKB1KB=1024ByteMB1MB=1024KBGB1GB=1024MBTB1TB=1024GBPB1PB=1024TBEB1EB=1024PBZB1ZB=1024EB2.高速性(elocity)數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。生活中每個人都離不開互聯(lián)網(wǎng),也就是說每個人每天都在向大數(shù)據(jù)提供大量的資料。與以往的報紙、書信等傳統(tǒng)數(shù)據(jù)載體的傳播方式不同,在大數(shù)據(jù)時代,數(shù)據(jù)的交換和傳播主要通過互聯(lián)網(wǎng)和云計算等方式實現(xiàn),速度驚人。正因為如此,在大數(shù)據(jù)時代,數(shù)據(jù)的交換和傳播主要通過互聯(lián)網(wǎng)和云計算等方式實現(xiàn),速度驚人。正因為如此,大數(shù)據(jù)對處理和響應(yīng)速度要求極高。一條數(shù)據(jù)的分析必須在幾秒內(nèi)完成,數(shù)據(jù)處理與丟棄幾乎無延遲。3.多樣性(Variety)大數(shù)據(jù)具有多樣性,不同的數(shù)據(jù)產(chǎn)生海量的非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)可以分為三類,一是結(jié)構(gòu)化數(shù)據(jù),如財務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點是數(shù)據(jù)間因果關(guān)系強;二是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁等,其特點是數(shù)據(jù)間因果關(guān)系弱;三是非結(jié)構(gòu)化數(shù)據(jù),如視頻、圖片、音頻、文本等,其特點是數(shù)據(jù)間沒有因果關(guān)系。半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過清洗、整理、篩選、推進科學(xué)研究的效果。4.價值(Value)大數(shù)據(jù)的核心特征是價值密度低。由于數(shù)據(jù)樣本不全面,數(shù)據(jù)采集不及時,數(shù)據(jù)不連續(xù)等原因,有價值的數(shù)據(jù)所占比例很小。與傳統(tǒng)的小數(shù)據(jù)相比,大數(shù)據(jù)最大的價值在于,可以從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析有用的數(shù)據(jù),通過機器學(xué)習(xí)、人工智能或數(shù)據(jù)挖掘等方法深度分析,得到新規(guī)律和新知識,并運用于交通、電商、醫(yī)療等各個領(lǐng)域,最終達到提高生產(chǎn)效率、推進科學(xué)研究的效果。5.真實性(Veracity)大數(shù)據(jù)的重要性就在于對決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實性和質(zhì)量才是成功決策最堅實的基礎(chǔ)。真實是對大數(shù)據(jù)的重要要求,也是大數(shù)據(jù)面臨的巨大挑戰(zhàn)。大數(shù)據(jù)的六大發(fā)展趨勢雖然現(xiàn)在大數(shù)據(jù)仍處在發(fā)展的起步階段,還存在著很多的困難與挑戰(zhàn),但隨著時間的推移,大數(shù)據(jù)未來的發(fā)展前景是非??捎^的。1.?dāng)?shù)據(jù)將呈現(xiàn)指數(shù)級增長2.?dāng)?shù)據(jù)將成為最有價值的資源3.大數(shù)據(jù)和傳統(tǒng)行業(yè)智能融合4.?dāng)?shù)據(jù)將越來越開放5.大數(shù)據(jù)安全將備受重視6.大數(shù)據(jù)人才將備受歡關(guān)于發(fā)展趨勢的詳細介紹參見教材1.1.2節(jié)內(nèi)容。大數(shù)據(jù)在電商平臺的應(yīng)用當(dāng)用戶在一些電商平臺購買商品時,將商品加入購物車,會顯示購買了該商品的用戶還購買了哪些商品,如圖所示。結(jié)算時,會又顯示“猜你喜歡”的商品信息,如圖所示,這些功能都用到了大數(shù)據(jù)技術(shù),是對大量的用戶瀏覽記錄進行統(tǒng)計分析后做出的精準(zhǔn)推送。精準(zhǔn)廣告推送的推送依賴于對海量互聯(lián)網(wǎng)用戶的相關(guān)數(shù)據(jù)統(tǒng)計分析,其核心是用戶畫像,這就需要一個分布式的快速響應(yīng)的海量數(shù)據(jù)庫系統(tǒng)。大數(shù)據(jù)在交通行業(yè)的應(yīng)用目前,出行難的問題在各大城市來說都亟待解決,好在現(xiàn)在可以利用先進的傳感技術(shù)、網(wǎng)絡(luò)技術(shù)、計算技術(shù)、控制技術(shù)、智能技術(shù),對道路交通進行全面的監(jiān)控和疏導(dǎo)。在大數(shù)據(jù)時代,智慧交通需要融合傳感器、監(jiān)控視頻和GPS等設(shè)備產(chǎn)生的海量數(shù)據(jù),甚至參考氣象監(jiān)測設(shè)備產(chǎn)生的天氣狀況數(shù)據(jù),從中提取出人們真正需要的信息,及時而準(zhǔn)確地進行發(fā)布和傳送,并通過計算直接提供最佳的出行方式和路線。大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用除了新興行業(yè),傳統(tǒng)行業(yè)也需要大數(shù)據(jù),例如:醫(yī)療行業(yè)要分析大量的病例、買藥行為記錄、診斷數(shù)據(jù)。在大數(shù)據(jù)時代,可以將醫(yī)療機構(gòu)的電子病歷標(biāo)準(zhǔn)化,形成全方位、多維度的大數(shù)據(jù)倉庫。系統(tǒng)首先全面分析患者的基本資料、診斷結(jié)果、藥方、醫(yī)療保險情況和付款記錄等諸多數(shù)據(jù),然后將分析結(jié)果綜合起來,在醫(yī)生的參與下通過決策支持系統(tǒng)選擇最佳醫(yī)療解決方案。大數(shù)據(jù)技術(shù)的核心需求大數(shù)據(jù)技術(shù),基本上都需要解決兩個核心需求,一個是數(shù)據(jù)存儲,一個是數(shù)據(jù)運算。數(shù)據(jù)存儲:將數(shù)據(jù)(文件)分散到一個集群上的多臺機器上存儲。數(shù)據(jù)運算:數(shù)據(jù)分析要通過程序來實現(xiàn),程序的運行最終又是機器的CPU、內(nèi)存、磁盤等硬件的運行,這些運行就是運算。簡單點理解,大數(shù)據(jù)技術(shù)就是將大量的數(shù)據(jù)分割成多個小塊,由多臺計算機分工計算,然后將結(jié)果匯總。執(zhí)行分布式計算的計算機總稱集群,如果把人和計算機做類比,那么集群就是一個團隊,如圖所示。單兵作戰(zhàn)的時代已經(jīng)過去,團隊合作才是王道。為什么需要分布式計算?因為“大數(shù)據(jù)”來了,單個計算機不夠用了,即數(shù)據(jù)量遠遠超出單個計算機的處理能力范圍:有時是單位時間內(nèi)的數(shù)據(jù)量大,比如在12306網(wǎng)站每秒可能有數(shù)以萬計的訪問;有時是數(shù)據(jù)總量大,比如百度搜索引擎要在服務(wù)器上檢索數(shù)億條的中文網(wǎng)頁信息。在大數(shù)據(jù)體系下,一切數(shù)據(jù)運算邏輯的實現(xiàn),都要靠分布式運算系統(tǒng)。實現(xiàn)分布式計算的方案有很多,真正讓大數(shù)據(jù)技術(shù)大踏步前進的是按照Google理論實現(xiàn)的開源免費產(chǎn)品Hadoop,目前已經(jīng)形成了以Hadoop為核心的大數(shù)據(jù)技術(shù)生態(tài)圈。第二課時(Hadoop簡介、離線數(shù)據(jù)分析流程介紹、大數(shù)據(jù)學(xué)習(xí)流程)回顧內(nèi)容,引出本課時主題1.回顧內(nèi)容,引出本課時的主題上節(jié)介紹了大數(shù)據(jù)和大數(shù)據(jù)技術(shù)的核心需求,本節(jié)將介紹Hadoop、離線數(shù)據(jù)分析流程和大數(shù)據(jù)學(xué)習(xí)流程的相關(guān)內(nèi)容。2.明確學(xué)習(xí)目標(biāo)能夠簡單了解Hadoop能夠理解Hadoop的產(chǎn)生和發(fā)展能夠熟悉Hadoop的優(yōu)缺點和版本信息能夠掌握Hadoop生態(tài)圈的相關(guān)組件能夠了解Hadoop應(yīng)用介紹能夠掌握離線數(shù)據(jù)分析流程能夠了解大數(shù)據(jù)的學(xué)習(xí)流程知識講解什么是HadoopHadoop是Apache旗下的開源軟件平臺,是一種分布式框架,可利用服務(wù)器集群,根據(jù)用戶的自定義業(yè)務(wù)邏輯,對海量數(shù)據(jù)進行分布式處理。Hadoop有三個基本組件:HDFS(HadoopDistributedFileSystem,分布式文件系統(tǒng))負責(zé)分布式存儲,MapReduce負責(zé)分布式運算,YARN(YetAnotherResourceNegotiator,另一種資源協(xié)調(diào)者)為MapReduce提供硬件資源調(diào)度。但是Hadoop的核心組件處于底層,直接基于這個底層框架來設(shè)計數(shù)據(jù)分析邏輯結(jié)構(gòu)比較煩瑣,開發(fā)效率很低,所以在Hadoop框架之上,又衍生了Hive這樣的快捷開發(fā)工具,后面的張章節(jié)詳細講解。廣義上說,Hadoop通常是一個更廣泛的概念——Hadoop生態(tài)圈,包括Hadoop、Hive、HBase、Flume、Kafka、Sqoop、Spark、Flink等。Hadoop的產(chǎn)生和發(fā)展Hadoop最早起源于Nutch。Nutch

是一個Java實現(xiàn)的開源搜索引擎。Nutch的設(shè)計目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,這個搜索引擎具備網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,Nutch遇到了嚴重的問題——如何存儲數(shù)十億個網(wǎng)頁和對信息建立索引。2003年、2004年谷歌發(fā)表的兩篇論文為以上問題提供了解決方案。論文內(nèi)容主要涉及以下兩個框架。(1)分布式文件系統(tǒng)(GFS,GoogleFileSystem),主要用于海量數(shù)據(jù)的存儲。(2)分布式計算框架(MapReduce),主要用于海量數(shù)據(jù)的索引計算。Nutch的開發(fā)人員根據(jù)谷歌的GFS和MapReduce,完成了開源版本的NDFS和MapReduce。2006年2月,Nutch的NDFS和MapReduce發(fā)展成獨立的項目Hadoop。2008年,Hadoop成為Apache的頂級項目。同年,Hadoop成為最快的TB級數(shù)據(jù)排序系統(tǒng)。自此以后,Hadoop逐漸被企業(yè)應(yīng)用于生產(chǎn),處理大數(shù)據(jù)的速度越來越快。目前,Hadoop已經(jīng)被主流企業(yè)廣泛使用。Hadoop的優(yōu)缺點1.Hadoop的優(yōu)點(1)Hadoop具有按位存儲和處理數(shù)據(jù)的高可靠性。(2)Hadoop通過可用的計算機集群分配數(shù)據(jù),完成存儲和計算任務(wù),這些集群可以擴展到數(shù)以千計的節(jié)點中,具有高擴展性。(3)Hadoop能夠在節(jié)點之間移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,處理速度非???,具有高效性。(4)Hadoop能夠自動保存數(shù)據(jù)的多個副本,并自動將失敗的任務(wù)重新分配,具有高容錯性。2.Hadoop的缺點(1)Hadoop不適用于低延遲數(shù)據(jù)訪問。(2)Hadoop不能高效存儲大量小文件。(3)Hadoop不支持多用戶寫入并任意修改文件。Hadoop版本介紹Hadoop自誕生以來,主要出現(xiàn)了Hadoop1.0、Hadoop2.0、Hadoop3.0三個系列多個版本。HDFS和MapReduce是Hadoop1.0的核心組件,Hadoop生態(tài)圈里的很多組件都是基于HDFS和MapReduce發(fā)展而來的。Hadoop1.0之后出現(xiàn)了Hadoop2.0,Hadoop2.0在Hadoop1.0的基礎(chǔ)上做了改進。相比Hadoop1.0,Hadoop2.0的三大核心組件分別是HDFS、MapReduce、YRAN。目前絕大部分企業(yè)使用的是Hadoop2.0,本書采用的是Hadoop2.7.3這一版本。Hadoop2.0的一個公共模塊和三大核心組件組成了四個模塊,簡介如下。(1)HadoopCommon:為其他Hadoop模塊提供基礎(chǔ)設(shè)施。(2)HDFS:具有高可靠性、高吞吐量的分布式文件系統(tǒng)。(3)MapReduce:基于Yarn系統(tǒng),分布式離線并行計算框架。(4)YARN:負責(zé)作業(yè)調(diào)度與集群資源管理的框架。Hadoop生態(tài)圈的相關(guān)組件除了HDFS、MapReduce、YARN三大核心組件,Hadoop生態(tài)圈的其他組件還有Zookeeper、MySQL、Hive、HBase、Flume、Sqoop。Hadoop生態(tài)圈各組件的說明,如表所示。組件含義HDFS分布式文件系統(tǒng)MapReduce分布式計算框架Yarn分布式資源管理框架Zookeeper分布式協(xié)調(diào)服務(wù)Oozie作業(yè)流調(diào)度系統(tǒng)Hive數(shù)據(jù)倉庫工具Hbase分布式海量數(shù)據(jù)庫Flume數(shù)據(jù)采集工具Sqoop數(shù)據(jù)傳輸工具這些組件在后面的章節(jié)中會詳細講解。Hadoop應(yīng)用介紹1.Hadoop用于用戶畫像2.Hadoop用于數(shù)據(jù)挖掘3.Hadoop應(yīng)用于數(shù)據(jù)服務(wù)基礎(chǔ)平臺建設(shè)關(guān)于應(yīng)用的具體信息參見教材1.3.6節(jié)內(nèi)容。國內(nèi)Hadoop的就業(yè)情況分析1.Hadoop就業(yè)整體情況2.Hadoop就業(yè)職位要求3.Hadoop相關(guān)職位的薪資水平關(guān)于Hadoop就業(yè)整體情況分析詳情參見教材1.3.7節(jié)內(nèi)容。分布式系統(tǒng)概述分布式系統(tǒng)是一個硬件或軟件組件分布在不同的網(wǎng)絡(luò)計算機上,彼此之間僅通過消息傳遞進行通信和協(xié)調(diào)的系統(tǒng)。由于大數(shù)據(jù)技術(shù)領(lǐng)域的各類技術(shù)框架基本上都是分布式系統(tǒng),因此,理解Hadoop、Storm、Spark等技術(shù)框架,都需要具備基本的分布式系統(tǒng)概念。分布式系統(tǒng),簡單來說就是一群獨立計算機集合共同對外提供服務(wù),但是對于系統(tǒng)的用戶來說,就像是一臺計算機在提供服務(wù)一樣。分布式意味著可以采用更多的普通計算機(相對于昂貴的大型機)組成分布式集群對外提供服務(wù)。計算機越多,CPU、存儲資源等也就越多,能夠處理的并發(fā)訪問量也越大。在分布式系統(tǒng)中,計算機之間的通信和協(xié)調(diào)主要通過網(wǎng)絡(luò)進行,所以,在空間上幾乎沒有任何限制,這些計算機可能被放在不同的機房中,也可能被部署在不同的機房中,還可能在不同的城市里,甚至分布在不同的國家和地區(qū)。離線數(shù)據(jù)分析流程介紹本節(jié)通過綜合項目“網(wǎng)站或App點擊流日志數(shù)據(jù)挖掘系統(tǒng)”感受數(shù)據(jù)分析宏觀概念及處理流程,初步理解Hadoop等框架在其中的應(yīng)用環(huán)節(jié)。應(yīng)用廣泛的數(shù)據(jù)分析系統(tǒng):“Web日志數(shù)據(jù)挖掘”如圖所示。1.項目需求描述點擊流日志包含著網(wǎng)站運營重要信息,通過日志分析,可以知道網(wǎng)站的訪問量,哪個網(wǎng)頁訪問人數(shù)最多,哪個網(wǎng)頁最有價值,了解廣告轉(zhuǎn)化率、訪客的來源信息,訪客的終端信息等。2.數(shù)據(jù)來源本項目的數(shù)據(jù)主要由用戶的點擊行為。獲取方式:在頁面預(yù)埋一段JavaScript程序,為頁面上想要監(jiān)聽的標(biāo)簽綁定事件,只要用戶點擊或移動到標(biāo)簽,即發(fā)送Ajax請求到后臺Servlet程序,用Log4j記錄下事件信息,從而在Web服務(wù)器(Nginx、Tomcat等)上形成不斷增長的日志文件。3.數(shù)據(jù)處理流程(1)流程圖解析本項目與典型的BI(BusinessIntelligence,商業(yè)智能)系統(tǒng)極其類似,整體流程如圖所示。但是,由于本項目的前提是處理海量數(shù)據(jù),因此,流程中各環(huán)節(jié)所使用的技術(shù)則跟傳統(tǒng)BI完全不同,后續(xù)課程都會一一講解:數(shù)據(jù)采集:定制開發(fā)采集程序,或使用開源框架Flume。數(shù)據(jù)預(yù)處理:定制開發(fā)MapReduce程序運行于Hadoop集群。數(shù)據(jù)倉庫技術(shù):基于Hadoop的Hive。數(shù)據(jù)導(dǎo)出:基于Hadoop的Sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具。數(shù)據(jù)可視化:定制開發(fā)Web程序或使用Kettle等產(chǎn)品。整個過程的流程調(diào)度:Hadoop生態(tài)圈中的Oozie工具或其他類似開源產(chǎn)品。(2)項目技術(shù)架構(gòu)圖項目技術(shù)架構(gòu)圖如圖所示。4.項目最終結(jié)果經(jīng)過完整的數(shù)據(jù)處理流程后,系統(tǒng)會周期性輸出各類統(tǒng)計指標(biāo)的報表,在生產(chǎn)實踐中,最終需要將這些報表數(shù)據(jù)以可視化的形式展現(xiàn)出來,本項目采用Web程序來實現(xiàn)數(shù)據(jù)可視化,效果如圖所示。大數(shù)據(jù)學(xué)習(xí)流程大數(shù)據(jù)技術(shù)是一項綜合技術(shù),要求開發(fā)者既要具備良好的Java基礎(chǔ),又要對數(shù)據(jù)敏感,并掌握主流大數(shù)據(jù)開發(fā)、數(shù)據(jù)挖掘和機器學(xué)習(xí)等技能。在Java基礎(chǔ)學(xué)習(xí)階段,學(xué)完Java的基本語法后,應(yīng)嘗試用Java完成分析案例,目的是對前面所學(xué)的知識進行鞏固,活學(xué)活用,提高編程能力和對數(shù)據(jù)的敏感度。在大數(shù)據(jù)技術(shù)學(xué)習(xí)階段,目前最流行的莫過于Hadoop、Spark和Elast

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論