大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 教案全套 許慧 單元1-6 大數(shù)據(jù)分析概述-Zepplin數(shù)據(jù)可視化_第1頁
大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 教案全套 許慧 單元1-6 大數(shù)據(jù)分析概述-Zepplin數(shù)據(jù)可視化_第2頁
大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 教案全套 許慧 單元1-6 大數(shù)據(jù)分析概述-Zepplin數(shù)據(jù)可視化_第3頁
大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 教案全套 許慧 單元1-6 大數(shù)據(jù)分析概述-Zepplin數(shù)據(jù)可視化_第4頁
大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 教案全套 許慧 單元1-6 大數(shù)據(jù)分析概述-Zepplin數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元1.大數(shù)據(jù)分析概述班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時4學(xué)生學(xué)習(xí)條件分析1.起點分析:(1)學(xué)生具備Linux相關(guān)操作、大數(shù)據(jù)基礎(chǔ)運維的基本技能;(2)學(xué)生具備自主學(xué)習(xí)能力,能主動查閱資料預(yù)習(xí)。2.重點分析:(1)大數(shù)據(jù)分析的相關(guān)工具。(2)大數(shù)據(jù)分析可視化的概念及相關(guān)工具。3.難點分析:(1)SparkSQL的運行架構(gòu)。(2)Catalyst查詢編譯器的工作流程。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)掌握大數(shù)據(jù)分析基礎(chǔ)知識C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識1.了解大數(shù)據(jù)分析的概念、特點、類別、優(yōu)缺點。2.知道大數(shù)據(jù)分析的相關(guān)工具3.了解大數(shù)據(jù)分析可視化的概念及相關(guān)工具。4.了解SparkSQL的背景、特點。能力1.知道SparkSQL的運行架構(gòu)2.掌握Catalyst查詢編譯器的工作流程。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任務(wù)。4.設(shè)計好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動歷程一、準(zhǔn)備活動1.活躍課堂氣氛,自我介紹,學(xué)習(xí)通簽到、點名。2.課程定位,課程教學(xué)內(nèi)容安排與考核方式介紹。3.課程主要學(xué)習(xí)內(nèi)容、學(xué)習(xí)方法介紹。二、發(fā)展活動1.關(guān)于大數(shù)據(jù)分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.提問:什么是大數(shù)據(jù)分析?大數(shù)據(jù)的“5V”特征大數(shù)據(jù)分析概念大數(shù)據(jù)分析的特點大數(shù)據(jù)分析類別大數(shù)據(jù)分析的優(yōu)勢與缺點4.提問:大數(shù)據(jù)分析工具有哪些?Hadoop生態(tài)圈中的大數(shù)據(jù)分析工具大數(shù)據(jù)分析編程語言其他工具5.關(guān)于大數(shù)據(jù)分析可視化。三、課堂小結(jié)大數(shù)據(jù)分析概述、工具和可視化?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.認識SparkSQL情境導(dǎo)入。3.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.SparkSQL背景簡介SparkSQL的背景SparkSQL的特點2.SparkSQL運行原理。SparkSQL的運行架構(gòu)Catalyst查詢編譯器SparkSQL的運行原理SessionCatalog保存元數(shù)據(jù)ANTLR生成未綁定的邏輯計劃Analyzer綁定邏輯計劃Optimizer優(yōu)化邏輯計劃SparkPlanner生成可執(zhí)行的物理計劃CostModel選擇最佳物理執(zhí)行計劃execute執(zhí)行物理計劃三、課堂小結(jié)與作業(yè)布置1.小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法。2.布置:完成第1章課后練習(xí)?!?、4節(jié)結(jié)束——學(xué)習(xí)評量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第1章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達成度全班80%學(xué)生達到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時個別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進。

單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元2.實踐環(huán)境準(zhǔn)備班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時6學(xué)生學(xué)習(xí)條件分析1.起點分析:(1)了解大數(shù)據(jù)分析概述、工具和可視化;(2)知道SparkSQL背景和運行原理。2.重點分析:(1)Hadoop集群環(huán)境搭建。(2)Spark集群安裝搭建。(3)Scala下載、安裝和配置3.難點分析:(1)Hadoop集群環(huán)境搭建。(2)Spark集群安裝搭建。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)掌握Hadoop和Spark集群的安裝部署C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識1.了解Hadoop、Spark和Scala的基礎(chǔ)知識。能力1.掌握Hadoop集群環(huán)境搭建的環(huán)境準(zhǔn)備工作,包括配置主機名、防火墻設(shè)置、免密登錄設(shè)置、Java環(huán)境設(shè)置。2.掌握安裝Hadoop的過程、配置文件設(shè)置及啟動集群的方法。3.掌握Spark集群安裝配置方法。4.能使用Spark-shell進行簡單編程測試。5.會下載、安裝配置Scala工具。6.能啟動Scala進行編程測試。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任務(wù)。4.設(shè)計好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動歷程一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.Hadoop集群環(huán)境搭建情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.操作演示Hadoop集群搭建集群節(jié)點規(guī)劃配置主機名和IP連接MobaXterm終端工具關(guān)閉防火墻關(guān)閉SElinux修改/etc/hosts文件配置免密登錄配置Java環(huán)境安裝Hadoop啟動Hadoop集群4.運行經(jīng)典案例wordcount在本地root目錄下創(chuàng)建一個txt文件,輸入一段自定義文字。上傳文本到到hdfs。運行命令并查看結(jié)果三、課堂小結(jié)Hadoop集群搭建知識與技能回顧?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.Spark集群部署與使用情境導(dǎo)入。3.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.Spark安裝上傳軟件包修改環(huán)境變量修改Spark配置文件復(fù)制修改spark啟動腳本分發(fā)Spark安裝文件到slaver01和slaver02。2.啟動Spark。查看各節(jié)點服務(wù)進程狀態(tài)Web查看Spark主頁情況3.Spark集群測試使用spark-submit工具提交Spark作業(yè)使用Spark-sql使用Sparkshell三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、4節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.Scala安裝情境導(dǎo)入。3.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.下載Scala安裝包2.安裝配置上傳安裝包并解壓配置環(huán)境變量,添加Scala相關(guān)配置使環(huán)境變量生效,查看Scala版本啟動Scala三、課堂小結(jié)1.小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法。2.布置:完成第1章課后練習(xí)?!?、6節(jié)結(jié)束——學(xué)習(xí)評量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第2章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達成度全班80%學(xué)生達到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時個別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進。單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元3.學(xué)生信息處理分析班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時16學(xué)生學(xué)習(xí)條件分析1.起點分析:(1)了解大數(shù)據(jù)分析概述、工具;(2)掌握基本的程序編寫語言。2.重點分析:Scala語言基礎(chǔ)。3.難點分析:能綜合應(yīng)用Scala基礎(chǔ)知識編寫應(yīng)用程序進行數(shù)據(jù)分析。。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)掌握Scala基礎(chǔ)語言和編程C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識1.理解Scala數(shù)據(jù)類型、常量與變量、運算符。2.了解Scala類和對象、模式匹配的基本概念。能力1.掌握Scala判斷與循環(huán)、函數(shù)式編程。2.掌握Scala集合操作。3.掌握Scala類和對象、模式匹配的定義及操作方法。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任務(wù)。4.設(shè)計好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動歷程一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.班級基本情況分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.?dāng)?shù)據(jù)類型Scala與Java的數(shù)據(jù)類型相同,但是Scala中的數(shù)據(jù)類型都是對象即Scala沒有java中的原生類型。因此Scala可以對數(shù)字等基礎(chǔ)類型調(diào)用方法。4.常量與變量定義方法。數(shù)據(jù)類型推斷。多變量聲明5.運算符算數(shù)運算符關(guān)系運算符邏輯運算符位運算符賦值運算符6.數(shù)組聲明與定義方式基本操作方法三、課堂小結(jié)Scala數(shù)據(jù)類型、常量與變量、運算符、數(shù)組小結(jié)?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.判斷與循環(huán)if判斷if語句的語法格式如下:if(判斷條件){//如果判斷條件為true則執(zhí)行該語句塊}if…else語句語法格式如下:if(判斷條件){//如果判斷條件為true則執(zhí)行該語句塊}else{//如果判斷條件為false則執(zhí)行該語句塊}if…elseif…else語句語法格式如下:if(判斷條件1){//如果判斷條件1為true則執(zhí)行該語句塊}elseif(判斷條件2){//如果判斷條件2為true則執(zhí)行該語句塊}else{//如果以上判斷條件都為false執(zhí)行該語句塊}if...else嵌套語句語法格式如下:if(判斷條件1){//如果判斷條件1為true則執(zhí)行該語句塊if(判斷條件2){//如果判斷條件2為true則執(zhí)行該語句塊}}循環(huán)while循環(huán)語法格式如下:while(條件表達式){代碼塊}\o"CScala+do...while循環(huán)"do...while循環(huán)語法格式如下:do{代碼塊}while(條件表達式)\o"CScala+for循環(huán)"for循環(huán)的語法格式如下for(varx<-range){代碼塊}三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、4節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.函數(shù)式編程函數(shù)的定義和調(diào)用def函數(shù)名[參數(shù)列表]:[返回值類型]={函數(shù)體return[表達式]}函數(shù)調(diào)用的方法如下:函數(shù)名[參數(shù)列表]匿名函數(shù)匿名函數(shù)是指不含函數(shù)名稱的函數(shù)。使用“=>”定義,“=>”的左邊為參數(shù)列表,“=>”右邊為函數(shù)體表達式。高階函數(shù)高階函數(shù)是指使用其他函數(shù)作為參數(shù),或者使用函數(shù)作為輸出結(jié)果的函數(shù)。閉包閉包是一個函數(shù),是可以訪問一個函數(shù)里面局部變量的另外一個函數(shù)。函數(shù)柯里化函數(shù)編程中,接受多個參數(shù)的函數(shù)都可以轉(zhuǎn)化為接受單個參數(shù)的函數(shù),這個轉(zhuǎn)化過程就是柯里化??吕锘旧硪灿玫搅碎]包。嵌套函數(shù)嵌套函數(shù)即在函數(shù)內(nèi)部定義函數(shù),其中內(nèi)部函數(shù)稱為局部函數(shù)。2.學(xué)生所屬班級和男女生數(shù)量——編程分析實現(xiàn)判斷學(xué)生所屬班級統(tǒng)計男女生人數(shù)信息三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、6節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.列表定義方法列表的常用操作2.Set集合定義Set集合Set的基本操作三、課堂小結(jié)Scala列表與Set集合小結(jié)?!?、8節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.元組定義元組的語法一:valtuple=(元素1,元素2,元素3…)定義元組的語法二:valt=newTuplen(元素1,元素2,元素3...元素n)2.Map映射映射定義映射的常用操作三、課堂小結(jié)Scala元組與Map映射小結(jié)?!?、10節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.函數(shù)組合器組合器包括map、filter、foreach、groupBy、flatten、drop、zip等。2.以班級為單位整理學(xué)生信息——編程分析實現(xiàn)以班級為單位整理學(xué)生信息,可以先將數(shù)據(jù)保存到列表中,然后使用groupBy組合器以班級為條件進行分組。三、課堂小結(jié)函數(shù)組合器小結(jié)?!?1、12節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.學(xué)生基本情況獲取情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.類和對象類的定義方式如下:Class類名稱(參數(shù)列表){//定義類的字段和方法}繼承的語法如下:class子類名extends父類名{類體}4.單例對象和伴生對象單例對象定義一個單例對象的語法如下:object單例對象名{}半生對象若在同一個代碼文件內(nèi)部,同時出現(xiàn)了classA和objectA,即類名和單例對象名完全相同,那么它們兩者就互為伴生關(guān)系。5.模式匹配模式匹配基本語法如下所示:xmatch{ casepattern1=>doSomething casepattern2=>doothers...}6.案例:學(xué)生特長情況——編程分析實現(xiàn)三、課堂小結(jié)Scala類和對象、Scala模式匹配小結(jié)。——第13、14節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.綜合案例——學(xué)生成績情況分析現(xiàn)要求使用Scala函數(shù)式編程,綜合本章前面所學(xué)知識,進行學(xué)生成績分析統(tǒng)計。獲得各門課程的平均成績和及格人數(shù)(大于60),每個同學(xué)所有課程的總成績。導(dǎo)入依賴包,讀取數(shù)據(jù)文件將數(shù)據(jù)轉(zhuǎn)換為列表list創(chuàng)建課程名稱列表定義函數(shù),計算各門課程的平均成績和及格人數(shù)。定義函數(shù),統(tǒng)計每個同學(xué)所有課程的總成績。定義函數(shù),用于輸出calculation1函數(shù)的計算結(jié)果。綜合以上函數(shù)與方法,進行調(diào)用、統(tǒng)計分析與輸出。三、課堂小結(jié)小結(jié)所涉及知識點?!?5、16節(jié)結(jié)束——學(xué)習(xí)評量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第3章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達成度全班80%學(xué)生達到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時個別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進。單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元4.房產(chǎn)大數(shù)據(jù)分析與探索班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時16學(xué)生學(xué)習(xí)條件分析1.起點分析:掌握Scala編程語言基礎(chǔ)。2.重點分析:能使用RDD的各種轉(zhuǎn)換和行動操作對數(shù)據(jù)集進行處理分析。3.難點分析:能靈活綜合的應(yīng)用各種RDD操作和各個算子對數(shù)據(jù)進行分析。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)綜合的應(yīng)用各種RDD操作和各個算子C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識1.掌握將數(shù)據(jù)構(gòu)建為RDD的方法。2.知道RDD各種算子的使用方法。能力1.能使用RDD的各種轉(zhuǎn)換和行動操作對數(shù)據(jù)集進行處理分析。2.能靈活綜合的應(yīng)用各種RDD操作和各個算子對數(shù)據(jù)進行分析。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任務(wù)。4.設(shè)計好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動歷程一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.某房產(chǎn)公司銷售人員業(yè)績分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.?dāng)?shù)據(jù)集處理基于內(nèi)存(集合)創(chuàng)建RDD。parallelize方法創(chuàng)建RDDmakeRDD方法創(chuàng)建RDD從外部存儲數(shù)據(jù)構(gòu)造RDD使用sc.textFile()方法進行創(chuàng)建。操作練習(xí)——構(gòu)建員工業(yè)績RDD三、課堂小結(jié)RDD的創(chuàng)建方法小結(jié)?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.RDD支持的兩種操作。轉(zhuǎn)換操作:就是對RDD中的數(shù)據(jù)進行各種轉(zhuǎn)換。行動操作:RDD的行動操作則是向驅(qū)動器程序返回結(jié)果或者把結(jié)果寫入外部系統(tǒng)的操作,會觸發(fā)實際的計算2.統(tǒng)計部門人員人數(shù)count()行動操作,返回的是RDD內(nèi)元素的個數(shù)。3.分別統(tǒng)計上/下半年業(yè)績排名,取前三位及最后三位map、flatmap、sortby、take,first、collect等方法。map轉(zhuǎn)換操作map轉(zhuǎn)換操作是最常用的轉(zhuǎn)換算子,對RDD中的每個元素都執(zhí)行一個指定的函數(shù)來產(chǎn)生一個新的RDD。flatmap轉(zhuǎn)換操作此方法首先將map函數(shù)應(yīng)用于RDD的所有元素,然后將返回的結(jié)果平坦化。sortby轉(zhuǎn)換操作此方法是對RDD進行排序,有3個參數(shù)可以輸入。sortby(參數(shù)一,參數(shù)二,參數(shù)三)參數(shù)一是要進行排序的對象值;參數(shù)二是排序方式,默認是正序排序,使用false參數(shù)就是倒序排序;參數(shù)三是分區(qū)個數(shù)。take,first、collect行動操作進行分析,實現(xiàn)任務(wù)。4.進行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、4節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.統(tǒng)計上/下半年業(yè)績超過5000萬的人員。利用filter、distinct、union等方法對數(shù)據(jù)進行操作。filter轉(zhuǎn)換操作此方法返回滿足指定過濾條件的元素,不滿足條件的元素被忽略。distinct轉(zhuǎn)換操作此方法是對RDD中的數(shù)據(jù)去重,把完全相同的元素去除。對前述filter轉(zhuǎn)換操作中的rdd數(shù)據(jù)進行操作。union轉(zhuǎn)換操作此方法可以將兩個RDD進行合并,返回兩個RDD的并集,并且不去重。但是要求兩個RDD中每個元素中的值的個數(shù)及數(shù)據(jù)類型保持一致。進行分析,實現(xiàn)任務(wù)。2.進行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、6節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.統(tǒng)計此部門當(dāng)年的房屋銷售套數(shù)。利用RDD的相關(guān)描述性統(tǒng)計函數(shù)實現(xiàn)。min()、max()函數(shù)min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。mean()、sum()函數(shù)mean()函數(shù)返回RDD中的平均值。sum()函數(shù)返回RDD中的總和。variance()、stdev()函數(shù)variance()計算RDD中所有元素的總體方差。stdev()計算RDD的標(biāo)準(zhǔn)差。進行分析,實現(xiàn)任務(wù)。將經(jīng)過map操作處理好的上/下半年業(yè)績數(shù)據(jù)集map_firstrdd和map_secondrdd進行合并,取出第三列數(shù)據(jù),利用sum函數(shù)計算總數(shù)。2.進行操作練習(xí)。三、課堂小結(jié)描述性統(tǒng)計函數(shù)小結(jié)。——第7、8節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.查看全年總業(yè)績最高人員。Spark為包含鍵值對類型的RDD提供了一些專有的操作,這些RDD被稱為PairRDD。創(chuàng)建PairRDD創(chuàng)建PairRDD的方法有很多,當(dāng)需要將一個普通RDD轉(zhuǎn)換為PairRDD時,可以使用map方法來實現(xiàn)。keys()、values()轉(zhuǎn)換操作keys()、values()操作返回的類型是RDD。reducebykey()轉(zhuǎn)換操作此方法應(yīng)用于鍵值對數(shù)據(jù)集操作,對Key相同的Value使用指定的函數(shù)進行聚合操作,返回一個鍵值對的數(shù)據(jù)集。2.進行操作練習(xí)。三、課堂小結(jié)PairRDD的操作小結(jié)。——第9、10節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.groupbykey()轉(zhuǎn)換操作此方法會對相同鍵的值進行分組,形成二元元組,第一個字段為相同的鍵,第二個字段為具備相同鍵的值的集合。2.sortByKey()轉(zhuǎn)換操作此方法返回一個根據(jù)“鍵”進行排序的RDD。3.進行分析,實現(xiàn)任務(wù)將上、下半年的的業(yè)績合并到同一個RDD中。將數(shù)據(jù)轉(zhuǎn)換成(員工編號,業(yè)績)鍵值對,利用reduceByKey方法對相同員工編號對應(yīng)的業(yè)績值進行相加。對業(yè)績總和進行排序,獲得最高業(yè)績?nèi)藛T信息。4.存儲以上統(tǒng)計分析信息文本文件的存儲可以直接調(diào)用saveAsTextFile(path)進行存儲。三、課堂小結(jié)PairRDD的操作小結(jié)?!?1、12節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.某城市近年房產(chǎn)銷售狀況分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.數(shù)據(jù)準(zhǔn)備此房產(chǎn)銷售數(shù)據(jù)集是一個在系統(tǒng)外部的csv文件,因此需要將其上傳至文件系統(tǒng)中,加載為RDD后再做處理分析。4.使用map方法轉(zhuǎn)換RDD,以“,”將每一行數(shù)據(jù)分割。5.對戶人數(shù)的基本情況進行統(tǒng)計,獲得記錄條目的總數(shù),以及在這些記錄中包括多少個用戶ID。6.了解房產(chǎn)銷量趨勢,統(tǒng)計每年房產(chǎn)銷售量情況。要獲得每年的房產(chǎn)銷售量情況,需要先從日期中提取年份數(shù)據(jù);然后利用reduceByKey方法按年進行統(tǒng)計匯總;最后利用sortBy方法對統(tǒng)計匯總的數(shù)據(jù)進行排序,獲得每年銷量從高到低的排序情況。7.分析此數(shù)據(jù)集中購買房屋所屬的區(qū)域是哪些?各個區(qū)域的房產(chǎn)銷售情況如何?各個區(qū)域的房屋均價是多少?購買房屋所屬的區(qū)域情況及數(shù)量各個區(qū)域的房屋均價情況8.操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)探索與分析小結(jié)。——第13、14節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.查詢2018年1月1日的日銷量有多少。使用filter轉(zhuǎn)換操作。2.查詢2018年1月1日到1月31日之間,滿五年房產(chǎn)的銷售數(shù)量。3.數(shù)據(jù)集中,房子的裝修類型有精裝、簡裝、毛坯、其他,四種類型,分析哪種裝修類型的房子銷量高。此問題的分析思路與第4點統(tǒng)計區(qū)域房產(chǎn)銷售情況一致,可以使用reduceByKey(_+_)方法對裝修類型相同的房屋數(shù)量進行求和統(tǒng)計。4.了解在所售賣的房子中,電梯有無的比例,地鐵有無情況,這些條件對房屋售賣量的影響程度。對電梯有無數(shù)據(jù)列創(chuàng)建鍵值對,其中“鍵”指有無電梯,每個“值”賦予“1”。然后使用groupByKey()方法對相同“鍵”的鍵值對進行分類,分類后對“值”進行sum求和。有無地鐵情況的數(shù)據(jù)處理思路相同。5.操作練習(xí)。三、課堂小結(jié)小結(jié)所涉及知識點?!?5、16節(jié)結(jié)束——學(xué)習(xí)評量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第4章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達成度全班80%學(xué)生達到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時個別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進。單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元5.電商大數(shù)據(jù)分析與探索班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時14學(xué)生學(xué)習(xí)條件分析1.起點分析:能使用RDD的各種轉(zhuǎn)換和行動操作對數(shù)據(jù)集進行處理分析。2.重點分析:(1)從不同數(shù)據(jù)源創(chuàng)建DataFrames的方法。(2)掌握操作DataFrame進行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢的基本方法。3.難點分析:掌握使用SparkSQL語句進行數(shù)據(jù)分析的方法。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)應(yīng)用SparkSQL進行數(shù)據(jù)分析探索C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識1.理解DataFrame概念,作用。2.知道DataFrame的各種操作方法。能力1.從不同數(shù)據(jù)源創(chuàng)建DataFrames。2.掌握操作DataFrame進行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢。3.靈活使用DataFrame數(shù)據(jù)操作的各種方法進行數(shù)據(jù)查詢。4.會使用聚合、連接等操作對DataFrame數(shù)據(jù)進行轉(zhuǎn)換。5.能使用聚合函數(shù)對DataFrame數(shù)據(jù)進行分析。6.持久存儲數(shù)據(jù)。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任務(wù)。4.設(shè)計好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動歷程一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.女裝電子商務(wù)評論情況分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.?dāng)?shù)據(jù)準(zhǔn)備使用toDF函數(shù)創(chuàng)建DataFrame本地seq+toDF創(chuàng)建DataFrame。通過caseclass+toDF創(chuàng)建DataFrame使用createDataFrame函數(shù)創(chuàng)建DataFrame從外部數(shù)據(jù)創(chuàng)建DataFrame使用parquet文件創(chuàng)建使用json文件創(chuàng)建使用CSV(Comma-SeparatedValues)文件創(chuàng)建讀取“女裝電子商務(wù)評論”數(shù)據(jù)集按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數(shù)據(jù)表中無用的或者不想要的數(shù)據(jù)列。刪除“publisher”列。4.數(shù)據(jù)清洗drop(cols)按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數(shù)據(jù)表中無用的或者不想要的數(shù)據(jù)列。操作練習(xí):刪除“publisher”列。dropDuplicates(subset=None)此方法用于刪除DataFrame中的重復(fù)行,subset用于指定刪除重復(fù)行的時候考慮哪幾列。操作練習(xí):刪除重復(fù)的行、刪除author列重復(fù)的行。na.drop此方法用于刪除DataFrame中的null空數(shù)據(jù),加入“any”和“all”參數(shù)可以指定刪除條件,加入數(shù)字參數(shù)指定有多少個空值進行刪除,加入字段名刪除指定字段中的空值。操作練習(xí):對有任意一個為缺失值的行進行刪除;對全部為缺失值的行進行刪除;對有3個缺失值的數(shù)據(jù)行進行刪除;對有兩個缺失值以上的數(shù)據(jù)行進行刪除。na.fill()此方法用于將DataFrame中所有缺失值填充為一個給定的字符串或數(shù)值。可以為所有缺失值指定字符串或數(shù)值,也可以為指定列指定不同字符串或數(shù)值。操作練習(xí):將表中所有的null空數(shù)據(jù)指定為“不明”;對不同的列中缺失值填充不同的字符串對“Clothing-Reviews.csv”女裝電子商務(wù)評論數(shù)據(jù)集進行數(shù)據(jù)清洗,刪除重復(fù)的數(shù)據(jù),對有空缺數(shù)據(jù)的行進行刪除。三、課堂小結(jié)DataFrame數(shù)據(jù)準(zhǔn)備、清洗小結(jié)?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.數(shù)據(jù)轉(zhuǎn)換。withColumn(colName,col)此方法用于為數(shù)據(jù)表添加新列,返回一個新的DataFrame增加colNAme列,如果原來本身就有colName的列,就進行替換。withColumnRename(existing,new)此方法用于對已經(jīng)存在的列名進行重命名。existing為原來的名字,new為新的列名,若名稱不存在則這個操作不做任何事情。定義UDF,將數(shù)據(jù)表中的兩列合并成一列。UDF是指用戶定義函數(shù),用于擴展系統(tǒng)的內(nèi)置功能。我們可以在SparkSQL中自定義實際需要的UDF來處理數(shù)據(jù)。定義UDF,對表格中的列添加字符或者數(shù)字。na.replace此方法用于對現(xiàn)有的字符或者數(shù)字刪除或替換字符或者數(shù)字。如果在replace中列名參數(shù)是“*”,那么將會對所有的列進行相應(yīng)的替換。對“Clothing-Reviews.csv”女裝電子商務(wù)評論數(shù)據(jù)集進行數(shù)據(jù)轉(zhuǎn)換,將recommended_IND(是否推薦)列中的1替換為推薦,0替換為不推薦。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法。——第3、4節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.注冊臨時表的方法。createGlobalTempView(name)createOrReplaceGlobalTempView(name)createTempView(name)createOrReplaceTempView(name)2.案例分析:以本章數(shù)據(jù)集中的books.csv為例,進行操作理解。自定義schema,讀取books.csv文件,刪除有空缺數(shù)據(jù)的行及重復(fù)數(shù)據(jù)。注冊臨時表:book2.createOrReplaceTempView("btemp")在臨時表中執(zhí)行SQL,查詢book_price價格小于30的書。3.進行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點,學(xué)習(xí)過程中出現(xiàn)的問題與解決方法?!?、6節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.對Clothing-Reviews.csv數(shù)據(jù)進行SQL探索分析。查看40歲以下,不同年齡段的客戶人數(shù)。統(tǒng)計recommended_IND為“不推薦”的訂單的rating評分分布。為進一步了解用戶“不推薦”的原因,可以查看用戶具體評論。查詢了解,不推薦的這些訂單,分別屬于哪些服裝分類,各種服裝類的不推薦數(shù)量情況是如何的。統(tǒng)計分析不同評分等級的服裝編號clothing_id情況。獲得不同服裝編號clothing_id的五星好評數(shù)量,并且降序排序。使用SparkSQL的內(nèi)置函數(shù)進行相關(guān)性等分析。2.數(shù)據(jù)輸出方法一:利用save()函數(shù)保存數(shù)據(jù)。方法二:通過df.rdd.saveAsTextFile("file:///")轉(zhuǎn)化成rdd再保存。此方法可以將數(shù)據(jù)存儲為txt格式。3.進行操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)分析與存儲小結(jié)?!?、8節(jié)結(jié)束——一、準(zhǔn)備活動活躍課堂氣氛,學(xué)習(xí)通簽到、點名。二、發(fā)展活動1.在線銷售訂單數(shù)據(jù)分析情景導(dǎo)入2.學(xué)習(xí)目標(biāo)和要求。3.數(shù)據(jù)查詢操作查看數(shù)據(jù)show該方法主要用于測試,查看輸入的數(shù)據(jù)、獲得的結(jié)果是否正確。該方法能夠以表格的形式展示DataFrame中的數(shù)據(jù)。collect()collect方法類似與SparkRDD的collect方法。與show方法不同的是,collect方法可以獲取DataFrame中的所有數(shù)據(jù),并返回一個Array對象。過濾查詢where在SQL語法中,可以通過where條件語句對數(shù)據(jù)進行過濾。在SparkSQL中,同樣可以像SQL一樣使用where(conditionExpr:String)條件語句來對數(shù)據(jù)進行過濾??梢灾付l件參數(shù)conditionExpr來進行查詢,參數(shù)中可以使用and或or。filterfilter方法和where方法類似,可以篩選出符合條件的數(shù)據(jù)。指定列查詢select在SparkSQL中可以通過select方法來查詢指定字段,類似于SQL中的select方法。selectExpr這個方法是select方法的一個變體,可以接受一個SQL表達式,或?qū)δ承┳侄巫鲆恍┨厥馓幚?。排序操作orderBy此方法能夠使數(shù)據(jù)按照指定的字段排序,默認升序排序。如果需要降序排序,可以使用desc(“字段名稱”)或者$“字段名”.desc進行處理。sortsort方法與orderBy方法一樣,也是對指定字段進行排序。對emp中的salary薪水列進行升序排序。4.進行操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)查詢操作小結(jié)?!?、10節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動1.分組聚合。groupBy分組此方法可以根據(jù)字段進行分組操作。調(diào)用方式可以傳入String類型的字段名,也可以是Column類型的對象。agg聚合該方法一般與groupBy方法配合使用。agg(expers:column*)可以傳入一個或多個Coumn對象,返回DataFrame。2.聚合函數(shù)聚合是大數(shù)據(jù)分析領(lǐng)域中最常用的特性之一。SparkSQL提供了很多常用的聚合函數(shù),比如sum、count、avg等等。count函數(shù)count可以執(zhí)行以下2種操作:對指定列進行計數(shù);使用count(*)或count(1)對所有列進行計數(shù)。countDistinct函數(shù):此函數(shù)可以計算每個組的唯一項。approx_count_distinct函數(shù)此函數(shù)的功能與countDistinct一樣,但是統(tǒng)計的結(jié)果允許有誤差。這里approx_count_distinct的另一個參數(shù)就指定了可容忍的誤差的最大誤差。sum函數(shù):計算一個數(shù)字列中的所有值的總和。sumDistinct函數(shù):計算一個數(shù)字列中不同值的總和,重復(fù)的數(shù)值將不被計算。avg函數(shù):計算一個數(shù)字列的平均值。min函數(shù)、max函數(shù):統(tǒng)計出指定列的最小值和最大值。3.連接操作內(nèi)連接內(nèi)連接查詢操作是列出與連接條件匹配的數(shù)據(jù)行,它使用比較運算符比較被連接列的列值。左外連接此連接方式是以左表為基準(zhǔn),將數(shù)據(jù)進行連接,然后將左表中所有數(shù)據(jù)都顯示,右表對應(yīng)的列設(shè)置為NULL。右外連接是以右表為基準(zhǔn),將數(shù)據(jù)進行連接,然后將右表所有的數(shù)據(jù)進行顯示,左表對應(yīng)的列設(shè)置為NULL。全外連接全外連接是在等值連接的基礎(chǔ)上將左表和右表的未匹配數(shù)據(jù)都加上。LeftSemi-Join這種join類型的行為類似于內(nèi)連接類型,連接后的數(shù)據(jù)集只包含匹配的行。交叉連接(又稱為Cartesian-笛卡爾連接)當(dāng)執(zhí)行join連接時不指定參數(shù),得到的也是笛卡爾積結(jié)果。三、課堂小結(jié)數(shù)據(jù)查詢操作小結(jié)?!?1、12節(jié)結(jié)束——一、準(zhǔn)備活動1.活躍課堂氣氛,學(xué)習(xí)通簽到、點名。2.學(xué)習(xí)目標(biāo)和要求二、發(fā)展活動1.數(shù)據(jù)準(zhǔn)備上傳orders.csv和order-details.csv數(shù)據(jù)集到HDFS文件系統(tǒng)中。加載數(shù)據(jù)集到RDD及DataFrame中。2.問題分析此數(shù)據(jù)集中每個客戶的下單數(shù)量是多少?每個城市的訂單有多少?每個客戶的消費總額是多少?計算orders_details中每行商品的實際銷售金額。按照訂單編號order_id統(tǒng)計每張訂單的總金額。進行等值內(nèi)連接,并增加訂單總金額。數(shù)據(jù)集中,客戶的平均訂單消費額是多少?3.操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)探索與分析小結(jié)?!?3、14節(jié)結(jié)束——學(xué)習(xí)評量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第5章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達成度全班80%學(xué)生達到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時個別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進。單元教學(xué)活動設(shè)計二級學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計者課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元6.Zepplin數(shù)據(jù)可視化班級大數(shù)據(jù)技術(shù)1、2人數(shù)教材來源自編教材授課學(xué)時8學(xué)生學(xué)習(xí)條件分析1.起點分析:會使用SparkSQL進行數(shù)據(jù)分析與探索。2.重點分析:(1)會下載、安裝、配置Zepplin可視化工具。(2)掌握操作DataFrame進行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢的基本方法。3.難點分析:能使用Zepplin執(zhí)行SparkSQL命令實現(xiàn)數(shù)據(jù)可視化。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實例講解演示。教學(xué)資源1.個人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺中的公共資源3.網(wǎng)絡(luò)、社會或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)應(yīng)用Zepplin實現(xiàn)數(shù)據(jù)可視化C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識Zepplin中使用SparkSQL實現(xiàn)數(shù)據(jù)可視化的方法。能力1.會下載、安裝、配置Zepplin可視化工具。2.會在Zepplin中配置Spark解釋器。3.能使用Zepplin執(zhí)行SparkSQL命令實現(xiàn)數(shù)據(jù)可視化。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機房,保證機器正常運轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計,熟練示范操作的過程。3.設(shè)計學(xué)生要完成的任

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論