Spark大數(shù)據(jù)技術與應用(第2版)(微課版)-教案全套 第1-9章 Spark概述-項目案例:廣告流量作弊識別_第1頁
Spark大數(shù)據(jù)技術與應用(第2版)(微課版)-教案全套 第1-9章 Spark概述-項目案例:廣告流量作弊識別_第2頁
Spark大數(shù)據(jù)技術與應用(第2版)(微課版)-教案全套 第1-9章 Spark概述-項目案例:廣告流量作弊識別_第3頁
Spark大數(shù)據(jù)技術與應用(第2版)(微課版)-教案全套 第1-9章 Spark概述-項目案例:廣告流量作弊識別_第4頁
Spark大數(shù)據(jù)技術與應用(第2版)(微課版)-教案全套 第1-9章 Spark概述-項目案例:廣告流量作弊識別_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:4學時一、材料清單(1)《Spark大數(shù)據(jù)技術與應用》教材。(2)配套PPT。(3)引導性提問。(4)探究性問題。(5)拓展性問題。二、教學目標與基本要求1.教學目標主要介紹Spark的發(fā)展歷史,Spark的特點、Spark的生態(tài)圈和Spark的應用場景以及介紹Spark的環(huán)境配置,包括搭建單機版環(huán)境、單機偽分布式環(huán)境和完全分布式環(huán)境。最后重點介紹Spark的架構,Spark作業(yè)的運行流程和Spark的核心數(shù)據(jù)集RDD。2.基本要求(1)了解Spark的發(fā)展歷史及特點。(2)學會搭建Spark環(huán)境。(1)了解Spark的運行架構與原理。引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(1)你了解Spark的發(fā)展歷史及特點嗎?(2)你了解Spark的應用場景嗎?(3)你自己搭建過Spark環(huán)境嗎?(4)你使用過Spark嗎?2、探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問。或者是對引導式提問中尚未涉及但在課文中又是重要的問題加以設問。(1)為什么需要Spark?(2)Spark有哪些特點?(3)Spark生態(tài)圈包含哪些環(huán)境?(4)Spark有哪些部署模式,有什么區(qū)別?(5)“RDD”是怎樣的數(shù)據(jù)集?(6)Spark的運行流程是怎么樣的?2.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。根據(jù)Spark的安裝配置過程,如果想要為Spark集群多加一個子節(jié)點,需要進行哪些操作?四、主要知識點、重點與難點1.主要知識點(1)Spark基本概念。(2)Spark發(fā)展和應用。(3)Spark環(huán)境配置方法。(4)Spark架構及原理。(1)如何搭建Spark環(huán)境。(2)Spark完全分布式集群特點。(3)了解Spark運行架構與原理。3.難點(1)搭建Spark完全分布式集群。(2)Spark的原理。五、教學過程設計1.理論教學過程(1)Spark簡介。(2)搭建Spark環(huán)境。(3)了解Spark運行架構與原理。2.實驗教學過程搭建Spark偽分布式與完全分布式集群。六、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.2.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:8學時七、材料清單(6)《Spark大數(shù)據(jù)技術與應用》教材。(7)配套PPT。(8)引導性提問。(9)探究性問題。(10)拓展性問題。八、教學目標與基本要求3.教學目標Scala語言是Spark平臺常用的一種語言,為了學習Spark,需要先學習Scala。首先介紹了Scala的特性及安裝,接著介紹的是Scala的函數(shù)、表達式、循環(huán)、數(shù)據(jù)結構和類。通過本章的學習,可以體會到Scala函數(shù)式編程的便捷、簡單。4.基本要求(1)了解Scala基本特性并學會安裝Scala。(2)掌握定義Scala的常量、變量及函數(shù)的方法。(3)掌握Scala的if判斷和for循環(huán)。(4)掌握Scala的Collections(集合)操作。(5)掌握Scala的樣例類與模式匹配。(6)了解Scala類及讀取文件。5.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(5)Scala是一門函數(shù)式編程語言,你了解什么是函數(shù)式編程嗎?(6)結合Spark的特點,你覺得Scala可能具備哪些特性?(7)你了解Scala編程的常量,變量及函數(shù)嗎?(8)你了解Scala的循環(huán)與判斷嗎?6.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。(7)為什么使用Scala編寫了Spark?(8)Scala具有哪些特性?(9)Scala原始類型有哪些?(10)Scala的循環(huán)可以有哪些表現(xiàn)形式?(11)Scala各種數(shù)據(jù)類型的應用?(12)你能通過不同的方式讀取文件嗎?(13)什么是函數(shù)式編程?7.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(1)如果你學習過Java語言,你認為Scala與Java相比有哪些比較大的不同之處?(2)Scala變量能否使用自增或自減?(3)Scala有沒有可變數(shù)組?如果有,可變數(shù)組與不可變數(shù)組的區(qū)別是什么?(4)Scala的列表與數(shù)組有何區(qū)別?十、主要知識點、重點與難點8.主要知識點(5)Scala簡介。(6)Scala特性。(7)Scala的環(huán)境設置及安裝方法。(8)Scala類的定義和運行方法。(9)Scala數(shù)據(jù)類型、函數(shù)、表達式的應用。(10)Scalaif判斷和for循環(huán)。(11)Scala集合應用。(4)了解Scala的基礎內容及特性。(5)掌握Scala的安裝。(6)掌握Scala函數(shù)式編程。10.難點(3)Scala的集合操作。(4)Scala的類定義。(5)Scala的模式匹配。十一、教學過程設計11.理論教學過程(4)Scala簡介與安裝。(5)函數(shù)式編程特點。(6)Scala編程學習。12.實驗教學過程(1)安裝Scala編程環(huán)境。(2)定義Scala函數(shù)識別號碼類型。(3)統(tǒng)計廣州號碼段數(shù)量。(4)根據(jù)歸屬地對手機號碼段分組。(5)編寫手機號碼歸屬地查詢程序。(6)編寫函數(shù)過濾文本中的回文單詞。(7)使用Scala編程實現(xiàn)楊輝三角。十二、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.14.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:10學時十三、材料清單(11)《Spark大數(shù)據(jù)技術與應用》教材。(12)配套PPT。(13)引導性提問。(14)探究性問題。(15)拓展性問題。十四、教學目標與基本要求15.教學目標主要介紹Spark的基礎操作,包括Spark的基本的核心數(shù)據(jù)集,Spark的轉換操作和行動操作。以學生成績統(tǒng)計為任務,將任務分為各個子任務,以完成任務為目標,分析各大方法的運用,然后通過完成任務進一步熟悉操作。通過本章學習,掌握Spark的操作方法以及SparkShell命令行的使用,為后面的高級操作和組件學習奠定基礎。16.基本要求(7)掌握如何創(chuàng)建RDD。(8)掌握Spark基本轉換操作。(9)掌握Spark基本動作操作。(10)了解如何讀取不同格式文件數(shù)據(jù)。(11)了解如何存儲數(shù)據(jù)為不同格式文件。引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(9)一般期末考試的成績是如何保留的?(10)Spark適用于什么類型的計算?(11)Spark計算有什么特點?(12)是否了解過Spark中的RDD是一個什么樣的類型?18.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。(14)RDD是一個什么樣的集合?(15)有哪些創(chuàng)建RDD的方法?(16)RDD的轉換操作和行動操作有什么區(qū)別?(17)什么是鍵值對RDD,有哪些特點?(18)針對普通RDD的常用操作有哪些,針對鍵值對RDD的操作有哪些?(19)文本文件的存儲和讀取通過什么方法?19.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(5)CSV文件通過讀取文本文件的方法讀取和通過CSV讀取器讀取有區(qū)別嗎?如果有,有什么區(qū)別?(6)你還知道哪些Spark讀取和存儲文件的方法?二、主要知識點、重點與難點20.主要知識點(12)從內存中已有數(shù)據(jù)創(chuàng)建RDD。(13)從外部存儲創(chuàng)建RDD。(14)RDD轉化操作和行動操作方法。(15)RDD鍵值對操作。(16)文件讀取與存儲。21.重點(7)RDD創(chuàng)建。(8)RDD轉化操作和行動操作。(9)鍵值對RDD的基本操作。22.難點(6)如何創(chuàng)建鍵值對類型的RDD。(7)操作鍵值對類型RDD的方法。三、教學過程設計23.理論教學過程(7)從內存中已有數(shù)據(jù)創(chuàng)建RDD。(8)從外部存儲創(chuàng)建RDD。(9)RDD轉化操作和行動操作。(10)RDD鍵值對操作。(11)文件讀取與存儲。24.實驗教學過程(1)以學生成績數(shù)據(jù)創(chuàng)建RDD。(2)查詢學生成績表中的前5名。(3)輸出單科成績?yōu)?00分的學生ID。(4)輸出每位學生所有科目的總成績。(5)輸出每位學生的平均成績。(6)將匯總后的學生成績存儲為文本文件。(7)統(tǒng)計文本中性別為“男”用戶數(shù)。(8)單詞計數(shù)。四、教材與參考資料25.教材肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.26.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:6學時五、材料清單(16)《Spark大數(shù)據(jù)技術與應用》教材。(17)配套PPT。(18)引導性提問。(19)探究性問題。(20)拓展性問題。六、教學目標與基本要求27.教學目標主要介紹如何使用IntelliJIDEA搭建Spark開發(fā)環(huán)境,以及如何在開發(fā)環(huán)境中編程和運行程序。運行程序主要介紹兩種方法:一種是在IntelliJIDEA中設置masterURL運行,一種是打包程序在集群中運行。對spark-submit提交集群運行的方法著重描述,并且分析常用的參數(shù)設置。為了提高運行效率,介紹數(shù)據(jù)持久化以及數(shù)據(jù)分區(qū)方法。最后再以競賽網(wǎng)站用戶訪問任務為例,對所學知識進行實踐操作。28.基本要求(12)掌握配置Spark開發(fā)環(huán)境。(13)掌握如何新建工程和運行工程。(14)掌握運行Spark程序的方法。(15)了解數(shù)據(jù)分區(qū)與持久化的方法。29.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(13)之前的編程都是在spark-shell中,過程中有沒有遇到什么問題?(14)如果要寫入一個類,用spark-shell環(huán)境你覺得會遇到哪些問題?(15)RDD是一個分區(qū)數(shù)據(jù)集合,是否了解過查看分區(qū)的方法?(16)有沒有遇到過需要自己定義RDD分區(qū)的情況?(17)了解過持久化的概念嗎?30.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問。或者是對引導式提問中尚未涉及但在課文中又是重要的問題加以設問。(20)在IDEA中搭建Spark編程環(huán)境有哪些需要配置的內容?(21)如何在IDEA中編寫Spark程序?(22)如何打包程序并提交到Spark集群中運行?(23)持久化RDD的方法有哪些?(24)自定義數(shù)據(jù)分區(qū)方式需要繼承哪個類,實現(xiàn)哪些方法?(25)程序運行時有哪些集群參數(shù)可以優(yōu)化?31.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(7)repartition分區(qū)與自定義分區(qū)之間有什么異同點?(8)在一個spark程序類中,通過SparkConf設置了appName,如果在使用spark-submit提交任務到集群中時再次設置appName,那么按照參數(shù)的優(yōu)先級,最終使用了哪一個appName?八、主要知識點、重點與難點32.主要知識點(17)下載與安裝IntelliJIDEA。(18)Scala插件安裝與使用。(19)配置Spark運行環(huán)境的方法。(20)運行Spark程序的方法。(21)持久化方法。(22)數(shù)據(jù)分區(qū)方法。33.重點(10)配置Spark運行環(huán)境。(11)運行Spark程序的方式。(12)持久化(緩存)實現(xiàn)。(13)數(shù)據(jù)分區(qū)。34.難點(8)自定義數(shù)據(jù)分區(qū)。(9)打包Spark工程并運行。(10)Spark-submit提交程序的命令及參數(shù)設置。九、教學過程設計35.理論教學過程搭建IDEA開發(fā)環(huán)境。配置Spark運行環(huán)境。運行Spark程序的方式。持久化(緩存)實現(xiàn)。數(shù)據(jù)分區(qū)。36.實驗教學過程(1)搭建開發(fā)環(huán)境。(2)自定義分區(qū)。(3)競賽網(wǎng)站訪問日志分析。十、教材與參考資料37.教材肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.38.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.第5章SparkSQL:結構化數(shù)據(jù)文件處理課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:6學時十一、材料清單(21)《Spark大數(shù)據(jù)技術與應用》教材。(22)配套PPT。(23)引導性提問。(24)探究性問題。(25)拓展性問題。十二、教學目標與基本要求39.教學目標主要介紹Spark四大組件之一SparkSQL,首先對SparkSQL的基本概念進行簡要概述,并且講解如何配置SparkSQL以及SparkSQL與Shell交互,接著詳細介紹SparkSQL的核心抽象編程模型DataFrame,包括創(chuàng)建DataFrame對象、DataFrame上的Action操作、DataFrame對象上的查詢操作以及DataFrame對象上的輸出操作,最后使用SparkSQL對法律服務網(wǎng)站數(shù)據(jù)進行探索分析。40.基本要求(16)了解SparkSQL的基本概念。(17)掌握SparkSQL與Shell交互。(18)掌握創(chuàng)建DataFrame對象的方法。(19)掌握DataFrame查看數(shù)據(jù)的方法。(20)掌握DataFrame的查詢及輸出操作。41.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(18)你學過MySQL嗎?是否了解MySQL的基本語法?(19)你了解SparkSQL的基本概念嗎?(20)是否接觸過DataFrame類型?是否了解DataFrame類型的基本操作方法?(21)對于SparkSQL的使用方式,你知道有哪些?42.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。(26)SparkSQL可以訪問哪些數(shù)據(jù)庫?(27)SparkSQL如何讀取json格式的數(shù)據(jù)?(28)SparkDataFrame與RDD有何區(qū)別?(29)SparkSQL查詢一個DataFrame中的某個字段有哪些方法?(30)SparkSQL如何注冊一個臨時表?43.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(9)RDD是一個數(shù)據(jù)存放在多個分區(qū)的集合,DataFrame是否也是相同的存儲方式?(10)SparkSQL支持自定義函數(shù)嗎?(11)你認為SparkSQL能否完全取代Hive技術?十四、主要知識點、重點與難點44.主要知識點(23)SparkSQL簡介。(24)SparkSQL配置。(25)SparkSQL與Shell交互實現(xiàn)。(26)DataFrame基礎操作方法。45.重點(14)SparkSQL與Shell交互實現(xiàn)。(15)創(chuàng)建DataFrame對象的方法。(16)DataFrame查看數(shù)據(jù)的方法。(17)DataFrame的查詢及輸出操作。46.難點(11)創(chuàng)建DataFrame對象的方法。(12)將DataFrame進行存儲。(13)DataFrame查詢數(shù)據(jù)操作。十五、教學過程設計47.理論教學過程(17)認識SparkSQL。(18)SparkSQL配置。(19)SparkSQL與Shell交互實現(xiàn)。(20)DataFrame基礎操作方法48.實驗教學過程(1)配置SparkSQL。(2)掌握DataFrame基礎操作。(3)探索分析房屋售價數(shù)據(jù)。(4)統(tǒng)計分析顧客對某城市餐飲店的點評數(shù)據(jù)。十六、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.50.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.第6章SparkStreaming:實時計算框架課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:6學時十七、材料清單(26)《Spark大數(shù)據(jù)技術與應用》教材。(27)配套PPT。(28)引導性提問。(29)探究性問題。(30)拓展性問題。十八、教學目標與基本要求51.教學目標首先介紹SparkStreaming的基本概念及運行原理,然后初步講解SparkStreaming的用法,為后面的編程打下基礎。接著介紹DStream編程模型,重點講解DStream轉換操作、窗口操作及輸出操作。最后以實時更新熱門博文的案例加深對SparkStreaming的理解及使用。52.基本要求(21)了解SparkStreaming的基本概念及運行原理。(22)了解Dstream的轉換操作。(23)了解Dstream的窗口操作。(24)了解Dstream的輸出操作。53.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高大數(shù)據(jù)技能的目的。(22)你是否有注意到,很多售書網(wǎng)站都有熱門排行榜這一欄?(23)你有了解過這種類型排行榜的實時更新原理嗎?(24)如果讓你自己來設計,你能否完成類似于排行榜的實時更新功能?(25)你了解過SparkStreaming的基本概念及運行原理嗎?(26)對于SparkStreaming,你覺得它能完成熱門排行榜的哪些功能?54.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問。或者是對引導式提問中尚未涉及但在課文中又是重要的問題加以設問。(31)如何描述SparkStreaming實時計算框架?(32)如何解釋DStream編程模型?(33)如何操作SparkStreaming?55.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(12)SparkStreaming可以與SparkSQL一起使用嗎?(13)RDD的轉換操作在運行行動操作的時候才會被真正觸發(fā),DStream的轉換操作是不是同樣如此,DStream的行動操作有哪些?(14)SparkStreaming如何與Kafka結合?二十、主要知識點、重點與難點56.主要知識點(27)SparkStreaming運行原理。(28)SparkStreaming使用方法。(29)DStream編程模型基本方法。57.重點(18)SparkStreaming的基本概念及運行原理。(19)DStream的轉換操作。(20)DStream的窗口操作。(21)DStream的輸出操作。58.難點(14)DStream的轉換操作。(15)DStream的窗口操作。(16)DStream的輸出操作。二十一、教學過程設計59.理論教學過程(21)初探SparkStreaming。(22)DStream編程模型。60.實驗教學過程(1)SparkStreaming實時計算書籍熱度。(2)SparkStreaming實時更新客戶點餐費用。二十二、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.62.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.第7章SparkGraphX:圖計算框架課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:6學時二十三、材料清單(31)《Spark大數(shù)據(jù)技術與應用》教材。(32)配套PPT。(33)引導性提問。(34)探究性問題。(35)拓展性問題。二十四、教學目標與基本要求63.教學目標主要介紹圖計算的應用,從圖的概念講起,結合任務需要,了解SparkGraphX的概念、發(fā)展、基本操作命令等,學習SparkGraphX的基本使用,最后通過一個來源于企業(yè)項目的實踐任務的實現(xiàn)過程,加深對SparkGraphX的基本使用及對應用GraphX解決實際問題有了更加深入的理解。64.基本要求(25)了解圖與圖計算的基本概念。(26)掌握GraphX圖的創(chuàng)建方法。(27)掌握GraphX的基本操作。(28)掌握以GraphX進行關聯(lián)聚合操作。65.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(27)圖是一種什么數(shù)據(jù)結構?(28)你知道的圖類型有哪些?(29)你知道圖計算都有哪些嗎?66.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。(34)GraphX的作用是什么?(35)創(chuàng)建圖的方法有哪些,分別有什么不同?(36)圖的緩存和釋放緩存方法有哪些,有什么區(qū)別?(37)圖的操作大體分成幾種類型?(38)怎么查看圖的視圖?(39)對圖操作后返回值還是圖結構的方法有哪些?67.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(15)創(chuàng)建圖的方法中,哪一種方法允許與其他任何頂點都沒有相連的邊的獨立頂點存在?(16)通過關聯(lián)操作將外部頂點與圖結構連接的時候,如果存在圖中沒有的外部頂點,結果會如何?二十六、主要知識點、重點與難點68.主要知識點(30)圖的基本概念。圖計算的應用。GraphX的基礎概念。圖的創(chuàng)建與存儲。數(shù)據(jù)查詢與數(shù)據(jù)轉換。結構轉換與關聯(lián)聚合。69.重點(22)圖的創(chuàng)建與緩存。(23)GraphX常用API方法。70.難點(17)圖的創(chuàng)建。(18)圖的關聯(lián)操作。(19)圖的聚合操作。二十七、教學過程設計71.理論教學過程(23)圖的基本概念。(24)圖計算的應用。(25)GraphX的基礎概念。(26)GraphX的發(fā)展。(27)GraphX常用API。(28)圖的創(chuàng)建與存儲。(29)數(shù)據(jù)查詢與數(shù)據(jù)轉換。(30)結構轉換與關聯(lián)聚合。72.實驗教學過程(1)構建信任網(wǎng)絡并找出目標用戶。(2)使用PageRank算法完成網(wǎng)頁排名。(3)使用GraphX技術分析金庸武俠小說人物關系。二十八、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.74.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.第8章SparkMLlib:功能強大的算法庫課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:6學時二十九、材料清單(36)《Spark大數(shù)據(jù)技術與應用》教材。(37)配套PPT。(38)引導性提問。(39)探究性問題。(40)拓展性問題。三十、教學目標與基本要求75.教學目標從機器學習的簡單概念入手,先講述機器學習的概念以及機器學習的常用算法。接著根據(jù)常用算法引向SparkMLlib算法庫,簡單了解SparkMLlib及SparkML庫基本情況,然后對MLlib中的算法以及算法包都做了基本介紹。最后通過實現(xiàn)網(wǎng)絡攻擊類型分析任務強化學生對算法的理解,對算法所需要的數(shù)據(jù)類型、算法的調用、算法的模型建立以及算法的評估都做了一個詳細的分析。76.基本要求了解機器學習的基本概念。了解MLlib的概念以及算法。掌握MLlib算法的基本調用。掌握MLlib實現(xiàn)邏輯回歸算法。掌握MLlib模型評價方法。77.引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。(30)你了解過機器學習嗎?(31)機器學習算法有哪些?(32)什么是監(jiān)督學習,什么是非監(jiān)督學習嗎?(33)分類算法與聚類算法的區(qū)別是什么?(34)使用MLlib提供的算法包有什么好處?78.探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。(40)常用的機器學習算法有哪些?(41)分類算法的特點是什么,有哪些常用的分類算法?(42)MLlib輸入算法的數(shù)據(jù)類型通常有哪些?(43)通過MLlib調用算法時,分類算法的輸入數(shù)據(jù)要求哪種類型,聚類、推薦算法(44)調用邏輯回歸算法時,需要導入哪些包,如何建模?79.拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。(17)MLlib是基于RDD的算法庫,ML是基于DataFrame的算法庫,結合第五章的內容,分析一下這兩個庫的優(yōu)點?(18)MLlib可以調用模型的save方法將模型保存,查看模型保存的信息,列舉出模型具體保存了哪些信息?三十二、主要知識點、重點與難點80.主要知識點(36)機器學習。(37)MLlib介紹。(38)MLlib算法包介紹與應用。(39)邏輯回歸算法實現(xiàn)。81.重點(1)MLlib算法包介紹與調用。(2)邏輯回歸算法實現(xiàn)網(wǎng)絡攻擊類型識別。82.難點(20)聚類算法的調用。(21)分類算法調用。(22)推薦類型算法調用。三十三、教學過程設計83.理論教學過程(31)機器學習簡介。(32)MLlib介紹。(33)MLlib算法包介紹與調用。84.實驗教學過程(1)以Logistic回歸實現(xiàn)用戶分類。(2)以決策樹模型實現(xiàn)網(wǎng)絡攻擊類型識別。(3)通過KMeans劃分電影熱度等級。三十四、教材與參考資料肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版微課版)[M].北京:人民郵電出版社.2022.86.參考資料[1]肖芳,張良均.Spark大數(shù)據(jù)技術與應用[M].北京:人民郵電出版社.2018.[2]王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3]張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(第2版微課版)[M].北京:人民郵電出版社.2021.第9章項目案例:廣告檢測的流量作弊課程名稱:Spark大數(shù)據(jù)技術與應用課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論40學時,實驗24學時)總學分:4.0學分本章學時:1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論