版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
項目1廣告流量檢測違規(guī)識別需求分析教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:2學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)解決廣告流量違規(guī)問題任重道遠,且非一朝一夕可以完成,不光是DSP,整個行業(yè)的參與者都需要認識到廣告流量違規(guī)的危害,必須嚴(yán)格遵紀(jì)守法,不斷提高法治思維。本項目展示了廣告流量檢測中的違規(guī)識別案例,從項目背景、項目目標(biāo)、目標(biāo)分析、項目實施展開,分步驟較為完整地分析了廣告流量檢測違規(guī)識別案例的實現(xiàn)步驟,后續(xù)章節(jié)將根據(jù)廣告流量檢測違規(guī)識別案例的需求及實現(xiàn)流程,帶領(lǐng)讀者學(xué)習(xí)相關(guān)的大數(shù)據(jù)組件知識,實現(xiàn)廣告流量違規(guī)識別?;疽罅私獯髷?shù)據(jù)的概念和特征。了解常見的廣告流量違規(guī)方式。了解廣告流量檢測違規(guī)識別項目的流程分析。能夠根據(jù)項目目標(biāo)進行流程分析。能夠根據(jù)業(yè)務(wù)需求設(shè)計項目總體流程。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。數(shù)據(jù)分析能夠做什么?現(xiàn)實生活中存在哪些數(shù)據(jù)分析技術(shù)?該如何進行數(shù)據(jù)分析?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。大數(shù)據(jù)的特征有什么?數(shù)據(jù)分析的完整流程是怎樣的?項目的實現(xiàn)流程分析需要注意哪些關(guān)鍵要素?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。數(shù)據(jù)分析是不是萬能的?Spark用于做數(shù)據(jù)分析有哪些優(yōu)勢?分析本班人員的基本信息可以從哪些角度入手?主要知識點、重點與難點主要知識點大數(shù)據(jù)的概念。大數(shù)據(jù)的特征。大數(shù)據(jù)分析的概念。大數(shù)據(jù)分析的流程。大數(shù)據(jù)分析的工具。了解正常的廣告投放流程。了解廣告流量違規(guī)現(xiàn)狀。了解廣告流量常見違規(guī)方式。了解識別虛假流量的常見維度。廣告流量檢測違規(guī)識別流程分析。重點數(shù)據(jù)分析的概念和流程。難點數(shù)據(jù)分析的概念與流程。教學(xué)過程設(shè)計理論教學(xué)過程大數(shù)據(jù)的概念。大數(shù)據(jù)的特征。大數(shù)據(jù)分析的概念。大數(shù)據(jù)分析的流程。大數(shù)據(jù)分析的工具。了解正常的廣告投放流程。了解廣告流量違規(guī)現(xiàn)狀。了解廣告流量常見違規(guī)方式。了解識別虛假流量的常見維度。廣告流量檢測違規(guī)識別流程分析。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目2Spark大數(shù)據(jù)環(huán)境安裝搭建教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:6學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)主要介紹Hadoop框架、Hadoop生態(tài)系統(tǒng)中Hive和Spark組件的基礎(chǔ)知識。首先介紹了Hadoop的發(fā)展歷程、特點、生態(tài)系統(tǒng)等。接著詳細介紹了Hadoop生態(tài)系統(tǒng)中的Hive和Spark組件,包括組件的簡介、特點、應(yīng)用場景等內(nèi)容。最后安裝搭建了3節(jié)點的Hadoop分布式集群,基于Hadoop大數(shù)據(jù)平臺,安裝部署了數(shù)據(jù)倉庫Hive、3節(jié)點的Spark集群,為后續(xù)廣告流量違規(guī)檢測案例的數(shù)據(jù)處理、模型構(gòu)建提供技術(shù)工具?;疽罅私釮adoop框架的歷程、特點、生態(tài)系統(tǒng)、應(yīng)用場景。了解Hive的特點、應(yīng)用場景以及Hive與關(guān)系數(shù)據(jù)庫的區(qū)別。了解Spark的發(fā)展歷程、特點、生態(tài)系統(tǒng)、應(yīng)用場景。熟悉Hadoop框架和Spark的架構(gòu)組成。能夠理解Hadoop、Hive、Spark組件的作用。能夠完成Hadoop集群、Hive和Spark集群的搭建與配置。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。Hadoop集群可以在一臺電腦上搭建嗎?如何將Linux系統(tǒng)搭建在Windows機器上?Hadoop集群選擇搭建在Linux系統(tǒng)中比Windows系統(tǒng)要好嗎?Spark和Hadoop的關(guān)聯(lián)性是什么?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。Hadoop集群一般需要幾個機器節(jié)點,Hadoop的拓撲怎么解釋?設(shè)置固定IP有什么作用?Spark集群搭建時需要修改什么配置文件?配置的內(nèi)容包括什么?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Hive的元數(shù)據(jù)一定要存放在MySQL數(shù)據(jù)庫中嗎?還有什么選擇?如何更新Hive配置,實現(xiàn)在slave1節(jié)點連接Hive服務(wù)?根據(jù)Spark的安裝配置過程,如果想要為Spark集群多加一個子節(jié)點,需要進行哪些操作?主要知識點、重點與難點主要知識點Hadoop的發(fā)展歷程。Hadoop的特點。Hadoop生態(tài)系統(tǒng)。Hadoop的應(yīng)用場景。Hive簡介。Hive的特點。Hive的應(yīng)用場景。Hive與關(guān)系數(shù)據(jù)庫的區(qū)別。Spark簡介。Spark的發(fā)展歷程。Spark的特點。Spark生態(tài)系統(tǒng)。Spark的應(yīng)用場景。安裝搭建Hadoop集群。安裝搭建Hive。安裝搭建Spark集群。重點安裝搭建Hadoop集群。安裝搭建Hive。安裝搭建Spark集群。難點安裝搭建Hadoop集群。安裝搭建Hive。安裝搭建Spark集群。教學(xué)過程設(shè)計理論教學(xué)過程Hadoop的發(fā)展歷程。Hadoop的特點。Hadoop生態(tài)系統(tǒng)。Hadoop的應(yīng)用場景。Hive簡介。Hive的特點。Hive的應(yīng)用場景。Hive與關(guān)系數(shù)據(jù)庫的區(qū)別。Spark簡介。Spark的發(fā)展歷程。Spark的特點。Spark生態(tài)系統(tǒng)。Spark的應(yīng)用場景。實踐教學(xué)過程創(chuàng)建Linux虛擬機。設(shè)置固定IP地址。遠程連接虛擬機。配置本地yum源及安裝常用軟件。在Linux系統(tǒng)下安裝Java。修改配置文件??寺√摂M機。配置SSH免密登錄。配置時間同步服務(wù)。添加地址映射。啟動關(guān)閉集群。安裝MySQL。下載和安裝Hive。修改Hive配置文件。設(shè)置環(huán)境變量。初始化元數(shù)據(jù)庫與啟動Hive。解壓并配置Spark集群。啟動Spark集群。查看Spark監(jiān)控服務(wù)。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目3基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:8學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹Hive的數(shù)據(jù)類型,為讀者學(xué)習(xí)Hive表的創(chuàng)建奠定基礎(chǔ);其次介紹數(shù)據(jù)庫的創(chuàng)建與管理操作,使得數(shù)據(jù)更加有序和易于維護;接著介紹表的創(chuàng)建與修改,包括如何靈活地構(gòu)建和調(diào)整表結(jié)構(gòu),幫助讀者掌握Hive表的創(chuàng)建和管理技巧;然后介紹數(shù)據(jù)的導(dǎo)入與導(dǎo)出,實現(xiàn)數(shù)據(jù)的存儲與備份;最后實現(xiàn)創(chuàng)建表與導(dǎo)入相應(yīng)數(shù)據(jù)至Hive表,為后續(xù)的廣告流量檢測數(shù)據(jù)分析提供基礎(chǔ)數(shù)據(jù)?;疽罅私釮ive中的數(shù)據(jù)類型。掌握創(chuàng)建和管理數(shù)據(jù)庫的操作方法。掌握創(chuàng)建和修改表的操作方法。掌握Hive數(shù)據(jù)導(dǎo)入與導(dǎo)出的操作方法。能夠認識Hive中的數(shù)據(jù)類型。能夠完成數(shù)據(jù)庫的創(chuàng)建與管理。能夠根據(jù)要求創(chuàng)建表并導(dǎo)入相應(yīng)的數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。什么是數(shù)據(jù)倉庫?Hive和MySQL有什么區(qū)別?如何啟動Hive?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。如何實現(xiàn)創(chuàng)建與調(diào)整Hive數(shù)據(jù)庫?Hive表的創(chuàng)建和數(shù)據(jù)庫的創(chuàng)建方法有何異同?如何實現(xiàn)導(dǎo)入和導(dǎo)出Hive表數(shù)據(jù)?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。如何實現(xiàn)查詢Hive表數(shù)據(jù)?Spark要如何讀取Hive數(shù)據(jù)?主要知識點、重點與難點主要知識點了解Hive中的數(shù)據(jù)類型。創(chuàng)建數(shù)據(jù)庫語法格式。刪除數(shù)據(jù)庫語法格式。更改數(shù)據(jù)庫語法格式。使用數(shù)據(jù)庫語法格式。創(chuàng)建內(nèi)部表。創(chuàng)建外部表。創(chuàng)建分區(qū)表。創(chuàng)建桶表。修改表。將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表。通過查詢語句向表中插入數(shù)據(jù)。將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)。將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS。創(chuàng)建數(shù)據(jù)表。導(dǎo)入數(shù)據(jù)至Hive表。重點創(chuàng)建與修改表。Hive表數(shù)據(jù)的導(dǎo)入與導(dǎo)出操作。難點創(chuàng)建與修改表。Hive表數(shù)據(jù)的導(dǎo)入與導(dǎo)出操作。教學(xué)過程設(shè)計理論教學(xué)過程了解Hive中的數(shù)據(jù)類型。創(chuàng)建數(shù)據(jù)庫語法格式。刪除數(shù)據(jù)庫語法格式。更改數(shù)據(jù)庫語法格式。使用數(shù)據(jù)庫語法格式。創(chuàng)建內(nèi)部表。創(chuàng)建外部表。創(chuàng)建分區(qū)表。創(chuàng)建桶表。修改表。將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表。通過查詢語句向表中插入數(shù)據(jù)。將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)。將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS。實踐教學(xué)過程創(chuàng)建數(shù)據(jù)庫語法格式。刪除數(shù)據(jù)庫語法格式。更改數(shù)據(jù)庫語法格式。使用數(shù)據(jù)庫語法格式。創(chuàng)建內(nèi)部表。創(chuàng)建外部表。創(chuàng)建分區(qū)表。創(chuàng)建桶表。修改表。將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表。通過查詢語句向表中插入數(shù)據(jù)。將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)。將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS。創(chuàng)建數(shù)據(jù)表。導(dǎo)入數(shù)據(jù)至Hive表。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目4基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:8學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹SparkSQL的功能及運行過程,并介紹SparkSQLCLI的配置方法和SparkSQL與Shell交互;接著詳細介紹通過結(jié)構(gòu)化數(shù)據(jù)文件、外部數(shù)據(jù)庫、RDD及Hive中的表4種方式創(chuàng)建DataFrame對象;最后介紹DataFrame數(shù)據(jù)的查看以及DataFrame的行列表查詢操作。基于知識介紹,根據(jù)廣告流量檢測數(shù)據(jù)創(chuàng)建DataFrame,通過DataFrame的查詢操作對廣告流量檢測數(shù)據(jù)進行基本數(shù)據(jù)查詢、缺失值分析以及特征字段進行探索分析?;诒卷椖繑?shù)據(jù)探索分析的結(jié)果,能夠更好地開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模工作?;疽罅私釹parkSQL框架的功能及運行過程。了解SparkSQL與Shell交互。掌握SparkSQL的可編程數(shù)據(jù)模型DataFrame的創(chuàng)建、查詢等操作方法。能夠配置SparkSQLCLI,提供SparkSQL與Shell交互環(huán)境。能夠通過不同數(shù)據(jù)源創(chuàng)建DataFrame。能夠?qū)崿F(xiàn)DataFrame數(shù)據(jù)及行列表的查詢操作。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。SparkSQL和HiveSQL有什么區(qū)別?什么是DataFrame?DataFrame的相關(guān)操作有哪些?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。如何實現(xiàn)SparkSQL跟Hive的交互?DataFrame行列式是什么?有些查詢操作?數(shù)據(jù)探索分析有哪些要點?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Scala語言中的DataFrame和Python語言中的DataFrame有何區(qū)別?能否使用Python語言實現(xiàn)Spark分析操作?主要知識點、重點與難點主要知識點SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。讀取數(shù)據(jù)創(chuàng)建DataFrame對象。簡單查詢DataFrame數(shù)據(jù)。探索分析日流量特征。探索分析IP地址的訪問次數(shù)特征。探索分析虛假流量數(shù)據(jù)特征。重點配置SparkSQLCLI。DataFrame的創(chuàng)建、數(shù)據(jù)查看、行列表查詢操作。難點DataFrame的創(chuàng)建、數(shù)據(jù)查看、行列表查詢操作。教學(xué)過程設(shè)計理論教學(xué)過程SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。實踐教學(xué)過程創(chuàng)建數(shù)據(jù)庫語法格式。配置SparkSQLCLI。SparkSQL與Shell交互。通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。查看DataFrame數(shù)據(jù)。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。讀取數(shù)據(jù)創(chuàng)建DataFrame對象。查詢數(shù)據(jù)記錄數(shù)。查詢數(shù)據(jù)缺失值。探索分析日流量特征。探索分析IP地址的訪問次數(shù)特征。探索分析虛假流量數(shù)據(jù)特征。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目5基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:12學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹DataFrame行列表增、刪操作,通過DataFrame對象新增或刪除得到新的DataFrame;接著介紹創(chuàng)建與使用用戶自定義函數(shù),可以根據(jù)特定的需求編寫和調(diào)用用戶自定義函數(shù);然后介紹DataFrame表聯(lián)合操作,并分別舉例闡述聯(lián)合操作的區(qū)別;最后介紹DataFrame行列表輸出操作相關(guān)知識?;谥R介紹,對廣告流量檢測數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,在刪除缺失值后構(gòu)建關(guān)鍵特征,將構(gòu)建出來的特征合并輸出保存至Hive表中。本項目的操作可為項目6介紹的模型的構(gòu)建與評估提供數(shù)據(jù)特征服務(wù)?;疽笳莆誅ataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠?qū)崿F(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。DataFrame行列表除了查詢操作,還有什么操作?能否將兩個DataFrame合并到一起操作?如果Spark提供的函數(shù)不能滿足統(tǒng)計分析需求,要通過什么方法實現(xiàn)其需求?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。DataFrame表聯(lián)合的方法有哪些?有何異同?如何創(chuàng)建用戶自定義函數(shù)?創(chuàng)建后又該如何使用?要想保存處理好的DataFrame,有哪些方法可以實現(xiàn)?可以以什么形式保存?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Spark提供的可操作對象除了DataFrame,還有什么?按照數(shù)據(jù)分析流程,數(shù)據(jù)預(yù)處理后是什么操作?主要知識點、重點與難點主要知識點新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。5種join()方法。根據(jù)特定字段進行表聯(lián)合操作。指定類型進行表聯(lián)合操作。使用Column類型進行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語句刪除數(shù)據(jù)。自定義函數(shù)構(gòu)建關(guān)鍵特征。保存DataFrame數(shù)據(jù)至Hive表中。重點DataFrame行列表增、刪、輸出操作。DataFrame表聯(lián)合操作。創(chuàng)建與使用用戶自定義函數(shù)。難點創(chuàng)建與使用用戶自定義函數(shù)。教學(xué)過程設(shè)計理論教學(xué)過程SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。實踐教學(xué)過程新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。根據(jù)特定字段進行表聯(lián)合操作。指定類型進行表聯(lián)合操作。使用Column類型進行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語句刪除數(shù)據(jù)。劃分時間區(qū)間。構(gòu)建關(guān)鍵特征并保存至Hive表中。保存DataFrame數(shù)據(jù)至Hive表中。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目6基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構(gòu)建與評估教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:12學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹SparkMLlib算法庫,并介紹SparkMLlib中的算法與算法包,詳細舉例介紹SparkMLlib的數(shù)據(jù)類型、特征提取、回歸算法以及分類算法等。最后介紹SparkMLlib的評估器以及對模型的評估。基于知識介紹,在對廣告流量檢測數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn)化后,劃分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),通過邏輯回歸和隨機森林兩種算法對廣告流量檢測數(shù)據(jù)構(gòu)建模型,并對兩種分類模型進行評估對比,根據(jù)對比結(jié)果選擇隨機森林模型用于廣告流量檢測違規(guī)識別。通過本項目的模型構(gòu)建,識別廣告流量數(shù)據(jù)中的作弊流量,可以減少投放廣告時的客戶損失?;疽罅私釹parkMLlib算法庫。熟悉SparkMLlib中的算法與算法包。掌握SparkMLlib的評估器與模型評估的使用方法。能夠掌握SparkMLlib特征提取的方法。能夠使用SparkMLlib回歸與分類相關(guān)算法包構(gòu)建模型。能夠使用SparkMLlib評估器對模型進行評估。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。是否了解過機器學(xué)習(xí)?機器學(xué)習(xí)算法有哪些?Spark是否提供了機器學(xué)習(xí)算法包?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。常用的機器學(xué)習(xí)算法有哪些?MLlib輸入算法的數(shù)據(jù)類型通常有哪些?通過MLlib調(diào)用算法時,分類算法的輸入數(shù)據(jù)要求哪種類型,聚類、推薦算法呢?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。MLlib是基于RDD的算法庫,ML是基于DataFrame的算法庫,分析一下這兩個庫的優(yōu)點?MLlib可以調(diào)用模型的save方法將模型保存,查看模型保存的信息,列舉出模型具體保存了哪些信息?主要知識點、重點與難點主要知識點了解機器學(xué)習(xí)算法。SparkMLlib簡介。數(shù)據(jù)類型?;窘y(tǒng)計。管道。特征提取。特征處理?;貧w。分類。聚類。關(guān)聯(lián)規(guī)則。智能推薦。掌握SparkMLlib的評估器與模型評估。使用spark.ml.classification模塊構(gòu)建分類模型。使用評估器實現(xiàn)模型評估。重點特征提取。特征處理。模型構(gòu)建與評估。難點特征提取。特征處理。模型構(gòu)建與評估。教學(xué)過程設(shè)計理論教學(xué)過程了解機器學(xué)習(xí)算法。SparkMLlib簡介。數(shù)據(jù)類型?;窘y(tǒng)計。管道。特征提取。特征處理?;貧w。分類。聚類。關(guān)聯(lián)規(guī)則。智能推薦。掌握SparkMLlib的評估器與模型評估。實踐教學(xué)過程基本統(tǒng)計。管道。特征提取。特征處理?;貧w。分類。聚類。關(guān)聯(lián)規(guī)則。智能推薦。數(shù)據(jù)歸一化。構(gòu)建建模樣本。使用邏輯回歸算法實現(xiàn)廣告流量檢測違規(guī)識別。使用隨機森林算法實現(xiàn)廣告流量檢測違規(guī)識別。使用評估器實現(xiàn)模型評估。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機械工業(yè)出版社.2022.[3] 張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.項目7基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:12學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹如何搭建Java開發(fā)環(huán)境以及Spark開發(fā)環(huán)境,通過開發(fā)環(huán)境搭建,實現(xiàn)Spark程序在開發(fā)環(huán)境下運行。然后對廣告流量檢測違規(guī)識別項目的數(shù)據(jù)預(yù)處理、特征構(gòu)建以及模型構(gòu)建代碼進行封裝。最后將在IntelliJIDEA中打包工程輸出的JAR包在集群中運行?;疽笳莆認DK8安裝和環(huán)境配置。掌握IntelliJIDEA中創(chuàng)建Scala工程。掌握Spark運行環(huán)境配置。能夠在本地環(huán)境下配置JDK環(huán)境,實現(xiàn)Java環(huán)境搭建。能夠在IntelliJIDEA中配置相關(guān)插件和開發(fā)依賴包,實現(xiàn)Scala工程創(chuàng)建。能夠在IntelliJIDEA中配置Spark運行環(huán)境,實現(xiàn)Spark程序運行。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。什么是IDE?常見的IDE編程軟件有哪些?如何將Spark代碼集合、封裝成一個可執(zhí)行的代碼?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。安裝JDK的作用是什么?配置Spark的開發(fā)環(huán)境需要哪些步驟?運行Spark程序的方式有哪些?怎么操作?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。如何通過Maven工具實現(xiàn)程序自動化打包?在一個Spark程序類中,通過SparkConf設(shè)置了appName,如果在使用spark-submit提交任務(wù)到集群中時再次設(shè)置appName,那么按照參數(shù)的優(yōu)先級,最終使用了哪一個appName?主要知識點、重點與難點主要知識點安裝JDK8。設(shè)置環(huán)境變量。下載與安裝IntelliJIDEA。Scala插件安裝與使用。在IntelliJIDEA中配置Spark運行環(huán)境。運行Spark程序。開發(fā)環(huán)境下實現(xiàn)流量數(shù)據(jù)違規(guī)識別。模型應(yīng)用。重點Scala插件的使用。在IntelliJIDEA中配置Spark運行環(huán)境。運行Spark程序。難點在IntelliJIDEA中配置Spark運行環(huán)境。運行Spark程序。教學(xué)過程設(shè)計理論教學(xué)過程安裝JDK8。設(shè)置環(huán)境變量。下載與安裝IntelliJIDEA。Scala插件安裝與使用。在IntelliJIDEA中配置Spark運行環(huán)境。運行Spark程序。實踐教學(xué)過程安裝JDK8。設(shè)置環(huán)境變量。下載與安裝IntelliJIDEA。Scala插件安裝與使用。在IntelliJIDEA中配置Spark運行環(huán)境。運行Spark程序。集群連接參數(shù)設(shè)置。封裝代碼。運行Spark程序。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安全生產(chǎn)責(zé)任基金抵押合同
- 2025年在線醫(yī)療健康平臺用戶注冊協(xié)議
- 2025年保密協(xié)議信息轉(zhuǎn)換書
- 2025年代理渠道合作協(xié)議
- 2025年旅游項目管理標(biāo)準(zhǔn)協(xié)議
- 《英語選修課》課件
- 2024 浙江公務(wù)員考試行測試題(A 類)
- 2025版美容護膚中心場地租賃合同范本4篇
- 2025版基礎(chǔ)設(shè)施建設(shè)工程施工合同終止補充協(xié)議2篇
- 買賣墓地合同(2024版)
- 2025年度房地產(chǎn)權(quán)證辦理委托代理合同典范3篇
- 柴油墊資合同模板
- 湖北省五市州2023-2024學(xué)年高一下學(xué)期期末聯(lián)考數(shù)學(xué)試題
- 城市作戰(zhàn)案例研究報告
- 【正版授權(quán)】 ISO 12803:1997 EN Representative sampling of plutonium nitrate solutions for determination of plutonium concentration
- 道德經(jīng)全文及注釋
- 2024中考考前地理沖刺卷及答案(含答題卡)
- 多子女贍養(yǎng)老人協(xié)議書范文
- 彩票市場銷售計劃書
- 骨科抗菌藥物應(yīng)用分析報告
- 支付行業(yè)反洗錢與反恐怖融資
評論
0/150
提交評論