職業(yè)技術(shù)學(xué)院《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱_第1頁
職業(yè)技術(shù)學(xué)院《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱_第2頁
職業(yè)技術(shù)學(xué)院《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱_第3頁
職業(yè)技術(shù)學(xué)院《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱_第4頁
職業(yè)技術(shù)學(xué)院《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《Spark大數(shù)據(jù)計(jì)算技術(shù)》教學(xué)大綱課程名稱:Spark大數(shù)據(jù)計(jì)算技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):56學(xué)時(shí)(其中理論40學(xué)時(shí),實(shí)驗(yàn)16學(xué)時(shí))總學(xué)分:3.5學(xué)分課程的性質(zhì)近年來,大數(shù)據(jù)、云計(jì)算、人工智能等數(shù)字技術(shù)與各行業(yè)加速融合,數(shù)字經(jīng)濟(jì)快速發(fā)展,數(shù)字經(jīng)濟(jì)深化發(fā)展的核心引擎是數(shù)據(jù)要素。企業(yè)急需具有數(shù)據(jù)分析技術(shù)能力的人才,以便在數(shù)字經(jīng)濟(jì)浪潮中保持競(jìng)爭(zhēng)優(yōu)勢(shì)。然而,數(shù)據(jù)源多變、數(shù)據(jù)量巨大、處理速度緩慢和計(jì)算能力不足等問題,使得企業(yè)難以用傳統(tǒng)的數(shù)據(jù)分析方法有效分析和利用海量數(shù)據(jù)。Spark作為一種快速、通用的大數(shù)據(jù)分析框架,具有兼容多種數(shù)據(jù)源、支持內(nèi)存計(jì)算、支持分布式計(jì)算和可擴(kuò)展性等優(yōu)點(diǎn),得到了廣泛的認(rèn)可和應(yīng)用。為了推動(dòng)我國(guó)大數(shù)據(jù),云計(jì)算,人工智能行業(yè)的發(fā)展,滿足日益增長(zhǎng)的數(shù)據(jù)分析人才需求,特開設(shè)Spark大數(shù)據(jù)分析實(shí)務(wù)課程。課程的任務(wù)通過本課程的學(xué)習(xí),使學(xué)生學(xué)會(huì)使用Spark進(jìn)行數(shù)據(jù)讀取、數(shù)據(jù)處理、分析與建模,并詳細(xì)拆解學(xué)習(xí)廣告流量檢測(cè)違規(guī)識(shí)別企業(yè)案例,將理論與實(shí)踐相結(jié)合,為將來從事數(shù)據(jù)分析挖掘研究、工作奠定基礎(chǔ)。課程學(xué)時(shí)分配序號(hào)教學(xué)內(nèi)容理論學(xué)時(shí)實(shí)驗(yàn)學(xué)時(shí)其它1項(xiàng)目1廣告流量檢測(cè)違規(guī)識(shí)別需求分析22項(xiàng)目2Spark大數(shù)據(jù)環(huán)境安裝搭建243項(xiàng)目3基于Hive實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)存儲(chǔ)444項(xiàng)目4基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)探索分析445項(xiàng)目5基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)預(yù)處理666項(xiàng)目6基于SparkMLlib實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別模型構(gòu)建與評(píng)估667項(xiàng)目7基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別668項(xiàng)目8基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別22總計(jì)3232教學(xué)內(nèi)容及學(xué)時(shí)安排理論教學(xué)序號(hào)章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時(shí)1廣告流量檢測(cè)違規(guī)識(shí)別需求分析大數(shù)據(jù)的概念大數(shù)據(jù)的特征大數(shù)據(jù)分析的概念大數(shù)據(jù)分析的流程大數(shù)據(jù)分析的工具了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解識(shí)別虛假流量的常見維度廣告流量檢測(cè)違規(guī)識(shí)別流程分析了解大數(shù)據(jù)的概念和特征。了解常見的廣告流量違規(guī)方式。了解廣告流量檢測(cè)違規(guī)識(shí)別項(xiàng)目的流程分析。能夠根據(jù)項(xiàng)目目標(biāo)進(jìn)行流程分析。能夠根據(jù)業(yè)務(wù)需求設(shè)計(jì)項(xiàng)目總體流程。22Spark大數(shù)據(jù)環(huán)境安裝搭建Hadoop的發(fā)展歷程Hadoop的特點(diǎn)Hadoop生態(tài)系統(tǒng)Hadoop的應(yīng)用場(chǎng)景Hive簡(jiǎn)介Hive的特點(diǎn)Hive的應(yīng)用場(chǎng)景Hive與關(guān)系數(shù)據(jù)庫的區(qū)別Spark簡(jiǎn)介Spark的發(fā)展歷程Spark的特點(diǎn)Spark生態(tài)系統(tǒng)Spark的應(yīng)用場(chǎng)景安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群了解Hadoop框架的歷程、特點(diǎn)、生態(tài)系統(tǒng)、應(yīng)用場(chǎng)景。了解Hive的特點(diǎn)、應(yīng)用場(chǎng)景以及Hive與關(guān)系數(shù)據(jù)庫的區(qū)別。了解Spark的發(fā)展歷程、特點(diǎn)、生態(tài)系統(tǒng)、應(yīng)用場(chǎng)景。熟悉Hadoop框架和Spark的架構(gòu)組成。能夠理解Hadoop、Hive、Spark組件的作用。能夠完成Hadoop集群、Hive和Spark集群的搭建與配置。23基于Hive實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)存儲(chǔ)了解Hive中的數(shù)據(jù)類型創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS創(chuàng)建數(shù)據(jù)表導(dǎo)入數(shù)據(jù)至Hive表了解Hive中的數(shù)據(jù)類型。掌握創(chuàng)建和管理數(shù)據(jù)庫的操作方法。掌握創(chuàng)建和修改表的操作方法。掌握Hive數(shù)據(jù)導(dǎo)入與導(dǎo)出的操作方法。能夠認(rèn)識(shí)Hive中的數(shù)據(jù)類型。能夠完成數(shù)據(jù)庫的創(chuàng)建與管理。能夠根據(jù)要求創(chuàng)建表并導(dǎo)入相應(yīng)的數(shù)據(jù)。44基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)探索分析SparkSQL簡(jiǎn)介配置SparkSQLCLISparkSQL與Shell交互通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrameprintSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對(duì)象簡(jiǎn)單查詢DataFrame數(shù)據(jù)探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征了解SparkSQL框架的功能及運(yùn)行過程。了解SparkSQL與Shell交互。掌握SparkSQL的可編程數(shù)據(jù)模型DataFrame的創(chuàng)建、查詢等操作方法。能夠配置SparkSQLCLI,提供SparkSQL與Shell交互環(huán)境。能夠通過不同數(shù)據(jù)源創(chuàng)建DataFrame。能夠?qū)崿F(xiàn)DataFrame數(shù)據(jù)及行列表的查詢操作。45基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)預(yù)處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)5種join()方法根據(jù)特定字段進(jìn)行表聯(lián)合操作指定類型進(jìn)行表聯(lián)合操作使用Column類型進(jìn)行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)自定義函數(shù)構(gòu)建關(guān)鍵特征保存DataFrame數(shù)據(jù)至Hive表中掌握DataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠?qū)崿F(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。66基于SparkMLlib實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別模型構(gòu)建與評(píng)估了解機(jī)器學(xué)習(xí)算法SparkMLlib簡(jiǎn)介數(shù)據(jù)類型基本統(tǒng)計(jì)管道特征提取特征處理回歸分類聚類關(guān)聯(lián)規(guī)則智能推薦掌握SparkMLlib的評(píng)估器與模型評(píng)估使用spark.ml.classification模塊構(gòu)建分類模型使用評(píng)估器實(shí)現(xiàn)模型評(píng)估了解SparkMLlib算法庫。熟悉SparkMLlib中的算法與算法包。掌握SparkMLlib的評(píng)估器與模型評(píng)估的使用方法。能夠掌握SparkMLlib特征提取的方法。能夠使用SparkMLlib回歸與分類相關(guān)算法包構(gòu)建模型。能夠使用SparkMLlib評(píng)估器對(duì)模型進(jìn)行評(píng)估。67基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別安裝JDK8設(shè)置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運(yùn)行環(huán)境運(yùn)行Spark程序開發(fā)環(huán)境下實(shí)現(xiàn)流量數(shù)據(jù)違規(guī)識(shí)別模型應(yīng)用掌握J(rèn)DK8安裝和環(huán)境配置。掌握IntelliJIDEA中創(chuàng)建Scala工程。掌握Spark運(yùn)行環(huán)境配置。能夠在本地環(huán)境下配置JDK環(huán)境,實(shí)現(xiàn)Java環(huán)境搭建。能夠在IntelliJIDEA中配置相關(guān)插件和開發(fā)依賴包,實(shí)現(xiàn)Scala工程創(chuàng)建。能夠在IntelliJIDEA中配置Spark運(yùn)行環(huán)境,實(shí)現(xiàn)Spark程序運(yùn)行。68基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別共享庫數(shù)據(jù)連接數(shù)據(jù)集我的工程個(gè)人組件快速構(gòu)建廣告流量檢測(cè)違規(guī)識(shí)別工程了解TipDM大數(shù)據(jù)挖掘建模平臺(tái)的相關(guān)概念和特點(diǎn)。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺(tái)完成廣告流量檢測(cè)違規(guī)識(shí)別項(xiàng)目總體流程的設(shè)配置。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺(tái)完成項(xiàng)目流程的實(shí)現(xiàn)。2學(xué)時(shí)合計(jì)32實(shí)驗(yàn)教學(xué)序號(hào)實(shí)驗(yàn)項(xiàng)目名稱實(shí)驗(yàn)要求學(xué)時(shí)1Spark大數(shù)據(jù)環(huán)境安裝搭建創(chuàng)建Linux虛擬機(jī)設(shè)置固定IP地址遠(yuǎn)程連接虛擬機(jī)配置本地yum源及安裝常用軟件在Linux系統(tǒng)下安裝Java修改配置文件克隆虛擬機(jī)配置SSH免密登錄配置時(shí)間同步服務(wù)添加地址映射啟動(dòng)關(guān)閉集群安裝MySQL下載和安裝Hive修改Hive配置文件設(shè)置環(huán)境變量初始化元數(shù)據(jù)庫與啟動(dòng)Hive解壓并配置Spark集群?jiǎn)?dòng)Spark集群查看Spark監(jiān)控服務(wù)42基于Hive實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)存儲(chǔ)創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS創(chuàng)建數(shù)據(jù)表導(dǎo)入數(shù)據(jù)至Hive表43基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)探索分析配置SparkSQLCLISparkSQL與Shell交互通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrame查看DataFrame數(shù)據(jù)printSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對(duì)象查詢數(shù)據(jù)記錄數(shù)查詢數(shù)據(jù)缺失值探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征44基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)預(yù)處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)根據(jù)特定字段進(jìn)行表聯(lián)合操作指定類型進(jìn)行表聯(lián)合操作使用Column類型進(jìn)行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)劃分時(shí)間區(qū)間構(gòu)建關(guān)鍵特征并保存至Hive表中保存DataFrame數(shù)據(jù)至Hive表中65基于SparkMLlib實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別模型構(gòu)建與評(píng)估基本統(tǒng)計(jì)管道特征提取特征處理回歸分類聚類關(guān)聯(lián)規(guī)則智能推薦數(shù)據(jù)歸一化構(gòu)建建模樣本使用邏輯回歸算法實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別使用隨機(jī)森林算法實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別使用評(píng)估器實(shí)現(xiàn)模型評(píng)估66基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別安裝JDK8設(shè)置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運(yùn)行環(huán)境運(yùn)行Spark程序集群連接參數(shù)設(shè)置封裝代碼運(yùn)行Spark程序67基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別數(shù)據(jù)源配置數(shù)據(jù)處理模型構(gòu)建與評(píng)估2學(xué)時(shí)合計(jì)32考核方式突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過程性考核。課程考核的成績(jī)構(gòu)成=平時(shí)作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、分組聚合、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論