《Spark大數(shù)據(jù)處理》課程教學(xué)大綱_第1頁(yè)
《Spark大數(shù)據(jù)處理》課程教學(xué)大綱_第2頁(yè)
《Spark大數(shù)據(jù)處理》課程教學(xué)大綱_第3頁(yè)
《Spark大數(shù)據(jù)處理》課程教學(xué)大綱_第4頁(yè)
《Spark大數(shù)據(jù)處理》課程教學(xué)大綱_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Spark大數(shù)據(jù)處理課程教學(xué)大綱一、課程基本信息課程編號(hào):12154課程名稱:Spark大數(shù)據(jù)處理英文名稱:Spark Big Data Processing課程類型:專業(yè)課課程要求:必修學(xué)時(shí)/學(xué)分:48/3(講課學(xué)時(shí):34 實(shí)驗(yàn)學(xué)時(shí):14)先修課程:數(shù)據(jù)庫(kù)系統(tǒng)原理、分布式計(jì)算框架基礎(chǔ)、分布式計(jì)算框架組件技術(shù)后續(xù)課程:大數(shù)據(jù)項(xiàng)目綜合實(shí)踐適用專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)二、課程描述Spark是基于內(nèi)存計(jì)算的并行計(jì)算框架,適合于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)中的并行計(jì)算。學(xué)習(xí)Spark大數(shù)據(jù)處理技術(shù)是進(jìn)入大數(shù)據(jù)應(yīng)用開(kāi)發(fā)領(lǐng)域必不可少的一步。課程以任務(wù)為導(dǎo)向,旨在引導(dǎo)學(xué)生掌握Spark大數(shù)據(jù)技術(shù)的相關(guān)知識(shí),具備Sp

2、ark的開(kāi)發(fā)能力。課程內(nèi)容涉及Scala基礎(chǔ)、Spark編程、Spark SQL結(jié)構(gòu)化數(shù)據(jù)文件處理、Spark Streaming實(shí)時(shí)計(jì)算框架、Spark GraphX 圖計(jì)算框架,以及Spark MLlib算法庫(kù)。通過(guò)課程學(xué)習(xí),使學(xué)生能夠深刻理解Spark基本原理與架構(gòu),掌握集群安裝配置、Scala與Spark編程、Spark代表性組件的使用,能夠基于Spark解決大數(shù)據(jù)領(lǐng)域復(fù)雜工程問(wèn)題,能夠分析、設(shè)計(jì)、實(shí)現(xiàn)滿足特定需求的分布式系統(tǒng)。三、課程教學(xué)目標(biāo)1了解主流的大數(shù)據(jù)處理框架及其之間的差異;了解Spark生態(tài)環(huán)境;掌握Spark編程及核心組件;能夠根據(jù)實(shí)際應(yīng)用合理選擇大數(shù)據(jù)處理框架,具備解決

3、大數(shù)據(jù)領(lǐng)域復(fù)雜工程問(wèn)題的基本知識(shí)和能力。(支持畢業(yè)能力要求1)2能夠安裝和配置Spark集群環(huán)境;了解Spark SQL的基本原理,能夠進(jìn)行結(jié)構(gòu)化數(shù)據(jù)文件的處理;理解Spark Streaming的運(yùn)行原理,能夠基于Spark DStream模型進(jìn)行實(shí)時(shí)計(jì)算;利用Spark GraphX進(jìn)行圖計(jì)算;具備Spark的開(kāi)發(fā)能力,能夠分析、設(shè)計(jì)、實(shí)現(xiàn)滿足特定需求的大數(shù)據(jù)分布式處理系統(tǒng),增強(qiáng)學(xué)生的創(chuàng)新意識(shí)。(支持畢業(yè)能力要求3)四、教學(xué)內(nèi)容、安排及與教學(xué)目標(biāo)的對(duì)應(yīng)關(guān)系序號(hào)教學(xué)內(nèi)容教學(xué)要求學(xué)時(shí)教學(xué)方式對(duì)應(yīng)課程教學(xué)目標(biāo)1一、Spark概述1.1 Spark基本概念1.2 Spark發(fā)展和應(yīng)用1.3Spar

4、k環(huán)境配置方法Spark架構(gòu)及原理(1)了解Spark的發(fā)展歷史及特點(diǎn);(2)能夠搭建Spark分布式環(huán)境;(3)了解Spark的架構(gòu),能夠闡述Spark作業(yè)的運(yùn)行流程;(4)了解Spark的核心數(shù)據(jù)集RDD。4講授12 Scala基礎(chǔ)2.1 Scala簡(jiǎn)介2.2 Scala特性2.3 Scala的環(huán)境設(shè)置及安裝方法2.4 Scala類的定義和運(yùn)行方法2.5 Scala數(shù)據(jù)類型、函數(shù)、表達(dá)式的應(yīng)用2.6 Scala if判斷和for循環(huán)2.7Scala集合應(yīng)用(1)了解Scala基本特性并學(xué)會(huì)安裝Scala;(2)能夠正確定義Scala的常量、變量及函數(shù);(3)能夠正確使用Scala的if判斷

5、和for循環(huán);(4)能夠正確進(jìn)行Scala的Collections(集合)操作;(5)了解Scala類及讀取文件。6講授討論13實(shí)驗(yàn)1:Scala安裝與編程(1)能夠正確安裝Scala;(2)完成文本過(guò)濾和楊輝三角形程序設(shè)計(jì)。2實(shí)驗(yàn)14三、Spark編程3.1從內(nèi)存中已有數(shù)據(jù)創(chuàng)建RDD3.2從外部存儲(chǔ)創(chuàng)建RDD3.3 RDD轉(zhuǎn)化操作和行動(dòng)操作方法3.4 RDD鍵值對(duì)操作3.5文件讀取與存儲(chǔ)(1)能夠創(chuàng)建RDD;(2)能夠進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作;(3)掌握鍵值對(duì)RDD的操作;(4)能夠正確進(jìn)行文本文件的讀取和存儲(chǔ)。4講授討論15實(shí)驗(yàn)2:Spark編程初步(1)學(xué)會(huì)創(chuàng)建RDD;(2)掌握S

6、park的操作方法以及Spark Shell命令行的使用;(3)完成學(xué)生成績(jī)統(tǒng)計(jì)和單詞計(jì)數(shù)程序設(shè)計(jì)。2實(shí)驗(yàn)16四、Spark編程進(jìn)階4.1下載與安裝IntelliJ IDEA4.2 Scala插件安裝與使用4.3配置Spark運(yùn)行環(huán)境的方法4.4運(yùn)行Spark程序的方法4.5持久化方法數(shù)據(jù)分區(qū)方法(1)能夠在IDEA中配置Spark編程環(huán)境;(2)掌握如何新建工程和運(yùn)行工程;(3)掌握運(yùn)行Spark程序的方法;(4)了解數(shù)據(jù)分區(qū)與持久化的方法。4講授討論練習(xí)17實(shí)驗(yàn)3:復(fù)雜Spark編程(1) 能夠在IntelliJ IDEA中搭建Spark開(kāi)發(fā)環(huán)境,以及編程和運(yùn)行程序;(2)完成競(jìng)賽網(wǎng)站訪問(wèn)

7、日志分析。4實(shí)驗(yàn)18五、Spark SQL:結(jié)構(gòu)化數(shù)據(jù)文件處理5.1 Spark SQL簡(jiǎn)介5.2 Spark SQL CLI配置5.3 Spark SQL與Shell交互5.4 DataFrame基礎(chǔ)操作方法(1)了解Spark SQL的基本概念;(2)能夠配置Spark SQL CLI;(3)掌握Spark SQL與Shell交互;(4)能夠創(chuàng)建DataFrame對(duì)象;(5)能夠利用DataFrame查看數(shù)據(jù);(6)能夠利用DataFrame查詢數(shù)據(jù)并輸出。4講授討論1、29實(shí)驗(yàn)4:Spark SQL 編程(1)能夠配置 Spark SQL CLI;(2)完成法律服務(wù)網(wǎng)站數(shù)據(jù)和航空公司客戶

8、數(shù)據(jù)的統(tǒng)計(jì)分析程序設(shè)計(jì)。2實(shí)驗(yàn)1、210六、Spark Streaming:實(shí)時(shí)計(jì)算框架6.1 Spark Streaming運(yùn)行原理6.2 Spark Streaming使用方法6.3 DStream編程模型基本方法(1)了解Spark Streaming的基本概念及運(yùn)行原理;(2)掌握Spark Streaming使用方法;(3)能夠進(jìn)行Dstream的轉(zhuǎn)換操作、窗口操作、輸出操作。4講授討論應(yīng)用1、211實(shí)驗(yàn)5:Spark DStream編程(1)進(jìn)一步理解 Spark DStream編程模型;(2)完善實(shí)時(shí)更新熱門(mén)博文案例;(3)完成實(shí)時(shí)過(guò)濾歌曲播放次數(shù)程序設(shè)計(jì)。2實(shí)驗(yàn)1、212七、S

9、park GraphX:圖計(jì)算框架7.1圖的基本概念7.2圖計(jì)算的應(yīng)用7.3GraphX的基礎(chǔ)概念7.4圖的創(chuàng)建與存儲(chǔ)7.5數(shù)據(jù)查詢與數(shù)據(jù)轉(zhuǎn)換7.6結(jié)構(gòu)轉(zhuǎn)換與關(guān)聯(lián)聚合(1)了解圖與圖計(jì)算的基本概念;(2)能夠進(jìn)行GraphX圖的創(chuàng)建;(3)能夠進(jìn)行GraphX的基本操作;(4)能夠利用GraphX進(jìn)行關(guān)聯(lián)聚合操作。4講授討論應(yīng)用1、213實(shí)驗(yàn)6:Spark GraphX操作與應(yīng)用(1)掌握Spark GraphX的基本操作命令; (2)完善構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶案例。2實(shí)驗(yàn)1、214八、Spark MLlib:功能強(qiáng)大的算法庫(kù)8.1機(jī)器學(xué)習(xí)8.2 MLlib簡(jiǎn)介和應(yīng)用(1)了解MLlib的

10、概念以及算法;(2)能夠進(jìn)行MLlib算法的基本調(diào)用;(3)能夠利用MLlib實(shí)現(xiàn)邏輯回歸算法;(4)了解MLlib模型評(píng)價(jià)方法。4講授1、2五、其他教學(xué)環(huán)節(jié)(課外教學(xué)環(huán)節(jié)、要求、目標(biāo))六、教學(xué)方法本課程采用理論與實(shí)踐相結(jié)合的教學(xué)方法。在理論上,通過(guò)典型案例引入概念、原理和方法。在實(shí)踐上,由教師講解案例背景,提供簡(jiǎn)單思路。引導(dǎo)學(xué)生對(duì)案例進(jìn)行針對(duì)性的分析,審理和討論,擴(kuò)展學(xué)生的思維,增加學(xué)生的興趣。通過(guò)學(xué)生的討論、自主實(shí)踐和練習(xí),提高學(xué)生的判斷能力,專業(yè)能力和綜合素質(zhì)。要求學(xué)生自主搭建Spark集群、完成章節(jié)任務(wù)、掌握基本理論和提升專業(yè)能力。在每章的任務(wù)教學(xué)中,可適當(dāng)布置練習(xí)、組織討論、引導(dǎo)提出

11、擴(kuò)展的解決方案,充分調(diào)動(dòng)學(xué)生的主觀能動(dòng)性,錘煉學(xué)生的專業(yè)精神并提升動(dòng)手能力,以達(dá)到本課程的培養(yǎng)目的。七、學(xué)習(xí)評(píng)量學(xué)習(xí)成績(jī)由平時(shí)成績(jī)(含作業(yè)成績(jī)、實(shí)驗(yàn)成績(jī))和期末考試成績(jī)組成。各部分所占比例和評(píng)價(jià)內(nèi)容、方法如下:1. 平時(shí)成績(jī)(40%)(1)作業(yè)成績(jī):20%。主要考核對(duì)課堂學(xué)習(xí)的知識(shí)點(diǎn)的復(fù)習(xí)、理解和掌握程度;以答題數(shù)量和正確率為評(píng)價(jià)標(biāo)準(zhǔn)。(2)實(shí)驗(yàn)成績(jī):20%。主要考核學(xué)生的課內(nèi)實(shí)踐項(xiàng)目的完成情況。共4次實(shí)驗(yàn),提交實(shí)驗(yàn)報(bào)告并計(jì)分,每次實(shí)驗(yàn)報(bào)告5分。2. 期末考試成績(jī)(60%)主要考核Spark大數(shù)據(jù)處理的基本原理和應(yīng)用。書(shū)面考試形式,題型包括:選擇題、填空題、簡(jiǎn)答題、設(shè)計(jì)題、綜合題等,按正確性評(píng)分。3. 說(shuō)明(1)作業(yè)、實(shí)驗(yàn)報(bào)告有雷同時(shí),所有雷同回答均不得分。(2)可利用指定“八、教學(xué)資源”中指定的MOOC的合格證書(shū)+評(píng)價(jià)作為課程學(xué)習(xí)成績(jī),參加其他MOOC并計(jì)劃代替學(xué)習(xí)成績(jī)者須在課前向任課教師提出申請(qǐng),由課程組教師討論決定。八、教學(xué)資源1教材1 肖芳,張良均Spark大數(shù)據(jù)技術(shù)與應(yīng)用人民郵電出版社20182參考書(shū)目1 夏俊鸞.Spark大數(shù)據(jù)處理技術(shù)電子工業(yè)出版社,20152 高

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論