《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》課程教學(xué)大綱_第1頁
《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》課程教學(xué)大綱_第2頁
《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》課程教學(xué)大綱_第3頁
《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》課程教學(xué)大綱_第4頁
《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》課程教學(xué)大綱_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)技術(shù)綜合實訓(xùn)2》教學(xué)大綱一、課程基本信息課程名稱大數(shù)據(jù)技術(shù)綜合實訓(xùn)ComprehensiveActualTrainingOfBigDataTechnology課程編碼SCC320811030開課院部理學(xué)院課程團隊數(shù)據(jù)科學(xué)團隊學(xué)分3.0課內(nèi)學(xué)時3周講授0實驗0上機0實踐3周課外學(xué)時0適用專業(yè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)授課語言中文先修課程Python語言與實訓(xùn)、大數(shù)據(jù)技術(shù)基礎(chǔ)實訓(xùn)課程簡介(必修)《大數(shù)據(jù)技術(shù)綜合實訓(xùn)》是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的一門必修課。通過本課程的實機操作,使學(xué)生掌握在本機與多臺機器集群執(zhí)行Spark應(yīng)用程序,并運用MLlib機器學(xué)習(xí)演算法進行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗證模型、預(yù)測結(jié)果。另外,以大數(shù)據(jù)實際案例示范使用SparkMLPipeline機器學(xué)習(xí)流程進行二元分類、多元分類、回歸分析,將機器學(xué)習(xí)的每一個步驟建立成Pipeline流程。通過對SparkMLlib機器學(xué)習(xí)算法和應(yīng)用案例的研究,進一步鍛煉學(xué)生的動手能力,培養(yǎng)學(xué)生處理大數(shù)據(jù)問題的能力。TheComprehensiveTrainingofBigDataTechnologyisacompulsorycourseforthemajorofDataScienceandBigDataTechnology.Throughthereal-timeoperationofthiscourse,studentscanmasterhowtoexecuteSparkapplicationprogramwithmultiplemachineclustersontheirown,anduseMLlibmachinelearningalgorithmtoprocessdata,train,buildmodels,trainvalidationmodelsandpredictresults.Inaddition,weuseSparkMLPipelinemachinelearningprocesstocarryoutbinaryclassification,multipleclassificationandregressionanalysiswithlargedataexamples,andbuildeverystepofmachinelearningintoPipelineprocess.ThroughthestudyofSparkMLlibmachinelearningalgorithmandapplicationcases,thestudents'practicalabilityisfurthertrainedandtheirabilitytodealwithbigdataproblemsistrained.負(fù)責(zé)人大綱執(zhí)筆人審核人二、課程目標(biāo)序號代號課程目標(biāo)OBE畢業(yè)要求指標(biāo)點任務(wù)自選1M1目標(biāo)1:掌握在本機與多臺機器集群執(zhí)行Spark應(yīng)用程序,系統(tǒng)掌握大數(shù)據(jù)技術(shù)的實驗方法,培養(yǎng)學(xué)生實踐實驗技能是3.22M2目標(biāo)2:運用SparkMLlib和SparkMLPipeline機器學(xué)習(xí)流程進行二元分類、多元分類、回歸分析,能夠量化分析問題,具備分析和建立大數(shù)據(jù)模型的能力是3.2,4.23M3目標(biāo)3:通過對SparkMLlib機器學(xué)習(xí)算法和應(yīng)用案例的研究,進一步鍛煉學(xué)生的團隊協(xié)作能力,培養(yǎng)創(chuàng)新精神,訓(xùn)練創(chuàng)新思維,培育創(chuàng)新創(chuàng)業(yè)實踐能力、科學(xué)研究能力和技術(shù)開發(fā)能力是7.2,8.1,8.24M4目標(biāo)4:能保障課程正常秩序(政治層面、課堂保障層面,非學(xué)生能力層面)否三、課程內(nèi)容序號章節(jié)號標(biāo)題課程內(nèi)容/重難點支撐課程目標(biāo)課內(nèi)學(xué)時教學(xué)方式課外學(xué)時課外環(huán)節(jié)1第1章第1章Spark的介紹與安裝本章重點難點:不同模式下運行spark程序////21.11.1Spark的介紹與安裝Spark的介紹與安裝M10.25天講授、討論//31.21.2運行spark程序與SparkWebUI界面本地運行spark程序、在HadoopYARN運行spark、構(gòu)建SparkStandaloneCluster運行環(huán)境、在SparkStandalone運行spark、SparkWebUI界面M10.25天講授、討論//4實驗1實驗1:Spark的生態(tài)環(huán)境與安裝實驗Spark的生態(tài)環(huán)境與安裝實驗M10.5天實驗、上機//5第2章第2章SparkRDD本章重點難點:RDD“轉(zhuǎn)換”運算、RDD“動作”運算、Broadcast廣播變量、accumulator累加器、RDDPersistence持久化////62.12.1“轉(zhuǎn)換”運算基本RDD“轉(zhuǎn)換”運算、多個RDD“轉(zhuǎn)換”運算、RDDKey-Value基本“轉(zhuǎn)換”運算、多個RDDKey-Value“轉(zhuǎn)換”運算M10.25天講授、討論//72.22.2“動作”運算基本“動作”運算、Key-Value“動作”運算M10.25天講授、討論//82.32.3RDD相關(guān)概念Broadcast廣播變量、accumulator累加器、RDDPersistence持久化M10.25天講授、討論//92.72.4使用Spark創(chuàng)建WordCount使用Spark創(chuàng)建WordCountM10.25天講授、討論//10實驗2實驗2:SparkRDD實驗SparkRDD實驗M11天實驗、上機//11第3章第3章Spark的集成開發(fā)環(huán)境本章重點難點:PyDev和SCALA編程、不同模式下運行Spark程序/////123.13.1PyDev項目PyDev設(shè)置SparkPython鏈接庫、PyDev設(shè)置環(huán)境變量、WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序、在SparkStandaloneCluster上運行M10.25天講授、討論//133.23.2SCALA編程SCALA實現(xiàn)WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序M10.25天講授、討論//14實驗3實驗3:Spark的集成開發(fā)環(huán)境實驗Spark的集成開發(fā)環(huán)境實驗M10.5天實驗、上機//15第4章第4章SparkMLlib決策樹分類本章重點難點:SparkMLlib運行決策樹二元分類、SparkMLlib決策樹多元分類////164.14.1SparkMLlib決策樹分類SparkMLlib決策樹分類M1,M20.25天講授、討論//174.24.2“StumbleUponEvergreen”大數(shù)據(jù)問題數(shù)據(jù)搜集、數(shù)據(jù)準(zhǔn)備、訓(xùn)練模型、模型預(yù)測、模型準(zhǔn)確率評估M1,M20.5天講授、討論//184.34.3“森林覆蓋植被”大數(shù)據(jù)問題數(shù)據(jù)搜集、數(shù)據(jù)準(zhǔn)備、訓(xùn)練模型、模型預(yù)測、模型準(zhǔn)確率評估M1,M20.5天講授、討論//19實驗4實驗4:PythonSparkMLlib決策樹分類實訓(xùn)PythonSparkMLlib決策樹分類實訓(xùn)M2,M33天實驗、上機//20第5章第5章SparkMLPipeline機器學(xué)習(xí)流程分類本章重點難點:采用SparkMLPipeline實現(xiàn)隨機森林RandomForestClassier分類////215.15.1機器學(xué)習(xí)pipeline流程的組件建立機器學(xué)習(xí)pipeline流程、使用pipeline進行數(shù)據(jù)處理與訓(xùn)練、使用pipelineModel進行預(yù)測、評估模型的準(zhǔn)確率M1,M20.25天講授、討論//225.25.2使用隨機森林RandomForestClassier分類器使用隨機森林RandomForestClassier分類器M1,M20.5天講授、討論//235.35.3大數(shù)據(jù)問題SparkMLPipeline實訓(xùn)對于大數(shù)據(jù)問題,可由教師和學(xué)生自行選擇M1,M20.5天講授、討論//24實驗5實驗5:SparkMLPipeline機器學(xué)習(xí)流程二元分類SCALA實現(xiàn)SparkMLPipeline機器學(xué)習(xí)流程二元分類M2,M33天實驗、上機//25第6章第6章SparkSQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計與可視化本章重點難點:DataFrame、RDD數(shù)據(jù)統(tǒng)計與可視化////266.16.1RDD、DataFrame、SparkSQL數(shù)據(jù)整理與統(tǒng)計RDD、DataFrame、SparkSQL數(shù)據(jù)、顯示字段與增加計算字段、篩選數(shù)據(jù)、字段數(shù)據(jù)排序、分組統(tǒng)計數(shù)據(jù)、Join聯(lián)接數(shù)據(jù)M10.25天講授、討論//276.26.2大數(shù)據(jù)問題數(shù)據(jù)統(tǒng)計與可視化實訓(xùn)對于大數(shù)據(jù)問題,可由教師和學(xué)生自行選擇M2,M30.25天講授、討論//28實驗6實驗6:數(shù)據(jù)統(tǒng)計與可視化實訓(xùn)數(shù)據(jù)統(tǒng)計與可視化實訓(xùn)M2,M32天實驗、上機//四、考核方式序號考核環(huán)節(jié)操作細(xì)節(jié)總評占比1實驗1.本課程3周實驗,共六次實驗。2.成績采用百分制,根據(jù)實驗完成情況評分。3.考核學(xué)生實機操作能力,使學(xué)生掌握在本機與多臺機器集群執(zhí)行Spark應(yīng)用程序,并運用MLlib機器學(xué)習(xí)演算法進行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗證模型、預(yù)測結(jié)果。60%2考勤隨機點名、刷卡點名等5%3課堂表現(xiàn)隨機檢查學(xué)生上課精神狀態(tài)、回答問題情況5%4大作業(yè)1.本課程要求利用Python語言工具建立研究對象的模型,兩到三人一組,以競賽組隊模式完成一道大數(shù)據(jù)競賽題目,并提交論文并答辯。2.根據(jù)模型建立情況、論文方案的準(zhǔn)確性和個人在大作業(yè)的貢獻率評分。30%五、評分細(xì)則序號課程目標(biāo)考核環(huán)節(jié)大致占比評分等級1M1實驗60%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪?yán)重抄襲現(xiàn)象。2M1大作業(yè)30%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。3M1課堂表現(xiàn)10%A-精神狀態(tài)飽滿,回答問題準(zhǔn)確。B-精神狀態(tài)良好,問題回答較好。C-精神狀態(tài)一般,問題回答一般。D-很少參加課堂討論,精神狀態(tài)較差,回答問題有誤。4M2實驗60%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪?yán)重抄襲現(xiàn)象。5M2大作業(yè)40%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。6M3實驗50%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪?yán)重抄襲現(xiàn)象。7M3大作業(yè)50%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。8M4考勤100%A-全勤。B-缺勤1次。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論