PySpark大數(shù)據(jù)分析與應(yīng)用-教學(xué)大綱、授課計(jì)劃_第1頁
PySpark大數(shù)據(jù)分析與應(yīng)用-教學(xué)大綱、授課計(jì)劃_第2頁
PySpark大數(shù)據(jù)分析與應(yīng)用-教學(xué)大綱、授課計(jì)劃_第3頁
PySpark大數(shù)據(jù)分析與應(yīng)用-教學(xué)大綱、授課計(jì)劃_第4頁
PySpark大數(shù)據(jù)分析與應(yīng)用-教學(xué)大綱、授課計(jì)劃_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《PySpark大數(shù)據(jù)分析與應(yīng)用》教學(xué)大綱課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分課程的性質(zhì)隨著移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)以及社交媒體的快速發(fā)展,大數(shù)據(jù)時(shí)代悄然來臨,讓信息技術(shù)的發(fā)展發(fā)生了巨大的變化,對(duì)經(jīng)濟(jì)發(fā)展、社會(huì)生活和國家治理產(chǎn)生著根本性、全局性、革命性的影響。世界各國都高度重視大數(shù)據(jù)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國家戰(zhàn)略加以重點(diǎn)推進(jìn)。企業(yè)也紛紛加大技術(shù),資金和人員投入力度,運(yùn)用大數(shù)據(jù)技術(shù)促進(jìn)企業(yè)發(fā)展,指導(dǎo)企業(yè)經(jīng)營,推動(dòng)企業(yè)智能化發(fā)展。為了滿足企業(yè)和政府對(duì)大數(shù)據(jù)人才的需求不斷增加,培養(yǎng)具有良好科學(xué)素養(yǎng),具備大數(shù)據(jù)計(jì)算、分析及應(yīng)用開發(fā)能力的創(chuàng)新人才,特開設(shè)PySpark大數(shù)據(jù)分析與應(yīng)用課程。課程的任務(wù)通過本課程的學(xué)習(xí),使學(xué)生學(xué)會(huì)搭建Spark分布式的計(jì)算框架,掌握PySpark的DataFrame結(jié)構(gòu),流式數(shù)據(jù)處理方法和機(jī)器學(xué)習(xí)庫,通過兩個(gè)企業(yè)級(jí)大數(shù)據(jù)分析案例,詳細(xì)介紹大數(shù)據(jù)分析過程中的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化等技術(shù)在實(shí)際項(xiàng)目中的應(yīng)用,將理論與實(shí)踐相結(jié)合,為將來從事大數(shù)據(jù)分析和挖掘,大數(shù)據(jù)應(yīng)用系統(tǒng)軟件開發(fā)奠定基礎(chǔ)。課程學(xué)時(shí)分配序號(hào)教學(xué)內(nèi)容理論學(xué)時(shí)實(shí)驗(yàn)學(xué)時(shí)其它1第1章PySpark大數(shù)據(jù)分析概述602第2章PySpark安裝配置443第3章基于PySpark的DataFrame操作644第4章基于PySpark的流式數(shù)據(jù)處理665第5章基于PySpark的機(jī)器學(xué)習(xí)庫666第6章案例分析:基于PySpark的招聘網(wǎng)站信息的職業(yè)類型劃分267第7章案例分析:基于PySpark的信用貸款風(fēng)險(xiǎn)分析26總計(jì)3232教學(xué)內(nèi)容及學(xué)時(shí)安排理論教學(xué)序號(hào)章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時(shí)1PySpark大數(shù)據(jù)分析概述了解大數(shù)據(jù)概念了解大數(shù)據(jù)分析流程了解大數(shù)據(jù)分析常用框架了解Spark大數(shù)據(jù)技術(shù)框架了解PySpark大數(shù)據(jù)分析的優(yōu)勢(shì)掌握大數(shù)據(jù)分析的概念、流程與應(yīng)用場(chǎng)景了解Spark計(jì)算框架了解PySpark應(yīng)用場(chǎng)景熟悉SparkRDD的概念與常見算子。了解PySpark的由來、優(yōu)勢(shì)及主要模塊。62PySpark安裝配置在Windows系統(tǒng)中安裝Anaconda在Anaconda中安裝Jupyter在Windows系統(tǒng)中安裝Hadoop在Windows系統(tǒng)中安裝MySQL在Windows系統(tǒng)中Hive為Jupyter配置PySpark模塊安裝Linux虛擬機(jī)在Linux系統(tǒng)中安裝Hadoop在Linux系統(tǒng)中安裝MySQL在Linux系統(tǒng)中安裝Hive在Linux系統(tǒng)中安裝Spark配置PySpark模塊掌握Python中的重要數(shù)據(jù)結(jié)構(gòu)掌握Python中的函數(shù)式編程掌握搭建單機(jī)模式PySpark開發(fā)環(huán)境的方法掌握搭建分布式模式PySpark開發(fā)環(huán)境的方法掌握Python函數(shù)式編程43基于PySpark的DataFrame操作SparkSQL起源與發(fā)展歷程SparkSQL主要功能SparkSQL數(shù)據(jù)核心抽象DataFramepyspark.sql模塊簡介pyspark.sql模塊核心類創(chuàng)建DataFrame對(duì)象DataFrame操作DataFrame輸出操作了解SparkSQL的發(fā)展歷程和主要功能。了解DataFrame概念。了解pyspark.sql模塊及其核心類。掌握基于PySparkSQL的DataFrame的創(chuàng)建方法。掌握基于PySparkSQL的DataFrame的基礎(chǔ)操作。64基于PySpark的流式數(shù)據(jù)處理流計(jì)算簡介SparkStreaming基本概念SparkStreaming工作原理SparkStreaming運(yùn)行機(jī)制pyspark.streaming模塊簡介pyspark.streaming模塊核心類DStream基礎(chǔ)操作StructuredStreaming概述StructuredStreaming編程模型StructuredStreaming基礎(chǔ)操作StructuredStreaming編程步驟了解SparkStreaming的基本概念、工作原理和運(yùn)行機(jī)制。了解pyspark.streaming模塊主要類及核心類。掌握基于PySpark的DStream創(chuàng)建、轉(zhuǎn)換、窗口和輸出操作。了解StructuredStreaming基本概念及編程模型。掌握StructuredStreaming基礎(chǔ)操作。熟悉StructuredStreaming編程步驟。65基于PySpark的機(jī)器學(xué)習(xí)庫了解PySpark機(jī)器學(xué)習(xí)庫了解機(jī)器學(xué)習(xí)庫中的轉(zhuǎn)換器使用PySpark構(gòu)建分類模型使用PySpark構(gòu)建回歸模型使用PySpark構(gòu)建聚類模型使用PySpark構(gòu)建智能推薦模型了解PySpark機(jī)器學(xué)習(xí)庫及主要功能模塊掌握分類模型的構(gòu)建與評(píng)估掌握回歸模型的構(gòu)建與評(píng)估掌握聚類模型的構(gòu)建與評(píng)估掌握智能推薦模型的構(gòu)建與評(píng)估66案例分析:基于PySpark的招聘網(wǎng)站信息的職業(yè)類型劃分需求與架構(gòu)分析招聘信息數(shù)據(jù)說明招聘信息數(shù)據(jù)讀取重復(fù)數(shù)據(jù)與空值探索異常數(shù)據(jù)探索招聘信息數(shù)據(jù)清洗中文分詞與去停用詞詞特征向量化LDA算法簡介LDA模型構(gòu)建與評(píng)估構(gòu)建LDA模型制作詞云圖了解網(wǎng)絡(luò)招聘信息文本挖掘的步驟與流程。掌握數(shù)據(jù)探索、預(yù)處理的基本方法。熟悉TF-IDF的基本原理及其在SparkMLlib庫中的實(shí)現(xiàn)過程。了解LDA聚類算法,并掌握SparkMLlib庫的LDA聚類算法的使用方法。掌握LDA聚類模型的構(gòu)建與部署方法。27案例分析:基于PySpark的信用貸款風(fēng)險(xiǎn)分析需求與架構(gòu)分析信用貸款數(shù)據(jù)說明建立數(shù)據(jù)倉庫并導(dǎo)入信用貸款數(shù)據(jù)用戶信息完善情況與逾期率的關(guān)系探索用戶信息修改情況與逾期率的關(guān)系探索用戶借款月份與逾期率的關(guān)系探索計(jì)算用戶信息缺失個(gè)數(shù)及借款月份構(gòu)建新特征用戶更新消息重建用戶登錄消息重建分類數(shù)據(jù)預(yù)處理字符串字段編碼處理分類數(shù)據(jù)重編碼缺失值處理了解GBTs算法構(gòu)建GBTs模型評(píng)估GBTs模型部署和提交PySpark應(yīng)用程序理解信用貸款風(fēng)險(xiǎn)分析的步驟和流程了解GBTs分類算法掌握數(shù)據(jù)探索方法掌握數(shù)據(jù)可視化方法掌握數(shù)據(jù)預(yù)處理方法掌握PySpark編程實(shí)現(xiàn)分類模型掌握分類模型的評(píng)估2學(xué)時(shí)合計(jì)3232實(shí)驗(yàn)教學(xué)序號(hào)實(shí)驗(yàn)項(xiàng)目名稱實(shí)驗(yàn)要求學(xué)時(shí)1搭建單機(jī)模式的PySpark開發(fā)環(huán)境在Windows系統(tǒng)中安裝Anaconda在Windows系統(tǒng)中安裝Hadoop在Windows系統(tǒng)中安裝MySQL在Windows系統(tǒng)中安裝Hive在Jupyter中配置PySpark模塊Python函數(shù)式編程操作22搭建分布式模式的PySpark開發(fā)環(huán)境安裝Linux虛擬機(jī)在Linux系統(tǒng)中安裝Hadoop在Linux系統(tǒng)中安裝MySQL在Linux系統(tǒng)中安裝Hive在Linux系統(tǒng)中安裝Spark在Jupyter中配置PySpark模塊23PySpark的DataFrame操作pyspark.sql模塊核心類使用PySpark創(chuàng)建DataFrame對(duì)象DataFrame操作DataFrame輸出操作44PySpark流式數(shù)據(jù)處理DStream基礎(chǔ)操作StructuredStreaming編程模型StructuredStreaming基礎(chǔ)操作StructuredStreaming編程步驟65基于PySpark的機(jī)器學(xué)習(xí)庫使用PySpark構(gòu)建并評(píng)估分類模型使用PySpark構(gòu)建并評(píng)估回歸模型使用PySpark構(gòu)建并評(píng)估聚類模型使用PySpark構(gòu)建并評(píng)估智能推薦模型66基于PySpark的招聘網(wǎng)站信息的職業(yè)類型劃分?jǐn)?shù)據(jù)探索數(shù)據(jù)預(yù)處理構(gòu)建LDA模型評(píng)價(jià)LDA模型制作詞云圖67基于PySpark的信用貸款風(fēng)險(xiǎn)分析數(shù)據(jù)探索數(shù)據(jù)預(yù)處理構(gòu)建GBTs分類模型評(píng)價(jià)GBTs分類模型部署和提交PySpark應(yīng)用程序6學(xué)時(shí)合計(jì)32考核方式突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過程性考核。課程考核的成績構(gòu)成=平時(shí)作業(yè)(20%)+課堂參與(20%)+期末考核(60%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題型可采用判斷題、選擇、簡答、應(yīng)用題,設(shè)計(jì)題等方式。教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.學(xué)院課程教學(xué)進(jìn)度計(jì)劃表(20~20學(xué)年第學(xué)期) 課程名稱PySpark大數(shù)據(jù)分析與應(yīng)用 授課學(xué)時(shí)64 參與教學(xué)教師 授課班級(jí)/人數(shù) 專業(yè)(教研室) 填表時(shí)間教務(wù)處編印年月課程教學(xué)目的通過本課程的學(xué)習(xí),使學(xué)生學(xué)會(huì)搭建Spark分布式的計(jì)算框架,掌握PySpark的DataFrame結(jié)構(gòu),流式數(shù)據(jù)處理方法和機(jī)器學(xué)習(xí)庫,通過兩個(gè)企業(yè)級(jí)大數(shù)據(jù)分析案例,詳細(xì)介紹大數(shù)據(jù)分析過程中的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化等技術(shù)在實(shí)際項(xiàng)目中的應(yīng)用,將理論與實(shí)踐相結(jié)合,為將來從事大數(shù)據(jù)分析和挖掘,大數(shù)據(jù)應(yīng)用系統(tǒng)軟件開發(fā)奠定基礎(chǔ)。教學(xué)方法及手段本課程采用理論與實(shí)踐相結(jié)合的教學(xué)方法。課程理論部分采用講授法,通過敘述、描繪、解釋、推論來傳遞信息、傳授知識(shí)、闡明概念、論證定律和公式,引導(dǎo)學(xué)生分析和認(rèn)識(shí)問題。課程實(shí)踐部分采用演示法,在課堂上通過數(shù)據(jù)分析演示平臺(tái)進(jìn)行示范性實(shí)驗(yàn),讓學(xué)生通過觀察掌握操作技能。最后結(jié)合兩個(gè)企業(yè)級(jí)案例,以項(xiàng)目實(shí)戰(zhàn)形式引導(dǎo)學(xué)生將所學(xué)知識(shí)與企業(yè)需求相結(jié)合,將知識(shí)活學(xué)活用。要求學(xué)生自己動(dòng)手分析實(shí)例,學(xué)習(xí)基本理論和方法,結(jié)合已有的知識(shí)。課堂中組織學(xué)生對(duì)案例進(jìn)行討論,充分調(diào)動(dòng)學(xué)生的主觀能動(dòng)性,以達(dá)到本課程的教學(xué)目的。課程考核方法突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過程性考核。課程考核的成績構(gòu)成=平時(shí)作業(yè)(20%)+課堂參與(20%)+期末考核(60%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題型可采用判斷題、選擇、簡答、應(yīng)用題等方式。

《Python數(shù)據(jù)分析與應(yīng)用》教學(xué)日歷周次學(xué)時(shí)授課內(nèi)容作業(yè)要求備注14第1章PySpark大數(shù)據(jù)分析概述(1)22第1章PySpark大數(shù)據(jù)分析概述(2)第1章課后習(xí)題22第2章PySpark安裝配置(1)34第2章PySpark安裝配置(2)第2章選擇題42第2章PySpark安裝配置(3)第2章操作題42第3章基于PySpark的DataFrame操作(1)第3章課后習(xí)題54第3章基于PySpark的DataFrame操作(2)第3章實(shí)訓(xùn)164第3章基于PySpark的DataFrame操作(3)第3章實(shí)訓(xùn)274第4章基于PySpark的流式數(shù)據(jù)處理(1)第4章課后習(xí)題84第4章基于PySpark的流式數(shù)據(jù)處理(2)第4章實(shí)訓(xùn)194第4章基于PySpark的流式數(shù)據(jù)處理(3)第4章實(shí)訓(xùn)2104第5章基于PySpark的機(jī)器學(xué)習(xí)庫(1)第5章課后習(xí)題1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論