




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
課程負(fù)責(zé)人:陳清華【數(shù)據(jù)挖掘應(yīng)用】課程觀影數(shù)據(jù)回歸分析票房線性回歸預(yù)測任務(wù)實(shí)施會(huì)熟練從CSV文件中讀取數(shù)據(jù);會(huì)使用sklearn對(duì)觀影數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;會(huì)使用sklearn實(shí)現(xiàn)一元線性回歸分析應(yīng)用;會(huì)對(duì)回歸模型進(jìn)行評(píng)估。能力目標(biāo)主要內(nèi)容任務(wù)工單引導(dǎo)問題任務(wù)評(píng)價(jià)標(biāo)準(zhǔn)任務(wù)解決方案代碼解析使用一元線性回歸對(duì)票房進(jìn)行預(yù)測film.txt教學(xué)難點(diǎn)任務(wù)工單使用一元線性回歸對(duì)兩項(xiàng)數(shù)據(jù)進(jìn)行簡要的相關(guān)性分析,探討是否可以通過放映天數(shù)來預(yù)測電影的票房。任務(wù)概述
任務(wù)描述:使用read_csv()從文件中讀取數(shù)據(jù)后,在數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和篩選的基礎(chǔ)上,準(zhǔn)備好放映天數(shù)及日均票房數(shù)據(jù)。將數(shù)據(jù)放入構(gòu)建一元線性回歸模型進(jìn)行訓(xùn)練,最后用來預(yù)測電影日均票房。010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)查閱相關(guān)資料,明確本任務(wù)數(shù)據(jù)讀取應(yīng)該選用什么樣的工具包?(2)獲取的數(shù)據(jù)后,應(yīng)該使用什么樣的數(shù)據(jù)類型存儲(chǔ)?每條記錄不同字段的數(shù)據(jù)類型分別是什么?(3)如何根據(jù)已有的字段獲取其他特征,比如從“上映時(shí)間”和“閉映時(shí)間”來獲得“放映天數(shù)”?(4)線性回歸模型初始化時(shí),哪些參數(shù)需要設(shè)置,默認(rèn)參數(shù)值分別是什么?(5)sklearn中如何訓(xùn)練得到相應(yīng)的模型參數(shù)值?(6)如何獲取訓(xùn)練好的模型中的參數(shù)?參數(shù)的取值有何物理意義?(7)如何評(píng)估訓(xùn)練所得的模型準(zhǔn)確性?”
問題引導(dǎo):任務(wù)概述
任務(wù)評(píng)價(jià):任務(wù)概述評(píng)價(jià)內(nèi)容評(píng)價(jià)要點(diǎn)分值分?jǐn)?shù)評(píng)定自我評(píng)價(jià)1.任務(wù)實(shí)施數(shù)據(jù)讀取與展現(xiàn)2分?jǐn)?shù)據(jù)正確顯示得2分
模型訓(xùn)練1分代碼正確且順利執(zhí)行得1分
模型展現(xiàn)3分可展現(xiàn)得1分,展現(xiàn)完整得1分,展現(xiàn)結(jié)果清晰得1分2.效果評(píng)估分析模型得準(zhǔn)確性,并得出評(píng)估結(jié)論3分能正確展現(xiàn)評(píng)估結(jié)果得1分,準(zhǔn)確率效果評(píng)估結(jié)果90%以上得2分
3.任務(wù)總結(jié)依據(jù)任務(wù)實(shí)施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點(diǎn)要點(diǎn)得1分
合計(jì)10分
第1行:導(dǎo)入pandas包,并給出別名pd。第2行:讀取film.txt中的數(shù)據(jù)importpandas
aspddf=pd.read_csv('film.txt',delimiter=';')df=df[['上映時(shí)間','閉映時(shí)間','票房/萬元']]第3行:篩選指定內(nèi)容列任務(wù)解決方案步驟一:數(shù)據(jù)讀取與整理。df=df.dropna()第4行:去除帶有空值得行任務(wù)解決方案第7行:計(jì)算電影放映天數(shù)df['放映天數(shù)']=(df['閉映時(shí)間']-df['上映時(shí)間']).dt.days+1第5、6行:將上映時(shí)間和閉映時(shí)間換為時(shí)間類型df['上映時(shí)間']=pd.to_datetime(df['上映時(shí)間’])df['閉映時(shí)間']=pd.to_datetime(df['閉映時(shí)間'])第8行:將票房數(shù)據(jù)轉(zhuǎn)換為浮點(diǎn)型df['票房/萬元']=df['票房/萬元'].astype(float)第9行:計(jì)算日均票房df['日均票房/萬元']=df['票房/萬元']/df['放映天數(shù)']步驟一:讀取與數(shù)據(jù)整理。任務(wù)解決方案df=df.reset_index(drop=True)df.head()數(shù)據(jù)顯示第10、11行:重置索引列,不添加新的列步驟一:讀取與數(shù)據(jù)整理。第12行:導(dǎo)入linear_model包。第13、14行:設(shè)置x和y的值。from
sklearn
import
linear_modelx=df[['放映天數(shù)']]y=df[['日均票房/萬元']]regr=linear_model.LinearRegression()任務(wù)解決方案第16行:擬合regr.fit(x,y)步驟二:使用一元線性回歸進(jìn)行分析第15行:初始化線性回歸模型任務(wù)解決方案import
matplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False第14、15、16行:導(dǎo)入繪圖包,重命名為plt;設(shè)置字體等參數(shù)。第17、18、19、20行:設(shè)置圖表標(biāo)題、軸標(biāo)簽。步驟三:可視化展現(xiàn)plt.title('放映天數(shù)與票房關(guān)系圖(一元線性回歸)')plt.xlabel('放映天數(shù)’)plt.ylabel('日均票房/萬元')plt.scatter(x,y,color='black')第21行:畫出預(yù)測點(diǎn),預(yù)測點(diǎn)顏色為紅色。plt.scatter(x,regr.predict(x),color='red',linewidth=1,marker='*’)plt.legend(['原始值','預(yù)測值'],loc=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國鉛鋅行業(yè)十三五投資分析及發(fā)展風(fēng)險(xiǎn)評(píng)估報(bào)告
- 2025-2030年中國針織面料市場運(yùn)營狀況與發(fā)展?jié)摿Ψ治鰣?bào)告
- 2025-2030年中國酵母核糖核酸市場運(yùn)行趨勢及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國速溶固體飲料市場發(fā)展趨勢及前景調(diào)研分析報(bào)告
- 2025-2030年中國豆腐市場運(yùn)行狀況及發(fā)展趨勢分析報(bào)告
- 2025-2030年中國血液透析機(jī)市場運(yùn)營現(xiàn)狀及發(fā)展前景規(guī)劃分析報(bào)告
- 2025-2030年中國脫咖啡因綠茶市場發(fā)展策略規(guī)劃分析報(bào)告
- 2025-2030年中國美白護(hù)膚市場運(yùn)行狀況及投資戰(zhàn)略研究報(bào)告
- 2025年上海市建筑安全員-A證考試題庫及答案
- 2025-2030年中國米酒市場運(yùn)行動(dòng)態(tài)及投資戰(zhàn)略研究報(bào)告
- 農(nóng)藥經(jīng)營管理知識(shí)培訓(xùn)專家講座
- 《自主創(chuàng)新對(duì)于鋼結(jié)構(gòu)發(fā)展的重要性》2400字
- 食品采購與進(jìn)貨臺(tái)賬
- GB/T 24353-2022風(fēng)險(xiǎn)管理指南
- GB/T 6284-2006化工產(chǎn)品中水分測定的通用方法干燥減量法
- GB/T 3003-2017耐火纖維及制品
- GB/T 22080-2016信息技術(shù)安全技術(shù)信息安全管理體系要求
- GB/T 13915-2013沖壓件角度公差
- 制藥工程導(dǎo)論課件
- 瑜伽師地論(完美排版全一百卷)
- 槳聲燈影里的秦淮河1-課件
評(píng)論
0/150
提交評(píng)論