版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
課程負責人:陳清華【數(shù)據(jù)挖掘應用】課程觀影數(shù)據(jù)回歸分析歸一化處理任務實施掌握數(shù)據(jù)歸一化處理的方法了解要進行數(shù)據(jù)歸一化處理的情況會使用sklearn對數(shù)據(jù)進行歸一化處理能力目標對票房等數(shù)據(jù)進行歸一化處理主要內(nèi)容任務工單引導問題任務評價標準任務解決方案代碼解析任務工單教學難點使用sklearn中的數(shù)據(jù)預處理模塊對放映天數(shù)、日均票房做歸一化處理。在數(shù)據(jù)標準化的基礎上,重新訓練一元線性回歸模型,并對電影日均票房進行預測。任務概述
任務描述:010010011001101010100100110110100101110101000100001011011101001010101101010011010010film.txt(1)為什么需要對數(shù)據(jù)進行歸一化處理?(2)什么情況下要對數(shù)據(jù)進行歸一化處理?(3)歸一化處理方法有哪些?sklearn已經(jīng)封裝哪幾種?(4)寫出歸一化后的一元線性回歸方程,比較與前一任務的結果有何不同?”
問題引導:任務概述
任務評價:任務概述評價內(nèi)容評價要點分值分數(shù)評定自我評價1.任務實施數(shù)據(jù)歸一化處理2分數(shù)據(jù)正確處理得2分,每1項得1分
模型再訓練1分代碼正確且順利執(zhí)行得1分
模型可視化1分展現(xiàn)結果清晰得1分2.效果評估對比不同模型得指標,并得出評估報告4分能正確展現(xiàn)評估結果得1分,模型指標有提升得3分
3.任務總結依據(jù)任務實施情況總結結論2分總結內(nèi)容切中本任務的重點要點得2分
合計10分
第1行:導入minmax_scale第2行:歸一化fromsklearn.preprocessingimportminmax_scaledf['日均票房/萬元']=minmax_scale(df['日均票房/萬元'])df['放映天數(shù)']=minmax_scale(df['放映天數(shù)'])df.head()第3行:顯示數(shù)據(jù)任務解決方案步驟一:歸一化處理。步驟二:查看日均票房與放映天數(shù)范圍(最后兩列)縮放后的數(shù)據(jù)步驟三:范圍縮放后的一元線性回歸分析結果任務解決方案為什么要歸一化評判依據(jù):身體指數(shù)=3*身高+2*體重0.310例如:
身高
體重1.51.6110115結論:體重變化的影響
>>身高變化的影響身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以身體指數(shù)評判為例為什么要歸一化評判依據(jù):身體指數(shù)=3*身高+2*體重體重110身高1.51.6體重110115身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以某身體指數(shù)評判為例為什么要歸一化身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以某身體指數(shù)評判為例評判依據(jù):身體指數(shù)=3*身高+2*體重原因:兩個特征值的單位不同解決辦法:歸一化,讓特征值處在同一個數(shù)量級上歸一化的作用
在機器學習領域中,不同評價指標(即特征向量中的不同特征就是所述的不同評價指標)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)歸一化處理,以解決數(shù)據(jù)指標之間的可比性問題。
歸一化是將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為標量。
如果不對數(shù)據(jù)進行歸一化處理,則會導致梯度下降,復雜度增加或損失函數(shù)(lossfunction)只能選擇線性,從而導致模型效果不佳。歸一化:Normalization歸一化的方法:
1)最大最小標準化(Min-MaxNormalization)2)Z-score標準化方法3)非線性歸一化歸一化:歸一化的好處:1)歸一化后加快了梯度下降求最優(yōu)解的速度;2)歸一化有可能提高精度(如KNN)。注:沒有一種數(shù)據(jù)標準化的方法放在每一個問題、每一個模型,都能提高算法精度和加速收斂。歸一化是將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為標量。sklearn中的歸一化處理sklearn中的preprocessing用于數(shù)據(jù)預處理minmax_scale()函數(shù)通過將每個特征縮放到給定范圍來轉換特征,官方定義如下:minmax_scale(X,feature_range=(0,1),*,axis=0,copy=True)參數(shù):X:形狀類似數(shù)組(n_samples,n_features),指定要變換的數(shù)據(jù)feature_range:元組(最小值,最大值),默認=(0,1),指定所需的轉換數(shù)據(jù)范圍axis:整數(shù),默認=0。指定用于縮放的軸。如果為0,則獨立縮放每個特征,否則(如果為1)縮放每個樣本copy:布爾,默認=真。設置為False以執(zhí)行就地縮放并避免復制(如果輸入已經(jīng)是一個numpy數(shù)組)返回:X_tr:ndarray形狀(n_samples,n_features),為轉換后的數(shù)據(jù)minmax_scale()規(guī)模化特征到一定的范圍內(nèi),使得特征的分布在一個給定最小值和最大值的范圍內(nèi)。一般情況下是在[0,1]之間,或者是特征中絕對值最大的那個數(shù)為1,其他數(shù)以此標準分布在[-1,1]之間。minmax_scale()給定了一個明確的最大值與最小值。示例:df['放映天數(shù)']=minmax_scale(df['放映天數(shù)'])minmax_scale()使用方法
給定的票房數(shù)據(jù)中不同特征的數(shù)值范圍變化大,如放映天數(shù)和票房。因此,將特征縮放到合理的范圍是非常重要的。范圍縮放
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧鄉(xiāng)大橋施工課程設計
- 2023-2024學年黑龍江省綏化市望奎縣第二中學招生伯樂馬模擬考試(三)數(shù)學試題
- 數(shù)值分析課程設計大作業(yè)
- nfa轉dfa課課程設計
- 發(fā)配電課程設計樣本
- 數(shù)據(jù)庫課程設計新能源
- 鋼筋合同模板中文
- 線上教育勞務合同模板
- 承包計件合同模板
- 華理機械設計課程設計
- 2024年大學生信息素養(yǎng)大賽(省賽)練習考試題庫(含答案)
- GB/T 24067-2024溫室氣體產(chǎn)品碳足跡量化要求和指南
- GB 44495-2024汽車整車信息安全技術要求
- DL∕T 618-2022 氣體絕緣金屬封閉開關設備現(xiàn)場交接試驗規(guī)程
- 2024年《軍事理論》考試題庫附答案(含各題型)
- 新修訂公司法專題講座課件
- 普通高中地理課程標準(2023年版)
- JGJT178-2009 補償收縮混凝土應用技術規(guī)程
- 動作經(jīng)濟原則手邊化POU改善
- 觀察人的口腔上皮細胞生物教學設計(教案)
- 二年級數(shù)學《認識時間》優(yōu)秀課件
評論
0/150
提交評論