機器學(xué)習(xí)實踐教程 課件 第10章 房價預(yù)測_第1頁
機器學(xué)習(xí)實踐教程 課件 第10章 房價預(yù)測_第2頁
機器學(xué)習(xí)實踐教程 課件 第10章 房價預(yù)測_第3頁
機器學(xué)習(xí)實踐教程 課件 第10章 房價預(yù)測_第4頁
機器學(xué)習(xí)實踐教程 課件 第10章 房價預(yù)測_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第10章房價預(yù)測主要內(nèi)容探索數(shù)據(jù)數(shù)據(jù)可視化與相關(guān)性空值的處理文本屬性與流式處理模型選擇探索數(shù)據(jù)加載數(shù)據(jù)查看空值屬性的直方圖對收的中位數(shù)分組分組統(tǒng)計分層抽樣加載數(shù)據(jù)longitude——經(jīng)度。latitude——緯度。housing_median_age——房屋年齡的中位數(shù)。total_rooms——總房間數(shù)。total_bedrooms——總臥室數(shù)量。population——總?cè)藬?shù)。households——家庭數(shù)量。median_income——收入中位數(shù)。median_house_value——房價中位數(shù)。ocean_proximity——房屋與大海的距離。查看空值通過info方法屬性的直方圖housing.hist(bins=50,figsize=(18,15))房價中位數(shù)是我們要預(yù)測的目標(biāo)值。對收入中位數(shù)進行分組0-1.51.5-33-4.54.5-66-inf分組統(tǒng)計value_counts方法展示數(shù)據(jù)hist方法展示直方圖分層抽樣構(gòu)造StratifiedShuffleSplit對象n_splits=1表示只分1次test_size=0.2表示20%的數(shù)據(jù)條目作為測試集驗證分層抽樣的有效性數(shù)據(jù)可視化與相關(guān)性根據(jù)地理位置展示數(shù)據(jù)相關(guān)關(guān)系相關(guān)系數(shù)3個新屬性根據(jù)地理位置展示數(shù)據(jù)帶顏色和大小的地理位置散點圖解讀散點圖對角線圖形無意義房價中位數(shù)與房屋年齡:無明顯相關(guān)性房價中位數(shù)與收入中位數(shù):明顯相關(guān)性家庭數(shù)量與臥室總數(shù):幾乎為直線的散點圖相關(guān)系數(shù)使用corr方法計算相關(guān)系數(shù)矩陣解讀相關(guān)系數(shù)值:接近1表示強正相關(guān),接近-1表示強負相關(guān),接近0表示弱相關(guān)房價中位數(shù)與收入中位數(shù)的相關(guān)系數(shù):0.688新屬性與相關(guān)性重新計算包含新屬性的相關(guān)性矩陣列出與房價中位數(shù)相關(guān)性最強的新屬性示例代碼與結(jié)果空值的處理列出有NaN的行處理NaNSimpleImputer類列出有NaN的行處理NaN方案一:丟棄有NaN的區(qū)域方案二:丟棄有NaN的屬性方案三:用中位數(shù)替換NaNSimpleImputer類SimpleImputer類來專門處理空值SimpleImputer類的用法:先構(gòu)造對象調(diào)用fit和transform方法文本屬性與流式處理文本屬性O(shè)rdinalEncoder轉(zhuǎn)換器OneHotEncoder類流式處理自定義PipelineColumnTransformer文本屬性O(shè)rdinalEncoder轉(zhuǎn)換器OneHotEncoder類流式處理自定義轉(zhuǎn)換器稱為AttributesAdder繼承BaseEstimator和TransformerMixin實現(xiàn)fit和transform方法自定義PipelineColumnTransformer模型選擇分離標(biāo)簽數(shù)值處理Pipeline線性回歸決策樹隨機森林模型微調(diào)最佳參數(shù)模型分離標(biāo)簽房價中位數(shù)median_house_value是我們要預(yù)測的目標(biāo)。目標(biāo)值也稱為標(biāo)簽,在使用時需要將其單獨分離出來。數(shù)值處理Pipeline自定義添加3個新屬性的轉(zhuǎn)換器把文本屬性去掉定義num_pipeline來處理數(shù)值屬性用ColumnTransformer來同時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論