附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸

上傳人：6*** IP屬地：湖北上傳時(shí)間：2022-03-17 格式：PPTX 頁(yè)數(shù)：27 大?。?.54MB 積分：35 舉報(bào) 版權(quán)申訴

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸_第2頁(yè)

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸_第3頁(yè)

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸_第4頁(yè)

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸_第5頁(yè)

已閱讀5頁(yè)，還剩22頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸擬合直線擬合直線局部加權(quán)線性回歸局部加權(quán)線性回歸理解數(shù)據(jù)理解數(shù)據(jù)權(quán)衡偏差和方差權(quán)衡偏差和方差前言預(yù)測(cè)聯(lián)系型數(shù)據(jù) “回歸可以做任何事情” 最近有新意的應(yīng)用：預(yù)測(cè)名人的離婚率1. 先介紹線性回歸2. 再引入局部平滑技術(shù)3. 分析如何更好的擬合數(shù)據(jù)4. 在欠擬合情況下的縮減技術(shù)5. 探討偏差和方差的概念用線性回歸找到最佳擬合直線線性回歸優(yōu)點(diǎn)：結(jié)果易于理解，計(jì)算上不復(fù)雜缺點(diǎn)：對(duì)非線性的數(shù)據(jù)擬合不好回歸的目的是預(yù)測(cè)數(shù)值型目標(biāo)值：找到目標(biāo)的計(jì)算公式預(yù)測(cè)某人的汽車功率： HorsePower = 0.0015*annualSalary-0.99*hoursListenin

2、gToRadio 以上為回歸方程 0.0015和-0.99為回歸系數(shù) 求回歸系數(shù)的過(guò)程即為回歸本次只討論線性回歸回歸的一般方法收集數(shù)據(jù) 按輸入要求整理數(shù)據(jù) 數(shù)據(jù)可視化以直觀分析數(shù)據(jù) 訓(xùn)練算法：找到回歸系數(shù) 測(cè)試算法：使用R2或者預(yù)測(cè)值和數(shù)據(jù)的擬合度來(lái)分析模型的效果使用算法：給定輸入的時(shí)候預(yù)測(cè)輸出基本算法例：對(duì)以下點(diǎn)集進(jìn)行擬合 import numpy as np lstDt = lstLbl = # lbl: label fr = open(.ex0.txt) for line in fr.readlines(): arLn = line.strip().split() lstDt.app

3、end(float(arLn0), float(arLn1) lstLbl.append(float(arLn2)計(jì)算回歸： xMat = np.mat(lstDt) yMat = np.mat(lstLbl).T xTx = xMat.T*xMat if np.linalg.det(xTx)=0.0: print This is matrix is singular, cannot do inverse! else: ws = xTx.I*(xMat.T*yMat)繪圖 plt.figure() lstX = dt1 for dt in lstDt plt.scatter(lstX, lst

4、Lbl) lstY = ws0, 0+ws1, 0*x for x in lstX plt.plot(lstX, lstY)如何如何評(píng)判模型的好壞？不同數(shù)據(jù)集：分別做線性回歸，得到完全一樣的兩個(gè)模型如何比較回歸效果？計(jì)算yHat和y的相關(guān)系數(shù)： arrYHat = np.array(lstY) arrY = np.squeeze(np.array(yMat) print np.corrcoef(arrY, arrYHat)局部加權(quán)線性回歸平滑值 k = 1平滑值 k = 0.01平滑值 k = 0.003代碼：算法實(shí)現(xiàn) xMat = np.mat(lstDt) yMat = np.m

5、at(lstLbl).T m = xMat.shape0 k = 0.01 lstY = for i in range(m): wgt = np.mat(np.eye(m) dtTst = xMati, : for j in range(m): difMat = dtTst - xMatj, : wgtj, j = np.exp(difMat*difMat.T/(-2*k*2) xTx = xMat.T*(wgt*xMat) if np.linalg.det(xTx)=0.0: print This is matrix is singular, cannot do inverse! else:

6、 ws = xTx.I*(xMat.T*(wgt*yMat) matV = dtTst*ws lstY.append(matV0, 0)代碼：顯示結(jié)果 plt.figure() lstX = dt1 for dt in lstDt plt.scatter(lstX, lstLbl) sIdx = np.argsort(lstX) lstXSort = lstXidx for idx in sIdx lstYSort = lstYidx for idx in sIdx plt.plot(lstXSort, lstYSort) arrYHat = np.array(lstY) arrY = np.

7、squeeze(np.array(yMat) print np.corrcoef(arrY, arrYHat)普通和加權(quán)的代碼區(qū)別示例：預(yù)測(cè)鮑魚的年齡使用較小的核將得到較小的訓(xùn)練誤差： k = 0.1：擬合值與原點(diǎn)集的誤差為56.8426 k = 1：擬合值與原點(diǎn)集的誤差為429.891 k = 10：擬合值與原點(diǎn)集的誤差為549.118 為什么不使用盡量小的核？因?yàn)闀?huì)過(guò)擬合過(guò)擬合會(huì)體現(xiàn)在新數(shù)據(jù)的大誤差上： k = 0.1：擬合點(diǎn)與原值點(diǎn)的誤差為25619.93 k = 1：擬合點(diǎn)與原值點(diǎn)的誤差為573.526 k = 10：擬合點(diǎn)與原值點(diǎn)的誤差為517.571縮減系數(shù)來(lái)“理解”數(shù)據(jù)縮減系

8、數(shù)來(lái)“理解”數(shù)據(jù) 縮減法能取得更好的預(yù)測(cè)效果可通過(guò)預(yù)測(cè)誤差最小化得到：1. 獲取數(shù)據(jù)2. 抽出部分?jǐn)?shù)據(jù)作為測(cè)試用3. 剩余數(shù)據(jù)作為訓(xùn)練集4. 訓(xùn)練完畢再用測(cè)試集測(cè)試5. 使用不同的重復(fù)上述過(guò)程6. 選取使預(yù)測(cè)誤差最小的嶺回歸編程在普通回歸方法可能會(huì)產(chǎn)生錯(cuò)誤的時(shí)候，嶺回歸仍能正常工作所以不需要再判斷行列式是否為0（ 0）對(duì)列做歸一化處理，使所有列同等重要如右圖：以指數(shù)變化最小時(shí)：回歸系數(shù)與線性回歸一致最大時(shí)：回歸系數(shù)全部縮減為0修改代碼：嶺回歸 lam = 0.2 xMat = np.mat(lstDt) yMat = np.mat(lstLbl).T xTx = xMat.T*

9、xMat denom = xTx+np.eye(xMat.shape1)*lam ws = denom.I*(xMat.T*yMat)嶺回歸結(jié)果圖預(yù)備：lasso方法lasso方法前向逐步回歸與lasso效果相似，但計(jì)算更簡(jiǎn)單屬于貪心算法，即每一步都盡可能減少誤差算法開始時(shí)，所有權(quán)值都設(shè)為1 然后每一步都決策對(duì)某個(gè)權(quán)值增加或減少一個(gè)很小的步長(zhǎng) 優(yōu)點(diǎn)：理解現(xiàn)有模型并作出改進(jìn) 當(dāng)模型建立，可以運(yùn)行該算法找出最重要的特征及時(shí)停止對(duì)那些不重要特征的搜集如果用于測(cè)試，該算法每100次迭代就可以構(gòu)建出一個(gè)模型，可以使用類似10折交叉驗(yàn)證的方法比較這些模型，選擇最優(yōu)模型權(quán)衡偏差與方差偏差：模型預(yù)測(cè)值和原始數(shù)據(jù)之間的差異方差：是模型之間的差異偏差是學(xué)習(xí)的產(chǎn)物，是度量學(xué)習(xí)效果的標(biāo)準(zhǔn) 方差用來(lái)比較和選擇較好的模型選擇模型必須折中考慮偏差和方差示例：預(yù)測(cè)樂(lè)高玩具套裝價(jià)格樂(lè)高套裝的生命周期大約幾年

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

附 預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

附預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸