![數(shù)據(jù)挖掘線性回歸PPT課件_第1頁](http://file3.renrendoc.com/fileroot3/2021-11/12/c1dc729e-237d-47ab-a5bd-7bd7dad98b76/c1dc729e-237d-47ab-a5bd-7bd7dad98b761.gif)
![數(shù)據(jù)挖掘線性回歸PPT課件_第2頁](http://file3.renrendoc.com/fileroot3/2021-11/12/c1dc729e-237d-47ab-a5bd-7bd7dad98b76/c1dc729e-237d-47ab-a5bd-7bd7dad98b762.gif)
![數(shù)據(jù)挖掘線性回歸PPT課件_第3頁](http://file3.renrendoc.com/fileroot3/2021-11/12/c1dc729e-237d-47ab-a5bd-7bd7dad98b76/c1dc729e-237d-47ab-a5bd-7bd7dad98b763.gif)
![數(shù)據(jù)挖掘線性回歸PPT課件_第4頁](http://file3.renrendoc.com/fileroot3/2021-11/12/c1dc729e-237d-47ab-a5bd-7bd7dad98b76/c1dc729e-237d-47ab-a5bd-7bd7dad98b764.gif)
![數(shù)據(jù)挖掘線性回歸PPT課件_第5頁](http://file3.renrendoc.com/fileroot3/2021-11/12/c1dc729e-237d-47ab-a5bd-7bd7dad98b76/c1dc729e-237d-47ab-a5bd-7bd7dad98b765.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、主要內(nèi)容 線性回歸 梯度下降算法 線性最小二乘問題的矩陣解法 最小二乘的概率解釋 局部加權(quán)線性回歸第1頁/共57頁有監(jiān)督的機(jī)器學(xué)習(xí)過程輸出 y:fxy(貸款申請(qǐng)人信息)(是否可以批準(zhǔn)?)歷史數(shù)據(jù)學(xué)習(xí)算法:g xy輸出 y:g xy(是否可以批準(zhǔn)?)學(xué)習(xí)算法(貸款申請(qǐng)人信息)不可知假設(shè)(Hypothesis),由學(xué)習(xí)得到,是f的近似第2頁/共57頁機(jī)器學(xué)習(xí)的關(guān)鍵因素 1. 模式存在 2. 但無法用數(shù)學(xué)方式確定下來 3. 有數(shù)據(jù)可供學(xué)習(xí)第3頁/共57頁有監(jiān)督的機(jī)器學(xué)習(xí)過程:fxy:g xy擬合數(shù)據(jù)點(diǎn)第4頁/共57頁擬合 擬合: 指已知某函數(shù)的若干離散函數(shù)值,通過調(diào)整該函數(shù)中若干待定系數(shù),使得該函數(shù)
2、與已知點(diǎn)集的差別最小 如果待定函數(shù)是線性,就叫線性擬合或者線性回歸第5頁/共57頁分類與回歸 分類問題: 目標(biāo)變量是離散值 回歸問題: 目標(biāo)變量是連續(xù)值(數(shù)值預(yù)測)“回歸”是由達(dá)爾文的表兄弟弗朗西斯高爾頓爵士(Sir Francis Galton,1822-1911)發(fā)明的。高爾頓于1877年完成了第一次回歸預(yù)測,目的是根據(jù)上一代豌豆種子(雙親)的尺寸預(yù)測下一代豌豆種子的尺寸。高爾頓在大量對(duì)象上應(yīng)用了回歸分析,包括人的身高。他注意到,如果雙親的高度比平均高度高,他們的子女也傾向于比平均高度高,但尚不及雙親,孩子的高度向著平均高度回退(回歸)。盡管這個(gè)單詞和數(shù)值預(yù)測沒有任何關(guān)系,但這種研究方法仍
3、被稱為回歸。第6頁/共57頁給定一套房屋的信息,如何預(yù)測其價(jià)格?房屋信息: (面積=100平, 三室, 兩衛(wèi))預(yù)測價(jià)格 = 0.8500 * 面積 + 0.0500 * 臥室數(shù)量 + 0.0015 * 衛(wèi)生間數(shù)量第7頁/共57頁線性回歸01 122( )h xxx1 (1)(1) 11 (1)(1) 10( )nTTiinnnnih xxxx 設(shè)x0=1x1yx2這個(gè)方程稱為回歸方程,i稱為回歸系數(shù)或權(quán)重房屋價(jià)格與其面積及臥室數(shù)量的統(tǒng)計(jì)數(shù)據(jù)第8頁/共57頁線性回歸( )( )211( )()2miiiJhxyy(i)表示第i個(gè)訓(xùn)練實(shí)例對(duì)應(yīng)的目標(biāo)變量值,m為實(shí)例數(shù)量;常數(shù)1/2是為了方便后續(xù)計(jì)算
4、;最小二乘(least squares)損失函數(shù)第9頁/共57頁線性回歸兩條不同的擬合直線第10頁/共57頁線性回歸( )( )211( )()2miiiJhxy第11頁/共57頁計(jì)算回歸系數(shù)第12頁/共57頁主要內(nèi)容 線性回歸 梯度下降算法 線性最小二乘問題的矩陣解法 最小二乘的概率解釋 局部加權(quán)線性回歸第13頁/共57頁梯度下降算法 梯度下降法(Gradient descent)是一個(gè)最優(yōu)化算法,通常也稱為最速下降法。1847年由著名的數(shù)學(xué)家柯西給出 假設(shè)我們爬山,如果想最快上到山頂,那么我們應(yīng)該從山勢最陡的地方上山。也就是山勢變化最快的地方上山 同樣,如果從任意一點(diǎn)出發(fā),需要最快搜索到函
5、數(shù)最大值,那么我們也應(yīng)該從函數(shù)變化最快的方向搜索 函數(shù)變化最快的方向是函數(shù)的梯度方向第14頁/共57頁梯度下降算法如果函數(shù)為一元函數(shù),梯度就是該函數(shù)的導(dǎo)數(shù))()(xfxf如果為二元函數(shù),梯度定義為12121212(,)(,)(,)y xxy xxfxxijxx第15頁/共57頁梯度下降算法要搜索極小值C點(diǎn):在A點(diǎn)必須向x增加方向搜索,此時(shí)與A點(diǎn)梯度方向相反;在B點(diǎn)必須向x減小方向搜索,此時(shí)與B點(diǎn)梯度方向相反??傊?,搜索極小值,必須向負(fù)梯度方向搜索。第16頁/共57頁梯度下降算法-步驟假設(shè)函數(shù) 只有一個(gè)極小點(diǎn)。初始給定參數(shù)為 。從這個(gè)點(diǎn)如何搜索才能找到原函數(shù)的極小值點(diǎn)?方法:12(,)nyfxx
6、x(1) 101(,)Tnn1. 首先設(shè)定一個(gè)較小的正數(shù),以及迭代次數(shù)k;2. 求當(dāng)前位置處的各個(gè)偏導(dǎo)數(shù):( ),1 jfxjn3. 修改當(dāng)前函數(shù)的參數(shù)值,公式如下:( ),1 jjjfxjn4. 若參數(shù)變化量小于或已達(dá)迭代次數(shù),退出;否則返回2第17頁/共57頁梯度下降算法-舉例 例: 利用梯度下降法求函數(shù) 的極小值(1) 設(shè) (2) 計(jì)算導(dǎo)數(shù):(3) 計(jì)算當(dāng)前導(dǎo)數(shù)值:(4) 修改當(dāng)前參數(shù):4,01.0,9.002ddy6yddy4 .1)6(9 .044 .5)6(9 .0(5) 計(jì)算當(dāng)前導(dǎo)數(shù)值:6.0y(6) 修改當(dāng)前參數(shù):ddy94.1)6 .0(9 .04 .154.0)6 .0(9
7、 .02212y第18頁/共57頁梯度下降算法-舉例(7) 計(jì)算當(dāng)前導(dǎo)數(shù)值:(8) 修改當(dāng)前參數(shù):06.0yddy994.1)06.0(9 .094.1(9) 計(jì)算當(dāng)前導(dǎo)數(shù)值:(10) 修改當(dāng)前參數(shù):006.0yddy9994.1)006.0(9 .0994.1(11)此時(shí)變化量滿足終止條件,終止054.0)06.0(9 .00054.0)006.0(9 .0第19頁/共57頁梯度下降算法( ):jjjJ其中稱為學(xué)習(xí)速率,即每次“前進(jìn)”的步長第20頁/共57頁梯度下降算法簡單起見,暫假設(shè)只有一個(gè)訓(xùn)練實(shí)例,則對(duì)j求偏導(dǎo)時(shí),僅jxj一項(xiàng)不為常數(shù),因此求偏導(dǎo)的結(jié)果為xj0011jj x + x +.
8、+ x +.+ x -ynnj( )( )( ):()iiijjjhxyx( ):jjjJ第21頁/共57頁梯度下降算法( )( )( ):()iiijjjyhxx第22頁/共57頁梯度下降算法應(yīng)用到不只一個(gè)訓(xùn)練實(shí)例的情況( )( )( )1:()miiijjjihxyx第23頁/共57頁梯度下降算法舉例01 122( )h xxx0=0, 1=0, 2=0, h(x(i)=0, x0=1y(1)=400, y(2)=330, y(3)=369, y(4)=232, y(5)=540 x1(1)=2104, x1(2)=1600, x1(3)=2400, x1(4)=1416, x1(5)=3
9、000 x2(1)=3, x2(2)=3, x2(3)=3, x2(4)=2, x2(5)=40=0+0.01(y(1)-h(x(1)x0(1)+.+(y(5)-h(x(5)x0(5)1=0+0.01(y(1)-h(x(1)x1(1)+.+(y(5)-h(x(5)x1(5)2=0+0.01(y(1)-h(x(1)x2(1)+.+(y(5)-h(x(5)x2(5)x1yx2( )( )( )1:()miiijjjiyhxx第24頁/共57頁隨機(jī)梯度下降算法 批量梯度下降算法每一步都要考慮整個(gè)數(shù)據(jù)集以計(jì)算梯度,這在數(shù)據(jù)集較大時(shí)計(jì)算成本很高 另一種可選的方案是一次僅用一個(gè)樣本來更新回歸系數(shù),該方法稱
10、為隨機(jī)梯度下降算法(Stochastic gradient descent)第25頁/共57頁值的選擇 過大容易“越過”極值點(diǎn),導(dǎo)致不收斂,過小則收斂速度慢 隨著迭代次數(shù)的增加,一般要慢慢減小 (直觀上,一開始前進(jìn)快點(diǎn),然后放慢速度)第26頁/共57頁梯度下降算法第27頁/共57頁主要內(nèi)容 線性回歸 梯度下降算法 線性最小二乘問題的矩陣解法 最小二乘的概率解釋 局部加權(quán)線性回歸第28頁/共57頁矩陣解法對(duì)于m*n矩陣A,定義關(guān)于A的函數(shù) f 的梯度:例如,其中第(i, j)個(gè)元素為 ijAAf)(23523)(2221212111111AAAAAAAf121210)(AAAf2221)(AAA
11、f2122)(AAAf第29頁/共57頁矩陣解法n*n矩陣A的跡(trace)定義為A的主對(duì)角上元素之和,記為 tr AniiiAtrA1若a是一實(shí)數(shù),即一個(gè)1x1矩陣,則 tr a = a性質(zhì)性質(zhì):trBAtrAB trBCDAtrCDABtrDABCtrABCDTtrAtrA trBtrABAtr)(atrAtraA TABtrAB 跡可理解為一個(gè)應(yīng)用在A上的函數(shù) f(A) = tr(A)TAAAfAfT)()(TTTAABCCABCtrABA第30頁/共57頁矩陣解法(1)(1)(1)(1)12(2)(2)(2)(2)12()()()()121.()1.().1.()TnTnmmmmTn
12、xxxxxxxxXxxxx輸入矩陣(m * (n+1)維):目標(biāo)變量值向量(m維):)()2()1(.myyyy在房屋價(jià)格預(yù)測例子中,x1為“面積”屬性,x2為“臥室數(shù)量”屬性,x1(1)為第1個(gè)樣本的面積,x2(1)為第1個(gè)樣本的臥室數(shù)量,x1(2)為第2個(gè)樣本的面積,x2(2)為第2個(gè)樣本的臥室數(shù)量,共m個(gè)樣本,每個(gè)屬性有n個(gè)屬性在房屋價(jià)格預(yù)測例子中,y(1)為第1個(gè)樣本的報(bào)價(jià),y(2)為第2個(gè)樣本的報(bào)價(jià),共m個(gè)樣本假設(shè)共有m個(gè)訓(xùn)練樣本,每個(gè)樣本有n個(gè)屬性第31頁/共57頁矩陣解法( )( )( )( )01 1().iiii Tnnhxxxx(1)(1)(1)(1)(2)(2)(2)(2
13、)()()()()()()()().()()TTmmmmTxhxyyhxyyxyhxyyxX( )( )211() ()21()2( )TmiiiyyhxyJXX21nTiiz zz 第32頁/共57頁矩陣解法為最小化 J,計(jì)算 J 的梯度() ()()()()()TTTTTTTTTTTTyyyyyyyyy yXXXXXXX XXX X是m(n+1)維= 一個(gè)數(shù)第33頁/共57頁矩陣解法若a為一實(shí)數(shù),則 tr a = a第34頁/共57頁矩陣解法TTTTTTTTyyyXXXTtrtrAA()trtrtrABABTTTTTTtrytrytryXXXyyT第35頁/共57頁矩陣解法TAAAfAfT
14、)()(TTTAABCCABCtrABACBACABABCCtrABACtrABATTTTTTTTTATATCABTATTBXXBEC TTTTtrX XX XX XTByXTABtrAB 22222TTTTTTtrytrytr yyy XXXXXtrBAtrAB 第36頁/共57頁矩陣解法J( )0TTyX XXTTyX XX11()()TTTTyX XX XX XX1()TTy X XX1A AI第37頁/共57頁主要內(nèi)容 線性回歸 梯度下降算法 線性最小二乘問題的矩陣解法 最小二乘的概率解釋 局部加權(quán)線性回歸第38頁/共57頁最小二乘的概率解釋為什么最小二乘代價(jià)函數(shù)J是一個(gè)合理的選擇?(
15、 )( )211( )()2miiiJhxy第39頁/共57頁最小二乘的概率解釋假設(shè)目標(biāo)變量和輸入的關(guān)系可表示為:( )( )( )iTiiyx其中(i)表示線性模型與目標(biāo)值的誤差。例如樣本的某屬性和房價(jià)預(yù)測相關(guān),但卻沒有被考慮進(jìn)來;或隨機(jī)噪音。第40頁/共57頁最小二乘的概率解釋假設(shè)誤差(i)獨(dú)立同分布(IID, Independent and Identical Distribution),并服從正態(tài)分布:), 0(2)(Ni中心極限定理: 若一隨機(jī)變量受大量微小獨(dú)立的隨機(jī)因素影響,其中每個(gè)個(gè)別隨機(jī)變量對(duì)于總和的作用都是微小的,那么作為總和的隨機(jī)變量的分布就會(huì)逼近于正態(tài)分布。22)(2)(
16、)(21)(iepi因此,(i)的概率密度:( )( ) 22()( )( )21(|; )2iTiyxiip yxe( )( )( )iiTiyx第41頁/共57頁最小二乘的概率解釋給定輸入矩陣X (每i行為第i個(gè)樣本的特征向量)和參數(shù),可得到似然(likelihood)函數(shù):( )( ) 22( )( )1()21( )( ;, )( |; )(|; )12iTimiiiyxmiLLyp yp yxeXXm為樣本總數(shù),(i)上標(biāo)表示第(i)個(gè)樣本最大似然法,也叫極大似然估計(jì)第42頁/共57頁最小二乘的概率解釋( )( ) 22( )( ) 22( )( ) 22()21()21()21(
17、)( )221( )ln ( )1ln21ln21lnln2111ln()22iTiiTiiTiyxmiyxmiyxmimiTiilLeememyx最小化( )( )211()2miTiiyx( )J第43頁/共57頁最小二乘的概率解釋基于前面的概率假設(shè)(IID,正態(tài)分布),最小二乘回歸相當(dāng)于尋找最大化似然函數(shù)的。因此,最小二乘回歸可被證明是一種非常自然的選擇。第44頁/共57頁主要內(nèi)容 線性回歸 梯度下降算法 線性最小二乘問題的矩陣解法 最小二乘的概率解釋 局部加權(quán)線性回歸第45頁/共57頁局部加權(quán)線性回歸使用更多合適的特征,例如y=0+1x+2x2可能可以擬合得更好考慮對(duì)數(shù)據(jù)集進(jìn)行線性擬合
18、得到線性模型 y=0+1x數(shù)據(jù)點(diǎn)不在一條直線上,用線性模型擬合的并不好第46頁/共57頁局部加權(quán)線性回歸但也可能導(dǎo)致過擬合,例如上圖為y=0+1x+.+5x5的擬合結(jié)果考慮對(duì)數(shù)據(jù)集進(jìn)行線性擬合得到線性模型 y=0+1x數(shù)據(jù)點(diǎn)不在一條直線上,用線性模型擬合的并不好第47頁/共57頁局部加權(quán)線性回歸局部加權(quán)線性回歸 (LWLR, Locally weighted linear regression):越靠近待預(yù)測點(diǎn)的訓(xùn)練樣本,對(duì)預(yù)測結(jié)果的影響越大,越遠(yuǎn)離待預(yù)測點(diǎn)的訓(xùn)練樣本,對(duì)預(yù)測結(jié)果的影響越小。只關(guān)注位于待預(yù)測點(diǎn)附近的樣本點(diǎn)(即“局部”的含義)給每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)重w(i),訓(xùn)練樣本點(diǎn)離待預(yù)測點(diǎn)越近,w(i)越趨于1訓(xùn)練樣本點(diǎn)離待預(yù)測點(diǎn)越遠(yuǎn),w(i)越趨于0第48
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)改造合同范本
- 2025年中國智能化節(jié)能裝置行業(yè)市場需求預(yù)測及投資戰(zhàn)略規(guī)劃報(bào)告
- 中介房子銷售合同范例
- 農(nóng)村電廠維修合同范本
- 業(yè)主委托拍攝合同范例
- 出售移動(dòng)廠房合同范本
- 供應(yīng)發(fā)票合同范本
- 中國一次性注射器市場全面調(diào)研及行業(yè)投資潛力預(yù)測報(bào)告
- 產(chǎn)品外銷合同范本
- 冷庫銷售安裝合同范本
- 政治校本課程
- 川2020J146-TJ 建筑用輕質(zhì)隔墻條板構(gòu)造圖集
- (完整)讀歌詞猜歌名
- 八年級(jí)下開學(xué)第一課主題班會(huì)
- 初中英語人教版 八年級(jí)上冊 單詞默寫表 漢譯英
- pcs-9611d-x說明書國內(nèi)中文標(biāo)準(zhǔn)版
- GB/T 1634.1-2004塑料負(fù)荷變形溫度的測定第1部分:通用試驗(yàn)方法
- 無人機(jī)航拍技術(shù)理論考核試題題庫及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
評(píng)論
0/150
提交評(píng)論