機器學(xué)習(xí)中用到的數(shù)值分析

上傳人：y*** IP屬地：天津上傳時間：2022-01-13 格式：DOCX 頁數(shù)：19 大小：243.52KB 積分：18 舉報 版權(quán)申訴

免費預(yù)覽已結(jié)束，剩余14頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章背景知識condition number從優(yōu)化或者數(shù)值計算的角度來說，L2范數(shù)有助于處理 condition number不好的情況下矩陣求逆很困難的問題。如果方陣 A是奇異的，那么 A的condition number就是正無窮大了。實際上，每一個可逆方陣都存在一個 condition number。對condition number來個一句話總結(jié)：condition number是一個矩陣(或者它所描述的線性系統(tǒng))的穩(wěn)定性或者敏感度的度量，如果一個矩陣的condition number在1附近，那么它就是 well-conditioned的，如果遠大于1，那么它就是ill-con

2、ditioned 的，如果一個系統(tǒng)是ill-c on diti on ed的，它的輸出結(jié)果就不要太相信了。應(yīng)用w = (XJX)'1XTb如果當(dāng)我們的樣本 X的數(shù)目比每個樣本的維度還要小的時候，矩陣XT X將會不是滿秩的，也就是X T X會變得不可逆，所以 w八就沒辦法直接計算出來了。如果加上L2規(guī)則項，就變成了下面這種情況，就可以直接求逆了：condition number 一般在矩陣?yán)锉欢x做最大 singular value和最小singular value的比值。一般說來，如果一個矩陣的condition number大于1000，數(shù)值計算inv(A)或者解線性方程 AX=Y

3、可能會遇到嚴(yán)重的舍入問題，這樣的問題通常被稱為ill-conditioned。II最簡單的解決方法是把 A的diagonal entries都加上一個微小量 delta以后再計算這樣做雖然會引入誤差，但是可以改善ill-condition。梯度設(shè)體系中某處的物理參數(shù) (如溫度、速度、濃度等)為w，在與其垂直距離的dy處該參數(shù)為w+dw，則稱為該物理參數(shù)的梯度，也即該物理參數(shù)的變化率。如果參數(shù)為速度、濃度、溫度或空間，則分別稱為速度梯度、濃度梯度、溫度梯度或空間梯度。其中溫度梯度在直角坐標(biāo)系下的表達式如右圖?！?b di . dt dt bDx dy ds在向量微積分中，標(biāo)量場的梯度是一個向

4、量場。標(biāo)量場中某一點上的梯度指向標(biāo)量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴(yán)格的說，從歐氏空間Rn到R的函數(shù)的梯度是在Rn某一點最佳的線性近似。在這個意義上，梯度是雅戈比矩陣的一個特殊情況。在單變量的實值函數(shù)的情況，梯度只是導(dǎo)數(shù)，或者，對于一個線性函數(shù)，也就是線的斜率。梯度一詞有時用于斜度，也就是一個曲面沿著給定方向的傾斜程度?？梢酝ㄟ^取向量梯度和所研究的方向的點積來得到斜度。梯度的數(shù)值有時也被稱為梯度。在二元函數(shù)的情形，設(shè)函數(shù)z=f(x,y)在平面區(qū)域D內(nèi)具有一階連續(xù)偏導(dǎo)數(shù)，則對于每一點P(x,y) D，都可以定出一個向量(S f/x)*i+( S f/y)*j這向量稱為函數(shù)

5、z=f(x,y)在點P(x,y)的梯度，記作gradf(x,y)類似的對三元函數(shù)也可以定義一個：(S f/x)*i+( S f/y)*j+( S f/z)*k記為gradf(x,y,z)梯度的本意是一個向量(矢量)，表示某一函數(shù)在該點處的方向?qū)?shù)沿著該方向取得最大值，即函數(shù)在該點處沿著該方向(此梯度的方向)變化最快，變化率最大(為該梯度的模)。方向?qū)?shù)(directional derivative )的通俗解釋是：我們不僅要知道函數(shù)在坐標(biāo)軸方向上的變化率方向?qū)?shù)(即偏導(dǎo)數(shù))，而且還要設(shè)法求得函數(shù)在其他特定方向上的變化率。而方向?qū)?shù)就是函數(shù)在其他特定方向上的變化率。定義方向?qū)?shù)的精確定義(以三元

6、函數(shù)為例)：設(shè)三元函數(shù)f在點P0 (xO, y0, z0)的某鄰域內(nèi)有定義，I為從點P0出發(fā)的射線，P (x, y, z)為I上且含于鄰域內(nèi)的任一點，以p( rou) 表示P和P0兩點間的距離。若極限lim ( (f(P)-f(P0) / p ) = lim ( l f / p)(當(dāng) 0 時)存在，則稱此極限為函數(shù)f在點P0沿方向I的方向?qū)?shù)。雅可比矩陣Jacobian矩陣和H essian矩陣1P Jacobian在叵量廿析中環(huán)可比矩陣是TH肖尋數(shù)"一走方弍排列或的矩降其行列式稱為雅可比行列式還有在弋覿1何中:吃數(shù)狂線的雅可比星袤示淮可t瀝：殍陸區(qū)胡建的一的烘幣茬線可収誤AM中.

7、它憶全出翊救學(xué)贏卡爾雅可ttXCarl Jacob廚04年W月4日-俑已年2月佃日命名;英文淮可比 =Jacabiai1可以發(fā)盲為膽o bi砂】應(yīng)吉屯& "ko b aril.灘可比矩腐揑可匕旳匡旳車要空在十它郎現(xiàn)_r介口-減e桂三蹈土點狂最tm性逼近因此,雅可陞陣獎驚十芬忖上F R t 一皂一嚇4.弐寸堆手m辛世師he対空IT芒/券運八肘甘壬rr個耳曲散主疋 yl （燦押，腫（対：,xn）逵些酗的侶敎如杲薦在）可以組成一個mi亍洌的矩庫5就是所的淮可比矩陣：0E斥 S述或吉這個矩I卉的第i行是主樣滾函數(shù)的轉(zhuǎn)置yi(i-1.m炭示的如果p杲中的一點.F在p點可微分.

8、那么在這一點的導(dǎo)數(shù)田Jf(p)給岀(這是求該點導(dǎo)數(shù)爵簡便的方法).在此售況下,由F(p)超的線性算子即接近點p的F的最優(yōu)線性逼近,x逼近亍p:F(x)彩 F(p) + Jf(p) (x- p)雅可比行歹疏妬杲m二n,那么F是從n姓空間到譙空間的函數(shù)旦它的雅可比矩隆是一個方塊距陣于是我們可以取它的行列式稱為雅可吃亍列式SM4給走點的難可比行刃式辰供了在接近該點時的表現(xiàn)的重妾信魚砌匚如昱連績可微函數(shù)F在 p點的雅可比列式不是零，百吆它在該點附近具有反函斂這稱為反遇數(shù)左理更進一步,如JRp點的雅可比行列式是正數(shù)見P在P點的取向K變-如吳是負數(shù).則F的取向相反麗從雅可比行列式的絕対值,就可以知

9、道函數(shù)F在p點的縮放因子；這孰是九什么它出規(guī)在換元積分法中.對于取向問題可以這么理聲例如Y4SI體在平li上勻速運動如果施加一個正方向的力F.即取向相盡川F連運動,類比于速度的融加連反為正;如果iS加 Y反方向的力F,即取向相反丿yj«速運動, 類比于速辰的號數(shù)加速匿為負2. SHessian矩陣在數(shù)學(xué)中，海森矩陣(Hessian matrix或Hessian)是一個自變星為向呈的頭值函數(shù)的一階債導(dǎo)數(shù)組成塊矩陣,此函數(shù)如下：f (金1，化2-» n)如果子的所有二階導(dǎo)數(shù)都存在.那么/的海森矩陣即：(尤)冥中® =(叼,叼，),即H(f)為：丹dx9xi 0x2

10、9xi Bind2f92fd2f i 9x2。顯 1dlQ dx0d2fd2fd2f_9xdx dx9.8應(yīng).(也有人把海森走義為以上矩陣的行列式)海蒜矩陣沁用于牛頓法解決的燦模優(yōu)化問題海森柜陣在牛頓法中的應(yīng)用蟲來說.牛頓法主要應(yīng)用在函個方面,1,求方程的根;2最優(yōu)化一1)求鮮萬程幷不是所勻的方程都有朮恨公式.或吉求恨公式很復(fù)雜導(dǎo)致求解區(qū)難一利用牛頓法可以迭代求解.原理野用泰型公式,在磯處展開巨展開到階即人可=/(jc) + (r x()f(O)求解方程f(ar) = 0. BP/(«o) + (總-龍0)尸(a?o) 0.求葬rr =巧=xQ-f(xQ)/f(XQ),因為這是利

11、用泰勒公式的一階展開、f(z) = f仗。)十(e-eo)f (叼)處幷不是完全相等、帀是近似招寺這里求得的珀開不能讓/(引=0只能說J(巧)的値比人班)更援近f )=0.于是乎.迭代求解的想法就很白然了,可泌而拄出引十1 -(如)，通過迭代適個弍孑必然在子(“)一 0的時佞收致整個過程如下圖：牛頓法求實根圖示2).最優(yōu)化在雖優(yōu)化的問題中，線性最優(yōu)化至少可以便硝純形法(或稱不動點窟去球程但對于非純性優(yōu)化問甑牛頓法提供了一御求解的辦法.假設(shè)任務(wù)是優(yōu)化f 目詠函數(shù)犬求函數(shù)f的極大極4媽題,可以轉(zhuǎn)化為求聲霑數(shù)f的導(dǎo)馭尸=0的可麺這樣求可以把優(yōu)化問題看舷方程滅解問麺(f =0)舸下的問麺就

12、策 T分提的牛頓法歩解很相似了這次為了關(guān)解尸二0的根.把/(h)的泰勒層開長開到2階形式:f(x + ) =/(«)+ £() + f9 (a?)Ao?22這個式子是成立的當(dāng)?shù)﹥H當(dāng)無艱坦近于0時f(z + 對=j(x),約去迄兩項,開對親項式 fax + +廠仗)4以=0対Aa:求導(dǎo)(汪f仗)，廠9)均為常數(shù)項此時上式等價與:f )十嚴(yán)(h)Ah=0求解:畑)fnM得岀迭代公式:一般認(rèn)為半頓法可以利用到齊線本身芥信貝比樣厘下降法審容易牧敗(迭代申少次數(shù)).如下醫(yī)是一個農(nóng)小化一個口標(biāo)方隍的刮子，紅色曲紐罡利用牛頓法迭代求解緣色超塊圣口用梯度下降法求解在上百冷T詒的足醛宵另.

13、盲雅悽況的牛頓這代公式足:=xnHf(xn可坯M巴0捉中卜逞he河or短陣走文見上高維菁況依然可以用牛頓迭代求解但是冋題星血陰舊謔薜別入的復(fù)雜性:使得牛頓迭代求解的難度大大筆加，回®已經(jīng)育了I?決遠個問題的辦SSWSQuasi Wewton rn酗o<不再直接計郭i關(guān)論n矩陣, 河昱P 步的時候便申境吏巨呈更黔rhm s=I罰矩輝旳近似.二階導(dǎo)數(shù)的集合意義:(1) 斜線斜率變化的速度(2) 函數(shù)的凹凸性.二階導(dǎo)數(shù)是比較理論的、比較抽象的一個量，它不像一階導(dǎo)數(shù)那樣有明顯的幾何意義，因為它表示的是一階導(dǎo)數(shù)的變化率在圖形上，它主要表現(xiàn)函數(shù)的凹凸性，直觀的說，函數(shù)是向上突起的，

14、還是向下突起的應(yīng)用：如果一個函數(shù)f(x)在某個區(qū)間I上有f'(x)(即二階導(dǎo)數(shù))>0恒成立，那么對于區(qū)間I上的任意x，y，總有：f(x)+f(y) >2f(x+y)/2,如果總有f'(x)0恒成立，那么在區(qū)間I上f(x)的圖象上的任意兩點連出的一條線段，這兩點之間的函數(shù)圖象都在該線段的下方，反之在該線段的上方機器學(xué)習(xí)中梯度下降法和牛頓法的比較在機器學(xué)習(xí)的優(yōu)化問題中，梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法，他們都是為了求得目標(biāo)函數(shù)的近似解。在邏輯斯蒂回歸模型的參數(shù)求解中，一般用改良的梯度下降法，也可以用牛頓法。由于兩種方法有些相似，我特地拿來簡單地對比一下

15、。下面的內(nèi)容需要讀者之前熟悉兩種算法。梯度下降法梯度下降法用來求解目標(biāo)函數(shù)的極值。這個極值是給定模型給定數(shù)據(jù)之后在參數(shù)空間中搜索找到的。迭代過程為:d 、：=- a麗可以看出，梯度下降法更新參數(shù)的方式為目標(biāo)函數(shù)在當(dāng)前參數(shù)取值下的梯度值，前面再加上一個步長控制參數(shù)alpha。梯度下降法通常用一個三維圖來展示，迭代過程就好像在不斷地下坡，最終到達坡底。為了更形象地理解，也為了和牛頓法比較，這里我用一個二維圖來表示：懶得畫圖了直接用這個展示一下。在二維圖中，梯度就相當(dāng)于凸函數(shù)切線的斜率，橫坐標(biāo)就是每次迭代的參數(shù)，縱坐標(biāo)是目標(biāo)函數(shù)的取值。每次迭代的過程是這樣：1. 首先計算目標(biāo)函數(shù)在當(dāng)前參數(shù)值的斜率(

16、梯度)，然后乘以步長因子后帶入更新公式，如圖點所在位置(極值點右邊)，此時斜率為正，那么更新參數(shù)后參數(shù)減小，更接近極小值對應(yīng)的參數(shù)。2. 如果更新參數(shù)后，當(dāng)前參數(shù)值仍然在極值點右邊，那么繼續(xù)上面更新，效果一樣。3. 如果更新參數(shù)后，當(dāng)前參數(shù)值到了極值點的左邊，然后計算斜率會發(fā)現(xiàn)是負的，這樣經(jīng)過再一次更新后就會又向著極值點的方向更新。根據(jù)這個過程我們發(fā)現(xiàn)，每一步走的距離在極值點附近非常重要，如果走的步子過大，容易在極值點附近震蕩而無法收斂。解決辦法：將alpha設(shè)定為隨著迭代次數(shù)而不斷減小的變量，但是也不能完全減為零。牛頓法原理是利用泰勒公式，在x0處展開，且展開到一階，即f(x) = f(x

17、O)+(x xO)f(xO)求解方程 f(x)=0，即卩 f(xO)+(x-xO)*f(xO)=O ，求解 x = x仁xO f(xO)/f(xO)，因為這是利用泰勒公式的一階展開，f(x) = f(x0)+(x xO)f(xO)處并不是完全相等，而是近似相等，這里求得的x1并不能讓f (x) =0，只能說f(x1)的值比f(xO)更接近f ( x) =0，于是乎，迭代求解的想法就很自然了，可以進而推出x(n+1)=x(n) f(x(n)/f(x(n)，通過迭代，這個式子必然在f (x*) =0的時候收斂。整個過程如下圖:牛頓法求實根圖示2、牛頓法用于最優(yōu)化(f=0)在最優(yōu)化的問題中，線性最優(yōu)

18、化至少可以使用單純行法求解，但對于非線性優(yōu)化問題，牛頓法提供了一種求解的辦法。假設(shè)任務(wù)是優(yōu)化一個目標(biāo)函數(shù)f,求函數(shù)f的極大極小問題，可以轉(zhuǎn)化為求解函數(shù) f的導(dǎo)數(shù)f=0的問題，這樣求可以把優(yōu)化問題看成方程求解問題剩下的問題就和第一部分提到的牛頓法求解很相似了。這次為了求解f=0的根，把f （ x）的泰勒展開，展開到 2階形式：f3 + 對二+ 詁©）4區(qū)這個式子是成立的，當(dāng)且僅當(dāng) Ax無線趨近于0。此時上式等價與:尸（工）+嚴(yán)& = 0.求解:At =尸仏）一嚴(yán)（跖）得出迭代公式:一般認(rèn)為牛頓法可以利用到曲線本身的信息，比梯度下降法更容易收斂（迭代更少次數(shù)），如下圖是一個

19、最小化一個目標(biāo)方程的例子, 紅色曲線是利用牛頓法迭代求解，綠色曲線是利用梯度下降法求解。在上面討論的是2維情況，高維情況的牛頓迭代公式是:=心-n > 0.其中H是hessian矩陣，定義為：釦旳朋H(n=高維情況依然可以用牛頓迭代求解，但是問題是Hessian矩陣引入的復(fù)雜性，使得牛頓迭代求解的難度大大增加,個問題的辦法就是 Quasi-Newton metho nd ，不再直接計算 hessian矩陣，而是每一步的時候使用梯度向量更新 Quasi-Newton method 的詳細情況我還沒完全理解，且聽下回分解吧。但是已經(jīng)有了解決這hessian矩陣的近似首先得明確，牛頓法是為了

20、求解函數(shù)值為零的時候變量的取值問題的，具體地，當(dāng)要求解f（ e）=o時，如果可導(dǎo)，那么可以通過迭代公3：=e-來迭代求得最小值。通過一組圖來說明這個過程當(dāng)應(yīng)用于求解最大似然估計的值時，變成？（ e）=的問題。這個與梯度下降不同，梯度下降的目的是直接求解目標(biāo)函數(shù)極小值，而牛頓法則變相地通過求解目標(biāo)函數(shù)一階導(dǎo)為零的參數(shù)值，進而求得目標(biāo)函數(shù)最小值。那么迭代公式寫作：當(dāng)e是向量時，牛頓法可以使用下面式子表示:其中h叫做海森矩陣，其實就是目標(biāo)函數(shù)對參數(shù)e的二階導(dǎo)數(shù)。通過比較牛頓法和梯度下降法的迭代公式，可以發(fā)現(xiàn)兩者及其相似。海森矩陣的逆就好比梯度下降法的學(xué)習(xí)率參數(shù)alpha。牛頓法收斂速度相比梯度下降法

21、很快，而且由于海森矩陣的的逆在迭代中不斷減小，起到逐漸縮小步長的效果。牛頓法的缺點就是計算海森矩陣的逆比較困難，消耗時間和計算資源。因此有了擬牛頓法。最優(yōu)化問題中，牛頓法為什么比梯度下降法求解需要的迭代次數(shù)更少？牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。如果更通俗地說的話，比如你想找一條最短的路徑走到一個盆地的最底部，梯度下降法每次只從你當(dāng)前所處位置選一個坡度最大的方向走一步，牛頓法在選擇方向時，不僅會考慮坡度是否夠大，還會考慮你走了一步之后，坡度是否會變得更大。所以，可以說牛頓法比梯度下降法看得更遠一點，能更快地走到最底部。根據(jù)Wiki上的解釋，從幾何上說，牛頓法就是用一個

22、二次曲面去擬合你當(dāng)前所處位置的局部曲面，而梯度下降法是用一個平面去擬合當(dāng)前的局部曲面，通常情況下，二次曲面的擬合會比平面更好，所以牛頓法選擇的下降路徑會更符合真實的最優(yōu)下降路徑。wiki上給的圖很形象，我就直接轉(zhuǎn)過來了：紅色的牛頓法的迭代路徑，綠色的是梯度下降法的迭代路徑。利普希茨連續(xù)在在數(shù)學(xué)中，特別是實分析，利普希茨連續(xù)（Lipschitz continuity ）以德國數(shù)學(xué)家魯?shù)婪?利普希茨命名，是一個比通常連續(xù)更強的光滑性條件。直覺上，利普希茨連續(xù)函數(shù)限制了函數(shù)改變的速度，符合利普希茨條件的函數(shù)的斜率，必小于一個稱為利普希茨常數(shù)的實數(shù)（該常數(shù)依函數(shù)而定）。在微分方程中，利普希茨連續(xù)

23、是皮卡-林德洛夫定理中確保了初值問題存在唯一解的核心條件。一種特殊的利普希茨連續(xù)，稱為壓縮應(yīng)用于巴拿赫不動點定理。利普希茨連續(xù)可以定義在度量空間上以及賦范向量空間上；利普希茨連續(xù)的一種推廣稱為赫爾德連續(xù)。定義對于在實數(shù)集的子集的函數(shù)DCIR-IR，若存在常數(shù)K,使得If何代繃蘭幻一時VfljfreD，則稱f符合利普希茨條件，對于 f最小的常數(shù)K稱為f的利普希茨常數(shù)。1若K < 1，f稱為收縮映射。利普希茨條件也可對任意度量空間的函數(shù)定義：給定兩個度量空間。若對于函數(shù)，存在常數(shù)K使得和嘰T（b）呂K加（砒）VSeLJ則說它符合利普希茨條件。2若存在K > 1使得詢（訓(xùn)皿（刃砒仙

24、）< k如詢wx u則稱f為雙李普希茨（bi-Lipschitz）的和KKT條深入理解拉格朗日乘子法(Lagra nge Multiplier)件p.94在求取有約束條件的優(yōu)化問題時，拉格朗日乘子法(Lagrange Multiplier) 和KKT條件是非常重要的兩個求取方法，對于等式約束的優(yōu)化問題，可以應(yīng)用拉格朗日乘子法去求取最優(yōu)值；如果含有不等式約束，可以應(yīng)用KKT條件去求取。當(dāng)然，這兩個方法求得的結(jié)果只是必要條件，只有當(dāng)是凸函數(shù)的情況下，才能保證是充分必要條件。KKT條件是拉格朗日乘子法的泛化。之前學(xué)習(xí)的時候，只知道直接應(yīng)用兩個方法，但是卻不知道為什么拉格朗日乘子法(Lagran

25、ge Multiplier) 和KKT條件能夠起作用，為什么要這樣去求取最優(yōu)值呢？本文將首先把什么是拉格朗日乘子法(Lagrange Multiplier) 和KKT條件敘述一下；然后開始分別談?wù)劄槭裁匆@樣求最優(yōu)值。一.拉格朗日乘子法(Lagrange Multiplier) 和KKT條件通常我們需要求解的最優(yōu)化問題有如下幾類：(i) 無約束優(yōu)化問題，可以寫為：min f(x);(ii) 有等式約束的優(yōu)化問題，可以寫為：min f(x),s.t. h_i(x) = 0; i =1, ., n(iii) 有不等式約束的優(yōu)化問題，可以寫為：min f(x),s.t. g_i(x) <= 0

26、; i =1, ., nh_j(x) = 0; j =1, ., m對于第(i)類的優(yōu)化問題，常常使用的方法就是Fermat定理，即使用求取f(x)的導(dǎo)數(shù)，然后令其為零，可以求得候選最優(yōu)值，再在這些候選值中驗證；如果是凸函數(shù)，可以保證是最優(yōu)解。對于第(ii)類的優(yōu)化問題，常常使用的方法就是拉格朗日乘子法( Lagrange Multiplier)，即把等式約束h_i(x)用一個系數(shù)與f(x)寫為一個式子，稱為拉格朗日函數(shù)，而系數(shù)稱為拉格朗日乘子。通過拉格朗日函數(shù)對各個變量求導(dǎo)，令其為零，可以求得候選值集合，然后驗證求得最優(yōu)值。對于第(iii)類的優(yōu)化問題，常常使用的方法就是KKT條件。同樣地

27、，我們把所有的等式、不等式約束與f(x)寫為一個式子，也叫拉格朗日函數(shù)，系數(shù)也稱拉格朗日乘子，通過一些條件，可以求出最優(yōu)值的必要條件，這個條件稱為KKT條件。(a)拉格朗日乘子法(Lagrange Multiplier)對于等式約束，我們可以通過一個拉格朗日系數(shù)a把等式約束和目標(biāo)函數(shù)組合成為一個式子L(a, x) = f(x) + a*h(x), 這里把a和h(x)視為向量形式，a是橫向量，h(x)為列向量，之所以這么寫，完全是因為csdn很難寫數(shù)學(xué)公式，只能將就了.。然后求取最優(yōu)值，可以通過對L(a,x)對各個參數(shù)求導(dǎo)取零，聯(lián)立等式進行求取，這個在高等數(shù)學(xué)里面有講，但是沒有講為什么這么做就可

28、以，在后面，將簡要介紹其思想。(b) KKT條件對于含有不等式約束的優(yōu)化問題，如何求取最優(yōu)值呢？常用的方法是KKT條件，同樣地，把所有的不等式約束、等式約束和目標(biāo)函數(shù)全部寫為一個式子L(a, b, x)= f(x) + a*g(x)+b*h(x)，KKT條件是說最優(yōu)值必須滿足以下條件：1. L(a, b, x)對x求導(dǎo)為零；2. h(x) =0;3. a*g(x) = 0;求取這三個等式之后就能得到候選最優(yōu)值。其中第三個式子非常有趣，因為 g(x)<=0，如果要滿足這個等式，必須a=0或者g(x)=0.這是SVM的很多重要性質(zhì)的來源，如支持向量的概念。二.為什么拉格朗日乘子法(Lagra

29、nge Multiplier) 和KKT條件能夠得到最優(yōu)值？為什么要這么求能得到最優(yōu)值？先說拉格朗日乘子法，設(shè)想我們的目標(biāo)函數(shù)z = f(x), x是向量,z取不同的值，相當(dāng)于可以投影在x構(gòu)成的平面(曲面)上，即成為等高線，如下圖，目標(biāo)函數(shù)是f(x, y)，這里x是標(biāo)量，虛線是等高線，現(xiàn)在假設(shè)我們的約束g(x)=0，x是向量，在x構(gòu)成的平面或者曲面上是一條曲線，假設(shè)g(x)與等高線相交，交點就是同時滿足等式約束條件和目標(biāo)函數(shù)的可行域的值，但肯定不是最優(yōu)值，因為相交意味著肯定還存在其它的等高線在該條等高線的內(nèi)部或者外部，使得新的等高線與目標(biāo)函數(shù)的交點的值更大或者更小，只有到等高線與目標(biāo)函數(shù)的曲

30、線相切的時候，可能取得最優(yōu)值，如下圖所示，即等高線和目標(biāo)函數(shù)的曲線在該點的法向量必須有相同方向，所以最優(yōu)值必須滿足：f(x)的梯度=a* g(x)的梯度，a是常數(shù)，表示左右兩邊同向。這個等式就是L(a,x)對參數(shù)求導(dǎo)的結(jié)果。(上述描述，我不知道描述清楚沒，如果與我物理位置很近的話，直接找我，我當(dāng)面講好理解一些，注：下圖來自wiki)。而KKT條件是滿足強對偶條件的優(yōu)化問題的必要條件，可以這樣理解：我們要求 min f(x), L(a, b, x) = f(x) + a*g(x) + b*h(x) , a>=0 ,我們可以把f(x)寫為：max_a,b L(a,b,x)，為什么呢？因

31、為 h(x)=0, g(x)<=0，現(xiàn)在是取 L(a,b,x)的最大值，a*g(x)是 <=0，所以L(a,b,x)只有在a*g(x) = 0的情況下才能取得最大值，否則，就不滿足約束條件，因此max_a,b L(a,b,x)在滿足約束條件的情況下就是f(x)，因此我們的目標(biāo)函數(shù)可以寫為min_x max_a,bL(a,b,x)。如果用對偶表達式：max_a,b min_x L(a,b,x)，由于我們的優(yōu)化是滿足強對偶的(強對偶就是說對偶式子的最優(yōu)值是等于原問題的最優(yōu)值的)，所以在取得最優(yōu)值x0的條件下，它滿足 f(x0) = max_a,b min_x L(a,b,x) = min_x max_a,b L(a,b,x) =f(x0)，我們來看看中間兩個式子發(fā)生了什么事情：f(x0) = max_a,b min_x L(a,b,x) = max_a,b min_x f(x) + a*g(x) + b*h(x) = max_a,b f(xO)+a*g(xO)+b*h(xO)= f(x0)可以看到上述加黑的地方本質(zhì)上是說min_x f(x) + a*g(x) +b*h(x)在x0取得了最小值，用fermat定理，即是說對于函數(shù)f(x) + a*g(x) + b*h(x)，求取導(dǎo)數(shù)要等于零，即f

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)中用到的數(shù)值分析

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)中用到的數(shù)值分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔