常見的機器學習數(shù)學知識點_第1頁
常見的機器學習數(shù)學知識點_第2頁
常見的機器學習數(shù)學知識點_第3頁
常見的機器學習數(shù)學知識點_第4頁
常見的機器學習數(shù)學知識點_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

常見的機器學習&數(shù)據(jù)挖掘知識點原文:一只鳥的天空(/heyongluoyao8)常見的機器學習&數(shù)據(jù)挖掘知識點之BasisSSE(SumofSquaredError,平方誤差和)

SSE=∑i=1n(Xi?Xˉˉˉ)2SAE(SumofAbsoluteError,絕對誤差和)

SAE=∑i=1n|Xi?Xˉˉˉ|SRE(SumofRelativeError,相對誤差和)

SRE=∑i=1nXi?XˉˉˉXˉˉˉMSE(MeanSquaredError,均方誤差)

MSE=∑ni=1(Xi?Xˉˉˉ)2nRMSE(RootMeanSquaredError,均方根誤差),又稱SD(StandardDeviation,標準差)

RMSE=∑ni=1(Xi?Xˉˉˉ)2n?????????????√MAE(MeanAbsoluteError,平均絕對誤差)

MAE=∑ni=1|Xi?Xˉˉˉ|nRAE(RootAbsoluteError,平均絕對誤差平方根)

RAE=∑ni=1|Xi?Xˉˉˉ|n????????????√MRSE(MeanRelativeSquareError,相對平均誤差)

MRSE=∑ni=1Xi?XˉˉXˉˉnRRSE(RootRelativeSquaredError,相對平方根誤差)

RRSE=∑ni=1Xi?XˉˉXˉˉn???????????Expectation(期望)&Variance(方差)

??期望是描述一個隨機變量的“期望值”,方差反映著隨機變量偏離期望的程度,偏離程度越大哦,方差越大,反之則相反。對于離散隨機變量X,其期望為:

E(X)=∑i=1∞xip(xi)??其中p(x)為隨機變量的X的分布率(概率分布).

??其方差為:

D(X)=∑i=1∞[xi?E(X)]2p(xi)??對于連續(xù)變量X,其期望為:

E(X)=∫+∞?∞xf(x)dx??其中f(x)為隨機變量的X的概率密度分布.

??其方差為:

D(X)=∫+∞?∞[x?E(X)]2f(x)dx??對于Y=g(X)(g是連續(xù)函數(shù)),則Y的期望為:

??X是離散隨機變量:

E(Y)=E(g(x))=∑i=1∞g(xi)p(xi)??X是連續(xù)隨機變量:

E(Y)=E(g(x))=∫+∞?∞g(xi)f(x)dx??常見分布的期望與方差:分布/數(shù)字特征期望方差兩點分布qpq二項分布npnpq泊松分布λλ均勻分布a+b2112(b?a)2指數(shù)分布1λ1λ2正態(tài)分布μσ2?標準差:

??標準差為方差的平方根,即:

V(X)=D(X)?????√JP(JointProbability,聯(lián)合概率)

二維離散隨機變量X,

Y

聯(lián)合概率分布(分布率)

P(x,y)=P{X=xi,Y=yi}=pijpij≥0∑ijpij=∑i∑jpij=1聯(lián)合分布函數(shù)

F(x,y)=P{X≤x,Y≤y}=∑x∑yP(x,y)二維連續(xù)隨機變量X,

Y

聯(lián)合概率密度

f(x,y)聯(lián)合分布函數(shù)

F(x,y)=∫x?∞∫y?∞f(u,v)dudvf(x,y)≥0∫+∞?∞∫+∞?∞f(x,y)dxdy=F(+∞,+∞)=1MP(MarginalProbability,邊緣概率)

二維離散隨機變量

X的邊緣分布率

pi.=P{X=xi}=∑j=1∞pij,j=1,2,3,...Y的邊緣分布率

p.j=P{Y=yi}=∑i=1∞pij,i=1,2,3,...X的邊緣分布函數(shù)

FX(x)=F(x,+∞)=P{X≤x}=P{X≤x,Y≤+∞}Y的邊緣分布函數(shù)

FY(y)=F(+∞,y)=P{Y≤y}=P{X≤+∞,Y≤y}二維連續(xù)隨機變量

X的邊緣分布率

fX(x)=∫+∞?∞f(x,y)dyY的邊緣分布率

fY(y)=∫+∞?∞f(x,y)dxX的邊緣分布函數(shù)

FX(x)=F(x,+∞)=∫x?∞[∫+∞?∞f(u,y)dy]duY的邊緣分布函數(shù)

FY(y)=F(y,+∞)=∫y?∞[∫+∞?∞f(x,v)dx]dvIndependence(獨立性)

??若對一切x,

y,都有:

P{X≤x,Y≤y}=P{X≤x}P{Y≤y}??即:

F(x,y)=FX(x)FY(y)則隨機變量X,Y是互相獨立的.

??對于離散隨機變量,等價于:

P{X=xi,Y=yj}=P{X=xi}P{Y=yj},i,j=1,2,...??對于連續(xù)隨機變量,等價于:

f(x,y)=fx(x)fy(y)CP(ConditionalProbability,條件概率)

??對于離散隨機變量,定義為:

若P{Y=yj}>0:

P{X=xi|Y=yj}=P{X=xi,Y=yj}P{Y=yj}=pijp.j,i=1,2,...??而P{Y=yj}=p.j=∑i=1∞pij??因此:

P{X=xi|Y=yj}=P{X=xi,Y=yj}P{Y=yj}=pij∑∞i=1pij,i=1,2,...??上式即為在Y=yj條件下X的條件分布律.

??同理:

P{Y=yj|X=xi}=P{X=xi,Y=yj}P{X=xi}=pij∑∞j=1pij,j=1,2,...??上式即為在X=xi條件下Y的條件分布律.

??對于連續(xù)隨機變量,定義為:

FX|Y(x|y)=P{X≤x|Y=y}=∫x?∞f(x,y)dxfY(y)FY|X(y|x)=P{Y≤y|X=x}=∫y?∞f(x,y)dyfX(x)??條件概率密度分別為:

fX|Y(x|y)=f(x,y)fY(y)fY|X(y|x)=f(x,y)fX(x)BayesianFormula(貝葉斯公式)

??使用已知知識來對先驗概率進行修正,得到后驗概率,即得到條件概率:

P(Bi||A)=P(Bi)P(A|Bi)∑ni=1P(Bi)P(A|Bi)??P(Bi||A)為后驗概率,P(Bi|)為先驗概率.CC(CorrelationCoefficient,相關(guān)系數(shù))

??對于(X,Y)為二維隨機變量,若E{[X?E(X)][Y?E(Y)]}存在,則稱它為隨機變量X與Y的協(xié)方差,記為cov(X,Y)或σXY,即:cov(X,Y))=E{[X?E(X)][Y?E(Y)]}??當D(X)>0,D(Y)>0時,

ρXY=cov(X,Y)D(X)?????√D(Y)?????√稱為隨機變量X,Y的相關(guān)系數(shù)或標準協(xié)方差.

??特別地,

cov(X,X)=D(X)cov(Y,Y)=D(Y)因此方差是協(xié)方差的特例.

??若X,Y相互獨立,則cov(X,Y)=0,從而ρXY=0.同時|ρXY|≤1.若|ρXY|=1,則隨機變量X,Y線性相關(guān).

+1代表正線性相關(guān),?1代表負線性相關(guān),絕對值越大則表明它們之間越相關(guān),若為0,則表示它們互相獨立.Covariance(協(xié)方差矩陣)

??若X是由隨機變量組成的n列向量,E(Xi)=μi,那么協(xié)方差矩陣定義如下:

Σ=???E{[X1?E(X1)][X1?E(X1)]}...E{[Xn?E(Xn)][X1?E(X1)]}.........E{[X1?E(X1)][Xn?E(Xn)]}...E{[Xn?E(Xn)][Xn?E(Xn)]}???=???E{[X1?μ1][X1?μ1]}..E{[Xn?μn][X1?μ1]}.........E{[X1?μ1][Xn?μn]}...E{[Xn?μn][Xn?μn]}???Quantile(分位數(shù))

??對隨機變量X,其分布函數(shù)為F(x),任意給定α,0<α<1,P(X<=x)=F(x)=α所對應的x,為α分位數(shù).LMS(LeastMeanSquared,最小均方)

??優(yōu)化的目標為使得均方誤差最小,參數(shù)即為最小時所對應的參數(shù)值,即:

θ=argminθ12∑ni=1(Xi?Xˉˉˉ)2n=argminθ12∑i=1n(Xi?Xˉˉˉ)2??公式中的12為了在求導過程中的方便,因為平方項在求導過程中會產(chǎn)生一個2倍,這樣便能約掉常數(shù)項,目標函數(shù)乘以一個常數(shù)對結(jié)果是沒有影響的,只是目標值縮小了一半,但是其所對應的參數(shù)還是不變的??梢允褂锰荻认陆捣▉磉M行求解。LSM(LeastSquareMethods,最小二乘法)

??在最小二乘法中使用最小均方來對參數(shù)進行求解,對于樣本點集(X,Y)={(X1,y1),...,(Xn,yn)},其中每個樣本特征向量為Xi={xi1,...,xim},n為樣本個數(shù),m為樣本點的維度,那么其線性回歸方程:

f(Xi)=w0+w1xi1+w2xi2+...+wmxim=WT[1,XiT]T,i∈[1,n]??那么,優(yōu)化目標為:

minF=min12∑i=1n(f(Xi)?yi)2??為了書寫方便,將常數(shù)1作為每個樣本特征向量的第1個分量,即Xi={1,xi1,...,xim},那么線性回歸方程變?yōu)椋?/p>

f(Xi)=WTXi,i∈[1,n]??那么優(yōu)化目標為:

minF=min12∑i=1n(WTXi?yi)2GD(GradientDescent,梯度下降)

??對于最小二乘法中的F最小化求解使用梯度下降算法進行求解(如果是求解最大值,則使用梯度上升算法),梯度下降算法即為從某個初始點出發(fā),按照梯度下降的方向,每次前進一步,直到最小值點,因此需要一個步長α。

首先求取梯度

?wJ(w)=∑i=1n(WTXi?yi)Xi=XT(XWT?y→)??那么前進方向為g=??wJ(w),即梯度的反方向,如果是梯度上升算法,那么就是梯度方向,則不需要在前面加上負號.然后按照梯度方向進行前進

W:=W+αg??其中α>0,它是一個步長,對于α具體取多大的值,一般按照經(jīng)驗進行取,可以從10,1,0.1,0.01,0.001不斷進行嘗試而取一個合理的值。而可以剛開始取一個較大值,后面越來越小,這樣剛開始步子就大一點,到逐漸接近最優(yōu)點的時候,放慢腳步,如果這時候過大,就會造成一直在最優(yōu)點附近震蕩。最后,按照步驟2進行迭代更新W,直到目標函數(shù)值不再變化,或者變化的范圍小于事先設定的閾值。所以,梯度下降算法的一個缺點就是需要確定α的值,但是該值并不好確定,需要不斷進行嘗試和依靠經(jīng)驗。SGD(StochasticGradientDescent,隨機梯度下降)

??在梯度下降法中,參數(shù)的每一次更新都要使用訓練集中的全部的樣本(批量梯度下降算法),這樣速度便相對較慢,于是每次更新時隨機選擇一個樣本進行更新參數(shù),這樣便能提高計算速度,但每次更新的方向并不一定朝著全局最優(yōu)化方向.正規(guī)方程求解方法

??該方法利用極值點的偏導數(shù)為0,即令:

?WJ(W)=XTXWT?XTy→=0??得到正規(guī)方程:

XTXW=XTy→??求解W:

W=(XTX)?1XTy→??該方法的時間復雜度為O(n3),因為需要對矩陣求逆運算,其中n為(XTX)?1的特征數(shù)量,如果n值很大,那么求解速度將會很慢。對此,AndrewNg的經(jīng)驗建議是:如果n>10000,那么使用梯度下降算法進行求解。同時,如果(XTX)是奇異矩陣,即含有0特征值,那么其便不可逆,一個解決方法便是L2正則,后面將會講到。MLE(MaximumLikelihoodEstimation,極大似然估計)

??在我們已經(jīng)知道到隨機變量的一系列觀察值,即試驗結(jié)果已知(樣本),而需要求得滿足該樣本分布的參數(shù)θ,于是我們需要采取某種方法對θ進行估計,在最大似然估計中,我們假定觀察的樣本是該樣本分布下中最大可能出現(xiàn)的,把最大可能性所對應的參數(shù)θ對真實的θ?進行參數(shù)估計。

對于離散隨機變量

??設總體X是離散隨機變量,其概率分布P(x;θ)(注意:與P(x,θ)的區(qū)別,前者中θ是一個常數(shù),只是值暫時不知道,也就是它是一個確定值,而后者中θ是一個隨機變量),其中θ是未知參數(shù).設X1,X2,...,Xn分別都是取自總體X的樣本,我們通過試驗觀察到各樣本的取值分別是x1,x2,...,xn,則該事件發(fā)生的概率,即它們的聯(lián)合概率為:

P(X1=x1,X2=x2,...,Xn=xn)??假設它們獨立同分布,那么聯(lián)合概率為:

P(X1=x1,X2=x2,...,Xn=xn)=∏i=1nP(xi;θ)因為xi,i∈{1,2,...,n}都是已知的確定的值,那么上式的值取決于θ,從直觀上來說,一件已經(jīng)發(fā)生的事件,那么該事件發(fā)生概率應該較大,我們假設該事件的發(fā)生概率是最大的,即x1,x2,...,xn的出現(xiàn)具有最大的概率,在這種假設下去求取θ值.

??定義似然函數(shù)為:

?(θ)=?(x1,x2,...,xn;θ)=∏i=1nP(xi;θ)它是關(guān)于θ的函數(shù).

??極大似然估計法就是在參數(shù)θ的取值范圍Θ內(nèi)選取一個使得?(θ)達到最大值所對應的參數(shù)θ^,用來作為θ的真實值θ?的估計值,即:

θ=argmaxθ∈Θ?(x1,x2,...,xn;θ)

??這樣,對求解總體X的參數(shù)θ極大似然估計問題轉(zhuǎn)化為求似然函數(shù)?(θ)的最大值為題,那么求去最大值問題可以使用導函數(shù)進行求解.

??為了便于求解,對似然函數(shù)進行l(wèi)n運算,因為ln為遞增函數(shù),那么ln(?(θ))與?(θ)在同一處取得最大值,于是,

ln?(θ)=ln∏i=1nP(xi;θ)=∑i=1nlnP(xi;θ)??對上式進行求導操作,并令導函數(shù)為0:

dln?(θ)dθ=0解該方程,得到θ作為真實值的估計.對于連續(xù)離散隨機變量:

??設總體X是連續(xù)隨機變量,其概率密度函數(shù)為f(x;θ),對樣本X1,X2,...,Xn觀察得到的樣本值分別為x1,x2,...,xn,那么聯(lián)合密度函數(shù)為:

∏i=1nf(xi;θ)則,似然函數(shù)為:

?(θ)=∏i=1nf(xi;θ)??同理,按照先前的處理與求解方式,即極大似然估計法,求取theta值.

??前面所說的使用已知知識對先驗概率進行矯正,得到后驗概率,便可以用到似然函數(shù),即后驗概率=先驗概率*似然函數(shù).極大似然估計步驟:

由總體分布導出樣本的聯(lián)合概率函數(shù)(或聯(lián)合密度);把樣本聯(lián)合概率函數(shù)(或聯(lián)合密度)中自變量看成為已知數(shù),而參數(shù)θ作為自變量未知數(shù),得到似然函數(shù)?(θ);將似然函數(shù)轉(zhuǎn)化為對數(shù)似然函數(shù),然后求取對數(shù)似然函數(shù)的最大值,一般使用求導方法;最后得到最大值表達式,用樣本值代入得到參數(shù)的極大似然估計值.QP(QuadraticProgramming,二次規(guī)劃)

??我們經(jīng)常用到線性規(guī)劃去求解一部分問題,然后很多問題是非線性的,而二次規(guī)劃是最簡單的非線性規(guī)劃,簡稱QP問題,何為二次規(guī)劃,即其目標函數(shù)是二次函數(shù),而約束條件是線性約束的最優(yōu)化問題.用數(shù)學語言描述,其標準形式為:

minf(x)=12xTGx+gTxs.t.aTix=bi,i∈EaTjx≥bj,j∈I其中,G是n×n的對稱矩陣(Hessian矩陣),E,I分別對應等式約束和不等式約束指標集合,g,x,{ai|i∈E},{aj|j∈I}都是n維列向量

若G正半定,那么QP問題存在全局最優(yōu)解(凸二次規(guī)劃);若G正定,那么QP問題存在唯一的全局最優(yōu)價(凸二次規(guī)劃);若G不定,那么可能存在非全局的最優(yōu)解;

凸二次規(guī)劃即二次規(guī)劃目標函為維凸函數(shù).L1/L2Regularization(L1/L2正則)

??我們在做數(shù)據(jù)挖掘或機器學些的時候,在訓練數(shù)據(jù)不夠時,或者出現(xiàn)過度訓練時,往往容易過擬合,即訓練時效果特別好,而測試時或者在新數(shù)據(jù)來臨時,模型效果較差,即為模型的泛化能力比較差。隨著訓練過程不斷進行,該模型在trainingdata上的error漸漸減小,但是在驗證集上的error卻反而漸漸增大——因為訓練出來的網(wǎng)絡過擬合了訓練集,對訓練集外的數(shù)據(jù)(測試數(shù)據(jù)或者新數(shù)據(jù))卻不work。如下圖所示:

??避免過擬合的方法有很多:earlystopping,數(shù)據(jù)集擴增(Dataaugmentation),正則化(Regularization),Dropout等.

L1

??L1正則是一個稀疏規(guī)則算子,其是在代價函數(shù)(優(yōu)化目標函數(shù))后面加上參數(shù)w絕對值和乘以λn,目標函數(shù)即為:

F=F0+λn∑w|w|其中F0為原目標函數(shù),那么新目標函數(shù)的導數(shù)為:

?F?w=?F0?w+λnsgn(w)上式中sgn(w)是w的符號函數(shù),α>0是更新步長,它是一個常數(shù),λ>0是正則項數(shù),它是一個常數(shù),那么參數(shù)w的梯度下降算法更新方程為:

w:=w?α?F0?w?αλnsgn(w)上面的更新方程比原來的多了αλnsgn(w)這一項.當w為正時,更新后w變小,為負時則相反,即將w往0值靠,這樣對于那些接近0值的參數(shù),那么就可能為0,這樣很多w就會趨近于0,這樣便起到了稀疏作用,也就是為何叫做”稀疏規(guī)則算子”了,這樣相當于降低了模型的復雜度,提高模型泛化能力,防止過擬合.

??任何正則化算子,如果它在等于0處不可微,并且可以分解為一個“求和”的形式,那么這個正則化算子就可以實現(xiàn)稀疏.也就是這么說,w的L1范數(shù)正則是絕對值,而|w|在w=0處是不可微.其實L0范數(shù)正則(L0范數(shù)是指向量中非0的元素的個數(shù)),也可以達到稀疏目的,但是現(xiàn)實中為什么不用L0正則呢,因為L0范數(shù)正則的優(yōu)化是一個NP難問題,所以L1范數(shù)正則具有更好的優(yōu)化特性.

??在w的更新式子中,當w為0時,|w|是不可導的,所以需要按照原始的未經(jīng)正則化的方法去更新w,即為了方便我們定義sgn(0)=0,這樣便統(tǒng)一了所有情況.

??L1正則的稀疏性特性可能用來進行特征選擇,只選擇那些重要的,區(qū)分能力強的特征,而去掉那些不重要的,區(qū)分能力不強的特征.雖然如果加上這些特征,可能會使得在模型訓練時效果更好,但是可能會造成過擬合,從而模型的泛化能力不強.

??在線性回歸中使用L1正則的叫做LASSO(LeastAbsoluteShrinkageandSelectionatorOperatorL1正則最小二乘回歸).L2

??L2范數(shù)正則化是在代價函數(shù)(優(yōu)化目標函數(shù))后面加上平方和正則項,即:

F=F0+λ2n∑ww2注意:常數(shù)項的w是不帶入正則項中的,為了便于區(qū)分,將其用b表示.

其中F0為原始目標函數(shù),在正則項前面乘以12是為了在求導過程中方便,因為平方項在求導過程中會產(chǎn)生一個2倍,這樣便能約掉常數(shù)項.那么新目標函數(shù)的導數(shù)為:

?F?w=?F0?w+λnw?F?b=?F0?b??這樣參數(shù)的更新方程為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論