




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)公式詳解
第[章緒論
2第2章霞型評(píng)估與選擇
3第3章線性模型
4第4章決策樹
5第5章神經(jīng)網(wǎng)絡(luò)
6第6章支持向量機(jī)
7第7章貝葉斯分類器
8第8章集成學(xué)習(xí)
9第9章聚類
第10章‘降維與度量學(xué)習(xí)
0
1第II章特征選擇與稀疏學(xué)習(xí)
2第12章計(jì)算學(xué)習(xí)理論
3第13章半監(jiān)督學(xué)習(xí)
4第14章概率圖模型
5第15章規(guī)則學(xué)習(xí)
6第16章強(qiáng)化學(xué)習(xí)
第1章緒論
式(1.1)
電「ZX『㈤坳3"/㈤)PS|X£)
AafX-X
參見式(1.2)
式(1.2)
E"⑸叫工)“㈤)P(A|X£)
/,A■3片①
-E曄)£P(guān)(A|X£)EI(MZ)"(N))
■di/②
=XP㈤,P(?||X£);/三
rfXXA③
*£P(guān)㈤£W£)
"Y-fh④
■/?】TP㈤.i
4V⑤
③■⑥顯然成立
解析
?!觫?/p>
EEE玳(“)加(川xfj
/*uex-x
-Ep㈤xz>g)"g))pwx£)
u^X-X/A
=£p㈤£p(川XCJEKMMW/H)
MTTh1
②T③:首先要知道此時(shí)我們假設(shè)J是任何能將樣本映射到{01}的函數(shù).存在不止一個(gè)了
時(shí),/服從均勻分布,即每個(gè)/出現(xiàn)的概率相等.例如樣本空間只有兩個(gè)樣本時(shí),
*=即項(xiàng)}.|川=2.那么所有可能的真實(shí)目標(biāo)函數(shù)孜口下,
人:/乂對(duì))-o=1;
A:gJ-】JJ(如)-比
/<-A(Hl)-1J,*2)n1.
一共2田=少=4個(gè)可能的其實(shí)目標(biāo)函數(shù),所以此時(shí)通過算法£n學(xué)習(xí)出來的模型h(0對(duì)每個(gè)樣
本無論預(yù)測(cè)值為0還是1,都必然有一半的/與之預(yù)測(cè)值相等,例如,現(xiàn)在學(xué)出來的模型川工;
對(duì)N1的預(yù)測(cè)值為1,即“數(shù))=】,那么有且只有人和人與科蜥預(yù)測(cè)值相等,也就是有且只
£1(加0W加))=軻
有一半的/與它預(yù)測(cè)值相等,所以/2.
值得一提的是,在這里我們假設(shè)真實(shí)的目標(biāo)函數(shù)f服從均勻分布,但是實(shí)際情形并非如
此,通常我們只認(rèn)為能高度擬合已有樣本數(shù)據(jù)的函數(shù)才是真實(shí)目標(biāo)函數(shù),例如,現(xiàn)在已有
的樣本數(shù)據(jù)為{1工?。?lt;i'),那么此時(shí)為才是我們認(rèn)為的真實(shí)目標(biāo)函數(shù),由于沒有收集到
或者壓根不存在他MM◎⑷h伍|」),」工人機(jī)這類樣本,所以九加人都不
算是真實(shí)目標(biāo)函數(shù).這也就是“西瓜書”式(1.3)下面的第3段中“騎自行車”的例子所想表達(dá)的
內(nèi)容.
第2章模型評(píng)估與選擇
式(2.20)
?m-l
AUC■--1|),(防+瀝+1)
isl
解析
在解釋AUC式之前,需要先弄清楚RCC曲線的具體繪制過程.下面我們就舉個(gè)例子,按
照“西瓜書”圖2.4下方給出的繪制方法來講解一下RCK曲線的具體繪制過程.
假設(shè)我們己經(jīng)訓(xùn)練得到一個(gè)學(xué)習(xí)器〃*現(xiàn)在用該學(xué)習(xí)器來對(duì)8個(gè)洌試樣本(4個(gè)正例,4
個(gè)反例,即m+=m-=4)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果為:
(fl,0.77,+),(?2,0.62,-),(?3,0.58,+),(?,0.47,f)
(q047.-).(即,0.33,-)Jr,0.23,+)
此處用■表示樣本,以和坐標(biāo)(£”)作出區(qū)分
其中,,和一分別表示樣本為正例和為反例,數(shù)字表示學(xué)習(xí)器/預(yù)測(cè)該樣本為正例的概率,
例如對(duì)于反例的來說,當(dāng)前學(xué)習(xí)器/(?)預(yù)測(cè)它是正例的概率為。叔.
上面給出的預(yù)測(cè)結(jié)果已經(jīng)按照預(yù)測(cè)值從大到小排序
根據(jù)“西瓜書”上給出的繪制方法,首先需要對(duì)所有測(cè)試樣本按照學(xué)習(xí)器給出的預(yù)測(cè)結(jié)果進(jìn)
行排序,接著將分類閾值設(shè)為一個(gè)不可能取到的最大值.顯然,此時(shí)所有樣本預(yù)測(cè)為正例
的概率都一定小于分類閾值,那么預(yù)測(cè)為正例的樣本個(gè)數(shù)為0,相應(yīng)的真正例率和假正例
率也都為0,所以我們可以在坐標(biāo)Q0:處標(biāo)記一個(gè)點(diǎn).接下來需要把分類閾值從大到小依次
設(shè)為每個(gè)樣本的預(yù)測(cè)值,也就是依次設(shè)為0.77,0.62,0.58,0.47,0.33,0.23,0.15,然后分別計(jì)
算真正例率和假正例率,再在相應(yīng)的坐標(biāo)上標(biāo)記點(diǎn),最后再將各個(gè)點(diǎn)用直線連接,即可得
到RCC曲線.需要注意的是,在統(tǒng)計(jì)預(yù)測(cè)結(jié)果時(shí),預(yù)測(cè)值等于分類閾值的樣本也被算作預(yù)
測(cè)為正例.例如,當(dāng)分類閾值為n77時(shí),測(cè)試樣本d減預(yù)測(cè)為正例,由于它的真實(shí)標(biāo)記也
是正例,所以此時(shí)是一個(gè)真正例.為了便于繪圖,我們將工軸(假壬例率軸)的“步長”定
11
為不,y軸(真正例率軸)的“步長”定為二三根據(jù)真正例率和假正例率的定義可知,每次
t
變動(dòng)分類閾值時(shí),若新增,個(gè)假正例,那么相應(yīng)的工軸坐標(biāo)也就增加白;若新增J個(gè)真正
1
例,那么相應(yīng)的y軸坐標(biāo)也就增加嬴.按照以上講述的繪制流程,最終我們可以繪制出如
圖2“所示的KOC曲線.
圖2-1ROC曲線示意
注:表示紅色線段;表示藍(lán)色線段;_____表示綠色線段
在這里,為了能在解析式(2.21)時(shí)復(fù)用此圖,我們沒有寫上具體的數(shù)值,轉(zhuǎn)而用其數(shù)學(xué)符
號(hào)代替.其中綠色線段表示在分類閾值變動(dòng)的過程中只新增了真正例,紅色線段表示只新
增了假正例,藍(lán)色線段表示既新增了真正例也新增了假正例.根據(jù)AUC值的定義可知,此
時(shí)的AUC值其實(shí)就是所有紅色線段和藍(lán)色線段與了軸圍成的面積之和.觀察圖2“可知,紅色
線段與了軸圍成的圖形恒為矩形,盛色線段與了軸圍成的圖形恒為梯形.由于梯形面積式既
能算梯形面積,也能算矩形面積,所以無論是紅色線段還是藍(lán)色線段,其與工軸圍成的面
積都能用梯形公式來計(jì)算:
5(力+1一備)?(弘+弘+1)
其中,(31-xJ為“高力明為“上底”,阱n為嚇底”.那么對(duì)所有紅色線段和藍(lán)色線段與工軸
圍成的面積進(jìn)行求和,則有
£?。╣-加版+/+i)
tsi
此即AUC
式(2.21)
J=<EX(WQ)<,所))+;W(6"(O)
解析
按照我們上述對(duì)式(2.20)的解析思路,,一■可以看作是所有綠色線段和藍(lán)色線段與期軸闈成
的面積之和,但從式Q.21)中很難一眼看出其面積的具體計(jì)算方式,因此我們進(jìn)行恒等變
形如下:
J-</(?*))+^(/(?*)-/(?-))]
bwIMbWD*',
£[Ei(/①)</(=-))+:,£W(N+)=/(N-))
=E!!Ews*)</(工,))+
??UE?-vn-
E【(/—)
a~cD~?
=E5*L【(")<”-))+
>-?o-
w
2Ei(")■/"))
?一£11-
在變動(dòng)分類閾值的過程當(dāng)中,如果有新增真正例,那么圖2-1就會(huì)相應(yīng)地增加一條綠色線
E
段或藍(lán)色線段,所以上式中的面看可以看作是在累加所有綠色和藍(lán)色線段,相應(yīng)地,
?21后面的內(nèi)容便是在求綠色線段或者藍(lán)色線段與“軸圍成的面積,即;
EW(力</所))十5E“/(”?)-)).
I"1-mJ/m
?~wD-u~^D~
與式(2.20)中的求解思路相同,不論是綠色線段還是藍(lán)色線段,其與y軸圍成的圖,面積都
可以用梯形公式來進(jìn)行計(jì)算,所以上式表示的依舊是一個(gè)梯形的面積公式.其中薪即梯形
的“高”,中括號(hào)內(nèi)便是“上底+下底",下面我們來分別推導(dǎo)一下“上底(較短的底)和“下
底”(較長的底).
由于在繪制ROC曲線的過程中,每新增一個(gè)假正例時(shí)“坐標(biāo)也就新增一個(gè)步長,所以對(duì)于
1
“上底”,也就是綠色或者藍(lán)色線段的下端點(diǎn)到軸的距離,長度就等于U乘以預(yù)測(cè)值大于
〃工十)的假正例的個(gè)數(shù),即
*£1(/(?+)</(?■));
而對(duì)于“下底”,長度就等于二7乘以預(yù)測(cè)值大于等于/(的假正例的個(gè)數(shù),即
5(E</(?-))+£i(/(^)=/(z-))Y
\r^D~.FD*/
式(2.27)
€=max€s.t.Z(mj?(l-€)**■*<a
iatnxm-1*!'/
解析
截至2018年12月“西瓜書”第1版第30次印刷,式(2.27)應(yīng)當(dāng)勘誤為
e=mine&.t.£—CQ)"*-*<a
jm‘l'''
具體推導(dǎo)過程如下:由“西瓜書”中的上下文可知,對(duì),<a進(jìn)行假設(shè)檢驗(yàn),等價(jià)于本章附
注中所述的對(duì)D4為進(jìn)行假設(shè)檢驗(yàn),所以在“西瓜書”中求解最大錯(cuò)誤率7等價(jià)于在附注中求
-
解事件最大發(fā)生頻率/由附注可知
C=minCa.t.(:)/f
Mt7-F1'/
所以
C.C
—=mm-8.1£就i尸
mm
Qc
將上式中的UI,四等價(jià)替換為^工內(nèi)可得
e=mineM.g。)點(diǎn)1■4尸,(。
式⑵41)
川:=E[(/(x:r
D)nD)-yr))①
=ED[(/(?:〃)-f(x)+/(z)-yp)2②
2
=E0[(/(Z;D)-/(X))]+ED[(加)-㈤’卜
ED[2(/(X:D)-/(?))(/(x)-yD)③
=M[(/(z;D)一/㈤丹+Ep[(/(a)-如)’④
"ED"3;D)-施)丹+即[(『㈤-y+y-㈤’⑤
=%[(/(甌D)-/(*)丹+%[(/(?)-^+坳仙-加丹+
2即[l/(x|-j/ily-yi)\⑥
-%f(/(x;。)-加岡+(/(z)r戶+E。Ryp-y)r⑦
g②:減一個(gè)fW再加一個(gè)f(創(chuàng),屬于簡單的恒等變形
同①③一樣,減一個(gè)甌加一個(gè)4屬于簡單的恒等變形
同②珊一樣,將最后一項(xiàng)利用期望的運(yùn)算性質(zhì)進(jìn)行展開
解析
M):首先將中括號(hào)內(nèi)的式子展開,有
%[(/(?;。)一祠),(/M-to)1+2(a;D)一施))(祠一⑹],
然后根據(jù)期望的運(yùn)算性質(zhì)EA-ME[A1+E]可將上式化為
4[(/(?;D)-詞)]+%[(祠-即)1+
E,[2(〃室0-/(力)(/㈤一⑹].
③草:再次利用期望的運(yùn)算性質(zhì)將第3步得到的式子的最后一項(xiàng)展開,有
%[2(f(x;D)-/(?))(/(?)-FD)1
■ED【2(〃室D)-/(?))-/(z)]一ED|2(/(Z;D)-/(?))yn]
首先計(jì)算展開后得到的第1項(xiàng),有
%[2{/(z;D)-/{z))./(?)]-ED固□0?加)?2津)?/(?)].
由于f(z)是常量,所以由期望的運(yùn)算性質(zhì):用.4工+8]匚.4£:川+3(其中43均為常量)
可得
ED[2(/(Z;D)-/(Z))-/(1)]=2/(X)-ED(/(?;0)-2/(力/(?).
由式(2.37)可知E/>MHD)]/㈤,所以
Ep[2(/t:〃)-fix)).〃■)]=2/(z)-八0一2/(z)?f(s)=0
接著計(jì)算展開后得到的第二項(xiàng)
%[2(/(*;。)-/(?))?yo\=2Ep[/(mD)-yp]-2f(x)-即加],
由于噪聲和/無關(guān),所以/”;0和如是兩個(gè)相互獨(dú)立的隨機(jī)變量.根據(jù)期望的運(yùn)算性質(zhì)
EA*]E[F|(其中m口訥相互獨(dú)立的隨機(jī)變量)可得
/[2(/(*;。)■加)),㈤■塞D[/,;0,沏]-2/(1).%\gD
■2Epf/(?:0)1?ED加-2/(工)?ED\UD
■2/(?)-EDfirol-2f(x)?EDM
=0
所以
ED[2(/(z;D)-/(z)){/(z}.yD)]
=ED[2(/(Z;O)-*))?-ED[2(/(幽D)-f(x))?耐
■O+Q
K0
⑥T⑦:因?yàn)?4和眼為常量,根據(jù)期望的運(yùn)算性質(zhì),有⑥中的第2項(xiàng)
En[(/(?)-y)2]=(/(工)y)J
同理有⑥中的最后一項(xiàng)
2ED[(f(x)-1/)(y->D)]=2(,㈤一y)%(y-㈤,
由于此時(shí)假定噪聲的期望為零,即3)以-*)]?Q所以
2E0[(/(x)-y)(y-VD)]-2(/(x)-y)-0=0.
附注
二項(xiàng)分布參數(shù)m勺檢驗(yàn)[1]
設(shè)某事件發(fā)生的概率為P,以未知.做m次獨(dú)立試驗(yàn),每次觀察該事件是否發(fā)生,以*記該事
件發(fā)生的次數(shù),則X服從二項(xiàng)分布現(xiàn)根據(jù)X檢驗(yàn)如下假設(shè):
%:P4國;
Hi:p>內(nèi).
由二項(xiàng)分布本身的特性可知;P越小,獨(dú)到較小值的概率越大,因此,對(duì)于上述假設(shè),一
個(gè)直觀上合理的檢驗(yàn)為
9:"£C時(shí)接飄否則就拒絕仇
其中,表示事件最大發(fā)生次數(shù).此檢驗(yàn)對(duì)應(yīng)的功效函數(shù)為
flr(p)-P(X>C7)
-1-P(X<C)
由于“礴小,x取到較小值的概率越大”可以等價(jià)表示為:p(x&a是關(guān)于成勺減函數(shù),所
以內(nèi)⑵=p(x>c)=I-PZW。是關(guān)于『的增函數(shù),那么當(dāng)pSR時(shí),43)即%(P)的上
確界.乂根據(jù)參考文獻(xiàn)[1]中5.1.3的定義1.2可知,檢驗(yàn)水平C默認(rèn)取最小可能的水平,所以
在給定檢驗(yàn)水平n時(shí),可以通過如下方程解得滿足檢驗(yàn)水平c的整數(shù)C:
更為嚴(yán)格的數(shù)學(xué)證明參見參考文獻(xiàn)[1]中第二章習(xí)題7
。=sup{a(p)}
顯然,當(dāng)P《肉時(shí)有
a-=?up{flr(P))
■4佃)
對(duì)于此方程,通常不一定正好解得一個(gè)使得方程成立的整數(shù)G較常見的情況是存在這樣
一個(gè)「使得
Z(:)'("例廣<0
|“.1'7;
£(:)月(1-闖
此時(shí),Q只能取6或者⑦+1.若C取值則相當(dāng)于升高了檢驗(yàn)水平m若。取。/】則相當(dāng)于降
低了檢驗(yàn)水平n.具體如何取舍需要結(jié)合實(shí)際情況,但是通常為了減小犯第一類錯(cuò)誤的概
率,會(huì)傾向于令Q取0+1.
下面考慮如何求解日易證九&:是關(guān)于。的減函數(shù),再結(jié)合上述關(guān)于「的兩個(gè)不等式易推得
C=minCB.t.£(:)/4("內(nèi)廣<。
iaC41')
參考文獻(xiàn)
u陳希孺.概率論與數(shù)理統(tǒng)計(jì)[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2009.
第3章線性模型
式(3.5)
=2卜~£包-%
解析
HI
&“劇=5^E-wbY
己知£,所以
=2《瓜?叫?/
1x1
m
=£【2?3,一Mi,—6)?(一引
-I
m
■£R?(iwf-y,Ti+bii)
isl
=2,+bgj
\JiI?1J
=2-EM-卜)片)
VUI/
式(3.6)
凄^=2卜_£(*-叼“
解析
m
&“)=V(/一鼠小一W
已知X,所以
叫“)d/
-^一二麗[之(/_螞_8)
—柄
isl
m
=£口(如一11%—6)?(一1)]
£1
m
-|2?(6-%
t=i
IRmm\
2?-£防+22叫)
(JIi-lI/
=2("力-4(階?Wi))
式(3.7)
E以勺-£)
解析
令式(3.5)等于Q有
wim
0=-b)Ti,
xi1
Ii=i
]*ImIni
b=一力協(xié)-叫)-工如=§-52A=j
由于令式(3.6)等于0可得‘"X,又因?yàn)閞"X且用X,則
b=i-wir代入上式可得
mm■
如£4=Eg-E?-喙)孫
f=li=lt=l
wSi?=Ev*ii-*Ex<+,DiSxi'
T山£1日
i-l/i-1
將咚E”急唔m"?空65?—1/(5?)代入上式,即可
得式(3.7):
£班(美-了)
":*!尉
如果要想用Python來實(shí)現(xiàn)上式的話,上式中的求和運(yùn)算只能用循環(huán)來實(shí)現(xiàn).但是如果能將
上式向量化,也就是轉(zhuǎn)換成矩陣(即向量)運(yùn)算的話,我們就可以利用諸如NumPy這種
專門加速矩陣運(yùn)算的類庫來進(jìn)行編寫.下面我們就嘗試將上式進(jìn)行向量化.
1住J=心
將mJM代入分母可得
X航旭一工)
w=上___________
一1日
m
£僅內(nèi)■旅£)
£(才-?。?/p>
mmmmm
又因?yàn)檎糓占M£r且
HlHl.*FT1
£[(明’二釧土一石』十邛)
三.田-甲一瓊十日
比1(孫一萬(物一。
?仁?一尸
若令…工,|=(八一『」2一元…"m-TP為去均值后的.;
1/三舊卜他,…』n)L山■(班一仄假一仄…必一VF為去均值后的“,代入上式可得
“、R0加為彳而列的列向量
"一乖d
式(3.10)
—-2X1(Xw-v)
ikw
解析
將/*51V-XwlT(yX5展開可得
心=vrv-KTXW-wTXTy+wTXTXw
對(duì)溢導(dǎo)可得
gd守vdy^xwdwTxTva?Txrxw
------+
iiw[hisdwdw-------------dw
=0-XTV-Xvy.(XTX+XTX)讓
=2XT(XW-V)
TTT
daxdxadxAr..mT.
矩陣微分式F1=H=aF-=(4+A注
式(327)
m
,(向-E(-y0Z?In(l+」"))
解析
將式(3.26)代入式(3.25)可得
m
。伯)=£In(y(Pi(加汗)+(1-川內(nèi)(加《)).
其中川?,冽=闖卬加百,代入上式可得
■
由于眸0或1,則
I工卜編?卜(1*/'))…?1
兩式綜合可得
?同=玄(心-、("")》
4=1
由于此式仍為極大似然估計(jì)的似然函數(shù),所以最大化似然函數(shù)等價(jià)于最小化似然函數(shù)的相
反數(shù),即在似然函數(shù)前添加負(fù)號(hào)即可得式(3.27).值得一提的是,若將式(3.26)改寫為
pGgw,b)-佃他⑶聲優(yōu)偈⑶)F再代入式(3.25河得
,同=(佃(如向).佃國創(chuàng)F)
ui
m
?£伍b(ft(據(jù);例)+(1-喻卜(ft(A;砌)
t=t
m
=£(M伽(pi(,;例)-1n3(卻削)十必佃(為;再)))
?=1
整m(㈱)+2⑼)
=能(產(chǎn))+、($))
?£G0T,Tn(1+4*))
tsi
顯然,此種方式更易推導(dǎo)出式(3.27).
式(3.30)
叩t=l
解析
此式可以進(jìn)行向量化.令九一陰(以3),代入上式得
鬻=一£著3一鮑
=-加
t=l
=XT(ir-v)
XT(PI(X;3)-V)
式(3.32)
J=973-(冏--J"
gT(Eo+Ei)w
解析
IM%—-洲
WT(ED+Ei)v
卜打一辦尸[;
WT(£O+£I)W
WT(EO+EI)W
W]W
wT(lb^EI)W
=—31火}31一11)/卬
wr(Sn+Si)w
式(3.37)
ShW=ASWU!
解析
由式(3.36),可定義拉格朗日函數(shù)為
£(w.A)=-wTSiw+A(WTSU.W-1)
對(duì)靠求偏導(dǎo)可得
8L(wN_d(wlS^w)d(wlS^w-l)
dwDw+加
■■(S'+S;)w+A(Sr+s1)u.
=2ShW?24Su3.
這是由于S??S]、§?■s]
令上式等于。即可得
—2S^w+2XSvw=0
Skw=ASwt£
由于我們想要求解的只有tn而拉格朗日乘子退體取值多少都無葉謂,因此可以任意設(shè)
定】來配合我們求解WI注意到
s6s=(外一加乂/一"尸嗎
如果我們令人=(出一出)T叫那么上式即可改寫為
S加=*四|一
將其代入與",=AS"即可解得
式(3.38)
S6w=At/io-pJ
參見式(3.37)
式(339)
小=$丁(視一⑸
參見式(3.37)
式(3.43)
Sb=St—sw
N
■£mi3-㈤飆一〃尸
i=i
解析
由式(3.40)、式(3.41)、式(3.42)可得:
Sh=S.■S.
■N
■£(%—〃)(s—一££g—聞(方一間'
tai?£晨
=£@3(g-w-NT-g■聞g-W))
£(!>-")①-冏—-川,田)]
?IJx,/
-E(E(?T_-M?T+M+*+Ml/—/MG
=£(Z(T“T一心T+"+*P?+3,-件后))
?->1IwX,/
=£(-gw,-EH+E3+
*wk/
N
-£-四川十朝〃,丁+仙"/丁+四i:-mgg
t=l
!9
-£(-mg",-+2/1,fm/流
i=l
=£m,(-四〃T-M+M+
t=!
N
式(3.44)
tr(lVTS3V)
爐HWEW)
解析
此式是式(3.35)的推廣形式,證明如下.
設(shè)卬?1嗎叫…工,,.….心「)—'"-1),其中犯€片對(duì)為d行1列的列向量,則
/?-i
T
tr(lVS^)=£w7Skvb
NT
U(WTS9W)=EW[SM,
所以式(3.44)可變形為
IN-\
E⑼
a4=1
------
£B「S■皿
t=i
對(duì)比式(3.35)易知,上式即式(3.35)的推廣形式.
式(3.45)
SkW=AS.H
解析
同式(3.35),此處也固定式(3.44)的分母為1,那么式(3.44)此時(shí)等價(jià)于如下優(yōu)化問題
但-3例丁$網(wǎng)
根據(jù)拉格朗日乘子法,可定義上述優(yōu)化問題的拉格朗日函數(shù)
"W內(nèi)=-EMSM+MEMS」W)-"
根據(jù)矩陣微分式近"(XTBX)■(,+小)*對(duì)上式關(guān)于哪偏導(dǎo)可得
dUW,A)a(tr(WT?w))“tr(WT&W)-1)
aw-=aiv1-w
=-⑸+怨)IV+入⑸,+S:)W
=-2SM,2XSwW.
這是由丁S>?S;且s.?s!
令上式等于0即可得
-2SbW+2XSwW-0
SKW=ASgW
第4章決策樹
式(4.1)
必
Em(D)-㈱如2PA
&=i
解析
下面證明DgEnt(D)<:log.\y.
已知集合成信息嫡的定義為
Eht(D)--匯以丘2跺
n
oc^ci.yP*=I
其中,?慳示樣本類別總數(shù),%表示第&類樣本所占的比例,有占.若令
卜1=兒內(nèi)=%那么信息嫡Eut(D)就可以看作一個(gè)n元實(shí)值函數(shù),即
n
Ent(。)=/(町,…:4)=■£n1。&5
4=1
ra
其中上.
下面考慮求該多元函數(shù)的最值.首先我們先來求最大值,如果不考慮約束0404】而僅考
n
慮g"=\則對(duì)/(〃「?,力求最大值等價(jià)于如下最小化問題;
n
minnlog2q
1=1
M
=i
k=i
顯然,在時(shí),此問題為凸優(yōu)化問題.對(duì)于凸優(yōu)化問題來說,使其拉格朗日函數(shù)的
一階偏導(dǎo)數(shù)等于0的點(diǎn)即最優(yōu)解.根據(jù)拉格朗日乘子法可知,該優(yōu)化問題的拉格朗日函數(shù)為
以工匕…,、閭=£工*M4+入
\k=lJ
其中,1為拉格朗日乘子.對(duì)〃內(nèi),…,RZ分別關(guān)于力,…,求一階偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)
等于o可得
^^耀—八信旬卜
=啕孫+町-+A=0
flInJ
=1°副《H+—+A=C
2In2
/F唱后…一(ET卜。
孫%£工』*+延時(shí)1)]=。
、11
a(m=。
n2"=1.
整理一下可得
A?-logjJi-白』一坳益?白=…=-106axm-占,
以一
(I
由以上兩個(gè)方程可以解得
1
M1T~??=3一
又因?yàn)椤鬟€需滿足約束1,顯然所以〃=及=…=是滿足所有
約束的坡優(yōu)解,即當(dāng)]前最小化問題的最小值點(diǎn),同時(shí)也是/(孫…,G:的最大值點(diǎn).將
"=燈=…=J='代入〃工)中可得
/=■尸[厄的』=-n'-iog2-=1。的“
\nn/j-jnnnn
R
ow=i
所以/Gi「?在滿足約束£時(shí)的最大值為路外.
52n=1
下面求最小值.如果不考慮約束M而僅考慮。(口(L則〃及「,?7)可以看作〃個(gè)
互不相關(guān)的一元函數(shù)的和,即
/(了2??,北)
1-1
其中,g(川―一川。5〃,08nSL那么當(dāng)加川屈丁?!?巾;)分別取到其最小值時(shí),
/(0,???4)也就取到了最小值.所以接下來考慮分別求…,仙”各自的最小
值,由于。,的定義域和函數(shù)表達(dá)式均相同,所以只需求出d&)的最小值
也就求出了"沖),…,的最小值.下面考慮求“方)的最小值,首先對(duì)“了1次于孫求一階
和二階導(dǎo)數(shù),有
Ji\d{fk<E)t____1,_1
*'=-須?冊(cè)=-g工LR
顯然,當(dāng)04口41時(shí)門")=一亞恒小于0,所以十5)是一個(gè)在其定義域范圍內(nèi)開口向
下的凹函數(shù),那么其最小值必然在邊界取.分別取打=。和h=1,代入4方)可得
計(jì)算信息熠時(shí)約定:若*°Q,則£嘀/=。
g(0)=—0logo0=0
y(0=-1logjl=0
所以,*1)的最小值為0,同理可得“物),…屈?。┑淖钚≈狄捕紴?,即〃九…H)的最
小值為o.但是,此時(shí)僅考慮約束0(打《],而未考慮M.若考慮約束X,那
么〃的最小值一定大于等于0.如果令某個(gè)“二L那么強(qiáng)據(jù)約束X可知
f|s1*]S***sJT*_]=1*141=….1.M0,將其代入?.zj可得
――…網(wǎng)
■-OlogaO-Okc^O——OlotgO-lk)fhl-Olot^O—??,-Ok?iO■Q
所以〃=I,xi=切工…工1rl=4.1=…-0—定是〃了h…在滿足約束
f>=l
M和0《n4】的條件下的最小值點(diǎn),此時(shí)/取到最小值0.
綜上可知,當(dāng)〃方「?,口)取到最大值時(shí):》.??...?/?;;,此時(shí)樣本集合純度最
低;當(dāng)〃方,….J)取到最小值時(shí):〃=卜了1=12='''=幾-1="3=’?'=了n=U,此時(shí)
樣本集合純度最高.
式(42)
GMQa)=Ent⑼En?h)
此為信息增益的定義式.在信息論中信息增益也稱為互信息(參見本章附注①),表示已
知一個(gè)隨機(jī)變量的信息后另一個(gè)隨機(jī)變量的不確定性減少的程度.所以此式可以理解為,
在已知屬性優(yōu)的取值后,樣本類別這個(gè)隨機(jī)變量的不確定性減小的程度.若根據(jù)某個(gè)屬性計(jì)
算得到的信息增益越大,則說明在知道其取值后樣本集的不確定性減小的程度越大,
即“西瓜書”上所說的“純度提升”越大.
式(4.6)
Ginijixicx(D,a)
此為數(shù)據(jù)集用屬性〃的基尼指數(shù)的定義,表示在屬性的取值已知的條件下,數(shù)據(jù)集按
照屬性「的所有可能取值劃分后的純度.不過在構(gòu)造CART決策樹時(shí)并不會(huì)嚴(yán)格按照此式來
選擇最優(yōu)劃分屬性,主要是因?yàn)镃ART決策樹是一棵二叉樹,如果用上面的式去選出最優(yōu)
劃分屬性,無法進(jìn)一步選出最優(yōu)劃分屬性的最優(yōu)劃分點(diǎn).常用的CART決策樹的構(gòu)造算法如
下:
(1)考慮每個(gè)屬性n的每個(gè)可能取值小將數(shù)據(jù)集。分為a=1:和。*I兩部分來計(jì)算基尼指
數(shù),即
|D?|
Gmiji>dex(D,a)■GH(D+
⑵選擇基尼指數(shù)最小的屬性及其對(duì)應(yīng)取值作為最優(yōu)劃分屬性和最優(yōu)劃分點(diǎn);
⑶重復(fù)以上兩步,直至滿足停止條件,
下面以“西瓜書”中表4.2中西瓜數(shù)據(jù)集2.0為例來構(gòu)造CART決策樹,其中第一個(gè)最優(yōu)劃分
屬性和最優(yōu)劃分點(diǎn)的計(jì)算過程如下;以屬性“色澤”為例,它有3個(gè)可能的取值;{青綠},
{烏黑},{淺白},若使用該屬性的屬性值是否等于“青綠”對(duì)數(shù)據(jù)集成行劃分,則可得到
2個(gè)子集,分別記為打'(色澤二青綠),從色澤W青綠).子集。咆含編號(hào)UIf川,13”共6個(gè)
33
樣例,其中正例占■=£反例占力=禮子集加包含編號(hào)(2.3,5,7,8911,12.14,15,16)共
5_6
11個(gè)樣例,其中正例占出.記,反例占內(nèi)二記,根據(jù)式(4.5)可計(jì)算出用“色澤二青綠”劃分
之后得到基尼指數(shù)為
Giniindex0色澤=青綠)
=nx(1-G)-(D*)+x0-(H)■(H)*)=0497
類似地,可以計(jì)算出不同屬性取不同值的基尼指數(shù)如下:
Gini_index(〃色澤=烏黑)=0.456
Gini_indcx(〃色澤二淺白)=0.426
Gini_index(〃根蒂=蜷縮)=0456
Gini_index(〃根蒂=稍蜷)=0.496
Gini_index(〃根蒂二硬挺)=0.439
Ginijndexm敲聲=濁響)=0450
Gini_index(E(敲聲=沉悶)=0.494
Gini_index(A敲聲二清脆)二0.439
Gini_index(〃紋理=清晰)=0.286
Gini_index(〃紋理二稍?。?0.437
Gini_index(一紋理=模糊)=0.403
Gini_index(“臍部=凹陷)=0.415
Gini_index(〃臍部=稍凹)=0.497
GinLindex(一臍部=平坦)=0.362
Gini_index(〃觸感二硬挺)=0.494
Gini_index(4觸感=軟粘)=0494.
特別地,對(duì)于屬性“觸感”,由于它的可取值個(gè)數(shù)為2,所以其實(shí)只需計(jì)算其中一個(gè)取值的
基尼指數(shù)即可.根據(jù)上面的計(jì)算結(jié)果可知,Gini_indux(〃紋理=清晰)二0.286最小,所以選
擇屬性“紋理”為最優(yōu)劃分屬性并生成根節(jié)點(diǎn),接著以“紋理=清晰”為最優(yōu)劃分點(diǎn)生成。1紋
理:清晰)、加(紋理,清晰)兩個(gè)子節(jié)點(diǎn),對(duì)兩個(gè)子節(jié)點(diǎn)分別重復(fù)上述步驟繼續(xù)生成下一層
子節(jié)點(diǎn),直至滿足停止條件,
以上便是CART決策樹的構(gòu)建過程,從構(gòu)建過程可以看出,CART決策樹最終構(gòu)造出來的
是一棵二叉樹CART除了決策樹能處理分類問題以外,回歸樹還可以處理回歸問題,附注
②中給出了CART回歸樹的構(gòu)造算法.
式(4.7)
此式所表達(dá)的思想很簡單,就是以每兩個(gè)相鄰取值的中點(diǎn)作為劃分點(diǎn).
下面以“西瓜書,葉表4.3中西瓜數(shù)據(jù)集3.0為例來說明此式的用法.對(duì)了“密度”這個(gè)連續(xù)屬
性,已觀測(cè)到的可能取值為{0,243,0.245,0.343,0.360,0.403,0.437,
0.481,0.556,0.593,0.608,0.634,0.639,0,657,0.666,0.697,0.719,0.774}共17個(gè)值,根據(jù)式(4.7)可
知,此時(shí),依次取1到16,那么“密度”這個(gè)屬性的候選劃分點(diǎn)集合為
一,0.243+0.2450.245+0.3430.343+0.洸0
。盛。二。.小蒜仁小2
0.48110.5560.556+0.5930.5品0.608
2,2,2~
0.608+0.6340.634+0.6390.639+0.657
2'2'?
0.657+0.6660.666+0.6970.697+0.7190.719+0.774
)
215'5'2
式(4.8)
Gnin(D,a)=maxGain(D?a,()
IFZ.
-maxEiM(D)-£罌昉
解析
此式是式(42)用于離散化后的連續(xù)屬性的版本,其中Z由式(4.7)計(jì)算得來,入€{-,+}表示
屬性。的取值分別小于等于和大于候選劃分點(diǎn)?時(shí)的情形,即當(dāng)入=■時(shí)有當(dāng)
A三十時(shí)有歷=
附注
①互信息[1]
在解釋互信息之前,需要先解釋一下什么是條件場(chǎng).條件嫡表示的是在已知一個(gè)隨機(jī)變量
的條件下,另一個(gè)隨機(jī)變量的不確定性.具體地,假設(shè)有隨機(jī)變量用口丫且它們服從以下
聯(lián)合概率分布
P(X=Xj,V=yj)=i=1,2,,n,j=,m.
那么在已知如勺條件下,隨機(jī)變量啪條件場(chǎng)為
Ent(r|X)■Z/Ent(y|X-r,),
tsi
其中,上=n'=1/=12,??,%互信息定義為信息嫡和條件嫡的差,它表示的是己知一
個(gè)隨機(jī)變量的信息后使得另一個(gè)隨機(jī)變量的不確定性減少的程度.具體地,假設(shè)有隨機(jī)變
量腳Y那么在已知的信息后,的不確定性減少的程度為
I(y:X)=Ent(r)-Ent(y|X)
此即互
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 激光行業(yè)競(jìng)爭(zhēng)分析與策略試題及答案
- 油層物理考試題及答案
- 系統(tǒng)規(guī)劃與管理師考試線上課程評(píng)價(jià)試題及答案
- 藥品市場(chǎng)動(dòng)態(tài)與策略應(yīng)對(duì)試題及答案
- 考試中應(yīng)注意的時(shí)間管理試題及答案
- 報(bào)關(guān)實(shí)務(wù)考試試題及答案
- 河南音樂樂理試題及答案
- 藥物儲(chǔ)存與管理知識(shí)試題及答案
- 衛(wèi)生管理機(jī)構(gòu)評(píng)價(jià)題目
- 幼兒文學(xué)對(duì)口試題及答案
- 部編人教版五年級(jí)語文下冊(cè)教學(xué)策略計(jì)劃
- 2025北京豐臺(tái)高三一模物理試題及答案
- 江南美術(shù)遺產(chǎn)融入美育的數(shù)智化路徑探索
- 動(dòng)物生理學(xué)第十二章-泌乳
- 互聯(lián)網(wǎng)+旅游創(chuàng)新創(chuàng)業(yè)
- 金屬礦床地下開采-全知識(shí)點(diǎn)
- 西雅圖駕駛證考題及答案
- 血站服務(wù)禮儀培訓(xùn)
- TSHAEPI 016-2024 風(fēng)冷熱泵機(jī)組噪聲振動(dòng)控制技術(shù)要求
- 濱海城市災(zāi)害防控-深度研究
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)危險(xiǎn)性較大的分部分項(xiàng)工程專項(xiàng)施工方案嚴(yán)重缺陷清單(試行)解讀
評(píng)論
0/150
提交評(píng)論