2022機(jī)器學(xué)習(xí)公式詳解

上傳人：無*** IP屬地：河北上傳時(shí)間：2024-12-07 格式：PDF 頁數(shù)：151 大小：26.19MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩146頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)公式詳解

第［章緒論

2第2章霞型評(píng)估與選擇

3第3章線性模型

4第4章決策樹

5第5章神經(jīng)網(wǎng)絡(luò)

6第6章支持向量機(jī)

7第7章貝葉斯分類器

8第8章集成學(xué)習(xí)

9第9章聚類

第10章‘降維與度量學(xué)習(xí)

1第II章特征選擇與稀疏學(xué)習(xí)

2第12章計(jì)算學(xué)習(xí)理論

3第13章半監(jiān)督學(xué)習(xí)

4第14章概率圖模型

5第15章規(guī)則學(xué)習(xí)

6第16章強(qiáng)化學(xué)習(xí)

第1章緒論

式(1.1)

電「ZX『㈤坳3"/㈤)PS|X￡)

AafX-X

參見式(1.2)

式(1.2)

E"⑸叫工)“㈤)P(A|X￡)

/，A■3片①

-E曄)￡P(guān)(A|X￡)EI(MZ)"(N))

■di/②

=XP㈤，P(?||X￡)；/三

rfXXA③

*￡P(guān)㈤￡W￡)

"Y-fh④

■/?】TP㈤.i

4V⑤

③■⑥顯然成立

解析

?！觫?/p>

EEE玳(“)加(川xfj

/*uex-x

-Ep㈤xz>g)"g))pwx￡)

u^X-X/A

=￡p㈤￡p(川XCJEKMMW/H)

MTTh1

②T③：首先要知道此時(shí)我們假設(shè)J是任何能將樣本映射到｛01｝的函數(shù).存在不止一個(gè)了

時(shí)，/服從均勻分布，即每個(gè)/出現(xiàn)的概率相等.例如樣本空間只有兩個(gè)樣本時(shí)，

*=即項(xiàng)｝.|川=2.那么所有可能的真實(shí)目標(biāo)函數(shù)孜口下,

人：/乂對(duì)）-o=1；

A:gJ-】JJ（如）-比

/<-A（Hl）-1J，*2）n1.

一共2田=少=4個(gè)可能的其實(shí)目標(biāo)函數(shù)，所以此時(shí)通過算法￡n學(xué)習(xí)出來的模型h（0對(duì)每個(gè)樣

本無論預(yù)測(cè)值為0還是1，都必然有一半的/與之預(yù)測(cè)值相等，例如，現(xiàn)在學(xué)出來的模型川工；

對(duì)N1的預(yù)測(cè)值為1，即“數(shù)）=】，那么有且只有人和人與科蜥預(yù)測(cè)值相等，也就是有且只

￡1（加0W加））=軻

有一半的/與它預(yù)測(cè)值相等，所以/2.

值得一提的是，在這里我們假設(shè)真實(shí)的目標(biāo)函數(shù)f服從均勻分布，但是實(shí)際情形并非如

此，通常我們只認(rèn)為能高度擬合已有樣本數(shù)據(jù)的函數(shù)才是真實(shí)目標(biāo)函數(shù)，例如，現(xiàn)在已有

的樣本數(shù)據(jù)為｛1工?。?lt;i'）,那么此時(shí)為才是我們認(rèn)為的真實(shí)目標(biāo)函數(shù)，由于沒有收集到

或者壓根不存在他MM◎⑷h伍|」）,」工人機(jī)這類樣本,所以九加人都不

算是真實(shí)目標(biāo)函數(shù).這也就是“西瓜書”式（1.3）下面的第3段中“騎自行車”的例子所想表達(dá)的

內(nèi)容.

第2章模型評(píng)估與選擇

式(2.20)

?m-l

AUC■--1|),(防+瀝+1)

isl

解析

在解釋AUC式之前，需要先弄清楚RCC曲線的具體繪制過程.下面我們就舉個(gè)例子，按

照“西瓜書”圖2.4下方給出的繪制方法來講解一下RCK曲線的具體繪制過程.

假設(shè)我們己經(jīng)訓(xùn)練得到一個(gè)學(xué)習(xí)器〃*現(xiàn)在用該學(xué)習(xí)器來對(duì)8個(gè)洌試樣本(4個(gè)正例，4

個(gè)反例，即m+=m-=4)進(jìn)行預(yù)測(cè)，預(yù)測(cè)結(jié)果為：

(fl,0.77,+),(?2,0.62,-),(?3,0.58,+),(?,0.47,f)

(q047.-).(即,0.33,-)Jr,0.23,+)

此處用■表示樣本，以和坐標(biāo)(￡”)作出區(qū)分

其中，，和一分別表示樣本為正例和為反例，數(shù)字表示學(xué)習(xí)器/預(yù)測(cè)該樣本為正例的概率，

例如對(duì)于反例的來說，當(dāng)前學(xué)習(xí)器/(?)預(yù)測(cè)它是正例的概率為。叔.

上面給出的預(yù)測(cè)結(jié)果已經(jīng)按照預(yù)測(cè)值從大到小排序

根據(jù)“西瓜書”上給出的繪制方法，首先需要對(duì)所有測(cè)試樣本按照學(xué)習(xí)器給出的預(yù)測(cè)結(jié)果進(jìn)

行排序，接著將分類閾值設(shè)為一個(gè)不可能取到的最大值.顯然，此時(shí)所有樣本預(yù)測(cè)為正例

的概率都一定小于分類閾值，那么預(yù)測(cè)為正例的樣本個(gè)數(shù)為0,相應(yīng)的真正例率和假正例

率也都為0,所以我們可以在坐標(biāo)Q0：處標(biāo)記一個(gè)點(diǎn).接下來需要把分類閾值從大到小依次

設(shè)為每個(gè)樣本的預(yù)測(cè)值，也就是依次設(shè)為0.77,0.62,0.58,0.47,0.33,0.23,0.15,然后分別計(jì)

算真正例率和假正例率，再在相應(yīng)的坐標(biāo)上標(biāo)記點(diǎn)，最后再將各個(gè)點(diǎn)用直線連接，即可得

到RCC曲線.需要注意的是，在統(tǒng)計(jì)預(yù)測(cè)結(jié)果時(shí)，預(yù)測(cè)值等于分類閾值的樣本也被算作預(yù)

測(cè)為正例.例如，當(dāng)分類閾值為n77時(shí)，測(cè)試樣本d減預(yù)測(cè)為正例，由于它的真實(shí)標(biāo)記也

是正例，所以此時(shí)是一個(gè)真正例.為了便于繪圖，我們將工軸(假壬例率軸)的“步長(zhǎng)”定

為不,y軸(真正例率軸)的“步長(zhǎng)”定為二三根據(jù)真正例率和假正例率的定義可知，每次

變動(dòng)分類閾值時(shí)，若新增，個(gè)假正例，那么相應(yīng)的工軸坐標(biāo)也就增加白；若新增J個(gè)真正

例，那么相應(yīng)的y軸坐標(biāo)也就增加嬴.按照以上講述的繪制流程，最終我們可以繪制出如

圖2“所示的KOC曲線.

圖2-1ROC曲線示意

注：表示紅色線段；表示藍(lán)色線段；_____表示綠色線段

在這里，為了能在解析式（2.21）時(shí)復(fù)用此圖，我們沒有寫上具體的數(shù)值，轉(zhuǎn)而用其數(shù)學(xué)符

號(hào)代替.其中綠色線段表示在分類閾值變動(dòng)的過程中只新增了真正例，紅色線段表示只新

增了假正例，藍(lán)色線段表示既新增了真正例也新增了假正例.根據(jù)AUC值的定義可知，此

時(shí)的AUC值其實(shí)就是所有紅色線段和藍(lán)色線段與了軸圍成的面積之和.觀察圖2“可知，紅色

線段與了軸圍成的圖形恒為矩形，盛色線段與了軸圍成的圖形恒為梯形.由于梯形面積式既

能算梯形面積，也能算矩形面積，所以無論是紅色線段還是藍(lán)色線段，其與工軸圍成的面

積都能用梯形公式來計(jì)算：

5（力+1一備）?（弘+弘+1）

其中，（31-xJ為“高力明為“上底”，阱n為嚇底”.那么對(duì)所有紅色線段和藍(lán)色線段與工軸

圍成的面積進(jìn)行求和，則有

￡丁（g-加版+/+i）

tsi

此即AUC

式（2.21）

J=<EX（WQ）<，所））+；W（6"（O）

解析

按照我們上述對(duì)式（2.20）的解析思路，，一■可以看作是所有綠色線段和藍(lán)色線段與期軸闈成

的面積之和，但從式Q.21）中很難一眼看出其面積的具體計(jì)算方式，因此我們進(jìn)行恒等變

形如下：

J-＜/（?*））+^（/（?*）-/（?-））]

bwIMbWD*',

￡[Ei（/①）＜/（=-））+：,￡W（N+）=/（N-））

=E!!Ews*）＜/（工，））+

??UE?-vn-

E【（/—）

a~cD~?

=E5*L【（"）＜”-））+

＞-?o-

2Ei（"）■/"））

?一￡11-

在變動(dòng)分類閾值的過程當(dāng)中，如果有新增真正例，那么圖2-1就會(huì)相應(yīng)地增加一條綠色線

段或藍(lán)色線段，所以上式中的面看可以看作是在累加所有綠色和藍(lán)色線段，相應(yīng)地，

?21后面的內(nèi)容便是在求綠色線段或者藍(lán)色線段與“軸圍成的面積，即；

EW（力＜/所））十5E“/（”?）-））.

I"1-mJ/m

?~wD-u~^D~

與式（2.20）中的求解思路相同，不論是綠色線段還是藍(lán)色線段，其與y軸圍成的圖,面積都

可以用梯形公式來進(jìn)行計(jì)算，所以上式表示的依舊是一個(gè)梯形的面積公式.其中薪即梯形

的“高”，中括號(hào)內(nèi)便是“上底+下底"，下面我們來分別推導(dǎo)一下“上底（較短的底）和“下

底”（較長(zhǎng)的底）.

由于在繪制ROC曲線的過程中，每新增一個(gè)假正例時(shí)“坐標(biāo)也就新增一個(gè)步長(zhǎng)，所以對(duì)于

“上底”，也就是綠色或者藍(lán)色線段的下端點(diǎn)到軸的距離，長(zhǎng)度就等于U乘以預(yù)測(cè)值大于

〃工十）的假正例的個(gè)數(shù)，即

*￡1（/（?+）＜/（?■））；

而對(duì)于“下底”，長(zhǎng)度就等于二7乘以預(yù)測(cè)值大于等于/（的假正例的個(gè)數(shù)，即

5(E</(?-))+￡i(/(^)=/(z-))Y

\r^D~.FD*/

式(2.27)

€=max€s.t.Z(mj?(l-€)**■*<a

iatnxm-1*!'/

解析

截至2018年12月“西瓜書”第1版第30次印刷，式(2.27)應(yīng)當(dāng)勘誤為

e=mine&.t.￡—CQ)"*-*<a

jm‘l'''

具體推導(dǎo)過程如下：由“西瓜書”中的上下文可知，對(duì),<a進(jìn)行假設(shè)檢驗(yàn)，等價(jià)于本章附

注中所述的對(duì)D4為進(jìn)行假設(shè)檢驗(yàn)，所以在“西瓜書”中求解最大錯(cuò)誤率7等價(jià)于在附注中求

解事件最大發(fā)生頻率/由附注可知

C=minCa.t.(：)/f

Mt7-F1'/

所以

C.C

—=mm-8.1￡就i尸

將上式中的UI,四等價(jià)替換為^工內(nèi)可得

e=mineM.g。)點(diǎn)1■4尸,(。

式⑵41)

川:=E[(/(x：r

D)nD)-yr))①

=ED[(/(?：〃)-f(x)+/(z)-yp)2②

=E0[(/(Z;D)-/(X))]+ED[(加)-㈤’卜

ED[2(/(X:D)-/(?))(/(x)-yD)③

=M[(/(z;D)一/㈤丹+Ep[(/(a)-如)’④

"ED"3；D)-施)丹+即[(『㈤-y+y-㈤’⑤

=%[(/(甌D)-/(*)丹+%[(/(?)-^+坳仙-加丹+

2即[l/(x|-j/ily-yi)\⑥

-%f(/(x；。)-加岡+(/(z)r戶+E。Ryp-y)r⑦

g②：減一個(gè)fW再加一個(gè)f(創(chuàng)，屬于簡(jiǎn)單的恒等變形

同①③一樣，減一個(gè)甌加一個(gè)4屬于簡(jiǎn)單的恒等變形

同②珊一樣，將最后一項(xiàng)利用期望的運(yùn)算性質(zhì)進(jìn)行展開

解析

M)：首先將中括號(hào)內(nèi)的式子展開，有

%[(/(?；。)一祠)，(/M-to)1+2(a；D)一施))(祠一⑹],

然后根據(jù)期望的運(yùn)算性質(zhì)EA-ME[A1+E]可將上式化為

4[(/(?;D)-詞)]+%[(祠-即)1+

E,[2(〃室0-/(力)(/㈤一⑹].

③草：再次利用期望的運(yùn)算性質(zhì)將第3步得到的式子的最后一項(xiàng)展開，有

%[2(f(x;D)-/(?))(/(?)-FD)1

■ED【2(〃室D)-/(?))-/(z)]一ED|2(/(Z;D)-/(?))yn]

首先計(jì)算展開后得到的第1項(xiàng)，有

%[2{/(z;D)-/{z))./(?)]-ED固□0?加)?2津)?/(?)].

由于f(z)是常量，所以由期望的運(yùn)算性質(zhì)：用.4工+8]匚.4￡：川+3(其中43均為常量)

可得

ED[2(/(Z;D)-/(Z))-/(1)]=2/(X)-ED(/(?；0)-2/(力/(?).

由式(2.37)可知E/>MHD)]/㈤,所以

Ep[2(/t：〃)-fix)).〃■)]=2/(z)-八0一2/(z)?f(s)=0

接著計(jì)算展開后得到的第二項(xiàng)

%[2(/(*;。)-/(?))?yo\=2Ep[/(mD)-yp]-2f(x)-即加],

由于噪聲和/無關(guān)，所以/”；0和如是兩個(gè)相互獨(dú)立的隨機(jī)變量.根據(jù)期望的運(yùn)算性質(zhì)

EA*]E[F|(其中m口訥相互獨(dú)立的隨機(jī)變量)可得

/[2(/(*；。)■加))，㈤■塞D[/,；0,沏]-2/(1).%\gD

■2Epf/(?:0)1?ED加-2/(工)?ED\UD

■2/(?)-EDfirol-2f(x)?EDM

所以

ED[2(/(z;D)-/(z)){/(z}.yD)]

=ED[2(/(Z;O)-*))?-ED[2(/(幽D)-f(x))?耐

■O+Q

⑥T⑦：因?yàn)?4和眼為常量，根據(jù)期望的運(yùn)算性質(zhì)，有⑥中的第2項(xiàng)

En[(/(?)-y)2]=(/(工)y)J

同理有⑥中的最后一項(xiàng)

2ED[(f(x)-1/)(y->D)]=2(，㈤一y)%(y-㈤,

由于此時(shí)假定噪聲的期望為零，即3)以-*)]?Q所以

2E0[(/(x)-y)(y-VD)]-2(/(x)-y)-0=0.

附注

二項(xiàng)分布參數(shù)m勺檢驗(yàn)[1]

設(shè)某事件發(fā)生的概率為P,以未知.做m次獨(dú)立試驗(yàn)，每次觀察該事件是否發(fā)生，以*記該事

件發(fā)生的次數(shù)，則X服從二項(xiàng)分布現(xiàn)根據(jù)X檢驗(yàn)如下假設(shè)：

%：P4國(guó)；

Hi：p>內(nèi).

由二項(xiàng)分布本身的特性可知；P越小，獨(dú)到較小值的概率越大,因此，對(duì)于上述假設(shè)，一

個(gè)直觀上合理的檢驗(yàn)為

9:"￡C時(shí)接飄否則就拒絕仇

其中，表示事件最大發(fā)生次數(shù).此檢驗(yàn)對(duì)應(yīng)的功效函數(shù)為

flr（p）-P（X>C7）

-1-P（X<C）

由于“礴小，x取到較小值的概率越大”可以等價(jià)表示為：p（x&a是關(guān)于成勺減函數(shù)，所

以內(nèi)⑵=p（x>c）=I-PZW。是關(guān)于『的增函數(shù)，那么當(dāng)pSR時(shí)，43）即％（P）的上

確界.乂根據(jù)參考文獻(xiàn)［1］中5.1.3的定義1.2可知，檢驗(yàn)水平C默認(rèn)取最小可能的水平，所以

在給定檢驗(yàn)水平n時(shí)，可以通過如下方程解得滿足檢驗(yàn)水平c的整數(shù)C：

更為嚴(yán)格的數(shù)學(xué)證明參見參考文獻(xiàn)［1］中第二章習(xí)題7

。=sup{a（p）}

顯然，當(dāng)P《肉時(shí)有

a-=?up{flr（P））

■4佃）

對(duì)于此方程，通常不一定正好解得一個(gè)使得方程成立的整數(shù)G較常見的情況是存在這樣

一個(gè)「使得

Z（：）'（"例廣<0

|“.1'7;

￡（:）月（1-闖

此時(shí)，Q只能取6或者⑦+1.若C取值則相當(dāng)于升高了檢驗(yàn)水平m若。取。/】則相當(dāng)于降

低了檢驗(yàn)水平n.具體如何取舍需要結(jié)合實(shí)際情況，但是通常為了減小犯第一類錯(cuò)誤的概

率，會(huì)傾向于令Q取0+1.

下面考慮如何求解日易證九&：是關(guān)于。的減函數(shù)，再結(jié)合上述關(guān)于「的兩個(gè)不等式易推得

C=minCB.t.￡（：）/4（"內(nèi)廣<。

iaC41'）

參考文獻(xiàn)

u陳希孺.概率論與數(shù)理統(tǒng)計(jì)[M].合肥：中國(guó)科學(xué)技術(shù)大學(xué)出版社,2009.

第3章線性模型

式(3.5)

=2卜~￡包-%

解析

&“劇=5^E-wbY

己知￡,所以

=2《瓜?叫?/

1x1

=￡【2?3,一Mi,—6)?(一引

-I

■￡R?(iwf-y,Ti+bii)

isl

=2,+bgj

\JiI?1J

=2-EM-卜)片)

VUI/

式(3.6)

凄^=2卜_￡(*-叼“

解析

&“)=V(/一鼠小一W

已知X,所以

叫“）d/

-^一二麗［之（/_螞_8）

—柄

isl

=￡口（如一11%—6）?（一1）］

￡1

-|2?（6-%

t=i

IRmm\

2?-￡防+22叫）

（JIi-lI/

=2（"力-4（階?Wi））

式（3.7）

E以勺-￡)

解析

令式（3.5）等于Q有

wim

0=-b）Ti,

xi1

Ii=i

］*ImIni

b=一力協(xié)-叫）-工如=§-52A=j

由于令式（3.6）等于0可得‘"X,又因?yàn)閞"X且用X,則

b=i-wir代入上式可得

mm■

如￡4=Eg-E?-喙）孫

f=li=lt=l

wSi?=Ev*ii-*Ex<+,DiSxi'

T山￡1日

i-l/i-1

將咚E”急唔m"?空65?—1/（5?）代入上式,即可

得式（3.7）：

￡班（美-了）

":*!尉

如果要想用Python來實(shí)現(xiàn)上式的話，上式中的求和運(yùn)算只能用循環(huán)來實(shí)現(xiàn).但是如果能將

上式向量化，也就是轉(zhuǎn)換成矩陣（即向量）運(yùn)算的話，我們就可以利用諸如NumPy這種

專門加速矩陣運(yùn)算的類庫來進(jìn)行編寫.下面我們就嘗試將上式進(jìn)行向量化.

1住J=心

將mJM代入分母可得

X航旭一工）

w=上___________

一1日

￡僅內(nèi)■旅￡）

￡（才-?。?/p>

mmmmm

又因?yàn)檎糓占M￡r且

HlHl.*FT1

￡［（明’二釧土一石』十邛）

三.田-甲一瓊十日

比1（孫一萬（物一。

?仁?一尸

若令…工,|=(八一『」2一元…"m-TP為去均值后的.；

1/三舊卜他,…』n)L山■(班一仄假一仄…必一VF為去均值后的“，代入上式可得

“、R0加為彳而列的列向量

"一乖d

式(3.10)

—-2X1(Xw-v)

ikw

解析

將/*51V-XwlT(yX5展開可得

心=vrv-KTXW-wTXTy+wTXTXw

對(duì)溢導(dǎo)可得

gd守vdy^xwdwTxTva?Txrxw

------+

iiw[hisdwdw-------------dw

=0-XTV-Xvy.(XTX+XTX)讓

=2XT(XW-V)

TTT

daxdxadxAr..mT.

矩陣微分式F1=H=aF-=(4+A注

式(327)

，(向-E(-y0Z?In(l+」"))

解析

將式(3.26)代入式(3.25)可得

。伯)=￡In(y(Pi(加汗)+(1-川內(nèi)(加《)).

其中川?,冽=闖卬加百，代入上式可得

■

由于眸0或1,則

I工卜編?卜(1*/'))…?1

兩式綜合可得

?同=玄(心-、("")》

4=1

由于此式仍為極大似然估計(jì)的似然函數(shù)，所以最大化似然函數(shù)等價(jià)于最小化似然函數(shù)的相

反數(shù)，即在似然函數(shù)前添加負(fù)號(hào)即可得式(3.27).值得一提的是，若將式(3.26)改寫為

pGgw,b)-佃他⑶聲優(yōu)偈⑶)F再代入式(3.25河得

，同=(佃(如向).佃國(guó)創(chuàng)F)

?￡伍b(ft(據(jù)；例)+(1-喻卜(ft(A；砌)

t=t

=￡(M伽(pi(,；例)-1n3(卻削)十必佃(為;再)))

?=1

整m(㈱)+2⑼)

=能(產(chǎn))+、($))

?￡G0T,Tn(1+4*))

tsi

顯然，此種方式更易推導(dǎo)出式(3.27).

式(3.30)

叩t=l

解析

此式可以進(jìn)行向量化.令九一陰(以3),代入上式得

鬻=一￡著3一鮑

=-加

t=l

=XT(ir-v)

XT(PI(X;3)-V)

式(3.32)

J=973-(冏--J"

gT(Eo+Ei)w

解析

IM%—-洲

WT(ED+Ei)v

卜打一辦尸[；

WT(￡O+￡I)W

WT(EO+EI)W

W]W

wT(lb^EI)W

=—31火｝31一11)/卬

wr(Sn+Si)w

式(3.37)

ShW=ASWU!

解析

由式(3.36),可定義拉格朗日函數(shù)為

￡(w.A)=-wTSiw+A(WTSU.W-1)

對(duì)靠求偏導(dǎo)可得

8L(wN_d(wlS^w)d(wlS^w-l)

dwDw+加

■■(S'+S；)w+A(Sr+s1)u.

=2ShW?24Su3.

這是由于S??S]、§?■s]

令上式等于。即可得

—2S^w+2XSvw=0

Skw=ASwt￡

由于我們想要求解的只有tn而拉格朗日乘子退體取值多少都無葉謂，因此可以任意設(shè)

定】來配合我們求解WI注意到

s6s=(外一加乂/一"尸嗎

如果我們令人=(出一出)T叫那么上式即可改寫為

S加=*四|一

將其代入與"，=AS"即可解得

式(3.38)

S6w=At/io-pJ

參見式(3.37)

式(339)

小=$丁(視一⑸

參見式(3.37)

式(3.43)

Sb=St—sw

■￡mi3-㈤飆一〃尸

i=i

解析

由式(3.40)、式(3.41)、式(3.42)可得：

Sh=S.■S.

■N

■￡（%—〃）（s—一￡￡g—聞（方一間'

tai?￡晨

=￡@3(g-w-NT-g■聞g-W))

￡(!>-")①-冏—-川，田)]

?IJx,/

-E(E(?T_-M?T+M+*+Ml/—/MG

=￡(Z(T“T一心T+"+*P?+3,-件后))

?->1IwX,/

=￡(-gw，-EH+E3+

*wk/

-￡-四川十朝〃，丁+仙"/丁+四i：-mgg

t=l

-￡(-mg"，-+2/1，fm/流

i=l

=￡m,(-四〃T-M+M+

t=!

式(3.44)

tr(lVTS3V)

爐HWEW)

解析

此式是式（3.35）的推廣形式，證明如下.

設(shè)卬?1嗎叫…工，,.….心「）—'"-1）,其中犯€片對(duì)為d行1列的列向量，則

/?-i

tr(lVS^)=￡w7Skvb

U(WTS9W)=EW[SM，

所以式(3.44)可變形為

IN-\

E⑼

a4=1

------

￡B「S■皿

t=i

對(duì)比式(3.35)易知，上式即式(3.35)的推廣形式.

式(3.45)

SkW=AS.H

解析

同式(3.35),此處也固定式(3.44)的分母為1,那么式(3.44)此時(shí)等價(jià)于如下優(yōu)化問題

但-3例丁$網(wǎng)

根據(jù)拉格朗日乘子法，可定義上述優(yōu)化問題的拉格朗日函數(shù)

"W內(nèi)=-EMSM+MEMS」W)-"

根據(jù)矩陣微分式近"(XTBX)■(,+小)*對(duì)上式關(guān)于哪偏導(dǎo)可得

dUW,A)a(tr(WT?w))“tr(WT&W)-1)

aw-=aiv1-w

=-⑸+怨)IV+入⑸,+S：)W

=-2SM，2XSwW.

這是由丁S>?S；且s.?s!

令上式等于0即可得

-2SbW+2XSwW-0

SKW=ASgW

第4章決策樹

式(4.1)

必

Em(D)-㈱如2PA

&=i

解析

下面證明DgEnt(D)＜：log.\y.

已知集合成信息嫡的定義為

Eht(D)--匯以丘2跺

oc^ci.yP*=I

其中，?慳示樣本類別總數(shù)，%表示第&類樣本所占的比例，有占.若令

卜1=兒內(nèi)=%那么信息嫡Eut(D)就可以看作一個(gè)n元實(shí)值函數(shù)，即

Ent(。)=/(町,…：4)=■￡n1。&5

4=1

其中上.

下面考慮求該多元函數(shù)的最值.首先我們先來求最大值，如果不考慮約束0404】而僅考

慮g"=\則對(duì)/(〃「?,力求最大值等價(jià)于如下最小化問題；

minnlog2q

1=1

k=i

顯然，在時(shí)，此問題為凸優(yōu)化問題.對(duì)于凸優(yōu)化問題來說，使其拉格朗日函數(shù)的

一階偏導(dǎo)數(shù)等于0的點(diǎn)即最優(yōu)解.根據(jù)拉格朗日乘子法可知，該優(yōu)化問題的拉格朗日函數(shù)為

以工匕…,、閭=￡工*M4+入

\k=lJ

其中，1為拉格朗日乘子.對(duì)〃內(nèi),…,RZ分別關(guān)于力,…,求一階偏導(dǎo)數(shù)，并令偏導(dǎo)數(shù)

等于o可得

^^耀—八信旬卜

=啕孫+町-+A=0

flInJ

=1°副《H+—+A=C

2In2

/F唱后…一(ET卜。

孫%￡工』*+延時(shí)1)]=。

、11

a(m=。

n2"=1.

整理一下可得

A?-logjJi-白』一坳益?白=…=-106axm-占,

以一

由以上兩個(gè)方程可以解得

M1T~??=3一

又因?yàn)椤鬟€需滿足約束1，顯然所以〃=及=…=是滿足所有

約束的坡優(yōu)解，即當(dāng)］前最小化問題的最小值點(diǎn)，同時(shí)也是/（孫…,G:的最大值點(diǎn).將

"=燈=…=J='代入〃工）中可得

/=■尸［厄的』=-n'-iog2-=1。的“

\nn/j-jnnnn

ow=i

所以/Gi「?在滿足約束￡時(shí)的最大值為路外.

52n=1

下面求最小值.如果不考慮約束M而僅考慮。（口（L則〃及「,?7）可以看作〃個(gè)

互不相關(guān)的一元函數(shù)的和，即

/（了2??,北）

1-1

其中，g（川―一川。5〃,08nSL那么當(dāng)加川屈丁。….巾；）分別取到其最小值時(shí)，

/（0,???4）也就取到了最小值.所以接下來考慮分別求…，仙”各自的最小

值，由于。，的定義域和函數(shù)表達(dá)式均相同，所以只需求出d&）的最小值

也就求出了"沖），…，的最小值.下面考慮求“方）的最小值，首先對(duì)“了1次于孫求一階

和二階導(dǎo)數(shù)，有

Ji\d{fk<E）t____1,_1

*'=-須?冊(cè)=-g工LR

顯然，當(dāng)04口41時(shí)門"）=一亞恒小于0,所以十5）是一個(gè)在其定義域范圍內(nèi)開口向

下的凹函數(shù)，那么其最小值必然在邊界取.分別取打=。和h=1,代入4方）可得

計(jì)算信息熠時(shí)約定：若*°Q，則￡嘀/=。

g（0）=—0logo0=0

y（0=-1logjl=0

所以，*1）的最小值為0,同理可得“物），…屈?。┑淖钚≈狄捕紴?,即〃九…H）的最

小值為o.但是，此時(shí)僅考慮約束0（打《］，而未考慮M.若考慮約束X,那

么〃的最小值一定大于等于0.如果令某個(gè)“二L那么強(qiáng)據(jù)約束X可知

f|s1*］S***sJT*_］=1*141=….1.M0，將其代入?.zj可得

――…網(wǎng)

■-OlogaO-Okc^O——OlotgO-lk)fhl-Olot^O—??,-Ok?iO■Q

所以〃=I,xi=切工…工1rl=4.1=…-0—定是〃了h…在滿足約束

f>=l

M和0《n4】的條件下的最小值點(diǎn)，此時(shí)/取到最小值0.

綜上可知，當(dāng)〃方「?，口）取到最大值時(shí)：》.??...?/?；；,此時(shí)樣本集合純度最

低；當(dāng)〃方,….J）取到最小值時(shí):〃=卜了1=12='''=幾-1="3=’?'=了n=U,此時(shí)

樣本集合純度最高.

式(42)

GMQa)=Ent⑼En?h)

此為信息增益的定義式.在信息論中信息增益也稱為互信息（參見本章附注①），表示已

知一個(gè)隨機(jī)變量的信息后另一個(gè)隨機(jī)變量的不確定性減少的程度.所以此式可以理解為，

在已知屬性優(yōu)的取值后，樣本類別這個(gè)隨機(jī)變量的不確定性減小的程度.若根據(jù)某個(gè)屬性計(jì)

算得到的信息增益越大，則說明在知道其取值后樣本集的不確定性減小的程度越大，

即“西瓜書”上所說的“純度提升”越大.

式(4.6)

Ginijixicx(D,a)

此為數(shù)據(jù)集用屬性〃的基尼指數(shù)的定義，表示在屬性的取值已知的條件下，數(shù)據(jù)集按

照屬性「的所有可能取值劃分后的純度.不過在構(gòu)造CART決策樹時(shí)并不會(huì)嚴(yán)格按照此式來

選擇最優(yōu)劃分屬性，主要是因?yàn)镃ART決策樹是一棵二叉樹，如果用上面的式去選出最優(yōu)

劃分屬性，無法進(jìn)一步選出最優(yōu)劃分屬性的最優(yōu)劃分點(diǎn).常用的CART決策樹的構(gòu)造算法如

下：

（1）考慮每個(gè)屬性n的每個(gè)可能取值小將數(shù)據(jù)集。分為a=1：和。*I兩部分來計(jì)算基尼指

數(shù)，即

|D?|

Gmiji>dex(D,a)■GH(D+

⑵選擇基尼指數(shù)最小的屬性及其對(duì)應(yīng)取值作為最優(yōu)劃分屬性和最優(yōu)劃分點(diǎn);

⑶重復(fù)以上兩步，直至滿足停止條件,

下面以“西瓜書”中表4.2中西瓜數(shù)據(jù)集2.0為例來構(gòu)造CART決策樹，其中第一個(gè)最優(yōu)劃分

屬性和最優(yōu)劃分點(diǎn)的計(jì)算過程如下；以屬性“色澤”為例，它有3個(gè)可能的取值；｛青綠｝,

｛烏黑｝，｛淺白｝,若使用該屬性的屬性值是否等于“青綠”對(duì)數(shù)據(jù)集成行劃分，則可得到

2個(gè)子集，分別記為打'（色澤二青綠）,從色澤W青綠）.子集。咆含編號(hào)UIf川，13”共6個(gè)

樣例，其中正例占■=￡反例占力=禮子集加包含編號(hào)（2.3,5,7,8911,12.14,15,16）共

5_6

11個(gè)樣例，其中正例占出.記，反例占內(nèi)二記，根據(jù)式（4.5）可計(jì)算出用“色澤二青綠”劃分

之后得到基尼指數(shù)為

Giniindex0色澤=青綠）

=nx（1-G）-（D*）+x0-（H）■（H）*）=0497

類似地，可以計(jì)算出不同屬性取不同值的基尼指數(shù)如下：

Gini_index（〃色澤=烏黑）=0.456

Gini_indcx（〃色澤二淺白）=0.426

Gini_index（〃根蒂=蜷縮）=0456

Gini_index（〃根蒂=稍蜷）=0.496

Gini_index（〃根蒂二硬挺）=0.439

Ginijndexm敲聲=濁響）=0450

Gini_index（E（敲聲=沉悶）=0.494

Gini_index（A敲聲二清脆）二0.439

Gini_index（〃紋理=清晰）=0.286

Gini_index（〃紋理二稍?。?0.437

Gini_index（一紋理=模糊）=0.403

Gini_index（“臍部=凹陷）=0.415

Gini_index（〃臍部=稍凹）=0.497

GinLindex（一臍部=平坦）=0.362

Gini_index（〃觸感二硬挺）=0.494

Gini_index（4觸感=軟粘）=0494.

特別地，對(duì)于屬性“觸感”，由于它的可取值個(gè)數(shù)為2,所以其實(shí)只需計(jì)算其中一個(gè)取值的

基尼指數(shù)即可.根據(jù)上面的計(jì)算結(jié)果可知，Gini_indux（〃紋理=清晰）二0.286最小，所以選

擇屬性“紋理”為最優(yōu)劃分屬性并生成根節(jié)點(diǎn)，接著以“紋理=清晰”為最優(yōu)劃分點(diǎn)生成。1紋

理:清晰）、加（紋理，清晰）兩個(gè)子節(jié)點(diǎn)，對(duì)兩個(gè)子節(jié)點(diǎn)分別重復(fù)上述步驟繼續(xù)生成下一層

子節(jié)點(diǎn)，直至滿足停止條件，

以上便是CART決策樹的構(gòu)建過程，從構(gòu)建過程可以看出，CART決策樹最終構(gòu)造出來的

是一棵二叉樹CART除了決策樹能處理分類問題以外，回歸樹還可以處理回歸問題，附注

②中給出了CART回歸樹的構(gòu)造算法.

式(4.7)

此式所表達(dá)的思想很簡(jiǎn)單，就是以每?jī)蓚€(gè)相鄰取值的中點(diǎn)作為劃分點(diǎn).

下面以“西瓜書，葉表4.3中西瓜數(shù)據(jù)集3.0為例來說明此式的用法.對(duì)了“密度”這個(gè)連續(xù)屬

性，已觀測(cè)到的可能取值為｛0,243,0.245,0.343,0.360,0.403,0.437,

0.481,0.556,0.593,0.608,0.634,0.639,0,657,0.666,0.697,0.719,0.774｝共17個(gè)值，根據(jù)式(4.7)可

知，此時(shí),依次取1到16,那么“密度”這個(gè)屬性的候選劃分點(diǎn)集合為

一，0.243+0.2450.245+0.3430.343+0.洸0

。盛。二。.小蒜仁小2

0.48110.5560.556+0.5930.5品0.608

2，2，2~

0.608+0.6340.634+0.6390.639+0.657

2'2'?

0.657+0.6660.666+0.6970.697+0.7190.719+0.774

)

215'5'2

式(4.8)

Gnin(D,a)=maxGain(D?a,()

IFZ.

-maxEiM(D)-￡罌昉

解析

此式是式（42）用于離散化后的連續(xù)屬性的版本，其中Z由式（4.7）計(jì)算得來，入€{-,+}表示

屬性。的取值分別小于等于和大于候選劃分點(diǎn)?時(shí)的情形，即當(dāng)入=■時(shí)有當(dāng)

A三十時(shí)有歷=

附注

①互信息[1]

在解釋互信息之前，需要先解釋一下什么是條件場(chǎng).條件嫡表示的是在已知一個(gè)隨機(jī)變量

的條件下，另一個(gè)隨機(jī)變量的不確定性.具體地，假設(shè)有隨機(jī)變量用口丫且它們服從以下

聯(lián)合概率分布

P（X=Xj,V=yj）=i=1,2,,n,j=,m.

那么在已知如勺條件下，隨機(jī)變量啪條件場(chǎng)為

Ent（r|X）■Z/Ent（y|X-r,）,

tsi

其中，上=n'=1/=12,??，%互信息定義為信息嫡和條件嫡的差，它表示的是己知一

個(gè)隨機(jī)變量的信息后使得另一個(gè)隨機(jī)變量的不確定性減少的程度.具體地，假設(shè)有隨機(jī)變

量腳Y那么在已知的信息后，的不確定性減少的程度為

I（y：X）=Ent（r）-Ent（y|X）

此即互

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2022機(jī)器學(xué)習(xí)公式詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2022機(jī)器學(xué)習(xí)公式詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔