SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)

上傳人：t*** IP屬地：天津上傳時(shí)間：2022-11-07 格式：DOCX 頁(yè)數(shù)：16 大小：162.32KB 積分：15 舉報(bào) 版權(quán)申訴

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)_第2頁(yè)

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)_第3頁(yè)

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)_第4頁(yè)

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)_第5頁(yè)

已閱讀5頁(yè)，還剩11頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)摘要：本文從線性分類問(wèn)題開(kāi)始逐步的敘述支持向量機(jī)思想的形成，并提供相應(yīng)的推導(dǎo)過(guò)程。簡(jiǎn)述核函數(shù)的概念，以及kernel在SVM算法中的核心地位。介紹松弛變量引入的SVM算法原因，提出軟間隔線性分類法。概括SVM分別在一對(duì)一和一對(duì)多分類問(wèn)題中應(yīng)用?；赟VM在一對(duì)多問(wèn)題中的不足，提出SVM的改進(jìn)版本DAGSVM。Abstract：Thisarticlebeginswithalinearclassificationproblem,GraduallydiscussformationofSVM,andtheirderivation.Descriptiontheconceptofkernelfunction,andthecorepositioninSVMalgorithm.Describesthereasonsfortheintroductionofslackvariables,andproposesoft-marginlinearclassification.SummarytheapplicationofSVMinone-to-oneandone-to-manylinearclassification.BasedonSVMshortageinone-to-manyproblems,animprovedversionwhichcalledDAGSVMwasputforward.關(guān)鍵字：SVM、線性分類、核函數(shù)、松弛變量、DAGSVM1.SVM的簡(jiǎn)介支持向量機(jī)（SupportVectorMachine）是Cortes和Vapnik于1995年首先提出的，它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)，并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的，根據(jù)有限的樣本信息在模型的復(fù)雜性（即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度，Accuracy）和學(xué)習(xí)能力（即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力）之間尋求最佳折衷，以期獲得最好的推廣能力。對(duì)于SVM的基本特點(diǎn)，小樣本，并不是樣本的絕對(duì)數(shù)量少，而是與問(wèn)題的復(fù)雜度比起來(lái)，SVM算法要求的樣本數(shù)是相對(duì)比較少的。非線性，是指SVM擅長(zhǎng)處理樣本數(shù)據(jù)線性不可分的情況，主要通過(guò)松弛變量和核函數(shù)實(shí)現(xiàn)，是SVM的精髓。高維模式識(shí)別是指樣本維數(shù)很高，通過(guò)SVM建立的分類器卻很簡(jiǎn)潔，只包含落在邊界上的支持向量。

線性分類器及其求解線性分類器，是最簡(jiǎn)單也很有效的分類器形式。在一個(gè)線性分類器中，可以看到SVM形成的思路，并接觸很多SVM的核心概念。用一個(gè)二維空間里僅有兩類樣本的分類問(wèn)題來(lái)舉例。如圖1所示圖1圖1兩類樣本分類C1和C2是要區(qū)分的兩個(gè)類別，在二維平面中它們的樣本如圖1所示。中間的直線就是一個(gè)分類函數(shù)，它可以將兩類樣本完全分開(kāi)。一般的，如果一個(gè)線性函數(shù)能夠?qū)颖就耆_的分開(kāi)，就稱這些數(shù)據(jù)是線性可分的，否則稱為非線性可分的。很容易看出來(lái)，圖1中間那條分界線并不是唯一的，旋轉(zhuǎn)一下，只要不把兩類數(shù)據(jù)分錯(cuò)，仍然可以達(dá)到分類的效果，稍微平移一下，也可以。對(duì)同一個(gè)問(wèn)題存在多個(gè)分類函數(shù)的時(shí)候，哪一個(gè)函數(shù)更好呢？必須要先找一個(gè)指標(biāo)來(lái)量化“好”的程度，通常使用分類間隔來(lái)衡量。設(shè)平面中的直線方程為：TOC\o"1-5"\h\z\o"CurrentDocument"g(x)=WX+b ⑴設(shè)x是一個(gè)有某一對(duì)象抽取出的n維向量，y為分類標(biāo)記，則可以定義點(diǎn)到某一超平面的i i間隔：\o"CurrentDocument"6=y(wx+b) (2)i iwb用和替代(2)式中的w和b得：IIwIIIIwIIIg(x)Ii將（3）式得到的間隔稱為幾何間隔，幾何間隔所表示的正是點(diǎn)到超平面的歐氏距離，以上是單個(gè)點(diǎn)到某個(gè)超平面的距離定義，同樣可以定義一個(gè)點(diǎn)的集合（就是一組樣本）到某個(gè)超平面的距離為此集合中離超平面最近的點(diǎn)的距離。圖2更加直觀的展示出了幾何間隔的含義。HHlQooosoo□口-\o□、\□□iuarg]ii=2圖2分割超平面圖2中，H是分類面，H1和H2是平行于H,且過(guò)離H最近的兩類樣本的直線,H1與H，H2與H之間的距離就是幾何間隔。幾何間隔與樣本的誤分次數(shù)間存在關(guān)系：誤差分?jǐn)?shù)＜（?。?其中的5是樣本集合到分類面的間隔，R二max"*/'：-匕…,n，即r是所有樣本中向量長(zhǎng)度最長(zhǎng)的值。從上式可以看出，誤分次數(shù)的上界由幾何間隔決定。因此選擇幾何間隔來(lái)作為評(píng)價(jià)一個(gè)解優(yōu)劣的指標(biāo)，幾何間隔越大的解，它的誤差上界越小。因此最大化幾何間隔成了我們訓(xùn)練階段的目標(biāo)。從（3）式可知，幾何間隔與IIwll是成反比的，因此最大化幾何間隔與最小化IIwll等價(jià)。通常不是固定IIwII的大小而尋求最大幾何間隔，而是固定間隔（例如固定為1），尋找最小的IIwII。此時(shí)變成一個(gè)最優(yōu)化問(wèn)題，若想尋找一個(gè)小IIwII,就可以用下面的式子表示:minIIwII但實(shí)際上對(duì)于這個(gè)目標(biāo)，常常使用另一個(gè)完全等價(jià)的目標(biāo)函數(shù)來(lái)代替，如下：min—||w||22如果直接來(lái)解這個(gè)求最小值問(wèn)題，很容易看出當(dāng)Ilwll=O的時(shí)候就得到了目標(biāo)函數(shù)的最小值。反映在圖2中，就是竹與H2兩條直線間的距離無(wú)限大，這個(gè)時(shí)候,所有的樣本點(diǎn)都位于Hi和耳中間，而我們?cè)镜囊鈭D是，Hi右側(cè)的被分為正類，H2左側(cè)的被分為負(fù)類，位于兩類中間的樣本則拒絕分類。這樣，所有樣本點(diǎn)都進(jìn)入了無(wú)法分類的灰色地帶。造成這種結(jié)果的原因是在描述問(wèn)題的時(shí)候只考慮了目標(biāo)，而沒(méi)有加入約束條件，于是可以添加約束條件：yi[(w-xi)+b]>l(i二12…,n)(n是總的樣本數(shù))于是可以將兩類分類轉(zhuǎn)化成數(shù)學(xué)形式，如下：?1min—IIwII2<2y[(W-x)+b]-1>0(i=1,2,...,n)i i (4)在這個(gè)問(wèn)題中，自變量就是w,而目標(biāo)函數(shù)是w的二次函數(shù)，所有的約束條件都是w的線性函數(shù)，這種規(guī)劃問(wèn)題就是二次規(guī)劃(QuadraticProgramming，QP),由于它的可行域是一個(gè)凸集，因此它是一個(gè)凸二次規(guī)劃。樣本確定了w,用數(shù)學(xué)的語(yǔ)言描述，就是w可以表示為樣本的某種組合：w=ax+ax+...+ax1122nn (5)式子中的ai是拉格朗日乘子，而xi是樣本點(diǎn)，也是向量，n就是總樣本點(diǎn)的個(gè)數(shù)。為了方便描述，以下開(kāi)始嚴(yán)格區(qū)別數(shù)字與向量的乘積和向量間的乘積，我會(huì)用aixi表示數(shù)字和向量的乘積，而用<xi'xj>表示向量xi'xj的內(nèi)積。因此(1)式嚴(yán)格的形式應(yīng)該是：6)g(x)=<w,x>+b6)w不僅跟樣本點(diǎn)的位置有關(guān)，還跟樣本的類別有關(guān)。因此用下面這個(gè)式子表示w：w=ayx+ayx+...+ayx111222nnn (7)其中的yi就是第i個(gè)樣本的標(biāo)簽，它等于1或者-1。其實(shí)以上式子的拉格朗日乘子…,an中，只有很少的一部分不等于0這部分不等于0的拉格朗日乘子后面所乘的樣本點(diǎn)，其實(shí)都落在竹和H2上，也正是這部分樣本唯一的確定了分類函數(shù)。這部分可以確定分類的樣本點(diǎn)，就叫做支持向量。因此原來(lái)的g(x)表達(dá)式可以寫為：g(x)=<w,x>+b=<Y(ayx),x>+biiii=1 ， (8)w=Y(ayx)其中， i=1iii上式可以變形為：g(x)=Yay<x,x>+biiii=1 (9)此時(shí)消去了上式中的w，問(wèn)題從求w變成了求a。這樣就簡(jiǎn)化了原問(wèn)題的求解，以這樣的形式描述問(wèn)題以后，優(yōu)化問(wèn)題少了很大一部分不等式約束。接下來(lái)看看SVM在線性分類器上所做的重大改進(jìn)——核函數(shù)。SVM中的核函數(shù)根據(jù)模式識(shí)別理論，低維空間線性不可分的模式通過(guò)非線性映射到高維特征空間則可能實(shí)現(xiàn)線性可分，但是如果直接采用這種技術(shù)在高維空間進(jìn)行分類或回歸，則存在確定非線性映射函數(shù)的形式和參數(shù)、特征空間維數(shù)等問(wèn)題，而最大的障礙則是在高維特征空間運(yùn)算時(shí)存在的“維數(shù)災(zāi)難”。采用核函數(shù)技術(shù)可以有效地解決這樣問(wèn)題。如圖3所示，當(dāng)分類問(wèn)題在低緯空間無(wú)法用線性分類方法解決時(shí)，可以通過(guò)e將低緯空間的數(shù)據(jù)映射到高緯特征空間中，從而達(dá)到線性可分的目的。:^feature H:^feature HK圖3低緯度向高緯度空間映射從低緯度向高緯度轉(zhuǎn)化關(guān)鍵在于尋在一個(gè)e函數(shù)，但對(duì)目前沒(méi)有一個(gè)系統(tǒng)的方法。對(duì)映射過(guò)程推導(dǎo)如下：<e(x,x)，e(XT,xT)>=<(z,z,z),(zT,zT,zT)>1 2 1 2 12 3 12 3=<(X2八：'2XX,X2),(XT2,%2XTXT,xT2)>11221122=X2XT2+2XXXTXT+x2XT211121222(10)=(XXT+xXT)21122=(<X,XT>)2=K(x,xt)從上式可以得出，我們只關(guān)心高維空間里內(nèi)積的值，而核函數(shù)就是接受低空間的輸入，并計(jì)算出在高緯空間的內(nèi)積值。K(X,XT)，就是我們要找的核函數(shù)。如圖4

-.Tj,鬲),嵐舄HX；〕>=<(云二;&；｝>=<〔￡,厲絢Xjr￡\(才、払A；,昇｝>=珀屮十知眄曲坨十吧址=(占珀十嶺￡)=(<^,x>)^k(x,x) kernelfunction圖4在映射過(guò)程中的核函數(shù)g(x)=￡ayK(x,x)+b于是上式，可以表示為匸i''i 。盡管給的問(wèn)題是線性不可分的，但凡是要求內(nèi)積的時(shí)候我們就選定的核函數(shù)來(lái)算。這樣求出來(lái)的a再和你選定的核函數(shù)一組合，就可以得到線性分類器。但是任然存在以下兩個(gè)問(wèn)題：既然有很多的核函數(shù)，針對(duì)具體問(wèn)題該怎么選擇？如果使用核函數(shù)向高維空間映射后，問(wèn)題仍然是線性不可分的，那怎么辦？第一個(gè)問(wèn)題：對(duì)核函數(shù)的選擇，現(xiàn)在還缺乏指導(dǎo)原則！各種實(shí)驗(yàn)的觀察結(jié)果的確表明，某些問(wèn)題用某些核函數(shù)效果很好，用另一些就很差，但是一般來(lái)講，徑向基核函數(shù)是不會(huì)出太大偏差的一種，首選。對(duì)第二個(gè)問(wèn)題的解決則引出了SVM中的另一個(gè)概念：松弛變量。SVM中的松弛變量假設(shè)有另一個(gè)訓(xùn)練集，只比原先這個(gè)訓(xùn)練集多了一個(gè)樣本，映射到高維空間以后，也就多了一個(gè)樣本點(diǎn)，但是這個(gè)樣本的位置是這樣的，如圖5：HiUtilIJHiUtilIJm—2'圖5新增加了一個(gè)樣本后分類的結(jié)果就是圖中黃色那個(gè)點(diǎn)，它是方形的，因而它是負(fù)類的一個(gè)樣本，這單獨(dú)的一個(gè)樣本，使得原本線性可分的問(wèn)題變成了線性不可分的。這樣類似的問(wèn)題（僅有少數(shù)點(diǎn)線性不可分）叫做“近似線性可分”的問(wèn)題。對(duì)于人類思維，在大量的樣本基礎(chǔ)上，可能會(huì)認(rèn)為圖5中的黃點(diǎn)是錯(cuò)誤的，是噪聲，會(huì)自動(dòng)的剔除掉。人的思維對(duì)于噪聲數(shù)據(jù)具有容錯(cuò)性，可程序沒(méi)有。由于我們?cè)镜膬?yōu)化問(wèn)題的表達(dá)式中，確實(shí)要考慮所有的樣本點(diǎn)，在此基礎(chǔ)上尋找正負(fù)類之間的最大幾何間隔，而幾何間隔本身代表的是距離，是非負(fù)的，像上面這種有噪聲的情況會(huì)使得整個(gè)問(wèn)題無(wú)解。這種解法其實(shí)也叫做“硬間隔”分類法，因?yàn)樗残缘囊笏袠颖军c(diǎn)都滿足和分類平面間的距離必須大于某個(gè)值。說(shuō)明硬間隔的分類法其結(jié)果容易受少數(shù)點(diǎn)的控制。針對(duì)硬間隔的問(wèn)題，解決方法也很明顯，就是仿照人的思路，允許一些點(diǎn)到分類平面的距離不滿足原先的要求。由于不同的訓(xùn)練集各點(diǎn)的間距尺度不太一樣，因此用間隔（而不是幾何間隔）來(lái)衡量有利于我們表達(dá)形式的簡(jiǎn)潔。原先對(duì)樣本點(diǎn)的要求是：(11)y[(wx)+b]>1(i二1,2,...,n)(n是樣本數(shù)(11)i i該式說(shuō)明，離分類面最近的樣本點(diǎn)函數(shù)間隔也要比1大。如果要引入容錯(cuò)性，就給1這個(gè)硬性的閾值加一個(gè)松弛變量，即允許：y[(wx)+b]>1-g(i二1,2,...,n)(n是樣本數(shù))i i ig>0i因?yàn)樗沙谧兞渴欠秦?fù)的，因此最終的結(jié)果是要求間隔可以比1小。但是當(dāng)某些點(diǎn)出現(xiàn)這種間隔比1小的情況時(shí)(這些點(diǎn)也叫離群點(diǎn))，意味著放棄了對(duì)這些點(diǎn)的精確分類，而這對(duì)分類器來(lái)說(shuō)是種損失。但是放棄這些點(diǎn)也帶來(lái)了好處，那就是使分類面不必向這些點(diǎn)的方向移動(dòng)，因而可以得到更大的幾何間隔。顯然必須權(quán)衡這種損失和好處。得到的分類間隔越大，好處就越多。原始的硬間隔分類對(duì)應(yīng)的優(yōu)化問(wèn)題：(13)min—IIwII2(13)<2ST.y[(w-x)+b]-1>0(i=l,2,...,n)i iIIwII2就是目標(biāo)函數(shù)，希望它越小越好，因而損失就必然是一個(gè)能使之變大的量。那如何來(lái)衡量損失，有兩種常用的方式，兩種方法沒(méi)有大的區(qū)別。如果選擇了第一種，得到的方法的就叫做二階軟間隔分類器，第二種就叫做一階軟間隔分類器。把損失加入到目標(biāo)函數(shù)里的時(shí)候，就需要一個(gè)懲罰因子，原來(lái)的優(yōu)化問(wèn)題就變成了下面這樣：?1min—IIwII22<ST.y[(w-x)+b]>1—匚(i=1,2,...,n) (14)i i i匚>0i這個(gè)式子有這么幾點(diǎn)要注意：一是并非所有的樣本點(diǎn)都有一個(gè)松弛變量與其對(duì)應(yīng)。實(shí)際上只有“離群點(diǎn)”才有，沒(méi)離群的點(diǎn)松弛變量都等于0。二是松弛變量的值實(shí)際上標(biāo)示出了對(duì)應(yīng)的點(diǎn)到底離群有多遠(yuǎn)，值越大，點(diǎn)就越遠(yuǎn)。三是懲罰因子C決定了你有多重視離群點(diǎn)帶來(lái)的損失，顯然當(dāng)所有離群點(diǎn)的松弛變量的和一定時(shí)，定的C越大，對(duì)目標(biāo)函數(shù)的損失也越大，此時(shí)就暗示著不愿意放棄這些離群點(diǎn)，最極端的情況是你把C定為無(wú)限大，這樣只要稍有一個(gè)點(diǎn)離群，目標(biāo)函數(shù)的值馬上變成無(wú)限大，馬上讓問(wèn)題變成無(wú)解，這就退化成了硬間隔問(wèn)題。四是懲罰因子C不是一個(gè)變量，整個(gè)優(yōu)化問(wèn)題在解的時(shí)候，C是一個(gè)你必須事先指定的值。五是盡管加了松弛變量這么一說(shuō)，但這個(gè)優(yōu)化問(wèn)題仍然是一個(gè)優(yōu)化問(wèn)題，解的過(guò)程比起原始的硬間隔問(wèn)題來(lái)說(shuō)，沒(méi)有任何更加特殊的地方。從大的方面說(shuō)優(yōu)化問(wèn)題解的過(guò)程，就是先試著確定一下w,也就是確定了前面圖中的三條直線，這時(shí)看看間隔有多大，又有多少點(diǎn)離群，把目標(biāo)函數(shù)的值算一算，再換一組三條直線，再把目標(biāo)函數(shù)的值算一算，如此往復(fù)（迭代），直到最終找到目標(biāo)函數(shù)最小時(shí)的w。松弛變量也就是個(gè)解決線性不可分問(wèn)題的方法罷了，核函數(shù)的引入不也是為了解決線性不可分的問(wèn)題么？為什么要為了一個(gè)問(wèn)題使用兩種方法呢？其實(shí)兩者還有微妙的不同。一般的情況下，在原始的低維空間中，樣本相當(dāng)?shù)牟豢煞?，無(wú)論怎么找分類平面，總會(huì)有大量的離群點(diǎn)，此時(shí)用核函數(shù)向高維空間映射一下，雖然結(jié)果仍然是不可分的，但比原始空間里的要更加接近線性可分的狀態(tài)，此時(shí)再用松弛變量處理那些少數(shù)“冥頑不化”的離群點(diǎn)，就簡(jiǎn)單有效得多了。至此一個(gè)比較完整的支持向量機(jī)框架就有了，簡(jiǎn)單說(shuō)來(lái)，支持向量機(jī)就是使用了核函數(shù)的軟間隔線性分類法。懲罰因子和數(shù)據(jù)偏斜偏斜問(wèn)題，也叫數(shù)據(jù)集偏斜（unbalanced），它指的是參與分類的兩個(gè)類別（也可以指多個(gè)類別）樣本數(shù)量差異很大。比如說(shuō)正類有10，000個(gè)樣本，而負(fù)類只給了100個(gè)，這會(huì)引起的問(wèn)題顯而易見(jiàn)，如圖7：圖6數(shù)據(jù)集偏斜現(xiàn)象方形的點(diǎn)是負(fù)類。H,Hl,H2是根據(jù)給的樣本算出來(lái)的分類面，由于負(fù)類的樣本很少很少，所以有一些本來(lái)是負(fù)類的樣本點(diǎn)沒(méi)有提供，比如圖7中兩個(gè)灰色的方形點(diǎn)，如果這兩個(gè)點(diǎn)有提供的話，那算出來(lái)的分類面應(yīng)該是H',H2'和H1，他們顯然和之前的結(jié)果有出入，實(shí)際上負(fù)類給的樣本點(diǎn)越多，就越容易出現(xiàn)在灰色點(diǎn)附近的點(diǎn)，算出的結(jié)果也就越接近于真實(shí)的分類面。但現(xiàn)在由于偏斜的現(xiàn)象存在，使得數(shù)量多的正類可以把分類面向負(fù)類的方向“推”，因而影響了結(jié)果的準(zhǔn)確性。解決數(shù)據(jù)集偏斜問(wèn)題的方法之一就是在懲罰因子上作文章，那就是給樣本數(shù)量少的負(fù)類更大的懲罰因子，表示我們重視這部分樣本，因此我們的目標(biāo)函數(shù)中因松弛變量而損失的部分就變成了：C另匚+C另匚+ 1 -j （15）i=1 j=P+1匚＞0i其中i=1???p都是正樣本，j=p+1…p+q都是負(fù)樣本。那C和C怎么確定呢？它+-們的大小是試出來(lái)的（參數(shù)調(diào)優(yōu)），但是他們的比例可以有些方法來(lái)確定。但是這樣并不夠好，如圖6,發(fā)現(xiàn)正類之所以可以“欺負(fù)”負(fù)類，其實(shí)并不是因?yàn)樨?fù)類樣本少，真實(shí)的原因是負(fù)類的樣本分布的不夠廣（沒(méi)擴(kuò)充到負(fù)類本應(yīng)該有的區(qū)域）。比如，現(xiàn)在想給政治類和體育類的文章做分類，政治類文章很多，而體育類只提供了幾篇關(guān)于籃球的文章，這時(shí)分類會(huì)明顯偏向于政治類，如果要給體育類文章增加樣本，但增加的樣本仍然全都是關(guān)于籃球的。雖然體育類文章在數(shù)量上可以達(dá)到與政治類一樣多，但過(guò)于集中了，結(jié)果仍會(huì)偏向于政治類！所以給C+和C確定比例更好的方法應(yīng)該是衡量他們分布的程度。比如可以算算他們?cè)诳臻g中占據(jù)了多大的體積，例如給負(fù)類找一個(gè)超球，它可以包含所有負(fù)類的樣本，再給正類找一個(gè)超球，比比兩個(gè)球的半徑，就可以大致確定分布的情況。顯然半徑大的分布就比較廣，就給小一點(diǎn)的懲罰因子。6.SVM的改進(jìn)DAGSVMSVM是一種典型的兩類分類器，而現(xiàn)實(shí)中要解決的問(wèn)題，往往是多類的問(wèn)題，比如文本分類，數(shù)字識(shí)別。如何由兩類分類器得到多類分類器，就是一個(gè)值得研究的問(wèn)題。以文本分類為例，現(xiàn)成的方法有很多，其中一種一勞永逸的方法，就是真的一次性考慮所有樣本，并求解一個(gè)多目標(biāo)函數(shù)的優(yōu)化問(wèn)題，一次性得到多個(gè)分類面，就像下圖這樣：圖7對(duì)任意兩個(gè)類構(gòu)建一個(gè)分類器多個(gè)超平面把空間劃分為多個(gè)區(qū)域，每個(gè)區(qū)域?qū)?yīng)一個(gè)類別，給一篇文章，看它落在哪個(gè)區(qū)域就知道了它的分類。這樣一次性求解的方法計(jì)算量實(shí)在太大，大到無(wú)法實(shí)用的地步?！耙活悓?duì)其余”的方法，就是每次仍然解一個(gè)兩類分類的問(wèn)題。比如有5個(gè)類別，第一次就把類別1的樣本定為正樣本，其余2，3，4，5的樣本合起來(lái)定為負(fù)樣本，這樣得到一個(gè)兩類分類器，它能夠指出一篇文章是還是不是第1類的；第二次我們把類別2的樣本定為正樣本，把1,3,4,5的樣本合起來(lái)定為負(fù)樣本，得到一個(gè)分類器，如此下去，可以得到5個(gè)這樣的兩類分類器。這種方法的好處是每個(gè)優(yōu)化問(wèn)題的規(guī)模比較小，而且分類的時(shí)候速度很快。但有時(shí)也會(huì)出現(xiàn)兩種很尷尬的情況，例如拿一篇文章每一個(gè)分類器都說(shuō)它是屬于它那一類的，或者每一個(gè)分類器都說(shuō)它不是它那一類的，前者叫分類重疊現(xiàn)象，后者叫不可分類現(xiàn)象。對(duì)于分類重疊倒，隨機(jī)選一個(gè)結(jié)果都不至于太離譜，或者看看這篇文章到各個(gè)超平面的距離，哪個(gè)遠(yuǎn)就判給哪個(gè)。不可分類現(xiàn)象就著實(shí)難辦了，只能把它分給第6個(gè)類別了，本來(lái)各個(gè)類別的樣本數(shù)目是差不多的，但“其余”的那一類樣本數(shù)總是要數(shù)倍于正類，這就人為的造成了“數(shù)據(jù)集偏斜”問(wèn)題。再退一步，還是解兩類分類問(wèn)題，還是每次選一個(gè)類的樣本作正類樣本，而負(fù)類樣本則變成只選一個(gè)類，這就避免了偏斜。因此過(guò)程就是算出這樣一些分類器，第一個(gè)只回答“是第1類還是第2類”，第二個(gè)只回答“是第1類還是第3類”，第三個(gè)只回答“是第1類還是第4類”，如此下去，可以馬上得出，這樣的分類器應(yīng)該有5X4/2=10個(gè)。雖然分類器的數(shù)目多了，但是在訓(xùn)練階段所用的總時(shí)間卻比“一類對(duì)其余”方法少很多，在真正用來(lái)分類的時(shí)候，把一篇文章扔給所有分類器，第一個(gè)分類器會(huì)投票說(shuō)它是“1”或者“2”，第二個(gè)會(huì)說(shuō)它是“1”或者“3”，讓每一個(gè)都投上自己的一票，最后統(tǒng)計(jì)票數(shù)，如果類別“1”得票最多，就判這篇文章屬于第1類。這種方法顯然也會(huì)有分類重疊的現(xiàn)象，但不會(huì)有不可分類現(xiàn)象，因?yàn)榭偛豢赡芩蓄悇e的票數(shù)都是0。這還是類別數(shù)為5的時(shí)候，類別數(shù)如果是1000，要調(diào)用的分類器數(shù)目會(huì)上升至約500,000個(gè)。再退一步，還是像一對(duì)一方法那樣來(lái)訓(xùn)練，只是在對(duì)一篇文章進(jìn)行分類之前，先按照?qǐng)D8的樣子來(lái)組織分類器圖8DAGSVM訓(xùn)練方法這樣在分類時(shí)，就可以先問(wèn)分類器“1對(duì)5”，如果它回答5,就往左走，再問(wèn)“2對(duì)5”這個(gè)分類器，如果它還說(shuō)是“5”，就繼續(xù)往左走，這樣一直問(wèn)下去，就可以得到分類結(jié)果。優(yōu)點(diǎn)是，只調(diào)用了4個(gè)分類器，分類速度快，且沒(méi)有分類重疊和不可分類現(xiàn)象！缺點(diǎn)是，假如最一開(kāi)始的分類器回答錯(cuò)誤，那么后面的分類器是無(wú)論如何也無(wú)法糾正它的錯(cuò)誤的，其實(shí)對(duì)下面每一層的分類器都存在這種錯(cuò)誤向下累積的現(xiàn)象。DAG方法好于它們的地方就在于，累積的上限，不管是大是小，總是有定論的，有理論證明。而一對(duì)其余和一對(duì)一方法中，盡管每一個(gè)兩類分類器的泛化誤差限是知道的，但是合起來(lái)做多類分類的時(shí)候，誤差上界是多少，無(wú)法知道，這意味著準(zhǔn)確率低到0也是有可能的。而且現(xiàn)在DAG方法根節(jié)點(diǎn)的選取，也有一些方法可以改善整體效果，我們總希望根節(jié)點(diǎn)少犯錯(cuò)誤為好，因此參與第一次分類的兩個(gè)類別，最好是差別特別特別大，大到以至于不太可能把他們分錯(cuò)；或者就總?cè)≡趦深惙诸愔姓_率最高的那個(gè)分類器作根節(jié)點(diǎn)，或者我們讓兩類分類器在分類的時(shí)候，不光輸出類別的標(biāo)簽，還輸出一個(gè)類似“置信度”等。參考文獻(xiàn).BahlmannC,HaasdonkB,BurkhardtH.Onlinehandwritingrecognitionwithsupportvectormachines-akernelapproach[C]//FrontiersinHandwritingRecognition,2002.Proceedings.EighthInternationalWorkshopon.IEEE,2002:49-54..MandelMI,EllisDPW.Song-levelfeaturesandsupportvectormachinesformusicclassification[C]//ISMIR2005:6thInternationalConferenceonMusicInformationRetrieval:Proc

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

SVM算法推導(dǎo)及其分類的算法實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔