版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器學(xué)習(xí)大作業(yè)支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的,它將最大分界面分類(lèi)器思想和基于核的方法結(jié)合在一起,表現(xiàn)出了很好的泛化能力。由于SVM方法不僅考慮了對(duì)漸進(jìn)性能的要求,而且在現(xiàn)有有限信息的條件下得到最優(yōu)結(jié)果,并且能夠根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,從而獲得最好的推廣能力。SVM主要是應(yīng)用于分類(lèi),簡(jiǎn)單而言,就是如果有一堆已經(jīng)分好類(lèi)的東西(可是分類(lèi)的依據(jù)是未知的),當(dāng)有新的未知數(shù)據(jù)進(jìn)來(lái)時(shí),SVM能夠預(yù)測(cè)這個(gè)新的數(shù)據(jù)要分到哪一堆去。第一章 理論知識(shí)1.1 最優(yōu)間隔分類(lèi)器SVM的主要思想是針對(duì)兩類(lèi)分類(lèi)問(wèn)題,在高維空間尋找一個(gè)最優(yōu)分類(lèi)超平面作為分類(lèi)平面,來(lái)保證最
2、小的分類(lèi)錯(cuò)誤率。我們的目標(biāo)是尋找一個(gè)超平面,使得離超平面比較近的點(diǎn)有更大的間距,也就是說(shuō),我們不考慮所有的點(diǎn)都必須遠(yuǎn)離超平面,我們關(guān)心的只是想要求得的超平面能夠使得所有點(diǎn)中離它最近的點(diǎn)具有最大間距。形象的說(shuō),我們將上面的圖看作是一張紙,我們要找一條折線,按照這條折線折疊后,離折線最近的點(diǎn)的間距比其他折線都要大。形式化表示為:上面描述的這種情況是建立在樣例線性可分的假設(shè)上,當(dāng)樣例線性不可分時(shí),可以引入松弛變量,它允許在一定程度上違反間隔約束。我們可以嘗試使用核函數(shù)來(lái)將特征映射到高維,這樣很可能就可分了。然而,映射后我們也不能100%保證可分。那怎么辦呢,我們需要將模型進(jìn)行調(diào)整,以保證在不可分的情
3、況下,也能夠盡可能地找出分隔超平面??聪旅鎯蓮垐D:可以看到一個(gè)離群點(diǎn)(可能是噪聲)可以造成超平面的移動(dòng),間隔縮小,可見(jiàn)以前的模型對(duì)噪聲非常敏感。再有甚者,如果離群點(diǎn)在另外一個(gè)類(lèi)中,那么這時(shí)候就是線性不可分了。這時(shí)候我們應(yīng)該允許一些點(diǎn)游離并在在模型中違背限制條件(函數(shù)間隔大于1)。我們?cè)O(shè)計(jì)得到新的模型如下(也稱(chēng)軟間隔):引入非負(fù)參數(shù)后(稱(chēng)為松弛變量),就允許某些樣本點(diǎn)的函數(shù)間隔小于1,即在最大間隔區(qū)間里面,或者函數(shù)間隔是負(fù)數(shù),即樣本點(diǎn)在對(duì)方的區(qū)域中。而放松限制條件后,我們需要重新調(diào)整目標(biāo)函數(shù),以對(duì)離群點(diǎn)進(jìn)行處罰,目標(biāo)函數(shù)后面加上的就表示離群點(diǎn)越多,目標(biāo)函數(shù)值越大,而我們要求的是盡可能小的目標(biāo)函數(shù)
4、值。這里的C是離群點(diǎn)的權(quán)重,C越大表明離群點(diǎn)對(duì)目標(biāo)函數(shù)影響越大,也就是越不希望看到離群點(diǎn)。我們看到,目標(biāo)函數(shù)控制了離群點(diǎn)的數(shù)目和程度,使大部分樣本點(diǎn)仍然遵守限制條件。圖1.1 分類(lèi)情況1.2 線性支持向量機(jī)SVM只要是針對(duì)兩類(lèi)分類(lèi)問(wèn)題,分類(lèi)主要包括線性可分和非線性可分兩類(lèi)。在樣例線性可分的情況下,此時(shí),存在一個(gè)超平面,使得訓(xùn)練樣本可以完全被分開(kāi),這和超平面的形式為:從KKT條件得知只有函數(shù)間隔是1(離超平面最近的點(diǎn))的線性約束式前面的系數(shù),也就是說(shuō)這些約束式,對(duì)于其他的不在線上的點(diǎn)(),極值不會(huì)在他們所在的范圍內(nèi)取得,因此前面的系數(shù).注意每一個(gè)約束式實(shí)際就是一個(gè)訓(xùn)練樣本。圖1.2 最優(yōu)分類(lèi)面實(shí)
5、線是最大間隔超平面,假設(shè)×號(hào)的是正例,圓圈的是負(fù)例。在虛線上的點(diǎn)就是函數(shù)間隔是1的點(diǎn),那么他們前面的系數(shù),其他點(diǎn)都是。這三個(gè)點(diǎn)稱(chēng)作支持向量。構(gòu)造拉格朗日函數(shù)如下:下面我們按照對(duì)偶問(wèn)題的求解步驟來(lái)進(jìn)行求解,首先求解的最小值,對(duì)于固定的,的最小值只與w和b有關(guān)。最后得到此時(shí)的拉格朗日函數(shù)只包含了變量。然而我們求出了才能得到w和b。 接著是極大化的過(guò)程前面提到過(guò)對(duì)偶問(wèn)題和原問(wèn)題滿足的幾個(gè)條件,首先由于目標(biāo)函數(shù)和線性約束都是凸函數(shù),而且這里不存在等式約束h。存在w使得對(duì)于所有的i,。因此,一定存在使得是原問(wèn)題的解,是對(duì)偶問(wèn)題的解。1.3 非線性支持向量機(jī)圖1.3 通過(guò)非線性變換將輸入空間變換
6、到一個(gè)高維空間對(duì)非線性問(wèn)題,可以通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性問(wèn)題,在變換空間求最優(yōu)分類(lèi)面。對(duì)于線性不可分的情況,可以把樣本X映射到一個(gè)高維特征空間H,并在此空間中運(yùn)用原空間的函數(shù)來(lái)實(shí)現(xiàn)內(nèi)積運(yùn)算,這樣將非線性問(wèn)題轉(zhuǎn)換成另一空間的線性問(wèn)題來(lái)獲得一個(gè)樣本的歸屬。根據(jù)泛化函數(shù)的有關(guān)理論,只要一種核函數(shù)滿足Mercer條件,它就對(duì)應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類(lèi)面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)這種線性不可分的分類(lèi)問(wèn)題。模型修改后,拉格朗日公式也要修改如下:這里的和都是拉格朗日乘子,回想我們?cè)诶窭嗜諏?duì)偶中提到的求法,先寫(xiě)出拉格朗日公式(如上),然后將其看作是變量w和b的函數(shù),分別對(duì)其求
7、偏導(dǎo),得到w和b的表達(dá)式。然后代入公式中,求帶入后公式的極大值。整個(gè)推導(dǎo)過(guò)程類(lèi)似以前的模型,這里只寫(xiě)出最后結(jié)果如下:此時(shí),我們發(fā)現(xiàn)沒(méi)有了參數(shù),與之前模型唯一不同在于又多了的限制條件。1.4 核函數(shù)核函數(shù)是將函數(shù)映射到高維空間來(lái)增加線性學(xué)習(xí)的計(jì)算能力,通過(guò)選擇恰當(dāng)?shù)暮撕瘮?shù)來(lái)代替內(nèi)積,可以隱式地將訓(xùn)練數(shù)據(jù)非線性地映射到高維空間,而不增加可調(diào)參數(shù)的個(gè)數(shù),前提是核函數(shù)能夠計(jì)算對(duì)應(yīng)著的輸入特征向量的內(nèi)積。將核函數(shù)形式化定義,如果原始特征內(nèi)積是,映射后為,那么定義核函數(shù)(Kernel)為選擇不同的核函數(shù)意味著采取不同的標(biāo)準(zhǔn)對(duì)相似性和相似程度進(jìn)行估計(jì)。因此,核函數(shù)的選擇對(duì)非線性支持向量機(jī)的構(gòu)建是至關(guān)重要的,
8、核函數(shù)的選擇是一個(gè)難題。下面這張圖說(shuō)明在低維線性不可分時(shí),映射到高維后就可分了,使用高斯核函數(shù)。圖1.4 輸入空間到特征空間的映射第二章 實(shí)驗(yàn)仿真結(jié)果及分析通過(guò)對(duì)SVM的學(xué)習(xí),了解到不同的實(shí)驗(yàn)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果造成不同的影響,支持向量機(jī)建模過(guò)程中,其核函數(shù)的類(lèi)型、核函數(shù)參數(shù)sigma和懲罰系數(shù)c的選取決定模型的識(shí)別性能,建模過(guò)程中多采用基于啟發(fā)式的交叉驗(yàn)證法。在本實(shí)驗(yàn)中使用了線性核函數(shù)和徑向基函數(shù)核函數(shù)來(lái)進(jìn)行實(shí)驗(yàn),在兩種基函數(shù)的基礎(chǔ)下,又分析討論了不同訓(xùn)練樣本數(shù)量對(duì)ROC曲線的影響,及訓(xùn)練樣本個(gè)數(shù)的不同對(duì)分類(lèi)誤差的影響;最后對(duì)懲罰系數(shù)C和徑向基核函數(shù)中的參數(shù)sigma對(duì)實(shí)驗(yàn)結(jié)果的影響有一個(gè)簡(jiǎn)單的分
9、析討論.2.1 基于線性核函數(shù)的實(shí)驗(yàn)仿真結(jié)果在這部分實(shí)驗(yàn)中,選擇的核函數(shù)是線性核函數(shù),在此基礎(chǔ)上,首先選擇不同數(shù)量的訓(xùn)練樣本,得到相應(yīng)的最優(yōu)分類(lèi)器,再對(duì)固定數(shù)量的測(cè)試樣本進(jìn)行分類(lèi),此時(shí)的懲罰系數(shù)c保持默認(rèn)不變,此時(shí)給出分類(lèi)結(jié)果和相應(yīng)的ROC曲線,以及相對(duì)應(yīng)的分類(lèi)誤差,然后對(duì)所得的實(shí)驗(yàn)結(jié)果進(jìn)行分析討論;另一部分是保持訓(xùn)練樣本和測(cè)試樣本數(shù)量不變,線性核函數(shù)不變,此時(shí)改變懲罰系數(shù)c,得到分類(lèi)結(jié)果、ROC曲線以及分類(lèi)誤差.1 訓(xùn)練樣本數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響本次實(shí)驗(yàn)中使用的數(shù)據(jù)集分為訓(xùn)練樣本集和測(cè)試樣本集,其中訓(xùn)練樣本集總數(shù)為3089個(gè),測(cè)試樣本集總數(shù)為4000個(gè),而這個(gè)樣本集中每個(gè)樣本包含有4個(gè)特征,我
10、們選取后兩個(gè)特征進(jìn)行分類(lèi),測(cè)試樣本數(shù)目選了101個(gè),懲罰系數(shù)c默認(rèn)為1,測(cè)試樣本和懲罰系數(shù)c在這種實(shí)驗(yàn)中保持不變.這組實(shí)驗(yàn)?zāi)康臑橥ㄟ^(guò)訓(xùn)練樣本數(shù)量的變化來(lái)得到實(shí)驗(yàn)結(jié)果,即當(dāng)訓(xùn)練樣本的個(gè)數(shù)發(fā)生變化時(shí),找到分類(lèi)誤差和ROC曲線相對(duì)應(yīng)的變化規(guī)律,并對(duì)這種規(guī)律進(jìn)行分析與討論。下圖為仿真實(shí)驗(yàn)結(jié)果,其中圖2.1.12.1.3代表選取不同數(shù)目的訓(xùn)練樣本時(shí)得到的最優(yōu)分類(lèi)器,并將測(cè)試樣本進(jìn)行分類(lèi),其中黑色代表支持向量,藍(lán)色代表正確分類(lèi)的樣本,紅色則表示錯(cuò)誤分類(lèi)的樣本。從這三幅圖中可以看到,在每幅圖中均出現(xiàn)一定數(shù)量的錯(cuò)誤分類(lèi)的樣本,為了衡量錯(cuò)誤分類(lèi)的程度,在實(shí)驗(yàn)中引入了分類(lèi)錯(cuò)誤率,分類(lèi)錯(cuò)誤率是通過(guò)找到分類(lèi)結(jié)果與測(cè)試
11、標(biāo)簽之間不同的個(gè)數(shù),然后除以測(cè)試標(biāo)簽的數(shù)目來(lái)計(jì)算得到的。出現(xiàn)錯(cuò)誤分類(lèi)的樣本的原因是實(shí)驗(yàn)所選取的樣本集中的每個(gè)樣本均包括4個(gè)特征,同時(shí)應(yīng)用這4個(gè)特征對(duì)樣本進(jìn)行分類(lèi),理論上是可以將正樣本與負(fù)樣本完全分開(kāi)的,然而我們?cè)趯?shí)驗(yàn)中僅僅選取了兩個(gè)特征對(duì)樣本進(jìn)行分類(lèi),只運(yùn)用兩個(gè)特征,無(wú)論使用哪兩個(gè),樣本的信息都有一定程度的丟失,因此勢(shì)必存在一定數(shù)目的樣本錯(cuò)誤分類(lèi)現(xiàn)象,也就是會(huì)存在一定的錯(cuò)誤率。圖2.1.12.1.3中算出了在特定訓(xùn)練樣本數(shù)量下的分類(lèi)錯(cuò)誤率,可以看出隨著訓(xùn)練樣本數(shù)目的增多,誤差錯(cuò)誤率會(huì)減小,這表示隨著訓(xùn)練樣本數(shù)量的增加,會(huì)有更多的特征用于訓(xùn)練分類(lèi)器,使得分類(lèi)器相對(duì)應(yīng)的參數(shù)越來(lái)越精確,分類(lèi)器的效果
12、越來(lái)越好,相應(yīng)的使得測(cè)試樣本的分類(lèi)結(jié)果更加精確,導(dǎo)致分類(lèi)錯(cuò)誤率減小。但是隨著訓(xùn)練樣本數(shù)量增加分類(lèi)錯(cuò)誤率減少的規(guī)律不是絕對(duì)的,只能說(shuō)這是一種趨勢(shì)。圖2.1.1 訓(xùn)練樣本數(shù)為401個(gè)時(shí)測(cè)試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.2574)圖2.1.2 訓(xùn)練樣本數(shù)為1001個(gè)時(shí)測(cè)試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.2475)圖2.1.3 訓(xùn)練樣本數(shù)為2001個(gè)時(shí)測(cè)試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.2277)圖2.1.4 訓(xùn)練樣本數(shù)量與分類(lèi)誤差曲線(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):分類(lèi)誤差)如圖2.1.4表示訓(xùn)練樣本數(shù)量在4012901之間變化時(shí)的分類(lèi)誤差曲線,其中橫坐標(biāo)表示訓(xùn)練樣本數(shù)量,縱坐標(biāo)代表測(cè)試樣本分類(lèi)錯(cuò)誤率。從這幅圖中看
13、到,當(dāng)訓(xùn)練樣本數(shù)量增加時(shí),測(cè)試樣本分類(lèi)錯(cuò)誤率的大致走向是減少的,當(dāng)訓(xùn)練樣本數(shù)量為4001000時(shí),分類(lèi)錯(cuò)誤率不變,訓(xùn)練樣本數(shù)量為10001500時(shí),分類(lèi)錯(cuò)誤率成下降走勢(shì),但是當(dāng)訓(xùn)練樣本數(shù)量繼續(xù)增加直到2000個(gè)時(shí),此時(shí)分類(lèi)錯(cuò)誤率卻是逐漸增加的,接著保持不變直到訓(xùn)練樣本數(shù)量變?yōu)?500時(shí),接著才又逐漸下降。出現(xiàn)這種現(xiàn)象是合理的,隨著訓(xùn)練樣本的增多,應(yīng)用到訓(xùn)練分類(lèi)器上的特征也隨著增多,相應(yīng)的信息也會(huì)增多,在這些新增加的特征中,當(dāng)這些特征和原有的特征相似時(shí),此時(shí)會(huì)遵循原來(lái)的分類(lèi)錯(cuò)誤率的走勢(shì)繼續(xù)變化,而圖2.1.5 訓(xùn)練樣本數(shù)為401個(gè)時(shí)ROC曲線(曲線面積為:0.7835)圖2.1.6 訓(xùn)練樣本數(shù)為
14、1001個(gè)時(shí)ROC曲線(曲線面積為:0.7886)圖2.1.7 訓(xùn)練樣本數(shù)為2001個(gè)時(shí)ROC曲線(曲線面積為:0.7894)圖2.1.8 訓(xùn)練樣本數(shù)量與ROC曲線面積(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):ROC曲線面積)當(dāng)新增加的信息和原有特征相差較大時(shí),就可能存在著與原來(lái)的分類(lèi)錯(cuò)誤率的走勢(shì)完全相反的走勢(shì),這時(shí)也就可能出現(xiàn)錯(cuò)誤率反倒增加的現(xiàn)象,這個(gè)曲線只是相對(duì)的,是與訓(xùn)練樣本的選取方式有很大的關(guān)系的,但是訓(xùn)練樣本的數(shù)量與測(cè)試樣本分類(lèi)錯(cuò)誤率的總體規(guī)律是:隨著訓(xùn)練樣本數(shù)目的增多,測(cè)試樣本的分類(lèi)錯(cuò)誤率將減少。圖2.1.52.1.7表示的是圖2.1.12.1.3所表示的三種情況下對(duì)測(cè)試樣本進(jìn)行分類(lèi)得到的R
15、OC曲線,ROC曲線涉及FPR與TPR兩個(gè)指標(biāo),F(xiàn)PR即負(fù)例預(yù)測(cè)錯(cuò)誤的數(shù)量與所有負(fù)例的比值,也叫錯(cuò)誤率,反映模型的特異性;TPR即正例預(yù)測(cè)正確的數(shù)量與所有正例的比值,也叫命中率,反映模型的靈敏度。ROC曲線以誤檢率為X軸,以檢出率為Y軸,描繪了模型輸出的收益和代價(jià)之間的關(guān)系。為了衡量不同訓(xùn)練樣本的基礎(chǔ)上得到的ROC曲線的效果,我們引入曲線下面積,曲線下面積越大,分類(lèi)準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。由這三幅圖可以看出,隨著訓(xùn)練樣本的增多,ROC曲線下面積增多,及分類(lèi)準(zhǔn)確性有所提高,這是由于訓(xùn)練樣本數(shù)目太少時(shí),會(huì)出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象,簡(jiǎn)單理解就是訓(xùn)練樣本
16、得到的輸出和期望輸出基本一致,但是測(cè)試樣本輸出和測(cè)試樣本的期望輸出相差卻很大。為了得到一致假設(shè)而使假設(shè)變得過(guò)度復(fù)雜稱(chēng)為過(guò)擬合。由于使用過(guò)少的訓(xùn)練樣本產(chǎn)生了一個(gè)過(guò)擬合的分類(lèi)器,這個(gè)分類(lèi)器能夠百分之百的正確分類(lèi)樣本數(shù)據(jù),也就是說(shuō)再拿樣本中的樣本來(lái)給它,它絕對(duì)不會(huì)分錯(cuò),但也就為了能夠?qū)颖就耆_的分類(lèi),使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)則如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的測(cè)試樣本它全都認(rèn)為不屬于這個(gè)類(lèi)別。這就使得正確分類(lèi)訓(xùn)練樣本的要求變得十分嚴(yán)格,使得分類(lèi)準(zhǔn)確性降低。隨著訓(xùn)練樣本數(shù)量的增加,使得分類(lèi)器過(guò)擬合的現(xiàn)象有所改變,使得分類(lèi)準(zhǔn)確性有所提高,相應(yīng)的ROC曲線下面積也會(huì)有所增大。但是也不表示訓(xùn)練
17、樣本的數(shù)量越多越好,當(dāng)訓(xùn)練樣本增加到一定的數(shù)目時(shí),若再增加訓(xùn)練樣本,將會(huì)出現(xiàn)欠學(xué)習(xí)現(xiàn)象。由于數(shù)據(jù)本身呈現(xiàn)二次型,故用一條二次曲線擬合會(huì)更好。但普通的算法只提供線性方程供擬合之用,當(dāng)訓(xùn)練樣本的數(shù)目不是很多時(shí),線性方程還可以將這些樣本進(jìn)行擬合,而當(dāng)訓(xùn)練樣本增加到一定程度時(shí),此時(shí)線性擬合的誤差就會(huì)過(guò)大,這就產(chǎn)生擬合不足即“欠擬合”現(xiàn)象,從而在分類(lèi)時(shí)要造成偏差,導(dǎo)致分類(lèi)的準(zhǔn)確性降低,對(duì)應(yīng)到圖2.1.8中則表現(xiàn)為ROC曲線下面積下降。2.2 基于徑向基函數(shù)的實(shí)驗(yàn)仿真結(jié)果在這部分實(shí)驗(yàn)中,選擇的核函數(shù)是徑向基核函數(shù),在此基礎(chǔ)上,首先選擇不同數(shù)量的訓(xùn)練樣本,得到相應(yīng)的最優(yōu)分類(lèi)器,再對(duì)固定數(shù)量的測(cè)試樣本進(jìn)行分類(lèi)
18、,此時(shí)的懲罰系數(shù)c和徑向基核函數(shù)中的參數(shù)sigma保持默認(rèn)不變,此時(shí)給出分類(lèi)結(jié)果和相應(yīng)的ROC曲線,以及相對(duì)應(yīng)的分類(lèi)誤差,然后對(duì)所得的實(shí)驗(yàn)結(jié)果進(jìn)行分析討論;另一部分是保持訓(xùn)練樣本和測(cè)試樣本數(shù)量不變,線性核函數(shù)不變,此時(shí)改變懲罰系數(shù)c和徑向基核函數(shù)中的參數(shù)sigma,得到分類(lèi)結(jié)果、ROC曲線以及分類(lèi)誤差,分析懲罰參數(shù)c的變化以及徑向基核函數(shù)中的參數(shù)sigma改變時(shí)對(duì)實(shí)驗(yàn)結(jié)果的影響,并通過(guò)交叉驗(yàn)證算法得到最優(yōu)懲罰系數(shù)c與徑向基核函數(shù)中的參數(shù)sigma。1 訓(xùn)練樣本數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響圖2.2.1 訓(xùn)練樣本數(shù)為401個(gè)時(shí)測(cè)試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.1683)圖2.2.2 訓(xùn)練樣本數(shù)為1001個(gè)時(shí)測(cè)
19、試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.1584)圖2.2.3 訓(xùn)練樣本數(shù)為2001個(gè)時(shí)測(cè)試樣本分類(lèi)結(jié)果(錯(cuò)誤率為0.1584)圖2.2.4 訓(xùn)練樣本數(shù)量與分類(lèi)誤差曲線(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):分類(lèi)誤差)在這部分實(shí)驗(yàn)中,使用的實(shí)驗(yàn)參數(shù)及數(shù)據(jù)均與基于線性核函數(shù)的實(shí)驗(yàn)的第一部分使用的一致,新增加的一個(gè)參數(shù)便是徑向基核函數(shù)中的參數(shù)sigma。在這部分實(shí)驗(yàn)中使徑向基核函數(shù)中的參數(shù)sigma保持不變,即使用默認(rèn)值1.這組實(shí)驗(yàn)?zāi)康臑橥ㄟ^(guò)訓(xùn)練樣本數(shù)量的變化來(lái)得到實(shí)驗(yàn)結(jié)果,即當(dāng)訓(xùn)練樣本的個(gè)數(shù)發(fā)生變化時(shí),找到分類(lèi)誤差和ROC曲線相對(duì)應(yīng)的變化規(guī)律,并對(duì)這種規(guī)律進(jìn)行分析與討論。上圖為仿真實(shí)驗(yàn)結(jié)果,其中圖2.2.12.2.
20、3代表選取不同數(shù)目的訓(xùn)練樣本時(shí)得到的最優(yōu)分類(lèi)器,并將測(cè)試樣本進(jìn)行分類(lèi),其中黑色代表支持向量,藍(lán)色代表正確分類(lèi)的樣本,紅色圖2.2.5 訓(xùn)練樣本數(shù)為401個(gè)時(shí)ROC曲線(曲線面積為:0.8808)圖2.2.6 訓(xùn)練樣本數(shù)為1001個(gè)時(shí)ROC曲線(曲線面積為: 0.8882)圖2.2.7 訓(xùn)練樣本數(shù)為2001個(gè)時(shí)ROC曲線(曲線面積為:0.8773)圖2.2.8 訓(xùn)練樣本數(shù)量與ROC曲線面積(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):ROC曲線面積)則表示錯(cuò)誤分類(lèi)的樣本。圖2.2.4表示訓(xùn)練樣本數(shù)量在4012901之間變化時(shí)的分類(lèi)誤差曲線,其中橫坐標(biāo)表示訓(xùn)練樣本數(shù)量,縱坐標(biāo)代表測(cè)試樣本分類(lèi)錯(cuò)誤率。圖2.2.5
21、2.2.7表示的是圖2.2.12.2.3所表示的三種情況下對(duì)測(cè)試樣本進(jìn)行分類(lèi)得到的ROC曲線,圖2.2.8反映了訓(xùn)練樣本數(shù)量與ROC曲線下面積之間的關(guān)系。出現(xiàn)這些結(jié)果的原因在第一節(jié)已經(jīng)有了詳細(xì)的分析與討論,此處便不再做贅述。將這一部分的實(shí)驗(yàn)結(jié)果與第一節(jié)中相應(yīng)的實(shí)驗(yàn)部分的實(shí)驗(yàn)仿真結(jié)果進(jìn)行比較,可以看出無(wú)論是測(cè)試樣本分類(lèi)錯(cuò)誤率還是ROC曲線下面積均比基于線性核函數(shù)的效果好,也就是說(shuō)相對(duì)于基于線性核函數(shù)的SVM對(duì)測(cè)試樣本的分類(lèi),基于徑向基函數(shù)的SVM對(duì)測(cè)試樣本的分類(lèi)效果更好。由前面的理論知識(shí)知道,應(yīng)用核函數(shù)一方面是為了更好地?cái)M合,由于數(shù)據(jù)本身呈現(xiàn)二次型,故用一條二次曲線擬合會(huì)更好。所謂徑向基函數(shù),就
22、是某種沿徑向?qū)ΨQ(chēng)的標(biāo)量函數(shù)。通常定義為空間中任一點(diǎn)到某一中心之間歐氏距離的單調(diào)函數(shù),其作用往往是局部的,即當(dāng)這點(diǎn)遠(yuǎn)離中心點(diǎn)時(shí)函數(shù)取值很小。最常用的徑向基函數(shù)是高斯核函數(shù)。徑向基函數(shù)能夠?qū)崿F(xiàn)非線性映射,線性核函數(shù)可以證明是他的一個(gè)特例,數(shù)據(jù)本身的二次型的特點(diǎn)使得在很多情況下使用線性核函數(shù)的SVM并不能使測(cè)試樣本可分,樣例可能存在線性不可分的情況,而將特征映射到高維空間后,往往就可分了。因此在很多情況下使用徑向基函數(shù)的SVM會(huì)使得訓(xùn)練樣本的效果好于線性核函數(shù)的SVM,對(duì)應(yīng)于實(shí)驗(yàn)結(jié)果便是基于徑向基函數(shù)的分類(lèi)器對(duì)測(cè)試樣本分類(lèi)的錯(cuò)誤率與ROC曲線下面積的值要高于基于線性核函數(shù)的相應(yīng)的實(shí)驗(yàn)結(jié)果。2 徑向基
23、函數(shù)參數(shù)sigma與懲罰系數(shù)c對(duì)實(shí)驗(yàn)結(jié)果的影響核函數(shù)確定了數(shù)據(jù)在映射到高維空間之后的分布形態(tài),核函數(shù)參數(shù)sigma判定了特征空間中向量間歸一化的歐氏距離,sigma的選擇與學(xué)習(xí)樣本輸入空間的范圍或?qū)挾扔嘘P(guān),輸入空間范圍越大,則sigma取值越大,反之越小。懲罰系數(shù)c是模型復(fù)雜度和訓(xùn)練錯(cuò)誤率之間的折中,在建模過(guò)程中,無(wú)法得到推廣能力估計(jì)值與這些參數(shù)的顯示表達(dá)關(guān)系,且變化不連續(xù)??刹捎没趩l(fā)式的交叉驗(yàn)證法得到最優(yōu)值。交叉驗(yàn)證是一種用來(lái)評(píng)價(jià)一個(gè)統(tǒng)計(jì)分析的結(jié)果是否可以推廣到一個(gè)獨(dú)立的數(shù)據(jù)集上的技術(shù)。主要用于預(yù)測(cè),即想要估計(jì)一個(gè)預(yù)測(cè)模型的實(shí)際應(yīng)用中的準(zhǔn)確度。它是一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集的實(shí)
24、用方法。于是可以先在一個(gè)子集上做分析,而其它子集則用來(lái)做后續(xù)對(duì)此分析的確認(rèn)及驗(yàn)證。一個(gè)交叉驗(yàn)證將樣本數(shù)據(jù)集分成兩個(gè)互補(bǔ)的子集,一個(gè)子集用于訓(xùn)練(分類(lèi)器或模型)稱(chēng)為訓(xùn)練集;另一個(gè)子集用于驗(yàn)證(分類(lèi)器或模型的)分析的有效性稱(chēng)為測(cè)試集。利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的分類(lèi)器或模型,以此作為分類(lèi)器或模型的性能指標(biāo)。得到高度預(yù)測(cè)精確度和低的預(yù)測(cè)誤差,是研究的期望。為了減少交叉驗(yàn)證結(jié)果的可變性,對(duì)一個(gè)樣本數(shù)據(jù)集進(jìn)行多次不同的劃分,得到不同的互補(bǔ)子集,進(jìn)行多次交叉驗(yàn)證。取多次驗(yàn)證的平均值作為驗(yàn)證結(jié)果。在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報(bào),并求這小部分樣本的預(yù)報(bào)誤差,記錄
25、它們的平方和。這個(gè)過(guò)程一直進(jìn)行,直到所有的樣本都被預(yù)報(bào)了一次而且僅被預(yù)報(bào)一次。本次實(shí)驗(yàn)中選擇的交叉驗(yàn)證算法是k-fold交叉驗(yàn)證。它的過(guò)程是:初始采樣分成k個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他的k-1個(gè)樣本用來(lái)訓(xùn)練。交叉驗(yàn)證重復(fù)k次,每個(gè)子樣本驗(yàn)證一次,平均k次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一估測(cè)。這個(gè)方法的優(yōu)點(diǎn)在于同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證,每次的結(jié)果驗(yàn)證一次,實(shí)驗(yàn)中使用的是最常用的10次交叉驗(yàn)證。通過(guò)交叉驗(yàn)證算法得到分類(lèi)器的徑向基函數(shù)參數(shù)sigma的最優(yōu)值為1.3565,懲罰系數(shù)的最優(yōu)值為5.5555。在這組最優(yōu)參數(shù)下的實(shí)驗(yàn)仿真結(jié)果如圖2.2
26、.9所示(此時(shí)的訓(xùn)練樣本數(shù)目為1001個(gè),測(cè)試樣本數(shù)目101個(gè))。由實(shí)驗(yàn)結(jié)果可以看出,在訓(xùn)練樣本和測(cè)試樣本的數(shù)量保持不變的前提下,選取最優(yōu)參數(shù)時(shí)得到的實(shí)驗(yàn)結(jié)果與這一節(jié)第一部分是實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,選取最優(yōu)參數(shù)時(shí)的實(shí)驗(yàn)結(jié)果較好。當(dāng)保持徑向基函數(shù)參數(shù)sigma不變,改變懲罰參數(shù)c時(shí),可以看到實(shí)驗(yàn)結(jié)果如圖2.2.10(a)與(b)所示,此時(shí)的ROC曲線下面積均比圖2.2.9所示的ROC曲線下面積小,也就是說(shuō)對(duì)測(cè)試樣本的分類(lèi)精度不如最優(yōu)參數(shù)下的精度。由于測(cè)試樣本中可能存在一些離群點(diǎn)(可能是噪聲),如果這些離群點(diǎn)存在于另一個(gè)類(lèi)中,導(dǎo)致樣圖2.2.9 參數(shù)最優(yōu)時(shí)ROC曲線(曲線面積為: 0.8933)(a)
27、 C變?yōu)?時(shí)ROC曲線(曲線面積為:0.8855)(b) C變?yōu)?5時(shí)ROC曲線(曲線面積為:0.8925)(c) sigma變?yōu)?.3565時(shí)ROC曲線(曲線面積為:0.8286)(d) sigma變?yōu)?.3565時(shí)ROC曲線(曲線面積為:0.8749)圖2.2.10 參數(shù)變化時(shí)ROC曲線本變得不可分。為了解決這一問(wèn)題,我們引入了松弛變量,目的是允許這些點(diǎn)位于對(duì)方的區(qū)域中。離散點(diǎn)越多,目標(biāo)函數(shù)值就越大,而我們要求的是盡可能小的目標(biāo)函數(shù)值,懲罰系數(shù)c是表示這些離散點(diǎn)的權(quán)重,此時(shí)就需要調(diào)整懲罰系數(shù)c來(lái)得到目標(biāo)。若c過(guò)大,則此時(shí)離散點(diǎn)占的比重增多,使得處于對(duì)方區(qū)域中的樣本數(shù)量增多,使得錯(cuò)誤分類(lèi)的樣本
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年薄板木船項(xiàng)目籌資方案
- 植物學(xué)題庫(kù)及答案
- 《重癥肺炎診治》課件
- 養(yǎng)老院老人心理咨詢(xún)師培訓(xùn)制度
- 養(yǎng)老院老人康復(fù)理療師管理制度
- 定制目錄Catalog教學(xué)課件
- 2024年版重慶地區(qū)離婚合同范本一
- 《青春期健康男性》課件
- 房屋裝修費(fèi)轉(zhuǎn)讓合同(2篇)
- 2024年汽車(chē)抵押貸款合同樣本與合同審查要點(diǎn)3篇
- 地鐵運(yùn)營(yíng)公司工務(wù)線路質(zhì)量評(píng)定標(biāo)準(zhǔn)
- 感染性休克急診處理課件
- 歷史七年級(jí)上學(xué)期期末試卷含答案
- 【基于抖音短視頻的營(yíng)銷(xiāo)策略分析文獻(xiàn)綜述2800字(論文)】
- 2021-2022學(xué)年度西城區(qū)五年級(jí)上冊(cè)英語(yǔ)期末考試試題
- 《組織行為學(xué)》(本)形考任務(wù)1-4
- 廣東省廣州市白云區(qū)2022-2023學(xué)年九年級(jí)上學(xué)期期末語(yǔ)文試題
- 劇本-進(jìn)入黑夜的漫長(zhǎng)旅程
- DB43-T 958.3-2023 實(shí)驗(yàn)用小型豬 第3部分:配合飼料
- 化肥購(gòu)銷(xiāo)合同范本正規(guī)范本(通用版)
- 健康管理專(zhuān)業(yè)職業(yè)生涯規(guī)劃書(shū)
評(píng)論
0/150
提交評(píng)論