基于K近鄰的支持向量機(jī)多模型建模_第1頁(yè)
基于K近鄰的支持向量機(jī)多模型建模_第2頁(yè)
基于K近鄰的支持向量機(jī)多模型建模_第3頁(yè)
基于K近鄰的支持向量機(jī)多模型建模_第4頁(yè)
基于K近鄰的支持向量機(jī)多模型建模_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于K近鄰的支持向量機(jī)多模型建模主講人:劉振主講人:劉振 15721534 15721534基于K近鄰的支持向量機(jī)的多模型建模支持向量機(jī)多模型建模支持向量機(jī)多模型建模支持向量機(jī)多模型建模支持向量機(jī)多模型建模 支持向量機(jī)(Support Vector Machine,SVM)作為一種新興的基于統(tǒng)計(jì)學(xué)理論的學(xué)習(xí)機(jī),相對(duì)于神經(jīng)網(wǎng)絡(luò)的啟發(fā)式學(xué)習(xí)方式和實(shí)現(xiàn)中帶有很大的經(jīng)驗(yàn)成分相比,SVM具有更嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),可以克服局部最小問(wèn)題 , 解決小樣本學(xué)習(xí)的泛化能力 , 不過(guò)分依賴樣本的數(shù)量和質(zhì)量 ,所以它特別適用于解決小樣本、非線性、高維數(shù)、局部極小點(diǎn)等問(wèn)題。鑒于化工領(lǐng)域中大部分過(guò)程建模數(shù)據(jù)屬于小樣本、

2、不適定問(wèn)題,因此,支持向量機(jī)在化工過(guò)程建模中得到了廣泛的應(yīng)用。K K近鄰分類算法近鄰分類算法 K近鄰法(KNN,k-Nearest Neighbor)是由 C o v e r 和 Ha r t 于 1968年提出的 ,其核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。 kNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。K K近鄰分類算法近鄰分類算法實(shí)現(xiàn)步驟1. 準(zhǔn)備數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理2. 選用合適的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)訓(xùn)練數(shù)據(jù)和測(cè)試元

3、組 3. 設(shè)定參數(shù),如k 4. 維護(hù)一個(gè)大小為k的的按距離由大到小的優(yōu)先級(jí)隊(duì)列,用于存儲(chǔ)最近鄰訓(xùn)練元組。隨機(jī)從訓(xùn)練元組中選取k個(gè)元組作為初始的最近鄰元組,分別計(jì)算測(cè)試元組到這k個(gè)元組的距離,將訓(xùn)練元組標(biāo)號(hào)和距離存入優(yōu)先級(jí)隊(duì)列 5. 遍歷訓(xùn)練元組集,計(jì)算當(dāng)前訓(xùn)練元組與測(cè)試元組的距離,將所得距離L 與優(yōu)先級(jí)隊(duì)列中的最大距離Lmax 6. 進(jìn)行比較。若L=Lmax,則舍棄該元組,遍歷下一個(gè)元組。若L =0,回歸估計(jì)問(wèn)題轉(zhuǎn)化為:支持向量機(jī)支持向量機(jī)優(yōu)化目標(biāo)式變?yōu)樽钚』痬iiiCwJ1221常數(shù)C0標(biāo)準(zhǔn)不敏感支持向量回歸機(jī)miiiCw12*21min0*,. .*iiiiiiiiybxwbxwyts采用

4、對(duì)偶原理轉(zhuǎn)化為二次規(guī)劃問(wèn)題,建立拉格朗日方程miiiiimiiiiimiiiiimiiiiibxwybxwyCwwl11112*21,支持向量機(jī)支持向量機(jī)根據(jù)Karush-Kuhn-Tucker(KKT)條件可以得出 ,位于不敏感區(qū)內(nèi)的樣本點(diǎn)相對(duì)應(yīng)的 i和 i 都等于零 ,外部的點(diǎn)對(duì)應(yīng)有 i =C或 i =C , 而在邊界上 , i和 i 均為零 ,因而 i , i ( 0, C ) , 從而有CxwybCxwybiiiiii, 0, 0,*與 i 0和 i 0相對(duì)應(yīng)的樣本 x i,即在不靈敏區(qū)邊界上或外面的樣本 , 稱為支持向量 。進(jìn)一步得到 bxxxfiSVii*f ( x )可表示成iS

5、Vsiiiimiiixxw*1支持向量機(jī)支持向量機(jī) 對(duì)于非線性情況對(duì)于非線性情況, SVM的基本思路是通過(guò)引入核函數(shù)(Kernel Function),將輸入空間的數(shù)據(jù)通過(guò)非線性映射(x),映射到高維的特征空間(Hilbert空間)中,然后在特征空間中進(jìn)行線性地處理。設(shè)核函數(shù)K(x,x)滿足 根據(jù)核函數(shù)的定義,引入核函數(shù)K(x,x)就可以實(shí)現(xiàn)某一非線性變換后的線性變換,假設(shè)非線性模型為 ,xxxxK回歸方程為 bxxKbxwxfiSVii* bxwwxf, imiiixw1)(*支持向量機(jī)支持向量機(jī)SVM的優(yōu)點(diǎn): 可以解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題??梢蕴岣叻夯阅?。可以解決高維問(wèn)題??梢越鉀Q

6、非線性問(wèn)題。 可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題。缺點(diǎn)極其解決方法: (1) SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施 其主要改進(jìn)有SMO、PCGC、CSVM以及SOR算法(2) 用SVM解決多分類問(wèn)題存在困難 可以通過(guò)多個(gè)二類支持向量機(jī)的組合來(lái)解決。主要有一對(duì)多組合模式、一對(duì)一組合模式和SVM決策樹;再就是通過(guò)構(gòu)造多個(gè)分類器的組合來(lái)解決。主要原理是克服SVM固有的缺點(diǎn),結(jié)合其他算法的優(yōu)勢(shì),解決多類問(wèn)題的分類精度。如:與粗集理論結(jié)合,形成一種優(yōu)勢(shì)互補(bǔ)的多類問(wèn)題的組合分類器。基于基于k k近鄰的支持向量機(jī)多模型近鄰的支持向量機(jī)多模型 K近鄰算法將樣本認(rèn)為是對(duì)應(yīng)于多維空間中的各個(gè)點(diǎn) ,一個(gè)新的樣本

7、所屬的類別是根據(jù) K個(gè)與其最接近的訓(xùn)練樣本的分類情況估計(jì)得到 。我們這里使用 K近鄰算法 ,不是用于確定測(cè)試樣本所屬的類別 ,而是將其作為支持向量機(jī)子模型輸出結(jié)果的組合參數(shù) 。由 K近鄰算法計(jì)算得到測(cè)試樣本屬于各類別的比例系數(shù) , 將該比例系數(shù)作為各類別支持向量機(jī)子模型的輸出權(quán)重 , 經(jīng)加權(quán)組合后得到軟測(cè)量模型的總輸出 ?;诨趉 k近鄰的支持向量機(jī)多模型近鄰的支持向量機(jī)多模型設(shè)樣本集為 其中xi為n維輸入,yi為1維輸出。liyxiii,.,2 , 1,p具體的算法步驟如下具體的算法步驟如下 :1. 根據(jù)主元分析的結(jié)果 ,采用簡(jiǎn)單距離分類方法將所有訓(xùn)練樣本數(shù)據(jù)分為 c 類 ,并對(duì)訓(xùn)練樣本標(biāo)

8、記對(duì)應(yīng)類標(biāo)簽 。2. 將測(cè)試樣本與所有訓(xùn)練樣本進(jìn)行比較 ( 比較指計(jì)算測(cè)試樣本與訓(xùn)練樣本之間的距離 ) , 得到最近鄰的 K個(gè)距離 。 利用歐式距離 但當(dāng)核函數(shù)為高斯核或指數(shù)核時(shí), 可更簡(jiǎn)單地采用距離公式: 21,2,jjjiiijijixxKxxKxxKxxxxD jiTjijijixxxxxxxxd,基于基于k k近鄰的支持向量機(jī)多模型近鄰的支持向量機(jī)多模型3. 根據(jù)得到的K個(gè)距離Dj(j=1,2,K)中各類標(biāo)簽的數(shù)目ns,計(jì)算測(cè)試樣本屬于各類別的權(quán)重系數(shù)為 s=1,2,cKnWss其中n1+n2+nj+ns=K 。4. 測(cè)試樣本經(jīng)過(guò)所有子模型,將上式表示的權(quán)重系數(shù)作為各子模型輸出Yi的組

9、合系數(shù),從而得到最終的測(cè)試樣本輸出SiWYY這種改進(jìn)方法的優(yōu)點(diǎn)是考慮了所有訓(xùn)練樣本對(duì)測(cè)試樣本的影響 , 最大程度地保留了樣本類別信息 ,可以有效地利用支持向量機(jī)所有子模型的有效信息?;诨趉 k近鄰的支持向量機(jī)多模型近鄰的支持向量機(jī)多模型其模型為其模型為輸入向量xKNN分類器類別1子模型類別2子模型類別c子模型+YY2Y1YcWcW2W1實(shí)例仿真實(shí)例仿真 利用此方法對(duì)雙酚A生產(chǎn)過(guò)程中的融化罐苯酚含量進(jìn)行在線估計(jì)。苯酚和丙酮在酸性介質(zhì)下可生成雙酚A,為使丙酮充分轉(zhuǎn)化成BPA,因此必須用過(guò)量苯酚參與反應(yīng),以減少生成三苯酚(雜質(zhì))。丙酮含量比重過(guò)高,就會(huì)生成大量的副產(chǎn)物如丙酮的縮合物(異丙叉丙酮、

10、雙異丙叉丙酮)等。由于苯酚、丙酮的價(jià)格較貴,所以BPA生產(chǎn)的經(jīng)濟(jì)性很大程度上取決于副產(chǎn)物的數(shù)量及其合理利用,所以需要對(duì)融化罐苯酚含量進(jìn)行預(yù)估。實(shí)例仿真實(shí)例仿真將現(xiàn)場(chǎng)采集的數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理后得到 245組樣本 , 選擇 163 組數(shù)據(jù)作為訓(xùn)練樣本 , 82組數(shù)據(jù)作為測(cè)試樣本。根據(jù)主元分析方法 , 計(jì)算輸入數(shù)據(jù)的各個(gè)屬性對(duì)輸出數(shù)據(jù)的影響度 , 按照影響度的大小將屬性排序 ,如圖所示:對(duì)輸出數(shù)據(jù)主元貢獻(xiàn)率較大的屬性為第三屬性和第二屬性 , 將所有訓(xùn)練樣本按第三屬性的均值為界限分為兩類 ; 在分好的兩類中再以第二屬性的均值為界限各分兩類 ,即將整個(gè)訓(xùn)練樣本分為 4類 , 對(duì)這 4個(gè)類別的數(shù)據(jù)分別建立

11、SVM子模型 。實(shí)例仿真實(shí)例仿真利用KNN方法計(jì)算測(cè)試樣本屬于各類別的權(quán)重 , 取 K =80。 為比較各種不同方法的建模效果 , 文中分別采用單一 SVM模型 、基于 K近鄰分類的多模型和文中提出的基于 K近鄰的SVM多模型方法進(jìn)行比較 。 3種模型建立方法得到的測(cè)試誤差如下表所示 :結(jié)論:基于結(jié)論:基于 K N K N NN分類方法的支持向量機(jī)多模型可以有分類方法的支持向量機(jī)多模型可以有效地改進(jìn)模型性能,對(duì)效地改進(jìn)模型性能,對(duì)泛化性能也有一定改善泛化性能也有一定改善 。 參考文獻(xiàn)1 王永吉.基于K近鄰的支持向量機(jī)多模型建模J.江南大學(xué)學(xué)報(bào),2010,9(1):7-102和文全.基于K近鄰的支持向量機(jī)分類方法J.計(jì)算機(jī)仿真,2008,25(11):161-1633張國(guó)英.基于粒

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論