多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇_第1頁
多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇_第2頁
多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇_第3頁
多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇_第4頁
多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、作者簡介:彭文偉 男1971無學(xué)位,Vsvm和Supercomputer軟件創(chuàng)作者。作者簡介 : 彭文偉 男 1971 無學(xué)位 , Vsvm 和 Supercomputer 軟件創(chuàng)作者。多目標(biāo)輸出SVM回歸的參數(shù)優(yōu)化和特征選擇彭文偉湖南湘潭湘鋼巴塘 17-18, 郵政編碼 :411104.Email: HYPERLINK mailto:pww71 pww71, phone摘 要:目前多目標(biāo)輸出SVM回歸的算法使用多閾值,其預(yù)測效果不理想,且運(yùn)算量大。另外SVM算法的評價準(zhǔn)則采用的是交叉驗證的均方誤差或相關(guān)系數(shù),如果各目標(biāo)的數(shù)據(jù)不平衡,這種統(tǒng)計方法無法用于評價

2、多目標(biāo)輸出SVM回歸算法。首先,本文提出采用相同閾值的SVM多目標(biāo)輸出回歸的算法,然后對交叉驗證提出兩種誤差統(tǒng)計方法:一,各目標(biāo)均方誤差作均勻化處理,二, 使用馬氏距離最小化的方法。最后,針對大型數(shù)據(jù)超大運(yùn)算的問題,提出網(wǎng)絡(luò)計算機(jī)并行運(yùn)算算法。實驗先用遺傳算法,粒子群算法和自己的BFS算法分別對相同SVM模型作參數(shù)優(yōu)化,然后用改進(jìn)的序列極小化特征選擇算法優(yōu)化SVM特征。結(jié)果說明:選擇 -SVR算法和Rbf核,和BFS算法的參數(shù)優(yōu)化,交叉驗證用均勻化的均方誤差作評價準(zhǔn)則,效果相對較好。關(guān)鍵詞 :支持向量機(jī) ; 遺傳算法 ; 粒子群算法 ; BFS 算法; 序列極小化特征選擇 ;Abstract:

3、 At present, the multi-objective output SVM regression used multi-threshold strategy. However, its prediction result and computational complexity is not satisfactory. In addition, the parameter and feature selection generally used cross-validation as the evaluation criteria. Because of the imbalance

4、 data, the statistical methods used to evaluate the cross-validation error cannot always get the optimal effect. In this paper, an algorithm of the multi-objective output SVM regression using the same thresholds for the multi-objective is proposed. Moreover, two error evaluation methods for cross-va

5、lidation are proposed. Firstly, the mean square error for all objectives are treated homogeneously; Secondly, minimizing the Mahalanobis distance is used 。 Finally , data for large super-computing problem, the network computer parallel computing algorithm is proposed . experiment by using genetic al

6、gorithms, particle swarm optimization and own Breadth-first search algorithm separately on the same SVM model for parameter optimization, and then experiment by using the modified sequential minimal algorithm for featureselection. Results show that:e -SVR , Gaussian Radial Basis, parameter optimizat

7、ion is using Breadth-first searchalgorithm, cross-validation with homogenization of the mean square error for the purpose of evaluation criteria, the effect is relatively good.Keyword: svm; genetic algorithms; particle swarm optimization; BFS; The sequential minimal algorithm based on feature select

8、ion;一,引言支持向量機(jī) (Support Vector Machines, SVM) 是 Vapnik 等人于 20 世紀(jì) 90 年代建立的,基于統(tǒng)計學(xué)習(xí)理論且推廣能力非常好 的一種小樣本學(xué)習(xí)方法 1,已成功應(yīng)用于模式分類、回歸分析等領(lǐng)域。SVM回歸問題一般都是單目標(biāo)輸出2-3 (SV M回歸問題的目標(biāo)值只有一個)。而目前多目標(biāo)輸出(SVM回歸問題目標(biāo)值超過一個) 一般采用多閾值方式 4 ,不是共同的間隔,相當(dāng)于用單目標(biāo)預(yù)測方式重復(fù)預(yù)測多目標(biāo),實驗效果不是很理想,故提出采用相同閾 值的多目標(biāo)SVM回歸算法。正如大多數(shù)學(xué)習(xí)機(jī)算法,支持向量機(jī)(SVM的性能與SVM參數(shù)和特征的選擇有關(guān)5。不同的

9、數(shù)據(jù)類型用不同的SVM模型預(yù)測效果有一定的差異,而SVM模型不同其參數(shù)和參數(shù)范圍也不同,因此對于不同的SVM模型,因根據(jù)其參數(shù)多少和范圍來選擇不同的參數(shù)優(yōu)化方案。常用的參數(shù)優(yōu)化辦法是網(wǎng)格搜索6,但是其采用2的n次幕將范圍切割為離散數(shù),造成搜索范圍不均勻分布,即使提高網(wǎng)格數(shù)搜索精度也不高,而且增加運(yùn)算量。為了提高精度,本人提出啟發(fā)式廣度優(yōu)先搜索。目前使用遺傳算法和粒子群算法作參數(shù)優(yōu)化的越來越多,但是針對不同的SVM模型,沒有對眾多參數(shù)優(yōu)化方案進(jìn)行綜合的對比和評價,是缺乏說服力的。SVM參數(shù)和特征的優(yōu)化過程需要一個評價準(zhǔn)則。該準(zhǔn)則大多采用k折交叉驗證驗證的均方誤差或相關(guān)系數(shù)。先預(yù)先設(shè)定好某個 SV

10、M參數(shù),然后進(jìn)行k-折交叉驗證(k-fold cross vaidation ):將訓(xùn)練樣本集隨機(jī)地分成k個互不相交的子集,每個折的大小大致相等。利用 k-1 個訓(xùn)練子集,對給定的一組參數(shù)建立回歸模型,利用剩下的最后一個子集的誤差平均值 評估參數(shù)的性能。以上過程重復(fù)K次,因此每個子集都有機(jī)會進(jìn)行測試,最后根據(jù)k次迭代后得到誤差平均值。用該誤差平均值來評價SVM勺學(xué)習(xí)能力和推廣能力誤差平均值采用均方誤差: no采用相關(guān)系數(shù):x=目標(biāo)值,丫=預(yù)測值,0=r=1,越靠近1越好。這兩種評價準(zhǔn)則用于單目標(biāo)輸出預(yù)測沒有問題,但在輸出多目標(biāo)預(yù)測的情況下,如果各目標(biāo)的數(shù)據(jù)不小不同,產(chǎn)生的各目標(biāo)誤 差大小就不平

11、衡。用均方誤差或相關(guān)系數(shù)是無法對誤差進(jìn)行綜合評價的。在單處理器情況下,受 cpu和內(nèi)存限制,大型數(shù)據(jù)的 SVM回歸的參數(shù)優(yōu)化將是一個漫長的過程。并行運(yùn)算可以將問題求解規(guī)模 線性擴(kuò)大7,因此,用并行運(yùn)算求解大型數(shù)據(jù)下的多目標(biāo)輸出SVM回歸問題是有效的解決途徑。二, SVM算法及模型選擇SVM的參數(shù)和參數(shù)范圍與 SVM算法的類型和核函數(shù)的選擇有關(guān),目前多目標(biāo)輸出的SVM有兩種, -SVR和v-SVR,核函數(shù)一般使 用三種,多項式核 Polynomial,高斯核rbf, sigmoid核。以下提出采用相同閾值的多目標(biāo)輸出SVM算法,同時分析它們在三種核函數(shù)下的參數(shù)以及參數(shù)范圍:m目標(biāo)數(shù),n訓(xùn)練集數(shù),

12、z特征數(shù)。已知訓(xùn)練集 t=(昭y)盡們左(XX呼其中 .工-一 一: 、一 亠二1, -SVR 算法:max:in n嚴(yán)n衛(wèi)pX(毎-羽蚣罔)工個+ 上1 y=ii=i j=iz 典約束條件:1=1 JS1Ci i構(gòu)造決策函數(shù):m; j = 12i=i求出閾值變量b:- -b bm需要選擇適當(dāng)?shù)?0,以及核函數(shù)參數(shù)。參數(shù) C取經(jīng)驗范圍(0,1000】2 , v-SVR 算法:m nm nw(能)二 of) X宙毎JK魚)+何-心歸1i=l)=i約束條件:m n lw-)=o 1=1 ji0 C C/nm n1=1 jsl1=1nt j=lX.D得出最優(yōu)解;. T伸(f口沖 of) (i 二仁m

13、)Ulb = 3Yi+y?-任(E-斗颶曲)+廚-巧K0護(hù)Jg 需要選擇適當(dāng)?shù)?v0,以及核函數(shù)參數(shù)。參數(shù) C取經(jīng)驗范圍(0,1000】。1-111構(gòu)造決策函數(shù):n1=1求出閾值變量b:(岸-+b(i = 1m; j = 12 .m n)3,核函數(shù) 弧聞)=poiynomiai :環(huán):d是多項式核的度,經(jīng)驗范圍選擇【3, 7】的整數(shù),r取經(jīng)驗范圍【0,1000】RBF : exp(-Y|Xj-Xja),y03, SigmoidTretiullbi+K is CPD After r in trin all: trimilai to R.BF for tun all a+in genertil n

14、ot ati good hh the +、) catte+objectivt; vlue of (b) oo arftei r large euoughthe cLjeutive value of (6) oor取經(jīng)驗范圍【0, 1000】。Gamm取0,1.非正定核,其smo運(yùn)算容易進(jìn)入無窮迭代11,需加最大迭代限制,經(jīng)驗取200000次. 三,參數(shù)優(yōu)化和特征選擇算法注意:以下統(tǒng)計的算法復(fù)雜度是針對SVM算法作交叉驗證的次數(shù)和序列最小最優(yōu)化(seque ntial mi nimal optimizatio n,SMO)10運(yùn)算中迭代次數(shù)無關(guān)。1,提出BFS啟發(fā)式廣度優(yōu)先搜索。將各參數(shù)范圍按均

15、勻步長分割成離散數(shù)組,然后遍歷各參數(shù)數(shù)組取值,交叉驗證運(yùn)算,統(tǒng)計得出最佳參數(shù)后,重新在該參數(shù)附近分配步長大小的范圍,將原步長縮小,重新分割各參數(shù)為離散數(shù)組,遍歷取值,交叉驗證運(yùn)算,直到交叉驗證的結(jié)果不再更新。例如:c的選擇范圍是1到1001,步長為100,則第一階段參數(shù)c循環(huán)選擇1,101,201,301.901,1001 ,其他參數(shù)作類似選擇, 作交叉驗證,比較交叉驗證的結(jié)果,如果本階段運(yùn)算有新的最佳結(jié)果,其參數(shù)c=101,則遞歸進(jìn)入第二階段,c的選擇范圍重新定義為1到201,步長為4*100/(step num+4) ,step num是上階段的步數(shù),不停的遞歸運(yùn)算,直到不出現(xiàn)新的最佳結(jié)果

16、。由于采用啟發(fā)式深度遞歸運(yùn)算,如果某參數(shù)搜索范圍很寬,初始化步長可以加寬,減少運(yùn)算量,進(jìn)入遞歸后搜索細(xì)化,其搜索精度提高。一般遞歸階段只有兩個,而且遞歸越深,運(yùn)算量越小,所以總的運(yùn)算量并不大。其算法復(fù)雜度大約為:n初叩Pii=ln為參數(shù)數(shù),p為參數(shù)范圍分割步數(shù),1.005是經(jīng)驗值。另外說明一點(diǎn),本人在很多數(shù)據(jù)集中做實驗,發(fā)現(xiàn) C的最優(yōu)參數(shù)往往在兩個范圍(0,1】和【1,1000】)之一徘徊,為了保證 搜索的全面性,參數(shù) C的搜索分兩個范圍(0,1】和【1,1000】)進(jìn)行。第一階段 C的搜索階段在【1,1000】,如果本階段交 叉驗證最優(yōu)結(jié)果的參數(shù) c的值為1,則遞歸到第二階段時參數(shù) c從【0

17、,1】搜索,否則第二階段按常規(guī)遞歸運(yùn)算。2,遺傳算法。實驗使用Galib 8設(shè)計以下遺傳算法做參數(shù)優(yōu)化:四種遺傳算法:標(biāo)準(zhǔn)型(simple ),穩(wěn)態(tài)型(Steady-State ),增量型(In creme ntal ),確定性擁擠(DCrowd in gGA。三種編碼方式:實數(shù)編碼,二進(jìn)制編碼,格雷碼。五種交叉方式:均勻交叉,單點(diǎn)交叉,雙點(diǎn)交叉,平均交叉,混合交叉。四種變異方式:隨機(jī)翻轉(zhuǎn)編譯,均勻變異,高斯變異,邊界變異。六種算子選擇:隨機(jī)選擇,輪盤賭選擇,錦標(biāo)賽選擇,確定性采樣選擇,無回放余數(shù)隨機(jī)選擇,隨機(jī)均勻樣本選擇。五種適應(yīng)度定標(biāo)方式: 無適應(yīng)度,線性尺度變換,Sigma截斷尺度變換,

18、乘幕尺度變換,共享因子變換。為了保證參數(shù)C的搜索在兩個范圍(0,1】和【1,1000】)同時進(jìn)行搜索。自定義初始化群體時,個體選擇參數(shù)c在兩個范圍內(nèi)的選擇機(jī)率是相同的,也就是一半的個體的參數(shù)c的值是在范圍(0,1】里,另一半個體的參數(shù) c是在范圍【1,1000】里。算法復(fù)雜度:n xpn為群體大小,p進(jìn)化代數(shù)。3,粒子群算法。實驗采用標(biāo)準(zhǔn)粒子群算法:師+1)C1=k知學(xué)習(xí)系數(shù) 采用經(jīng)驗值2C2老會學(xué)習(xí)系數(shù)采用經(jīng)驗值2慣性權(quán)重 W =(W-0.4)*( n- i ) /n + 0.4 ,初始值為1最大迭代次數(shù)n, i = 1 , 2,n。r1,r2 是(0 , 1)范圍內(nèi)均勻分布的隨機(jī)浮點(diǎn)數(shù)。P

19、i=局部最佳位置Pg=全局最佳位置Vt=控制微粒的飛行速度算法復(fù)雜度:n xpn為群體大小,p迭代代數(shù)。4,提出二種網(wǎng)絡(luò)并行運(yùn)算常規(guī)下,SVM回歸多目標(biāo)輸出的數(shù)據(jù)的特征和目標(biāo)相對較多,因此參數(shù)優(yōu)化過程的運(yùn)算量也相對較大。因此對于大的數(shù)據(jù)集采用并行運(yùn)算是必要的。并行運(yùn)算(parallel computing )是指,在并行機(jī)上,將一個應(yīng)用分解成多個子認(rèn)為,分配給不同的處理 其,各個處理器之間相互協(xié)同,并行地執(zhí)行子任務(wù),從而達(dá)到加速求解速度,或者求解應(yīng)用問題規(guī)模的目的。實驗利用C# .net的socket網(wǎng)絡(luò)編程技術(shù),利用網(wǎng)絡(luò)平臺大量計算機(jī)對BFS算法和遺傳算法進(jìn)行SVM參數(shù)優(yōu)化的并行運(yùn)算。1,B

20、FS廣度優(yōu)先搜索的并行運(yùn)算:服務(wù)器將SVM各參數(shù)范圍分解,發(fā)送給各客戶端分解的范圍和步長,客戶端以BFS算法完成該范圍內(nèi)的參數(shù)優(yōu)化運(yùn)算,將最佳參數(shù)和交叉驗證結(jié)果返回給服務(wù)器端,服務(wù)器端從各客戶端統(tǒng)計最佳結(jié)果,保存最佳 結(jié)果的參數(shù)值。2,多群體遺傳算法并行運(yùn)算:服務(wù)器把SVM參數(shù)范圍和遺傳算法選項參數(shù)發(fā)送給各客戶端,各客戶接到消息后先做初始化群體運(yùn)算,然后返回一定數(shù)量的最佳個體給服務(wù)器,同時接收服務(wù)器發(fā)送過來的來自其他群體的最佳個體,如果有最佳個體 客戶端就先進(jìn)行個體交換,將一定數(shù)量的最差的個體換掉,然后再進(jìn)行個體間的交叉變異,進(jìn)化群體一定代數(shù)后,再返回 一定數(shù)量最佳個體給服務(wù)器端,又開始接收服

21、務(wù)器發(fā)送的來自其他群體最佳個體,直到運(yùn)算結(jié)束,返回最好個體和參數(shù)給服務(wù)器。服務(wù)器收到全部客戶端運(yùn)算結(jié)束的消息時,統(tǒng)計最佳結(jié)果保存最佳參數(shù)。5,特征選擇作者改進(jìn)了序列極小化算法9,改用交叉驗證的誤差值來決定特征維的去留。算法描述:,根據(jù)參數(shù)優(yōu)化得出的最佳配置和參數(shù)對樣本作交叉驗證,得出誤差結(jié)果。(原算法不包含該過程),如果誤差小于歷史最小誤差,重新保存歷史最小誤差和特征數(shù)組。否則轉(zhuǎn)過程(4),T,訓(xùn)練樣本,得出最優(yōu)解;|5.-.,根據(jù)構(gòu)造決策函數(shù),出w越小對f (x)影響越小,計算權(quán)向量w=(w1, w2,,wn,)的分量并按大小排列:|w1| |w2| w |wn| 。(4),從小到大依次去掉

22、|wj|對應(yīng)的特征xj,返回過程(1)重新運(yùn)算(原算法:在此處預(yù)測樣本,得到誤差后轉(zhuǎn)過程(2)。直 到所有特征都選擇過(j=n )時運(yùn)算結(jié)束。特征優(yōu)化實驗采用e-SVR rbf核,交叉驗證采用均化均方誤差作評價準(zhǔn)則,并使用上述實驗得出的最佳參數(shù)& ,gamma和c。四,評價準(zhǔn)則為了解決交叉驗證中各目標(biāo)的誤差不平衡問題,本人提出兩個解決方案:1,將預(yù)測各目標(biāo)的均方誤差除以訓(xùn)練樣本相應(yīng)目標(biāo)的平均值。2,采用馬氏距離(Mahalanobis )。均化均方誤差:先計算訓(xùn)練樣本m個目標(biāo)的平均值A(chǔ)verage 1, Average 2, Average m ,然后作交叉驗證得到 m個均方誤差 1、 2 n

23、,均勻化均方誤差 :e = ( 1/ Average 1+ s 2/ Average 2+s m Average m )/m。馬氏距離:馬氏距離是由印度統(tǒng)計學(xué)家馬哈拉諾比斯于1936年引入的,故稱為馬氏距離。這一距離在多元統(tǒng)計分析中起著十分重要的作用,馬氏距離有很多優(yōu)點(diǎn)。它不受量綱的影響,兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān);由標(biāo)準(zhǔn)化數(shù)據(jù)和中 心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計算出的二點(diǎn)之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關(guān)性的干擾。它的缺 點(diǎn)是夸大了變化微小的變量的作用。以下是各評價準(zhǔn)則的推導(dǎo)過程: TOC o 1-5 h z x代表樣本目標(biāo)值,y代表預(yù)測目標(biāo)值,n代表樣

24、本數(shù),m代表目標(biāo)數(shù)。其中i= 1,2,m; l = 1,2,n。 丄4旳斗+冷口訓(xùn)練樣本各目標(biāo)的平均值: :v _+尸J? _ E切-p護(hù)訓(xùn)練樣本各目標(biāo)的方差:-6 =交叉驗證的均方誤差:伽|- 丹慮yd片畑-畑訂伽-yn尸H1以下是實驗采用的四個評價準(zhǔn)則:相對均方差:相關(guān)系數(shù):3,均化均方差:tnKn-yii)3/ . (21-vji)2/.(Krmi-ymiJz/他十5”t/Pm 4,馬氏距離:卸f 號巧+縮一厲)7壯+知】-氐尸/叫五,實驗列表對比各種參數(shù)優(yōu)化方式的特點(diǎn)和特征選擇效果。為了對各種參數(shù)優(yōu)化方式做全面綜合的對比,均使用5折交叉驗證,并設(shè)置交叉驗證隨機(jī)種子,保證相同的種子時,交

25、叉驗證時隨機(jī)配對的樣本順序是相同的.這樣就能公平的比較各種參數(shù)尋優(yōu)算法的性能。另外使用隨機(jī)種子也可以驗證一下樣本數(shù)據(jù)的可 靠性,一般情況下,如果訓(xùn)練采用不同的交叉驗證順序,得到參數(shù)優(yōu)化結(jié)果差別很大,說明該樣本數(shù)據(jù)集缺乏代表性。實驗數(shù)據(jù)使用9個目標(biāo),32個特征,訓(xùn)練集30個樣本,預(yù)測集10個樣本。前三個目標(biāo)值y1,y2,y3是實驗產(chǎn)生的,中間三個是前三個目標(biāo)值的平方構(gòu)成,y4=y1* y1, y5=y2*y2 ,y6=y3*y3,最后三個是也是前三個目標(biāo)值構(gòu)成的,y7=y1*y2, y8=y1*y3 ,y9=y2*y3。Data set from an experiment at the pap

26、er plant Saugbruksforeningen,Norway. It were described and analysedin Aldrin (1996).為了公平對比效果,參數(shù)優(yōu)化算法不同但運(yùn)算復(fù)雜度基本上保持相等。因此遺傳算法的群體大小設(shè)置為25,進(jìn)化代數(shù)40,粒子群算法群體大小也是25,迭代次數(shù)40,運(yùn)算復(fù)雜度均為1000次。廣度優(yōu)先搜索根據(jù)核函數(shù)不同選擇相應(yīng)的步數(shù) ,保證運(yùn)算復(fù)雜 度約為1000次。遺傳算法配置和參數(shù)選擇實驗:使用s-SVR, rbf核,參數(shù)范圍s (0, 1】,gamma(0, 1】和c (0,1】+【1,1000】。經(jīng)過多次實驗,發(fā)現(xiàn)遺傳算法采用以下參數(shù)

27、配置相對較好:穩(wěn)態(tài)型算法,實數(shù)編碼,單點(diǎn)交叉,交叉率0.9,高斯變異,變異率0.01,輪盤賭選擇算子,線性尺度變換的定標(biāo)方式,進(jìn)化群體替換個體數(shù)為4。在下列試驗中均采用該方案配置遺傳算法。1, 使用s -SVR情況廣度優(yōu)先搜索根據(jù)核函數(shù)不同選擇相應(yīng)的步數(shù)來保證算法復(fù)雜度大至相同。rbf核有三個參數(shù),s (0,1】,gamma(0,1】和c (0, 1000】,平均每個參數(shù)10步,運(yùn)算復(fù)雜度約為1000次。Polynomial核有五個參數(shù),& (0, 1】四步,gamma(0, 1】四步,c ( 0, 10】五步degree【3, 5】三步,r【0,1】五步,運(yùn)算復(fù)雜度約為1200次。由于該核的

28、運(yùn)算量太大,所以只實驗了均勻化均方誤差,c的范圍也縮小到(0, 10】。Sigmoid核有四個參數(shù)& (0, 1】四步,gamma (0, 1】五步,c (0, 1000】十步,r【0,1】五步,運(yùn)算復(fù)雜度約為 1000次。評價準(zhǔn)則和預(yù)測誤差核函數(shù)RbfPolynomialSigmoid遺相對均方誤差和預(yù)測均方誤差1無窮大某些參數(shù)的svm運(yùn)算量太大,1無窮大最優(yōu)參數(shù)Y =0.185,C=365.9,& =0.5835主要是degree【3, 5】和cY =0.76,r=0.97,C=0.36, e =0.65傳相關(guān)系數(shù)和預(yù)測均方誤差0.126292900757的取值(0, 10越大,運(yùn)算0.0

29、8467932.92314e+007最優(yōu)參數(shù)Y =0.1,C=1001,e =0.001量激增。序列最小最優(yōu)化運(yùn)Y =0.52,r=0.87,C=802,e =0.037算均化均方誤差和預(yù)測均方誤差5384.091.2275算中迭代次數(shù)超過100萬.因5502.861.18855最優(yōu)參數(shù)Y =0.2949,C=0.097, =0.085此實驗只用了廣度優(yōu)先搜Y =0.69,r=0.76,C=0.11,e =0.19法馬氏距離和預(yù)測均方誤差0.1949183288.49索,結(jié)果如下:degree = 5, y0.274021.34971最優(yōu)參數(shù)Y =0.276,C=149.9, =0.152=1

30、e-8,r = 0, C =Y =0.075,r=0.46,C=0.46,e =0.23粒相對均方誤差和預(yù)測均方誤差1無窮大0.866667, e = 1e-8 ,0.9098474.81267最優(yōu)參數(shù)Y =1.0,C=1.0, E=0.91均化均方誤差 =5324.77,預(yù)測均方誤差 =1.31198Y =1e-8,r=0.017,C=112,e =0.36子相關(guān)系數(shù)和預(yù)測均方誤差0.001525381.113610.02682622.16589e+006最優(yōu)參數(shù)Y =0.526,C=1,e =0.3Y =1,r=0.25,C=987,E =0.34群均化均方誤差和預(yù)測均方誤差5124.87

31、0.984939無窮大無窮大最優(yōu)參數(shù)Y =0.049,C=1,E =0.001Y =0.08,r=0,C=438,E =1馬氏距離和預(yù)測均方誤差0.1750871.13245無窮大無窮大最優(yōu)參數(shù)Y =0.036,C = 1,e =0.126Y =0.08,r=0,C=438,E =1廣相對均方誤差和預(yù)測均方誤差0.9729983293801無窮大最優(yōu)參數(shù)Y =0.1077,C=856.6,& =0.041Y =1e-8,r=0,C=1, =0.5度相關(guān)系數(shù)和預(yù)測均方誤差0.1262929007570.0877591.09872最優(yōu)參數(shù)Y =0.1,C=1001,e =0.001Y =1e-8,

32、r=0,C=1001,E =0.001優(yōu)均化均方誤差和預(yù)測均方誤差5053.860.9175715308.931.26412最優(yōu)參數(shù)Y =0.046,C=0.929, e =0.0048Y =1e-8,r=0.067,C=03,e =0.08先馬氏距離和預(yù)測均方誤差0.07962120.9992320.07542821.08688最優(yōu)參數(shù)Y =0.0082,C=0.122, e =0.01Y =1e-8,r=0,C=901,E =0.001平均運(yùn)算時間56秒10分鐘78秒2 , 使用v-SVR情況廣度優(yōu)先搜索根據(jù)核函數(shù)不同選擇相應(yīng)的步數(shù)來保證算法復(fù)雜度大至相同。rbf核有三個參數(shù),v (0,

33、1】,gamma(0, 1】和c (0, 1】,平均每個參數(shù)10步,運(yùn)算復(fù)雜度約為1000次。由于該核的隨著C 的增加而運(yùn)算量激增,而實驗過程發(fā)現(xiàn) c的搜索范圍在(0, 1】之間結(jié)果最好,速度最快,所以直接改變 C的搜索范圍(0, 1】 提高速度。不然運(yùn)算時間可達(dá) 5小時。Polynomial核有五個參數(shù),v(0,1】四步,gamma (0, 1】四步,c (0,10】五步,degree【3,5】三步,r【0,1】五步,運(yùn)算復(fù)雜度約為1200次。Sigmoid核有四個參數(shù)v (0, 1】四步,gamma (0, 1】五步,c ( 0, 1000】十步,r【0,1】五步,運(yùn)算復(fù)雜度約為1000次

34、。評價準(zhǔn)則和預(yù)測誤差核函數(shù)Rbf (c的搜索范圍(0, 1】)PolynomialSigmoid遺相對均方誤差和預(yù)測均方誤差1無窮大svm運(yùn)算量太大,主要是1無窮大最優(yōu)參數(shù)Y =0.718,C=0.176,v=0.453degree【3, 5】和c的取值Y= 0.76,r=0.8,C=0.23,v=0.5傳相關(guān)系數(shù)和預(yù)測均方誤差0.02825210.993172(0, 10越大,運(yùn)算量激增。0.08199168.25674最優(yōu)參數(shù)Y =0.39,C=0.86,v=0.72序列最小最優(yōu)化運(yùn)算中Y =0.12,r=0.36,C=0.45,v=1算均化均方誤差和預(yù)測均方誤差5350.071.2429

35、9v-SVR迭代次數(shù)比 -SVR迭8641.722.14777最優(yōu)參數(shù)Y =0.103,C=0.04,v=0.859代次數(shù)更多.Y= 0.19,r=0.2,C=0.8,v=0.66法馬氏距離和預(yù)測均方誤差0.1953941.133630.1647371.22694最優(yōu)參數(shù)Y =0.379,C=0.615,v=0.657Y= 0.25,r=0.4,C=0.05,v=0.77粒相對均方誤差和預(yù)測均方誤差1無窮大0.993101無窮大最優(yōu)參數(shù)Y =0.379,C=0.001,v=0.831Y= 0.85,r=0.1,C=830,v=0.59子相關(guān)系數(shù)和預(yù)測均方誤差無窮大無窮大0.08270411.7

36、2093e+007最優(yōu)參數(shù)Y =0.0013,C=0.2,v=0.59Y =0.24,r=0.16,C=758,v=0.94群均化均方誤差和預(yù)測均方誤差9887.981.281794.69805e+0061.09922e+006最優(yōu)參數(shù)Y =0.0083,C=0.001,v=0.438Y =1,r=0.13,C=703,v=0.66馬氏距離和預(yù)測均方誤差無窮大無窮大12968.820706.8最優(yōu)參數(shù)Y =0.74,C=0.77,v=0.0424Y =1e-8,r=0.15,C=634,v=0.65廣相對均方誤差和預(yù)測均方誤差1無窮大1無窮大最優(yōu)參數(shù)Y =1e-8,C=1e-8,v=0.001

37、Y =1e-8,r=0,C=1,v=0.001度相關(guān)系數(shù)和預(yù)測均方誤差0.03725711.311590.08756821.1169最優(yōu)參數(shù)Y =0.9,C=1e-8,v=0.7Y =1e-8,r=0,C=901,v=1優(yōu)均化均方誤差和預(yù)測均方誤差5232.811.087935310.31.26349最優(yōu)參數(shù)Y =0.0256,C=0.076,v=0.948Y =1e-8,r=0.07,C=0.3,v=0.88先馬氏距離和預(yù)測均方誤差0.0697611.034240.07542821.1169最優(yōu)參數(shù)Y =0.0061,C=0.151,v=0.848Y =1e-8,r=0,C=901,v=1平

38、均運(yùn)算時間125秒無窮大23秒實驗說明:針對該數(shù)據(jù)來說,如果采用rbf核,其參數(shù)少,只有或v,gamma和c,使用廣度優(yōu)先搜索的參數(shù)優(yōu)化在速度和精度上相對高于 遺傳算法和粒子群算法.不同的SVM模型以及其參數(shù)和參數(shù)范圍大小,SMO運(yùn)算迭代次數(shù)不同,運(yùn)算時間相差很大,例如上面v-SVR算法實驗中采用Rbf核的平均運(yùn)算時間遠(yuǎn)大于Sigmoid核(之前見過一些論文,認(rèn)為rbf核是參數(shù)最佳的選擇,因為其參數(shù)少,運(yùn)算量會少)。另外,不能保證四個評價標(biāo)準(zhǔn)中,采用均勻化的均方誤差是最好的。只能是相對該數(shù)據(jù)集來說,該評價標(biāo)準(zhǔn)相對較好,因為本人用其他數(shù)據(jù)做實驗時,有時候相關(guān)系數(shù)和馬氏距離相對較好。對比多閾值的多

39、目標(biāo) SVM回歸實驗:采用多閾值e-SVR算法,rbf核,進(jìn)行BFS參數(shù)優(yōu)化,實驗結(jié)果:預(yù)測均方誤差=0.446566+0.872939+0.537695+0.798981+0.83864+0.702031+0.200677+1.01226+1.08314=6.492929(而單閾值結(jié)果:0.917571 ),說明單閾值的多目標(biāo)回歸算法其預(yù)測效果較好。特征選擇實驗:實驗采用e-SVR, rbf核,采用上次實驗得出的最優(yōu)參數(shù) ,gamma和c,使用交叉驗證的均化均方誤差做評價準(zhǔn)則。實驗結(jié)果:可去除的特征項為第一項,去掉后,重新訓(xùn)練和預(yù)測樣本,預(yù)測樣本的均方誤差為0.790056。比原來提高了 0

40、.127515。并行運(yùn)算實驗實驗在八臺聯(lián)網(wǎng)電腦上進(jìn)行,采用 -SVR,Polynomial核有五個參數(shù),&(0,1】,gamma(0,1】,c (0,1】degree【2,5】,r【0,1】。采用均化均方誤差作評價準(zhǔn)則。使用bfs廣度優(yōu)先搜索:五步,gamma八步,c十步,degree四步,r五步??傔\(yùn)算復(fù)雜度約為8000次。平均分配給八臺電腦,每臺電腦的運(yùn)算復(fù)雜度為1000次使用多群體遺傳算法:群體數(shù)目由聯(lián)網(wǎng)電腦數(shù)目自動決定,設(shè)置群體大小25,進(jìn)化代數(shù)40??傔\(yùn)算復(fù)雜度為8000次,每臺電腦的運(yùn)算復(fù)雜度 1000次。實驗結(jié)果:bfs: degree = 5, y = 1e-8,r = 0, C = 0.866667,& = 1e-8,均化均方誤差 =5324.77,預(yù)測均方誤差 =1.31198Ga: y =0.103,C=0.04,v=0.859 , 均化均方誤差=4990.78,預(yù)測均方誤差=0.72049作者簡介:彭文偉 男1971無學(xué)位,Vsvm和Supercomputer軟件創(chuàng)作者。作者簡介 : 彭文偉 男 1971 無學(xué)位 , Vsvm 和 Supercomputer 軟件創(chuàng)作者。實驗證明,并行運(yùn)算采用多群體遺傳算法在性能上優(yōu)于采用廣度優(yōu)先搜索。七,結(jié)論本文提出并介紹了在共同閾值下的兩種多目標(biāo)輸出的支持向量機(jī)回歸算法,同時對比三種參數(shù)優(yōu)化算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論