




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上1. IntroductionAbaloneAge.data數(shù)據(jù)有4177個樣本,7個特征,其中rings作為預測標簽,也就是年齡。對樣本的一些統(tǒng)計數(shù)據(jù)如下表所示。NameData TypeMeas.DescriptionLengthcontinuousmmLongest shell measurementDiametercontinuousmmperpendicular to lengthHeightcontinuousmmwith meat in shellWhole weightcontinuousgramswhole abaloneShucked weight
2、continuousgramsweight of meatViscera weightcontinuousgramsgut weight (after bleeding)Shell weightcontinuousgramsafter being driedRingsintegerStatistics for numeric domains:LengthDiamHeightWholeShuckeVisceraShellRingsMin0.0750.0550.0000.0020.0010.0010.0021Max0.8150.6501.1302.8261.4880.7601.00529Mean0
3、.5240.4080.1400.8290.3590.1810.2399.934SD0.1200.0990.0420.4900.2220.1100.1393.224Correl0.5570.5750.5570.5400.4210.5040.6281.02. Algorithm Description考慮到數(shù)據(jù)的可分性,對年齡的預測是一個回歸問題,所以采用支持向量機對數(shù)據(jù)進行回歸分析。一、支持向量機的基本原理支持向量機(SVM)是Corinna和Vapnik于二十世紀末首先提出的。支持向量機方法Vapnik-Chervonenkis理論與構造風險最小理論為根底,使離超立體最接近的元素到超平面的間隔
4、最大。通常超平面不止一個,也就是說支持向量機的目標就是最大化超平面之間的間隔,也就是建立最好的分類超平面,從而來提高學習分類機器的的泛化處理能力。該方法在解決高維小樣本數(shù)據(jù)、數(shù)據(jù)的非線性以及解的局部極小點等多個問題中均展示出了很多獨有的優(yōu)點,并進而將其推行使用到了其余相聯(lián)系的機器學習問題中。支持向量機方法早已被廣泛的應用到了腫瘤數(shù)據(jù)分類等領域的問題研究中。支持向量機的具體求解過程如下:(1) 設已知樣本訓練集:其中,為特征向量。(2) 選擇適當核函數(shù)以及參數(shù),解決優(yōu)化問題:得最優(yōu)解:。(3) 選取的正分量,計算樣本分類閾值:。(4) 構造最優(yōu)判別函數(shù):。支持向量機內(nèi)積核核函數(shù)K的主要種類有:
5、線性內(nèi)核函數(shù) 多項式核函數(shù) 高斯徑向基核函數(shù) (RBF) 雙曲正切核函數(shù) (Sigmoid核函數(shù)) 一般地,用SVM做分類預測時必須調(diào)整相關參數(shù)(特別是懲罰參數(shù)和核函數(shù)參數(shù)),這樣才可以獲得比較滿意的預測分類精度,采用Cross Validation的思想可以獲取最優(yōu)的參數(shù),并且有效防止過學習和欠學習狀態(tài)的產(chǎn)生,從而能夠?qū)τ跍y試集合的預測得到較佳的精度。根據(jù)輸入數(shù)據(jù)的線性可分性(線性可分或近似線性可分和線性不可分),可以將支持向量機分為兩大類:非線性支持向量機、線性支持向量機。(1)線性支持向量機若要介紹線性支持向量機,首先需要介紹下一個定義:線性分類器。A、B是兩個不同的類別,需要在其中間加
6、一個分類函數(shù),這樣就能夠?qū)、B樣本區(qū)分開,那么則說這個數(shù)據(jù)集是線性可分,其所對應的分類器便是線性分類器。對于二維空間,顯然,分類函數(shù)可以看成是一條直線。同理,三維空間里分類函數(shù)就是一個平面,忽略空間的維數(shù),分類函數(shù)就可以統(tǒng)稱為超平面。(2)非線性支持向量機從前一小節(jié)可以看出來,線性支持向量機是二類分類器。但是,在現(xiàn)實環(huán)境和問題中,往往要解決多類別的分類的問題。那么,怎么從二類分類器擴充到多類別分類器呢?就是一個值得思考探尋的方向。從二類分類器獲取多類分類器的方法有很多,但在實際應用中,采用的較多的措施是通過尋找一個合適的非線性轉(zhuǎn)換函數(shù),進而能夠使數(shù)據(jù)從原始的特征空間中映射到新的特征空間中,使
7、得數(shù)據(jù)在新的特征空間中是線性可分的。但是,尋找這樣的非線性轉(zhuǎn)換函數(shù)很難,并且即使能找到,要實現(xiàn)這種非線性的轉(zhuǎn)換也很麻煩。因此,引入了核函數(shù),它使得甚至可以不必知道變換函數(shù),只要一種核函數(shù)滿足Mereer定理,它就對應某一變換空間中的內(nèi)積,然而內(nèi)積的計算卻容易的多。常用的核函數(shù)主要分為四類:核函數(shù)、核函數(shù)、核函數(shù)和核函數(shù),不同的核函數(shù)對應不同的非線性變換函數(shù),最后會形成不同的算法。這就使得相應的優(yōu)化問題變成了凸二次規(guī)劃問題,不會出現(xiàn)傳統(tǒng)神經(jīng)網(wǎng)絡陷入局部極值的問題,這是SVM自提出后得到快速發(fā)展的重要原因之一。SVM的優(yōu)勢:(1)處理解決了樣本數(shù)據(jù)較少的機器學習問題;(2)提高了學習機的泛化性能;
8、(3) 少數(shù)支持向量決定了最后的決策函數(shù),因此,某種程度上對高維問題有很好的輔助解決作用,提高了方法的魯棒性;(4)完善改進了對于非線性數(shù)據(jù)分類研究的問題;(5)規(guī)避了神經(jīng)網(wǎng)絡在結(jié)構抉擇問題和局部極小值問題。SVM的劣勢:(1)缺乏對數(shù)據(jù)缺失的判斷能力;(2)解決非線性數(shù)據(jù)還沒有完善的方案和措施,只能靠慎重的選擇核函數(shù)來解決。另一方面,所有傳統(tǒng)分類方法中,SVM的分類性能是最好的,所以在本文的對比實驗中,從傳統(tǒng)分類方法中選擇了具有代表性的SVM分類器來進行對比實驗。二、SVM回歸的實驗步驟導入數(shù)據(jù),記作X,分別將數(shù)據(jù)的特征和標簽賦值給矩陣matrix和rings,如圖所示。利用隨機數(shù),隨機選擇
9、70%的樣本作為訓練集,余下的30%的樣本作為測試集,評價模型的好壞應該從訓練集和測試集兩個方面考慮,使用matlab自帶fitrsvm程序,對樣本歸一化后,訓練集進行訓練,得到模型Mdl。利用訓練得到的模型,分別對訓練集和測試集進行預測,并計算其與真實值之間的差距,評價指標選擇的是均方根誤差和平均絕對誤差。其中result_1記錄了訓練集真實和預測值,result_2記錄了測試集真實和預測值,abe1、mse1分別表示訓練集平均絕對誤差和均方根誤差??梢暬瘻y試集預測與真實年齡的差距。3. Conclution支持向量機是一種基于統(tǒng)計學習理論的模式識別方法。在模式識別等領域獲得了廣泛的應用。少
10、數(shù)支持向量決定了最后的決策函數(shù),因此,某種程度上對高維問題有很好的輔助解決作用,提高了方法的魯棒性。隨機選擇70%的樣本作為訓練集,30%的樣本作為測試集,平均絕對誤差和均方根誤差作為模型的評價指標,訓練集預測結(jié)果與原始數(shù)據(jù)標簽的的平均絕對誤差(abe)為1.5723,均方根誤差(mse)為2.2745,測試集平均絕對誤差(abe)1.5671,均方根誤差(mse)為2.3279,說明支持向量機對數(shù)據(jù)年齡的預測具有較好的結(jié)果。AppendixCode:% 清空環(huán)境變量clearclc% 導入數(shù)據(jù)X=load(AbaloneAge.txt);matrix=X(:,1:6);rings=X(:,e
11、nd);% 1. 隨機產(chǎn)生訓練集和測試集n = randperm(size(matrix,1);% 2. 訓練集70%的樣本n1=floor(size(X,1)*0.7);p_train = matrix(n(1:n1),:);t_train = rings(n(1:n1),:);% 3. 測試集30%的個樣本p_test = matrix(n(n1+1:end),:);t_test = rings(n(n1+1:end),:);% 數(shù)據(jù)歸一化% 1. 訓練集pn_train,inputps = mapminmax(p_train);pn_train = pn_train;pn_test =
12、mapminmax(apply,p_test,inputps);pn_test = pn_test;% 2. 測試集tn_train,outputps = mapminmax(t_train);tn_train = tn_train;tn_test = mapminmax(apply,t_test,outputps);tn_test = tn_test;Mdl = fitrsvm(pn_train,tn_train);% yfit = predict(Mdl,pn_test);% SVM仿真預測Predict_1 = predict(Mdl,pn_train);Predict_2 = pred
13、ict(Mdl,pn_test);% 1. 反歸一化predict_1 = mapminmax(reverse,Predict_1,outputps);predict_2 = mapminmax(reverse,Predict_2,outputps);% 2. 結(jié)果對比result_1 = t_train predict_1;result_2 = t_test predict_2;re1= result_1(:,1)-result_1(:,2);abe1 = sum(abs(re1)/size(p_train,1)mse1 = sqrt(sum(re1.2)/size(p_train,1)re2= result_2(:,1)-resul
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黃岡市 2025年春季九年級調(diào)研考試物理試題
- 建筑工程擴某勞務分包合同(知識研究版本)
- 山東省棗莊市薛城區(qū)2024-2025學年四下數(shù)學期末考試試題含解析
- 江西省南昌市新建縣第一中學2025屆高三高考仿真模擬卷語文試題含解析
- 天津商業(yè)大學寶德學院《納米材料基礎》2023-2024學年第二學期期末試卷
- 河南檢察職業(yè)學院《界面與交互設計》2023-2024學年第二學期期末試卷
- 新疆鐵道職業(yè)技術學院《教育觀察反思》2023-2024學年第二學期期末試卷
- 江西制造職業(yè)技術學院《園藝植物生物技術B》2023-2024學年第二學期期末試卷
- 寧夏工商職業(yè)技術學院《中學音樂教學法(一)》2023-2024學年第一學期期末試卷
- 井岡山大學《中醫(yī)經(jīng)典導讀》2023-2024學年第二學期期末試卷
- 形勢與政策(沈陽職業(yè)技術學院)知到智慧樹答案
- 2024年中國丙烯酰胺市場調(diào)查研究報告
- 《腸道功能訓練》課件
- GB/T 11981-2024建筑用輕鋼龍骨
- 2024年SEM入門培訓教程-走向網(wǎng)絡營銷巔峰
- 《荷塘月色》課件25張-
- 機械設備及配件供應及售后服務方案
- 四年級數(shù)學上冊 第4章《運算律》單元測評必刷卷 帶解析(北師大版)
- 幼兒園童話故事《海的女兒》
- 工業(yè)機器人論文3000字(合集4篇)
- 疫情統(tǒng)計學智慧樹知到答案2024年浙江大學
評論
0/150
提交評論