




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、支持向暈機的實用指導1. 介紹svm是數據分類的一個有用的技術。雖然svm被認為比神經網絡簡單,不熟悉的用戶一 開始很容易不習慣。在此我們給出梗概。注意本指導不是給svm研究者的,也不保證能達到髙的準確率。同時,我們也不打算解決 困難的問題。目的是為svm初學者提供一個指導,讓你很快運用并得到一個可接受的結果。 雖然用戶們不必知道svm背后的潛在理論,我們相信有必要簡要介紹下基礎知識。一個分 類器通常把數據分為訓練集和測試集。每個訓練集中的實例都有一個目標值(即class labels) 和若干屬性(即特征和觀察值)。svm的冃的是創(chuàng)建一個模型(基于訓練集)來根據測試集 的屬性預測測試集的目標
2、值。給定一個實例-標簽對(xi,yi)的訓練集,svm要得到下列優(yōu)化問題的解答:1 t _ amin -w w + c &2 幺subject to s(wg(xt) + b) » 1 -table 1: problem characteristics and performance comparisons.applications#t raining data# testing datafeaturesclassesaccuracy bv usersaccuracy by our procedureastroparticle13,0894,0004275.2%96.9%bi
3、oinformatics2391o420336%85.2%vehicle31,243412124.88%87.8%這里訓練集向量xi通過函數e被映射到一個更高的維度空間(也許是無限維)。svm找出 一個能最大程度分離這個空間的超平面。c>o是対錯誤的懲罰參數。此外k(xj.xj) =被稱作核函數。雖然新的核函數正不斷地被提出,初學者可能在svm的書中常常遇到下而 4個基本的核函數: 線性:= x/xj. 多項式:axxj) = (yx/xj + r)j, 7 >() 徑向基核函數(rbf)"(xjx;) = exp(-7il|xi 一 xj|2), 7 > 0 s型
4、函數:a'(xj<xj) = tanh(xfxj + r).這里,y,r和d都是核參數。1真實世界的例子表一展現了真實世界的例子。這些數據集是那些在開始不能得到合理準確度的用戶們提供 的。用本指導中的流程我們幫他們得到了更好的結果。細節(jié)在附錄1中。這些數據集在_1.2建議流程許多新手使用如下流程: 把數據轉換到svm包的數據形式 隨機實一些核函數和參數 測試我們建議新手試試下面這個流程: 把數據轉換到svm包的數據形式 對數據進行簡單地縮放k(x.y) = e-7|x-y|2 考慮徑向基函數° 用交叉驗證找出最好的參數c和y 用最好的參數c和y訓練整個訓練集 測試在下血
5、幾段我們來詳細討論流程的細節(jié)。2. 數據預處理2.1類別特征svm要求每個數據實例被表示成實數的向量。因此,如杲有類別屬性,我們先必須把它們 轉換成數字類型的數據。我們推薦用m個數字來表示有m個值得類別屬性。只有一個數字 是1,其他都是0。舉例來說,一個有3中取值的屬性比如紅,綠,藍可以被表示成(0,0,1),(0,1,0)和(1,0,0)。我們的經驗告訴我們如果一個屬性的取值數目不是很大,這種編碼方 式必用單個數字可能更穩(wěn)定一些。2.2縮放在應用 svm 前先縮放十分重要。part 2 of sarle's neural networks faq sarle (1997)解釋 了縮
6、放的重要性,其屮的大部分考量對svm也是有效的。縮放的主要目的在于避免屬性屮有較 大取值范圍的壓過那些取值范圍較小的屬性。另一個作用是避免計算過程中的困難。因為核 值通常依賴于特征向量的內積,比如線性核函數和多項式核函數,大屬性值可能導致數字上 的問題。我們推薦線性地把每個屬性縮放到卜1, +或0,1之間。當然我們必須用同樣的方法同吋縮放訓練集和測試集。比如:我們把訓練集中的第一個實例 從卜10,+ 10縮放到卜1,+ 1。如果測試集中的第一個實例的范圍是卜11,+8,我們必須把測試集 縮放到1.1,+0.8。詳見附錄氏3模型選取雖然在section 1中只提到了 4中常用的核函數,我們必須決
7、定試哪個先。然后選定懲罰參數 c和核參數。3.1 rbf核(徑向基函數)通常來說,rbf核函數是一個合理的第一選擇。這個函數非線性地把樣本映射到一個更高 維度的空間,不像線性函數,它可以處理標簽值和屬性值是非線性的情況。此外,線性核是 rbf的一個特例因為帶懲罰參數c的線性核跟帶參數(c, 丫)的rbf核函數有同樣的效果。 還有,s型核函數跟特定參數的rbf核函數也有相同的表現。第二個理由是超參數的數目也影響了模型的選擇。多項式核函數比rbf核函數有更多的超 參數。最后,rbf核兩數在數學上因難少點。一個關鍵點在于當0<kij<=l時,在指數很大時多項 式核函數的核值可能趨于無窮大
8、(竽心八心+廠1)或者0 bx/ x,+廠v 1)。而且,我 們必須注意到s型函數在某些參數配置下不是有效的。rbf核函數在某些場景下不是合適的。比如當特征數目很大吋,只能用線性核函數。我們 會在附錄c屮討論。3.2交叉驗證和網格搜索rbf有兩個參數:c和丫。對于一個給定的問題,這兩個參數事先是未知的;后果就是模 型選取必須被實施。目的就是找出好的c和y值來準確預測未知數據。注意它不能保證分 類器能對訓練數據達成高準確率。如上討論,一個常用的策略是把數據分成兩個部分,其中 一部分被認作未知的。從“未知”數據集得到的預測準確度精準地反映了分類器在一個獨立 數據集上的表現。一個改進的方法就是交叉驗
9、證。交叉驗證可以防止過度擬合(關于交叉驗證部分的翻譯略)我們推薦一個用交叉驗證的“網格搜索”法來找到c和丫。大量c和y值對被嘗試,有最 好的交叉驗證結果的被選中。我們發(fā)現用一個指數增長的c和y序列來嘗試是一個實用的 好辦法。網格搜索是直接了當的但看起來很樸素。事實上,有好幾個先進的方法對以減少計算量,比 如,近似交叉驗證率。然而,我們偏向于網格搜索有兩個動機。(c) training data and a better classifiero(b) applying an overfitting classifier on testing data(cl) applying a better
10、classifier on testing datafigure 1: an over fit ting classifier aii(l a better classifier ( and : t mining data: o and a: testing data).首先,心理上來說,我們可能覺得使用一個不能徹底搜索全部可能的方法是不安全的。另 一個理由是網格搜索相比于更先進的方法減少不了多少時間,因為參數只有2個。此外,網 格搜索因為(c,y)是獨立的,所以可以很容易地進行并行計算。許多其他方法是一個迭代 的過程,比如沿著一條路走,很難被并行計算。figure 2: luge grid searcli un c =,2山 and 7 = 2一巴2竹呼.:i*r t t r 1 .in»r « 1 figure 3: fine gritkseareh 0x1 c = 21 t 2加2s and 7 = 2".曠“2p因為一次完全的網格搜索仍然很耗時,我們推薦先用粗糙網格。在識別出一個較好的網格 區(qū)后,i個更精細的網格搜索在該區(qū)域被實施。比如,我們可以在german from the statlog collection上做實驗。在縮放數據集后,我們先
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 客戶洗錢風險管理辦法
- 招商中心考核管理辦法
- 租賃市場資金管理辦法
- 往來內部控制管理辦法
- 部門全員降本管理辦法
- 面包生產知識培訓課件
- 股骨骨折固定技術課件
- 腸瘺護理課件
- 培訓課件帶解讀
- 肝衰竭的護理課件
- 魚丸生產加工項目可行性研究報告
- 勝動燃氣發(fā)電機組基本構造與工作原理課件
- 七年級數學下冊一元一次不等式組說課稿人教新課標版
- 校長專業(yè)水平測試題
- 腹腔鏡膽囊切除術后護理查房
- 精裝修驗房流程及標準(課堂PPT)
- 壓力分散型錨索張拉方案
- 《建設項目前期工作咨詢收費暫行規(guī)定》計價格【1999】1283號
- 15軟件安裝詳細圖文教程包成功破解
- 組委會結構圖與職責說明寧(共4頁)
- 體育投擲單元教學計劃(共4頁)
評論
0/150
提交評論