




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
彭輝94031097(QQ)機器學習MachineLearning支持向量機任務目標能力目標理解支持向量機算法基本原理理解支持向量的基礎知識使用支持向量機算計解決分類問題任務目標素質(zhì)目標團隊協(xié)作學會學習實踐創(chuàng)新支持向量機鳶尾花數(shù)據(jù)集setosa,versicolor兩類樣本數(shù)據(jù),哪條線(超平面)是區(qū)分兩類樣本最優(yōu)方案?背景Sepal.LengthSepal.WidthSpecies5.13.5setosa4.93setosa4.73.2setosa………73.2versicolor6.43.2versicolor6.93.1versicolor………ABC最優(yōu)超平面(直線):對訓練樣本局部擾動的“容忍性”最好。支持向量機支持向量機(supportvectormachine,SVM)是一種基于統(tǒng)計學習理論的監(jiān)督學習方法。其中,支持向量是指在訓練數(shù)據(jù)集中選擇一組特征子集,使得對特征子集的線性劃分等價于整個數(shù)據(jù)集的分割,這組特征子集被稱為支持向量。支持向量機基本概念支持向量機是特征空間上間隔最大的線性分類器。其學習策略是幾何間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。支持向量機的三種類別:線性可分支持向量機
當數(shù)據(jù)線性可分時,使用硬間隔最大化學習得到支持向量線性支持向量機
當數(shù)據(jù)近似可分時,通過軟間隔最大化學習得到支持向量非線性支持向量機
當訓練數(shù)據(jù)不可分是,通過核函數(shù)及軟間隔最大化學習得到支持向量。支持向量機支持向量機基本概念支持向量機分類算法利用超平面(線性方程)來分割樣本進行分類。0支持向量向量基本概念向量在數(shù)學中被稱為具有長度和方向的對象,在平面直角坐標系內(nèi),每一個平面向量都可以用一對實數(shù)唯一表示:
分別取與x軸、y軸方向相同的兩個單位向量i,j作為一組基底。a為平面直角坐標系內(nèi)的任意向量,以坐標原點O為起點,A為終點作向量a。
由平面向量基本定理可知,有且只有一對實數(shù)(x,y),使得a=xi+yj,因此把實數(shù)對(x,y)叫做向量a的坐標,記作a=(x,y)。這就是向量a的坐標表示。其中(x,y)就是點的坐標。向量a稱為點A的位置向量。向量向量基本概念在空間直角坐標系中,分別取與x軸、y軸,z軸方向相同的3個單位向量i,j,k作為一組基底。若為該坐標系內(nèi)的任意向量,以坐標原點O為起點作向量a。向量-續(xù)
由空間基本定理知,有且只有一組實數(shù)(x,y,z),使得a=ix+jy+kz,因此把實數(shù)對(x,y,z)叫做向量a的坐標,記作a=(x,y,z)。這就是向量a的坐標表示。其中(x,y,z),就是點P的坐標。向量a稱為點P的位置向量。向量基本概念向量的長度與方向已知坐標點P1(3,4),P2(7,7)對應的向量表示為a,b,求向量的長度和方向。P1P2ab向量的長度(范數(shù)):
importnumpyasnp
a=[3,4]
ret=np.linalg.norm(b)
print(ret)除了使用power、sum求取外,可以用norm求范數(shù)向量的方向:有向量a=(x,y),那么他的方向向量就可以表示為:wθ
向量基本概念向量點積定義向量的乘積是對應點相乘后相加,例如對于向量有:根據(jù)余弦定理,將其帶入x.y,可得xyθ
a
β
向量基本概念向量的投影xyθ
對于向量,如何求x向量在y向量上的投影z?z由u為y的方向向量且z的方向向量和y的方向向量相同,都是u,故有:向量基本概念向量與代數(shù)直線關(guān)系考慮直線用點積形式展開,即將公式看成
w=(-b,
-a,
1)與x=(1,x,y)相乘的形式直線的向量表示直線的代數(shù)表示向量基本概念從向量角度解釋直線的好處:容易向多維空間拓展W垂直于直線,很容易計算例如:直線,其對應的向量表示為:
其中W-法向量0A考慮點A(0.5,1.5)到直線的距離(1)可以將點A看成一個向量(2)定義向量p,向量p的方向同法向量方向,且以直線為起點,以點A為終點ap點A到線的距離等于向量a在法向量上的投影長度。向量與代數(shù)直線關(guān)系(續(xù))支持向量機超平面超平面是比原始空間低一維的子空間。如果空間是3維的,那么它的超平面是二維平面,而如果空間是二維的,則其超平面是一維線。如果空間是一維空間,則超平面就是一個點。分類學習最基本的想法就是基于訓練集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。支持向量機算法原理支持向量機分類算法利用超平面(線性方程)來分割樣本進行分類。其中W=(w1,w2,…,wd)為法向量,決定了超平面的方向;b為位移,決定了超平面與原點之間的距離。顯然超平面可以被法向量ω和位移b確定。任意點到超平面的距離公式為:例:再次考慮點A(0.5,1.5)到直線的距離支持向量機支持向量機基本型算法原理間隔0支持向量支持向量機間隔0支持向量假設超平面將樣本正確分類:支持向量機-基本型算法模型參數(shù)求解最大間隔:尋找參數(shù)
和,使得
最大.目標函數(shù)支持向量機-基本型算法模型-對偶問題凸二次優(yōu)化問題(凸函數(shù)求極值)拉格朗日法一定適合凸問題凸函數(shù):開口朝一個方向(向上或向下)。數(shù)學關(guān)系,對任意自變量都有:支持向量機-基本型算法模型-對偶問題(續(xù))拉格朗日乘子法第一步:引入拉格朗日乘子得到拉格朗日函數(shù)目標函數(shù)實際是一個凸二次優(yōu)化問題,適合使用拉格朗日乘子法由于目標函數(shù)有不等式約束,故拉格朗日函數(shù)須滿足KKT條件:支持向量機-基本型算法模型-對偶問題(續(xù))拉格朗日乘子法第二步:令對
和
的偏導為零可得第三步:回代化簡,再考慮約束,得到目標函數(shù)的對偶問題若解除a后,得到的最終模型則為如何求解a呢?支持向量機-基本型算法模型-對偶問題(續(xù))SMO算法根據(jù)上面分析,故求解
為核心步驟對偶問題本身為組合優(yōu)化問題,且隨著訓練樣本數(shù)(m)增大,計算開銷也會激增,所以需用更高效的算法。SMO(SequentialMinimalOptimization)算法1.選取一對需要更新的變量2.固定
以外的參數(shù),求解對偶目標函數(shù),即可獲得更新后的1.硬間隔支持向量機(即正統(tǒng)線性可分SVM):當訓練數(shù)據(jù)線性可分支持向量機-練習2.軟間隔支持向量機:當訓練數(shù)據(jù)近似可分(很難確定超平面/線性可分是由于過擬合)3.非線性支持向量機:當訓練數(shù)據(jù)不可分/不存在超平面,通過軟間隔最大化及核技巧習得svm.SVC(kernel=‘rbf’)
#kernel參數(shù)不為linear
fromsklearn.svmimportLinearSVC
#線性核
SVC(kernel='linear’)
#具有SGD訓練的線性分類器(SVM,邏輯回歸等)sklearn.linear_model.SGDClassifierSklearn與支持向量機例:利用sklearn的支持向量機LinearSVC算法實現(xiàn)對鳶尾花數(shù)據(jù)集setosa,versicolor兩類樣本的分類,畫出對應的分割超平面。支持向量機-練習2支持向量機-核函數(shù)無法用一個超平面(線)對不同樣本進行劃分思考:如何解決此類樣本分類問題?方法:將樣本映射至高維空間線性不可分(非凸數(shù)據(jù)集)問題“異或”問題支持向量機-核函數(shù)線性不可分(非凸數(shù)據(jù)集)問題-(續(xù))數(shù)學定理:如果原始樣本空間是有限維,即屬性數(shù)有限,那么一定存在一個高維特征空間使樣本線性可分則對應劃分超平面變?yōu)楸硎緸橄鄳С窒蛄繛榱?/p>
表示將
映射到高維空間后的向量支持向量機-核函數(shù)線性不可分(非凸數(shù)據(jù)集)問題-(續(xù))高維空間中的對偶問題為從低維到高維映射即用高維空間中的映射函數(shù)
替代原始向量問題:高維空間中映射函數(shù)的通常很復雜,如何計算
?為了解決高維計算困難,構(gòu)造函數(shù):即
與
在特征空間中的映射函數(shù)的內(nèi)積等于它們在原始空間中通過函數(shù)
計算的結(jié)果。支持向量機-核函數(shù)線性不可分(非凸數(shù)據(jù)集)問題-(續(xù))對改寫后的對偶函數(shù)求解后可得到式中的
就是核函數(shù)
則對偶函數(shù)改寫為:支持向量機-核函數(shù)常用核函數(shù)支持向量機-練習3例:利用sklearn的支持向量機SVC算法實現(xiàn)對鳶尾花數(shù)據(jù)集分類支持向量機-軟間隔經(jīng)過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人學習經(jīng)驗總結(jié)
- 企業(yè)代培訓合同范本
- 公司外包車合同范本
- 主播學徒合同范本
- 南昌全款購車合同范本
- 化妝師題庫(含參考答案)
- 七年級第二學期體育教學計劃
- 七年級國旗下保護環(huán)境講話稿
- 醫(yī)院骨科采購合同范本
- 區(qū)別真假租房合同范本
- 2025年新人教版八年級下冊物理全冊教案
- 2025年南京機電職業(yè)技術(shù)學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 物業(yè)管理消防維保流程優(yōu)化建議
- 電力企業(yè)發(fā)電企業(yè)設備點檢定修培訓教材
- 化學-浙江省首考2025年1月普通高等學校招生全國統(tǒng)一考試試題和答案
- 四川省成都市2024-2025學年高一上學期期末考試歷史試題(含答案)
- 2025年湖北中煙工業(yè)限責任公司招聘筆試高頻重點提升(共500題)附帶答案詳解
- 9生物與非生物課件-四年級下冊科學人教鄂教版
- 醫(yī)囑或處方的督導檢查、總結(jié)、反饋及改進措施
- 2023年度行政事業(yè)單位內(nèi)部控制報告編報講解課件
- 品管圈PDCA案例-介入中心提高手術(shù)患者交接記錄書寫合格率醫(yī)院品質(zhì)管理成果匯報
評論
0/150
提交評論