




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、SVM1.判斷題(1) 在SVM訓(xùn)練好后,我們可以拋棄非支持向量的樣本點(diǎn),仍然可以對(duì)新樣本進(jìn)行分類。(T)(2) SVM對(duì)噪聲(如來(lái)自其他分布的噪聲樣本)魯棒。(F)2簡(jiǎn)答題現(xiàn)有一個(gè)點(diǎn)能被正確分類且遠(yuǎn)離決策邊界。如果將該點(diǎn)加入到訓(xùn)練集,為什么SVM的決策邊界不受其影響,而已經(jīng)學(xué)好的logistic回歸會(huì)受影響?答:因?yàn)镾VM采用的是hinge loss,當(dāng)樣本點(diǎn)被正確分類且遠(yuǎn)離決策邊界時(shí),SVM給該樣本的權(quán)重為0,所以加入該樣本決策邊界不受影響。而logistic回歸采用的是log損失,還是會(huì)給該樣本一個(gè)小小的權(quán)重。3產(chǎn)生式模型和判別式模型。(30分,每小題10分)圖2:訓(xùn)練集、最大間隔線性分
2、類器和支持向量(粗體)(1)圖中采用留一交叉驗(yàn)證得到的最大間隔分類器的預(yù)測(cè)誤差的估計(jì)是多少(用樣本數(shù)表示即可)?從圖中可以看出,去除任意點(diǎn)都不影響SVM的分界面。而保留所有樣本時(shí),所有的樣本點(diǎn)都能被正確分類,因此LOOCV的誤差估計(jì)為0。(2)說(shuō)法“最小結(jié)構(gòu)風(fēng)險(xiǎn)保證會(huì)找到最低決策誤差的模型”是否正確,并說(shuō)明理由。(F)最小結(jié)構(gòu)風(fēng)險(xiǎn)(SRM)只能保證在所有考慮的模型中找到期望風(fēng)險(xiǎn)上界最小的模型。(3)若采用等協(xié)方差的高斯模型分別表示上述兩個(gè)類別樣本的分布,則分類器的VC維是多少?為什么?等協(xié)方差的高斯模型的決策邊界為線性,因?yàn)槠銿C維維D+1。題中D=2.4、SVM分類。(第15題各4分,第6題
3、5分,共25分)下圖為采用不同核函數(shù)或不同的松弛因子得到的SVM決策邊界。但粗心的實(shí)驗(yàn)者忘記記錄每個(gè)圖形對(duì)應(yīng)的模型和參數(shù)了。請(qǐng)你幫忙給下面每個(gè)模型標(biāo)出正確的圖形。(1)、其中。線性分類面,C較小,正則較大,|w|較小,Margin較大,支持向量較多(c)(2)、其中。線性分類面,C較大,正則較小,|w|較大,Margin較小支持向量的數(shù)目少(b)(3)、其中。二次多項(xiàng)式核函數(shù),決策邊界為二次曲線(d)(4)、其中。RBF核函數(shù),決策邊界為曲線, =1較大,曲線更平滑 (a)(5)、其中。RBF核函數(shù),決策邊界為曲線, =sqrt(1/2)較小,曲線更彎曲 (e)(6)考慮帶松弛因子的線性SVM
4、分類器:下面有一些關(guān)于某些變量隨參數(shù)C的增大而變化的表述。如果表述總是成立,標(biāo)示“是”;如果表述總是不成立,標(biāo)示“否”;如果表述的正確性取決于C增大的具體情況,標(biāo)示“不一定”。(1) 不會(huì)增大(不一定)(2) 增大(不一定)(3) 不會(huì)減?。ㄊ牵?4) 會(huì)有更多的訓(xùn)練樣本被分錯(cuò)(否)(5) 間隔(Margin)不會(huì)增大(是)5、考慮帶松弛因子的線性SVM分類器:。在下圖中,并且已經(jīng)標(biāo)出分界面和支持向量。請(qǐng)給每幅圖標(biāo)出最可能的C的取值,并分析原因(20分)。答:等價(jià)于所以,即margin減小(當(dāng)C增大到一定程度時(shí),Margin不再變化),不允許錯(cuò)分太多樣本(對(duì)錯(cuò)分樣本的懲罰大),支持向量(落在M
5、argin內(nèi)的樣本和錯(cuò)分的樣本)的數(shù)目減少。6. SVM(1) 下面的情況,適合用原SVM求解還是用對(duì)偶SVM求解。1) 特征變換將特征從D維變換到無(wú)窮維。(對(duì)偶)2) 特征變換將特征從D維變換到2D維,訓(xùn)練數(shù)據(jù)有上億個(gè)并且線性可分。(原)(2) 在線性可分情況下,在原問(wèn)題形式化中怎樣確定一個(gè)樣本為支持向量?在原問(wèn)題中,給出了w,w0,支持向量滿足:。7SVM和松弛因子??紤]如圖給出的訓(xùn)練樣本,我們采用二次多項(xiàng)式做為核函數(shù),松弛因子為C。請(qǐng)對(duì)下列問(wèn)題做出定性分析,并用一兩句話給出原因。(1) 當(dāng)C時(shí),決策邊界會(huì)變成什么樣?答:當(dāng)C很大時(shí),錯(cuò)分樣本的懲罰會(huì)非常大,因此模型會(huì)盡可能將樣本分對(duì)。(記
6、住這里決策邊界為二次曲面) CC0(2) 當(dāng)C0時(shí),決策邊界會(huì)變成什么樣?可以錯(cuò)分少量樣本,但Margin大(3) 你認(rèn)為上述兩種情況,哪個(gè)在實(shí)際測(cè)試時(shí)效果會(huì)好些?我們不能過(guò)于相信某個(gè)特定的樣本,因此C0的效果會(huì)好些,因?yàn)樗畲蠡瘶颖驹茍F(tuán)之間的Margin.(4) 在圖中增加一個(gè)點(diǎn),使得當(dāng)C時(shí),決策邊界會(huì)不變。能被原來(lái)的分類器正確分類,不會(huì)是支持向量。(5) 在圖中增加一個(gè)點(diǎn),使得當(dāng)C時(shí),該點(diǎn)會(huì)顯著影響決策邊界。能被原來(lái)的分類器正確分類,不會(huì)是支持向量。當(dāng)C很大時(shí),錯(cuò)分樣本的懲罰會(huì)非常大,因此增加一個(gè)不能被原來(lái)分類器正確分類的樣本會(huì)影響決策邊界。8對(duì)outlier的敏感性。我們知道在SVM用于
7、回歸時(shí),等價(jià)于采用不敏感的損失函數(shù)(如下圖所示),即SVM的目標(biāo)為:。課堂已經(jīng)討論L2損失對(duì)outliers比較敏感,而L1損失和huber損失相對(duì)不敏感些。(1) 請(qǐng)說(shuō)明為什么L2損失比較L1損失對(duì)outliers更敏感。Outlier為離群點(diǎn),因此其預(yù)測(cè)殘差r會(huì)比較大。L2損失為殘差r的平方r2,L1損失為殘差r的絕對(duì)值|r|。當(dāng)r1時(shí),r2|r|,從而L2損失在outliter樣本點(diǎn)的值會(huì)非常大,對(duì)結(jié)果影響更大。(2) 請(qǐng)給出一個(gè)outlier影響預(yù)測(cè)子的例子。(3) 相比于L2損失和L1損失,分析SVM的不敏感的損失函數(shù)對(duì)outliers敏感性。不敏感的損失函數(shù)對(duì)outliers的敏感
8、性更接近于L1損失,因此比L2損失更不敏感。初看起來(lái),不敏感的損失函數(shù)在區(qū)間-,不施加懲罰,似乎比L1對(duì)outliers更不敏感。但實(shí)際上outliers對(duì)應(yīng)的殘差通常很大,所以不會(huì)落在區(qū)間-,,所以不敏感的損失函數(shù)對(duì)outliers的敏感性和L1損失相似。(4) SVM也等價(jià)于MAP估計(jì),則該MAP估計(jì)對(duì)應(yīng)的先驗(yàn)和似然是什么?同嶺回歸類似,先驗(yàn)為0均值得高斯分布,但方差為2C,同時(shí)各維獨(dú)立,即,似然函數(shù)在區(qū)間-,為常數(shù),其他地方為L(zhǎng)aplace分布:9. 多個(gè)數(shù)據(jù)源的SVM假設(shè)你在兩天內(nèi)用兩個(gè)不同的儀器收集了兩批數(shù)據(jù),你覺得數(shù)據(jù)集1標(biāo)簽的可信度為數(shù)據(jù)集2的兩倍。我們分別用表示數(shù)據(jù)集1,表示數(shù)據(jù)集2,數(shù)據(jù)集1的松弛因子表示為,數(shù)據(jù)集2的松弛因子表示,二者的Lagrange乘子分別表示為和。關(guān)于怎樣處理這兩批數(shù)據(jù),你的朋友們給出了不同的建議。張三:將數(shù)據(jù)集1的松弛懲罰乘以2,因此優(yōu)化問(wèn)題為:李四:將數(shù)據(jù)集1的Lagrange乘子乘以2,因此優(yōu)化問(wèn)題為:王五:將數(shù)據(jù)集1的數(shù)據(jù)點(diǎn)復(fù)制一份(即數(shù)據(jù)集1中的每個(gè)樣本點(diǎn)變成2個(gè)),然后照常處理。問(wèn)題:請(qǐng)說(shuō)明上述處理是否等價(jià)(得到的分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 63455:2025 EN-FR Multimedia systems and equipment - Multimedia signal transmission - Dependable line code with error correction
- 加油站電氣火災(zāi)應(yīng)急演練預(yù)案(3篇)
- 行政權(quán)行使的法律原則試題及答案
- 地震火災(zāi)應(yīng)急預(yù)案-流程(3篇)
- 行政法學(xué)基礎(chǔ)提升試題及答案
- 2025年法學(xué)概論考試新探索試題及答案
- 探索2025年軟件設(shè)計(jì)師考試試題及答案
- 高考數(shù)學(xué)復(fù)習(xí)資料與答案整合
- 2025年法學(xué)概論考試??荚囶}及答案網(wǎng)上分享
- 能源政策與經(jīng)濟(jì)增長(zhǎng)的關(guān)聯(lián)試題及答案
- 閻良西飛公司招聘考試試題
- 給小學(xué)生講橋梁課件
- 工器具管理臺(tái)帳
- (完整)中醫(yī)癥候積分量表
- 高效液相色譜質(zhì)譜聯(lián)用技術(shù)在藥物分析中的應(yīng)用
- 工行內(nèi)部控制手冊(cè)總體框架
- 透析患者貧血的護(hù)理查房
- 2024年煤礦各類牌板制作標(biāo)準(zhǔn)及使用規(guī)定附煤礦井下牌板模版及標(biāo)準(zhǔn)
- 視頻會(huì)議系統(tǒng)投標(biāo)方案(技術(shù)標(biāo))
- 《企業(yè)運(yùn)營(yíng)管理》題庫(kù)集答案
- 西北農(nóng)林科技大學(xué)專業(yè)學(xué)位研究生課程案例庫(kù)建設(shè)項(xiàng)目申請(qǐng)書(MBA)
評(píng)論
0/150
提交評(píng)論