下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、LIBSVM程序?qū)W習(xí)筆記關(guān)鍵詞:LIBSVM SVM 回歸 python在用林智仁老師的LIBSVM-2.82做SVM回歸的過程中,深深得益于 網(wǎng)上共享的學(xué)習(xí)筆記以及一些熱心網(wǎng)友的幫助 (哪怕只是一句提醒), 前面想著一定要寫個學(xué)習(xí)筆記。自己會用了之后,突然發(fā)現(xiàn)原來值得 講出來的實(shí)在很少,甚至不想再寫什么。想到自己花大概兩個月才把 一個程序跑明白,覺得還是因?yàn)槠渲杏行┳屪约侯^疼的問題的,想必其他學(xué)習(xí)者未嘗不需要多花功夫琢磨這些,未免浪費(fèi)時間(技術(shù)問題嘛),還是寫一個簡單的學(xué)習(xí)筆記,把自己覺得最要弄明白的難點(diǎn)記 下來吧。裝microsoft Visualstudio 6.0 (是裝python需
2、要的,可能是需要 c語言的環(huán)境吧)裝 gnuplot :gp400win32裝 python試運(yùn)行程序中遇到的問題讀PYTHON寫的GRID.PY程序問題1:程序的路徑指定問題 在程序的相關(guān)語句中指出調(diào)用的程序 的路徑 注意類似:D:programm filesgnuplot.exe 這樣的路徑會報(bào)錯,因?yàn)槌绦蛟谧x語 句時在programm后面斷句,而不是把programm files整體當(dāng)作一 個路徑問題2 :命令行運(yùn)行PYTHON以及輸入?yún)?shù)E:libsvm-2.82toolspythongridregcopy.py,首先進(jìn)入到 PYTHON程序的上一級路徑 然后用python接程序名稱以
3、及參數(shù)當(dāng)時的問題是怎么也弄不明白 PYTHON程序自帶的幾個操作窗口都 不能進(jìn)行程序的運(yùn)行。呵呵,好像都只是腳本編輯器(反正我能用命 令行運(yùn)行就可以了 一一何況加一個!就可以在MATLAB中執(zhí)行)。 另外關(guān)于參數(shù),讀原程序怎么也不懂,看了魏忠的學(xué)習(xí)筆記才明白的: OS.ARGV可以在命令行輸入,作為 OS.ARGV列表的值。但是注意OS.ARGV 0默認(rèn)的就是所執(zhí)行的程序本身,也就是除了輸入的N個參數(shù),OS. ARGV列表實(shí)際上有N+1個值,其中輸入的第一個參數(shù)就是 OS.AR GV1,也就是它的第二個參數(shù)。問題3:參數(shù)選擇程序跑不動提示:worker local quit暈了幾天后面終于明白
4、不是程序有問題,是因?yàn)閿?shù)據(jù)量太大,程序直接溢出的緣故:注意有一個參數(shù)-M用來選擇緩存的大小subset這個程序仍然運(yùn)行不了 一一不知道自己的數(shù)據(jù)和程序包里給 出的例子有什么區(qū)別。不過我的s數(shù)據(jù)量小,這個不能用不礙事。注意:testing data/training data(不同文件) 需要一起 scale。也就是要把測試集和訓(xùn)練集在一個框架下進(jìn)行歸一化處理,很容易想見的道理(可是容易忽略)。n-fold cross validationn就是要拆成幾組,像 n=3就會拆成三組,然后先拿1和2來trai n model并predict 3以得到正確率; 再來拿2和3 train并predi c
5、t 1,最后用1和3 train并predict 2。其它以此類推。一般數(shù)據(jù)選5-或 10 fold cross validation 就可以。不過n越大,數(shù)據(jù)浪費(fèi)的就越少(用于訓(xùn)練集的信息就多),但是運(yùn) 算量增加,極端的就是n等于數(shù)據(jù)的個數(shù)(叫做LEAVE-ONE OUT)?;貧w的參數(shù)選擇程序:paiup的筆記里面說GRID程序只能用于分類 的參數(shù)選擇,不過還好林智仁老師開發(fā)了專門用于回歸的參數(shù)選擇程 序。GRID程序的原理很簡單:就是把要選擇的參數(shù)當(dāng)作一個坐標(biāo)格子上的點(diǎn),選擇的過程就是遍歷空間(當(dāng)然可以有一定的范圍)中的各個方向的參數(shù)組合的空間點(diǎn)。 如果 是兩個參數(shù),就是在二維的平面中找到
6、一個合適的點(diǎn) (這種離散的選 擇參數(shù)的方法,應(yīng)該只是找到一個比較好的收斂的參數(shù)吧)。至于GRID選擇參數(shù),在我做的回歸里頭還是相當(dāng)要緊的。選好了參數(shù)R2會是0.99,但是參數(shù)(C,g,p)參數(shù)稍微變動一下,可能使 R2 降低到0.2。而參數(shù)v,即用來做cross validation的數(shù)據(jù)組數(shù)對參數(shù) 的選擇影響并不太大一一就是說v選為5和10并不會導(dǎo)致最后選到 的參數(shù)大相徑庭。關(guān)于訓(xùn)練集合測試集合的進(jìn)一步討論:N-CROSS VALIADATION 方法:找到使平均預(yù)測誤差最小的模型參數(shù)。是基于訓(xùn)練集合數(shù)據(jù)之間是獨(dú)立,沒有關(guān)聯(lián)性的當(dāng)數(shù)據(jù)有冗余時(數(shù)據(jù)之間有關(guān)聯(lián)),N-CROSS VALIADA TION的處理方法會讓某些關(guān)系被放大 ,導(dǎo) 致偏差較大的結(jié)論所以,在基于數(shù)據(jù)之間有關(guān)聯(lián)的情況下,應(yīng)該找到用盡量少的數(shù)據(jù)作為訓(xùn)練集合,得到不損失信息的模型(可惜偶們的生物學(xué)數(shù)據(jù)已經(jīng)夠少,偶擔(dān)心信息量不夠)N-CROSS VALIAD
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年煤炭購銷中介合同
- 2024年行政人員雇傭合同書
- 2024年燕窩行業(yè)戰(zhàn)略合作協(xié)議3篇
- 2024年網(wǎng)絡(luò)安全系統(tǒng)設(shè)計(jì)合同
- 2024年度生態(tài)林經(jīng)營權(quán)轉(zhuǎn)讓買賣合同3篇
- 煤的物性與氣化性能考核試卷
- 毛皮服裝生產(chǎn)質(zhì)量檢驗(yàn)標(biāo)準(zhǔn)考核試卷
- 服務(wù)端課課程設(shè)計(jì)范文
- 民航法律課程設(shè)計(jì)理念
- 畜牧良種繁殖產(chǎn)業(yè)發(fā)展現(xiàn)狀與趨勢考核試卷
- 貴州省黔東南州2022-2023學(xué)年六年級上學(xué)期語文期末考試試卷(含答案)
- 大學(xué)英語新編語言學(xué)教程Chapter 5 Semantics
- 小學(xué)語文隨班就讀學(xué)生個別輔導(dǎo)表-
- 醫(yī)藥招商培訓(xùn)資料
- 高級微觀經(jīng)濟(jì)學(xué)
- 聽力障礙隨班就讀學(xué)生個別輔導(dǎo)記錄
- AB-PLC-軟件與Windows操作系統(tǒng)兼容列表
- 酒店水單模板
- 幼兒園畢業(yè)紀(jì)念冊PPT模板
- 六年級上冊數(shù)學(xué)復(fù)習(xí)簡便運(yùn)算的策略課件
- 考務(wù)工作手冊(發(fā)給考務(wù)和監(jiān)考)
評論
0/150
提交評論