對線性回歸、邏輯回歸、各種回歸的概念學習_第1頁
對線性回歸、邏輯回歸、各種回歸的概念學習_第2頁
對線性回歸、邏輯回歸、各種回歸的概念學習_第3頁
對線性回歸、邏輯回歸、各種回歸的概念學習_第4頁
對線性回歸、邏輯回歸、各種回歸的概念學習_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、對線性回歸、邏輯回歸、各種回歸的概念學習回歸問題的條件/前提:1)收集的數(shù)據(jù)2)假設的模型,即一個函數(shù),這個函數(shù)里含有未知的參數(shù),通過學習,可以估計出參數(shù)。然后利用這個模型 去預測/分類新的數(shù)據(jù)。線性回歸假設特征和結果都滿足線性。即不大于一次方。這個是針對 收集的數(shù)據(jù)而言。收集的數(shù)據(jù)中,每一個分量,就可以看做一個特征數(shù)據(jù)。每個特征至少對應一個未知的參數(shù)。這樣就形成了一 個線性模型函數(shù),向量表示形式:he(x = 6 X這個就是一個組合問題,已知一些數(shù)據(jù),如何求里面的未知參數(shù),給出一個最優(yōu)解。一個線性矩陣方程,直 接求解,很可能無法直接求解。有唯一解的數(shù)據(jù)集,微乎其微?;旧隙际墙獠淮嬖诘某ǚ?/p>

2、程組。因此,需要退一步,將參數(shù)求解問題,轉化為求最小誤差問題,求出一個 最接近的解,這就是一個松弛求解。求一個最接近解,直觀上,就能想到,誤差最小的表達形式。仍然是一個含未知參數(shù)的線性模型,一堆觀測數(shù) 據(jù),其模型與數(shù)據(jù)的誤差最小的形式,模型與數(shù)據(jù)差的平方和最?。杭樱┒海ㄈ缡罚?舟尸min這就是損失函數(shù)的來源。接下來,就是求解這個函數(shù)的方法,有最小二乘法,梯度下降法。 HYPERLINK /wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84 /wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84最

3、小二乘法是一個直接的數(shù)學求解公式,不過它要求X是列滿秩的,e = (XTX)XTy.梯度下降法分別有梯度下降法,批梯度下降法,增量梯度下降。本質上,都是偏導數(shù),步長/最佳學習率,更新,收斂的 問題。這個算法只是最優(yōu)化原理中的一個普通的方法,可以結合最優(yōu)化原理來學,就容易理解了。邏輯回歸邏輯回歸與線性回歸的聯(lián)系、異同?邏輯回歸的模型是一個非線性模型,sigmoid函數(shù),又稱邏輯回歸函數(shù)。但是它本質上又是一個線性回歸模型,因為 除去sigmoid映射函數(shù)關系,其他的步驟,算法都是線性回歸的。可以說,邏輯回歸,都是以線性回歸為理論支持的。只不過,線性模型,無法做到sigmoid的非線性形式,sigm

4、oid可以輕松處理0/1分類問題。另外它的推導含義:仍然與線性回歸的最大似然估計推導相同,最大似然函數(shù)連續(xù)積(這里的分布,可以使伯努利分布, 或泊松分布等其他分布形式),求導,得損失函數(shù)。ni尸伊)log頃抑)+ (1 -儼)log(l -頃此) i=l邏輯回歸函數(shù)表現(xiàn)了 0,1分類的形式。應用舉例:是否垃圾郵件分類?是否腫瘤、癌癥診斷?是否金融欺詐?一般線性回歸線性回歸是以高斯分布為誤差分析模型;邏輯回歸采用的是伯努利分布分析誤差。而高斯分布、伯努利分布、貝塔分布、迪特里特分布,都屬于指數(shù)分布。p(y:叮)=b(y) expO/Tfy) 一 口3)而一般線性回歸,在x條件下,y的概率分布p(

5、y|x)就是指指數(shù)分布.經(jīng)歷最大似然估計的推導,就能導出一般線性回歸的誤差分析模型(最小化誤差模型)。softmax回歸就是一般線性回歸的一個例子。有監(jiān)督學習回歸,針對多類問題(邏輯回歸,解決的是二類劃分問題),如數(shù)字字符的分類問題,0-9,10個數(shù) 字,y值有10個可能性。而這種可能的分布,是一種指數(shù)分布。而且所有可能的和為1,則對于一個輸入的結果,其結果可表示為:參數(shù)是一個k維的向量。是邏輯回歸代價函數(shù)的推廣。而對于softmax的求解,沒有閉式解法(高階多項方程組求解),仍用梯度下降法,或L-BFGS求解。當k=2時,softmax退化為邏輯回歸,這也能反映softmax回歸是邏輯回歸的

6、推廣。線性回歸,邏輯回歸,softmax回歸三者聯(lián)系,需要反復回味,想的多了,理解就能深入了。擬合:擬合模型/函數(shù)由測量的數(shù)據(jù),估計一個假定的模型/函數(shù)。如何擬合,擬合的模型是否合適?可分為以下三類合適擬合欠擬合 過擬合看過一篇文章(附錄)的圖示,理解起來很不錯:欠擬合:Xhe(x) = g(仇+ 伉偶1 + 的四)(g = sigmoid function)3如W合適的擬合XU。(。0 + 務方 1 + 02X2 +但好+。4硒史 十但石方2)+03XjX2十但折硬+。6.工泣2 +.)g(0 + ixi + O2X過擬合的問題如何解決?問題起源?模型太復雜,參數(shù)過多,特征數(shù)目過多。方法:1

7、)減少特征的數(shù)量,有人工選擇,或者采用模型選擇算法 HYPERLINK /heaad/archive/2011/01/02/1924088.html /heaad/archive/2011/01/02/1924088.html (特征選擇算法的綜述)2)正則化,即保留所有特征,但降低參數(shù)的值的影響。正則化的優(yōu)點是,特征很多時,每個特征都會有 一個合適的影響因子。概率解釋:線性回歸中為什么選用平方和作為誤差函數(shù)?假設模型結果與測量值誤差滿足,均值為0的高斯分布,即正態(tài)分布。這個假設是靠譜的,符合一般客觀統(tǒng) 計規(guī)律。數(shù)據(jù)x與y的條件概率:若使模型與測量數(shù)據(jù)最接近,那么其概率積就最大。概率積,就是概

8、率密度函數(shù)的連續(xù)積,這樣,就形成了 一個最大似然函數(shù)估計。對最大似然函數(shù)估計進行推導,就得出了求導后結果:平方和最小公式參數(shù)估計與數(shù)據(jù)的關系擬合關系錯誤函數(shù)/代價函數(shù)/損失函數(shù):線性回歸中采用平方和的形式,一般都是由模型條件概率的最大似然函數(shù) 概率積最大值,求導,推導出來 的。統(tǒng)計學中,損失函數(shù)一般有以下幾種:0-1損失函數(shù)L(YfX)=1,0,*fX)YfX)平方損失函數(shù)L(YfX)=(Y-fX)2絕對損失函數(shù)L(Y,f(X)=Yf(X)對數(shù)損失函數(shù)L(Y,P(YX)=-logP(YX)損失函數(shù)越小,模型就越好,而且損失函數(shù)盡量是一個凸函數(shù),便于收斂計算。線性回歸,采用的是平方損失函數(shù)。而邏

9、輯回歸采用的是對數(shù)損失函數(shù)。這些僅僅是一些結果,沒有推 導。正則化:為防止過度擬合的模型出現(xiàn)(過于復雜的模型),在損失函數(shù)里增加一個每個特征的懲罰因子。這個就是正則 化。如正則化的線性回歸的損失函數(shù):lambda就是懲罰因子。正則化是模型處理的典型方法。也是結構風險最小的策略。在經(jīng)驗風險(誤差平方和)的基礎上,增加一個懲 罰項/正則化項。線性回歸的解,也從e=(XTX) 1XTy轉化為括號內的矩陣,即使在樣本數(shù)小于特征數(shù)的情況下,也是可逆的。邏輯回歸的正則化:從貝葉斯估計來看,正則化項對應模型的先驗概率,復雜模型有較大先驗概率,簡單模型具有較小先驗概率。這個里面又有幾個概念。什么是結構風險最小

10、化?先驗概率?模型簡單與否與先驗概率的關系?經(jīng)驗風險、期望風險、經(jīng)驗損失、結構風險期望風險(真實風險),可理解為模型函數(shù)固定時,數(shù)據(jù)平均的損失程度,或“平均”犯錯誤的程度。期望 風險是依賴損失函數(shù)和概率分布的。只有樣本,是無法計算期望風險的。所以,采用經(jīng)驗風險,對期望風險進行估計,并設計學習算法,使其最小化。即經(jīng)驗風險最小化(EmpiricalRisk Minimization)ERM,而經(jīng)驗風險是用損失函數(shù)來評估的、計算的。對于分類問題,經(jīng)驗風險,就訓練樣本錯誤率。對于函數(shù)逼近,擬合問題,經(jīng)驗風險,就平方訓練誤差。對于概率密度估計問題,ERM,就是最大似然估計法。而經(jīng)驗風險最小,并不一定就是

11、期望風險最小,無理論依據(jù)。只有樣本無限大時,經(jīng)驗風險就逼近了期望風 險。如何解決這個問題?統(tǒng)計學習理論SLT,支持向量機SVM就是專門解決這個問題的。有限樣本條件下,學習出一個較好的模型。由于有限樣本下,經(jīng)驗風險Rempf無法近似期望風險Rf。因此,統(tǒng)計學習理論給出了二者之間的關系:Rf = ( Rempf + e )而右端的表達形式就是結構風險,是期望風險的上界。而e = g(h/n)是置信區(qū)間,是VC維h的增函數(shù),也是 樣本數(shù)n的減函數(shù)。VC維的定義在SVM,SLT中有詳細介紹。e依賴h和n,若使期望風險最小,只需關心其上界最小,即e最 小化。所以,需要選擇合適的h和n。這就是結構風險最小

12、化Structure Risk Minimization,SRM.SVM就是SRM的近似實現(xiàn),SVM中的概念另有一大筐。就此打住。1范數(shù),2范數(shù)的物理意義:范數(shù),能將一個事物,映射到非負實數(shù),且滿足非負性,齊次性,三角不等式。是一個具有“長度”概念的函 數(shù)。1范數(shù)為什么能得到稀疏解?壓縮感知理論,求解與重構,求解一個L1范數(shù)正則化的最小二乘問題。其解正是欠定線性系統(tǒng)的解。2范數(shù)為什么能得到最大間隔解?2范數(shù)代表能量的度量單位,用來重構誤差。以上幾個概念理解需要補充。最小描述長度準則:即一組實例數(shù)據(jù),存儲時,利用一模型,編碼壓縮。模型長度,加上壓縮后長度,即為該數(shù)據(jù)的總的描述長 度。最小描述長度

13、準則,就是選擇總的描述長度最小的模型。最小描述長度MDL準則,一個重要特性就是避免過度擬合現(xiàn)象。如利用貝葉斯網(wǎng)絡,壓縮數(shù)據(jù),一方面,模型自身描述長度隨模型復雜度的增加而增加;另一方面,對數(shù)據(jù)集描 述的長度隨模型復雜度的增加而下降。因此,貝葉斯網(wǎng)絡的MD L總是力求在模型精度和模型復雜度之間找到平衡。當模 型過于復雜時,最小描述長度準則就會其作用,限制復雜程度。奧卡姆剃刀原則:如果你有兩個原理,它們都能解釋觀測到的事實,那么你應該使用簡單的那個,直到發(fā)現(xiàn)更多的證 據(jù)。萬事萬物應該盡量簡單,而不是更簡單。凸松弛技術:將組合優(yōu)化問題,轉化為易于求解極值點的凸優(yōu)化技術。凸函數(shù)/代價函數(shù)的推導,最大似然

14、估計法。牛頓法求解最大似然估計前提條件:求導迭代,似然函數(shù)可導,且二階可導。迭代公式:=挪.若是向量形式,H就是n*n的hessian矩陣了。特征:當靠近極值點時,牛頓法能快速收斂,而在遠離極值點的地方,牛頓法可能不收斂。這個的推導?這點是與梯度下降法的收斂特征是相反的。線性與非線性:線性,一次函數(shù);非線性,輸入、輸出不成正比,非一次函數(shù)。線性的局限性:xor問題。線性不可分,形式:x 00 x而線性可分,是只用一個線性函數(shù),將數(shù)據(jù)分類。線性函數(shù),直線。線性無關:各個獨立的特征,獨立的分量,無法由其他分量或特征線性表示。核函數(shù)的物理意義: 映射到高維,使其變得線性可分。什么是高維?如一個一維數(shù)

15、據(jù)特征x,轉換為(x,x2, x3),就成為了一 個三維特征,且線性無關。一個一維特征線性不可分的特征,在高維,就可能線性可分了。邏輯回歸logicalistic regression質上仍為線性回歸,為什么被單獨列為一 類?其存在一個非線性的映射關系,處理的一般是二元結構的0, 1問題,是線性回歸的擴展,應用廣泛,被單獨 列為一類。而且如果直接應用線性回歸來擬合 邏輯回歸數(shù)據(jù),就會形成很多局部最小值。是一個非凸集,而線性回歸損 失函數(shù)是一個凸函數(shù),即最小極值點,即是全局極小點。模型不符。若采用邏輯回歸的損失函數(shù),損失函數(shù)就能形成一個凸函數(shù)。多項式樣條函數(shù)擬合 多項式擬合,模型是一個多項式形式

16、;樣條函數(shù),模型不僅連續(xù),而且在邊界處,高階導數(shù)也是連續(xù)的。好 處:是一條光滑的曲線,能避免邊界出現(xiàn)震蕩的形式出現(xiàn)(龍格線性) HYPERLINK /view/301735.htm /view/301735.htm以下是幾個需慢慢深入理解的概念: 無結構化預測模型結構化預測模型什么是結構化問題?adaboost, svm,lr三個算法的關系。三種算法的分布對應exponential loss (指數(shù)損失函數(shù)),hinge loss, log loss (對數(shù)損失函數(shù)),無本質 區(qū)別。應用凸上界取代0、1損失,即凸松弛技術。從組合優(yōu)化到凸集優(yōu)化問題。凸函數(shù),比較容易計算極值 點。正則化與貝葉斯參數(shù)估計的聯(lián)系?部分參考文早: HYPERLINK /?p=45150 /?p=45150 HYPERLINK http:/52/133/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%25 http:/52/133/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論