常見的回歸七種.docx_第1頁
常見的回歸七種.docx_第2頁
常見的回歸七種.docx_第3頁
常見的回歸七種.docx_第4頁
常見的回歸七種.docx_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

常見的七種回歸技術(shù)字數(shù)2478閱讀443評論1喜歡2介紹 根據(jù)受歡迎程度,線性回歸和邏輯回歸經(jīng)常是我們做預(yù)測模型時,且第一個學(xué)習(xí)的算法。但是如果認為回歸就兩個算法,就大錯特錯了。事實上我們有許多類型的回歸方法可以去建模。每一個算法都有其重要性和特殊性。內(nèi)容1.什么是回歸分析?2.我們?yōu)槭裁匆褂没貧w分析?3.回歸有哪些類型 ?4.線性回歸5.邏輯回歸6.多項式回歸7.逐步回歸8.嶺回歸9.Lasso回歸10.ElasticNet回歸什么是回歸分析? 回歸分析是研究自變量和因變量之間關(guān)系的一種預(yù)測模型技術(shù)。這些技術(shù)應(yīng)用于預(yù)測,時間序列模型和找到變量之間關(guān)系。例如可以通過回歸去研究超速與交通事故發(fā)生次數(shù)的關(guān)系。我們?yōu)槭裁匆没貧w分析? 這里有一些使用回歸分析的好處:它指示出自變量與因變量之間的顯著關(guān)系;它指示出多個自變量對因變量的影響。回歸分析允許我們比較不同尺度的變量,例如:價格改變的影響和宣傳活動的次數(shù)。這些好處可以幫助市場研究者數(shù)據(jù)分析師去除和評價用于建立預(yù)測模型里面的變量?;貧w有哪些類型? 我們有很多種回歸方法用預(yù)測。這些技術(shù)可通過三種方法分類:自變量的個數(shù)、因變量的類型和回歸線的形狀。1.線性回歸 線性回歸可謂是世界上最知名的建模方法之一,也是應(yīng)該是我們第一個接觸的模型。在模型中,因變量是連續(xù)型的,自變量可以使連續(xù)型或離散型的,回歸線是線性的。線性回歸用最適直線(回歸線)去建立因變量Y和一個或多個自變量X之間的關(guān)系。可以用公式來表示:Y=a+b*X+ea為截距,b為回歸線的斜率,e是誤差項。 簡單線性回歸與多元線性回歸的差別在于:多元線性回歸有多個(1)自變量,而簡單線性回歸只有一個自變量。到現(xiàn)在我們的問題就是:如何找到那條回歸線? 我們可以通過最小二乘法把這個問題解決。其實最小二乘法就是線性回歸模型的損失函數(shù),只要把損失函數(shù)做到最小時得出的參數(shù),才是我們最需要的參數(shù)。我們一般用決定系數(shù)(R方)去評價模型的表現(xiàn)。重點:1.自變量與因變量之間必須要有線性關(guān)系。2.多重共線性、自相關(guān)和異方差對多元線性回歸的影響很大。3.線性回歸對異常值非常敏感,其能嚴重影響回歸線,最終影響預(yù)測值。4.在多元的自變量中,我們可以通過前進法,后退法和逐步法去選擇最顯著的自變量。2.邏輯回歸邏輯回歸是用來找到事件成功或事件失敗的概率。當(dāng)我們的因變量是二分類(0/1,True/False,Yes/No)時我們應(yīng)該使用邏輯回歸。重點:1.在分類問題中使用的非常多。2.邏輯回歸因其應(yīng)用非線性log轉(zhuǎn)換方法,使得其不需要自變量與因變量之間有線性關(guān)系。3.為防止過擬合和低擬合,我們應(yīng)該確保每個變量是顯著的。應(yīng)該使用逐步回歸方法去估計邏輯回歸。4.邏輯回歸需要大樣本量,因為最大似然估計在低樣本量的情況下表現(xiàn)不好。5.要求沒有共線性。6.如果因變量是序數(shù)型的,則稱為序數(shù)型邏輯回歸。7.如果因變量有多個,則稱為多項邏輯回歸。3.多項式回歸寫在前面:多項式回歸在回歸問題中占特殊的地位,因為任何函數(shù)至少在一個比較小的鄰域內(nèi)可用多項式任意逼近,因此通常在比較復(fù)雜的實際問題中,可以不問與諸因素的確切關(guān)系如何,而用多項式回歸(當(dāng)然首先應(yīng)試用最簡單的一次多項式即線性回歸)進行分析和計算如果一個回歸,它的自變量指數(shù)超過1,則稱為多項式回歸。可以用公式表示:y = a + b * x2在這個回歸技術(shù)中,最適的線不是一條直線,而是一條曲線。重點:1.很多情況下,我們?yōu)榱私档驼`差,經(jīng)常會抵制不了使用多項式回歸的誘惑,但事實是,我們經(jīng)常會造成過擬合。所以要經(jīng)常的把數(shù)據(jù)可視化,觀察數(shù)據(jù)與模型的擬合程度。2.特別是要看曲線的結(jié)尾部分,看它的形狀和趨勢是否有意義。高的多項式往往會產(chǎn)生特別古怪的預(yù)測值。4.逐步回歸 當(dāng)我們要處理多個自變量時,我們就需要這個回歸方法。在這個方法中選擇變量都是通過自動過程實現(xiàn)的,不需要人的干預(yù)。 這個工程是通過觀察統(tǒng)計值,比如判定系數(shù),t值和最小信息準則等去篩選變量。逐步回歸變量一般是基于特定的標準加入或移除變量來擬合回歸模型。一些常用的逐步回歸方法如下:1.標準逐步回歸做兩件事情。只要是需要每一步它都會添加或移除一些變量。2.前進法是開始于最顯著的變量然后在模型中逐漸增加次顯著變量。3.后退法是開始于所有變量,然后逐漸移除一些不顯著變量。4.這個模型技術(shù)的目的是為了用最少的變量去最大化模型的預(yù)測能力。它也是一種降維技術(shù)。5.嶺回歸 當(dāng)碰到數(shù)據(jù)有多重共線性時,我們就會用到嶺回歸。所謂多重共線性,簡單的說就是自變量之間有高度相關(guān)關(guān)系。在多重共線性中,即使是最小二乘法是無偏的,它們的方差也會很大。通過在回歸中加入一些偏差,嶺回歸酒會減少標準誤差。 嶺回歸是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質(zhì)上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的擬合要強于最小二乘法。 百度百科 嶺回歸是通過嶺參數(shù)去解決多重共線性的問題??聪旅娴墓剑?其中l(wèi)oss為損失函數(shù),penalty為懲罰項。重點:1.嶺回歸的假設(shè)與最小二乘法回歸的假設(shè)相同除了假設(shè)正態(tài)性。2.它把系數(shù)的值收縮了,但是不會為0.3.正則化方法是使用了l2正則.6.LASSO回歸 和嶺回歸類似,Lasso(least Absolute Shrinkage and Selection Operator)也是通過懲罰其回歸系數(shù)的絕對值??聪旅娴墓剑?Lasso回歸和嶺回歸不同的是,Lasso回歸在懲罰方程中用的是絕對值,而不是平方。這就使得懲罰后的值可能會變成0.重點:1.其假設(shè)與最小二乘回歸相同除了正態(tài)性。2.其能把系數(shù)收縮到0,使得其能幫助特征選擇。3.這個正則化方法為l1正則化。4.如果一組變量是高度相關(guān)的,lasso會選擇其中的一個,然后把其他的都變?yōu)?.7.ElasticNet回歸 ElasticNet回歸是Lasso回歸和嶺回歸的組合。它會事先訓(xùn)練L1和L2作為懲罰項。當(dāng)許多變量是相關(guān)的時候,Elastic-net是有用的。Lasso一般會隨機選擇其中一個,而Elastic-net則會選在兩個。 與Lasso和嶺回歸的利弊比較,一個實用的優(yōu)點就是Elastic-Net會繼承一些嶺回歸的穩(wěn)定性。重點:1.在選擇變量的數(shù)量上沒有限制2.雙重收縮對其有影響3.除了這7個常用的回歸技術(shù),你也可以看看貝葉斯回歸、生態(tài)學(xué)回歸和魯棒回歸。如何去選擇回歸模型 面對如此多的回歸模型,最重要的是根據(jù)自變量因變量的類型、數(shù)據(jù)的維數(shù)和其他數(shù)據(jù)的重要特征去選擇最合適的方法。以下是我們選擇正確回歸模型時要主要考慮的因素:1.數(shù)據(jù)探索是建立預(yù)測模型不可或缺的部分。它應(yīng)該是在選擇正確模型之前要做的。2.為了比較不同模型的擬合程度,我們可以分析不同的度量,比如統(tǒng)計顯著性參數(shù)、R方、調(diào)整R方、最小信息標準、BIC和誤差準則。另一個是Mallows Cp準則。3.交叉驗證是驗證預(yù)測模型最好的方法。你把你的數(shù)據(jù)集分成兩組:一組用于訓(xùn)練,一組用于驗證。4.如果你的數(shù)據(jù)集有許多讓你困惑的變量,你就不應(yīng)該用自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論