回歸分析的模型_第1頁
回歸分析的模型_第2頁
回歸分析的模型_第3頁
回歸分析的模型_第4頁
回歸分析的模型_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

回歸分析的模型第一頁,共二十一頁,編輯于2023年,星期五回歸分析的概念尋求有關聯(相關)的變量之間的關系主要內容:從一組樣本數據出發(fā),確定這些變量間的定量關系式對這些關系式的可信度進行各種統計檢驗從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著利用求得的關系式進行預測和控制第二頁,共二十一頁,編輯于2023年,星期五回歸分析的模型按是否線性分:線性回歸模型和非線性回歸模型按自變量個數分:簡單的一元回歸,多元回歸基本的步驟:利用SPSS得到模型關系式,是否是我們所要的,要看回歸方程的顯著性檢驗(F檢驗)和回歸系數b的顯著性檢驗(T檢驗),還要看擬合程度R2(相關系數的平方,一元回歸用RSquare,多元回歸用AdjustedRSquare)第三頁,共二十一頁,編輯于2023年,星期五回歸分析的過程在回歸過程中包括:Liner:線性回歸CurveEstimation:曲線估計BinaryLogistic:二分變量邏輯回歸MultinomialLogistic:多分變量邏輯回歸Ordinal序回歸Probit:概率單位回歸Nonlinear:非線性回歸WeightEstimation:加權估計2-StageLeastsquares:二段最小平方法OptimalScaling最優(yōu)編碼回歸我們只講前面3個簡單的(一般教科書的講法)第四頁,共二十一頁,編輯于2023年,星期五10.1線性回歸(Liner)一元線性回歸方程:y=a+bxa稱為截距b為回歸直線的斜率用R2判定系數判定一個線性回歸直線的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)多元線性回歸方程:y=b0+b1x1+b2x2+…+bnxnb0為常數項b1、b2、…、bn稱為y對應于x1、x2、…、xn的偏回歸系數用AdjustedR2調整判定系數判定一個多元線性回歸方程的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)一元線性回歸模型的確定:一般先做散點圖(Graphs->Scatter->Simple),以便進行簡單地觀測(如:Salary與Salbegin的關系)若散點圖的趨勢大概呈線性關系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較R2(-->1)來確定一種最佳方程式(曲線估計)多元線性回歸一般采用逐步回歸方法-Stepwise

第五頁,共二十一頁,編輯于2023年,星期五逐步回歸方法的基本思想對全部的自變量x1,x2,...,xp,按它們對Y貢獻的大小進行比較,并通過F檢驗法,選擇偏回歸平方和顯著的變量進入回歸方程,每一步只引入一個變量,同時建立一個偏回歸方程。當一個變量被引入后,對原已引入回歸方程的變量,逐個檢驗他們的偏回歸平方和。如果由于引入新的變量而使得已進入方程的變量變?yōu)椴伙@著時,則及時從偏回歸方程中剔除。在引入了兩個自變量以后,便開始考慮是否有需要剔除的變量。只有當回歸方程中的所有自變量對Y都有顯著影響而不需要剔除時,在考慮從未選入方程的自變量中,挑選對Y有顯著影響的新的變量進入方程。不論引入還是剔除一個變量都稱為一步。不斷重復這一過程,直至無法剔除已引入的變量,也無法再引入新的自變量時,逐步回歸過程結束。第六頁,共二十一頁,編輯于2023年,星期五10.1.6線性回歸分析實例p240實例:P240Data07-03建立一個以初始工資Salbegin、工作經驗prevexp、工作時間jobtime、工作種類jobcat、受教育年限edcu等為自變量,當前工資Salary為因變量的回歸模型。先做數據散點圖,觀測因變量Salary與自變量Salbegin之間關系是否有線性特點Graphs->Scatter->SimpleXAxis:SalbeginYAxis:Salary若散點圖的趨勢大概呈線性關系,可以建立線性回歸模型Analyze->Regression->LinearDependent:SalaryIndependents:Salbegin,prevexp,jobtime,jobcat,edcu等變量Method:Stepwise比較有用的結果:擬合程度AdjustedR2:越接近1擬合程度越好回歸方程的顯著性檢驗Sig回歸系數表Coefficients的Model最后一個中的回歸系數B和顯著性檢驗Sig得模型:

Salary=-15038.6+1.37Salbegin+5859.59jobcat-19.55prevexp+154.698jobtime+539.64edcu第七頁,共二十一頁,編輯于2023年,星期五10.2曲線估計(CurveEstimation)對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方便地進行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對數據的充分描述(看修正AdjustedR2-->1)不同模型的表示模型名稱回歸方程相應的線性回歸方程Linear(線性)Y=b0+b1tQuadratic(二次)Y=b0+b1t+b2t2Compound(復合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對數)Y=b0+b1ln(t)Cubic(三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1/

tExponential(指數)Y=b0*

eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tPower(冪)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)第八頁,共二十一頁,編輯于2023年,星期五10.2.3曲線估計(CurveEstimation)分析實例實例P247Data11-01:有關汽車數據,看mpg(每加侖汽油行駛里程)與weight(車重)的關系先做散點圖(Graphs->Scatter->Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數mpg(Y)隨著汽車自重weight(X)的增加而減少的關系,也發(fā)現是曲線關系建立若干曲線模型(可試著選用所有模型Models)Analyze->Regression->CurveEstimationDependent:mpgIndependent:weightModels:全選(除了最后一個邏輯回歸)選Plotmodels:輸出模型圖形比較有用的結果:各種模型的AdjustedR2,并比較哪個大,結果是指數模型Compound的AdjustedR2=0.70678最好(擬合情況可見圖形窗口),結果方程為:mpg=60.15*0.999664weight說明:Growth和Exponential的結果也相同,也一樣。第九頁,共二十一頁,編輯于2023年,星期五10.3二項邏輯回歸(BinaryLogistic)在現實中,經常需要判斷一些事情是否將要發(fā)生,候選人是否會當選?為什么一些人易患冠心?。繛槭裁匆恍┤说纳鈺@得成功?此問題的特點是因變量只有兩個值,不發(fā)生(0)和發(fā)生(1)。這就要求建立的模型必須因變量的取值范圍在0~1之間。Logistic回歸模型Logistic模型:在邏輯回歸中,可以直接預測觀測量相對于某一事件的發(fā)生概率。包含一個自變量的回歸模型和多個自變量的回歸模型公式:其中:z=B0+B1X1+…BpXp(P為自變量個數)。某一事件不發(fā)生的概率為Prob(noevent)=1-Prob(event)。因此最主要的是求B0,B1,…Bp(常數和系數)數據要求:因變量應具有二分特點。自變量可以是分類變量和定距變量。如果自變量是分類變量應為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式?;貧w系數:幾率和概率的區(qū)別。幾率=發(fā)生的概率/不發(fā)生的概率。如從52張橋牌中抽出一張A的幾率為(4/52)/(48/52)=1/12,而其概率值為4/52=1/13

根據回歸系數表,可以寫出回歸模型公式中的z。然后根據回歸模型公式Prob(event)進行預測。第十頁,共二十一頁,編輯于2023年,星期五10.3.3二項邏輯回歸(BinaryLogistic)實例實例P255Data11-02:乳腺癌患者的數據進行分析,變量為:年齡age,患病時間time,腫瘤擴散等級pathscat(3種),腫瘤大小pathsize,腫瘤史histgrad(3種)和癌變部位的淋巴結是否含有癌細胞ln_yesno,建立一個模型,對癌變部位的淋巴結是否含有癌細胞ln_yesno的情況進行預測。Analyze->Regression->BinaryLogisticDependent:ln_yesnoCovariates:age,time,pathscat,pathsize,histgrad比較有用的結果:在VariablesinEquation表中的各變量的系數(B),可以寫出z=-0.86-0.331pathscat+0.415pathsize–0.023age+0.311histgrad。根據回歸模型公式Prob(event)=1/(1+e-z),就可以計算一名年齡為60歲、pathsize為1、histgrad為1、pathscat為1的患者,其淋巴結中發(fā)現癌細胞的概率為1/(1+e-(-1.845))=0.136(Prob(event)<0.5預測事件將不會發(fā)生,>0.5預測事件將會發(fā)生)第十一頁,共二十一頁,編輯于2023年,星期五補充:回歸分析以下的講義是吳喜之教授有關回歸分析的講義,很簡單,但很實用第十二頁,共二十一頁,編輯于2023年,星期五定量變量的線性回歸分析對例1(highschoo.sav)的兩個變量的數據進行線性回歸,就是要找到一條直線來最好地代表散點圖中的那些點。第十三頁,共二十一頁,編輯于2023年,星期五檢驗問題等對于系數b1=0的檢驗對于擬合的F檢驗R2(決定系數)及修正的R2.第十四頁,共二十一頁,編輯于2023年,星期五多個自變量的回歸如何解釋擬合直線?什么是逐步回歸方法?第十五頁,共二十一頁,編輯于2023年,星期五自變量中有定性變量的回歸例1(highschoo.sav)的數據中,還有一個自變量是定性變量“收入”,以虛擬變量或啞元(dummyvariable)的方式出現;這里收入的“低”,“中”,“高”,用1,2,3來代表.所以,如果要用這種啞元進行前面回歸就沒有道理了.以例1數據為例,可以用下面的模型來描述:第十六頁,共二十一頁,編輯于2023年,星期五自變量中有定性變量的回歸現在只要估計b0,b1,和a1,a2,a3即可。啞元的各個參數a1,a2,a3本身只有相對意義,無法三個都估計,只能夠在有約束條件下才能夠得到估計。約束條件可以有很多選擇,一種默認的條件是把一個參數設為0,比如a3=0,這樣和它有相對意義的a1和a2就可以估計出來了。對于例1,對b0,b1,a1,a2,a3的估計分別為28.708,0.688,-11.066,-4.679,0。這時的擬合直線有三條,對三種家庭收入各有一條:

第十七頁,共二十一頁,編輯于2023年,星期五SPSS實現(hischool.sav)Analize-Generallinearmodel-Univariate,在Options中選擇ParameterEstimates,再在主對話框中把因變量(s1)選入DependentVariable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。然后再點擊Model,在SpecifyModel中選Custom,再把兩個有關的自變量選入右邊,再在下面BuildingTerm中選Maineffect。Continue-OK,就得到結果了。輸出的結果有回歸系數和一些檢驗結果。第十八頁,共二十一頁,編輯于2023年,星期五注意這里進行的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。但是,任何模型都是某種近似;線性回歸當然也不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論