第9章線性回歸分析

上傳人：門*** IP屬地：江西上傳時(shí)間：2020-04-18 格式：PPT 頁數(shù)：210 大?。?7.01MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩205頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

回歸分析 Correlation regression 線性回歸回歸分析 regressionanalysis 確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法涉及的自變量的多少一元回歸分析多元回歸分析自變量和因變量之間的關(guān)系類型線性回歸分析非線性回歸分析回歸分析一般步驟確定回歸方程中的解釋變量自變量和被解釋變量因變量確定回歸模型建立回歸方程對回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測線性回歸模型一元線性回歸模型是指只有一個(gè)解釋變量的線性回歸模型用于揭示被解釋變量與另一個(gè)解釋變量之間的線性關(guān)系一元線性回歸數(shù)學(xué)模型其中 0和 1是未知參數(shù) 分別稱為回歸常數(shù)和回歸系數(shù) 稱為隨機(jī)誤差是一個(gè)隨機(jī)變量且應(yīng)該滿足兩個(gè)前提條件 E 0var 2 多元線性回歸模型是指有多個(gè)解釋變量的線性回歸模型用于揭示被解釋變量與其他多個(gè)解釋變量之間的線性關(guān)系多元線性回歸數(shù)學(xué)模型其中 0 1 p都是未知參數(shù) 分別稱為回歸常數(shù)和偏回歸系數(shù) 稱為隨機(jī)誤差是一個(gè)隨機(jī)變量且同樣滿足兩個(gè)前提條件 E 0var 2 線性回歸模型回歸參數(shù)的普通最小二乘估計(jì) OLSE 線性回歸方程確定后的任務(wù)是利用已經(jīng)收集到的樣本數(shù)據(jù) 根據(jù)一定的統(tǒng)計(jì)擬合準(zhǔn)則對方程中的各參數(shù)進(jìn)行估計(jì) 普通最小二乘就是一種最為常見的統(tǒng)計(jì)擬合準(zhǔn)則最小二乘法將偏差距離定義為離差平方和即最小二乘估計(jì)就是尋找參數(shù) 0 1 p的估計(jì)值 0 1 p 使式 1 達(dá)到極小通過求極值原理偏導(dǎo)為零和解方程組可求得估計(jì)值 SPSS將自動(dòng)完成回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 一元線性回歸的擬合優(yōu)度檢驗(yàn)采用R2統(tǒng)計(jì)量稱為判定系數(shù)或決定系數(shù) 數(shù)學(xué)定義為其中稱為回歸平方和 SSA 稱為總離差平方和 SST 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) R2取值在0 1之間 R2越接近于1 說明回歸方程對樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越高多元線性回歸的擬合優(yōu)度檢驗(yàn)采用統(tǒng)計(jì)量稱為調(diào)整的判定系數(shù)或調(diào)整的決定系數(shù) 數(shù)學(xué)定義為式中n p 1 n 1分別是SSE和SST的自由度其取值范圍和意義與一元回歸方程中的R2是相同的回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 一元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用F統(tǒng)計(jì)量其數(shù)學(xué)定義為即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 1 n 2 個(gè)自由度的F分布 SPSS將會自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值如果p值小于給定的顯著性水平則應(yīng)拒絕零假設(shè) 認(rèn)為線性關(guān)系顯著回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 多元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是各個(gè)偏回歸系數(shù)同時(shí)為零檢驗(yàn)采用F統(tǒng)計(jì)量其數(shù)學(xué)定義為即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 p n p 1 個(gè)自由度的F分布 SPSS將會自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值如果p值小于給定的顯著性水平則應(yīng)拒絕零假設(shè) 認(rèn)為y與x的全體的線性關(guān)系顯著回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用t統(tǒng)計(jì)量其數(shù)學(xué)定義為 t統(tǒng)計(jì)量服從n 2個(gè)自由度的t分布 SPSS將會自動(dòng)計(jì)算t統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值如果p值小于給定的顯著性水平則應(yīng)拒絕零假設(shè) 認(rèn)為x對y有顯著貢獻(xiàn) 線性關(guān)系顯著回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 多元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 i 0 檢驗(yàn)采用t統(tǒng)計(jì)量其數(shù)學(xué)定義為 ti統(tǒng)計(jì)量服從n p 1個(gè)自由度的t分布 SPSS將會自動(dòng)計(jì)算ti統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值如果p值小于給定的顯著性水平則應(yīng)拒絕零假設(shè) 認(rèn)為xi對y有顯著貢獻(xiàn) 應(yīng)保留在線性方程中 i 1 2 p 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析所謂殘差是指由回歸方程計(jì)算所得的預(yù)測值與實(shí)際樣本值之間的差距即它是回歸模型中的估計(jì)值如果回歸方程能較好地反映被解釋變量的特征和變化規(guī)律那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢性回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析均值為0的正態(tài)性分析殘差均值為0的正態(tài)性分析可以通過繪制殘差圖進(jìn)行分析如果殘差均值為0 殘差圖中的點(diǎn)應(yīng)在縱坐標(biāo)為0的橫線上下隨機(jī)散落著正態(tài)性可以通過繪制標(biāo)準(zhǔn)化或?qū)W生化殘差的累計(jì)概率圖來分析回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析獨(dú)立性分析繪制殘差序列的序列圖以樣本期或時(shí)間為橫坐標(biāo) 殘差為縱坐標(biāo) 如果殘差隨時(shí)間的推移呈規(guī)律性變化則存在一定的正或負(fù)相關(guān)性計(jì)算殘差的自相關(guān)系數(shù)取值在 1到 1之間接近于 1表明序列存在正自相關(guān)性 DW Durbin Watson 檢驗(yàn)DW取值在0至4之間直觀判斷標(biāo)準(zhǔn)是DW 4 殘差序列完全負(fù)自相關(guān) DW 2 完全無自相關(guān) DW 0 完全正自相關(guān) 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析異方差分析繪制殘差圖如果殘差的方差隨著解釋變量值的增加呈增加或減少的趨勢說明出現(xiàn)了異方差現(xiàn)象回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析異方差分析等級相關(guān)分析得到殘差序列后首先對其取絕對值然后計(jì)算出殘差和解釋變量的秩最后計(jì)算Spearman等級相關(guān)系數(shù) 并進(jìn)行等級相關(guān)分析具體過程見相關(guān)分析相關(guān)章節(jié) 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析探測樣本中的異常值和強(qiáng)影響點(diǎn) 對于y值標(biāo)準(zhǔn)化殘差ZRE由于殘差是服從均值為0的正態(tài)分布因此可以根據(jù)3 準(zhǔn)則進(jìn)行判斷首先對殘差進(jìn)行標(biāo)準(zhǔn)化絕對值大于3對應(yīng)的觀察值為異常值學(xué)生化殘差SRE剔除殘差DRE 或剔除學(xué)生化殘差SDRE 上述SRE SDRE的直觀判斷標(biāo)準(zhǔn)同標(biāo)準(zhǔn)化殘差ZRE 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析探測樣本中的異常值和強(qiáng)影響點(diǎn) 對于x值杠桿值hiiSPSS中計(jì)算的是中心化杠桿值chii 通常如果chii大于2或3倍的chii的均值 p n 則認(rèn)為觀察點(diǎn)為強(qiáng)影響點(diǎn) 庫克距離Di庫克距離是杠桿值與殘差大小的綜合效應(yīng) 一般庫克距離大于1 則可認(rèn)為觀察點(diǎn)為強(qiáng)影響點(diǎn) 標(biāo)準(zhǔn)化回歸系數(shù)的變化和標(biāo)準(zhǔn)化預(yù)測值的變化如果標(biāo)準(zhǔn)化回歸系數(shù)變化的絕對值大于或標(biāo)準(zhǔn)化預(yù)測值變化的絕對值大于則可認(rèn)為第i個(gè)樣本可能是強(qiáng)影響點(diǎn) 多元回歸分析中的其他問題變量篩選問題向前篩選策略解釋變量不斷進(jìn)入回歸方程的過程首先選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程并進(jìn)行各種檢驗(yàn) 其次在剩余的變量中挑選與解釋變量偏相關(guān)系數(shù)最高并通過檢驗(yàn)的變量進(jìn)入回歸方程向后篩選策略變量不斷剔除出回歸方程的過程首先所有變量全部引入回歸方程并檢驗(yàn) 然后在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個(gè)或多個(gè)變量中剔除t檢驗(yàn)值最小的變量逐步篩選策略向前篩選與向后篩選策略的綜合多元回歸分析中的其他問題變量多重共線性問題容忍度Tol容忍度值越接近于1 表示多重共線性越弱 SPSS變量多重共線性的要求不很嚴(yán)格只是在容忍度值太小時(shí)給出相應(yīng)警告信息方差膨脹因子VIF膨脹因子是容忍度的倒數(shù) 越接近于1 表示解釋變量間的多重共線性越弱通常如果VIFi大于等于10 說明解釋變量xi與其余解釋變量之間有嚴(yán)重的多重共線性特征根和方差比這里的特征根是指相關(guān)系數(shù)矩陣的特征根如果最大特征根遠(yuǎn)遠(yuǎn)大于其他特征根的值則說明這些解釋變量之間具有相當(dāng)多的重疊信息條件指數(shù)ki10 ki 100時(shí) 認(rèn)為多重共線性較強(qiáng) ki 100時(shí) 認(rèn)為多重共線性很嚴(yán)重 2 將因變量選入Dependent框 3 將一個(gè)或多個(gè)自變量選入Independengt s 框 4 在Method框中選擇回歸分析中自變量的篩選策略其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程是SPSS默認(rèn)策略通常用在一元線性回歸分析中 Remove表示從回歸方程中剔除所選變量 Stepwise表示逐步篩選策略 Backward Forward分別表示向后向前篩選策略回歸分析基本操作 5 上述 3 4 中確定的自變量和篩選策略可放置在不同的Block中單擊 Next 和 Previous 按鈕設(shè)置多組自變量和變量篩選策略并放在不同Block中 SPSS將按照設(shè)置順序依次進(jìn)行分析 Block 設(shè)置便于作各種探索性的回歸分析回歸分析基本操作 6 選擇一個(gè)變量作為條件變量到SelectionVariable框中并單擊 Rule 按鈕給定一個(gè)判斷條件只有變量值滿足給定條件的樣本數(shù)據(jù)才參與線性回歸分析回歸分析基本操作 7 在CaseLabels框中指定哪個(gè)變量作為數(shù)據(jù)樣本點(diǎn)的標(biāo)志變量該變量的值將標(biāo)在回歸分析的輸出圖形中 8 WLSWeight中選人權(quán)重變量主要用于加權(quán)最小二乘法至此便完成了線性回歸分析的基本操作 SPSS將根據(jù)指定自動(dòng)進(jìn)行回歸分析并將結(jié)果輸出到輸出窗口中回歸分析基本操作回歸分析的其他操作選項(xiàng) 輸出與回歸系數(shù)相關(guān)的統(tǒng)計(jì)量包括回歸系數(shù) 回歸系數(shù)標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)化回歸系數(shù) 回歸系數(shù)顯著性檢驗(yàn)的t統(tǒng)計(jì)量和概率p值個(gè)解釋變量的容忍度每個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)的95 置信區(qū)間輸出各解釋變量間的相關(guān)系數(shù) 協(xié)方差以及各回歸系數(shù)的方差輸出判定系數(shù) 調(diào)整的判定系數(shù) 回歸方程的標(biāo)準(zhǔn)誤回歸方程顯著性檢驗(yàn)的方差分析表每個(gè)解釋變量進(jìn)入方程后引起的判定系數(shù)的變化量和F值的變化量偏F統(tǒng)計(jì)量輸出個(gè)解釋變量和被解釋變量的均值標(biāo)準(zhǔn)差相關(guān)系數(shù)矩陣及單側(cè)檢驗(yàn)概率值輸出方程中各解釋變量與被解釋變量之間的簡單相關(guān) 偏相關(guān)系數(shù)和部分相關(guān) 回歸分析的其他操作選項(xiàng) 多重共線性分析輸出各解釋變量的容忍度方差膨脹因子特征值條件指標(biāo) 方差比例等 DW值輸出標(biāo)準(zhǔn)化殘差絕對值大于等于3 默認(rèn) 的樣本數(shù)據(jù)的相關(guān)信息回歸分析的其他操作選項(xiàng) 選項(xiàng) 標(biāo)準(zhǔn)化預(yù)測值標(biāo)準(zhǔn)化殘差剔除殘差調(diào)整的預(yù)測值學(xué)生化殘差剔除學(xué)生化殘差標(biāo)準(zhǔn)化殘差序列直方圖標(biāo)準(zhǔn)化殘差序列正態(tài)分布累計(jì)概率圖依次繪制被解釋變量與各解釋變量的散點(diǎn)圖回歸分析的其他操作 Save選項(xiàng) 該窗口將回歸分析的某些結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中并可同時(shí)生成XML格式的文件便于分析結(jié)果的網(wǎng)絡(luò)發(fā)布回歸分析的其他操作 Save選項(xiàng) 保存剔除第i個(gè)樣本后各統(tǒng)計(jì)量的變化量回歸系數(shù)變化量標(biāo)準(zhǔn)化回歸系數(shù)變化量預(yù)測值變化量標(biāo)準(zhǔn)化預(yù)測值變化量協(xié)方差比回歸分析的其他操作 Options選項(xiàng) 設(shè)置多元線性回歸分析中解釋變量進(jìn)入或剔除出回歸方程的標(biāo)準(zhǔn) 偏F統(tǒng)計(jì)量的概率值回歸分析的其他操作線性回歸分析的應(yīng)用舉例為研究高校人文社會科學(xué)研究中立項(xiàng)課題數(shù)受哪些因素的影響收集某年31個(gè)省市自治區(qū)部分高校有關(guān)社科研究方面的數(shù)據(jù) 并利用線性回歸方法進(jìn)行分析這里被解釋變量為立項(xiàng)課題數(shù)X5 解釋變量為投入人年數(shù) X2 投入高級職稱的人年數(shù) X3 投入科研事業(yè)費(fèi) X4 專著數(shù) X6 論文數(shù) X7 獲獎(jiǎng)數(shù) X8 具體操作如前所述分析結(jié)果如下線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果強(qiáng)制進(jìn)入策略一回歸方程的擬合優(yōu)度較高線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果強(qiáng)制進(jìn)入策略二 SSASSESST 被解釋變量與解釋變量的全體的線性關(guān)系顯著線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果強(qiáng)制進(jìn)入策略三偏回歸系數(shù)檢驗(yàn)只有x2的是顯著的其他均不顯著即與0無顯著差異各解釋變量之間存在很強(qiáng)共線性線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果強(qiáng)制進(jìn)入策略四由特征根的較大差異條件指數(shù)以及方差比進(jìn)一步證實(shí)了各解釋變量之間存在嚴(yán)重的線性自相關(guān) 線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果向后篩選策略一由此可見不能以一味追求高的擬合優(yōu)度為目標(biāo) 還要重點(diǎn)考察解釋變量對被解釋變量的貢獻(xiàn) 線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果向后篩選策略二 SSASSESST 線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果向后篩選策略三由此可清楚地看到變量剔除的過程線性回歸分析的應(yīng)用舉例立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果向后篩選策略四線性回歸分析的應(yīng)用舉例通過上述回歸方程的分析以及各種檢驗(yàn) 得出如下回歸方程立項(xiàng)課題數(shù) 94 524 0 492投入人年數(shù) 意味著投入人年數(shù)每增加一個(gè)單位會使立項(xiàng)課題數(shù)平均增加0 492個(gè)單位曲線估計(jì) 變量間相關(guān)關(guān)系的分析中變量之間的關(guān)系并不總是表現(xiàn)出線性關(guān)系非線性關(guān)系也極為常見非線性又可劃分為本質(zhì)線性關(guān)系形式上雖然呈非線性但可通過變量轉(zhuǎn)換化為線性關(guān)系本質(zhì)非線性關(guān)系不僅形式上呈非線性也無法通過變量轉(zhuǎn)換化為線性關(guān)系這里的曲線估計(jì)是解決本質(zhì)線性關(guān)系問題的常見本質(zhì)線性模型在SPSS曲線估計(jì)中首先在不能明確哪種模型更接近樣本數(shù)據(jù)時(shí)可在上述可選擇的模型中選擇幾種模型然后 SPSS自動(dòng)完成模型的參數(shù)估計(jì) 并輸出回歸方程顯著性檢驗(yàn)的F值和概率P值判定系數(shù)R2等統(tǒng)計(jì)量最后以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型并進(jìn)行預(yù)測分析基本操作 1 選擇菜單Analyze Regression CurveEstimation 2 選擇被解釋變量到Dependent框 3 曲線估計(jì)中解釋變量可以是相關(guān)因素變量也可以是時(shí)間變量如果解釋變量為相關(guān)因素變量則選擇Variable選項(xiàng) 并指定一個(gè)解釋變量到Independent框如果選擇Time參數(shù)表示解釋變量為時(shí)間變量 4 在Models中選擇幾種模型 5 選擇PlotModels選項(xiàng)繪制回歸線選擇DisplayANOVAtable輸出各個(gè)模型的方差分析表和各回歸系數(shù)顯著性檢驗(yàn)結(jié)果曲線估計(jì)應(yīng)用舉例為研究居民家庭教育支出和消費(fèi)性支出之間的關(guān)系收集到1990年至2002年全國人均消費(fèi)性支出和教育支出的數(shù)據(jù) 教育支出和年人均消費(fèi)性支出的散點(diǎn)圖曲線估計(jì)應(yīng)用舉例觀察散點(diǎn)圖發(fā)現(xiàn)兩變量之間呈非線性關(guān)系可嘗試選擇二次三次曲線復(fù)合函數(shù) 冪函數(shù)等模型曲線估計(jì)應(yīng)用舉例觀察散點(diǎn)圖發(fā)現(xiàn)兩變量之間呈非線性關(guān)系可嘗試選擇二次三次曲線復(fù)合函數(shù) 冪函數(shù)等模型擬合優(yōu)度比較曲線估計(jì)應(yīng)用舉例與實(shí)際不符回歸系數(shù)檢驗(yàn)不通過曲線估計(jì)應(yīng)用舉例曲線估計(jì)應(yīng)用舉例復(fù)合函數(shù)和冪函數(shù)的擬合優(yōu)度都很好同時(shí)兩種模型的回歸系數(shù)顯著性檢驗(yàn)也都通過因此可考慮采用這兩種模型另外由于復(fù)合函數(shù)數(shù)值增長速度高于冪函數(shù) 從居民消費(fèi)未來趨勢看教育支出將可能占消費(fèi)性支出的較大比例并呈快速增長的趨勢而且復(fù)合函數(shù)擬合優(yōu)度高于冪函數(shù) 因此可最終考慮采用復(fù)合函數(shù) 曲線估計(jì)應(yīng)用舉例 Logistic回歸分析二維多項(xiàng) 引例在許多實(shí)際問題中會經(jīng)常出現(xiàn)因變量是定性變量的情況例如某個(gè)人是否購買汽車受到多種如家庭情況收人情況等因素的影響但最終的可能性只有兩個(gè) 要么購買要么不購買把y 1定義為購買 y o則表示不購買再如在是否購買某項(xiàng)商業(yè)保險(xiǎn)的研究中根據(jù)消費(fèi)者的年齡身體狀況收人情況工作性質(zhì) 受教育程度等因變量y也只有兩種可能結(jié)果要么y 1表示購買要么y o表示不購買可見在現(xiàn)實(shí)因變量的結(jié)果只取兩種可能情況的應(yīng)用很廣泛可用于處理定性因變量的統(tǒng)計(jì)分析方法有判別分析 D1scriminantanalysis Probit分析 logistic回歸分析和對數(shù)線性模型等在社會科學(xué)中應(yīng)用最多的是logistic回歸分析邏輯回歸分析是對定性變量的回歸分析 logistic回歸分析根據(jù)因變量取值類別不同又可以分為二元 Binarylogistic 回歸分析和多項(xiàng) Multinomianllogistic 回歸分析 Binarylogistic回歸模型中因變量只能取兩個(gè)值1和o 虛擬因變量而Multinomianllogistic回歸模型中因變量可以取多個(gè)值具體地說 logistic回歸分析主要解決以下幾方面的問題通過分析大量的樣本數(shù)據(jù) 確定變量之間的數(shù)學(xué)關(guān)系式對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn) 并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量利用所確定的數(shù)學(xué)關(guān)系式根據(jù)一個(gè)或幾個(gè)變量的值來預(yù)測或控制另一個(gè)特定變量的取值并給出這種預(yù)測或控制的精確度 Logistic函數(shù)的形式為Binarylogistic中通過Logit變換可得關(guān)于X 不同自變量的線性關(guān)系因此可得模型參數(shù)確定后必須進(jìn)行檢驗(yàn) 下面解釋一些常用的檢驗(yàn)統(tǒng)計(jì)量 1 2對數(shù)似然值 2loglikelihood 2LL 因?yàn)?2LL近似服從卡方分布且在數(shù)學(xué)上更為方便所以一2LL可用于檢驗(yàn)Logistic回歸的顯著性 2LL的計(jì)算公式為 2 擬合優(yōu)度GoodnessofFit統(tǒng)計(jì)量 Logistic回歸的擬合優(yōu)度統(tǒng)計(jì)量計(jì)算公式為 4Nagelkerke的R2 5偽R2 Psedo R square 偽R2與線性回歸模型的R2相似其意義相似但它小于1 6Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 7Wald統(tǒng)計(jì)量 3cox和snell的R2 二項(xiàng)logistic回歸應(yīng)用在一組獨(dú)立變量上對二分從屬變量進(jìn)行回歸利用前像后向逐步方法或全部進(jìn)入方法建模用偏差數(shù)對比簡單比較差分反Helmert Helmert 多項(xiàng)式鄰近類別比較用戶自定義或指示預(yù)示變量選擇建模標(biāo)準(zhǔn) 變量進(jìn)入的評分統(tǒng)計(jì)量的概率值 Wald概率值或者移除變量的對數(shù)似然比統(tǒng)計(jì)量保存統(tǒng)計(jì)量預(yù)測概率和分組殘差偏差值 Logit 標(biāo)準(zhǔn)化殘差杠桿值類似Cook s的距離差異通過XML導(dǎo)出模型多項(xiàng)logistic回歸模型模型如下與二元邏輯回歸一樣通過變換可得多項(xiàng)logistic回歸應(yīng)用在一組自變量上對多于兩種類別的分類因變量進(jìn)行回歸用CRITERIA子命令控制算法調(diào)整參數(shù)的值包含交互作用項(xiàng)自定義假設(shè)檢驗(yàn) 使用TEST子命令直接把零假設(shè)指定為參數(shù)的線性組合用SCALE子命令指定離差偏離比例建立包含不包含截距項(xiàng)的方程幾率比的置信區(qū)間保存統(tǒng)計(jì)量預(yù)測概率預(yù)測響應(yīng)類別預(yù)測響應(yīng)分類的概率和實(shí)際響應(yīng)分類的概率指定因變量的參照類處理非常大的問題利用逐步方法從眾多的可能的預(yù)測因子中選擇最佳預(yù)測因子利用評分和Wald方法使您在大數(shù)據(jù)集的情況下更迅速地得出研究結(jié)果利用AIC或者BIC準(zhǔn)則也稱為SBC 評估模型擬合度多項(xiàng)logistic回歸二項(xiàng)logistic回歸二項(xiàng)logistic回歸與多項(xiàng)logistic回歸的區(qū)別以下以二元logistic回歸為例講解logistic回歸在spss中的實(shí)現(xiàn) 實(shí)例在一次關(guān)于某城鄉(xiāng)居民上下班使用交通工具的社會調(diào)查中因變量y 1表示居民主要乘坐公共汽車上下班 y 0表示主要騎自行車上下班自變量x1表示被調(diào)查者的年齡 x2表示被調(diào)查者的月收入 x3表示被調(diào)查者的性別 x3 1為男性 x3 0為女性試建立y與自變量之間的logistic回歸數(shù)據(jù)如表所示實(shí)現(xiàn)步驟步驟1 把表中數(shù)據(jù)一一輸入SPSS數(shù)據(jù)編輯窗口在 Analyze 菜單的 Regression 子菜單中選擇 BinaryLogistic 命令進(jìn)行邏輯回歸分析步驟2 在彈出的 LogisticRegression 對話框中從左側(cè)的變量列表中選擇y變量居民上下班使用交通工具的情況將至添加到 Dependent 框中表示該變量時(shí)因變量選擇X1變量被調(diào)查者的年齡 X2 被調(diào)查者的月收入 X3 被調(diào)查者的性別使它們分別進(jìn)入 Independent s 框中表示其為自變量在Method框中選擇SPSS默認(rèn)的 Enter 方法使所選變量全部進(jìn)入回歸方程如圖所示步驟3 單擊 LogisticRegression 對話框中的 Options 按鈕在彈出的 LogisticRegression Options 對話框中按需要選擇各選項(xiàng) 如圖所示 Display 框用來選擇輸出計(jì)算結(jié)果的方式 Ateachstep 顯示spss每個(gè)步驟的計(jì)算結(jié)果 Atlaststep 只顯示最終計(jì)算結(jié)果 StatisticsandPlots 框中的選項(xiàng)用來選擇輸出哪些統(tǒng)計(jì)量或統(tǒng)計(jì)圖表具體選項(xiàng)如下 Classificationplots 分類圖通過比較因變量的觀測值和預(yù)測值之間關(guān)系反映回歸模型的擬合效果 Hosmer Lemeshowgoodness of fit H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量用以檢驗(yàn)整個(gè)回歸模型的擬合優(yōu)度 Casewiselistingofresiduals 個(gè)案殘差列表輸出標(biāo)準(zhǔn)方差大于某值 Outliersoutside std Dev 的個(gè)案或者全部個(gè)案 Allcases 的入選狀態(tài) 因變量的觀測值和預(yù)測值及其相應(yīng)預(yù)測概率殘差值 Correlationsofestimates 估計(jì)參數(shù)的相關(guān)性輸出模型中各估計(jì)參數(shù)間的相關(guān)矩陣 Iterationhistory 迭代歷史輸出參數(shù)估計(jì)迭代過程中的系數(shù)及對數(shù)似然值 CIforexp B exp B 的N 置信區(qū)間選中該選項(xiàng)將會在模型檢驗(yàn)的輸出結(jié)果中列出exp B 各回歸系數(shù)指數(shù)函數(shù)值的N 缺省值為95 置信區(qū)間如果要改變?nèi)笔≈?可以在空白方框內(nèi)輸入1 99 一般常用的值為90 95 99 之間的任何一個(gè)整數(shù) ProbabilityforStepwise 框用來設(shè)定步長標(biāo)準(zhǔn) 以便逐步控制自變量進(jìn)入方程或被剔除出方程 Entry 設(shè)置變量進(jìn)入方程的標(biāo)準(zhǔn)值如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率小于所設(shè)置進(jìn)入方程的標(biāo)準(zhǔn)值則該變量進(jìn)入模型 SPSS默認(rèn)的顯著性水平為0 05Removal 設(shè)置變量被剔除方程的標(biāo)準(zhǔn)值如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率大于所設(shè)置被剔除出方程的標(biāo)準(zhǔn)值則將該變量剔除出方程 SPSS默認(rèn)的顯著性水平為0 10 Classificationcutoff選項(xiàng)用以確定個(gè)案分類的中止點(diǎn) 因變量預(yù)測值大于分類中止點(diǎn)的個(gè)案設(shè)歸為正個(gè)案一類因變量預(yù)測值小于分類中止點(diǎn)的個(gè)案設(shè)為負(fù)個(gè)案 SPSS設(shè)中止點(diǎn)缺省值為0 5 我們可以通過輸入0 01 0 99之間任一數(shù)值改變?nèi)笔≈?從而產(chǎn)生新的分類表 MaximumIterations選項(xiàng)用以確定最大對數(shù)似然值達(dá)到之前的迭代次數(shù) 最大對數(shù)似然值是通過反復(fù)迭代計(jì)算知道收斂為止而得到的 SPSS中該項(xiàng)的缺省值為20 我們可以重新輸入一個(gè)新的正整數(shù)來改變此項(xiàng)的值步驟四單擊 Continue 按鈕返回上一個(gè)對話框然后單擊 OK 按鈕即可得到SPSS回歸分析的結(jié)果 Includeconstantinmodel 選項(xiàng)用以確定所求模型的參數(shù)是否要包含常數(shù)項(xiàng) 為了更好地說明以上各選項(xiàng)的意義本例選擇了所有選項(xiàng) 但保留各選項(xiàng)中的缺省值結(jié)果與討論總列表SPSS輸出結(jié)果列表如圖第二個(gè)表格說明初始的因變量值 0 1 已經(jīng)轉(zhuǎn)換為邏輯回歸分析中常用的0 1數(shù)值 SPSS輸出結(jié)果文件如下 1 第一部分輸出結(jié)果有兩個(gè)表格第一個(gè)表格說明所有個(gè)案 28個(gè) 都被選入作為回歸分析的個(gè)案結(jié)果與討論案例處理匯總因變量編碼初始值內(nèi)部值 2 第二部分 Block0 輸出結(jié)果有4個(gè)表格第1個(gè)輸出表格列出迭代過程其中常數(shù)項(xiàng)包括在模型中初始 2LL為38 673 迭代結(jié)束于第二步因?yàn)榇藭r(shí)參數(shù)與其在上一步的變化已經(jīng)小于0 001 第2個(gè)分類表說明Step0的擬合效果可以看出對于y 0 有100 的準(zhǔn)確性對于y 1 有0 準(zhǔn)確性總共有53 6 的準(zhǔn)確性此時(shí)參數(shù)估計(jì)的變化表現(xiàn)為對數(shù)似然值的變化迭代歷史記錄分類表下面兩個(gè)表格給出了模型系數(shù)的檢驗(yàn)結(jié)果其中常數(shù)項(xiàng)的系數(shù)值為 0 143 其伴隨概率為0 706 可見常數(shù)項(xiàng)不顯著 X1 X2 X3的系數(shù)通過了檢驗(yàn) 即這兩個(gè)變量顯著各回歸系數(shù)指數(shù)函數(shù)值 3 OmnibusTestofModelCoefficients表格列出了模型系數(shù)的OmnibusTests結(jié)果 4 ModelSummary表給出了 2對數(shù)似然值 Cox和Snell的R2以及Nagelkerke的R2檢驗(yàn)統(tǒng)計(jì)結(jié)果模型系數(shù)的綜合檢驗(yàn) 模型匯總 cox和snell的R2是在似然值基礎(chǔ)上模仿線性回歸模型的R2解釋Logistic回歸模型一般小于1 為了對cox和snell的R2進(jìn)一步調(diào)整使得取值范圍在0 1之間 Nagelkerke把cox和snell的R2除以它的最大值即Nagelkerke的R2 5 HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格給出了Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 HosmerandLemeshow檢驗(yàn) HosmerandLemeshow檢驗(yàn)的隨機(jī)性表與一般擬合優(yōu)度檢驗(yàn)不同 Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)通常把樣本數(shù)據(jù)根據(jù)預(yù)測概率分為10組然后根據(jù)觀測頻數(shù)和期望頻數(shù)構(gòu)造卡方統(tǒng)計(jì)量即Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量簡稱H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量最后根據(jù)自由度為8的卡方分布計(jì)算其p值并對Logistic模型進(jìn)行檢驗(yàn) 如果該P(yáng)值小于給定的顯著性水平如 0 05 表明模型的預(yù)測值與觀測值存在顯著差異如果P值大于給定的顯著性水平表明在可接受的水平上模型的估計(jì)擬合了數(shù)據(jù) 大于0 05 表明擬合了數(shù)據(jù) 6 ClassificationTable分類表說明第一次迭代結(jié)果的擬合效果從該表格可以看出對于y 0 有86 7 的準(zhǔn)確性對于y 1 有76 9 準(zhǔn)確性因此對于所有個(gè)案總共有82 1 的準(zhǔn)確性分類表正確分類比例預(yù)測值觀測值 7 VariablesintheEquation表格列出了Step1中各個(gè)變量對應(yīng)的系數(shù) 以及該變量對應(yīng)的Wald統(tǒng)計(jì)量和它對應(yīng)的相伴概率從該表格中可以看出X3相伴概率最小 Wald統(tǒng)計(jì)量最大可見該標(biāo)量在模型中很重要 wald統(tǒng)計(jì)量用于判斷個(gè)變量是否應(yīng)該包含在模型中 SPSS軟件沒有給出Logisticc回歸的標(biāo)準(zhǔn)化回歸系數(shù) 因此如果要考慮每個(gè)自變量在回歸方程中的重要性不妨直接比較Wald統(tǒng)計(jì)量的大小或sig Wald統(tǒng)計(jì)量大者或sig值小者顯著性高也就更重要 8 CorrelationMatrix表格列出了常數(shù)Constant 系數(shù)之間的相關(guān)矩陣常數(shù)與X2之間相關(guān)性最大 X1和X3之間的相關(guān)性最小相關(guān)矩陣 9 下圖所示是觀測值和預(yù)測概率分布圖該圖以0和1為符號每四個(gè)符號代表一個(gè)個(gè)案橫坐標(biāo)是個(gè)案屬于1的隸屬度這里稱為預(yù)測概率 PredictedProbability 縱坐標(biāo)是個(gè)案分布頻數(shù) 反映個(gè)案的分布如果邏輯回歸預(yù)測完全準(zhǔn)確那么該坐標(biāo)圖中預(yù)測概率是0 0 5之間的個(gè)案都應(yīng)該是0 0 5 1之間的個(gè)案都應(yīng)該是1 該例生成的圖基本上符合這個(gè)效果不正確的結(jié)果包括預(yù)測概率是0 0 5之間的個(gè)案中有3個(gè)實(shí)際的觀測值為1 0 5 1之間的個(gè)案觀測值有2個(gè)為0 這是錯(cuò)誤預(yù)測的結(jié)果觀測值和預(yù)測概率分布圖 10 邏輯回歸的最后一個(gè)輸出表格式CasewiseList 列出了殘差大于2的個(gè)案本例中列出了兩個(gè)符合條件的個(gè)案分別是第10個(gè)案和第19個(gè)案這兩個(gè)個(gè)案都有表明這兩個(gè)個(gè)案的邏輯回歸結(jié)果是錯(cuò)誤的案例列表殘差標(biāo)準(zhǔn)化殘差概率單位回歸分析 Probit 概率單位回歸分析 Probit 概率單位回歸分析簡介概率單位回歸分析可以度量刺激的強(qiáng)度和反應(yīng)的比例之間的關(guān)系當(dāng)因變量的變化能改變成者影響二維結(jié)果時(shí) 概率單位回歸分析顯得較為有用概率單位回歸可以讓用戶估計(jì)為達(dá)到某一比例的反應(yīng)所需要的刺激強(qiáng)度使用概率單位回歸分析所得到的統(tǒng)計(jì)量有相關(guān)系數(shù) 標(biāo)準(zhǔn)差 Pearsonchi square吻合度置信區(qū)間等等概率單位回歸分析的步驟1 在數(shù)據(jù)輸入之后依次單擊Analyze Regression Probit 打開ProbitAnalysis對話框 2 在左邊的源變量框內(nèi)選擇響應(yīng)變量進(jìn)入 ResponseFrequency 欄內(nèi)3 在左邊的源變量框內(nèi)選擇總的觀測變量進(jìn)入 TotalObserved 欄內(nèi) 4 在左邊的源變量框內(nèi)選擇因素變量進(jìn)入 Factor 欄內(nèi) 在選擇此項(xiàng)后會激活 DefineRange 按鈕單擊 DefineRange 按鈕打開DefineRange對話框在對話框內(nèi)設(shè)置分組的最大值和最小值 5 在左邊的源變量框內(nèi)選擇協(xié)變量進(jìn)入 Covariate s 欄內(nèi) 6 在 Model 欄內(nèi)設(shè)置分析方式 7 單擊 Option 按鈕會打開Option對話框 8 單擊 OK 按鈕即開始進(jìn)行統(tǒng)計(jì)分析過程例我們可以使用概率單位分析來分析殺蟲利的濃度和蟑螂死亡的比例之間的關(guān)系用戶可以進(jìn)行這樣一個(gè)實(shí)驗(yàn) 將不同濃度的殺蟲劑分別使用到一些獨(dú)立的樣本蟑螂群隨后記錄下不同濃度的殺蟲劑所殺死的蟑螂比例然后對這些數(shù)據(jù)采用概率單位回歸分析用戶可以發(fā)現(xiàn)殺蟲劑濃度和殺死蟑螂比例之間的關(guān)系這樣用戶就可以確定出要?dú)⑺乐辽倌潮壤捏胨枰淖罴褮⑾x劑濃度例題解析 1 在數(shù)據(jù)輸入之后依次單擊Analyze Regression Probit 打開ProbitAnalysis對話框響應(yīng)變量總觀測變量因素變量協(xié)變量 2 在源變量框內(nèi)選擇變量殺死數(shù)目進(jìn)入 ResponseFrequency 欄內(nèi) 3 在源變量框內(nèi)選擇變量蟑螂數(shù) 進(jìn)入 TotalObserved 欄內(nèi) 4 在源變量框內(nèi)選擇變量劑量進(jìn)入 Covariate 欄內(nèi) 還選擇Logbase10選項(xiàng) 進(jìn)行以10為底的對數(shù)轉(zhuǎn)換 5 單擊 Options 按鈕會打開Options對話框在對話框內(nèi)選擇Calculatefromdata選項(xiàng) 其他設(shè)置按系統(tǒng)默認(rèn)狀態(tài)即可 6 單擊 OK 按鈕進(jìn)行統(tǒng)計(jì)分析對每一個(gè)觀測計(jì)算實(shí)際的和期望的頻率實(shí)際的和期望的殘差對每一分組水平計(jì)算相對中位數(shù) 并對每一相對中位數(shù)計(jì)算置信區(qū)間進(jìn)行各分組是否有相同斜率的假設(shè)檢驗(yàn) 計(jì)算置信區(qū)間使用樣本數(shù)據(jù)計(jì)算自然響應(yīng)率非線性回歸分析非線性回歸分析非線性回歸分析簡介非線性回歸是發(fā)現(xiàn)因變量和自變量之間的非線性關(guān)系的一種方法非線性回歸能夠在因變量和自變量之間構(gòu)造任意的模型它不像線性模型那樣有眾多的假設(shè)條件這個(gè)過程是通過迭代估測運(yùn)算來完成的因此如果已經(jīng)了解待估方程中的參數(shù)取值范圍但是方程式不能寫成簡單的函數(shù)關(guān)系式時(shí) 建議使用非線性回歸分析例如健康研究問題中財(cái)政赤字對壽命的影響社會科學(xué)研究中人口增長與時(shí)間的關(guān)系生物學(xué)與生理學(xué)研究中有關(guān)動(dòng)物骨骼成長與時(shí)間和營養(yǎng)的關(guān)系等都是非線性關(guān)系常用的非線性回歸模型非線性回歸分析的步驟1 在數(shù)據(jù)輸入之后依次單擊Analyze Regression Nonlinear 打開NonlinearRegression對話框 2 在左邊源變量框內(nèi)選擇因變量進(jìn)入 Dependent 欄內(nèi) 3 在 ModelExpression 欄內(nèi)為因變量設(shè)置一個(gè)模型方程式 4 單擊 Parameter 按鈕打開對話框設(shè)置參數(shù)值 5 單擊 Loss 按鈕打開LossFunction對話框設(shè)置損失函數(shù) 6 單擊 Constraints 按鈕會打開ParameterConstraints對話框在此對話框內(nèi)設(shè)置對參數(shù)的一些限制 7 單擊 Save 按鈕會打開Save對話框 8 單擊 Options 按鈕會打開Option對話框 9 單擊 OK 按鈕開始進(jìn)行統(tǒng)計(jì)分析過程問題描述和數(shù)據(jù)準(zhǔn)備研究零售商的廣告費(fèi)用支出與產(chǎn)品的銷售量之間的關(guān)系目的是用Nonlinear過程擬合更合適的銷售量隨廣告費(fèi)用變化的模型 1 對數(shù)據(jù)的初步分析依次單擊 Graphs ChartBuilder 打開圖形構(gòu)建器界面下圖所示是銷售量對廣告費(fèi)用的散點(diǎn)圖通過觀察建議對此數(shù)據(jù)采用如下的非線性模型稱為Mistcherlich模型 y b1 b2eb3x b1 0 b2 0 b3 0 此模型符合效益遞減規(guī)律非線性回歸的參數(shù)設(shè)置依次單擊Analyze Regression Nonlinear 打開NonlinearRegression對話框單擊參數(shù)列表上方的Parameters按鈕彈出下圖所示參數(shù)設(shè)置對話框單擊Loss按鈕彈出下圖所示的損失函數(shù)設(shè)置對話框單擊Continue按鈕返回主界面單擊Constraints按鈕彈出如下對話框用于設(shè)置估計(jì)參數(shù)的取值范圍單擊Options按鈕彈出如下對話框在此設(shè)置回歸算法的相關(guān)參數(shù) 默認(rèn)使用Sequentialquadraticprogramming方法單擊Continue按鈕返回主界面單擊Save按鈕彈出如下對話框勾選Predictedvalues復(fù)選框和Residuals復(fù)選框單擊Continue按鈕返回主界面權(quán)重估計(jì) WeightEstimation 權(quán)重估計(jì) WeightEstimation 標(biāo)準(zhǔn)線性回歸模型假定殘差序列應(yīng)該是等方差的但是由于某些客觀特征的存在異方差的現(xiàn)象也常常存在如果出現(xiàn)異方差的現(xiàn)象可以用權(quán)重估計(jì)法即加權(quán)最小二乘法來替代普通最小二乘法來進(jìn)行回歸分析權(quán)重估計(jì)法的實(shí)質(zhì)是在回歸計(jì)算過程中給不同的觀測值以不同的權(quán)數(shù) 變差小的觀測值給予較大的權(quán)數(shù) 變差大的觀測值給予較小的權(quán)數(shù) 權(quán)重估計(jì)的關(guān)鍵就是確定加權(quán)變量的權(quán)數(shù)值 SPSS中給定一個(gè)加權(quán)范圍然后根據(jù)似然值越大越好的原則給出一個(gè)最佳的權(quán)數(shù)建議值并據(jù)此利用加權(quán)最小二乘法建立回歸方程對數(shù)據(jù)的要求和假設(shè) 1 自變量和因變量必須是數(shù)值型變量2 權(quán)重變量應(yīng)為數(shù)值型變量并與因變量的變異性相關(guān) 3 對于自變量的每個(gè)值因變量的分布必須是正態(tài)的因變量和每個(gè)自變量之間的關(guān)系應(yīng)是線性的且所有觀察值應(yīng)是獨(dú)立的4 因變量的方差對于自變量的不同級別可能不同但是必須能夠根據(jù)權(quán)重變量預(yù)測此差異引例某建筑商考慮開發(fā)興建商場構(gòu)建建筑成本預(yù)測線性模型主要因素包括面積建設(shè)建議是室內(nèi)還是室外廣場以及建筑師的經(jīng)驗(yàn) 開發(fā)人員知道隨著商場面積大小的增加建筑成本會隨之增加他們懷疑這樣建筑成本會更多變也就是說不能準(zhǔn)確的預(yù)測建筑成本這將違反典型的線性回歸的假設(shè) 但可能滿足權(quán)重估計(jì)模型權(quán)重估計(jì)步驟 1 方差診斷先利用最小二乘法對原始數(shù)據(jù)建立簡單線形模型并繪制其殘差對預(yù)測值的散點(diǎn)圖如果殘差均勻分布在某條與橫軸平行的橫線附近說明樣本的方差基本相等反之如果方差呈現(xiàn)明顯的喇叭狀或其他不規(guī)則形狀說明樣本方差不相等必須進(jìn)行加權(quán)最小二乘法 WLS 估計(jì) 如果只有一個(gè)自變量可以直接作因變量對自變量的散點(diǎn)圖觀察因變量的分布是否均勻判斷方法與殘差圖相似 2 權(quán)重估計(jì)如果認(rèn)為因變量的方差與其他變量之間存在相關(guān)關(guān)系就可以使用 WLS 方法進(jìn)行估計(jì)權(quán)重操作步驟一初步殘差分析使用最小二乘法OLS回歸 1 依次單擊菜單Analyze Regression Linear進(jìn)行線性回歸分析設(shè)定因變量和自變量2 設(shè)置因變量和自變量 3 點(diǎn)擊Plot鍵設(shè)置散點(diǎn)圖坐標(biāo)參數(shù)4 點(diǎn)擊Save鍵保存二權(quán)重估計(jì)1 依次單擊菜單Analyze Regression WeightEstimation執(zhí)行加權(quán)回歸分析的功能2 變量設(shè)置因變量自變量加權(quán)變量 3 選項(xiàng)設(shè)置Options 因變量標(biāo)準(zhǔn)化預(yù)測值標(biāo)準(zhǔn)化殘差剔除殘差修正后預(yù)測值學(xué)生化殘差學(xué)生化剔除殘差設(shè)置權(quán)重指數(shù)的初始值結(jié)束值和變化步長權(quán)重指數(shù)范圍必須在 6 5 7 5之間并且滿足初始值結(jié)束值步長 150此時(shí)權(quán)重變量為1 WeightVar power 將最佳權(quán)重值保存至當(dāng)前數(shù)據(jù)集方差和估計(jì)值的輸出形式只輸出最終的方差分析表和指數(shù)估計(jì)值輸出在主設(shè)置面板指定的指數(shù)范圍內(nèi)所有的方差分析表和指數(shù)估計(jì)值對數(shù)似然估計(jì)值該表給出了指定power范圍內(nèi)所有對數(shù)似然值使得這個(gè)對數(shù)似然值最大的指數(shù)就是最佳指數(shù) 模型描述該表給出了加權(quán)估計(jì)模型的概要信息包括因變量自變量權(quán)重變量和最優(yōu)權(quán)重系數(shù) 同左圖所標(biāo) 模型摘要給出最佳指數(shù)建立的加權(quán)回歸模型的擬合優(yōu)度檢驗(yàn)結(jié)果可以看出R2是0 745 比之前普通線性回歸的0 662要大即權(quán)重估計(jì)建立的回歸模型擬合優(yōu)度效果更好方差分析表該表是在權(quán)重系數(shù)為0 35時(shí)建立的加權(quán)回歸模型的方差分析表可以看出F統(tǒng)計(jì)量的sig值遠(yuǎn)小于0 05 也就是說由加權(quán)回國模型解釋的變異顯著的大于由殘差解釋的變異即回歸效果更好參數(shù)估計(jì)結(jié)果該表是在權(quán)重系數(shù)為0 35時(shí)建立的加權(quán)回歸模型的參數(shù)估計(jì)值表同時(shí)可以看出各變量通過t檢驗(yàn)sig 0 05 也就是說各變量對模型的建立都有顯著的作用最終得到的回歸方程為cost 53 438 149 273 sqft 26 533 inorout 2 209 yrexp 二階最小二乘回歸2 StageLeastSquares 2SLS 二階最小二乘回歸2 StageLeastSquares 2SLS 在研究有關(guān)時(shí)間序列的宏觀經(jīng)濟(jì)數(shù)據(jù)時(shí) 各分析變量之間存在著復(fù)雜的內(nèi)部關(guān)系誤差項(xiàng)就比較容易與某些預(yù)測變量相關(guān) 這種情況下使用普通最小二乘法所得到的模型會有偏差因此使用二階最小二乘法建立模型 SPSS的兩階最小二乘法回歸過程第一階段使用與誤差項(xiàng)無關(guān)的工具變量 instrumentalVariables 計(jì)算可能與誤差項(xiàng)存在關(guān)聯(lián)的自變量的估計(jì)值第二階段把出現(xiàn)在結(jié)構(gòu)方程右端的內(nèi)生變量用第一階段得到的估計(jì)值代替使其由隨機(jī)變量變成確定變量再對方程進(jìn)行最小二乘法估計(jì) 得到結(jié)構(gòu)參數(shù)的估計(jì)值二階最小二乘回歸常使用的變量 1 內(nèi)生變量在回歸分析中隨著其他變量的變化而變化的變量和在有反饋?zhàn)饔玫那闆r下具有反饋關(guān)系的變量都是內(nèi)生變量 2 工具變量在回歸模型中不受其他變量影響但是影響其他變量的變量與模型中的其他變量不存在因果關(guān)系與理論誤差項(xiàng)不相關(guān) 如果模型中沒有合適的工具變量具有滯后特點(diǎn)的內(nèi)生變量也可以被當(dāng)做工具變量來使用雖然其具有滯后的特點(diǎn) 但是卻可能與誤差項(xiàng)沒有關(guān)聯(lián) 3 解釋變量指回歸方程中的自變量其范圍包括內(nèi)生變量二階最小二乘回歸過程對數(shù)據(jù)的要求 1 因變量和自變量必須是數(shù)值型變量對自變量的每個(gè)取值相應(yīng)因變量的取值分布必須是正態(tài)的因變量和自變量之間應(yīng)該呈線性關(guān)系 2 對于自變量的不同取值因變量的方差應(yīng)該是一個(gè)常數(shù) 3 分類變量必須被重新編碼成二分變量或其他類型的對照變量 4 內(nèi)生變量必須為連續(xù)性變量例某商品郵寄公司由一個(gè)CD俱樂部和一個(gè)書籍俱樂部每個(gè)月公司都會為俱樂部會員提供一份特殊的商品如家庭用具和普通用具此公司想根據(jù)會員的書籍購買量 CD購買量和味會員提供的服務(wù)種類預(yù)測他在每個(gè)月的特殊商品購買量用于購買特殊商品的錢就不能購買書籍和CD 于是因變量特殊商品購買量與解釋變量 CD購買量書籍購買量就構(gòu)成了一種反饋的關(guān)聯(lián)狀態(tài) 適于建立2SLS回歸模型進(jìn)行分析此數(shù)據(jù)記錄了99個(gè)月里會員在每個(gè)月購買商品的消費(fèi)情況由于給出的折扣數(shù)據(jù)與特殊商品的購買是無關(guān)的卻影響著CD和書籍的購買量因此建議把CD購買量的滯后變量數(shù)據(jù)購買量的滯后變量和兩個(gè)折扣對數(shù)變量都作為工具變量二依次單擊菜單Analyze Regression 2 StageLeastSquares執(zhí)行二階最小二乘回歸分析功能 1 在變量列表中選擇特殊商品購買量作為因變量 CD購買量書籍購買量家庭用具商品普通商品購買量作為解釋變量變量列表中所標(biāo)變量作為工具變量操作步驟一依次單擊菜單Transform CreateTimeSeries執(zhí)行生成時(shí)間序列變量的過程 2 單擊Option按鈕彈出選項(xiàng)設(shè)置對話框勾選Predicted 單擊Continue3 回到主頁面勾選OK鍵顯示處理結(jié)果 1 在變量列表中選中CD購買量 buycd 和書籍購買量 buybk 將其選入New列表框 2 在New列表框中選中buycd 1 單擊Function下拉列表選中Lag選項(xiàng) 單擊Chang按鈕確認(rèn)修改同樣方法設(shè)置buybk 1變量3 單擊OK按鈕運(yùn)行在當(dāng)前數(shù)據(jù)集產(chǎn)生兩個(gè)新的變量 CD購買量和書籍購買量的1期滯后變量buycd 1和buybk 1 滯后階數(shù) 模型中包括常數(shù)項(xiàng) 保存到當(dāng)前數(shù)據(jù)集的新變量保存預(yù)測值保存殘差輸出參數(shù)估計(jì)的協(xié)方差模型概述給出模型使用變量的相關(guān)信息預(yù)測值變量將用工具變量進(jìn)行預(yù)測并用這些預(yù)測值取代原來的觀測值進(jìn)行回歸模型估計(jì) 預(yù)測值和工具變量既要用他們預(yù)測預(yù)測值的變量值也要用他們的原始觀測值進(jìn)行回歸模型估計(jì) 工具變量只用他們預(yù)測預(yù)測值變量的變量值而不用于最終的回歸方程估計(jì) 因變量預(yù)測值預(yù)測值和工具工具模型匯總復(fù)相關(guān)系數(shù) 測量的是因變量和預(yù)測值之間的相關(guān)性值越小說明相關(guān)性越差R2 是復(fù)相關(guān)系數(shù)的平方表示當(dāng)前模型解釋了因變量差異的14 7 調(diào)整R2 用來比較不同模型的擬合度愈大說明模型擬合度越好估計(jì)的標(biāo)準(zhǔn)誤差是在模型基礎(chǔ)上估計(jì)特殊商品購買量的標(biāo)準(zhǔn)誤差可以將這個(gè)值與特殊商品購買量的標(biāo)準(zhǔn)差相比較看看模型是如何減少下月銷售量最好預(yù)測的不確定性方差分析表從統(tǒng)計(jì)角度分析模型的認(rèn)受度方差分析表可以判斷模型解釋因變量的能力但是不能直接討論這種關(guān)系的強(qiáng)度本例中回歸平方和比殘差平方和小很多說明模型只解釋了因變量變異的一小部分而大部分的變異沒有解釋到F檢驗(yàn)的Sig值小于0 05 說明模型所解釋的那部分變異并不是隨機(jī)的參數(shù)估計(jì)值由系數(shù)估計(jì)值得到回歸方程 buyoff 1 511 0 353 buycd 0 189 buybk 0 130 offer type1 0 303 offer type2 但是其中變量buybk和offer type1的系數(shù)顯著性檢驗(yàn)的Sig值大于0 05 說明這兩個(gè)變量對模型的貢獻(xiàn)率不高還有必要做進(jìn)一步的分析和探討最優(yōu)尺度回歸OptimalScaling CATREG 最優(yōu)尺度回歸OptimalScaling CATREG 實(shí)際工作中常遇到有序而非數(shù)值型的數(shù)據(jù) 例如高興一般不高興高中畢業(yè) 大本畢業(yè) 碩士研究生畢這種數(shù)據(jù)呈現(xiàn)典型的分位數(shù)或是分類特點(diǎn) 多數(shù)情況下這種數(shù)據(jù)的度量起點(diǎn)很難確認(rèn) 各取值之間的可比關(guān)系也比較模糊雖然可以將其取值水平進(jìn)行重新編碼但是他們相互之間的真實(shí)距離仍然不明確普通的回歸方法是可以用來預(yù)測分類變量并且能夠估計(jì)不同類別之間的相關(guān)性但是前提是對分類變量進(jìn)行適當(dāng)?shù)木幋a處理因此不同的編碼方案可能會產(chǎn)生不同的結(jié)果會對變量的分析產(chǎn)生障礙最優(yōu)尺度 OptimalScaling 回歸方法能夠自動(dòng)將分類變量轉(zhuǎn)化成為數(shù)值變量進(jìn)行分析其常用縮寫為CATREG CategoryRegression 即分類回歸最優(yōu)尺度回歸原理最優(yōu)尺度回歸分析是標(biāo)準(zhǔn)的回歸方法的擴(kuò)展它按比例換算名義變量有序變量以及數(shù)值型變量使用定量化的方法盡量反應(yīng)各源變量的屬性并利用非線性轉(zhuǎn)化求解最佳回歸方程最優(yōu)尺度回歸使用連續(xù)的整數(shù)對名義變量或者序變量量進(jìn)行編碼使用數(shù)值1作為每一個(gè)分類變量的的起始點(diǎn) 如果變量本身已經(jīng)是數(shù)值型數(shù)據(jù) 則不再對它們進(jìn)行重新編碼為了減少輸出量每個(gè)分類變量的每一個(gè)值最好減去一個(gè)最小的觀測值再加1然后取整最優(yōu)尺度回歸只允許設(shè)置一個(gè)因變量最多可以設(shè)置200個(gè)自變量數(shù)據(jù)中至少包含三有效的觀測記錄并且有效觀測量的數(shù)量必須超過自變量的數(shù)量加1 在分析過程中如果沒有名義變量用來進(jìn)行分析應(yīng)進(jìn)行數(shù)值的事先設(shè)置例某吸塵器生產(chǎn)商調(diào)查影響消費(fèi)者偏好的5個(gè)因素包括包裝設(shè)計(jì) A B C

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第9章線性回歸分析

文檔簡介

溫馨提示

最新文檔

評論

第9章 線性回歸分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第9章線性回歸分析