第9章 線性回歸分析_第1頁
第9章 線性回歸分析_第2頁
第9章 線性回歸分析_第3頁
第9章 線性回歸分析_第4頁
第9章 線性回歸分析_第5頁
已閱讀5頁,還剩205頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

回歸分析 Correlation regression 線性回歸 回歸分析 regressionanalysis 確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法 涉及的自變量的多少一元回歸分析多元回歸分析 自變量和因變量之間的關(guān)系類型 線性回歸分析非線性回歸分析 回歸分析一般步驟 確定回歸方程中的解釋變量 自變量 和被解釋變量 因變量 確定回歸模型建立回歸方程對回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測 線性回歸模型一元線性回歸模型是指只有一個(gè)解釋變量的線性回歸模型 用于揭示被解釋變量與另一個(gè)解釋變量之間的線性關(guān)系 一元線性回歸數(shù)學(xué)模型 其中 0和 1是未知參數(shù) 分別稱為回歸常數(shù)和回歸系數(shù) 稱為隨機(jī)誤差 是一個(gè)隨機(jī)變量 且應(yīng)該滿足兩個(gè)前提條件 E 0var 2 多元線性回歸模型是指有多個(gè)解釋變量的線性回歸模型 用于揭示被解釋變量與其他多個(gè)解釋變量之間的線性關(guān)系 多元線性回歸數(shù)學(xué)模型 其中 0 1 p都是未知參數(shù) 分別稱為回歸常數(shù)和偏回歸系數(shù) 稱為隨機(jī)誤差 是一個(gè)隨機(jī)變量 且同樣滿足兩個(gè)前提條件 E 0var 2 線性回歸模型 回歸參數(shù)的普通最小二乘估計(jì) OLSE 線性回歸方程確定后的任務(wù)是利用已經(jīng)收集到的樣本數(shù)據(jù) 根據(jù)一定的統(tǒng)計(jì)擬合準(zhǔn)則 對方程中的各參數(shù)進(jìn)行估計(jì) 普通最小二乘就是一種最為常見的統(tǒng)計(jì)擬合準(zhǔn)則 最小二乘法將偏差距離定義為離差平方和 即最小二乘估計(jì)就是尋找參數(shù) 0 1 p的估計(jì)值 0 1 p 使式 1 達(dá)到極小 通過求極值原理 偏導(dǎo)為零 和解方程組 可求得估計(jì)值 SPSS將自動(dòng)完成 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 一元線性回歸的擬合優(yōu)度檢驗(yàn)采用R2統(tǒng)計(jì)量 稱為判定系數(shù)或決定系數(shù) 數(shù)學(xué)定義為 其中稱為回歸平方和 SSA 稱為總離差平方和 SST 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) R2取值在0 1之間 R2越接近于1 說明回歸方程對樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越高 多元線性回歸的擬合優(yōu)度檢驗(yàn)采用統(tǒng)計(jì)量 稱為調(diào)整的判定系數(shù)或調(diào)整的決定系數(shù) 數(shù)學(xué)定義為 式中n p 1 n 1分別是SSE和SST的自由度 其取值范圍和意義與一元回歸方程中的R2是相同的 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 一元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用F統(tǒng)計(jì)量 其數(shù)學(xué)定義為 即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 1 n 2 個(gè)自由度的F分布 SPSS將會自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為線性關(guān)系顯著 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 多元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是各個(gè)偏回歸系數(shù)同時(shí)為零 檢驗(yàn)采用F統(tǒng)計(jì)量 其數(shù)學(xué)定義為 即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 p n p 1 個(gè)自由度的F分布 SPSS將會自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為y與x的全體的線性關(guān)系顯著 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用t統(tǒng)計(jì)量 其數(shù)學(xué)定義為 t統(tǒng)計(jì)量服從n 2個(gè)自由度的t分布 SPSS將會自動(dòng)計(jì)算t統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為x對y有顯著貢獻(xiàn) 線性關(guān)系顯著 回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 多元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 i 0 檢驗(yàn)采用t統(tǒng)計(jì)量 其數(shù)學(xué)定義為 ti統(tǒng)計(jì)量服從n p 1個(gè)自由度的t分布 SPSS將會自動(dòng)計(jì)算ti統(tǒng)計(jì)量的觀測值以及對應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為xi對y有顯著貢獻(xiàn) 應(yīng)保留在線性方程中 i 1 2 p 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 所謂殘差是指由回歸方程計(jì)算所得的預(yù)測值與實(shí)際樣本值之間的差距 即 它是回歸模型中的估計(jì)值 如果回歸方程能較好地反映被解釋變量的特征和變化規(guī)律 那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢性 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 均值為0的正態(tài)性分析 殘差均值為0的正態(tài)性分析 可以通過繪制殘差圖進(jìn)行分析 如果殘差均值為0 殘差圖中的點(diǎn)應(yīng)在縱坐標(biāo)為0的橫線上下隨機(jī)散落著 正態(tài)性可以通過繪制標(biāo)準(zhǔn)化 或?qū)W生化 殘差的累計(jì)概率圖來分析 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 獨(dú)立性分析繪制殘差序列的序列圖以樣本期 或時(shí)間 為橫坐標(biāo) 殘差為縱坐標(biāo) 如果殘差隨時(shí)間的推移呈規(guī)律性變化 則存在一定的正或負(fù)相關(guān)性 計(jì)算殘差的自相關(guān)系數(shù)取值在 1到 1之間 接近于 1表明序列存在正自相關(guān)性 DW Durbin Watson 檢驗(yàn)DW取值在0至4之間 直觀判斷標(biāo)準(zhǔn)是DW 4 殘差序列完全負(fù)自相關(guān) DW 2 完全無自相關(guān) DW 0 完全正自相關(guān) 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 異方差分析繪制殘差圖如果殘差的方差隨著解釋變量值的增加呈增加 或減少 的趨勢 說明出現(xiàn)了異方差現(xiàn)象 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 異方差分析等級相關(guān)分析得到殘差序列后首先對其取絕對值 然后計(jì)算出殘差和解釋變量的秩 最后計(jì)算Spearman等級相關(guān)系數(shù) 并進(jìn)行等級相關(guān)分析 具體過程見相關(guān)分析相關(guān)章節(jié) 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 探測樣本中的異常值和強(qiáng)影響點(diǎn) 對于y值 標(biāo)準(zhǔn)化殘差ZRE由于殘差是服從均值為0的正態(tài)分布 因此可以根據(jù)3 準(zhǔn)則進(jìn)行判斷 首先對殘差進(jìn)行標(biāo)準(zhǔn)化 絕對值大于3對應(yīng)的觀察值為異常值 學(xué)生化殘差SRE剔除殘差DRE 或剔除學(xué)生化殘差SDRE 上述SRE SDRE的直觀判斷標(biāo)準(zhǔn)同標(biāo)準(zhǔn)化殘差ZRE 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 探測樣本中的異常值和強(qiáng)影響點(diǎn) 對于x值 杠桿值hiiSPSS中計(jì)算的是中心化杠桿值chii 通常如果chii大于2或3倍的chii的均值 p n 則認(rèn)為觀察點(diǎn)為強(qiáng)影響點(diǎn) 庫克距離Di庫克距離是杠桿值與殘差大小的綜合效應(yīng) 一般庫克距離大于1 則可認(rèn)為觀察點(diǎn)為強(qiáng)影響點(diǎn) 標(biāo)準(zhǔn)化回歸系數(shù)的變化和標(biāo)準(zhǔn)化預(yù)測值的變化如果標(biāo)準(zhǔn)化回歸系數(shù)變化的絕對值大于 或標(biāo)準(zhǔn)化預(yù)測值變化的絕對值大于 則可認(rèn)為第i個(gè)樣本可能是強(qiáng)影響點(diǎn) 多元回歸分析中的其他問題變量篩選問題向前篩選策略解釋變量不斷進(jìn)入回歸方程的過程 首先選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程 并進(jìn)行各種檢驗(yàn) 其次在剩余的變量中挑選與解釋變量偏相關(guān)系數(shù)最高并通過檢驗(yàn)的變量進(jìn)入回歸方程 向后篩選策略變量不斷剔除出回歸方程的過程 首先所有變量全部引入回歸方程并檢驗(yàn) 然后在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個(gè)或多個(gè)變量中 剔除t檢驗(yàn)值最小的變量 逐步篩選策略向前篩選與向后篩選策略的綜合 多元回歸分析中的其他問題變量多重共線性問題容忍度Tol容忍度值越接近于1 表示多重共線性越弱 SPSS變量多重共線性的要求不很嚴(yán)格 只是在容忍度值太小時(shí)給出相應(yīng)警告信息 方差膨脹因子VIF膨脹因子是容忍度的倒數(shù) 越接近于1 表示解釋變量間的多重共線性越弱 通常如果VIFi大于等于10 說明解釋變量xi與其余解釋變量之間有嚴(yán)重的多重共線性 特征根和方差比這里的特征根是指相關(guān)系數(shù)矩陣的特征根 如果最大特征根遠(yuǎn)遠(yuǎn)大于其他特征根的值 則說明這些解釋變量之間具有相當(dāng)多的重疊信息 條件指數(shù)ki10 ki 100時(shí) 認(rèn)為多重共線性較強(qiáng) ki 100時(shí) 認(rèn)為多重共線性很嚴(yán)重 2 將因變量選入Dependent框 3 將一個(gè)或多個(gè)自變量選入Independengt s 框 4 在Method框中選擇回歸分析中自變量的篩選策略 其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程 是SPSS默認(rèn)策略 通常用在一元線性回歸分析中 Remove表示從回歸方程中剔除所選變量 Stepwise表示逐步篩選策略 Backward Forward分別表示向后 向前篩選策略 回歸分析基本操作 5 上述 3 4 中確定的自變量和篩選策略可放置在不同的Block中 單擊 Next 和 Previous 按鈕設(shè)置多組自變量和變量篩選策略 并放在不同Block中 SPSS將按照設(shè)置順序依次進(jìn)行分析 Block 設(shè)置便于作各種探索性的回歸分析 回歸分析基本操作 6 選擇一個(gè)變量作為條件變量到SelectionVariable框中 并單擊 Rule 按鈕給定一個(gè)判斷條件 只有變量值滿足給定條件的樣本數(shù)據(jù)才參與線性回歸分析 回歸分析基本操作 7 在CaseLabels框中指定哪個(gè)變量作為數(shù)據(jù)樣本點(diǎn)的標(biāo)志變量 該變量的值將標(biāo)在回歸分析的輸出圖形中 8 WLSWeight中選人權(quán)重變量 主要用于加權(quán)最小二乘法 至此便完成了線性回歸分析的基本操作 SPSS將根據(jù)指定自動(dòng)進(jìn)行回歸分析 并將結(jié)果輸出到輸出窗口中 回歸分析基本操作 回歸分析的其他操作 選項(xiàng) 輸出與回歸系數(shù)相關(guān)的統(tǒng)計(jì)量 包括回歸系數(shù) 回歸系數(shù)標(biāo)準(zhǔn)誤 標(biāo)準(zhǔn)化回歸系數(shù) 回歸系數(shù)顯著性檢驗(yàn)的t統(tǒng)計(jì)量和概率p值 個(gè)解釋變量的容忍度 每個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)的95 置信區(qū)間 輸出各解釋變量間的相關(guān)系數(shù) 協(xié)方差以及各回歸系數(shù)的方差 輸出判定系數(shù) 調(diào)整的判定系數(shù) 回歸方程的標(biāo)準(zhǔn)誤 回歸方程顯著性檢驗(yàn)的方差分析表 每個(gè)解釋變量進(jìn)入方程后引起的判定系數(shù)的變化量和F值的變化量 偏F統(tǒng)計(jì)量 輸出個(gè)解釋變量和被解釋變量的均值 標(biāo)準(zhǔn)差 相關(guān)系數(shù)矩陣及單側(cè)檢驗(yàn)概率值 輸出方程中各解釋變量與被解釋變量之間的簡單相關(guān) 偏相關(guān)系數(shù)和部分相關(guān) 回歸分析的其他操作 選項(xiàng) 多重共線性分析 輸出各解釋變量的容忍度 方差膨脹因子 特征值 條件指標(biāo) 方差比例等 DW值 輸出標(biāo)準(zhǔn)化殘差絕對值大于等于3 默認(rèn) 的樣本數(shù)據(jù)的相關(guān)信息 回歸分析的其他操作 選項(xiàng) 選項(xiàng) 標(biāo)準(zhǔn)化預(yù)測值標(biāo)準(zhǔn)化殘差剔除殘差調(diào)整的預(yù)測值學(xué)生化殘差剔除學(xué)生化殘差 標(biāo)準(zhǔn)化殘差序列直方圖 標(biāo)準(zhǔn)化殘差序列正態(tài)分布累計(jì)概率圖 依次繪制被解釋變量與各解釋變量的散點(diǎn)圖 回歸分析的其他操作 Save選項(xiàng) 該窗口將回歸分析的某些結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中 并可同時(shí)生成XML格式的文件 便于分析結(jié)果的網(wǎng)絡(luò)發(fā)布 回歸分析的其他操作 Save選項(xiàng) 保存剔除第i個(gè)樣本后各統(tǒng)計(jì)量的變化量 回歸系數(shù)變化量標(biāo)準(zhǔn)化回歸系數(shù)變化量預(yù)測值變化量標(biāo)準(zhǔn)化預(yù)測值變化量協(xié)方差比 回歸分析的其他操作 Options選項(xiàng) 設(shè)置多元線性回歸分析中解釋變量進(jìn)入或剔除出回歸方程的標(biāo)準(zhǔn) 偏F統(tǒng)計(jì)量的概率值 回歸分析的其他操作 線性回歸分析的應(yīng)用舉例為研究高校人文社會科學(xué)研究中立項(xiàng)課題數(shù)受哪些因素的影響 收集某年31個(gè)省市自治區(qū)部分高校有關(guān)社科研究方面的數(shù)據(jù) 并利用線性回歸方法進(jìn)行分析 這里 被解釋變量為立項(xiàng)課題數(shù)X5 解釋變量為投入人年數(shù) X2 投入高級職稱的人年數(shù) X3 投入科研事業(yè)費(fèi) X4 專著數(shù) X6 論文數(shù) X7 獲獎(jiǎng)數(shù) X8 具體操作如前所述 分析結(jié)果如下 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 強(qiáng)制進(jìn)入策略 一 回歸方程的擬合優(yōu)度較高 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 強(qiáng)制進(jìn)入策略 二 SSASSESST 被解釋變量與解釋變量的全體的線性關(guān)系顯著 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 強(qiáng)制進(jìn)入策略 三 偏回歸系數(shù)檢驗(yàn)只有x2的是顯著的 其他均不顯著 即與0無顯著差異 各解釋變量之間存在很強(qiáng)共線性 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 強(qiáng)制進(jìn)入策略 四 由特征根的較大差異 條件指數(shù)以及方差比進(jìn)一步證實(shí)了各解釋變量之間存在嚴(yán)重的線性自相關(guān) 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 向后篩選策略 一 由此可見 不能以一味追求高的擬合優(yōu)度為目標(biāo) 還要重點(diǎn)考察解釋變量對被解釋變量的貢獻(xiàn) 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 向后篩選策略 二 SSASSESST 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 向后篩選策略 三 由此可清楚地看到變量剔除的過程 線性回歸分析的應(yīng)用舉例 立項(xiàng)課題數(shù)多元線性回歸分析結(jié)果 向后篩選策略 四 線性回歸分析的應(yīng)用舉例 通過上述回歸方程的分析以及各種檢驗(yàn) 得出如下回歸方程 立項(xiàng)課題數(shù) 94 524 0 492投入人年數(shù) 意味著投入人年數(shù)每增加一個(gè)單位會使立項(xiàng)課題數(shù)平均增加0 492個(gè)單位 曲線估計(jì) 變量間相關(guān)關(guān)系的分析中 變量之間的關(guān)系并不總是表現(xiàn)出線性關(guān)系 非線性關(guān)系也極為常見 非線性又可劃分為 本質(zhì)線性關(guān)系形式上雖然呈非線性 但可通過變量轉(zhuǎn)換化為線性關(guān)系 本質(zhì)非線性關(guān)系不僅形式上呈非線性 也無法通過變量轉(zhuǎn)換化為線性關(guān)系 這里的曲線估計(jì)是解決本質(zhì)線性關(guān)系問題的 常見本質(zhì)線性模型 在SPSS曲線估計(jì)中 首先在不能明確哪種模型更接近樣本數(shù)據(jù)時(shí)可在上述可選擇的模型中選擇幾種模型 然后 SPSS自動(dòng)完成模型的參數(shù)估計(jì) 并輸出回歸方程顯著性檢驗(yàn)的F值和概率P值 判定系數(shù)R2等統(tǒng)計(jì)量 最后以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型 并進(jìn)行預(yù)測分析 基本操作 1 選擇菜單Analyze Regression CurveEstimation 2 選擇被解釋變量到Dependent框 3 曲線估計(jì)中解釋變量可以是相關(guān)因素變量 也可以是時(shí)間變量 如果解釋變量為相關(guān)因素變量 則選擇Variable選項(xiàng) 并指定一個(gè)解釋變量到Independent框 如果選擇Time參數(shù)表示解釋變量為時(shí)間變量 4 在Models中選擇幾種模型 5 選擇PlotModels選項(xiàng)繪制回歸線 選擇DisplayANOVAtable輸出各個(gè)模型的方差分析表和各回歸系數(shù)顯著性檢驗(yàn)結(jié)果 曲線估計(jì)應(yīng)用舉例 為研究居民家庭教育支出和消費(fèi)性支出之間的關(guān)系 收集到1990年至2002年全國人均消費(fèi)性支出和教育支出的數(shù)據(jù) 教育支出和年人均消費(fèi)性支出的散點(diǎn)圖 曲線估計(jì)應(yīng)用舉例 觀察散點(diǎn)圖發(fā)現(xiàn)兩變量之間呈非線性關(guān)系 可嘗試選擇二次 三次曲線 復(fù)合函數(shù) 冪函數(shù)等模型 曲線估計(jì)應(yīng)用舉例 觀察散點(diǎn)圖發(fā)現(xiàn)兩變量之間呈非線性關(guān)系 可嘗試選擇二次 三次曲線 復(fù)合函數(shù) 冪函數(shù)等模型 擬合優(yōu)度比較 曲線估計(jì)應(yīng)用舉例 與實(shí)際不符 回歸系數(shù)檢驗(yàn)不通過 曲線估計(jì)應(yīng)用舉例 曲線估計(jì)應(yīng)用舉例 復(fù)合函數(shù)和冪函數(shù)的擬合優(yōu)度都很好 同時(shí)兩種模型的回歸系數(shù)顯著性檢驗(yàn)也都通過 因此可考慮采用這兩種模型 另外 由于復(fù)合函數(shù)數(shù)值增長速度高于冪函數(shù) 從居民消費(fèi)未來趨勢看 教育支出將可能占消費(fèi)性支出的較大比例 并呈快速增長的趨勢 而且復(fù)合函數(shù)擬合優(yōu)度高于冪函數(shù) 因此可最終考慮采用復(fù)合函數(shù) 曲線估計(jì)應(yīng)用舉例 Logistic回歸分析 二維 多項(xiàng) 引例 在許多實(shí)際問題中 會經(jīng)常出現(xiàn)因變量是定性變量的情況 例如 某個(gè)人是否購買汽車 受到多種如家庭情況 收人情況等因素的影響 但最終的可能性只有兩個(gè) 要么購買 要么不購買 把y 1定義為購買 y o則表示不購買 再如 在是否購買某項(xiàng)商業(yè)保險(xiǎn)的研究中 根據(jù)消費(fèi)者的年齡 身體狀況 收人情況 工作性質(zhì) 受教育程度等 因變量y也只有兩種可能結(jié)果 要么y 1表示購買 要么y o表示不購買 可見 在現(xiàn)實(shí)因變量的結(jié)果只取兩種可能情況的應(yīng)用很廣泛 可用于處理定性因變量的統(tǒng)計(jì)分析方法有 判別分析 D1scriminantanalysis Probit分析 logistic回歸分析和對數(shù)線性模型等 在社會科學(xué)中 應(yīng)用最多的是logistic回歸分析 邏輯回歸分析是對定性變量的回歸分析 logistic回歸分析根據(jù)因變量取值類別不同 又可以分為二元 Binarylogistic 回歸分析和多項(xiàng) Multinomianllogistic 回歸分析 Binarylogistic回歸模型中因變量只能取兩個(gè)值1和o 虛擬因變量 而Multinomianllogistic回歸模型中因變量可以取多個(gè)值 具體地說 logistic回歸分析主要解決以下幾方面的問題 通過分析大量的樣本數(shù)據(jù) 確定變量之間的數(shù)學(xué)關(guān)系式 對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn) 并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量 利用所確定的數(shù)學(xué)關(guān)系式 根據(jù)一個(gè)或幾個(gè)變量的值來預(yù)測或控制另一個(gè)特定變量的取值 并給出這種預(yù)測或控制的精確度 Logistic函數(shù)的形式為Binarylogistic中通過Logit變換可得關(guān)于X 不同自變量 的線性關(guān)系因此 可得 模型參數(shù)確定后 必須進(jìn)行檢驗(yàn) 下面解釋一些常用的檢驗(yàn)統(tǒng)計(jì)量 1 2對數(shù)似然值 2loglikelihood 2LL 因?yàn)?2LL近似服從卡方分布且在數(shù)學(xué)上更為方便 所以一2LL可用于檢驗(yàn)Logistic回歸的顯著性 2LL的計(jì)算公式為 2 擬合優(yōu)度GoodnessofFit統(tǒng)計(jì)量 Logistic回歸的擬合優(yōu)度統(tǒng)計(jì)量計(jì)算公式為 4Nagelkerke的R2 5偽R2 Psedo R square 偽R2與線性回歸模型的R2相似 其意義相似 但它小于1 6Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 7Wald統(tǒng)計(jì)量 3cox和snell的R2 二項(xiàng)logistic回歸應(yīng)用 在一組獨(dú)立變量上對二分從屬變量進(jìn)行回歸利用前像 后向逐步方法或全部進(jìn)入方法建模用偏差數(shù)對比 簡單比較 差分 反Helmert Helmert 多項(xiàng)式 鄰近類別比較 用戶自定義 或指示預(yù)示變量選擇建模標(biāo)準(zhǔn) 變量進(jìn)入的評分統(tǒng)計(jì)量的概率值 Wald概率值 或者移除變量的對數(shù)似然比統(tǒng)計(jì)量保存統(tǒng)計(jì)量 預(yù)測概率和分組 殘差 偏差值 Logit 標(biāo)準(zhǔn)化殘差 杠桿值 類似Cook s的距離 差異通過XML導(dǎo)出模型 多項(xiàng)logistic回歸模型 模型如下 與二元邏輯回歸一樣 通過變換可得 多項(xiàng)logistic回歸應(yīng)用在一組自變量上對多于兩種類別的分類因變量進(jìn)行回歸用CRITERIA子命令控制算法調(diào)整參數(shù)的值包含交互作用項(xiàng)自定義假設(shè)檢驗(yàn) 使用TEST子命令直接把零假設(shè)指定為參數(shù)的線性組合用SCALE子命令指定離差偏離比例建立包含 不包含截距項(xiàng)的方程幾率比的置信區(qū)間保存統(tǒng)計(jì)量 預(yù)測概率 預(yù)測響應(yīng)類別 預(yù)測響應(yīng)分類的概率和實(shí)際響應(yīng)分類的概率指定因變量的參照類處理非常大的問題利用逐步方法從眾多的可能的預(yù)測因子中選擇最佳預(yù)測因子利用評分和Wald方法 使您在大數(shù)據(jù)集的情況下更迅速地得出研究結(jié)果利用AIC或者BIC準(zhǔn)則 也稱為SBC 評估模型擬合度 多項(xiàng)logistic回歸 二項(xiàng)logistic回歸 二項(xiàng)logistic回歸與多項(xiàng)logistic回歸的區(qū)別 以下以二元logistic回歸為例講解logistic回歸在spss中的實(shí)現(xiàn) 實(shí)例 在一次關(guān)于某城鄉(xiāng)居民上下班使用交通工具的社會調(diào)查中 因變量y 1表示居民主要乘坐公共汽車上下班 y 0表示主要騎自行車上下班 自變量x1表示被調(diào)查者的年齡 x2表示被調(diào)查者的月收入 x3表示被調(diào)查者的性別 x3 1為男性 x3 0為女性 試建立y與自變量之間的logistic回歸 數(shù)據(jù)如表所示 實(shí)現(xiàn)步驟 步驟1 把表中數(shù)據(jù)一一輸入SPSS數(shù)據(jù)編輯窗口 在 Analyze 菜單的 Regression 子菜單中選擇 BinaryLogistic 命令 進(jìn)行邏輯回歸分析 步驟2 在彈出的 LogisticRegression 對話框中 從左側(cè)的變量列表中選擇y變量 居民上下班使用交通工具的情況 將至添加到 Dependent 框中 表示該變量時(shí)因變量 選擇X1變量 被調(diào)查者的年齡 X2 被調(diào)查者的月收入 X3 被調(diào)查者的性別 使它們分別進(jìn)入 Independent s 框中 表示其為自變量 在Method框中選擇SPSS默認(rèn)的 Enter 方法 使所選變量全部進(jìn)入回歸方程 如圖所示 步驟3 單擊 LogisticRegression 對話框中的 Options 按鈕 在彈出的 LogisticRegression Options 對話框中按需要選擇各選項(xiàng) 如圖所示 Display 框用來選擇輸出計(jì)算結(jié)果的方式 Ateachstep 顯示spss每個(gè)步驟的計(jì)算結(jié)果 Atlaststep 只顯示最終計(jì)算結(jié)果 StatisticsandPlots 框中的選項(xiàng)用來選擇輸出哪些統(tǒng)計(jì)量或統(tǒng)計(jì)圖表 具體選項(xiàng)如下 Classificationplots 分類圖 通過比較因變量的觀測值和預(yù)測值之間關(guān)系 反映回歸模型的擬合效果 Hosmer Lemeshowgoodness of fit H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 用以檢驗(yàn)整個(gè)回歸模型的擬合優(yōu)度 Casewiselistingofresiduals 個(gè)案殘差列表 輸出標(biāo)準(zhǔn)方差大于某值 Outliersoutside std Dev 的個(gè)案或者全部個(gè)案 Allcases 的入選狀態(tài) 因變量的觀測值和預(yù)測值及其相應(yīng)預(yù)測概率 殘差值 Correlationsofestimates 估計(jì)參數(shù)的相關(guān)性 輸出模型中各估計(jì)參數(shù)間的相關(guān)矩陣 Iterationhistory 迭代歷史 輸出參數(shù)估計(jì)迭代過程中的系數(shù)及對數(shù)似然值 CIforexp B exp B 的N 置信區(qū)間 選中該選項(xiàng)將會在模型檢驗(yàn)的輸出結(jié)果中列出exp B 各回歸系數(shù)指數(shù)函數(shù)值 的N 缺省值為95 置信區(qū)間 如果要改變?nèi)笔≈?可以在空白方框內(nèi)輸入1 99 一般常用的值為90 95 99 之間的任何一個(gè)整數(shù) ProbabilityforStepwise 框用來設(shè)定步長標(biāo)準(zhǔn) 以便逐步控制自變量進(jìn)入方程或被剔除出方程 Entry 設(shè)置變量進(jìn)入方程的標(biāo)準(zhǔn)值 如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率小于所設(shè)置進(jìn)入方程的標(biāo)準(zhǔn)值 則該變量進(jìn)入模型 SPSS默認(rèn)的顯著性水平為0 05Removal 設(shè)置變量被剔除方程的標(biāo)準(zhǔn)值 如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率大于所設(shè)置被剔除出方程的標(biāo)準(zhǔn)值 則將該變量剔除出方程 SPSS默認(rèn)的顯著性水平為0 10 Classificationcutoff選項(xiàng)用以確定個(gè)案分類的中止點(diǎn) 因變量預(yù)測值大于分類中止點(diǎn)的個(gè)案設(shè)歸為正個(gè)案一類 因變量預(yù)測值小于分類中止點(diǎn)的個(gè)案設(shè)為負(fù)個(gè)案 SPSS設(shè)中止點(diǎn)缺省值為0 5 我們可以通過輸入0 01 0 99之間任一數(shù)值改變?nèi)笔≈?從而產(chǎn)生新的分類表 MaximumIterations選項(xiàng)用以確定最大對數(shù)似然值達(dá)到之前的迭代次數(shù) 最大對數(shù)似然值是通過反復(fù)迭代計(jì)算知道收斂為止而得到的 SPSS中該項(xiàng)的缺省值為20 我們可以重新輸入一個(gè)新的正整數(shù)來改變此項(xiàng)的值 步驟四 單擊 Continue 按鈕 返回上一個(gè)對話框 然后 單擊 OK 按鈕 即可得到SPSS回歸分析的結(jié)果 Includeconstantinmodel 選項(xiàng)用以確定所求模型的參數(shù)是否要包含常數(shù)項(xiàng) 為了更好地說明以上各選項(xiàng)的意義 本例選擇了所有選項(xiàng) 但保留各選項(xiàng)中的缺省值 結(jié)果與討論總列表SPSS輸出結(jié)果列表如圖 第二個(gè)表格說明初始的因變量值 0 1 已經(jīng)轉(zhuǎn)換為邏輯回歸分析中常用的0 1數(shù)值 SPSS輸出結(jié)果文件如下 1 第一部分輸出結(jié)果有兩個(gè)表格 第一個(gè)表格說明所有個(gè)案 28個(gè) 都被選入作為回歸分析的個(gè)案 結(jié)果與討論 案例處理匯總 因變量編碼 初始值內(nèi)部值 2 第二部分 Block0 輸出結(jié)果有4個(gè)表格 第1個(gè)輸出表格列出迭代過程 其中常數(shù)項(xiàng)包括在模型中 初始 2LL為38 673 迭代結(jié)束于第二步 因?yàn)榇藭r(shí)參數(shù)與其在上一步的變化已經(jīng)小于0 001 第2個(gè)分類表說明Step0的擬合效果 可以看出對于y 0 有100 的準(zhǔn)確性 對于y 1 有0 準(zhǔn)確性 總共有53 6 的準(zhǔn)確性 此時(shí)參數(shù)估計(jì)的變化表現(xiàn)為對數(shù)似然值的變化 迭代歷史記錄 分類表 下面兩個(gè)表格給出了模型系數(shù)的檢驗(yàn)結(jié)果 其中常數(shù)項(xiàng)的系數(shù)值為 0 143 其伴隨概率為0 706 可見常數(shù)項(xiàng)不顯著 X1 X2 X3的系數(shù)通過了檢驗(yàn) 即這兩個(gè)變量顯著 各回歸系數(shù)指數(shù)函數(shù)值 3 OmnibusTestofModelCoefficients表格列出了模型系數(shù)的OmnibusTests結(jié)果 4 ModelSummary表給出了 2對數(shù)似然值 Cox和Snell的R2以及Nagelkerke的R2檢驗(yàn)統(tǒng)計(jì)結(jié)果 模型系數(shù)的綜合檢驗(yàn) 模型匯總 cox和snell的R2是在似然值基礎(chǔ)上模仿線性回歸模型的R2解釋Logistic回歸模型 一般小于1 為了對cox和snell的R2進(jìn)一步調(diào)整 使得取值范圍在0 1之間 Nagelkerke把cox和snell的R2除以它的最大值 即Nagelkerke的R2 5 HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格給出了Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 HosmerandLemeshow檢驗(yàn) HosmerandLemeshow檢驗(yàn)的隨機(jī)性表 與一般擬合優(yōu)度檢驗(yàn)不同 Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)通常把樣本數(shù)據(jù)根據(jù)預(yù)測概率分為10組 然后根據(jù)觀測頻數(shù)和期望頻數(shù)構(gòu)造卡方統(tǒng)計(jì)量 即Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 簡稱H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 最后根據(jù)自由度為8的卡方分布計(jì)算其p值并對Logistic模型進(jìn)行檢驗(yàn) 如果該P(yáng)值小于給定的顯著性水平 如 0 05 表明模型的預(yù)測值與觀測值存在顯著差異 如果P值大于給定的顯著性水平 表明在可接受的水平上模型的估計(jì)擬合了數(shù)據(jù) 大于0 05 表明擬合了數(shù)據(jù) 6 ClassificationTable分類表說明第一次迭代結(jié)果的擬合效果 從該表格可以看出對于y 0 有86 7 的準(zhǔn)確性 對于y 1 有76 9 準(zhǔn)確性 因此對于所有個(gè)案總共有82 1 的準(zhǔn)確性 分類表 正確分類比例 預(yù)測值 觀測值 7 VariablesintheEquation表格列出了Step1中各個(gè)變量對應(yīng)的系數(shù) 以及該變量對應(yīng)的Wald統(tǒng)計(jì)量和它對應(yīng)的相伴概率 從該表格中可以看出X3相伴概率最小 Wald統(tǒng)計(jì)量最大 可見該標(biāo)量在模型中很重要 wald統(tǒng)計(jì)量用于判斷 個(gè)變量是否應(yīng)該包含在模型中 SPSS軟件沒有給出Logisticc回歸的標(biāo)準(zhǔn)化回歸系數(shù) 因此 如果要考慮每個(gè)自變量在回歸方程中的重要性 不妨直接比較Wald統(tǒng)計(jì)量的大小 或sig Wald統(tǒng)計(jì)量大者 或sig值小者 顯著性高 也就更重要 8 CorrelationMatrix表格列出了常數(shù)Constant 系數(shù)之間的相關(guān)矩陣 常數(shù)與X2之間相關(guān)性最大 X1和X3之間的相關(guān)性最小 相關(guān)矩陣 9 下圖所示是觀測值和預(yù)測概率分布圖 該圖以0和1為符號 每四個(gè)符號代表一個(gè)個(gè)案 橫坐標(biāo)是個(gè)案屬于1的隸屬度 這里稱為預(yù)測概率 PredictedProbability 縱坐標(biāo)是個(gè)案分布頻數(shù) 反映個(gè)案的分布 如果邏輯回歸預(yù)測完全準(zhǔn)確 那么該坐標(biāo)圖中預(yù)測概率是0 0 5之間的個(gè)案都應(yīng)該是0 0 5 1之間的個(gè)案都應(yīng)該是1 該例生成的圖基本上符合這個(gè)效果 不正確的結(jié)果包括 預(yù)測概率是0 0 5之間的個(gè)案中有3個(gè)實(shí)際的觀測值為1 0 5 1之間的個(gè)案觀測值有2個(gè)為0 這是錯(cuò)誤預(yù)測的結(jié)果 觀測值和預(yù)測概率分布圖 10 邏輯回歸的最后一個(gè)輸出表格式CasewiseList 列出了殘差大于2的個(gè)案 本例中列出了兩個(gè)符合條件的個(gè)案 分別是第10個(gè)案和第19個(gè)案 這兩個(gè)個(gè)案都有 表明這兩個(gè)個(gè)案的邏輯回歸結(jié)果是錯(cuò)誤的 案例列表 殘差 標(biāo)準(zhǔn)化殘差 概率單位回歸分析 Probit 概率單位回歸分析 Probit 概率單位回歸分析簡介概率單位回歸分析可以度量刺激的強(qiáng)度和反應(yīng)的比例之間的關(guān)系 當(dāng)因變量的變化能改變成者影響二維結(jié)果時(shí) 概率單位回歸分析顯得較為有用 概率單位回歸可以讓用戶估計(jì)為達(dá)到某一比例的反應(yīng)所需要的刺激強(qiáng)度 使用概率單位回歸分析所得到的統(tǒng)計(jì)量有相關(guān)系數(shù) 標(biāo)準(zhǔn)差 Pearsonchi square吻合度 置信區(qū)間等等 概率單位回歸分析的步驟1 在數(shù)據(jù)輸入之后 依次單擊Analyze Regression Probit 打開ProbitAnalysis對話框 2 在左邊的源變量框內(nèi)選擇響應(yīng)變量進(jìn)入 ResponseFrequency 欄內(nèi)3 在左邊的源變量框內(nèi)選擇總的觀測變量進(jìn)入 TotalObserved 欄內(nèi) 4 在左邊的源變量框內(nèi)選擇因素變量進(jìn)入 Factor 欄內(nèi) 在選擇此項(xiàng)后 會激活 DefineRange 按鈕 單擊 DefineRange 按鈕 打開DefineRange對話框 在對話框內(nèi)設(shè)置分組的最大值和最小值 5 在左邊的源變量框內(nèi)選擇協(xié)變量進(jìn)入 Covariate s 欄內(nèi) 6 在 Model 欄內(nèi)設(shè)置分析方式 7 單擊 Option 按鈕 會打開Option對話框 8 單擊 OK 按鈕 即開始進(jìn)行統(tǒng)計(jì)分析過程 例 我們可以使用概率單位分析來分析殺蟲利的濃度和蟑螂死亡的比例之間的關(guān)系 用戶可以進(jìn)行這樣一個(gè)實(shí)驗(yàn) 將不同濃度的殺蟲劑分別使用到一些獨(dú)立的樣本蟑螂群 隨后記錄下不同濃度的殺蟲劑所殺死的蟑螂比例 然后對這些數(shù)據(jù)采用概率單位回歸分析 用戶可以發(fā)現(xiàn)殺蟲劑濃度和殺死蟑螂比例之間的關(guān)系 這樣用戶就可以確定出要?dú)⑺乐辽倌潮壤捏胨枰淖罴褮⑾x劑濃度 例題解析 1 在數(shù)據(jù)輸入之后 依次單擊Analyze Regression Probit 打開ProbitAnalysis對話框 響應(yīng)變量 總觀測變量 因素變量 協(xié)變量 2 在源變量框內(nèi)選擇變量 殺死數(shù)目 進(jìn)入 ResponseFrequency 欄內(nèi) 3 在源變量框內(nèi)選擇變量 蟑螂數(shù) 進(jìn)入 TotalObserved 欄內(nèi) 4 在源變量框內(nèi)選擇變量 劑量 進(jìn)入 Covariate 欄內(nèi) 還選擇Logbase10選項(xiàng) 進(jìn)行以10為底的對數(shù)轉(zhuǎn)換 5 單擊 Options 按鈕 會打開Options對話框 在對話框內(nèi)選擇Calculatefromdata選項(xiàng) 其他設(shè)置按系統(tǒng)默認(rèn)狀態(tài)即可 6 單擊 OK 按鈕 進(jìn)行統(tǒng)計(jì)分析 對每一個(gè)觀測計(jì)算實(shí)際的和期望的頻率 實(shí)際的和期望的殘差 對每一分組水平計(jì)算相對中位數(shù) 并對每一相對中位數(shù)計(jì)算置信區(qū)間 進(jìn)行各分組是否有相同斜率的假設(shè)檢驗(yàn) 計(jì)算置信區(qū)間 使用樣本數(shù)據(jù)計(jì)算自然響應(yīng)率 非線性回歸分析 非線性回歸分析 非線性回歸分析簡介非線性回歸是發(fā)現(xiàn)因變量和自變量之間的非線性關(guān)系的一種方法 非線性回歸能夠在因變量和自變量之間構(gòu)造任意的模型 它不像線性模型那樣有眾多的假設(shè)條件 這個(gè)過程是通過迭代估測運(yùn)算來完成的 因此如果已經(jīng)了解待估方程中的參數(shù)取值范圍 但是方程式不能寫成簡單的函數(shù)關(guān)系式時(shí) 建議使用非線性回歸分析 例如 健康研究問題中 財(cái)政赤字對壽命的影響 社會科學(xué)研究中 人口增長與時(shí)間的關(guān)系 生物學(xué)與生理學(xué)研究中 有關(guān)動(dòng)物骨骼成長與時(shí)間和營養(yǎng)的關(guān)系等 都是非線性關(guān)系 常用的非線性回歸模型 非線性回歸分析的步驟1 在數(shù)據(jù)輸入之后 依次單擊Analyze Regression Nonlinear 打開NonlinearRegression對話框 2 在左邊源變量框內(nèi)選擇因變量進(jìn)入 Dependent 欄內(nèi) 3 在 ModelExpression 欄內(nèi)為因變量設(shè)置一個(gè)模型方程式 4 單擊 Parameter 按鈕 打開對話框設(shè)置參數(shù)值 5 單擊 Loss 按鈕 打開LossFunction對話框設(shè)置損失函數(shù) 6 單擊 Constraints 按鈕 會打開ParameterConstraints對話框 在此對話框內(nèi)設(shè)置對參數(shù)的一些限制 7 單擊 Save 按鈕 會打開Save對話框 8 單擊 Options 按鈕 會打開Option對話框 9 單擊 OK 按鈕 開始進(jìn)行統(tǒng)計(jì)分析過程 問題描述和數(shù)據(jù)準(zhǔn)備研究零售商的廣告費(fèi)用支出與產(chǎn)品的銷售量之間的關(guān)系 目的是用Nonlinear過程擬合更合適的銷售量隨廣告費(fèi)用變化的模型 1 對數(shù)據(jù)的初步分析依次單擊 Graphs ChartBuilder 打開圖形構(gòu)建器界面 下圖所示是銷售量對廣告費(fèi)用的散點(diǎn)圖 通過觀察 建議對此數(shù)據(jù)采用如下的非線性模型 稱為Mistcherlich模型 y b1 b2eb3x b1 0 b2 0 b3 0 此模型符合效益遞減規(guī)律 非線性回歸的參數(shù)設(shè)置依次單擊Analyze Regression Nonlinear 打開NonlinearRegression對話框 單擊參數(shù)列表上方的Parameters按鈕 彈出下圖所示參數(shù)設(shè)置對話框 單擊Loss按鈕 彈出下圖所示的損失函數(shù)設(shè)置對話框 單擊Continue按鈕返回主界面 單擊Constraints按鈕 彈出如下對話框 用于設(shè)置估計(jì)參數(shù)的取值范圍 單擊Options按鈕 彈出如下對話框 在此設(shè)置回歸算法的相關(guān)參數(shù) 默認(rèn)使用Sequentialquadraticprogramming方法 單擊Continue按鈕返回主界面 單擊Save按鈕 彈出如下對話框 勾選Predictedvalues復(fù)選框和Residuals復(fù)選框 單擊Continue按鈕返回主界面 權(quán)重估計(jì) WeightEstimation 權(quán)重估計(jì) WeightEstimation 標(biāo)準(zhǔn)線性回歸模型假定殘差序列應(yīng)該是等方差的 但是由于某些客觀特征的存在 異方差的現(xiàn)象也常常存在 如果出現(xiàn)異方差的現(xiàn)象 可以用權(quán)重估計(jì)法 即加權(quán)最小二乘法 來替代普通最小二乘法來進(jìn)行回歸分析 權(quán)重估計(jì)法的實(shí)質(zhì)是在回歸計(jì)算過程中給不同的觀測值以不同的權(quán)數(shù) 變差小的觀測值給予較大的權(quán)數(shù) 變差大的觀測值給予較小的權(quán)數(shù) 權(quán)重估計(jì)的關(guān)鍵就是確定加權(quán)變量的權(quán)數(shù)值 SPSS中給定一個(gè)加權(quán)范圍 然后根據(jù)似然值越大越好的原則 給出一個(gè)最佳的權(quán)數(shù)建議值 并據(jù)此利用加權(quán)最小二乘法建立回歸方程 對數(shù)據(jù)的要求和假設(shè) 1 自變量和因變量必須是數(shù)值型變量2 權(quán)重變量應(yīng)為數(shù)值型變量 并與因變量的變異性相關(guān) 3 對于自變量的每個(gè)值 因變量的分布必須是正態(tài)的 因變量和每個(gè)自變量之間的關(guān)系應(yīng)是線性的 且所有觀察值應(yīng)是獨(dú)立的4 因變量的方差對于自變量的不同級別可能不同 但是必須能夠根據(jù)權(quán)重變量預(yù)測此差異 引例 某建筑商考慮開發(fā)興建商場 構(gòu)建建筑成本預(yù)測線性模型 主要因素包括面積 建設(shè)建議是室內(nèi)還是室外廣場 以及建筑師的經(jīng)驗(yàn) 開發(fā)人員知道 隨著商場面積大小的增加 建筑成本會隨之增加 他們懷疑這樣建筑成本會更多變 也就是說不能準(zhǔn)確的預(yù)測建筑成本 這將違反典型的線性回歸的假設(shè) 但可能滿足權(quán)重估計(jì)模型 權(quán)重估計(jì)步驟 1 方差診斷先利用最小二乘法對原始數(shù)據(jù)建立簡單線形模型 并繪制其殘差對預(yù)測值的散點(diǎn)圖 如果殘差均勻分布在某條與橫軸平行的橫線附近 說明樣本的方差基本相等 反之 如果方差呈現(xiàn)明顯的喇叭狀或其他不規(guī)則形狀 說明樣本方差不相等 必須進(jìn)行加權(quán)最小二乘法 WLS 估計(jì) 如果只有一個(gè)自變量 可以直接作因變量對自變量的散點(diǎn)圖 觀察因變量的分布是否均勻 判斷方法與殘差圖相似 2 權(quán)重估計(jì)如果認(rèn)為因變量的方差與其他變量之間存在相關(guān)關(guān)系 就可以使用 WLS 方法進(jìn)行估計(jì)權(quán)重 操作步驟 一 初步殘差分析 使用最小二乘法OLS回歸 1 依次單擊菜單Analyze Regression Linear進(jìn)行線性回歸分析設(shè)定因變量和自變量2 設(shè)置因變量和自變量 3 點(diǎn)擊Plot鍵設(shè)置散點(diǎn)圖坐標(biāo)參數(shù)4 點(diǎn)擊Save鍵保存 二 權(quán)重估計(jì)1 依次單擊菜單Analyze Regression WeightEstimation執(zhí)行加權(quán)回歸分析的功能2 變量設(shè)置 因變量 自變量 加權(quán)變量 3 選項(xiàng)設(shè)置Options 因變量 標(biāo)準(zhǔn)化預(yù)測值 標(biāo)準(zhǔn)化殘差 剔除殘差 修正后預(yù)測值 學(xué)生化殘差 學(xué)生化剔除殘差 設(shè)置權(quán)重指數(shù)的初始值 結(jié)束值和變化步長權(quán)重指數(shù)范圍必須在 6 5 7 5之間 并且滿足 初始值 結(jié)束值 步長 150此時(shí)權(quán)重變量為1 WeightVar power 將最佳權(quán)重值保存至當(dāng)前數(shù)據(jù)集 方差和估計(jì)值的輸出形式 只輸出最終的方差分析表和指數(shù)估計(jì)值 輸出在主設(shè)置面板指定的指數(shù)范圍內(nèi)所有的方差分析表和指數(shù)估計(jì)值 對數(shù)似然估計(jì)值該表給出了指定power范圍內(nèi)所有對數(shù)似然值 使得這個(gè)對數(shù)似然值最大的指數(shù)就是最佳指數(shù) 模型描述該表給出了加權(quán)估計(jì)模型的概要信息 包括因變量 自變量 權(quán)重變量和最優(yōu)權(quán)重系數(shù) 同左圖所標(biāo) 模型摘要給出最佳指數(shù)建立的加權(quán)回歸模型的擬合優(yōu)度檢驗(yàn)結(jié)果 可以看出R2是0 745 比之前普通線性回歸的0 662要大 即權(quán)重估計(jì)建立的回歸模型擬合優(yōu)度效果更好 方差分析表該表是在權(quán)重系數(shù)為0 35時(shí)建立的加權(quán)回歸模型的方差分析表 可以看出F統(tǒng)計(jì)量的sig值遠(yuǎn)小于0 05 也就是說由加權(quán)回國模型解釋的變異顯著的大于由殘差解釋的變異 即回歸效果更好 參數(shù)估計(jì)結(jié)果該表是在權(quán)重系數(shù)為0 35時(shí)建立的加權(quán)回歸模型的參數(shù)估計(jì)值表 同時(shí)可以看出各變量通過t檢驗(yàn)sig 0 05 也就是說各變量對模型的建立都有顯著的作用 最終得到的回歸方程為cost 53 438 149 273 sqft 26 533 inorout 2 209 yrexp 二階最小二乘回歸2 StageLeastSquares 2SLS 二階最小二乘回歸2 StageLeastSquares 2SLS 在研究有關(guān)時(shí)間序列的宏觀經(jīng)濟(jì)數(shù)據(jù)時(shí) 各分析變量之間存在著復(fù)雜的內(nèi)部關(guān)系 誤差項(xiàng)就比較容易與某些預(yù)測變量相關(guān) 這種情況下使用普通最小二乘法所得到的模型會有偏差 因此使用二階最小二乘法建立模型 SPSS的兩階最小二乘法回歸過程 第一階段 使用與誤差項(xiàng)無關(guān)的工具變量 instrumentalVariables 計(jì)算可能與誤差項(xiàng)存在關(guān)聯(lián)的自變量的估計(jì)值 第二階段 把出現(xiàn)在結(jié)構(gòu)方程右端的內(nèi)生變量用第一階段得到的估計(jì)值代替 使其由隨機(jī)變量變成確定變量 再對方程進(jìn)行最小二乘法估計(jì) 得到結(jié)構(gòu)參數(shù)的估計(jì)值 二階最小二乘回歸常使用的變量 1 內(nèi)生變量 在回歸分析中隨著其他變量的變化而變化的變量和在有反饋?zhàn)饔玫那闆r下具有反饋關(guān)系的變量都是內(nèi)生變量 2 工具變量 在回歸模型中不受其他變量影響 但是影響其他變量的變量 與模型中的其他變量不存在因果關(guān)系 與理論誤差項(xiàng)不相關(guān) 如果模型中沒有合適的工具變量 具有 滯后 特點(diǎn)的內(nèi)生變量也可以被當(dāng)做工具變量來使用 雖然其具有 滯后 的特點(diǎn) 但是卻可能與誤差項(xiàng)沒有關(guān)聯(lián) 3 解釋變量 指回歸方程中的自變量 其范圍包括內(nèi)生變量 二階最小二乘回歸過程對數(shù)據(jù)的要求 1 因變量和自變量必須是數(shù)值型變量 對自變量的每個(gè)取值 相應(yīng)因變量的取值分布必須是正態(tài)的 因變量和自變量之間應(yīng)該呈線性關(guān)系 2 對于自變量的不同取值 因變量的方差應(yīng)該是一個(gè)常數(shù) 3 分類變量必須被重新編碼成二分變量或其他類型的對照變量 4 內(nèi)生變量必須為連續(xù)性變量 例 某商品郵寄公司由一個(gè)CD俱樂部和一個(gè)書籍俱樂部 每個(gè)月公司都會為俱樂部會員提供一份特殊的商品 如家庭用具和普通用具 此公司想根據(jù)會員的書籍購買量 CD購買量和味會員提供的服務(wù)種類預(yù)測他在每個(gè)月的特殊商品購買量 用于購買特殊商品的錢就不能購買書籍和CD 于是因變量 特殊商品購買量 與解釋變量 CD購買量 書籍購買量 就構(gòu)成了一種反饋的關(guān)聯(lián)狀態(tài) 適于建立2SLS回歸模型進(jìn)行分析 此數(shù)據(jù)記錄了99個(gè)月里 會員在每個(gè)月購買商品的消費(fèi)情況 由于給出的折扣數(shù)據(jù)與特殊商品的購買是無關(guān)的 卻影響著CD和書籍的購買量 因此建議把CD購買量的滯后變量 數(shù)據(jù)購買量的滯后變量和兩個(gè)折扣對數(shù)變量都作為工具變量 二 依次單擊菜單Analyze Regression 2 StageLeastSquares執(zhí)行二階最小二乘回歸分析功能 1 在變量列表中選擇特殊商品購買量作為因變量 CD購買量 書籍購買量 家庭用具商品 普通商品購買量作為解釋變量 變量列表中所標(biāo)變量作為工具變量 操作步驟 一 依次單擊菜單Transform CreateTimeSeries執(zhí)行生成時(shí)間序列變量的過程 2 單擊Option按鈕 彈出選項(xiàng)設(shè)置對話框 勾選Predicted 單擊Continue3 回到主頁面勾選OK鍵 顯示處理結(jié)果 1 在變量列表中選中CD購買量 buycd 和書籍購買量 buybk 將其選入New列表框 2 在New列表框中選中buycd 1 單擊Function下拉列表 選中Lag選項(xiàng) 單擊Chang按鈕確認(rèn)修改 同樣方法設(shè)置buybk 1變量3 單擊OK按鈕運(yùn)行 在當(dāng)前數(shù)據(jù)集產(chǎn)生兩個(gè)新的變量 CD購買量和書籍購買量的1期滯后變量buycd 1和buybk 1 滯后階數(shù) 模型中包括常數(shù)項(xiàng) 保存到當(dāng)前數(shù)據(jù)集的新變量 保存預(yù)測值 保存殘差 輸出參數(shù)估計(jì)的協(xié)方差 模型概述 給出模型使用變量的相關(guān)信息 預(yù)測值 變量將用 工具 變量進(jìn)行預(yù)測并用這些預(yù)測值取代原來的觀測值進(jìn)行回歸模型估計(jì) 預(yù)測值和工具 變量既要用他們預(yù)測 預(yù)測值 的變量值 也要用他們的原始觀測值進(jìn)行回歸模型估計(jì) 工具 變量只用他們預(yù)測 預(yù)測值 變量的變量值 而不用于最終的回歸方程估計(jì) 因變量 預(yù)測值 預(yù)測值和工具 工具 模型匯總復(fù)相關(guān)系數(shù) 測量的是因變量和預(yù)測值之間的相關(guān)性 值越小說明相關(guān)性越差R2 是復(fù)相關(guān)系數(shù)的平方 表示當(dāng)前模型解釋了因變量差異的14 7 調(diào)整R2 用來比較不同模型的擬合度 愈大說明模型擬合度越好估計(jì)的標(biāo)準(zhǔn)誤差 是在模型基礎(chǔ)上估計(jì)特殊商品購買量的標(biāo)準(zhǔn)誤差 可以將這個(gè)值與特殊商品購買量的標(biāo)準(zhǔn)差相比較 看看模型是如何減少下月銷售量最好預(yù)測的不確定性 方差分析表 從統(tǒng)計(jì)角度 分析模型的認(rèn)受度 方差分析表可以判斷模型解釋因變量的能力 但是不能直接討論這種關(guān)系的強(qiáng)度本例中回歸平方和比殘差平方和小很多 說明模型只解釋了因變量變異的一小部分 而大部分的變異沒有解釋到F檢驗(yàn)的Sig值小于0 05 說明模型所解釋的那部分變異并不是隨機(jī)的 參數(shù)估計(jì)值由系數(shù)估計(jì)值得到回歸方程 buyoff 1 511 0 353 buycd 0 189 buybk 0 130 offer type1 0 303 offer type2 但是其中變量buybk和offer type1的系數(shù)顯著性檢驗(yàn)的Sig值大于0 05 說明這兩個(gè)變量對模型的貢獻(xiàn)率不高 還有必要做進(jìn)一步的分析和探討 最優(yōu)尺度回歸OptimalScaling CATREG 最優(yōu)尺度回歸OptimalScaling CATREG 實(shí)際工作中常遇到有序而非數(shù)值型的數(shù)據(jù) 例如高興 一般 不高興 高中畢業(yè) 大本畢業(yè) 碩士研究生畢 這種數(shù)據(jù)呈現(xiàn)典型的分位數(shù)或是分類特點(diǎn) 多數(shù)情況下 這種數(shù)據(jù)的度量起點(diǎn)很難確認(rèn) 各取值之間的可比關(guān)系也比較模糊 雖然可以將其取值水平進(jìn)行重新編碼 但是他們相互之間的真實(shí)距離仍然不明確 普通的回歸方法是可以用來預(yù)測分類變量 并且能夠估計(jì)不同類別之間的相關(guān)性 但是前提是對分類變量進(jìn)行適當(dāng)?shù)木幋a處理 因此 不同的編碼方案可能會產(chǎn)生不同的結(jié)果 會對變量的分析產(chǎn)生障礙 最優(yōu)尺度 OptimalScaling 回歸方法能夠自動(dòng)將分類變量轉(zhuǎn)化成為數(shù)值變量進(jìn)行分析 其常用縮寫為CATREG CategoryRegression 即分類回歸 最優(yōu)尺度回歸原理 最優(yōu)尺度回歸分析是標(biāo)準(zhǔn)的回歸方法的擴(kuò)展 它按比例換算名義變量 有序變量以及數(shù)值型變量 使用定量化的方法盡量反應(yīng)各源變量的屬性 并利用非線性轉(zhuǎn)化求解最佳回歸方程 最優(yōu)尺度回歸使用連續(xù)的整數(shù)對名義變量或者序變量量進(jìn)行編碼 使用數(shù)值1作為每一個(gè)分類變量的的起始點(diǎn) 如果變量本身已經(jīng)是數(shù)值型數(shù)據(jù) 則不再對它們進(jìn)行重新編碼 為了減少輸出量 每個(gè)分類變量的每一個(gè)值最好減去一個(gè)最小的觀測值 再加1然后取整 最優(yōu)尺度回歸只允許設(shè)置一個(gè)因變量 最多可以設(shè)置200個(gè)自變量 數(shù)據(jù)中至少包含三有效的觀測記錄 并且有效觀測量的數(shù)量必須超過自變量的數(shù)量加1 在分析過程中如果沒有名義變量用來進(jìn)行分析 應(yīng)進(jìn)行數(shù)值的事先設(shè)置 例 某吸塵器生產(chǎn)商調(diào)查影響消費(fèi)者偏好的5個(gè)因素 包括包裝設(shè)計(jì) A B C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論