




已閱讀5頁(yè),還剩222頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
SPSS回歸分析 小組成員 李標(biāo)祝斌宋金澤周益豐賈汪洋 2 本章內(nèi)容 7 1回歸分析概述7 2線性回歸分析7 3曲線估計(jì)回歸分析7 4羅輯回歸分析7 5序數(shù) 概率回歸分析7 6非線性 權(quán)重估計(jì) 兩階最小二乘 最佳尺度回歸分析 3 回歸分析 regressionanalysis 確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法 涉及的自變量的多少一元回歸分析多元回歸分析自變量和因變量之間的關(guān)系類型 線性回歸分析非線性回歸分析 回歸分析 4 回歸分析一般步驟 確定回歸方程中的解釋變量 自變量 和被解釋變量 因變量 確定回歸模型建立回歸方程對(duì)回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測(cè) 回歸分析 線性回歸分析 一元線性回歸方程反應(yīng)一個(gè)因變量與一個(gè)自變量之間的線性關(guān)系 當(dāng)直線方程Y a bx的a和b確定時(shí) 即為一元回歸線性方程 經(jīng)過(guò)相關(guān)分析后 在直角坐標(biāo)系中將大量數(shù)據(jù)繪制成散點(diǎn)圖 這些點(diǎn)不在一條直線上 但可以從中找到一條合適的直線 使各散點(diǎn)到這條直線的縱向距離之和最小 這條直線就是回歸直線 這條直線的方程叫作直線回歸方程 注意 一元線性回歸方程與函數(shù)的直線方程有區(qū)別 一元線性回歸方程中的自變量X對(duì)應(yīng)的是因變量Y的一個(gè)取值范圍 1 一元線性回歸分析的基本理論把解釋變量和被解釋變量的多個(gè)對(duì)應(yīng)樣本值組隊(duì)成坐標(biāo)數(shù)據(jù)對(duì) xi yi 通過(guò)觀察數(shù)據(jù)對(duì) xi yi 的散點(diǎn)圖 如果發(fā)現(xiàn)y與xi之間呈現(xiàn)出顯著的線性關(guān)系 則應(yīng)考慮建立y和xi的一元線性回歸模型 其中 y a bx y為被解釋變量 a為模型的截距項(xiàng) b為待估計(jì)參數(shù) x為解釋變量 為隨機(jī)誤差項(xiàng) 線性回歸分析 對(duì)于一元線性模型 一般采用最小二乘估計(jì)法來(lái)估計(jì)相關(guān)的參數(shù) 如和的無(wú)偏估計(jì)值和 從而得到樣本回歸直線 這樣把得到的樣本回歸直線作為總體回歸的近似 是一種預(yù)測(cè)過(guò)程 那要確定得到的樣本回歸直線是否能作為總體回歸的近似 就必須對(duì)回歸方程的線性關(guān)系進(jìn)行各種統(tǒng)計(jì)檢驗(yàn) 包括擬合優(yōu)度檢驗(yàn) 回歸方程顯著性檢驗(yàn) 回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 殘差分析等 線性回歸分析 回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 一元線性回歸的擬合優(yōu)度檢驗(yàn)采用R2統(tǒng)計(jì)量 稱為判定系數(shù)或決定系數(shù) 數(shù)學(xué)定義為其中稱為回歸平方和 SSA 稱為總離差平方和 SST R2取值在0 1之間 R2越接近于1 說(shuō)明回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越高 線性回歸分析 9 多元線性回歸的擬合優(yōu)度檢驗(yàn)采用統(tǒng)計(jì)量 稱為調(diào)整的判定系數(shù)或調(diào)整的決定系數(shù) 數(shù)學(xué)定義為 式中n p 1 n 1分別是SSE和SST的自由度 其取值范圍和意義與一元回歸方程中的R2是相同的 回歸方程的擬合優(yōu)度檢驗(yàn) 相關(guān)系數(shù)檢驗(yàn) 線性回歸分析 回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 1 n 2 個(gè)自由度的F分布 SPSS將會(huì)自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值以及對(duì)應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為線性關(guān)系顯著 一元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用F統(tǒng)計(jì)量 其數(shù)學(xué)定義為 線性回歸分析 11 回歸方程的顯著性檢驗(yàn) F檢驗(yàn) 多元線性回歸方程顯著性檢驗(yàn)的零假設(shè)是各個(gè)偏回歸系數(shù)同時(shí)為零 檢驗(yàn)采用F統(tǒng)計(jì)量 其數(shù)學(xué)定義為 即平均的SSA 平均的SSE F統(tǒng)計(jì)量服從 p n p 1 個(gè)自由度的F分布 SPSS將會(huì)自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值以及對(duì)應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為y與x的全體的線性關(guān)系顯著 線性回歸分析 回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 1 0 檢驗(yàn)采用t統(tǒng)計(jì)量 其數(shù)學(xué)定義為 t統(tǒng)計(jì)量服從n 2個(gè)自由度的t分布 SPSS將會(huì)自動(dòng)計(jì)算t統(tǒng)計(jì)量的觀測(cè)值以及對(duì)應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為x對(duì)y有顯著貢獻(xiàn) 線性關(guān)系顯著 線性回歸分析 13 回歸系數(shù)的顯著性檢驗(yàn) t檢驗(yàn) 多元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的零假設(shè)是 i 0 檢驗(yàn)采用t統(tǒng)計(jì)量 其數(shù)學(xué)定義為 ti統(tǒng)計(jì)量服從n p 1個(gè)自由度的t分布 SPSS將會(huì)自動(dòng)計(jì)算ti統(tǒng)計(jì)量的觀測(cè)值以及對(duì)應(yīng)的概率p值 如果p值小于給定的顯著性水平 則應(yīng)拒絕零假設(shè) 認(rèn)為xi對(duì)y有顯著貢獻(xiàn) 應(yīng)保留在線性方程中 i 1 2 p 線性回歸分析 殘差分析所謂殘差是指由回歸方程計(jì)算所得的預(yù)測(cè)值與實(shí)際樣本值之間的差距 即它是回歸模型中的估計(jì)值 如果回歸方程能較好地反映被解釋變量的特征和變化規(guī)律 那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢(shì)性 線性回歸分析 殘差分析 均值為0的正態(tài)性分析殘差均值為0的正態(tài)性分析 可以通過(guò)繪制殘差圖進(jìn)行分析 如果殘差均值為0 殘差圖中的點(diǎn)應(yīng)在縱坐標(biāo)為0的橫線上下隨機(jī)散落著 正態(tài)性可以通過(guò)繪制標(biāo)準(zhǔn)化 或?qū)W生化 殘差的累計(jì)概率圖來(lái)分析 線性回歸分析 16 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 獨(dú)立性分析繪制殘差序列的序列圖以樣本期 或時(shí)間 為橫坐標(biāo) 殘差為縱坐標(biāo) 如果殘差隨時(shí)間的推移呈規(guī)律性變化 則存在一定的正或負(fù)相關(guān)性 計(jì)算殘差的自相關(guān)系數(shù)取值在 1到 1之間 接近于 1表明序列存在正自相關(guān)性 DW Durbin Watson 檢驗(yàn)DW取值在0至4之間 直觀判斷標(biāo)準(zhǔn)是DW 4 殘差序列完全負(fù)自相關(guān) DW 2 完全無(wú)自相關(guān) DW 0 完全正自相關(guān) 線性回歸分析 17 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 異方差分析繪制殘差圖如果殘差的方差隨著解釋變量值的增加呈增加 或減少 的趨勢(shì) 說(shuō)明出現(xiàn)了異方差現(xiàn)象 線性回歸分析 18 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 探測(cè)樣本中的異常值和強(qiáng)影響點(diǎn) 對(duì)于y值 標(biāo)準(zhǔn)化殘差ZRE由于殘差是服從均值為0的正態(tài)分布 因此可以根據(jù)3 準(zhǔn)則進(jìn)行判斷 首先對(duì)殘差進(jìn)行標(biāo)準(zhǔn)化 絕對(duì)值大于3對(duì)應(yīng)的觀察值為異常值 學(xué)生化殘差SRE剔除殘差DRE 或剔除學(xué)生化殘差SDRE 上述SRE SDRE的直觀判斷標(biāo)準(zhǔn)同標(biāo)準(zhǔn)化殘差ZRE 19 線性回歸分析 20 多元回歸分析中的其他問(wèn)題變量篩選問(wèn)題向前篩選策略解釋變量不斷進(jìn)入回歸方程的過(guò)程 首先選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程 并進(jìn)行各種檢驗(yàn) 其次在剩余的變量中挑選與解釋變量偏相關(guān)系數(shù)最高并通過(guò)檢驗(yàn)的變量進(jìn)入回歸方程 向后篩選策略變量不斷剔除出回歸方程的過(guò)程 首先所有變量全部引入回歸方程并檢驗(yàn) 然后在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個(gè)或多個(gè)變量中 剔除t檢驗(yàn)值最小的變量 逐步篩選策略向前篩選與向后篩選策略的綜合 線性回歸分析 21 多元回歸分析中的其他問(wèn)題變量多重共線性問(wèn)題容忍度Tol容忍度值越接近于1 表示多重共線性越弱 SPSS變量多重共線性的要求不很嚴(yán)格 只是在容忍度值太小時(shí)給出相應(yīng)警告信息 方差膨脹因子VIF膨脹因子是容忍度的倒數(shù) 越接近于1 表示解釋變量間的多重共線性越弱 通常如果VIFi大于等于10 說(shuō)明解釋變量xi與其余解釋變量之間有嚴(yán)重的多重共線性 特征根和方差比這里的特征根是指相關(guān)系數(shù)矩陣的特征根 如果最大特征根遠(yuǎn)遠(yuǎn)大于其他特征根的值 則說(shuō)明這些解釋變量之間具有相當(dāng)多的重疊信息 條件指數(shù)ki10 ki 100時(shí) 認(rèn)為多重共線性較強(qiáng) ki 100時(shí) 認(rèn)為多重共線性很嚴(yán)重 線性回歸分析 22 回歸方程的統(tǒng)計(jì)檢驗(yàn)殘差分析 異方差分析等級(jí)相關(guān)分析得到殘差序列后首先對(duì)其取絕對(duì)值 然后計(jì)算出殘差和解釋變量的秩 最后計(jì)算Spearman等級(jí)相關(guān)系數(shù) 并進(jìn)行等級(jí)相關(guān)分析 具體過(guò)程見相關(guān)分析相關(guān)章節(jié) 線性回歸分析 回歸分析步驟 第一 分析大量樣本變量觀測(cè)值 確定變量之間的數(shù)學(xué)關(guān)系式 回歸方程 第二 分析其回歸方程的可信程度 區(qū)分影響顯著的和影響不顯著的自變量 第三 根據(jù)已確定的數(shù)學(xué)關(guān)系 預(yù)測(cè) y 或者控制 x 特定變量的取值 并給出預(yù)測(cè)或控制的精確度 線性回歸分析 線性回歸的使用條件 線性趨勢(shì) 即自變量與因變量的關(guān)系是線性的 獨(dú)立性 因變量Y的取值相互獨(dú)立 反映在方程中即殘差獨(dú)立 正態(tài)性 即自變量的任何一個(gè)線性組合 Y應(yīng)該服從正態(tài)分布 反映在方程中即殘差Ei服從正態(tài)分布 方差齊性 自變量的任何一個(gè)線性組合 Y的方差相同 一元線性回歸分析 2 一元線性回歸分析的SPSS操作打開 分析 回歸 線性 出現(xiàn)線性回歸主對(duì)話框 進(jìn)行SPSS程序命令操作 即對(duì)各子對(duì)話框進(jìn)行設(shè)置 線性回歸分析 1 變量因變量被選入該文本框中的變量為線性回歸模型中的被解釋變量 數(shù)值類型為數(shù)值型 如果被解釋變量為分類變量 則可以用二元或者多元Logistic模型等建模分析 自變量被選入該列表框中的變量為線性模型中的解釋變量 數(shù)值類型一般為數(shù)值型 如果解釋變量為分類變量或定性變量 可以用虛擬變量 啞變量 表示 如果選擇多個(gè)自變量 可將自變量分組成塊 通過(guò) 上一張 和 下一張 按鈕對(duì)不同的變量子集指定不同的進(jìn)入方法 線性回歸分析 總離差平方和可分解為 2 方法用于選擇線性回歸中變量的進(jìn)入和剔除方法 來(lái)建立多個(gè)回歸模型 進(jìn)入 該方法表示自變量列表中所有的變量都進(jìn)入回歸模型 逐步 該方法是一個(gè)動(dòng)態(tài)過(guò)程 表示具有F統(tǒng)計(jì)量的概率最小的自變量被選進(jìn)回歸模型 對(duì)于已經(jīng)在回歸方程中的變量 如果它們的F統(tǒng)計(jì)量的概率變得足夠大 則移除這些變量 直到不再有自變量符合進(jìn)入或移除的條件 該方法終止 刪除 該方法表示建立回歸模型前設(shè)定一定條件 然后根據(jù)條件刪除自變量 向后 該方法表示首先將自變量列表中的所有自變量選入到回歸模型中 然后按順序移除 最先刪除與因變量之間的部分相關(guān)性最小的那個(gè)變量 移除第一個(gè)變量后 得到新的方程 又將與因變量之間的部分相關(guān)性最小的那個(gè)變量刪除 直到方程中沒(méi)有滿足消除條件的變量 過(guò)程結(jié)束 向前 該方法與 向后 恰好相反 是將自變量按順序選入到回歸模型中 首先選入與因變量之間具有最大相關(guān)性的 滿足選入條件的變量進(jìn)入回歸模型中 然后再考慮下一個(gè)變量 直到?jīng)]有滿足條件的變量時(shí) 過(guò)程結(jié)束 線性回歸分析 3 選擇變量該文本框主要用于指定分析個(gè)案的選擇規(guī)則 當(dāng)回歸分析中包含由選擇規(guī)則定義的個(gè)案 則需要進(jìn)行設(shè)置 線性回歸 設(shè)置規(guī)則子對(duì)話框用于選擇關(guān)系 對(duì)于分類變量 可用的關(guān)系有 等于 和 不等于 對(duì)于字符串型變量 可以用 等于 關(guān)系 在 值 文本框中輸入按具體數(shù)值或字符串選擇個(gè)案的規(guī)則 如在 值 中輸入 f 則表示只有那些性別為女性的個(gè)案才能進(jìn)入分析 對(duì)于連續(xù)變量 則可用的關(guān)系有 等于 不等于 小于 小于等于 大于 以及 大于等于 如選擇 不等于 并在 值 中輸入 1 表示只有那些有無(wú)線服務(wù)的個(gè)案才會(huì)包含在回歸分析中 線性回歸分析 4 個(gè)案標(biāo)簽該文本框主要用于指定個(gè)案標(biāo)簽的變量 5 WLS權(quán)重該文本框表示加權(quán)最小二乘 當(dāng)判斷回歸模型的殘差存在異方差時(shí) 才選用加權(quán)最小二乘方法 指定加權(quán)變量 線性回歸分析 6 統(tǒng)計(jì)量按鈕設(shè)置回歸系數(shù)選項(xiàng)組 估計(jì) 選擇該復(fù)選框 可輸出回歸系數(shù) 標(biāo)準(zhǔn)誤 標(biāo)準(zhǔn)化系數(shù)beta t值以及t的雙尾顯著性水平 置信區(qū)間 誤差條形圖的表征 選擇該復(fù)選框 可輸出每個(gè)回歸系數(shù)或協(xié)方差矩陣指定置信度的置信區(qū)間 在 水平 框中輸入范圍 協(xié)方差矩陣 選擇它 可輸出回歸系數(shù)的方差 協(xié)方差矩陣 其對(duì)角線以外的協(xié)方差 對(duì)角線上為方差 同時(shí)還顯示相關(guān)系數(shù)矩陣 線性回歸分析 殘差選項(xiàng)組該選項(xiàng)組用于指定對(duì)回歸殘差進(jìn)行檢驗(yàn)的方法 Durbin Watson 該復(fù)選框表示輸出用于檢驗(yàn)殘差系列自相關(guān)的D W檢驗(yàn)統(tǒng)計(jì)量 個(gè)案診斷 該復(fù)選框表示對(duì)個(gè)案進(jìn)行診斷 輸出個(gè)案 其中離群值 表示輸出滿足條件的個(gè)案離群值 標(biāo)準(zhǔn)差 用于指定離群值滿足幾倍標(biāo)準(zhǔn)差的條件 所有個(gè)案 指可以輸出所有個(gè)案的殘差 線性回歸分析 模型擬合度勾選該復(fù)選框 則輸出顯示輸入模型的變量和從模型刪去的變量 并顯示以下擬合優(yōu)度統(tǒng)計(jì)量 復(fù)相關(guān)系數(shù) R2和調(diào)整R2 估計(jì)的標(biāo)準(zhǔn)誤以及方差分析表 R方變化勾選該復(fù)選框 則輸出由于添加或刪除自變量而產(chǎn)生的R2統(tǒng)計(jì)量的更改 如果與某個(gè)變量相關(guān)聯(lián)的R2變化很大 則意味著該變量是因變量的一個(gè)良好的預(yù)測(cè)變量 描述性勾選該復(fù)選框 則輸出回歸分析中的有效個(gè)案數(shù) 均值以及每個(gè)變量的標(biāo)準(zhǔn)差 同時(shí)輸出具有單尾顯著性水平的相關(guān)矩陣以及每個(gè)相關(guān)系數(shù)的個(gè)案數(shù) 線性回歸分析 部分相關(guān)和偏相關(guān)性該復(fù)選框表示輸出部分相關(guān)和偏相關(guān)統(tǒng)計(jì)量 其中 部分相關(guān) 指對(duì)于因變量與某個(gè)自變量 當(dāng)已移去模型中的其他自變量對(duì)該自變量的線性效應(yīng)之后 因變量與自變量之間的相關(guān)性 當(dāng)變量添加到方程時(shí) 它與R2的更改有關(guān) 偏相關(guān) 指的是對(duì)于兩個(gè)變量 在移去由于它們與其他變量之間的相互關(guān)聯(lián)引起的相關(guān)之后 這兩個(gè)變量之間剩余的相關(guān)性 對(duì)于因變量與某個(gè)自變量 當(dāng)已移去模型中的其他自變量對(duì)上述兩者的線性效應(yīng)后 這兩者之間的相關(guān)性 共線性診斷輸出各變量的容限公差以及共線性診斷表 線性回歸分析 7 繪制按鈕設(shè)置 線性回歸 圖 對(duì)話框主要用于幫助驗(yàn)證正態(tài)性 線性和方差相等的假設(shè) 還可以檢測(cè)離群值 異常觀察值和有影響的個(gè)案 在源變量列表中列出了因變量 DEPENDNT 及以下的預(yù)測(cè)變量和殘差變量 標(biāo)準(zhǔn)化預(yù)測(cè)值 ZPRED 標(biāo)準(zhǔn)化殘差 ZRESID 剔除殘差 DRESID 調(diào)整的預(yù)測(cè)值 ADJPERD 學(xué)生化的殘差 SRESID 以及學(xué)生化的已刪除殘差 SDRESID 線性回歸分析 散點(diǎn)1的1該選項(xiàng)組可以利用源變量列表中的任意兩個(gè)來(lái)繪制散點(diǎn)圖 在 Y 中選入Y軸的變量 X 中選入X軸的變量 單擊 下一張 可以再繪制下一張圖 單擊 上一張 可以回到剛剛設(shè)定的上一張圖進(jìn)行修改 另外 針對(duì)標(biāo)準(zhǔn)化預(yù)測(cè)值繪制標(biāo)準(zhǔn)化殘差 可以檢驗(yàn)線性關(guān)系和等方差性 標(biāo)準(zhǔn)化殘差圖該選項(xiàng)組用于繪制標(biāo)準(zhǔn)化殘差圖 主要可以指定兩種圖 直方圖 和 正態(tài)概念圖 將標(biāo)準(zhǔn)化殘差的分布與正態(tài)分布進(jìn)行比較 產(chǎn)生所有部分圖該復(fù)選框表示當(dāng)根據(jù)其余自變量分別對(duì)兩個(gè)變量進(jìn)行回歸時(shí) 顯示每個(gè)自變量殘差和因變量殘差的散點(diǎn)圖 但是要求方程中必須至少有兩個(gè)自變量 線性回歸分析 8 保存按鈕設(shè)置 線性回歸 保存 對(duì)話框主要用于在活動(dòng)數(shù)據(jù)文件中保存預(yù)測(cè)值 殘差和其他對(duì)于診斷有用的統(tǒng)計(jì)量 包括 預(yù)測(cè)值選項(xiàng)組該選項(xiàng)組用于保存回歸模型對(duì)因變量的預(yù)測(cè)值 未標(biāo)準(zhǔn)化 選中該復(fù)選框 表示保存回歸模型對(duì)因變量的預(yù)測(cè)值 標(biāo)準(zhǔn)化 選中該復(fù)選框 表示保存標(biāo)準(zhǔn)化后的預(yù)測(cè)值 調(diào)節(jié) 選中它 表示保存當(dāng)某個(gè)案從回歸系數(shù)的計(jì)算中排除時(shí)個(gè)案的預(yù)測(cè)值 均值預(yù)測(cè)值的S E 選中它 表示保存預(yù)測(cè)值的標(biāo)準(zhǔn)誤 線性回歸分析 殘差選項(xiàng)組該選項(xiàng)組用于保存回歸模型的殘差未標(biāo)準(zhǔn)化 選中它 表示保存觀察值與模型預(yù)測(cè)值之間的原始?xì)埐?標(biāo)準(zhǔn)化 選中它 表示保存標(biāo)準(zhǔn)化后的殘差 即Pearson殘差 學(xué)生化 選中它 表示保存學(xué)生化的殘差 即殘差除以其隨個(gè)案變化的標(biāo)準(zhǔn)差的估計(jì) 這取決于每個(gè)個(gè)案的自變量值與自變量均值之間的距離 刪除 選中它 表示保存當(dāng)某個(gè)案從回歸系數(shù)的計(jì)算中排除時(shí)該個(gè)案的殘差 它是因變量的值和調(diào)整預(yù)測(cè)值之間的差 學(xué)生化已刪除 選中它 表示保存學(xué)生化的刪除殘差 即個(gè)案的剔除殘差除以其標(biāo)準(zhǔn)誤 線性回歸分析 距離選項(xiàng)組該選項(xiàng)組用于標(biāo)識(shí)自變量的值具有異常組合的個(gè)案以及可能對(duì)回歸模型產(chǎn)生很大影響的個(gè)案的測(cè)量 Mahalanobis距離 表示自變量中個(gè)案的值與所有個(gè)案的平均值相異程度的測(cè)量 大的Mahalanobis距離表示個(gè)案在一個(gè)或多個(gè)自變量上具有極值 Cook距離 選中它 表示保存Cook距離值 較大的Cook距離表明從回歸統(tǒng)計(jì)量的計(jì)算中排除個(gè)案之后 系數(shù)會(huì)發(fā)生很大變化 杠桿值 選擇它 表示保存杠桿值 杠桿值是度量某個(gè)點(diǎn)對(duì)回歸擬合的影響 范圍從0到 N 1 N 其中0表示對(duì)回歸擬合無(wú)影響 線性回歸分析 影響統(tǒng)計(jì)量選項(xiàng)組該選項(xiàng)組用于測(cè)度由于排除了特定個(gè)案而導(dǎo)致的回歸系數(shù) DfBeta 和預(yù)測(cè)值 DfFit 的變化 DfBeta 即計(jì)算Beta值的差分 表示由于排除了某個(gè)特定個(gè)案而導(dǎo)致的回歸系數(shù)的改變 標(biāo)準(zhǔn)化DfBeta 表示計(jì)算Beta值的標(biāo)準(zhǔn)化差分 DfFit 表示計(jì)算擬合值的差分 即由于排除了某個(gè)特定個(gè)案而產(chǎn)生的預(yù)測(cè)變量的更改 標(biāo)準(zhǔn)化DfFit 表示計(jì)算擬合值的標(biāo)準(zhǔn)化差分 協(xié)方差比率 選中它 表示從回歸系數(shù)計(jì)算中排除特定個(gè)案的協(xié)方差矩陣的行列式與包含所有個(gè)案的協(xié)方差矩陣的行列式的比率 如果比率接近1 則說(shuō)明被排除的個(gè)案不能顯著改變協(xié)方差矩陣 線性回歸分析 預(yù)測(cè)區(qū)間選項(xiàng)組該選項(xiàng)組用于設(shè)置均值和個(gè)別預(yù)測(cè)區(qū)間的上界和下界 線性回歸分析 線性回歸 選項(xiàng) 對(duì)話框主要用于對(duì)步進(jìn)方法標(biāo)準(zhǔn)和缺失值進(jìn)行設(shè)置 各選項(xiàng)含義如下 步進(jìn)方法標(biāo)準(zhǔn) 選項(xiàng)組該選項(xiàng)組在已指定向前 向后或逐步式變量選擇法的情況下適用 變量可以進(jìn)入到模型中 或者從模型中移除 這取決于F值的顯著性概率或者F值本身 使用F的概率 表示如果變量的F值的顯著性水平小于 進(jìn)入 值 則將該變量選入到模型中 如果該顯著性水平大于 刪除 值 則將該變量從模型中移除 其中 進(jìn)入 值必須小于 刪除 值 且兩者均必須為正數(shù) 使用F值 表示如果變量的F值大于 進(jìn)入 值 則該變量輸入模型 如果F值小于 刪除 值 則該變量從模型中移除 進(jìn)入 值必須大于 刪除 值 且兩者均必須為正數(shù) 要將更多的變量選入到模型中 請(qǐng)降低 進(jìn)入 值 要將更多的變量從模型中移除 請(qǐng)?jiān)龃?刪除 值 線性回歸分析 在等式中包含常數(shù) 復(fù)選框該復(fù)選框表示回歸模型中包含常數(shù)項(xiàng) 取消選擇此選項(xiàng)可強(qiáng)制使回歸模型通過(guò)原點(diǎn) 但是某些通過(guò)原點(diǎn)的回歸結(jié)果無(wú)法與包含常數(shù)的回歸結(jié)果相比較 如 不能以通常的方式解釋R2 缺失值 選項(xiàng)組該選項(xiàng)組用于對(duì)回歸中缺失值的設(shè)定 有3個(gè)可選項(xiàng) 按列表排除個(gè)案 選中該選項(xiàng) 表示只有所有變量均取有效值的個(gè)案才包含在分析中 按對(duì)排除個(gè)案 選擇該選項(xiàng) 表示使用正被相關(guān)的變量對(duì)具有完整數(shù)據(jù)的個(gè)案來(lái)計(jì)算回歸分析所基于的相關(guān)系數(shù) 使用均值替換 選擇該選項(xiàng) 表示用變量的均值來(lái)替換缺失值 線性回歸分析 實(shí)例操作橡皮的韌性和拉伸倍數(shù)是否存在顯著的線性關(guān)系 線性回歸分析 44 線性回歸分析 45 線性回歸分析 46 方程中包含的自變量列表同時(shí)顯示進(jìn)入方法 如本例中方程中的自變量為x 方法為Enter 模型擬合概述列出了模型的R R2 調(diào)整R2及估計(jì)標(biāo)準(zhǔn)誤 R2值越大所反映的兩變量的共變量比率越高 模型與數(shù)據(jù)的擬合程度越好 本例所用數(shù)據(jù)擬合結(jié)果顯示 所考察的自變量和因變量之間的相關(guān)系數(shù)為0 985 擬合線性回歸的確定性系數(shù)為0 971 經(jīng)調(diào)整后的確定性系數(shù)為0 968 標(biāo)準(zhǔn)誤的估計(jì)為0 09931 線性回歸分析 47 方差分析表列出了變異源 自由度 均方 F值及對(duì)F的顯著性檢驗(yàn) 本例中回歸方程顯著性檢驗(yàn)結(jié)果表明 回歸平方和為2 658 殘差平方和為0 079 總平方和為2 736 對(duì)應(yīng)的F統(tǒng)計(jì)量的值為269 456 顯著性水平小于0 05 可以認(rèn)為所建立的回歸方程有效 線性回歸分析 48 回歸系數(shù)表列出了常數(shù)及非標(biāo)準(zhǔn)化回歸系數(shù)的值及標(biāo)準(zhǔn)化的回歸系數(shù) 同時(shí)對(duì)其進(jìn)行顯著性檢驗(yàn) 本例中非標(biāo)準(zhǔn)化的回歸系數(shù)B的估計(jì)值為0 890 標(biāo)準(zhǔn)誤為0 053 標(biāo)準(zhǔn)化的回歸系數(shù)為0 985 回歸系數(shù)顯著性檢驗(yàn)t統(tǒng)計(jì)量的值為16 415 對(duì)應(yīng)顯著性水平Sig 0 000 0 05 可以認(rèn)為方程顯著 因此 本例回歸分析得到的回歸方程為 Y 0 116 0 89X對(duì)方程的方差分析及對(duì)回歸系數(shù)的顯著性檢驗(yàn)均發(fā)現(xiàn) 所建立的回歸方程顯著 線性回歸分析 49 線性回歸分析 線性回歸分析 50 一元線性回歸分析討論的回歸問(wèn)題只涉及了一個(gè)自變量 但在實(shí)際問(wèn)題中 影響因變量的因素往往有多個(gè) 例如 商品的需求除了受自身價(jià)格的影響外 還要受到消費(fèi)者收入 其他商品的價(jià)格 消費(fèi)者偏好等因素的影響 影響水果產(chǎn)量的外界因素有平均氣溫 平均日照時(shí)數(shù) 平均濕度等 因此 在許多場(chǎng)合 僅僅考慮單個(gè)變量是不夠的 還需要就一個(gè)因變量與多個(gè)自變量的聯(lián)系來(lái)進(jìn)行考察 才能獲得比較滿意的結(jié)果 這就產(chǎn)生了測(cè)定多因素之間相關(guān)關(guān)系的問(wèn)題 研究在線性相關(guān)條件下 兩個(gè)或兩個(gè)以上自變量對(duì)一個(gè)因變量的數(shù)量變化關(guān)系 稱為多元線性回歸分析 表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式 稱為多元線性回歸模型 51 線性回歸分析 52 線性回歸分析 53 線性回歸分析 54 方程中包含的自變量列表同時(shí)顯示進(jìn)入方法 如本例中方程中的自變量為Q1和Q2 Q3 Q4 Q5 選擇變量進(jìn)入方程的方法為Enter 2 模型概述列出了模型的R R2 調(diào)整R2及估計(jì)標(biāo)準(zhǔn)誤 R2值越大所反映的自變量與因變量的共變量比率越高 模型與數(shù)據(jù)的擬合程度越好 上面所定義模型確定系數(shù)的平方根為0 888 確定系數(shù)為0 789 調(diào)整后的確定系數(shù)為0 525 標(biāo)準(zhǔn)誤為6 5322 線性回歸分析 55 3 方差分析表列出了變異源 自由度 均方 F值及對(duì)F的顯著性檢驗(yàn) 本例中回歸平方和為637 321 殘差平方和為170 679 總平方和為808 000 F統(tǒng)計(jì)量的值為2 987 Sig 0 05 可以認(rèn)為所建立的回歸方程無(wú)效 線性回歸分析 56 4 回歸系數(shù)表列出了常數(shù)及回歸系數(shù)的值及標(biāo)準(zhǔn)化的值 同時(shí)對(duì)其進(jìn)行顯著性檢驗(yàn) 回歸系數(shù)分析中 Sig 0 05 建立的回歸方程無(wú)效 說(shuō)明多個(gè)變量與因變量不存在顯著地線性關(guān)系 線性回歸分析 曲線估計(jì) 變量間相關(guān)關(guān)系的分析中 變量之間的關(guān)系并不總是表現(xiàn)出線性關(guān)系 非線性關(guān)系也極為常見 非線性又可劃分為 本質(zhì)線性關(guān)系形式上雖然呈非線性 但可通過(guò)變量轉(zhuǎn)換化為線性關(guān)系 本質(zhì)非線性關(guān)系不僅形式上呈非線性 也無(wú)法通過(guò)變量轉(zhuǎn)換化為線性關(guān)系 這里的曲線估計(jì)是解決本質(zhì)線性關(guān)系問(wèn)題的 常見本質(zhì)線性模型 曲線估計(jì) 稱曲線擬合 曲線回歸 是研究?jī)勺兞块g非線性關(guān)系的一種方法 選定一種用方程表達(dá)的曲線 使得實(shí)際數(shù)據(jù)與理論數(shù)據(jù)之間的差異盡可能地小 如果曲線選擇得好 那么可以揭示因變量與自變量的內(nèi)在關(guān)系 并對(duì)因變量的預(yù)測(cè)有一定意義 曲線估計(jì)中 需要解決兩個(gè)問(wèn)題 一是選用哪種理論模型 即用哪種方程來(lái)擬合觀測(cè)值 二是當(dāng)模型確定后 如何選擇合適的參數(shù) 使得理論數(shù)據(jù)和實(shí)際數(shù)據(jù)的差異最小 在SPSS曲線估計(jì)中 首先在不能明確哪種模型更接近樣本數(shù)據(jù)時(shí)可在上述可選擇的模型中選擇幾種模型 然后 SPSS自動(dòng)完成模型的參數(shù)估計(jì) 并輸出回歸方程顯著性檢驗(yàn)的F值和概率P值 判定系數(shù)R2等統(tǒng)計(jì)量 最后以判定系數(shù)R2為主要依據(jù)選擇其中的最優(yōu)模型 并進(jìn)行預(yù)測(cè)分析 曲線估計(jì)應(yīng)用舉例 為研究居民家庭教育支出和消費(fèi)性支出之間的關(guān)系 收集到1990年至2002年全國(guó)人均消費(fèi)性支出和教育支出的數(shù)據(jù) 第一步 畫散點(diǎn)圖 教育支出和年人均消費(fèi)性支出的散點(diǎn)圖 觀察散點(diǎn)圖發(fā)現(xiàn)兩變量之間呈非線性關(guān)系 可嘗試選擇二次 三次曲線 復(fù)合函數(shù) 冪函數(shù)等模型 第二步 選擇函數(shù)模型 注 選擇相應(yīng)的變量 注 模型中 選擇 二次項(xiàng) 立方 冪 復(fù)合 勾選 顯示ANOVA表格 然后點(diǎn)擊保存按鈕 注 勾選 預(yù)測(cè)值 殘差 預(yù)測(cè)空間 95 置信 點(diǎn)擊繼續(xù) 并確定 得到輸出結(jié)果 擬合優(yōu)度最高 第三步 分析輸出結(jié)果 三次 兩個(gè)系數(shù)均大于0 05 此模型不理想 復(fù)合 冪 相伴概率Sig 0 000 該模型較理想 二次 三次 復(fù)合 冪函數(shù)的曲線 冪函數(shù)曲線 復(fù)合函數(shù)和冪函數(shù)的擬合優(yōu)度都很好 同時(shí)兩種模型的回歸系數(shù)顯著性檢驗(yàn)也都通過(guò) 因此可考慮采用這兩種模型 但是從曲線走勢(shì)上來(lái)看 復(fù)合函數(shù)增長(zhǎng)趨勢(shì)比冪函數(shù)更接近原函數(shù) 因此可最終考慮采用復(fù)合函數(shù) 復(fù)合曲線 由于在曲線估計(jì)對(duì)話框中選了 保存 項(xiàng) 并且勾選了 預(yù)測(cè)值 殘差 和 預(yù)測(cè)區(qū)間 因此在編輯窗口增加了16個(gè)變量的值 以fit 1 err 1 lcl 1 ucl 1為例進(jìn)行說(shuō)明 fit 1 表示在線性回歸分析條件下 當(dāng)自變量x1值為1627 64時(shí) 因變量x1的預(yù)測(cè)值為77 75243 err 1 表示在線性回歸分析條件下 當(dāng)自變量x1值為1627 64時(shí) 因變量x2的實(shí)際值與預(yù)測(cè)值 殘差 為 39 51243 lcl 1 表示在線性回歸分析條件下 預(yù)測(cè)值95 可置信區(qū)間的下限為 41 46780 52 47135 ucl 1 表示在線性回歸分析條件下 預(yù)測(cè)值95 可置信區(qū)間的上限為 196 97266 179 94058 回歸分析 時(shí)間序列上的曲線估計(jì) 定義 時(shí)間序列的曲線估計(jì)是分析社會(huì)和經(jīng)濟(jì)現(xiàn)象中經(jīng)常用到的一種曲線估計(jì) 通常把時(shí)間設(shè)為自變量x 代表具體的經(jīng)濟(jì)或社會(huì)現(xiàn)象的變量設(shè)為因變量y 研究變量x與y之間關(guān)系的方法就是時(shí)間序列曲線估計(jì) 其具體步驟與一般的曲線估計(jì)基本類似 對(duì)1978 2006年間社會(huì)消費(fèi)品零售總額之間的關(guān)系進(jìn)行曲線回歸分析 時(shí)間序列上的曲線估計(jì)應(yīng)用舉例 注 因變量選擇y 社會(huì)消費(fèi)品零售總額 變量選擇x 年份 同時(shí)選中 時(shí)間 項(xiàng) 表示其為代表時(shí)間的自變量 模型 框內(nèi)勾選線性 二次項(xiàng) 立方和冪四種曲線模型進(jìn)行估計(jì) 不必勾選 顯示ANOVA表格 注 在 曲線 估計(jì)中單擊 保存 按鈕 當(dāng)以時(shí)間作為自變量時(shí) 預(yù)測(cè)個(gè)案 是有效的 從估計(jì)期到最后一個(gè)個(gè)案的預(yù)測(cè) 是計(jì)算當(dāng)前所有樣本期內(nèi)的預(yù)測(cè)值 預(yù)測(cè)范圍 是指如果預(yù)測(cè)的范圍超過(guò)了當(dāng)前樣本期 可以選擇在此項(xiàng)隨后的 觀測(cè)值 中鍵入一個(gè)需預(yù)測(cè)的期數(shù) 31 表示將使用不同曲線模型對(duì)1978 2008年這31年的社會(huì)消費(fèi)品零售總額作預(yù)測(cè) 并在spss數(shù)據(jù)編輯窗口中保留所有預(yù)測(cè)值 結(jié)果和分析 所選的4種曲線函數(shù)中以立方曲線的擬合優(yōu)度最高 所以選擇立方擬合社會(huì)消費(fèi)品零售總額在各年的變化趨勢(shì) 接下來(lái)結(jié)合觀察值和各種函數(shù)模型預(yù)測(cè)值的對(duì)比圖加以檢驗(yàn) 從對(duì)比圖中可以看出 三次函數(shù)的曲線與樣本的實(shí)際觀察值擬合得較好 所以決定對(duì)本節(jié)中的研究問(wèn)題 社會(huì)消費(fèi)品零售總額的趨勢(shì)分析 采用指數(shù)函數(shù)進(jìn)行回歸分析 其具體模型為 y 2155 592 197 636x 35 303x2 1 947x3 由于在 曲線估計(jì) 窗口中選了 保存 項(xiàng) 因此在spss數(shù)據(jù)編輯窗口中就新增了fit 1 fit 2 fit 3 fit 4四個(gè)變量的預(yù)測(cè)值 同時(shí)在窗口下面還新增了兩個(gè)個(gè)案 他們分別代表對(duì)2007年和2008年的預(yù)測(cè)值 以三次函數(shù)做回歸分析 當(dāng)自變量x值為2001時(shí) 因變量y的預(yù)測(cè)值為44665 01213當(dāng)自變量x值為2007時(shí) 因變量y的預(yù)測(cè)值為80573 79934當(dāng)自變量x值為2008時(shí) 因變量y的預(yù)測(cè)值為87964 31013 邏輯回歸分析 定性變量 在許多實(shí)際問(wèn)題中 會(huì)經(jīng)常出現(xiàn)因變量是定性變量的情況 例如 某個(gè)人是否購(gòu)買汽車 受到多種如家庭情況 收人情況等因素的影響 但最終的可能性只有兩個(gè) 要么購(gòu)買 要么不購(gòu)買 把y 1定義為購(gòu)買 y o則表示不購(gòu)買 再如 在是否購(gòu)買某項(xiàng)商業(yè)保險(xiǎn)的研究中 根據(jù)消費(fèi)者的年齡 身體狀況 收人情況 工作性質(zhì) 受教育程度等 因變量y也只有兩種可能結(jié)果 要么y 1表示購(gòu)買 要么y o表示不購(gòu)買 90 處理方法 可用于處理定性因變量的統(tǒng)計(jì)分析方法有 判別分析 D1scriminantanalysis Probit分析 Logistic回歸分析和對(duì)數(shù)線性模型等 在社會(huì)科學(xué)中 應(yīng)用最多的是logistic回歸分析 邏輯回歸分析是對(duì)定性變量的回歸分析 Logistic中文意思為 邏輯 但是這里 并不是邏輯的意思 而是通過(guò)logit變換來(lái)命名的 91 Logistic回歸分析法 Logistic回歸分析是對(duì)定性變量的回歸分析分類 Logistic回歸分析根據(jù)因變量取值類別不同 又可以分為二元 Binarylogistic 回歸分析和多項(xiàng) Multinomianllogistic 回歸分析 變量特點(diǎn) 因變量是分類變量 自變量可以是分類變量也可以是連續(xù)變量Binarylogistic回歸模型中因變量只能取兩個(gè)值1和o 虛擬因變量 二分類變量 二元指 兩種可能性 就好比邏輯中的 是 或者 否 一樣 Multinomianllogistic回歸模型中因變量可以取多個(gè)值 多分類變量 92 Logistic回歸分析要解決的問(wèn)題 具體地說(shuō) Logistic回歸分析主要解決以下幾方面的問(wèn)題 通過(guò)分析大量的樣本數(shù)據(jù) 確定變量之間的數(shù)學(xué)關(guān)系式 對(duì)所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn) 并區(qū)分出對(duì)某一特定變量影響較為顯著的變量和影響不顯著的變量 利用所確定的數(shù)學(xué)關(guān)系式 根據(jù)一個(gè)或幾個(gè)變量的值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值 并給出這種預(yù)測(cè)或控制的精確度 93 二元logistic回歸模型數(shù)學(xué)表達(dá)式 二元Logistic函數(shù)的形式為 二元Logistic回歸方程 二元logistic中通過(guò)Logit變換 成為線性關(guān)系 利用極大似然估計(jì)法 對(duì)參數(shù)進(jìn)行估計(jì) 可用SPSS計(jì)算 94 對(duì)參數(shù)進(jìn)行檢驗(yàn) 常用檢驗(yàn)統(tǒng)計(jì)量 1 2對(duì)數(shù)似然值 2loglikelihood 2LL 因?yàn)?2LL近似服從卡方分布且在數(shù)學(xué)上更為方便 所以 2LL可用于檢驗(yàn)Logistic回歸的顯著性 公式為 2 擬合優(yōu)度GoodnessofFit統(tǒng)計(jì)量Logistic回歸的擬合優(yōu)度統(tǒng)計(jì)量計(jì)算公式為 95 3 cox和snell的R24 Nagelkerke的R25 偽R2 Psedo R square 偽R2與線性回歸模型的R2相似 其意義相似 但它小于16 Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量7 Wald統(tǒng)計(jì)量 96 二元logistic回歸應(yīng)用 在一組獨(dú)立變量上對(duì)二分類從屬變量進(jìn)行回歸利用前像 后向逐步方法或全部進(jìn)入方法建模用偏差數(shù)對(duì)比 簡(jiǎn)單比較 差分 反Helmert Helmert 多項(xiàng)式 鄰近類別比較 用戶自定義 或指示預(yù)示變量選擇建模標(biāo)準(zhǔn) 變量進(jìn)入的評(píng)分統(tǒng)計(jì)量的概率值 Wald概率值 或者移除變量的對(duì)數(shù)似然比統(tǒng)計(jì)量保存統(tǒng)計(jì)量 預(yù)測(cè)概率和分組 殘差 偏差值 Logit 標(biāo)準(zhǔn)化殘差 杠桿值 類似Cook s的距離 差異通過(guò)XML導(dǎo)出模型 97 多項(xiàng)logistic回歸模型數(shù)學(xué)表達(dá)式 多項(xiàng)logistic回歸模型模型如下 與二元邏輯回歸一樣 通過(guò)變換可得 98 檢驗(yàn)統(tǒng)計(jì)量 擬合檢驗(yàn)Pearson卡方統(tǒng)計(jì)量 卡方偏差統(tǒng)計(jì)量大樣本數(shù)據(jù)的這兩個(gè)統(tǒng)計(jì)量的取值很相近偽R方統(tǒng)計(jì)量指McFadden統(tǒng)計(jì)量 99 多項(xiàng)logistic回歸應(yīng)用 在一組自變量上對(duì)多于兩種類別的分類因變量進(jìn)行回歸用CRITERIA子命令控制算法調(diào)整參數(shù)的值包含交互作用項(xiàng)自定義假設(shè)檢驗(yàn) 使用TEST子命令直接把零假設(shè)指定為參數(shù)的線性組合用SCALE子命令指定離差偏離比例建立包含 不包含截距項(xiàng)的方程幾率比的置信區(qū)間保存統(tǒng)計(jì)量 預(yù)測(cè)概率 預(yù)測(cè)響應(yīng)類別 100 預(yù)測(cè)響應(yīng)分類的概率和實(shí)際響應(yīng)分類的概率指定因變量的參照類處理非常大的問(wèn)題利用逐步方法從眾多的可能的預(yù)測(cè)因子中選擇最佳預(yù)測(cè)因子利用評(píng)分和Wald方法 使您在大數(shù)據(jù)集的情況下更迅速地得出研究結(jié)果利用AIC或者BIC準(zhǔn)則 也稱為SBC 評(píng)估模型擬合度 101 多項(xiàng)logistic回歸 二元logistic回歸 二元與多項(xiàng)logistic回歸的區(qū)別 103 同二元Logistic回歸相對(duì)應(yīng) 當(dāng)因變量有2個(gè)以上的分類變量時(shí) 就選用 多項(xiàng)Logistic回歸 在因變量中 其中一個(gè)分類變量要作基線類 其他類別都同它比較成為非冗余的邏輯變換模型 對(duì)于基線類 其模型中所有系數(shù)均為0 比如 三分類的變量A B C 可以以B為基線 A與B比較 C與B比較 這就如同建立了兩個(gè)二元Logistic回歸分析 多項(xiàng)Logistic回歸 實(shí)例操作 案例1 二元Logistic回歸在一次關(guān)于某城鎮(zhèn)居民上下班使用交通工具的社會(huì)調(diào)查中 因變量y 1表示居民主要乘坐公共汽車上下班 y 0表示主要騎自行車上下班 自變量x1表示被調(diào)查者的年齡 x2表示被調(diào)查者的月收入 x3表示被調(diào)查者的性別 x3 1為男性 x3 0為女性 試建立y與自變量間的Logistic回歸 數(shù)據(jù)如表L 1所示 104 操作步驟 1 輸入數(shù)據(jù) 105 2 在 分析 菜單的 回歸 子菜單中選擇 二元Logistic 命令 進(jìn)行Logistic回歸分析 106 3 在彈出的 Logistic回歸 對(duì)話框中 從左側(cè)的變量列表中選擇y變量 居民上下班使用交通工具的情況 將至添加到 因變量 框中 表示該變量時(shí)因變量 選擇年齡 月收入 性別進(jìn)入 協(xié)變量 框中 表示其為自變量 在Method框中選擇SPSS默認(rèn)的 Enter 方法 使所選變量全部進(jìn)入回歸方程 如圖所示 107 4 單擊對(duì)話框中的 選項(xiàng) 按鈕 在彈出的 Logistic回歸 選項(xiàng) 對(duì)話框中按需要選擇各選項(xiàng) 如圖所示 108 統(tǒng)計(jì)量和圖 框中的選項(xiàng)用來(lái)選擇輸出哪些統(tǒng)計(jì)量或統(tǒng)計(jì)圖表 具體選項(xiàng)如下 Classificationplots 分類圖 通過(guò)比較因變量的觀測(cè)值和預(yù)測(cè)值之間關(guān)系 反映回歸模型的擬合效果 Hosmer Lemeshowgoodness of fit H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 用以檢驗(yàn)整個(gè)回歸模型的擬合優(yōu)度 Casewiselistingofresiduals 個(gè)案殘差列表 輸出標(biāo)準(zhǔn)方差大于某值 Outliersoutside std Dev 的個(gè)案或者全部個(gè)案 Allcases 的入選狀態(tài) 因變量的觀測(cè)值和預(yù)測(cè)值及其相應(yīng)預(yù)測(cè)概率 殘差值 Correlationsofestimates 估計(jì)參數(shù)的相關(guān)性 輸出模型中各估計(jì)參數(shù)間的相關(guān)矩陣 Iterationhistory 迭代歷史 輸出參數(shù)估計(jì)迭代過(guò)程中的系數(shù)及對(duì)數(shù)似然值 CIforexp B exp B 的N 置信區(qū)間 選中該選項(xiàng)將會(huì)在模型檢驗(yàn)的輸出結(jié)果中列出exp B 各回歸系數(shù)指數(shù)函數(shù)值 的N 缺省值為95 置信區(qū)間 如果要改變?nèi)笔≈?可以在空白方框內(nèi)輸入1 99 一般常用的值為90 95 99 之間的任何一個(gè)整數(shù) 選項(xiàng)說(shuō)明 110 輸出 框用來(lái)選擇輸出計(jì)算結(jié)果的方式 Ateachstep 顯示spss每個(gè)步驟的計(jì)算結(jié)果 Atlaststep 只顯示最終計(jì)算結(jié)果 在模型中包括常數(shù) 選項(xiàng)用以確定所求模型的參數(shù)是否要包含常數(shù)項(xiàng) 為了更好地說(shuō)明以上各選項(xiàng)的意義 本例選擇了所有選項(xiàng) 但保留各選項(xiàng)中的缺省值 選項(xiàng)說(shuō)明 步進(jìn)概率 框用來(lái)設(shè)定步長(zhǎng)標(biāo)準(zhǔn) 以便逐步控制自變量進(jìn)入方程或被剔除出方程 進(jìn)入 設(shè)置變量進(jìn)入方程的標(biāo)準(zhǔn)值 如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率小于所設(shè)置進(jìn)入方程的標(biāo)準(zhǔn)值 則該變量進(jìn)入模型 SPSS默認(rèn)的顯著性水平為0 05刪除 設(shè)置變量被剔除方程的標(biāo)準(zhǔn)值 如果變量的分?jǐn)?shù)統(tǒng)計(jì)概率大于所設(shè)置被剔除出方程的標(biāo)準(zhǔn)值 則將該變量剔除出方程 SPSS默認(rèn)的顯著性水平為0 10 分類標(biāo)準(zhǔn)值 選項(xiàng)用以確定個(gè)案分類的中止點(diǎn) 因變量預(yù)測(cè)值大于分類中止點(diǎn)的個(gè)案設(shè)歸為正個(gè)案一類 因變量預(yù)測(cè)值小于分類中止點(diǎn)的個(gè)案設(shè)為負(fù)個(gè)案 SPSS設(shè)中止點(diǎn)缺省值為0 5 我們可以通過(guò)輸入0 01 0 99之間任一數(shù)值改變?nèi)笔≈?從而產(chǎn)生新的分類表 最大迭代次數(shù) 選項(xiàng)用以確定最大對(duì)數(shù)似然值達(dá)到之前的迭代次數(shù) 最大對(duì)數(shù)似然值是通過(guò)反復(fù)迭代計(jì)算知道收斂為止而得到的 SPSS中該項(xiàng)的缺省值為20 我們可以重新輸入一個(gè)新的正整數(shù)來(lái)改變此項(xiàng)的值 選項(xiàng)說(shuō)明 5 在 保存 中只選擇 預(yù)測(cè)值 中的 概率 組成員 即原始數(shù)據(jù)個(gè)案中 每一個(gè)個(gè)案最后的預(yù)測(cè)分類情況 PRE 1 PGR 1分別是最后的預(yù)測(cè)結(jié)果中的預(yù)測(cè)概率和預(yù)測(cè)組的變量名 做完后才會(huì)在數(shù)據(jù)視圖中出現(xiàn) 6 單擊 繼續(xù) 按鈕 返回上一個(gè)對(duì)話框 然后 單擊 確定 按鈕 即可得到SPSS回歸分析的結(jié)果 112 第二個(gè)表格說(shuō)明初始的因變量值 0 1 已經(jīng)轉(zhuǎn)換為邏輯回歸分析中常用的0 1數(shù)值 SPSS輸出結(jié)果文件如下 1 第一部分輸出結(jié)果有兩個(gè)表格 第一個(gè)表格說(shuō)明所有個(gè)案 28個(gè) 都被選入作為回歸分析的個(gè)案 6 結(jié)果討論和分析 結(jié)果分析 2020 3 10 114 可編輯 2 第二部分 Block0 輸出結(jié)果有4個(gè)表格 第1個(gè)輸出表格列出迭代過(guò)程 其中常數(shù)項(xiàng)包括在模型中 初始 2LL為38 673 迭代結(jié)束于第二步 因?yàn)榇藭r(shí)參數(shù)與其在上一步的變化已經(jīng)小于0 001 第2個(gè)分類表說(shuō)明Step0的擬合效果 可以看出對(duì)于y 0 有100 的準(zhǔn)確性 對(duì)于y 1 有0 準(zhǔn)確性 總共有53 6 的準(zhǔn)確性 此時(shí)參數(shù)估計(jì)的變化表現(xiàn)為對(duì)數(shù)似然值的變化 分類表 結(jié)果分析 下面兩個(gè)表格給出了模型系數(shù)的檢驗(yàn)結(jié)果 其中常數(shù)項(xiàng)的系數(shù)值為 0 143 其伴隨概率為0 706 可見常數(shù)項(xiàng)不顯著 X1 X2 X3的系數(shù)通過(guò)了檢驗(yàn) 即這兩個(gè)變量顯著 各回歸系數(shù)指數(shù)函數(shù)值 結(jié)果分析 3 表格列出了模型系數(shù)的綜合檢驗(yàn)結(jié)果 4 表格給出了 2對(duì)數(shù)似然值 Cox和Snell的R2以及Nagelkerke的R2檢驗(yàn)統(tǒng)計(jì)結(jié)果 cox和snell的R2是在似然值基礎(chǔ)上模仿線性回歸模型的R2解釋Logistic回歸模型 一般小于1 為了對(duì)cox和snell的R2進(jìn)一步調(diào)整 使得取值范圍在0 1之間 Nagelkerke把cox和snell的R2除以它的最大值 即Nagelkerke的R2 5 表格給出了Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 HosmerandLemeshow檢驗(yàn) HosmerandLemeshow檢驗(yàn)的隨機(jī)性表 與一般擬合優(yōu)度檢驗(yàn)不同 Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)通常把樣本數(shù)據(jù)根據(jù)預(yù)測(cè)概率分為10組 然后根據(jù)觀測(cè)頻數(shù)和期望頻數(shù)構(gòu)造卡方統(tǒng)計(jì)量 即Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 簡(jiǎn)稱H L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 最后根據(jù)自由度為8的卡方分布計(jì)算其p值并對(duì)Logistic模型進(jìn)行檢驗(yàn) 如果該P(yáng)值小于給定的顯著性水平 如 0 05 表明模型的預(yù)測(cè)值與觀測(cè)值存在顯著差異 如果P值大于給定的顯著性水平 表明在可接受的水平上模型的估計(jì)擬合了數(shù)據(jù) 大于0 05 表明擬合了數(shù)據(jù) 6 分類表說(shuō)明第一次迭代結(jié)果的擬合效果 從該表格可以看出對(duì)于y 0 有86 7 的準(zhǔn)確性 對(duì)于y 1 有76 9 準(zhǔn)確性 因此對(duì)于所有個(gè)案總共有82 1 的準(zhǔn)確性 正確分類比例 預(yù)測(cè)值 觀測(cè)值 7 方程中的變量表格列出了Step1中各個(gè)變量對(duì)應(yīng)的系數(shù) 以及該變量對(duì)應(yīng)的Wald統(tǒng)計(jì)量和它對(duì)應(yīng)的相伴概率 從該表格中可以看出X3相伴概率最小 Wald統(tǒng)計(jì)量最大 可見該標(biāo)量在模型中很重要 wald統(tǒng)計(jì)量用于判斷 個(gè)變量是否應(yīng)該包含在模型中 SPSS軟件沒(méi)有給出Logisticc回歸的標(biāo)準(zhǔn)化回歸系數(shù) 因此 如果要考慮每個(gè)自變量在回歸方程中的重要性 不妨直接比較Wald統(tǒng)計(jì)量的大小 或sig Wald統(tǒng)計(jì)量大者 或sig值小者 顯著性高 也就更重要 8 相關(guān)矩陣表格列出了常數(shù)Constant 系數(shù)之間的相關(guān)矩陣 常數(shù)與月收入之間相關(guān)性最大 年齡和性別之間的相關(guān)性最小 相關(guān)矩陣 9 下圖所示是觀測(cè)值和預(yù)測(cè)概率分布圖 該圖以0和1為符號(hào) 每四個(gè)符號(hào)代表一個(gè)個(gè)案 橫坐標(biāo)是個(gè)案屬于1的隸屬度 這里稱為預(yù)測(cè)概率 PredictedProbability 縱坐標(biāo)是個(gè)案分布頻數(shù) 反映個(gè)案的分布 如果邏輯回歸預(yù)測(cè)完全準(zhǔn)確 那么該坐標(biāo)圖中預(yù)測(cè)概率是0 0 5之間的個(gè)案都應(yīng)該是0 0 5 1之間的個(gè)案都應(yīng)該是1 該例生成的圖基本上符合這個(gè)效果 不正確的結(jié)果包括 預(yù)測(cè)概率是0 0 5之間的個(gè)案中有3個(gè)實(shí)際的觀測(cè)值為1 0 5 1之間的個(gè)案觀測(cè)值有2個(gè)為0 這是錯(cuò)誤預(yù)測(cè)的結(jié)果 觀測(cè)值和預(yù)測(cè)概率分布圖 10 邏輯回歸的最后一個(gè)輸出表格式CasewiseList 列出了殘差大于2的個(gè)案 本例中列出了兩個(gè)符合條件的個(gè)案 分別是第10個(gè)案和第19個(gè)案 這兩個(gè)個(gè)案都有 表明這兩個(gè)個(gè)案的邏輯回歸結(jié)果是錯(cuò)誤的 案例列表 殘差 標(biāo)準(zhǔn)化殘差 124 案例2 多項(xiàng)Logistic回歸分析某快餐公司為了提高早餐的市場(chǎng)份額 對(duì)880名消費(fèi)者做了一份調(diào)查 請(qǐng)利用多項(xiàng)Logistic回歸方法分析3種早餐的市場(chǎng)銷售情況 數(shù)據(jù)見表L 1 125 操作步驟 1 輸入數(shù)據(jù) 126 2 在 分析 菜單的 回歸 子菜單中選擇 多項(xiàng)Logistic 命令 進(jìn)行多項(xiàng)Logistic回歸分析 127 3 變量設(shè)置 選擇相應(yīng)的 因變量 因子 項(xiàng)目 接著點(diǎn)擊 參考類別 對(duì)因變量設(shè)置 參考類別 分別有 第一類 最后一類 用戶指定取值 三種類別 然后選擇 類別順序 根據(jù)圖示設(shè)置 128 4 模型設(shè)置 點(diǎn)擊 模型 進(jìn)入模型界面 選擇 設(shè)定 步進(jìn)式 模型 把 因素 列表中的 agecat 和 active 放入 強(qiáng)制輸入項(xiàng) 欄 建立項(xiàng)選擇 主效應(yīng) 如圖進(jìn)行設(shè)置 129 5 統(tǒng)計(jì)量設(shè)置 點(diǎn)擊 統(tǒng)計(jì)量 進(jìn)行圖示設(shè)置 用于選擇關(guān)于統(tǒng)計(jì)模型的統(tǒng)計(jì)量 用于選擇關(guān)于模型參數(shù)的輸出統(tǒng)計(jì)量 設(shè)置分組定義 130 6 收斂標(biāo)準(zhǔn)設(shè)置 點(diǎn)擊 條件 設(shè)置收斂準(zhǔn)則 131 7 選項(xiàng)設(shè)置 點(diǎn)擊 選項(xiàng) 在此設(shè)置逐步回歸的參數(shù) 132 8 保存設(shè)置 點(diǎn)擊 保存 勾選需要保存到數(shù)據(jù)集中的變量 133 9 結(jié)果分析 按 確定 獲得需要的分析結(jié)果 擬合優(yōu)度表格 零假設(shè)是模型能夠很好擬合原始數(shù)據(jù) Pearson統(tǒng)計(jì)量和偏差統(tǒng)計(jì)量的顯著水平都大于0 1 不能否定零假設(shè) 即最終模型顯著成立 零假設(shè)認(rèn)為某效應(yīng)從模型中剔除后系數(shù)沒(méi)有變化 由于卡方檢驗(yàn)的顯著水平 Sig值 都遠(yuǎn)遠(yuǎn)小于0 01 故不能否定零假設(shè) 認(rèn)為3個(gè)效應(yīng)對(duì)系數(shù)的影響都是顯著的 不能剔除 134 135 136 OrdinalRegression序數(shù)回歸分析 相關(guān)分析與回歸分析 定義 是根據(jù)反應(yīng)變量水平是否有序來(lái)區(qū)分的有序多分類的Logistic回歸 又稱之為等級(jí)回歸分析 序數(shù)回歸的過(guò)程在語(yǔ)法中稱為PLUM 應(yīng)用 如療效可以分為無(wú)效 緩解 好轉(zhuǎn) 治愈4個(gè)等級(jí) 其中緩解與好轉(zhuǎn)是病人的主觀體驗(yàn) 難以測(cè)量與量化 用序數(shù)回歸就可以分析這樣的有序變量 OrdinalRegression序數(shù)回歸分析 有序結(jié)果變量回歸的適用條件 1 一個(gè)因變量 它是兩個(gè)或以上水平的分類變量 無(wú)論是主觀 名義變量 或客觀 有序結(jié)果變量 的分類均可 2 一個(gè)或以上的協(xié)變量 它可以是分類變量或連續(xù)型變量 患者對(duì)藥物劑量可能的反應(yīng)可以分為無(wú) 輕微 適度或劇烈 輕微反應(yīng)和適度反應(yīng)之間的差別很難或不可能量化 并且這種差別是取決于感覺的 另外 輕微反應(yīng)和適度反應(yīng)之間的差別可能比適度反應(yīng)和劇烈反應(yīng)之間的差別更大或更小 相關(guān)分析與回歸分析 序數(shù)回歸和線性回歸 當(dāng)你試圖預(yù)測(cè)有序反應(yīng)時(shí) 一般線性回歸模型并不能很好地工作 這些方法僅可以衡量結(jié)果 定 變量是在一個(gè)區(qū)間范圍 這不是真正的有序結(jié)果變量 因此 回歸模型可能無(wú)法準(zhǔn)確反映數(shù)據(jù)之間的關(guān)系 一個(gè)有序變量 最重要的就是排序 因此 如果您將兩個(gè)相鄰的類別折疊成一個(gè)較大的類別 這只是一個(gè)很小的變化 使用舊的和新的類別建立的模型應(yīng)十分類似 不幸的是 線性回歸對(duì)類別的使用很敏感 類別合并前建成的模型和合并后建成的模型有很大不同 廣義線性模型 適合每一類別中的有序變量的單獨(dú)方程 每一個(gè)方程給出了在相應(yīng)類別或者任何較低類別中的預(yù)測(cè)概率 沒(méi)有建立預(yù)測(cè)模型 而所有的案件都必須在最后一類或較低類別 其概率為1 正因?yàn)槿绱?對(duì)于最后一類預(yù)測(cè)方程是不需要的 序數(shù)回歸數(shù)據(jù)注意事項(xiàng) 1 數(shù)據(jù) 假設(shè)因變量是序數(shù)并且可以是數(shù)值或字符串 通過(guò)對(duì)因變量的值進(jìn)行升序排序來(lái)確定排列順序 最低值定義第一個(gè)類別 假設(shè)因變量是分類變量 協(xié)變量必須為數(shù)值 請(qǐng)注意 使用多個(gè)連續(xù)協(xié)變量很容易使創(chuàng)建的單元概率表非常大 2 假設(shè) 只允許使用一個(gè)因變量 并且必須指定該因變量 另外 對(duì)于多個(gè)自變量值的各個(gè)不同模式 假設(shè)該因變量是獨(dú)立的多項(xiàng)變量 輸出的統(tǒng)計(jì)量與圖形包括 協(xié)變量中每個(gè)分類變量的觀測(cè)頻數(shù) 預(yù)測(cè)頻數(shù) 累計(jì)頻數(shù) 頻數(shù)與累計(jì)頻數(shù)的Pearson殘差 觀察概率與預(yù)測(cè)概率和累積概率 還有參數(shù)估計(jì)值的漸進(jìn)相關(guān)矩陣與協(xié)方差矩陣 Prarson卡方統(tǒng)計(jì)量 似然比卡方統(tǒng)計(jì)量 擬合優(yōu)度統(tǒng)計(jì)量 迭代歷史 參數(shù)估計(jì)值 標(biāo)準(zhǔn)誤差和Cox SnellR方統(tǒng)計(jì)量等 序數(shù)回歸使用總體思路 1 需要確定因變量的序 2 需要決定是否使用預(yù)測(cè)模型的位置組件 3 需要決定是否使用規(guī)模組件 如果需要 確定哪一個(gè)預(yù)測(cè)值需要使用 在許多
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 外國(guó)語(yǔ)學(xué)院讀書活動(dòng)方案
- 城鄉(xiāng)服務(wù)活動(dòng)方案
- 夏季藥店活動(dòng)方案
- 夜市中醫(yī)義診活動(dòng)方案
- 城市小管家活動(dòng)方案
- 大病募捐活動(dòng)方案
- 堅(jiān)如磐石活動(dòng)方案
- 大班下午教室活動(dòng)方案
- 天門幼兒園拓展活動(dòng)方案
- 大學(xué)生清明征文活動(dòng)方案
- GB/T 17626.18-2016電磁兼容試驗(yàn)和測(cè)量技術(shù)阻尼振蕩波抗擾度試驗(yàn)
- SDS汽油安全技術(shù)說(shuō)明書
- 六年級(jí)科學(xué)上冊(cè)教學(xué)計(jì)劃
- 人教版數(shù)學(xué)六年級(jí)下冊(cè)期末測(cè)試卷及參考答案
- GeneralEnglish-入學(xué)測(cè)試(劍橋五級(jí))附有答案
- 會(huì)議管理系統(tǒng)的分析與設(shè)計(jì)
- JJF(建材)110-2019水泥雷氏夾膨脹測(cè)定儀校準(zhǔn)規(guī)范-(高清現(xiàn)行)
- 省級(jí)土壤樣品庫(kù)實(shí)施方案
- 河南POCT試劑項(xiàng)目投資計(jì)劃書(模板)
- 2016-2017學(xué)年廣西桂林市八年級(jí)(下)期末數(shù)學(xué)試卷
- 吊裝作業(yè)安全規(guī)范
評(píng)論
0/150
提交評(píng)論