相關(guān)分析與回歸分析及曲線估計(jì)

上傳人：b*** IP屬地：廣東上傳時(shí)間：2022-07-19 格式：PPT 頁數(shù)：71 大?。?32KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩66頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、相關(guān)分析與回歸分析及曲線估計(jì)本章內(nèi)容第一節(jié) 相關(guān)分析第二節(jié) 線性回歸分析第三節(jié) 曲線估計(jì)第一節(jié) 相關(guān)分析一、相關(guān)分析的概念與類型（一）相關(guān)分析的基本概念相關(guān)關(guān)系是指變量之間存在的不確定的依存關(guān)系，即當(dāng)一個(gè)變量取一定值時(shí)，另一變量無法依確定的函數(shù)取唯一確定的值，然而它仍按某種規(guī)律在一定的范圍內(nèi)變化。（二）相關(guān)關(guān)系的類型 1、按相關(guān)關(guān)系的程度，分為完全相關(guān)、不完全相關(guān)和零相關(guān)。 2、按相關(guān)變量的變化方向，分為正相關(guān)和負(fù)相關(guān)。 3、按相關(guān)關(guān)系的表現(xiàn)形式，分為線性相關(guān)和曲線相關(guān)。 4、按變量多少，分為單相關(guān)、復(fù)相關(guān)和偏相關(guān)。 5、按相關(guān)性質(zhì)，分為“真實(shí)相關(guān)”和“虛假相關(guān)” 繪制散點(diǎn)圖和計(jì)算相關(guān)系數(shù)

2、是相關(guān)分析最常用的工具，它們的相互結(jié)合能夠達(dá)到較為理想的分析效果。二、散點(diǎn)圖（一）散點(diǎn)圖的特點(diǎn) 繪制散點(diǎn)圖是相關(guān)分析過程中極為常用且非常直觀的分析方法，它將數(shù)據(jù)以點(diǎn)的形式畫在直角平面上。通過觀察散點(diǎn)圖可以比較直觀地看出變量之間的相關(guān)關(guān)系以及它們的強(qiáng)弱程度和數(shù)據(jù)的可能走向。通常橄欖球和棒狀代表了數(shù)據(jù)對(duì)的主要結(jié)構(gòu)和特征，可以利用曲線將這種主要結(jié)構(gòu)的輪廓描述出來，使數(shù)據(jù)的主要特征更突顯。（二）散點(diǎn)圖在SPSS中的實(shí)現(xiàn) 1、建立或打開數(shù)據(jù)文件后，進(jìn)入“Graphs” “Legacy Dialogs”“Scatter/Dot”主對(duì)話框，如圖7-1所示。圖7-1 散點(diǎn)圖主對(duì)話框 2、選擇散點(diǎn)圖的類型。S

3、PSS中提供了四種散點(diǎn)圖，分別是簡單散點(diǎn)圖（Simple）、重疊散點(diǎn)圖（Overlay）、矩陣散點(diǎn)圖（Matrix）和三維散點(diǎn)圖（3-D）。 3、根據(jù)所選擇的散點(diǎn)圖的類型，按Define按鈕對(duì)散點(diǎn)圖作具體定義。不同類型的散點(diǎn)圖其具體的定義選項(xiàng)略有差別。三、相關(guān)系數(shù)（一）相關(guān)系數(shù)的概念和分析步驟相關(guān)系數(shù)能夠以數(shù)字的方式準(zhǔn)確描述變量間的線性關(guān)系程度和方向。相關(guān)系數(shù)的分析步驟： 1、計(jì)算樣本相關(guān)系數(shù) 對(duì)不同類型的變量應(yīng)采用不同的相關(guān)系數(shù)指標(biāo)，但它們的取值范圍和含義都是相同的，即相關(guān)系數(shù) 沒有單位，其值在-1+1 之間。 2、對(duì)樣本來自的兩總體是否存在顯著的線性關(guān)系進(jìn)行推斷。（1）提出原假設(shè)：

4、總體中兩個(gè)變量間的相關(guān)系數(shù)為0，即兩總體無顯著的線性相關(guān)關(guān)系。（2）選擇檢驗(yàn)統(tǒng)計(jì)量。對(duì)不同類型的變量應(yīng)采用不同的相關(guān)系數(shù)，對(duì)應(yīng)也應(yīng)采用不同的檢驗(yàn)統(tǒng)計(jì)量。（3）計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值和相伴概率值。（4）給定顯著性水平，并作出決策。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕原假設(shè)。（二）相關(guān)系數(shù)的種類 1、Pearson 簡單相關(guān)系數(shù) Pearson 簡單相關(guān)系數(shù)用來度量定距型變量間的線性相關(guān)關(guān)系，它的數(shù)學(xué)定義為： (7.1) Pearson 簡單相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為統(tǒng)計(jì)量，其數(shù)學(xué)定義為： (7.2) SPSS將自動(dòng)計(jì)算Pea

5、rson 簡單相關(guān)系數(shù)、檢驗(yàn)統(tǒng)計(jì)量的觀察值和對(duì)應(yīng)的概率值。 2、Spearman等級(jí)相關(guān)系數(shù) Spearman等級(jí)相關(guān)系數(shù)用來度量定序變量間的線性相關(guān)關(guān)系，設(shè)計(jì)思想與Pearson簡單相關(guān)系數(shù)相同，只是數(shù)據(jù)為非定距的，故計(jì)算時(shí)并不直接采用原始數(shù)據(jù) ，而是利用數(shù)據(jù)的秩，用兩變量的秩代替代入Pearson簡單相關(guān)系數(shù)計(jì)算公式中，于是其中的和的取值范圍被限制在1和之間，且可被簡化為：式中：如果兩變量的正相關(guān)性較強(qiáng)，它們秩的變化具有同步性，于是的值較小，r趨向于1；如果兩變量的正相關(guān)性較弱，它們秩的變化不具有同步性，于是的值較大，r趨向于0；在小樣本下，在零假設(shè)成立時(shí)， Spear

6、man等級(jí)相關(guān)系數(shù)服從Spearman分布；在大樣本下， Spearman等級(jí)相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為Z統(tǒng)計(jì)量，定義為： Z統(tǒng)計(jì)量近似服從標(biāo)準(zhǔn)正態(tài)分布。 SPSS將自動(dòng)計(jì)算Spearman等級(jí)相關(guān)系數(shù)，檢驗(yàn)統(tǒng)計(jì)量的觀察值和相伴概率值。 3、Kendall 相關(guān)系數(shù) Kendall 相關(guān)采用非參數(shù)檢驗(yàn)方法用來度量定序變量間的線性相關(guān)關(guān)系。它利用變量秩數(shù)據(jù)計(jì)算一致對(duì)數(shù)目和非一致對(duì)數(shù)目。 Kendall 相關(guān)正是要對(duì)此進(jìn)行檢驗(yàn)。Kendall 統(tǒng)計(jì)量的數(shù)學(xué)定義為 (7.5) 在小樣本下Kendall 服從Kendall分布。在大樣本下采用的檢驗(yàn)統(tǒng)計(jì)量為 (7.6) 在公式（）中，統(tǒng)計(jì)量近似服

7、從標(biāo)準(zhǔn)正態(tài)分布。SPSS將自動(dòng)計(jì)算Kendall 相關(guān)、檢驗(yàn)統(tǒng)計(jì)量的觀測值和相伴概率值。（三）相關(guān)系數(shù)在SPSS中的實(shí)現(xiàn) 1、建立或打開數(shù)據(jù)文件后，進(jìn)入AnalyzeCorrelateBivariate主對(duì)話框，如圖7-4所示。圖7-4 相關(guān)分析主對(duì)話框 2、選擇參加計(jì)算相關(guān)系數(shù)的變量到Variables框。 3、Correlation Coefficients分析方法選擇項(xiàng)，有三種相關(guān)系數(shù)，如Pearson復(fù)選項(xiàng)、Spearman復(fù)選項(xiàng)、Kendalls tau-b 復(fù)選項(xiàng)，對(duì)應(yīng)于三種分析方法。 4、Test of Significance選擇顯著性檢驗(yàn)類型。Two tailed 雙尾檢

8、驗(yàn)選項(xiàng)，One tailed 單尾檢驗(yàn)選項(xiàng)。 5、Flag significant Correlations 復(fù)選項(xiàng)，如果選中此項(xiàng)，輸出結(jié)果中除顯示統(tǒng)計(jì)檢驗(yàn)的概率值以外，還輸出星號(hào)標(biāo)記，相關(guān)系數(shù)右上方使用“*”表示顯著水平為5%；用“*”表示其顯著水平為1%。6、Options 對(duì)話框中的選擇項(xiàng) 在相關(guān)分析主對(duì)話框中單擊“Options”按鈕，展開Options 對(duì)話框，如圖7-5所示。圖7-5 Options 對(duì)話框（1）Statistics選擇項(xiàng)中有兩個(gè)有關(guān)統(tǒng)計(jì)量的選擇項(xiàng)： Means and standard deviations復(fù)選項(xiàng)，要求計(jì)算并輸出均值與標(biāo)準(zhǔn)差； Cross-pro

9、duct deviations and covariances復(fù)選項(xiàng)，要求計(jì)算并輸出叉積離差陣和協(xié)方差陣。（2）Missing Values選擇項(xiàng)中有兩個(gè)關(guān)于缺失值處理方法的選擇項(xiàng)： Exclude cases pairwise選項(xiàng)，僅剔除正在參與計(jì)算的兩個(gè)變量值是缺失值的觀測量。 Exclude cases listwise選項(xiàng)，剔除帶有缺失值的所有觀測量。四、偏相關(guān)分析（一）偏相關(guān)分析和偏相關(guān)系數(shù) 偏相關(guān)分析也稱凈相關(guān)分析，它在控制其他變量的線性影響的條件下分析兩變量間的線性相關(guān)性，所采用的工具是偏相關(guān)系數(shù)（凈相關(guān)系數(shù)）。偏相關(guān)分析的主要用途是根據(jù)觀測資料應(yīng)用偏相關(guān)分析計(jì)算偏相關(guān)系數(shù)

10、，可以判斷哪些解釋變量對(duì)被解釋變量的影響較大，而選擇作為必須考慮的解釋變量。這樣在計(jì)算多元回歸分析時(shí)，只要保留起主要作用的解釋變量，用較少的解釋變量描述被解釋變量的平均變動(dòng)量。利用偏相關(guān)系數(shù)進(jìn)行變量間相關(guān)分析通常需要完成以下兩大步驟： 1、計(jì)算樣本的偏相關(guān)系數(shù)。在分析變量和之間的凈相關(guān)時(shí)，當(dāng)控制了的線性作用后，和之間的一階偏相關(guān)系數(shù)定義為 (7.7)偏相關(guān)系數(shù)的取值范圍及大小含義與相關(guān)系數(shù)相同。 2、對(duì)樣本來自的兩總體是否存在顯著的偏相關(guān)進(jìn)行推斷。（1）提出原假設(shè)：兩總體的偏相關(guān)系數(shù)與零無顯著差異。（2）選擇檢驗(yàn)統(tǒng)計(jì)量。偏相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為統(tǒng)計(jì)量。（3）計(jì)算檢驗(yàn)統(tǒng)計(jì)量

11、的觀測值和相伴概率。（4）給定顯著性水平，并作出決策。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕原假設(shè)。（二）偏相關(guān)系數(shù)在SPSS中的實(shí)現(xiàn) 1、建立或打開數(shù)據(jù)文件后，進(jìn)入Analyze Correlate Partial主對(duì)話框，如圖7-6所示。圖7-6 偏相關(guān)分析主對(duì)話框 2、選擇分析變量送入Valiables框，選擇控制變量進(jìn)入Controlling for框。 3、在Test of Significance 欄中選擇輸出偏相關(guān)檢驗(yàn)的雙尾（Two-tailed）概率值還是單尾（One-tailed）概率值。 4、選擇Di

12、splay actual significance level復(fù)選項(xiàng)，表示顯示相關(guān)系數(shù)的同時(shí)，顯示實(shí)際的顯著性概率。不選擇此項(xiàng)，其顯著性概率使用星號(hào)“*”來代替。 5、在偏相關(guān)分析主對(duì)話框中單擊“Options”按鈕，進(jìn)入Options 對(duì)話框，如圖7-7所示。圖7-7 偏相關(guān)分析的選項(xiàng)對(duì)話框（1）Statistics 統(tǒng)計(jì)量選擇項(xiàng)，有兩個(gè)選項(xiàng)： Means and standard deviations 復(fù)選項(xiàng)，要求SPSS計(jì)算并顯示各分析變量的均值和標(biāo)準(zhǔn)差。Zero-order correlations 復(fù)選項(xiàng)，要求顯示零階相關(guān)矩陣，即Pearson 相關(guān)矩陣。（2）Missing V

13、alues 處理缺失值觀測量的選擇項(xiàng)。第二節(jié) 線性回歸分析（一）回歸分析的概念和一般步驟 1、回歸分析的概念回歸分析是指根據(jù)相關(guān)關(guān)系的具體形態(tài)，選擇一個(gè)合適的數(shù)學(xué)模型，來近似地表達(dá)變量間的平均變化關(guān)系?；貧w分析不僅可以提供變量之間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式，而且還可以利用所得的經(jīng)驗(yàn)公式，根據(jù)一個(gè)或幾個(gè)變量的值，預(yù)測或控制另一個(gè)變量的值，并且可以知道這種預(yù)測和控制可達(dá)到什么樣的精確程度。另外，還可以進(jìn)行因素分析。因此，回歸分析是一種應(yīng)用極為廣泛的數(shù)量分析方法。2、回歸分析的一般步驟（1）確定回歸方程中的解釋變量（自變量）和被解釋變量（因變量）。（2）確定回歸模型。（3）建立回歸方程。（4）對(duì)

14、回歸方程進(jìn)行各種檢驗(yàn)。（5）利用回歸方程進(jìn)行預(yù)測。利用SPSS進(jìn)行回歸分析時(shí)，應(yīng)重點(diǎn)關(guān)注上述過程中第一步和最后一步，至于中間各步，SPSS會(huì)自動(dòng)進(jìn)行計(jì)算并給出最佳的模型。（二）線性回歸模型1、一元線性回歸模型一元線性回歸模型是指只有一個(gè)解釋變量的線性回歸模型，用于揭示被解釋變量與另一個(gè)解釋變量之間的線性關(guān)系。數(shù)學(xué)模型是： (7.9) 式（）中為解釋變量；為被解釋變量；為截距，即常量；為回歸系數(shù)，表明解釋變量對(duì)被解釋變量的影響程度；為隨機(jī)誤差。公式表明：被解釋變量的變化可由兩部分來解釋，第一部分由解釋變量的變化引起的的線性變化部分；第二部分由其他隨機(jī)因素引起的的變化部分。用最

15、小二乘法求解方程中的兩個(gè)參數(shù)，得到：2、多元線性回歸方程多元線性回歸方程是指含有多個(gè)解釋變量的線性回歸模式，用于揭示被解釋變量與其他多個(gè)解釋變量之間的線性關(guān)系。數(shù)學(xué)模型為： (7.12) 式（）是一個(gè) 元線性回歸模型，其中有個(gè)解釋變量。、、、分別稱為回歸常數(shù)和偏回歸系數(shù)，為隨機(jī)誤差。公式表明：被解釋變量的變化可由兩部分來解釋，第一部分由個(gè)解釋變量變化引起的的線性變化部分；第二部分由其他隨機(jī)因素引起的的變化部分。、（三）線性回歸方程的假設(shè)理論德國數(shù)學(xué)家高斯提出5 個(gè)假設(shè)理論，即正態(tài)性假設(shè)、等方差假設(shè)、獨(dú)立性假設(shè)、無自相關(guān)性假設(shè)、與的不相關(guān)性。滿足這些假設(shè)的線性回歸模型稱為

16、古典線性模型：（四）線性回歸分析的數(shù)據(jù)要求 1、解釋變量與被解釋變量應(yīng)該是數(shù)值型變量，分類變量應(yīng)重新編碼為啞變量或其他類型的對(duì)比變量。 2、被解釋變量的分布必須是正態(tài)的，被解釋變量的方差分布必須是一個(gè)常數(shù)。被解釋變量和每一個(gè)解釋變量變量的關(guān)系必須是線性關(guān)系，所有的觀察量必須是相互獨(dú)立的。二、線性回歸方程的統(tǒng)計(jì)檢驗(yàn)（一）回歸方程的擬合優(yōu)度檢驗(yàn) 回歸方程的擬合優(yōu)度檢驗(yàn)就是要檢驗(yàn)樣本數(shù)據(jù)點(diǎn)聚集在回歸直線周圍的密集程度，從而評(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)的代表程度。我們知道，被解釋變量各個(gè)觀察值之間的差異主要是由解釋變量的不同取值和其他因素造成的。用公式表示為： (7.13) (7.14) 從式（）中可以看

17、出，當(dāng)所有樣本點(diǎn)都落在回歸直線上，回歸方程的擬合優(yōu)度一定是最高的。擬合優(yōu)度的統(tǒng)計(jì)量正是基于這種基本思想構(gòu)造出來的。 1、一元線性回歸方程的擬合優(yōu)度檢驗(yàn) 在判定一個(gè)線性回歸直線的擬合優(yōu)度的好壞時(shí)，判定系數(shù)系數(shù)是一個(gè)重要的判定指標(biāo)。判定系數(shù)等于回歸平方和在總平方和中所占的比率，即體現(xiàn)了回歸模型所能解釋的被解釋變量變異性的百分比。計(jì)算公式為： = (7.15)2、多元線性回歸方程的擬合優(yōu)度檢驗(yàn) 在多元線性回歸方程中采用調(diào)整的作為擬合優(yōu)度檢驗(yàn)指標(biāo)，計(jì)算公式為：Adjusted = （）（二）回歸方程的顯著性檢驗(yàn) 回歸方程的顯著性檢驗(yàn)是檢驗(yàn)被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著，是否可以用線性

18、模型來描述被解釋變量和解釋變量之間的關(guān)系。回歸方程顯著性檢驗(yàn)的基本出發(fā)點(diǎn)與擬合優(yōu)度檢驗(yàn)非常相識(shí)。1、一元線性回歸方程的顯著性檢驗(yàn) 一元線性回歸方程顯著性檢驗(yàn)的原假設(shè)是：回歸系數(shù)與零無顯著差異。一元線性回歸方程顯著性檢驗(yàn)采用統(tǒng)計(jì)量，計(jì)算公式為：（） SPSS將自動(dòng)計(jì)算統(tǒng)計(jì)量及相伴概率值。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕原假設(shè)。2、多元線性回歸方程的顯著性檢驗(yàn)多元線性回歸方程顯著性檢驗(yàn)的原假設(shè)是：所有偏回歸系數(shù)同時(shí)與零無顯著差異。多元線性回歸方程顯著性檢驗(yàn)采用統(tǒng)計(jì)量，計(jì)算公式為： SPSS將自動(dòng)計(jì)算統(tǒng)計(jì)量及相

19、伴概率值。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕原假設(shè)。通過上面的分析不難發(fā)現(xiàn)，回歸方程的顯著性檢驗(yàn)和回歸方程的擬合優(yōu)度檢驗(yàn)有異曲同工之處?；貧w方程的擬合優(yōu)度越高，回歸方程的顯著性檢驗(yàn)也會(huì)越顯著。但應(yīng)注意的是，回歸方程的擬合優(yōu)度檢驗(yàn)實(shí)質(zhì)上并非統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)檢驗(yàn)問題，它不涉及統(tǒng)計(jì)檢驗(yàn)的一系列步驟，因此，回歸方程的擬合優(yōu)度檢驗(yàn)本質(zhì)上僅僅是一種刻畫性的描述，不涉及對(duì)解釋變量和被解釋變量總體線性關(guān)系的推斷，而這恰恰是回歸方程顯著性檢驗(yàn)所要實(shí)現(xiàn)的目標(biāo)。（三）回歸系數(shù)的顯著性檢驗(yàn) 回歸系數(shù)的顯著性檢驗(yàn)的主要目的是研究回歸方程中的每個(gè)解釋變

20、量與被解釋變量之間是否存在顯著的線性關(guān)系，也就是研究每個(gè)解釋變量能否有效地解釋被解釋變量的線性關(guān)系，它們能否應(yīng)保留在線性回歸方程中。回歸系數(shù)顯著性檢驗(yàn)是圍繞回歸系數(shù)（或偏回歸系數(shù)）估計(jì)值的抽樣分布展開的，由此構(gòu)造服從某種理論分布的檢驗(yàn)統(tǒng)計(jì)量，并進(jìn)行檢驗(yàn)。1、一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn) 一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的原假設(shè)是：回歸系數(shù)與零無顯著差異。回歸系數(shù)顯著性檢驗(yàn)一般采用檢驗(yàn)的方法，其計(jì)算公式為： (7.19) SPSS在自動(dòng)計(jì)算回歸系數(shù)的值后，會(huì)給出相伴概率值。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕

21、原假設(shè)。2、多元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn) 一元線性回歸方程的回歸系數(shù)顯著性檢驗(yàn)的原假設(shè)是：第個(gè)偏回歸系數(shù)與零無顯著差異。回歸系數(shù)顯著性檢驗(yàn)一般采用檢驗(yàn)的方法，其計(jì)算公式為： (7.21) SPSS在自動(dòng)計(jì)算每個(gè)回歸系數(shù)的值后，會(huì)給出相伴概率值。如果相伴概率值小于或等于給定的顯著性水平，則拒絕原假設(shè)；如果相伴概率值大于給定的顯著性水平，則不能拒絕原假設(shè)。在一元線性回歸分析中，回歸方程顯著性檢驗(yàn)和回歸系數(shù)顯著性檢驗(yàn)的作用是相同的，兩者可以相互替代。同時(shí)，回歸方程顯著性檢驗(yàn)中統(tǒng)計(jì)量恰好等于回歸系數(shù)顯著性檢驗(yàn)中統(tǒng)計(jì)量的平方。多元線性模型中，回歸方程顯著性檢驗(yàn)與回歸系數(shù)顯著性檢驗(yàn)

22、的作用不盡相同。回歸方程顯著性檢驗(yàn)只能檢驗(yàn)所有偏回歸系數(shù)是否同時(shí)為零。回歸系數(shù)顯著性檢驗(yàn)對(duì)每個(gè)偏回歸系數(shù)是否為零進(jìn)行逐一考察。因此，多元線性回歸方程中的這兩種檢驗(yàn)不能互相替代。（四）回歸方程的殘差分析所謂殘差是指由回歸方程計(jì)算所得的預(yù)測值與實(shí)際樣本值之間的差距。它是回歸模型中的估計(jì)值，由多個(gè)形成的序列稱為殘差序列。數(shù)學(xué)表達(dá)式為： (7.23) 殘差分析是回歸方程檢驗(yàn)中的重要組成部分，其出發(fā)點(diǎn)是：如果回歸方程能夠較好地反映被解釋變量的特征和變化規(guī)律，那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢性。殘差分析正是基于這種考慮并圍繞對(duì)殘差的檢驗(yàn)展開，主要任務(wù)有以下四個(gè)方面。1、殘差均值為0的正態(tài)性分析

23、殘差均值為0的正態(tài)性分析，又名殘差的正態(tài)性檢驗(yàn)。對(duì)于殘差序列的正態(tài)性分析，我們可以通過繪制殘差圖對(duì)該問題進(jìn)行分析。殘差圖也是一種散點(diǎn)圖，圖中一般橫坐標(biāo)是解釋變量（也可以是被解釋變量的預(yù)測值），縱坐標(biāo)為殘差。如果殘差的均值為0，殘差圖中的點(diǎn)應(yīng)在縱坐標(biāo)為0的橫線上下隨機(jī)散落。我們還可以通過繪制標(biāo)準(zhǔn)化（或?qū)W生化）殘差序列的帶正態(tài)曲線的直方圖或累計(jì)概率圖來分析。 2、殘差序列的獨(dú)立性分析在對(duì)回歸模型的診斷中，需要診斷回歸模型中的誤差序列的獨(dú)立性。殘差獨(dú)立性分析可以通過以下三種方式實(shí)現(xiàn)：（1）繪制殘差序列的序列圖。在直角坐標(biāo)系中，常以預(yù)測值為橫軸，以與之間的誤差（或?qū)W生式殘差值）為縱軸，繪制

24、殘差的散點(diǎn)圖。如果散點(diǎn)圖呈現(xiàn)出明顯的規(guī)律性，則認(rèn)為存在自相關(guān)性，或者存在非線性、非常數(shù)方差的問題。利用殘差圖還可以判斷模型擬合效果。（2）計(jì)算殘差的自相關(guān)系數(shù)。自相關(guān)系數(shù)是一種測度序列自相關(guān)強(qiáng)弱的工具，數(shù)學(xué)定義為：自相關(guān)系數(shù)的取值范圍在-1和+1之間，接近于1表明序列存在正自相關(guān)，接近-1表明序列存在負(fù)自相關(guān)。（3） (Durbin-Watson)檢驗(yàn) 檢驗(yàn)是推斷是否存在自相關(guān)的統(tǒng)計(jì)檢驗(yàn)方法。其原假設(shè)是：總體的自相關(guān)系數(shù)與零無顯著差異。采用的檢驗(yàn)統(tǒng)計(jì)量是統(tǒng)計(jì)量。 (7.25) 的取值范圍是04，它的統(tǒng)計(jì)學(xué)意義如下： =0時(shí)，殘差序列存在完全正自相關(guān)； 2時(shí)，殘差與解釋變量互為獨(dú)立，即殘

25、差不存在自相關(guān)； 2時(shí)，相鄰兩點(diǎn)的殘差為正相關(guān)； 2時(shí)，相鄰兩點(diǎn)的殘差為負(fù)相關(guān)； =4時(shí)，殘差序列存在完全負(fù)自相關(guān)。 3、異方差分析異方差分析即方差齊性檢驗(yàn)。異方差分析可以通過以下兩種方式實(shí)現(xiàn)：（1）繪制殘差圖一般用繪制被解釋變量預(yù)測值與學(xué)生式殘差的散點(diǎn)圖來檢驗(yàn)，殘差應(yīng)隨機(jī)地分布在一條穿過零點(diǎn)的水平直線的兩側(cè)。（2）等級(jí)相關(guān)分析得到殘差序列后首先對(duì)其取絕對(duì)值，然后分別計(jì)算出殘差和解釋變量的秩，最后計(jì)算Spearman等級(jí)相關(guān)系數(shù)，并進(jìn)行等級(jí)相關(guān)分析。如果等級(jí)相關(guān)分析中檢驗(yàn)統(tǒng)計(jì)量的概率值小于給定的顯著性水平，應(yīng)拒絕等級(jí)相關(guān)分析的原假設(shè)，認(rèn)為解釋變量與殘差間存在顯著的相關(guān)關(guān)系，出現(xiàn)了異方

26、差現(xiàn)象。 4、探測樣本中的異常值和強(qiáng)影響點(diǎn) 異常值和強(qiáng)影響點(diǎn)是指那些遠(yuǎn)離遠(yuǎn)離均值的樣本數(shù)據(jù)點(diǎn)，它們對(duì)回歸方程的參數(shù)估計(jì)有較大的影響，應(yīng)盡量找出它們并加以排除。（1）對(duì)被解釋變量中影響點(diǎn)的探測方法有標(biāo)準(zhǔn)化殘差（Dresid）、學(xué)生化殘差(Sdresid)、剔除殘差。（2）對(duì)解釋變量中影響點(diǎn)的探測方法有杠桿值、庫克距離（Cook距離）、標(biāo)準(zhǔn)化回歸系數(shù)的變化和標(biāo)準(zhǔn)化預(yù)測值的變化。三、共線性分析（一）解釋變量的篩選方法如果某些解釋變量彼此相關(guān)，即存在共線性問題，就需要對(duì)回歸方程中的解釋變量加以控制和篩選。在多元線性回歸時(shí)，變量的篩選一般有向前引入法、向后剔除法和逐步引入-剔除法三種基本方法。

27、1、向前引入法（Forward）：指解釋變量由少到多一個(gè)一個(gè)引入回歸方程，直到不能按檢驗(yàn)水準(zhǔn)引入新的變量為止。 2、向后剔除法（Backward）：指解釋變量由多到少一個(gè)一個(gè)從回歸方程中剔除，直到不能按檢驗(yàn)水準(zhǔn)剔除為止。 3、逐步引入-剔除法（Stepwise）：是指將向前引入法和向后剔除法結(jié)合起來，在向前引入的每一步之后都要考慮從已引入方程的變量中剔除作用不顯著者。（二）解釋變量間多重共線性的測度 1、解釋變量的容忍度(Tolerance) 某解釋變量的容忍度定義為：，取值范圍在0至1之間，如果某解釋變量的容忍度較大，一方面說明該解釋變量對(duì)被解釋變量變差的解釋關(guān)系能力較強(qiáng)，另一方面也說明該

28、解釋變量與其他解釋變量的相關(guān)性越弱，即多重共線性較低，應(yīng)將其引入回歸方程。 2、方差膨脹因子(VIF) 方差膨脹因子是容忍度的倒數(shù)，其值介于1-之間。其值越大，解釋變量之間存在共線性的可能性越大。 3.特征根（Eigenvalues）特征根中，如果最大特征根的值遠(yuǎn)遠(yuǎn)大于其他特征根的值，則說明這些解釋變量間具有相當(dāng)多的重疊信息，原因是僅通過這一個(gè)特征根就基本刻畫了所有解釋變量的絕大部分信息。 4.方差比（Variance Proportions）如果某個(gè)特征根既能夠刻畫某解釋變量方差的較大部分比例，同時(shí)又可以刻畫另一個(gè)解釋變量方差的較大部分比例，則表明這兩個(gè)解釋變量間存在較強(qiáng)的線性相關(guān)關(guān)系。

29、 5.條件指數(shù)（Condition Index）條件指數(shù)是最大的特征根與第個(gè)特征根比的平方根。其值越大，說明解釋變量間的多重共線性越嚴(yán)重。（三）共線性問題的解決方法共線性問題是建立回歸模型過程中比較常見而又較難克服的問題，常用的方法有：（1）從有共線性問題的解釋變量中剔除不重要的解釋變量。（2）增加樣本量。（3）重新抽取樣本數(shù)據(jù)。不同樣本的觀察量的共線性是不一致的，所以重新抽取樣本數(shù)據(jù)有可能減少共線性問題的嚴(yán)重程度。四、線性回歸分析在SPSS中的實(shí)現(xiàn)1、主對(duì)話框 (1) 建立或打開數(shù)據(jù)文件后，從Analyze Regression Linear，打開線性回歸主對(duì)話框，如圖7-8 所示

30、。圖7-8 線性回歸主對(duì)話框 (2) 在左側(cè)的源變量欄中選擇被解釋變量進(jìn)入Dependent 欄中，選擇一個(gè)或更多的解釋變量進(jìn)入Independent(s)欄中。 (3) 在Method（方法）選擇框中確定一種建立回歸方程的方法。有Enter(強(qiáng)迫引入法)，Remove(強(qiáng)迫剔除法)，F(xiàn)orward(向前引入法)：Backward(向后剔除法) Stepwise(逐步引入一剔除法) 5 種方法可供選擇。 (4) 根據(jù)一個(gè)設(shè)定的變量值選擇參與回歸分析的觀察量，將作為參照的變量送入Selection variable(選擇變量)框中。（5）在主對(duì)話框的Case Label 下面輸入變量名，用其值

31、作為觀察量標(biāo)簽。（6）單擊WLS(Weight Least Squares)按鈕，選擇一個(gè)作為權(quán)重的變量進(jìn)入WLS Weight框中。2、Statistics(統(tǒng)計(jì))對(duì)話框單擊“Statistics“按鈕進(jìn)入統(tǒng)計(jì)對(duì)話框，如圖7-9所示。圖7-9 輸出統(tǒng)計(jì)量對(duì)話框（1）Regression Coefficients欄，有關(guān)回歸系數(shù)的選項(xiàng)。 Estimates復(fù)選項(xiàng)(默認(rèn)選擇項(xiàng))，輸出回歸系數(shù)的相關(guān)數(shù)據(jù)。 Confidence intervals復(fù)選項(xiàng)，輸出每一個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)95%的可信區(qū)間或者一個(gè)方差矩陣。 Covariance matrix復(fù)選項(xiàng)，輸出非標(biāo)準(zhǔn)化回歸系數(shù)的協(xié)方差矩陣、各變

32、量的相關(guān)系數(shù)矩陣。（2）與模型擬合及其擬合效果有關(guān)的選項(xiàng) Model fit復(fù)選項(xiàng)(默認(rèn)選擇項(xiàng))：輸出進(jìn)入或從模型中剔除的變量；顯示復(fù)相關(guān)系數(shù)、判定系數(shù)、調(diào)整 (Adjusted R Square)、估計(jì)值的標(biāo)準(zhǔn)誤以及方差分析表。 R squared change復(fù)選項(xiàng)，輸出、、。 Descriptives復(fù)選項(xiàng)，輸出合法觀察量的數(shù)量，變量的均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣及單尾檢驗(yàn)顯著性水平矩陣。 Part and partial correlations復(fù)選項(xiàng)，顯示方程中各解釋變量與被解釋變量的零階相關(guān)系數(shù)、偏相關(guān)系數(shù)和部分相關(guān)系數(shù) Collinearity diagnostic復(fù)選項(xiàng)，

33、顯示各變量的容忍度、方差膨脹因子和共線性的診斷表。（3）Residuals欄，有關(guān)殘差分析的選項(xiàng)。 Durbin-Watson復(fù)選項(xiàng)，輸出Durbin-Watson統(tǒng)計(jì)量以及可能是異常值的觀測量診斷表。 Casewise diagnostic復(fù)選項(xiàng)，對(duì)標(biāo)準(zhǔn)化殘差進(jìn)行診斷，判斷有無奇異值。 Outliers outside standard deviations選項(xiàng)，顯示標(biāo)準(zhǔn)化殘差超過個(gè)標(biāo)準(zhǔn)差的奇異值。 All Cases選項(xiàng)，輸出所有觀測值的殘差值。3Plots對(duì)話框單擊“Plots”按鈕，對(duì)話框如圖7-10所示，選擇要輸出的圖形。圖7-10 Plots 圖形對(duì)話框 (1) 散點(diǎn)圖：可選擇如

34、下任何兩個(gè)變量為縱軸變量與橫軸變量作圖?？梢赃x擇的作圖元素有：DEPENDENT（被解釋變量）、*ZPRED（標(biāo)準(zhǔn)化預(yù)測值）、*ZRESID（標(biāo)準(zhǔn)化殘差）、*DRESID（刪除的殘差）、ADJPRED（修正后預(yù)測值）、SRESID（學(xué)生化殘差）、SDRESID（Student氏刪除殘差）。 (2) Standardized Residual Plots欄，選擇輸出標(biāo)準(zhǔn)化殘差圖。 Histogram復(fù)選項(xiàng)，輸出標(biāo)準(zhǔn)化殘差的直方圖，并給出正態(tài)曲線。 Normal probality plot復(fù)選項(xiàng)，輸出標(biāo)準(zhǔn)化殘差的正態(tài)概率圖(P-P 圖)，檢查殘差的正態(tài)性。 (3) Produce all pa

35、rtial plots復(fù)選項(xiàng)，輸出每一個(gè)解釋變量的殘差相對(duì)于被解釋變量殘差的散點(diǎn)圖。4Save對(duì)話框單擊“Save”按鈕，對(duì)話框如圖7-11所示。每項(xiàng)選擇都會(huì)增加新變量到正在使用的數(shù)據(jù)文件中。圖7-11 Save 保存新變量對(duì)話框（1） Predicted Values欄，選擇輸出預(yù)測值。其中：Unstandardized復(fù)選項(xiàng)，預(yù)測值。Standardized復(fù)選項(xiàng)，標(biāo)準(zhǔn)化的預(yù)測值。Adjusted復(fù)選項(xiàng)，將一個(gè)觀測值排除在回歸方程之外時(shí)，它本身的預(yù)測值。S. E. of mean predictions復(fù)選項(xiàng)，預(yù)測值的均值標(biāo)準(zhǔn)誤。（2）Distances欄，即距離欄。包括Mahalan

36、obis復(fù)選項(xiàng)，Cooks復(fù)選項(xiàng)，Leverage values復(fù)選項(xiàng)。（3） Prediction Intervals，選擇輸出預(yù)測區(qū)間。其中，Mean復(fù)選項(xiàng)，預(yù)測區(qū)間高低限的平均值；Individual復(fù)選項(xiàng)，觀測量預(yù)測值上、下限的間距。（4） Residuals欄，輸出殘差值。其中Unstandardized 復(fù)選項(xiàng)，非標(biāo)準(zhǔn)化殘差；Standardized復(fù)選項(xiàng)，標(biāo)準(zhǔn)化殘差；Studentized復(fù)選項(xiàng)，學(xué)生化殘差；Deleted復(fù)選項(xiàng)，剔除殘差；Studentized Deleted復(fù)選項(xiàng)，學(xué)生化殘差剔除。（5）Influence Statistics欄，輸出影響點(diǎn)的統(tǒng)計(jì)量。其中

37、：DfBeta（s）復(fù)選項(xiàng)，因排除一個(gè)特定的觀測值所引起的回歸系數(shù)的變化值。Standardized DfBeta（s）復(fù)選項(xiàng)，標(biāo)準(zhǔn)化的DfBeta。fFit復(fù)選項(xiàng)，因排除一個(gè)特定的觀測值所引起的預(yù)測值的變化量。Standardized DfFit復(fù)選項(xiàng)，標(biāo)準(zhǔn)化的DfFit值。Covariance Ratio復(fù)選項(xiàng)，協(xié)方差矩陣。（6）在Save to New File欄，將回歸系數(shù)保存到一個(gè)指定的文件中。（7）在Export model information to XML file框中，將模型的信息輸出到指定的文件中。5Options對(duì)話框單擊“Option”按鈕，打開Options 對(duì)話框，如圖7-12 所示。圖7-12 Options 對(duì)話框（1） Stepping Method Criteria欄：設(shè)置變量引入模型或從模型剔除的判據(jù)。其中：Use probability of F選項(xiàng)，采用檢驗(yàn)的概率值作為判據(jù)。Use F value F選項(xiàng)，采用值作為變量引入模型或從模型剔除的判據(jù)。（2）Include constant in equation：線性回歸方程中含有常數(shù)項(xiàng)。這是默認(rèn)選項(xiàng)。（3） Missing Value欄，缺失值的處理方法。其中，Ex

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)分析與回歸分析及曲線估計(jì)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)分析與回歸分析及曲線估計(jì)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔