版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十二章 直線回歸與相關(guān) 客觀事物在發(fā)展過(guò)程中是相互聯(lián)系、相互影響,常常要研究?jī)蓚€(gè)或兩個(gè)以上變量間的關(guān)系。 下一張 主 頁(yè) 退 出 上一張 下一張 主 頁(yè) 退 出 上一張 一、回歸與相關(guān)概述一類是完全確定性的關(guān)系,又稱函數(shù)關(guān)系,可以用精確的數(shù)學(xué)表達(dá)式來(lái)表示,即當(dāng)變量x的值取定后,變量y有唯一確定的值與之對(duì)應(yīng)。 如長(zhǎng)方形的面積(S) 與 長(zhǎng)(a)和寬(b)的關(guān)系: S=ab。它們之間的關(guān)系是確定性的,只要知道了其中兩個(gè)變量的值就可以精確地計(jì)算出另一個(gè)變量的值,這類變量間的關(guān)系稱為函數(shù)關(guān)系。1、各種變量間的關(guān)系大致可分為兩類:確定性關(guān)系非確定性關(guān)系如人的身高與體重的關(guān)系,作物種植密度與產(chǎn)量的關(guān)系,
2、食品價(jià)格與需求量的關(guān)系等等,這些變量間都存在著十分密切的關(guān)系,但不能由一個(gè)或幾個(gè)變量的值精確地求出另一個(gè)變量的值。統(tǒng)計(jì)學(xué)中把這些變量間的關(guān)系稱為相關(guān)關(guān)系,把存在相關(guān)關(guān)系的變量稱為相關(guān)變量。 下一張 主 頁(yè) 退 出 上一張 另一類是 非確定性關(guān)系,不能用精確的數(shù)學(xué)公式來(lái)表示,當(dāng)變量x的值取定后,y有若干種可能取值。 在一定范圍內(nèi),對(duì)一個(gè)變量的任意數(shù)值(Xi),雖然沒(méi)有另一個(gè)變量的確定數(shù)值yi與之對(duì)應(yīng),但是卻有一個(gè)特定yi的條件概率分布與之對(duì)應(yīng),這種變量的不確定關(guān)系,稱為相關(guān)關(guān)系。2、相關(guān)關(guān)系一些常用術(shù)語(yǔ):直線相關(guān):是指兩個(gè)變量呈線性共同增大或者呈線性一增一減曲線相關(guān):兩變量存在相關(guān)趨勢(shì),但并非線
3、性,而是呈曲線趨勢(shì)。正相關(guān):如A變量增加時(shí),B變量也增加負(fù)相關(guān): A變量增加時(shí),B變量減小完全相關(guān):兩變量的相關(guān)程度達(dá)到了親密無(wú)間的程度,即確定性的函數(shù)關(guān)系,當(dāng)?shù)弥狝變量取值時(shí),就可以準(zhǔn)確推算出B變量的取值。下一張 主 頁(yè) 退 出 上一張 對(duì)多個(gè)變量進(jìn)行相關(guān)分析時(shí),研究一個(gè)變量與多個(gè)變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個(gè)變量間的線性相關(guān)稱為偏相關(guān)分析。下一張 主 頁(yè) 退 出 上一張 統(tǒng)計(jì)學(xué)上采用相關(guān)分析 ( correlation analysis)來(lái)研究呈平行關(guān)系相關(guān)變量之間的關(guān)系。 對(duì)兩個(gè)變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡(jiǎn)單相關(guān)分析(也叫直線相關(guān)分析); 回歸分析
4、是研究一個(gè)自變量或多個(gè)自變量(Independent)與一個(gè)依變量(Dependent)之間是否存在某種線性關(guān)系或非線性關(guān)系的一種統(tǒng)計(jì)學(xué)分析方法。下一張 主 頁(yè) 退 出 上一張 統(tǒng)計(jì)學(xué)上采用回歸分析 (regression analysis)方法研究呈因果關(guān)系的相關(guān)變量間的關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為依變量。 研究“一因一果”,即一個(gè)自變量與一個(gè)依變量的回歸分析稱為一元回歸分析; 研究“多因一果”,即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。 下一張 主
5、 頁(yè) 退 出 上一張 回歸分析的任務(wù)就是揭示出呈因果關(guān)系的相關(guān)變量間的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來(lái)預(yù)測(cè)、控制依變量(結(jié)果)。回歸分析主要包括:找出回歸方程;檢驗(yàn)回歸方程是否顯著;通過(guò)回歸方程來(lái)預(yù)測(cè)或控制另一變量。SPSS的相關(guān)分析功能被集中在Statistic菜單的Correlate子菜單中,它包括以下3個(gè)過(guò)程:Bivariate過(guò)程:此程度用于進(jìn)行兩個(gè)/多個(gè)變量之間的參數(shù)/無(wú)參數(shù)相關(guān)分析,如果是多個(gè)變量,則給出兩兩相關(guān)的分析結(jié)果,這是Correlate子菜單中最為常用的一個(gè)過(guò)程,實(shí)際上用戶對(duì)它的使用可能占到相關(guān)分析的95%以上。Partial過(guò)程
6、:就是偏相關(guān)分析。當(dāng)需要進(jìn)行相關(guān)分析的兩個(gè)變量取值均受到其他變量的影響時(shí)Distance過(guò)程:該過(guò)程一般不單獨(dú)使用,而是作為因素分析、聚類分析和多維尺度分析的預(yù)先分析過(guò)程,以協(xié)助了解復(fù)雜數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),為進(jìn)一步分析做準(zhǔn)備下一張 主 頁(yè) 退 出 上一張 二、相關(guān)分析 ( correlation analysis)Bivariate過(guò)程是相關(guān)分析中用得最多的一個(gè)分析過(guò)程,用于進(jìn)行兩個(gè)變量間的線性相關(guān)分析,結(jié)果中可以給出Pearson相關(guān)系數(shù)、Kendall等級(jí)相關(guān)系數(shù)和Spearman等級(jí)關(guān)系數(shù)值,下面用一個(gè)例子來(lái)說(shuō)明Bivariate過(guò)程。例 某地一年級(jí)12名女大學(xué)生的體重與肺活量的數(shù)據(jù)如下,
7、試分析兩者有無(wú)直線相關(guān)關(guān)系?下一張 主 頁(yè) 退 出 上一張 (一)、Bivariate過(guò)程corr在進(jìn)行相關(guān)分析之前必須做散點(diǎn)圖,以判斷兩變量之間有無(wú)相關(guān)趨勢(shì),及趨勢(shì)是否呈線性(Line)關(guān)系,如果在圖形上兩個(gè)變量之間存在線性相關(guān)趨勢(shì),才能繼續(xù)后面的分析。(1)、散點(diǎn)圖分析: Graphs Scatter Simple散點(diǎn)圖中可以看出,體重與肺活量有著非常明顯的直線相關(guān)趨勢(shì),并且從圖中可以看出,沒(méi)有影響過(guò)強(qiáng)的異常點(diǎn),因此可放心地進(jìn)行相關(guān)分析;如果有過(guò)強(qiáng)點(diǎn),可考慮曲線回歸分析或其它相關(guān)分析下一張 主 頁(yè) 退 出 上一張 (2)、Bivariate分析Analyze -Correlate -Biv
8、ariate打開Bivariate主對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于選擇需要計(jì)算的相關(guān)分析指標(biāo):Pearson:進(jìn)行積距相關(guān)分析,最常用的相關(guān)分析Kendalls tau-b:計(jì)算Kendalls等級(jí)相關(guān)系數(shù),只能在兩個(gè)變量均屬于有序分類時(shí)使用Spearman:計(jì)算Spearman相關(guān)系數(shù),即最常用的非參數(shù)相關(guān)分析用于確定是進(jìn)行相關(guān)系數(shù)的單側(cè)或雙側(cè)檢驗(yàn),一般是雙側(cè)用于選入需要分析的變量,至少需要選入兩個(gè),如果選入了多個(gè),系統(tǒng)會(huì)給兩兩直線相關(guān)分析的結(jié)果要求在結(jié)果中用星號(hào)標(biāo)記有統(tǒng)計(jì)學(xué)顯著性意義的相關(guān)系數(shù),一般選中Options對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于選擇需要計(jì)算的描述統(tǒng)
9、計(jì)量和統(tǒng)計(jì)分析每個(gè)變量的平均值和標(biāo)準(zhǔn)差各變量的離均差平方和及變量方陣缺失值處理方法Analyze -Correlate -Bivariate打開Bivariate主對(duì)話框,將weight和lung變量選入Variables框;選擇Correlation Coefficients (選擇相關(guān)系數(shù)):一般要求計(jì)算Pearson和Spearman相關(guān)系數(shù)選擇Test of Significance (選擇相關(guān)系數(shù)的檢驗(yàn)):一般選擇two-tailedFlag significant correlations:在結(jié)果中用星號(hào)標(biāo)記有統(tǒng)計(jì)學(xué)顯著性意義的相關(guān)系數(shù)。單擊Options按鈕進(jìn)入Options對(duì)話
10、框,選中Means and standard deviations和Cross-product deviations and covariances,Missing Values選擇系統(tǒng)默認(rèn)下一張 主 頁(yè) 退 出 上一張 (3) 結(jié)果分析下一張 主 頁(yè) 退 出 上一張 這是散點(diǎn)圖,從中可以看出體重與肺活量有非常明顯的直線相關(guān)趨勢(shì),并且從圖中也沒(méi)有發(fā)現(xiàn)影響過(guò)強(qiáng)的異常點(diǎn),故可進(jìn)行相關(guān)分析這是描述統(tǒng)計(jì)量,有平均值和標(biāo)準(zhǔn)差下一張 主 頁(yè) 退 出 上一張 Descriptive Statistics MeanStd. Deviation體重49.33335.28004肺活量2.9025.41442Cor
11、relations 體重肺活量體重Pearson Correlation1.749(*)Sig. (2-tailed).005Sum of Squares and Cross-products306.66718.040Covariance27.8791.640N1212肺活量Pearson Correlation.749(*)1Sig. (2-tailed).005Sum of Squares and Cross-products18.0401.889Covariance1.640.172N1212*Correlation is significant at the 0.01 level (2
12、-tailed).這是變量間兩兩Pearson相關(guān)系數(shù)方陣下一張 主 頁(yè) 退 出 上一張 Correlations 體重Spearmans rho體重Correlation Coefficient1.000Sig. (2-tailed).N12肺活量Correlation Coefficient.849(*)Sig. (2-tailed).000N12*Correlation is significant at the 0.01 level (2-tailed).這是變量間兩兩Spearmans相關(guān)系數(shù)方陣1、現(xiàn)抽取1963-1982年共20年的統(tǒng)計(jì)數(shù)據(jù)(見(jiàn)研究投資性變量),試分析投資性變量與
13、國(guó)民收入之間的相關(guān)關(guān)系。2、研究商品零售總額與收入間的相關(guān)關(guān)系(數(shù)據(jù)見(jiàn)商品零售總額與收入)3、試分析體重與進(jìn)食量的關(guān)系(數(shù)據(jù)見(jiàn)體重與進(jìn)食量)4、試分析高一與高二數(shù)學(xué)成績(jī)的關(guān)系(高一與高二數(shù)學(xué)成績(jī))例題下一張 主 頁(yè) 退 出 上一張 當(dāng)分析兩個(gè)變量之間相關(guān)關(guān)系時(shí),往往會(huì)有其他變量的影響摻和在里面,使得計(jì)算出的相關(guān)系數(shù)難以體現(xiàn)出這兩個(gè)變量間的真實(shí)相關(guān)關(guān)系。這時(shí)就要用Parial過(guò)程進(jìn)行偏相關(guān)分析。例 現(xiàn)已測(cè)得20名糖尿病人的血糖(y,mmol/L)、胰島素(x1,mU/L)及生長(zhǎng)激素(x2,ug/L)的測(cè)量數(shù)據(jù)。請(qǐng)分析糖尿病人的血糖與生長(zhǎng)激素濃度間有無(wú)相關(guān)關(guān)系。下一張 主 頁(yè) 退 出 上一張 (二
14、)、Parial過(guò)程pcorr1、Parial分析過(guò)程(1)、對(duì)話框介紹Analyze -Correlate-Partial順序打開Partial主對(duì)話框 下一張 主 頁(yè) 退 出 上一張 用于選入需要分析的變量,至少需要選入兩個(gè),如果選入了多個(gè),系統(tǒng)會(huì)給兩兩直線相關(guān)分析的結(jié)果用于選入需要在偏相關(guān)分析時(shí)進(jìn)行控制的共變量,如果不選,即普通相關(guān)分析用于確定是進(jìn)行相關(guān)系數(shù)的單側(cè)或雙側(cè)檢驗(yàn),一般是雙側(cè)要求在結(jié)果中用星號(hào)標(biāo)記有統(tǒng)計(jì)學(xué)顯著性意義的相關(guān)系數(shù),一般選中Options對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于選擇需要計(jì)算的描述統(tǒng)計(jì)量和統(tǒng)計(jì)分析每個(gè)變量的平均值和標(biāo)準(zhǔn)差包括協(xié)變量在內(nèi)所有變量的相關(guān)方陣
15、缺失值處理方法(1)、對(duì)話框介紹Analyze -Correlate-Partial順序打開Partial主對(duì)話框,將y和x2選入Variables框;將x1選入Controlling for框;選中Testtwo-tailed和Display actual significance level單擊Options按鈕進(jìn)入Options對(duì)話框,選中Means and standard deviations和Zero-order correlation,Missing Values選擇系統(tǒng)默認(rèn)單OK,輸出結(jié)果(2) Parial分析過(guò)程下一張 主 頁(yè) 退 出 上一張 這是描述統(tǒng)計(jì)量,有平均值和標(biāo)準(zhǔn)
16、差(3) 結(jié)果分析下一張 主 頁(yè) 退 出 上一張 Descriptive Statistics MeanStd. Deviation血糖(mmol/L)10.85002.92585生長(zhǎng)素(ug/L)8.94404.35242胰島素(mU/L)17.33005.35862這是變量間兩兩Pearson相關(guān)系數(shù)方陣1、現(xiàn)測(cè)定30名13歲男童的身高、體重、肺活量數(shù)據(jù),試分析身高與肺活量的關(guān)系,以體重作為控制變量2、研究商品零售總額與收入間的相關(guān)關(guān)系(數(shù)據(jù)見(jiàn)商品零售總額與收入)3、試分析體重與進(jìn)食量的關(guān)系(數(shù)據(jù)見(jiàn)體重與進(jìn)食量)4、試分析高一與高二數(shù)學(xué)成績(jī)的關(guān)系(高一與高二數(shù)學(xué)成績(jī))例題下一張 主 頁(yè) 退
17、 出 上一張 Distance過(guò)程是對(duì)觀察值之間或變量之間相似或不相似程度的一種測(cè)度,是計(jì)算一對(duì)變量之間或一對(duì)觀測(cè)值之間的廣義的距離例 在某體育比賽中,有中、英、法等7個(gè)國(guó)家的裁判對(duì)選手進(jìn)行評(píng)分,評(píng)分結(jié)果見(jiàn)judges.sav。請(qǐng)根據(jù)評(píng)分高低判斷哪些國(guó)家的裁判比較類似,為以后的聚類分析提供信息。下一張 主 頁(yè) 退 出 上一張 (三)、Distances過(guò)程judges1、Distances分析過(guò)程(1)、對(duì)話框介紹Analyze-Correlate-Distance的順序打開主對(duì)話框。用于選入需要分析的變量,至少需要選入兩個(gè),如果選入了多個(gè),系統(tǒng)會(huì)給兩兩直線相關(guān)分析的結(jié)果計(jì)算距離:個(gè)案間距離變
18、量間距離選擇計(jì)算距離方法:相似性程度,數(shù)值越大,距離越遠(yuǎn)不相似程度,數(shù)值越大,距離越近Measure對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于確定測(cè)距方法,數(shù)據(jù)測(cè)量方法不同,測(cè)距的方法也不同有三類數(shù)據(jù):計(jì)量數(shù)據(jù)、計(jì)數(shù)數(shù)據(jù)和二值數(shù)據(jù),選中后點(diǎn)擊下拉菜單,可以選擇距離的計(jì)算方法用于確定在進(jìn)行計(jì)算之前,是否對(duì)個(gè)案或變量進(jìn)行標(biāo)準(zhǔn)化用于對(duì)距離測(cè)度的結(jié)果進(jìn)行轉(zhuǎn)換絕對(duì)值,對(duì)距離取絕對(duì)值改變符號(hào),把相似性測(cè)度值轉(zhuǎn)換成不相似性測(cè)度值或相反先減去最小值,然后除以范圍差值Measure對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于確定測(cè)距方法,數(shù)據(jù)測(cè)量方法不同,測(cè)距的方法也不同有三類數(shù)據(jù):計(jì)量數(shù)據(jù)、計(jì)數(shù)數(shù)據(jù)和二值數(shù)據(jù),
19、選中后點(diǎn)擊下拉菜單,可以選擇距離的計(jì)算方法下一張 主 頁(yè) 退 出 上一張 Interval(計(jì)量數(shù)據(jù)):Euclidean distance:Euclidean距離,是兩變量之差的平方和的平方根,默認(rèn)選 項(xiàng)Squared Euclidean distanc:Euclidean距離平方,是兩變量之差的平方和Chebychev:Chebychev距離,兩項(xiàng)之差的最大絕對(duì)值Block:區(qū)組距離,變量的兩個(gè)值之間差的絕對(duì)值之和Minkowski:Minkowski距離,兩變量值之差的p次冪絕對(duì)值之和的p次方根Customized:自定義距離,兩變量值之差的p次冪絕對(duì)值之和的r次方根,可以設(shè)定p和rMeasure對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于確定測(cè)距方法,數(shù)據(jù)測(cè)量方法不同,測(cè)距的方法也不同有三類數(shù)據(jù):計(jì)量數(shù)據(jù)、計(jì)數(shù)數(shù)據(jù)和二值數(shù)據(jù),選中后點(diǎn)擊下拉菜單,可以選擇距離的計(jì)算方法Options對(duì)話框下一張 主 頁(yè) 退 出 上一張 用于選擇需要計(jì)算的描述統(tǒng)計(jì)量和統(tǒng)計(jì)分析每個(gè)變量的平均值和標(biāo)準(zhǔn)差包括協(xié)變量在內(nèi)所有變量的相關(guān)方陣缺失值處理方法(1)、對(duì)話框介紹Analyze-Co
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《剪窗花》教學(xué)課件:探索2024年教育新實(shí)踐
- 2021牙科醫(yī)生年終工作總結(jié)范文
- 中外政治思想史期末復(fù)習(xí)重點(diǎn)簡(jiǎn)答題和名詞解釋
- 組態(tài)教學(xué)第7課
- 2024-2025學(xué)年高中數(shù)學(xué)單元素養(yǎng)評(píng)價(jià)第1章導(dǎo)數(shù)及其應(yīng)用含解析蘇教版選修2-2
- 八年級(jí)英語(yǔ)下冊(cè)Module2ExperiencesUnit1I'vealsoenteredlotsofspeakingcompetitions第一課時(shí)教案新版外研版
- 2024-2025學(xué)年新教材高中生物第二章細(xì)胞的結(jié)構(gòu)第五節(jié)細(xì)胞在結(jié)構(gòu)和功能上是一個(gè)統(tǒng)一整體課后精練含解析浙科版必修1
- 2024-2025版高中物理第五章交變電流5電能的輸送課時(shí)練習(xí)含解析新人教版選修3-2
- 山東專用2025版高考?xì)v史一輪復(fù)習(xí)模塊1政治文明歷程第2單元第3講古代希臘民主政治和羅馬法學(xué)案含解析新人教版
- 通史版2025屆高考?xì)v史統(tǒng)考一輪復(fù)習(xí)第1部分中國(guó)古代史第2單元課題1走向“大一統(tǒng)”-秦漢時(shí)期的社會(huì)治理與文化發(fā)展教師用書教案
- 高考物理系統(tǒng)性復(fù)習(xí) (能力提高練) 第五節(jié) 實(shí)驗(yàn):探究小車速度隨時(shí)間變化的規(guī)律(附解析)
- 眼科護(hù)理中的孕婦與產(chǎn)婦護(hù)理
- 業(yè)主業(yè)主委員會(huì)通用課件
- 了解金融市場(chǎng)和金融產(chǎn)品
- 南京理工大學(xué)2015年613物理化學(xué)(含答案)考研真題
- 初中數(shù)學(xué)應(yīng)用題解題思路分享
- 安全生產(chǎn)科技創(chuàng)新與應(yīng)用
- 人工智能在文化傳承與遺產(chǎn)保護(hù)中的價(jià)值實(shí)現(xiàn)
- 2024年汽修廠開業(yè)計(jì)劃書
- ISTA標(biāo)準(zhǔn)-2A、2B、2C系列解讀(圖文)
- 日間手術(shù)應(yīng)急預(yù)案方案
評(píng)論
0/150
提交評(píng)論