直線相關與回歸課件_第1頁
直線相關與回歸課件_第2頁
直線相關與回歸課件_第3頁
直線相關與回歸課件_第4頁
直線相關與回歸課件_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

直線相關與回歸2024/12/24直線相關與回歸兩變量關聯性分析

2024/12/24直線相關與回歸一、線性相關(LinearCorrelation

)(一)概念及其統計描述1、散點圖(scatterplot)為了確定相關變量之間的關系,首先收集一些數據,這些數據應該是成對的。例如,每人的身高和體重。然后在直角坐標系上描述這些點,這一組點集稱為散點圖。兩變量關聯性分析

2024/12/24直線相關與回歸為了研究父親與成年兒子身高之間的關系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上,如圖。用水平軸X上的數代表父親身高,垂直軸Y上的數代表兒子的身高,1078個點所形成的圖形是一個散點圖。它的形狀象一塊橄欖狀的云,中間的點密集,邊沿的點稀少,其主要部分是一個橢圓。

2024/12/24直線相關與回歸相關的類型

★正相關★負相關★完全正相關★完全負相關★零相關

2024/12/24直線相關與回歸2、相關系數(correlationcoefficient

)1)定義:說明兩變量之間關聯的密切程度(絕對值大?。┡c關聯的性質(正負號),又稱Pearson積差相關系數。2)符號:總體相關系數——

樣本相關系數——r2024/12/24直線相關與回歸3)計算公式-1≤r≤1?r?≈0——線性相關性差;?r?≈1——線性相關性好。2024/12/24直線相關與回歸4)計算過程:例:一個產科醫(yī)師發(fā)現孕婦尿中雌三醇含量與產兒的體重有關。于是設想,通過測量待產婦尿中雌三醇含量,可以預測產兒體重,以便對低出生體重進行預防。因此收集了31例待產婦24小時的尿,測量其中的雌三醇含量,同時記錄產兒的體重,見下表。問尿中雌三醇含量與產兒體重之間相關系數是多少?是正相關還是負相關?2024/12/24直線相關與回歸編號

(1)尿雌三醇mg/24h(2)產兒體重kg(3)編號

(1)尿雌三醇mg/24h(2)產兒體重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2

2024/12/24直線相關與回歸X(尿雌三醇)Y(產兒體重)X?YX2Y279912…

…2.52.52.52.7…

…XY(X?Y)

X2

Y2XY計算表:2024/12/24直線相關與回歸

∑X=534,∑Y=99.2,

∑X2=9876,∑Y2=324.8,∑XY=1750

從計算結果可以知道,31例待產婦尿中雌三醇含量與產兒體重之間程正相關,相關系數是0.61。2024/12/24直線相關與回歸(二)相關系數的統計推斷1、原因:

=0抽樣誤差的存在

r≠02、前提條件:兩個變量均服從(或近似服從)正態(tài)分布的定量資料。2024/12/24直線相關與回歸3、假設檢驗:

①直接查表②

t檢驗H0=0(兩者之間無線性相關)H1

≠0(兩者之間有線性相關)檢驗統計量rt

=n-2

2024/12/24直線相關與回歸(三)應用線性相關應注意的問題1、r≈0不意味兩變量間一定無相關性,只能說無直線相關,可能有曲線性;2、兩變量應均為隨機樣本才可作相關分析;3、注意異常值;4、相關未必有內在聯系;5、分層資料盲目合并易出假象。2024/12/24直線相關與回歸二、秩相關(RankCorrelation

)(一)概念及統計描述1、應用條件:當兩變量不服從正態(tài)分布,或總體分布未知時,利用兩變量的秩次大小做線性相關分析,屬非參數統計方法。2024/12/24直線相關與回歸2、性質:秩相關又叫等級相關,其中最常用的是Spearman秩相關。3、Spearman秩相關系數、等級相關系數(rs):說明兩個非正態(tài)分布或分布類型未知的變量間相關的密集程度和相關方向。2024/12/24直線相關與回歸4、rs計算過程:1)將x、y分別從小到大排秩,x秩次為p,y秩次為q,觀察值相同的取平均秩次;2)以p、q分別替換x、y計算相關系數rs,rs=lpq/lpp?lqq2024/12/24直線相關與回歸xpp2yqq2p?qpp2q

q2(p?q)計算表2024/12/24直線相關與回歸(二)假設檢驗H0:s=0,兩者之間無線性相關H1:s≠0,兩者之間有線性相關

=0.05①當n≤50,直接以rs查rs臨界值表,若rs

>rs,

,則P<

;②n>50,做t檢驗,計算t值,查t界值表,得P值,做出推論。2024/12/24直線相關與回歸三、分類變量的關聯性分析(一)交叉分類2X2表的關聯性分析例:一份隨機樣本(82例患兒)同時按兩個屬性(是否腹瀉、喂養(yǎng)方式)分類,結果見下表喂養(yǎng)方式腹瀉有無人工30(a)10(b)母乳17(c)25(d)2024/12/24直線相關與回歸1、目的:檢驗兩個屬性之間有無關聯。2、基本步驟:H0:兩屬性之間互相獨立(無關聯)H1:兩屬性之間有關聯

=0.05χ

2=(ad-bc)2

?n(a+b)(c+d)(a+c)(b+d)=1

確定P值,做出推論。2024/12/24直線相關與回歸3、Pearson列聯系數1)定義:說明兩個分類變量關聯的程度大小,用r表示。2)計算公式:r=χ

2/(χ

2+n

)0<r<13)假設檢驗:可做

=0的t檢驗,t值的計算公式與前相同;與χ

2檢驗等價(即目的相同)。2024/12/24直線相關與回歸4、比較:從以下幾個方面與一般四格表χ

2檢驗相比較:1)設計類型不同;2)目的不同;3)χ

2計算公式相同;4)結果解釋不同。2024/12/24直線相關與回歸(二)2X2配對資料的關聯性分析1、資料形式:一組觀察對象,分別用兩種處理方法進行觀察,觀察結果皆為相同的兩個分類,形成雙向交叉排列的資料形式。甲乙+–+ab–cd2024/12/24直線相關與回歸2、目的:檢驗兩個處理方法的結果之間有無關聯。3、步驟:H0:兩個處理方法的結果之間互相獨立(無關聯)H1:兩個處理方法的結果之間有關聯

=0.05χ

2=(ad-bc)2

?n(a+b)(c+d)(a+c)(b+d)=1

確定P值,做出推論。也可計算列聯系數,公式同前。2024/12/24直線相關與回歸4、比較與2X2配對資料的χ

2檢驗相比較:1)設計類型相同;2)目的不同;3)χ

2計算公式不同;4)結果解釋不同。2024/12/24直線相關與回歸(三)RXC表分類資料的關聯性分析1、資料形式:一組觀察對象按兩種屬性分類,一個屬性分成R類,另一個屬性分成C類,形成交叉排列的結果。如下表。ⅠⅡ1234甲乙丙2024/12/24直線相關與回歸2、目的:檢驗兩屬性之間有無關聯。3、步驟:H0:Ⅰ與Ⅱ無關,H1:Ⅰ與Ⅱ有關,=0.05χ

2

=n?[

(A2/nR?nC)

–1]=(R-1)x(C-1)

χ

2與χ

20.05,

比較,得P值,做出推論。同時也可以計算列聯系數(略)。2024/12/24直線相關與回歸4、比較與完全隨機設計的多組樣本χ2檢驗比較:1)設計類型不同;2)目的不同;3)χ2計算公式相同。2024/12/24直線相關與回歸直線回歸2024/12/24直線相關與回歸一個自變量X(independentvariable)一個應變量Y(dependentvariable)分析X與Y之間的數量依存變化關系,用函數關系式表達。直線回歸2024/12/24直線相關與回歸一、概念及統計描述1、概念:以自變量X為橫軸,以應變量Y為縱軸,做散點圖。2024/12/24直線相關與回歸兩個變量之間有直線相關關系,并且一個變量的變化會引起另一個變量的變化,這時,如果它們之間存在嚴格的函數關系,那么它們的變化可用函數方程來表示。但在實際生活當中,由于其它因素的干擾,許多雙變量之間的關系并不是嚴格的函數關系,不能用函數方程反映,為了區(qū)別于兩變量間的函數方程,我們稱這種關系式為直線回歸方程,這種關系為直線回歸。2024/12/24直線相關與回歸2、統計描述1)直線回歸方程:

?=a+b?xa:截距,即X=0時的y值;

b:樣本的回歸系數。2024/12/24直線相關與回歸b的統計學意義為:X變化1個單位,Y平均改變b個單位。b=0——說明X與Y之間無直線關系;b>0——說明Y隨著X的增加而增大;b<0——說明Y隨著X的增加而減小。2024/12/24直線相關與回歸2)回歸線:以回歸方程作圖,把X的兩個值代入方程,x1→

?1,x2→

?2,兩點決定一條直線。直線通過兩個特殊點:(0,a)、(

X,Y)2024/12/24直線相關與回歸二、回歸模型的前提假設(LINE)1、線性(linear):x與y之間呈線性關系;2、獨立(independent):各觀察值之間互相獨立;3、正態(tài)性(normal):x、y均服從正態(tài)分布;4、方差齊性(equal):不論x取任何值,y都具有相同的方差。2024/12/24直線相關與回歸2024/12/24直線相關與回歸三、回歸參數的估計1、最小二乘法原則:每個散點到回歸線上的縱向距離平方和最小。2、估計方法(計算過程)——計算a、b。2024/12/24直線相關與回歸四、y的總變異的分解:YXyxyy=y+(y-?

)+(?-y)?=a+b*x2024/12/24直線相關與回歸y=y+(y-?

)+(?-y)y-y=(y-?

)+(?-y)Σ(y-y)2=Σ(y-?

)2+Σ(?-y)2SS總=SS剩余

+SS回歸

ν總=ν剩

+ν回ν總=n-1,ν回=1,ν剩

=n-22024/12/24直線相關與回歸SS回反映的是,在Y的總變異中可以由自變量X來解釋的部分;SS剩反映的是隨機誤差的部分。(y-?

)稱為殘差。2024/12/24直線相關與回歸五、總體回歸系數β的統計推斷1、Sb:描述一組樣本回歸系數b的離散程度,稱為回歸系數的標準誤。2024/12/24直線相關與回歸2、Sy.x

Sy.x=SS剩/(n-2)

SS剩=

(y

-

?)2Sy.x為剩余標準差;ss剩為剩余平方和,反映散點圍繞回歸直線的分散程度。2024/12/24直線相關與回歸3、β的假設檢驗1)原因:

β=0

抽樣誤差的存在

b≠02024/12/24直線相關與回歸2)t檢驗:H0:β=0,兩者之間無直線關系H1:β

≠0,兩者之間有直線關系=0.05t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論