




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
直線相關與回歸Linearcorrelationandregression直線相關與回歸
前面介紹的統(tǒng)計方法都只涉及,即或進行兩組或多組比較,所比較的仍然是同一變量,而且是以討論各組間該變量的相差是否顯著為中心環(huán)節(jié)。醫(yī)學領域里??稍谝粋€統(tǒng)一體中遇到兩個或多個變量之間存在著相互聯(lián)系、相互制約的情況.如:同一批水樣的濁度與透光率,同一批人的與血壓以及身長、體重與胸圍等。如何研究變量之間的關系?在統(tǒng)計方法中通常是用相關與回歸的方法來研究不同變量之間的這種相互依存和互為消長的關系。相關與回歸即有區(qū)別又有聯(lián)系,表達事物或現(xiàn)象間的在數(shù)量方面相互關系的密切程度用相關系數(shù);說明一變量依另一變量的消長而變動的規(guī)律用回歸方程。數(shù)量關系的特點?函數(shù)關系:確定。例如園周長與半徑:y=2πr。一一對應關系。回歸關系:不確定。例如血壓和年齡的關系。
具有相同年齡的人,血壓不一定相同。但在一定年齡范圍內的人,其血壓會在一定范圍內波動。年齡與血壓之間有一定的趨勢。直線相關linearcorrelation相關----變量間的互依關系直線相關(linearcorrelation)也叫簡單相關(simplecorrelation),用于雙變量正態(tài)分布資料。為判斷兩事物數(shù)量間有無相關,可先將兩組變量中一對對數(shù)值在普通方格紙上作散點圖各種相關關系示意圖Positivecorrelation,Perfectpositivecorrelation,Negativecorrelation,Perfectnegativecorrelation,6.7.Zerocorrelation,8.Non-linearcorrelation一、直線相關系數(shù)
r相關分析是用相關系數(shù)(r)來表示兩個變量間相互的直線關系,并判斷其密切程度的統(tǒng)計方法。又稱積差相關系數(shù)(coefficientofproduct–momentcorrelation),或Pearson相關系數(shù)(軟件中常用此名稱)說明相關的密切程度和方向的指標。
r--樣本相關系數(shù)ρ--總體相關系數(shù)相關系數(shù)linearcorrelationcoefficient相關系數(shù)的意義相關系數(shù):說明具有直線關系的兩變量間,相關方向與密切程度的統(tǒng)計指標。相關系數(shù)r沒有單位,在-1~+1范圍變動,符號表示相關的方向,大小表示相關的程度。r>0,正相關;r<0,負相關;r=1,-1,完全相關;r=0,零相關(無直線關系),但不能表達直線以外的關系(如各種曲線)。正相關——見圖1,各點分布呈橢圓形,Y隨X的增加而增加,X亦隨Y的增加而增加,此時1>r>0。橢圓范圍內各點的排列愈接近其長軸,相關愈密切,當所有點都在長軸上時,r=1(見圖2),稱為完全正相關。負相關——見圖3,各點分布亦呈橢圓形,Y隨X的增加而減少,X也隨Y的增加而減少,此時0>r>-1。各點排列愈接近其長軸,相關愈密切,當所有點都在長軸上時,r=1(見圖4),稱為完全負相關。生物現(xiàn)象中,完全正相關或完全負相關甚為少見。無相關——見圖5、6和7,X不論增加或減少,Y的大小不受其影響;反之亦然。此時r=0。另外,須注意有時雖然各點密集于一條直線,但該直線與X軸或Y軸平行,即X與Y的消長互不影響,這種情況仍為無相關。非線性相關——見圖8,圖中各點的排列不呈直線趨勢,呈某種曲線形狀,此時r≈0,稱為非線性相關。
|r|>=0.7,高度相關;
0.4<=|r|<0.7,中度相關;
|r|<0.4,低度相關;X的離均差平方和Y的離均差平方和X與Y的離均差乘積之和,相關系數(shù)的計算舉例:
測定15名健康成人血液的凝血酶濃度(單位/毫升)及血液的凝固時間(秒),測定結果記錄于表第(2)、(3)欄,問血凝時間與凝血酶濃度間有無相關?1.繪圖,將第(2)、(3)欄各對數(shù)據(jù)繪成散點圖。2.求出∑X、∑Y、∑X2、∑Y2、∑XY∑X=15.1∑Y=222
∑XY=221.7
∑X2=15.41∑Y2=33043.代入公式,求出r值。r=-0.9070負值表示血凝時間隨凝血酶濃度的增高而縮短;絕對值∣-0.9070∣表示這一關系的密切程度。此相關系數(shù)是否顯著,則要經(jīng)過下面的分析。
雖然樣本相關系數(shù)r可作為總體相關系數(shù)ρ的估計值,但從相關系數(shù)ρ=0的總體中抽出的樣本,計算其相關系數(shù)r,因為有抽樣誤差,故不一定是0,要判斷不等于0的r值是來自ρ=0的總體還是來自ρ≠0的總體,必須進行顯著性檢驗。
r≠0原因:①由于抽樣誤差引起,ρ=0 ②存在相關關系,ρ≠0相關系數(shù)的假設檢驗
相關系數(shù)假設檢驗的過程(一)t檢驗由于來自ρ=0的總體的所有樣本相關系數(shù)呈對稱分布,故r的顯著性可用t檢驗來進行。υ=n-2Sr----相關系數(shù)的標準誤
公式
零假設:ρ=0,備擇假設:ρ≠0r與0的差別是否顯著要按該樣本來自ρ=0總體的概率而定。如果從ρ=0的總體中取得某r值的概率P>0.05,就接受假設,認為此r很可能是從此總體中取得的。因此判斷兩變量間無顯著關系;如果取得r值的概率P≤0.05或P≤0.01,就在α=0.05或α=0.01水準上拒絕檢驗假設,認為該r不是來自ρ=0的總體,而來自ρ≠0的另一個總體,因此判斷兩變量間有顯著關系。對r值檢驗的判斷1.建立檢驗假設,H0:ρ=0,H1:ρ≠0,
α=0.052.計算相關系數(shù)的r的t值:3.查t值表作結論
ν=n-2=15-2=13根據(jù)專業(yè)知識知道凝血酶濃度與凝血時間之間不會呈正相關,故宜用單側界限,查t值表得
t0.01,13=2.650今∣tr∣>t0.01,13,P<0.01,在α=0.01水準上拒絕H0,接受H1,故可認為凝血時間的長短與血液中酶濃度有負相關。(二)查表法:為簡化tr檢驗的計算過程,數(shù)理統(tǒng)計工作者根據(jù)t分配表,已把不同自由度時r的臨界值求出,并列成相關系數(shù)界值表(見附表13-1)。故只需查表就可知道該r值是否顯著,不必再計算tr值。
rα,ν,>|r|----P>α
----相關不顯著;
rα,ν,
≤|r|----α
≥P----在α水準上相關顯著;今:r=-0.9070,ν=15-2=13,查附表界值,得:r0.05,13=0.441r0.01,13=0.592
現(xiàn)∣r∣>r0.01,13,P<0.01,按α=0.01水準,拒絕HO,接受H1。認為ρ≠0,說明凝血時間的長短與血液中凝血酶濃度有負相關。結論與計算所得一致。相關系數(shù)的顯著性與自由度的大小有關,如n=3,ν=1時,雖r=-0.9070,卻為不顯著;若ν=400時,即使r=0.1000,亦為顯著。因此不能只看r的值,不考慮ν就下結論。相關分析應注意的問題1.相關分析一定要有實際意義。X,Y來自正態(tài)總體,隨機變量。2.相關分析前,先繪制散點圖。散點有線性趨勢,再進行相關分析。3.樣本量足夠大,可以根據(jù)r值大小推斷兩變量間的相關程度。小樣本時,即使檢驗有顯著性,也僅能對兩變量間的直線關系作判斷,相關的強度不可靠。尤其當r有統(tǒng)計學意義,但r2較小,結論要慎重。4.相關可以是因果關系,也可以只是伴隨關系。相關顯著只說明兩現(xiàn)象間的數(shù)量間存在直線關系,但不能證明事物間的內在聯(lián)系。當事物間的內在聯(lián)系尚未被認識前,相關分析能從數(shù)量上給理論研究提供線索。計算出相關系數(shù)后,如果r顯著,需要進一步了解兩變量中一個變量依另一個變量而變動的規(guī)律時,可進行回歸分析。直線回歸linearregression
直線回歸的概念反映兩變量間的依存變化的數(shù)量關系。應變量(dependentvariable)Y隨自變量(independentvariable)X變化而變化,以直線回歸方程(linearregressionequation)表示。與數(shù)學上的函數(shù)關系不同,回歸關系具有不確定性。
如:成年人年齡和血壓的關系,大量調查發(fā)現(xiàn)平均收縮壓隨年齡的增長而增高,且呈直線趨勢,但各點并非恰好都在直線上。為強調這一區(qū)別,統(tǒng)計上稱這是血壓在年齡上的“回歸”。建立一個描述應變量依自變量而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。按這個要求計算回歸方程的方法稱為最小平方法或最小二乘法。建立的方程是一個二元一次方程式。直線回歸分析的任務直線回歸方程的標準形式
a:截距(intercept),直線與Y軸交點的縱坐標。b:斜率(slope),回歸系數(shù)(regressioncoefficient)。
意義:X每改變一個單位,Y平均改變b個單位。
b>0,Y隨X的增大而增大(減少而減少)——斜上;
b<0,Y隨X的增大而減小(減少而增加)——斜下;
b=0,Y與X無直線關系——水平。|b|越大,表示Y隨X變化越快,直線越陡峭。直線回歸方程的計算
最小二乘法原則(leastsquaresmethod):使各散點到直線的縱向距離的平方和最小。即:最小。因為直線一定經(jīng)過“均數(shù)”點根據(jù)前面的相關分析以及醫(yī)學上有關凝血的機理,可知凝血時間依凝血酶濃度而異,且有密切的關系。因此可進一步作由凝血酶濃度(X)推算凝血時間(Y)的回歸方程。步驟如下:1.列回歸計算表,計算∑X、∑Y、∑X2、∑Y2、∑XY。2.計算、、∑(X-X)2、∑(X-X)(Y-Y)
=∑X/n=15.1/15=1.01
=∑Y/n=222/15=14.80∑(X-)2=∑X2-(∑X)2/n=0.2093∑(X-)(Y-)=∑XY-∑X·∑Y/n=-1.7800舉例3.計算回歸系數(shù)b和截距a。
本例b=-1.7800/0.2093=-8.5045
a=14.80-(-8.5045)(1.01)=23.38954.列出回歸方程,繪制回歸直線在凝血酶濃度的實測范圍內,即X=0.8到X=1.2之間,任選兩個X值(一般選相距較遠且直角坐標系上容易讀出者),代入此回歸方程,即得相應的兩個Y值,就可畫出該直線。須注意回歸直線必通過()點,并穿過觀察點群,直線上下各有一些點散布著,否則計算有誤。直線回歸方程的統(tǒng)計推斷總體回歸系數(shù)的估計:例題216頁樣本回歸系數(shù)的標準誤剩余標準差參差平方和為何進行總體回歸系數(shù)的估計?1.由于抽樣誤差的存在,每次抽樣所得到的樣本回歸系數(shù)有所不同。那么,用它來估計總體回歸系數(shù)也會不同。為了說明回歸方程的穩(wěn)定性,要對總體的回歸系數(shù)進行估計。2.可信度相同時,回歸系數(shù)的標準誤越小,可信區(qū)間就越小,回歸方程就穩(wěn)定。(一)樣本回歸系數(shù)的假設檢驗
b≠0原因:①由于抽樣誤差引起,總體回歸系數(shù)β=0②存在回歸關系,總體回歸系數(shù)β≠0直線回歸方程的假設檢驗樣本回歸系數(shù)的假設檢驗亦用t檢驗。
H0:β=0即Y的變化與X無關;
H1:β≠0即Y的變化與X有關;分母Sb是樣本回歸系數(shù)b的標準誤,計算公式為:Sy.x為各觀察值Y距回歸線的標準差(剩余標準差),即當X的影響被扣去以后Y方面的變異,
根據(jù)數(shù)理統(tǒng)計的理論,同一批資料計算所得tr與tb是相同的,即tr=tb。處理資料時可用檢驗相關顯著性代替其回歸顯著性。由于r在α=0.01水準上顯著,故可判斷樣本回歸系數(shù)-8.5045與0的相差有顯著性,說明存在凝血時間隨凝血酶濃度變化而變化的回歸關系。(二)兩樣本回歸系數(shù)相差的假設檢驗若有兩個可以比較的樣本,它們的回歸系數(shù)分別為b1與b2,經(jīng)檢驗都為顯著,回歸系數(shù)的標準誤分別為Sb1和Sb2。b1與b2相差的顯著性也可用t檢驗法檢驗,其計算公式為:S2C為兩樣本回歸系數(shù)的合并方差實例:兩樣本回歸系數(shù)t檢驗的步驟。同一批白蛋白于38℃與25℃條件下,不同時間(分)的凝固百分比,問由此而得的兩樣本回歸系數(shù)相差是否顯著?白蛋白在兩種溫度下各不同時間的凝固百分比1.H0:β1-β2=0
H1:β1-β2≠0
α=0.012.計算t值r1=0.998(P<0.01)b1=3.389∑(Y1-1)2=5.7927n1=6r2=0.996(P<0.01)b2=4.424∑(Y2-2)2=24.5857n2=6∑(X1-1)2=∑(X2-2)2=157.50003.查t值表作結論:以ν=6+6-4=8查t值表,t0.01,8=2.355,今∣t∣>t0.01,8,故P<0.01。
4.判斷結果:按α=0.01水準,拒絕H0,接受H1,故兩個回歸系數(shù)差別顯著。說明兩條回歸直線的斜率不同,兩條回歸直線中X對Y的影響規(guī)律不一致。現(xiàn)b2>b1,說明隨著時間的增加,蛋白質在38℃時凝固百分比的增加量比在25℃時高。直線回歸方程的應用1.描述兩變量間的依存變化的數(shù)量關系。2.利用回歸方程進行預測預報。3.用易得指標估計不易得指標。4.利用回歸方程進行統(tǒng)計控制(逆估計)。1.作回歸分析要有實際意義:不要把毫無關聯(lián)的兩個事物或現(xiàn)象用來作回歸分析。如兒童身高的增長與小樹的增長,作相關分析是沒有實際意義的;由兒童身高推算小樹高的回歸方程則更無實際意義,即使算得的r、b是顯著的。直線回歸分析的注意事項
2.對相關分析的作用要正確理解。相關分析只是以相關系數(shù)來描述兩個變量間相互關系的密切程度和方向,并不能闡明兩事物或現(xiàn)象間存在聯(lián)系的本質。而且相關并不一定就是因果關系,切不可單純依靠相關系數(shù)或回歸系數(shù)的顯著性“證明”因果關系之存在。要證明兩事物間的因果關系,必須憑籍專業(yè)知識從理論上加以闡明。3.相關與回歸的區(qū)別和聯(lián)系:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB3709T 038-2025泰山茶 山地低產(chǎn)茶園提升改造技術規(guī)程
- 海南九樂再生資源回收與利用有限公司水穩(wěn)站項目環(huán)評報告表
- 項目資金評分表
- 海航技術附件維修事業(yè)部??趶筒能囬g新租賃廠房及APU新試車臺項目環(huán)評報告表
- 店鋪硅酸鈣板施工方案
- 隔墻板做磚胎膜的施工方案
- 福建省泉州市2025屆高中畢業(yè)班質量監(jiān)測 (三)物理試題(含答案)
- 地板磚鋪設施工方案
- 2024-2025學年下學期高二語文第三單元A卷
- 數(shù)控加工工藝與編程技術基礎 教案 模塊一 任務2 初識數(shù)控加工工藝
- 小兒鋅缺乏癥剖析
- 古風集市策劃方案
- 道路危險貨物運輸安全培訓課件
- 社會工作綜合能力初級講義課件
- 青春期心理健康講座課件
- 《廣聯(lián)達培訓教程》課件
- 兒童流感的防治和預防措施
- 美業(yè)招商課件
- 城市災害學課件-地質災害(1)課件
- 面密度儀設備原理培訓課件
- 鑄件(原材料)材質報告
評論
0/150
提交評論