第十講相關與回歸演示文稿_第1頁
第十講相關與回歸演示文稿_第2頁
第十講相關與回歸演示文稿_第3頁
第十講相關與回歸演示文稿_第4頁
第十講相關與回歸演示文稿_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十講相關與回歸演示文稿相關與回歸1目前一頁\總數三十五頁\編于十點相關與回歸2(優(yōu)選)第十講相關與回歸目前二頁\總數三十五頁\編于十點直線相關LinearCorrelation目前三頁\總數三十五頁\編于十點散點圖為了確定相關變量之間的關系,首先應該收集一些數據,這些數據應該是成對的。例如,每人的身高和體重。然后在直角坐標系上描述這些點,這一組點集稱為散點圖。目前四頁\總數三十五頁\編于十點為了研究父親與成年兒子身高之間的關系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上,如圖。用水平軸X上的數代表父親身高,垂直軸Y上的數代表兒子的身高,1078個點所形成的圖形是一個散點圖。它的形狀象一塊橄欖狀的云,中間的點密集,邊沿的點稀少,其主要部分是一個橢圓。

目前五頁\總數三十五頁\編于十點相關的類型★正相關★負相關★完全正相關★完全負相關★稱零相關

目前六頁\總數三十五頁\編于十點相關系數

樣本的相關系數用r(correlationcoefficient)相關系數r的值在-1和1之間,但可以是此范圍內的任何值。正相關時,r值在0和1之間,散點云圖是斜向上的,這時一個變量增加,另一個變量也增加;負相關時,r值在-1和0之間,散點云圖是斜向下的,此時一個變量增加,另一個變量將減少。r的絕對值越接近1,兩變量的關聯程度越強,r的絕對值越接近0,兩變量的關聯程度越弱。目前七頁\總數三十五頁\編于十點相關系數的計算公式r的計算結果說明了兩個變量X與Y之間關聯的密切程度(絕對值大小)與關聯的性質(正負號)。目前八頁\總數三十五頁\編于十點例一一個產科醫(yī)師發(fā)現孕婦尿中雌三醇含量與產兒的體重有關。于是設想,通過測量待產婦尿中雌三醇含量,可以預測產兒體重,以便對低出生體重進行預防。因此收集了31例待產婦24小時的尿,測量其中的雌三醇含量,同時記錄產兒的體重。問尿中雌三醇含量與產兒體重之間相關系數是多少?是正相關還是負相關?分析問題:目的、變量、關系

目前九頁\總數三十五頁\編于十點編號

(1)尿雌三醇mg/24h(2產兒體重kg(3)編號

(1)尿雌三醇mg/24h(2)產兒體重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2

待產婦尿雌三醇含量與產兒體重關系

目前十頁\總數三十五頁\編于十點∑X=534∑Y=99.2∑X2=9876∑Y2=324.8∑XY=1750N=31目前十一頁\總數三十五頁\編于十點計算結果從計算結果可以知道,31例待產婦尿中雌三醇含量與產兒體重之間程正相關,相關系數是0.61。目前十二頁\總數三十五頁\編于十點問題:我們能否得出結論說明待產婦尿中雌三醇含量與產兒體重之間程正相關,相關系數是0.61。為什么?目前十三頁\總數三十五頁\編于十點相關系數的假設檢驗

上例中的相關系數r等于0.61,說明了31例樣本中雌三醇含量與出生體重之間存在相關關系。但是,這31例只是總體中的一個樣本,由此得到的相關系數會存在抽樣誤差。因為,總體相關系數()為零時,由于抽樣誤差,從總體抽出的31例,其r可能不等于零。所以,要判斷該樣本的r是否有意義,需與總體相關系數=0進行比較,看兩者的差別有無統計學意義。這就要對r進行假設檢驗,判斷r不等于零是由于抽樣誤差所致,還是兩個變量之間確實存在相關關系。

目前十四頁\總數三十五頁\編于十點對相關系數的假設檢驗,常用t檢驗,選用統計量t的計算公式如下:

=n-2

目前十五頁\總數三十五頁\編于十點H0:

=0

H1:

≠0=0.05r=0.61,n=31,代入公式t==n-2=31-2=29

t=4.14查t值表,t0.05(29)=2.045

查t值表,t0.05(29)=2.756,上述計算t=4.14>2.045,由t所推斷的P值小于0.05,按=0.05水準拒絕,接受,認為臨產婦24小時內尿中雌三醇濃度與產兒體重之間有正相關關系。

目前十六頁\總數三十五頁\編于十點直線相關的應用

前面我們已經講過,相關是研究兩個變量間的相互關系,而且這種相互關系是用相關系數反應的。在確實存在相關關系的前提下,如果r的絕對值越大,說明兩個變量之間的關聯程度越強,那么,已知一個變量對預測另一個變量越有幫助;如果r絕對值越小,則說明兩個變量之間的關系越弱,一個變量的信息對猜測另一個變量的值無多大幫助。一般說來,當樣本量較大(n>100),并對r進行假設檢驗,有統計學意義時,r的絕對值大于0.7,則表示兩個變量高度相關;r的絕對值大于0.4,小于等于0.7時,則表示兩個變量之間中度相關;r的絕對值大于0.2,小于等于0.4時,則兩個變量低度相關。

目前十七頁\總數三十五頁\編于十點

前面我們討論了待產婦尿中雌三醇含量和產兒體重之間的關系,知道了二者之間成正相關。那么,如果我們知道了一位待產婦的尿雌三醇含量,能推斷出產兒的體重嗎?或產兒的體重可能在什么范圍內呢?還有,隨著身高的增加,體重也在增大,它們之間也成正相關關系。那么,身高每增加1厘米,體重增加多少克呢?上面的相關關系分析不能提供給我們需要的答案。這些要用直線回歸的方法來解決。目前十八頁\總數三十五頁\編于十點直線回歸SimpleRegression目前十九頁\總數三十五頁\編于十點當我們知道了兩個變量之間有直線相關關系,并且一個變量的變化會引起另一個變量的變化,這時,如果它們之間存在準確、嚴格的關系,它們的變化可用函數方程來表示,叫它們是函數關系,它們之間的關系式叫函數方程。但在實際生活當中,由于其它因素的干擾,許多雙變量之間的關系并不是嚴格的函數關系,不能用函數方程反映,為了區(qū)別于兩變量間的函數方程,我們稱這種關系式為直線回歸方程,這種關系為直線回歸.目前二十頁\總數三十五頁\編于十點直線回歸就是用來描述一個變量如何依賴于另一個變量

目前二十一頁\總數三十五頁\編于十點回歸方程

直線回歸的任務就是要找出一個變量隨另一個變量變化的直線方程,我們把這個直線方程叫做直線回歸方程。

式中的是由自變量X推算應變量Y的估計值,a是回歸直線在Y軸上的截距,即X=0時的Y值;b為樣本的回歸系數,即回歸直線的斜率,表示當X變動一個單位時,Y平均變動b個單位。如果a、b已知,代入上式,就可求得直線回歸方程。

目前二十二頁\總數三十五頁\編于十點回歸系數根據上例的數據,求待產婦尿中雌三醇含量與產兒體重之間的回歸方程。從相關系數的計算中,已經求得:目前二十三頁\總數三十五頁\編于十點這就是我們求得的二者關系的回歸方程目前二十四頁\總數三十五頁\編于十點回歸直線的描繪

根據求得的回歸方程,可以在自變量X的實測范圍內任取兩個值,代入方程中,求得相應的兩個Y值,以這兩對數據找出對應的兩個坐標點,將兩點連接為一條直線,就是該方程的回歸直線。回歸直線一定經過(0,a),()。這兩點可以用來核對圖線繪制是否正確。目前二十五頁\總數三十五頁\編于十點目前二十六頁\總數三十五頁\編于十點與直線相關一樣,直線回歸方程也是從樣本資料計算而得的,同樣也存在著抽樣誤差問題。所以,需要對樣本的回歸系數b進行假設檢驗,以判斷b是否從回歸系數為零的總體中抽得。為了判斷抽樣誤差的影響,需對回歸系數進行假設檢驗??傮w的回歸系數一般用β表示。

目前二十七頁\總數三十五頁\編于十點=2.15+0.061X

是否一定能說明雌三醇與產兒體重之間存在回歸關系?

目前二十八頁\總數三十五頁\編于十點1.方差分析F=MS組間/MS組內2.t檢驗

回歸系數的假設檢驗H0:β=0H1:β≠0α=0.05選擇合適的假設檢驗方法,計算統計量計算概率值P做出推論:統計學結論和專業(yè)結論目前二十九頁\總數三十五頁\編于十點采用t檢驗方法其中Sy.x為各觀察值Y到回歸直線的距離的標準差,表示去除X影響后Y的變異程度,

目前三十頁\總數三十五頁\編于十點自由度=31-2=29,查t值表,t0.05(29)=2.045,P<0.05,按=0.05檢驗水準,拒絕H0,認為待產婦24小時尿中雌三醇含量與產兒體重之間存在直線回歸關系。目前三十一頁\總數三十五頁\編于十點直線回歸的應用

描述兩變量之間的依存關系:通過回歸系數的假設檢驗,若認為兩變量之間存在直線回歸關系,則可用直線回歸來描述。例如上例回歸方程:就是待產婦尿雌三醇含量與產兒出生體重的定量表達式。利用回歸方程進行預測:把自變量代入回歸方程,對應變量進行估計,可求出應變量的波動范圍。例如,已知某待產婦的尿雌三醇濃度,代入回歸方程,再用區(qū)間估計的方法,即可知道生產時,產兒的體重的范圍。

利用回歸方程進行統計控制

利用多元回歸描述多因素的影響

目前三十二頁\總數三十五頁\編于十點應用直線相關與回歸的注意事項

1.實際意義進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現象用來作相關回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關關系就毫無意義,用孩子的身高推測小樹的高度則更加慌謬。

2.相關關系相關關系不一定是因果關系,也可能是伴隨關系,并不能證明事物間有內在聯系,例如,有人發(fā)現,對于在校兒童,鞋的大小與閱讀技能有很強的相關關系。然而,學會新詞并不能使腳變大,而是涉及到第三個因素??年齡。當兒童長大一些,他們的閱讀能力會提高而且由于長大也穿不下原來的鞋。

目前三十三頁\總數三十五頁\編于十點3.利用散點圖對于性質不明確的兩組數據,可先做散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,然后再進行相關回歸分析。4.變量范圍相關分析和回歸方程僅適用于樣本的原始數據范圍之內,出了這個范圍,我們不能得出兩變量的相關關系和原來的回歸關系。目前三十四頁\總數三十五頁\編于十點相關與回歸的區(qū)別

1.意義:相關反映兩變量的相互關系,即在兩個變量中,任何一個的變化都會引起另一個的變化,是一種雙向變化的關系。回歸是反映兩個變量的依存關系,一個變量的改變會引起另一個變量的變化,是一種單向的關系。2.應用:研究兩個變量的相互關系用相關分析。研究兩個變量的依存關系用回歸分析。3.研究性質:相關是對兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論