第9章-直線回歸與相關(guān)_第1頁
第9章-直線回歸與相關(guān)_第2頁
第9章-直線回歸與相關(guān)_第3頁
第9章-直線回歸與相關(guān)_第4頁
第9章-直線回歸與相關(guān)_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第9章直線回歸與相關(guān)學(xué)習(xí)目標(biāo)掌握直線相關(guān)的定義,熟悉簡單相關(guān)系數(shù)的計算;掌握直線相關(guān)分析的SAS程序(CORR過程以及選項);掌握直線回歸的模型假設(shè)以及計算方法;了解直線回歸應(yīng)用的注意事項;掌握直線回歸分析的SAS程序(REG過程以及選項)。概述在醫(yī)學(xué)上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重、體溫與脈搏、年齡與血壓、釘螺與血吸蟲感染等。而有些事物的關(guān)系是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時因果不清,只是伴隨關(guān)系。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這里不是因果關(guān)系,而可能與社會條件、家庭經(jīng)濟(jì)、營養(yǎng)、遺傳等因素有關(guān)。概述相關(guān)是解決客觀事物或現(xiàn)象相互關(guān)系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關(guān)系。有相關(guān)不一定因果關(guān)系;反之,有因果關(guān)系的,一定有相關(guān)。我們稱“因”的變量叫因變量,習(xí)慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關(guān)系在坐標(biāo)圖上以P(X,Y)的方法定位,作出一群散點圖,便可在圖上看出兩者的關(guān)系。相關(guān)分析和回歸分析是研究現(xiàn)象之間相關(guān)關(guān)系的兩種基本方法。所謂相關(guān)分析,就是用一個指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度。直線相關(guān)分析介紹設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個數(shù)值時,y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。各觀測點落在一條線上。自變量取值一定時,因變量的取值帶有一定隨機(jī)性的兩個變量之間的關(guān)系叫做相關(guān)關(guān)系。當(dāng)一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。直線相關(guān)分析介紹與函數(shù)關(guān)系不同,相關(guān)變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá),一個變量的取值不能由另一個變量唯一確定,當(dāng)變量x取某個值時,變量y的取值可能有無數(shù)個,各觀測點分布在直線周圍。按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、和不相關(guān):不相關(guān)如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不相關(guān),即沒有任何相關(guān)關(guān)系。自變量x變動時,因變量y的數(shù)值不隨之相應(yīng)變動。完全相關(guān)如果一個變量的變化是由其他變量的數(shù)量變化所唯一確定,此時變量間的關(guān)系稱為完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動而變動,它在相關(guān)圖上表現(xiàn)為所有的觀察點都落在同一條直線上,這種情況下,相關(guān)關(guān)系實際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。不完全相關(guān)如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計研究的主要對象。正相關(guān)和負(fù)相關(guān)正相關(guān):兩個變量之間的變化方向一致,都是呈增長或下降的趨勢。即自變量x的值增加(或減少),因變量y的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是正相關(guān)。負(fù)相關(guān):兩個變量之間變化方向相反,即自變量的數(shù)值增大(或減?。?,因變量隨之減小(或增大)。線形相關(guān)和非線形相關(guān)直線相關(guān)(或線性相關(guān)):當(dāng)相關(guān)關(guān)系的自變量x發(fā)生變動,因變量y值隨之發(fā)生大致均等的變動,從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)通稱為直線相關(guān)。曲線(或非線性)相關(guān)。在兩個相關(guān)現(xiàn)象中,自變量x值發(fā)生變動,因變量y也隨之發(fā)生變動,這種變動不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。單相關(guān)、復(fù)相關(guān)和偏相關(guān)單相關(guān):兩個因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時只涉及一個自變量和一個因變量。復(fù)相關(guān):三個或三個以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時涉及兩個或兩個以上的自變量和因變量。在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時,其中兩個變量之間的相關(guān)關(guān)系稱為偏相關(guān)。相關(guān)系數(shù)所謂相關(guān)分析,就是分析測定變量間相互依存關(guān)系的密切程度的統(tǒng)計方法。一般可以借助相關(guān)系數(shù)來進(jìn)行相關(guān)分析。相關(guān)系數(shù)是表示兩個變量(X,Y)之間線性關(guān)系密切程度的指標(biāo),用r表示,其值在-1至+1間。如兩者呈正相關(guān),r呈正值,r=1時為完全正相關(guān);如兩者呈負(fù)相關(guān)則r呈負(fù)值,而r=-1時為完全負(fù)相關(guān)。完全正相關(guān)或負(fù)相關(guān)時,所有圖點都在直線回歸線上;點子的分布在直線回歸線上下越離散,r的絕對值越小。當(dāng)例數(shù)相等時,相關(guān)系數(shù)的絕對值越接近1,相關(guān)越密切;越接近于0,相關(guān)越不密切。當(dāng)r=0時,說明X和Y兩個變量之間無直線關(guān)系。相關(guān)系數(shù)簡單相關(guān)系數(shù)反映兩個變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計測定,它是其他相關(guān)系數(shù)形成的基礎(chǔ)。簡單相關(guān)系數(shù)的計算公式為:直線相關(guān)分析的SAS程序SAS系統(tǒng)中進(jìn)行直線相關(guān)分析的過程步是CORR過程。CORR過程存在于SAS的base模塊,可以計算Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)、Kendall‘stau-b統(tǒng)計量、Hoeffding’s獨(dú)立性分析統(tǒng)計量D以及Pearson,Spearman,以及Kendall偏相關(guān)系數(shù)。另外,它還對用于估計可靠性的Cronbach系數(shù)α進(jìn)行計算。Corr過程的語句基本格式如下:PROCCORR<選項列表>;BY<DESCENDING>變量名-1<...<DESCENDING>變量名-n><NOTSORTED>;FREQ變量名;PARTIAL變量名(列表);VAR變量名(列表);WEIGHT變量名;WITH變量名(列表);直線相關(guān)分析的SAS程序CORR過程的幾條語句中,BY語句、FREQ語句以及WEIGHT語句與以前所介紹的過程中的完全相同,大家可以參考以前的內(nèi)容。下面簡要介紹其余的幾條語句。PARTIAL語句:用以對所指定的變量計算偏相關(guān)系數(shù)或類似的偏統(tǒng)計量,可計算的偏統(tǒng)計量與PROCCORR語句中指定的選項有關(guān)。但其中只有Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)及Kendall’sTau-b可計算相應(yīng)的偏統(tǒng)計量。直線相關(guān)分析的SAS程序VAR語句:VAR語句和其它過程中的也基本相同,這里VAR語句指定的變量必須為數(shù)值型變量,至少應(yīng)指定兩個變量(當(dāng)然只指定一個變量也可以計算,但是你必須確定你確實需要證明“一個變量和它自身的相關(guān)系數(shù)為1”),可同時指定多個變量,此時SAS會對任意兩個變量之間進(jìn)行相關(guān)分析。直線相關(guān)分析的SAS程序WITH語句:WITH語句用來指定和VAR語句指定的變量進(jìn)行相關(guān)分析的變量。當(dāng)有WITH語句存在時,VAR語句中指定的變量之間不再進(jìn)行相關(guān)性分析,而其中的每個變量都和WITH語句指定的所有變量進(jìn)行相關(guān)性分析,相關(guān)分析也不會發(fā)生在WITH語句所指定的變量之間。輸出結(jié)果的相關(guān)矩陣中,VAR語句指定的變量排列在行上,WITH語句指定的變量則排列在列上。如果需要,一個變量可以同時出現(xiàn)在VAR語句和WITH語句內(nèi)。Pearson相關(guān)用于雙變量正態(tài)分布的資料,其相關(guān)系數(shù)稱為積矩相關(guān)系數(shù)。進(jìn)行相關(guān)分析時,我們一般會同時對兩變量繪制散點圖,以更直觀地考察兩變量之間的相互變化關(guān)系。直線回歸分析醫(yī)學(xué)上,不少變量間雖存在一定關(guān)系,但這種關(guān)系不象函數(shù)關(guān)系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個變量在坐標(biāo)上的方位點,并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。

直線回歸分析的任務(wù)在于找出兩個變量有依存關(guān)系的直線方程,以確定一條最接近于各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。直線回歸分析直線回歸是用直線回歸方程表示兩個數(shù)量變量間依存關(guān)系的統(tǒng)計分析方法,屬雙變量分析的范疇。如果某一個變量隨著另一個變量的變化而變化,并且它們的變化在直角坐標(biāo)系中呈直線趨勢,就可以用一個直線方程來定量地描述它們之間的數(shù)量依存關(guān)系,這就是直線回歸分析。直線回歸分析中兩個變量的地位不同,其中一個變量是依賴另一個變量而變化的,因此分別稱為因變量和自變量,習(xí)慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數(shù)值(非隨機(jī)變量),也可以是隨機(jī)變量。所謂回歸分析,就是依據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型,來近似地表達(dá)變量間的平均變化關(guān)系。直線回歸分析相關(guān)關(guān)系能說明現(xiàn)象間有無關(guān)系,但它不能說明一個現(xiàn)象發(fā)生一定量的變化時,另一個變量將會發(fā)生多大量的變化。也就是說,它不能說明兩個變量之間的一般數(shù)量關(guān)系值?;貧w分析,是指在相關(guān)分析的基礎(chǔ)上,把變量之間的具體變動關(guān)系模型化,求出關(guān)系方程式,就是找出一個能夠反映變量間變化關(guān)系的函數(shù)關(guān)系式,并據(jù)此進(jìn)行估計和推算。通過回歸分析,可以將相關(guān)變量之間不確定、不規(guī)則的數(shù)量關(guān)系一般化、規(guī)范化。從而可以根據(jù)自變量的某一個給定值推斷出因變量的可能值(或估計值)。回歸分析包括多種類型,根據(jù)所涉及變量的多少不同,可分為簡單回歸和多元回歸。簡單回歸又稱一元回歸,是指兩個變量之間的回歸。其中一個變量是自變量,另一個變量是因變量。直線回歸分析相關(guān)分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應(yīng)用時,常常必須相互補(bǔ)充。相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)程度。但是相關(guān)分析不能指出變量間相互關(guān)系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況?;貧w分析則是研究變量之間相互關(guān)系的具體形式,它對具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測定,確定一個相關(guān)的數(shù)學(xué)方程,根據(jù)這個數(shù)學(xué)方程可以從已知量推測未知量,從而為估算和預(yù)測提供了一個重要的方法。應(yīng)用直線回歸的注意事項作回歸分析要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象,隨意進(jìn)行回歸分析,忽視事物現(xiàn)象間的內(nèi)在聯(lián)系和規(guī)律;如對兒童身高與小樹的生長數(shù)據(jù)進(jìn)行回歸分析既無道理也無用途。另外,即使兩個變量間存在回歸關(guān)系時,也不一定是因果關(guān)系,必須結(jié)合專業(yè)知識作出合理解釋和結(jié)論。直線回歸分析的資料,一般要求應(yīng)變量Y是來自正態(tài)總體的隨機(jī)變量,自變量X可以是正態(tài)隨機(jī)變量,也可以是精確測量和嚴(yán)密控制的值。若稍偏離要求時,一般對回歸方程中參數(shù)的估計影響不大,但可能影響到標(biāo)準(zhǔn)差的估計,也會影響假設(shè)檢驗時P值的真實性。應(yīng)用直線回歸的注意事項進(jìn)行回歸分析時,應(yīng)先繪制散點圖。若提示有直線趨勢存在時,可作直線回歸分析;若提示無明顯線性趨勢,則應(yīng)根據(jù)散點分布類型,選擇合適的曲線模型,經(jīng)數(shù)據(jù)變換后,化為線性回歸來解決。一般說,不滿足線性條件的情形下去計算回歸方程會毫無意義,最好采用非線性回歸方程的方法進(jìn)行分析。繪制散點圖后,若出現(xiàn)一些特大特小的離群值(異常點),則應(yīng)及時復(fù)核檢查,對由于測定、記錄或計算機(jī)錄入的錯誤數(shù)據(jù),應(yīng)予以修正和剔除。否則,異常點的存在會對回歸方程中的系數(shù)a、b的估計產(chǎn)生較大影響。應(yīng)用直線回歸的注意事項回歸直線不要外延。直線回歸的適用范圍一般以自變量取值范圍為限,在此范圍內(nèi)求出的估計值稱為內(nèi)插;超過自變量取值范圍所計算的稱為外延。若無充足理由證明,超出自變量取值范圍后直線回歸關(guān)系仍成立時,應(yīng)該避免隨意外延。直線回歸分析的SAS程序REG過程涉及到較多的語句和選項,PROCREG<選項列表>;MODEL應(yīng)變量列表=<自變量列表></選項列表>;BY變量名列表;VAR變量名列表;WEIGHT變量名;ADD變量名列表;DELETE變量名列表;MTEST<方程式<,...,方程式>></選項列表>;OUTPUT<OUT=數(shù)據(jù)集名>keyword=變量名列表<...keyword=變量名列表>;PLOT<y變量名*x變量名><=符號>

<...y變量名*x變量名><=符號></選項列表>;直線回歸分析的SAS程序MODEL語句:用以指定所要擬合的回歸模型。其最前面的標(biāo)簽為可選項,可以是不超過8個字符的字符串,用來對定義的模型進(jìn)行標(biāo)識,以便于在結(jié)果中分辨不同的模型,一般情況下系統(tǒng)會以默認(rèn)的方式對模型進(jìn)行標(biāo)識,你可以省略此項。關(guān)鍵字model后所列的是模型表達(dá)式,和方差分析中anova過程的model語句相似。模型表達(dá)式中等號的左邊為反應(yīng)變量,等號的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數(shù)據(jù)集中,而且是數(shù)值型的。如果要用到幾個變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程,model語句中的組合型變量將被視為非法。直線回歸分析的SAS程序id語句:指定用以標(biāo)識觀測的變量。如果某一條model語句指定了cli,clm,p,r,或者influence選項,結(jié)果中會有針對每一條觀測的輸出,此時用id語句指定每一條觀測的標(biāo)識將會使結(jié)果更易于辨認(rèn)或理解。如果沒有id語句,SAS則用觀測的編號來標(biāo)識每一條觀測。var語句:用來將那些未包括在model語句中但需要將其包含在交叉積和矩陣中的數(shù)值型變量。在隨后的add語句中想交互地加入模型的變量以及要在plot語句中對其繪制散點圖的變量也需在var語句中列出。另外,如果你只想利用procreg語句后的選項執(zhí)行某些特定的功能,而并不會用到model語句的話,var語句則是必需的。直線回歸分析的SAS程序add語句:用以將自變量交互地加入模型,以考察某個變量對模型擬合的影響。此處用到的變量必須為model語句或var語句中出現(xiàn)的變量,你可以交互地加入某個變量到模型中或?qū)⒃赿elete語句中剔除的變量重新包含到模型中。對add語句的每一次執(zhí)行都將改變模型的標(biāo)簽。mtest語句:用以在有多個應(yīng)變量時進(jìn)行模型的多重檢驗。其最前面的標(biāo)簽項和model語句的完全相同。語句中的方程式用以指定多重檢驗的假設(shè)模型,是一組以系數(shù)和變量名組成的線性方程式。此語句用在多元回歸情況下,多個應(yīng)變量對同一組自變量擬合線性模型時。直線回歸分析的SAS程序output語句:用于將回歸分析中產(chǎn)生的結(jié)果輸出到指定的數(shù)據(jù)集中,它所對應(yīng)的是最后一個model語句所定義的模型。新產(chǎn)生的數(shù)據(jù)集中,包括輸入數(shù)據(jù)集(用以進(jìn)行回歸分析的數(shù)據(jù)集)的全部數(shù)據(jù)、回歸分析過程中產(chǎn)生的各種統(tǒng)計量以及針對每一觀測的回歸診斷指標(biāo)數(shù)據(jù)等。但如果輸入數(shù)據(jù)類型為corr、cov或sscp等,output語句則會失效。plot語句:用以對兩個變量繪制散點圖,表達(dá)式中位置在前(在乘號“*”之前)的變量作為散點圖的y軸,位置在后的變量作為散點圖的x軸。等號后的符號為散點圖中表示點的圖形符號,此項內(nèi)容可省略,SAS會用默認(rèn)方式顯示圖形,但如需指定,符號要用單引號括起來。本章小節(jié)相關(guān)分析和回歸分析是研究現(xiàn)象之間相關(guān)關(guān)系的兩種基本方法。相關(guān)是解決客觀事物或現(xiàn)象相互關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論