版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第第8章章 方差分析方差分析學(xué)習(xí)目標(biāo)v掌握方差分析基本思想、應(yīng)用條件以及計(jì)算方法;v掌握完全隨機(jī)設(shè)計(jì)資料的特征以及SAS分析程序;v掌握隨機(jī)區(qū)組設(shè)計(jì)資料的特征及其SAS分析程序;v掌握拉丁方設(shè)計(jì)資料的特征及其SAS分析程序;v掌握析因設(shè)計(jì)資料的特征及其SAS分析程序;v掌握正交試驗(yàn)設(shè)計(jì)資料的特征及其SAS分析程序;v掌握重復(fù)測量資料的特征及其SAS分析程序;v掌握協(xié)方差分析治療的特征及其SAS分析程序;方差分析概述方差分析概述vt檢驗(yàn)和u檢驗(yàn)適用于兩個(gè)樣本均數(shù)的比較,對(duì)于k個(gè)樣本均數(shù)的比較,如果仍用t檢驗(yàn)或u檢驗(yàn),犯第一類錯(cuò)誤的概率就會(huì)增加。v因而t檢驗(yàn)和u檢驗(yàn)不適用于多個(gè)樣本均數(shù)的比較。用方
2、差分析比較多個(gè)樣本均數(shù),可有效地控制第一類錯(cuò)誤。方差分析(analysis of variance,ANOVA)由英國統(tǒng)計(jì)學(xué)家R.A.Fisher首先提出,以F命名其統(tǒng)計(jì)量,故方差分析又稱F檢驗(yàn)。 方差分析概述方差分析概述v下面結(jié)合單個(gè)處理因素的情況介紹方差分析的基本統(tǒng)計(jì)思想。將N個(gè)受試對(duì)象隨機(jī)分為k(k2)組,分別接受不同的處理,第i組的樣本量為ni,第i處理組的第j個(gè)測量值用Xij表示。方差分析的目的就是在H0:成立的條件下,通過分析各處理組均數(shù) 之間差別大小,推斷k個(gè)總體均數(shù)間有無差別,從而說明處理因素的效果是否存在。iX總離均差平方和及自由度v總變異的離均差平方和為各變量值與總均數(shù)差值
3、的平方和,離均差平方和和自由度為v v總自由度=N-1 組間離均差平方和、自由度和均方v組間離均差平方和為各組樣本均數(shù)與總均數(shù)差值的平方和組內(nèi)離均差平方和、自由度和均方v組內(nèi)離均差平方和為各處理組內(nèi)部觀察值與其均數(shù)差值的平方和之和 v數(shù)理統(tǒng)計(jì)證明,總離均差平方和等于各部分離均差平方和之和 三種變異的關(guān)系 總自由度= N-1= 三種變異的關(guān)系v可見,完全隨機(jī)設(shè)計(jì)的單因素方差分析時(shí),總的離均差平方和(SS總)可分解為組間離均差平方和(SS組間)與組內(nèi)離均差平方和(SS組內(nèi))兩部分;相應(yīng)的總自由度也分解為組間自由度和組內(nèi)自由度兩部分。v方差分析的統(tǒng)計(jì)量 方差分析應(yīng)用v方差分析的應(yīng)用條件為:各樣本須是
4、相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等,即方差齊性。v方差分析的用途很廣,包括:兩個(gè)或多個(gè)樣本均數(shù)間的比較;分析兩個(gè)或多個(gè)因素間的交互作用;回歸方程的線性假設(shè)檢驗(yàn);多元線性回歸分析中偏回歸系數(shù)的假設(shè)檢驗(yàn);兩樣本的方差齊性檢驗(yàn)等。方差分析的基本思想 v根據(jù)研究目的和設(shè)計(jì)類型,將總變異中的離均差平方和及其自由度分別分解成相應(yīng)的若干部分,然后求各相應(yīng)部分的變異;再用各部分的變異與組內(nèi)(或誤差)變異進(jìn)行比較,得出統(tǒng)計(jì)量F值;最后根據(jù)F值的大小確定P值,作出統(tǒng)計(jì)推斷。 完全隨機(jī)設(shè)計(jì)資料的方差分析 v單因子方差分析介紹 CXginjiji112CnXgiinjiji112)(組間組間v
5、SS組內(nèi)組間MSMS組間總SSSS組內(nèi)組內(nèi)vSS變異來源自由度SSMSF總變異N-1組間g-1組內(nèi)N-g方差分析的SAS程序 v方差分析解決問題的思路是:從所有觀測值的總變差中分析出系統(tǒng)誤差和隨機(jī)誤差,并用數(shù)量表示。在一定意義下比較系統(tǒng)誤差和隨機(jī)誤差。兩者差別不大,說明試驗(yàn)條件的變化(因素水平的不同)對(duì)試驗(yàn)結(jié)果影響不大;如果兩者相差較大,且系統(tǒng)誤差大的多,說明系統(tǒng)條件變化引出的誤差不可忽視。方差分析的SAS程序v在SAS系統(tǒng)中一般利用PROC ANOVA過程和PROC GLM過程進(jìn)行方差分析。而PROC ANOVA過程一般只能用于平衡數(shù)據(jù)的方差分析。所謂平衡數(shù)據(jù)指的是所有效應(yīng)因子的交叉水平上,
6、樣本數(shù)相同,否則稱為非平衡數(shù)據(jù)。它比PROC GLM過程的運(yùn)行速度要快,要求的存貯空間也要小一些。PROC GLM過程可用于平衡和非平衡數(shù)據(jù)的各種方差分析、協(xié)方差分析以及廣義線性模型分析?,F(xiàn)對(duì)兩個(gè)過程分別予以介紹。PROC ANOVA vPROC ANOVA過程的格式為: PROC ANOVA ; CLASS variables ; MODEL dependents=effects ; BY variables ; MEANS effects ; TEST E=effect ; REPEATED effects;PROC ANOVAvCLASS語句指定分類變量,指定模型中的效應(yīng)因子變量;vMO
7、DEL定義擬合模型,給出模型中的因變量和效應(yīng)變量的模型結(jié)構(gòu),并且通過特定的表達(dá)式規(guī)定自變量的作用方式;如果沒有指定任何自變量,則模型中僅包含常數(shù)項(xiàng),此時(shí)檢驗(yàn)的內(nèi)容是應(yīng)變量的均數(shù)是否為零;MODEL語句中指定的自變量必須是CLASS語句中聲明過的分類變量,ANOVA過程不允許自變量中有連續(xù)型變量(數(shù)值變量),而應(yīng)變量則必須是數(shù)值型變量。vBY語句指定分組變量;PROC ANOVAvMEANS語句計(jì)算和比較均值,指令系統(tǒng)輸出這個(gè)語句中給出的每一個(gè)效應(yīng)變量各個(gè)水平對(duì)應(yīng)的因變量的均值,或幾個(gè)效應(yīng)變量交叉水平對(duì)應(yīng)的因變量的均值,并且可以檢驗(yàn)比較各個(gè)水平對(duì)應(yīng)的均值之間的兩兩差異;vTEST語句指定效應(yīng)平方
8、和和誤差項(xiàng),構(gòu)建檢驗(yàn),裂區(qū)設(shè)計(jì)數(shù)據(jù)處理時(shí)需要;vREPEATED語句指定模型中的重復(fù)測量因子(MODEL語句中存在有相同試驗(yàn)單位的重復(fù)測量的獨(dú)立變量時(shí)),已檢驗(yàn)相關(guān)因子效應(yīng),其中的變量名代表重復(fù)測量因素(如測量時(shí)間等),其后水平數(shù)代表重復(fù)測量的次數(shù),如果需指定重復(fù)測量各次的具體標(biāo)識(shí),可在其后按順序列出,并用圓括號(hào)括起來。PROC GLMvPROC GLM過程的格式為: PROC GLM ; CLASS variables ; MODEL dependents=effects ; BY variables ; MEANS effects ; LSMEANS effects ; CONTRAST
9、effects ; ESTIMATE effects ; TEST E=effect ; REPEATED effects; PROC GLMvCLASS語句指定分類變量,指定模型中的效應(yīng)因子變量;vMODEL定義擬合模型,給出模型中的因變量和效應(yīng)變量的模型結(jié)構(gòu);vBY語句指定分組變量;vMEANS語句計(jì)算和比較均值,指令系統(tǒng)輸出這個(gè)語句中給出的每一個(gè)效應(yīng)變量各個(gè)水平對(duì)應(yīng)的因變量的均值,或幾個(gè)效應(yīng)變量交叉水平對(duì)應(yīng)的因變量的均值,并且可以檢驗(yàn)比較各個(gè)水平對(duì)應(yīng)的均值之間的兩兩差異;PROC GLMvLSMEANS語句是GLM過程步特有的語句,它的功能和MEANS語句類似,指令系統(tǒng)輸出這個(gè)語句中給出
10、的每一個(gè)效應(yīng)變量各個(gè)水平對(duì)應(yīng)的因變量的均值,或幾個(gè)效應(yīng)變量交叉水平對(duì)應(yīng)的因變量的均值,并且可以檢驗(yàn)比較各個(gè)水平對(duì)應(yīng)的均值之間的兩兩差異,但LSMEANS語句輸出的均值不是算術(shù)均值,而是最小二乘均值;PROC GLMvCONTRAST語句使你可以用自定義的方式進(jìn)行假設(shè)檢驗(yàn),它必須出現(xiàn)在MODEL語句之后,如果用到MANOVA語句、REPEATED語句、RANDOM語句或TEST語句,CONTRAST語句必須出現(xiàn)在這些語句之前;標(biāo)記用來標(biāo)識(shí)所進(jìn)行的檢驗(yàn),用以標(biāo)識(shí)的文字或符號(hào)需用單引號(hào)括起來;效應(yīng)表達(dá)式用以指定假設(shè)檢驗(yàn)的因素(組合),這些因素(組合)必須是MODEL語句中出現(xiàn)過的;效應(yīng)表達(dá)式后的常數(shù)
11、向量用以指定相應(yīng)因素(組合)各水平的值,在指定各水平的情況下進(jìn)行相關(guān)因素的分析;PROC GLMvESTIMATE語句可實(shí)現(xiàn)對(duì)線性方程的估計(jì),它也必須出現(xiàn)在MODEL語句之后,使用的規(guī)則和CONTRAST語句基本相同。其中的語句元素的含義和用法也與CONTRAST語句相同。vTEST語句指定效應(yīng)平方和和誤差項(xiàng),構(gòu)建檢驗(yàn),裂區(qū)設(shè)計(jì)數(shù)據(jù)處理時(shí)需要;vREPEATED語句指定模型中的重復(fù)測量因子(MODEL語句中存在有相同試驗(yàn)單位的重復(fù)測量的獨(dú)立變量時(shí)),已檢驗(yàn)相關(guān)因子效應(yīng)。隨機(jī)區(qū)組設(shè)計(jì)資料的方差分析 v隨機(jī)區(qū)組設(shè)計(jì)是根據(jù)“局部控制”和“隨機(jī)排列”原理進(jìn)行的,將試驗(yàn)地按肥力程度等性質(zhì)不同劃分為等于重
12、復(fù)次數(shù)的區(qū)組,使區(qū)組內(nèi)環(huán)境差異最小而區(qū)組間環(huán)境允許存在差異,每個(gè)區(qū)組即為一次完整的重復(fù),區(qū)組內(nèi)各處理都獨(dú)立地隨機(jī)排列。這是隨機(jī)排列設(shè)計(jì)中最常用、最基本的設(shè)計(jì)。隨機(jī)區(qū)組設(shè)計(jì)資料的方差分析v隨機(jī)區(qū)組設(shè)計(jì)的優(yōu)點(diǎn)是:設(shè)計(jì)簡單,容易掌握;富于伸縮性,單因素、復(fù)因素以及綜合試驗(yàn)等都可應(yīng)用;能提供無偏的誤差估計(jì),在大區(qū)域試驗(yàn)中能有效地降低非處理因素等試驗(yàn)條件的單向差異,降低誤差;對(duì)試驗(yàn)地的地形要求不嚴(yán),只對(duì)每個(gè)區(qū)組內(nèi)的非處理因素等試驗(yàn)條件要求盡量一致。因此,不同區(qū)組可分散設(shè)置在不同地段上。缺點(diǎn)是:這種設(shè)計(jì)方法不允許處理數(shù)太多。因?yàn)樘幚矶?,區(qū)組必然增大,局部控制的效率降低,所以,處理數(shù)一般不要超過20個(gè),最好
13、在10個(gè)左右。隨機(jī)區(qū)組設(shè)計(jì)資料的方差分析v隨機(jī)區(qū)組設(shè)計(jì)考慮了個(gè)體差異的影響,可分析處理因素和個(gè)體差異對(duì)實(shí)驗(yàn)效應(yīng)的影響,所以又稱兩因素實(shí)驗(yàn)設(shè)計(jì),比完全隨機(jī)設(shè)計(jì)的檢驗(yàn)效率高。該設(shè)計(jì)是將受試對(duì)象先按配比條件配成配伍組(如動(dòng)物實(shí)驗(yàn)時(shí),可按同窩別、同性別、體重相近進(jìn)行配伍),每個(gè)配伍組有三個(gè)或三個(gè)以上受試對(duì)象,再按隨機(jī)化原則分別將各配伍組中的受試對(duì)象分配到各個(gè)處理組。隨機(jī)區(qū)組設(shè)計(jì)資料的方差分析表 變異來源離均差平方和SS自由度均方差MSF總變異N-1處理間k-1區(qū)組間b-1誤差拉丁方設(shè)計(jì)資料的方差分析 v完全隨機(jī)設(shè)計(jì)只涉及到一個(gè)處理因素。隨機(jī)區(qū)組設(shè)計(jì)涉及一個(gè)處理因素、一個(gè)區(qū)組因素(或稱為配伍因素)。倘若
14、實(shí)驗(yàn)研究涉及一個(gè)處理因素和兩個(gè)控制因素,每個(gè)因素的類別數(shù)或水平數(shù)相等,此時(shí)可采用拉丁方設(shè)計(jì)來安排實(shí)驗(yàn),將兩個(gè)控制因素分別安排在拉丁方設(shè)計(jì)的行和列上。拉丁方設(shè)計(jì)資料的方差分析v將k個(gè)不同符號(hào)排成k列,使得每一個(gè)符號(hào)在每一行、每一列都只出現(xiàn)一次的方陣,叫做kk拉丁方。應(yīng)用拉丁方設(shè)計(jì)(latin square design)就是將處理從縱橫二個(gè)方向排列為區(qū)組(或重復(fù)),使每個(gè)處理在每一列和每一行中出現(xiàn)的次數(shù)相等(通常一次),即在行和列兩個(gè)方向都進(jìn)行局部控制。所以它是比隨機(jī)區(qū)組多一個(gè)方向局部控制的隨機(jī)排列的設(shè)計(jì),因而具有較高的精確性。v拉丁方設(shè)計(jì)的特點(diǎn)是處理數(shù)、重復(fù)數(shù)、行數(shù)、列數(shù)都相等。它的每一行和每
15、一列都是一個(gè)區(qū)組或一次重復(fù),而每一個(gè)處理在每一行或每一列都只出現(xiàn)一次,因此,它的處理數(shù)、重復(fù)數(shù)、行數(shù)、列數(shù)都相等。析因設(shè)計(jì)資料的方差分析 v前四節(jié)介紹的單因素方差分析只涉及一個(gè)處理因素,該因素至少有兩個(gè)水平,只是根據(jù)實(shí)驗(yàn)對(duì)象的屬性和控制實(shí)驗(yàn)誤差的需要,采用的實(shí)驗(yàn)設(shè)計(jì)方法有所不同。如比較注射4種不同劑量的雌激素對(duì)白鼠子宮體重增加量的影響,處理因素是注射不同劑量的雌激素,有4個(gè)水平。完全隨機(jī)設(shè)計(jì)是將n只白鼠隨機(jī)分4組,隨機(jī)區(qū)組設(shè)計(jì)是將n只白鼠按出生體重相近的原則,4只一組配成區(qū)組后,每個(gè)區(qū)組內(nèi)隨機(jī)分配處理(注射4種不同劑量的雌激素)。拉丁方設(shè)計(jì)則是在隨機(jī)區(qū)組設(shè)計(jì)基礎(chǔ)上增加了一個(gè)列區(qū)組,如白鼠有甲、
16、乙、丙、丁四個(gè)種系(行區(qū)組),每個(gè)種系的4只白鼠按體重大小分、4個(gè)級(jí)別(列區(qū)組),A、B、C、D4個(gè)拉丁字母代表處理(不同劑量的雌激素)。拉丁方設(shè)計(jì)資料的方差分析v可以看出,完全隨機(jī)設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)和拉丁方設(shè)計(jì)的處理因素沒有變化,都是比較注射4種不同劑量的雌激素的差別,只是改變了設(shè)計(jì)方法。在同樣的實(shí)驗(yàn)條件下,通過改進(jìn)實(shí)驗(yàn)設(shè)計(jì)方法可以大大提高實(shí)驗(yàn)效率。如上述實(shí)驗(yàn),白鼠按體重配成區(qū)組后再施加處理(隨機(jī)區(qū)組設(shè)計(jì)),試驗(yàn)的誤差均方通常小于完全隨機(jī)分組設(shè)計(jì)。拉丁方設(shè)計(jì)資料的方差分析v在此之前介紹的各種試驗(yàn)設(shè)計(jì)方法,嚴(yán)格地說,它們僅適用于只有1個(gè)試驗(yàn)(或處理)因素的試驗(yàn)問題之中,其他因素都屬于區(qū)組因數(shù),
17、即與試驗(yàn)因素?zé)o交互作用。如果試驗(yàn)所涉及的處理因素的個(gè)數(shù)2,當(dāng)各因素在試驗(yàn)中所處的地位基本平等,而且因素之間存在1級(jí)(即2因素之間)、2級(jí)(即3因素之間)乃至更復(fù)雜的交互作用時(shí),需選用析因設(shè)計(jì)。本節(jié)介紹以析因試驗(yàn)為主要內(nèi)容的多因素試驗(yàn)的方差分析方法。正交試驗(yàn)設(shè)計(jì)資料的方差分析 v析因設(shè)計(jì)的缺點(diǎn)是當(dāng)因素個(gè)數(shù)較多時(shí)(三個(gè)因素以上),所需實(shí)驗(yàn)單位數(shù)、處理組數(shù)、實(shí)驗(yàn)次數(shù)和方差分析的計(jì)算量劇增。減少多因素實(shí)驗(yàn)次數(shù)的有效方法是采用正交設(shè)計(jì)。v當(dāng)析因設(shè)計(jì)要求的實(shí)驗(yàn)次數(shù)太多時(shí),一個(gè)非常自然的想法就是從析因設(shè)計(jì)的水平組合中,選擇一部分有代表性水平組合進(jìn)行試驗(yàn)。因此就出現(xiàn)了分式析因設(shè)計(jì),但是對(duì)于試驗(yàn)設(shè)計(jì)知識(shí)較少的實(shí)
18、際工作者來說,選擇適當(dāng)?shù)姆质轿鲆蛟O(shè)計(jì)還是比較困難的。 正交試驗(yàn)設(shè)計(jì)資料的方差分析v正交試驗(yàn)設(shè)計(jì)是研究多因素多水平的又一種設(shè)計(jì)方法,它是根據(jù)正交性從全面試驗(yàn)中挑選出部分有代表性的點(diǎn)進(jìn)行試驗(yàn),這些有代表性的點(diǎn)具備了“均勻分散,齊整可比”的特點(diǎn),正交試驗(yàn)設(shè)計(jì)是分式析因設(shè)計(jì)的主要方法。是一種高效率、快速、經(jīng)濟(jì)的實(shí)驗(yàn)設(shè)計(jì)方法。日本著名的統(tǒng)計(jì)學(xué)家田口玄一將正交試驗(yàn)選擇的水平組合列成表格,稱為正交表。例如作一個(gè)三因素三水平的實(shí)驗(yàn),按全面實(shí)驗(yàn)要求,須進(jìn)行33=27種組合的實(shí)驗(yàn),且尚未考慮每一組合的重復(fù)數(shù)。若按L9(3)3正交表安排實(shí)驗(yàn),只需作9次,按L18(3)7正交表進(jìn)行18次實(shí)驗(yàn),顯然大大減少了工作量。因
19、而正交實(shí)驗(yàn)設(shè)計(jì)在很多領(lǐng)域的研究中已經(jīng)得到廣泛應(yīng)用。重復(fù)測量資料的方差分析 v重復(fù)測量是指對(duì)同一觀察對(duì)象的同一觀察指標(biāo)在不同時(shí)間點(diǎn)上進(jìn)行多次測量,用于分析觀察指標(biāo)在不同時(shí)間上的變化規(guī)律。這類測量資料在醫(yī)學(xué)研究中比較常見。例如,藥效分析中常分析給藥后不同時(shí)間的療效比較。在實(shí)際工作中,重復(fù)測量資料常被誤作配對(duì)設(shè)計(jì)或隨機(jī)單位組設(shè)計(jì)進(jìn)行分析,不僅損失了重復(fù)測量數(shù)據(jù)所蘊(yùn)含的信息,還容易得出錯(cuò)誤的結(jié)論。由于同一受試對(duì)象在不同時(shí)點(diǎn)的觀測值之間往往彼此不獨(dú)立,存在某種程度的相關(guān),因此不能滿足常規(guī)統(tǒng)計(jì)方法所要求的獨(dú)立性假定,使得其分析方法有別于一般的統(tǒng)計(jì)分析方法。本節(jié)通過實(shí)例分析,就醫(yī)學(xué)研究中重復(fù)測量資料的方差分
20、析方法進(jìn)行探討,并提供了SAS程序解決方案。重復(fù)測量資料的方差分析v重復(fù)測量設(shè)計(jì)大體有兩類。一類是對(duì)每個(gè)人在同一時(shí)間不同因子組合間測量;另外一類是對(duì)每個(gè)人在不同時(shí)間點(diǎn)上重復(fù)。前者常見于裂區(qū)設(shè)計(jì),而后者常見于經(jīng)典試驗(yàn)設(shè)計(jì)即包括前測,處理一次或幾次后測的情況。 后者比前者要多見。不論沿裂區(qū)方向還是沿時(shí)間點(diǎn)重復(fù),個(gè)體內(nèi)因子無一例外的都是重復(fù)測量因子。重復(fù)測量設(shè)計(jì)的特點(diǎn)是一定有個(gè)體內(nèi)因子但不一定有個(gè)體間因子。后者是不同處理組合或不同個(gè)體組。而且即使有不同組群(例如男性和女性)但人人都經(jīng)歷重復(fù)測量而不是一組接受重復(fù)測量另一組不接受。重復(fù)測量資料的方差分析v具有重復(fù)測量的設(shè)計(jì),即在給予某種處理后,在幾個(gè)不
21、同的時(shí)間點(diǎn)上從同1個(gè)受試對(duì)象(或樣品)身上重復(fù)獲得指標(biāo)的觀測值;有時(shí)是從同1個(gè)個(gè)體的不同部位(或組織)上重復(fù)獲得指標(biāo)的觀測值。由于這種設(shè)計(jì)符合許多醫(yī)學(xué)試驗(yàn)本身的特點(diǎn),故在醫(yī)學(xué)科研中應(yīng)用的頻率相當(dāng)高。如果試驗(yàn)中共有K個(gè)試驗(yàn)因素,其中只有M個(gè)因素與重復(fù)測量有關(guān),則稱為具有M個(gè)重復(fù)測量的K因素設(shè)計(jì)。重復(fù)測量資料的方差分析v在對(duì)重復(fù)測量資料進(jìn)行方差分析時(shí),除要求樣本是隨機(jī)的,在處理的同一水平上觀測是獨(dú)立的,及每一水平的測定值都來自正態(tài)總體外,特別強(qiáng)調(diào)協(xié)方差的復(fù)合對(duì)稱性或球形性。因此,在進(jìn)行重復(fù)測量資料的方差分析前,應(yīng)先對(duì)資料的協(xié)方差陣進(jìn)行球形性檢驗(yàn)。若滿足球形性要求,則直接進(jìn)行方差分析;不滿足球形性要
22、求時(shí),需對(duì)與時(shí)間有關(guān)的F統(tǒng)計(jì)量分子、分母的自由度進(jìn)行校正, 以減少犯I類錯(cuò)誤的概率,或直接進(jìn)行多變量方差分析。重復(fù)測量資料的方差分析v對(duì)重復(fù)測量實(shí)驗(yàn)數(shù)據(jù)的方差分析需考慮兩個(gè)因素的影響,一個(gè)因素是處理分組,可通過施加干預(yù)和隨機(jī)分組來實(shí)現(xiàn);另一個(gè)因素是測量時(shí)間,由研究者根據(jù)專業(yè)知識(shí)和要求確定。因此,重復(fù)測量資料的變異可分解為處理因素、時(shí)間因素、處理和時(shí)間的交互作用、受試對(duì)象間的隨機(jī)誤差和重復(fù)測量的隨機(jī)誤差5部分。重復(fù)測量資料的方差分析v重復(fù)測量設(shè)計(jì)優(yōu)點(diǎn)是:每一個(gè)體作為自身的對(duì)照,克服了個(gè)體間的變異。分析時(shí)可更好地集中于處理效應(yīng), 同時(shí)被試者間自身差異的問題不再存在。也就是減少了一個(gè)差異來源。重復(fù)測
23、量設(shè)計(jì)的每一個(gè)體作為自身的對(duì)照,研究所需的個(gè)體相對(duì)較少,因此更加經(jīng)濟(jì)。v重復(fù)測量設(shè)計(jì)缺點(diǎn)是:滯留效應(yīng),前面的處理效應(yīng)有可能滯留到下一次的處理;潛隱效應(yīng),前面的處理效應(yīng)有可能激活原本以前不活躍的效應(yīng);學(xué)習(xí)效應(yīng),由于逐步熟悉實(shí)驗(yàn),研究對(duì)象的反應(yīng)能力有可能逐步得到了提高。協(xié)方差分析 v在介紹醫(yī)學(xué)試驗(yàn)設(shè)計(jì)時(shí)曾談到,嚴(yán)格按試驗(yàn)設(shè)計(jì)的項(xiàng)基本原則設(shè)計(jì)試驗(yàn),目的就是為了排除非處理因素的干擾和影響,使試驗(yàn)誤差的估計(jì)降到最低限度,從而可以準(zhǔn)確地獲得處理因素的試驗(yàn)效應(yīng)。但在某些實(shí)際問題中,有些因素在目前還不能控制或難以控制,如在動(dòng)物飼養(yǎng)試驗(yàn)中,各組動(dòng)物所增加的平均體重不僅僅與各種飼料營養(yǎng)價(jià)值高低有關(guān),還與各動(dòng)物的進(jìn)
24、食量有關(guān),甚至與各動(dòng)物的初始重量等因素及其交互作用都有關(guān)系。如果直接進(jìn)行方差分析,會(huì)因?yàn)榛祀s因素的影響而無法得出正確結(jié)論。協(xié)方差分析v協(xié)方差分析是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。在這種分析中,先將定量的影響因素(即難以控制的因素)看作自變量,或稱為協(xié)變量,建立因變量隨自變量變化的回歸方程,這樣就可以利用回歸方程把因變量的變化中受不易控制的定量因素的影響扣除掉,從而能夠較合理地比較定性的影響因素處在不同水平下,經(jīng)過回歸分析手段修正以后的因變量的總體均數(shù)之間是否有顯著性的差別,這就是協(xié)方差分析問題的基本思想。協(xié)方差分析v協(xié)方差分析是把方差分析與回歸分析結(jié)合起來的一種統(tǒng)計(jì)分析方法。它
25、用于比較一個(gè)變量Y在一個(gè)或幾個(gè)因素不同水平上的差異,但Y在受這些因素影響的同時(shí),還受到另一個(gè)變量X的影響,而且X變量的取值難以人為控制,不能作為方差分析中的一個(gè)因素處理。此時(shí)如果X與Y之間可以建立回歸關(guān)系,則可用協(xié)方差分析的方法排除X對(duì)Y的影響,然后用方差分析的方法對(duì)各因素水平的差異進(jìn)行統(tǒng)計(jì)推斷。在協(xié)方差分析中,我們稱Y為因變量,X為協(xié)變量,即在方差分析中用來校正因變量的數(shù)值型變量。協(xié)方差分析v也許有人會(huì)問隨機(jī)因素的影響也是不能人為控制的,為什么不能把X作為一種隨機(jī)因素處理呢?這里的差異主要在于作為隨機(jī)因素處理時(shí)雖然每一水平的影響是不能人為控制的,但我們至少可以得到幾個(gè)屬于同一水平的重復(fù),因此
26、可以把它們分別用另一因素的不同水平處理。最后在進(jìn)行方差分析時(shí),我們才能排除這一隨機(jī)因素的影響,對(duì)另一因素的各水平進(jìn)行比較。協(xié)方差分析v例如當(dāng)我們考慮動(dòng)物窩別對(duì)增重的影響時(shí),一般我們可把它當(dāng)作隨機(jī)因素處理,這一方面是由于它不容易數(shù)量化,另一方面是同一窩一般有幾只動(dòng)物,可分別接受另一因素不同水平的處理;如果我們考慮試驗(yàn)開始前動(dòng)物初始體重的影響,這時(shí)一般方法是選初始重量相同的動(dòng)物作為一組,分別接受另一因素的不同水平處理,此時(shí)用方差分析也無問題。顯然,這種方法往往是很困難的,一般需要很大的樣本。若可供試驗(yàn)的動(dòng)物很少,初始體重又有明顯差異,無法選到體重相當(dāng)?shù)膭?dòng)物,那就只好認(rèn)為初始體重X與最終體重Y有回歸
27、關(guān)系,采用協(xié)方差分析的方法排除初始體重的影響,再來比較其他因素例如飼料種類,數(shù)量對(duì)增重的影響了。它既利用了回歸分析的基本方法,又用到了方差分析的基本思想,這就是協(xié)方差分析的基本思想。協(xié)方差分析v消除初始體重影響的另一種方法是對(duì)最終體重與初始體重的差值即y-x 進(jìn)行統(tǒng)計(jì)分析。這種方法與協(xié)方差分析的生物學(xué)意義是不同的。對(duì)差值進(jìn)行分析的生物學(xué)假設(shè)是初始體重對(duì)以后的體重增量沒有任何影響,而協(xié)方差分析則是假設(shè)體重增量中包含初始體重的影響(不僅僅是初始體重對(duì)最終體重的影響),這種影響的大小與初始體重成正比。如果這一比值為1,協(xié)方差分析與對(duì)差值進(jìn)行方差分析是相同的。但如果比值不為1,它們的結(jié)果將是不同的。也
28、就是說協(xié)方差分析是假設(shè)使初始體重不同的因素在以后的生長過程中也會(huì)發(fā)揮作用,而對(duì)差值進(jìn)行方差分析是假設(shè)這些因素以后不再發(fā)揮作用;這兩種生物學(xué)假設(shè)是有很大區(qū)別的。希望同學(xué)們?cè)谝院蟮膶W(xué)習(xí)中注意統(tǒng)計(jì)學(xué)知識(shí)背后的研究假設(shè)。協(xié)方差分析v由于協(xié)方差分析的過程包含了對(duì)協(xié)變量影響是否存在及其大小等一系列統(tǒng)計(jì)檢驗(yàn)與估計(jì),它顯然比對(duì)差值進(jìn)行分析等方法有更廣泛的適用范圍,因此除非有明顯證據(jù)說明對(duì)差值進(jìn)行分析的生物學(xué)假設(shè)是正確的,一般情況下還是應(yīng)采用協(xié)方差分析的方法。協(xié)方差分析v在醫(yī)學(xué)研究中,很多情況下都需要借助協(xié)方差分析來排除非處理因素的干擾從而準(zhǔn)確地估計(jì)處理因素的試驗(yàn)效應(yīng)。例如,評(píng)價(jià)三種藥物治療高脂血癥的效果,尋求
29、各方面自然條件基本相同的受試者是很困難的,但是把患者的年齡、體重指數(shù)、用藥前的血脂水平等作為協(xié)變量進(jìn)行協(xié)方差分析就簡單很多。同樣,比較幾種不同營養(yǎng)奶粉對(duì)嬰幼兒體重增長的作用差異,把研究對(duì)象的性別、年齡、基線體重等混雜因子作為協(xié)變量進(jìn)行協(xié)方差分析是非常有效的統(tǒng)計(jì)分析方法。本章小節(jié) v方差分析的基本思想是根據(jù)研究目的和設(shè)計(jì)類型,將總變異中的離均差平方和SS及其自由度分別分解成相應(yīng)的若干部分,然后求各相應(yīng)部分的變異;再用各部分的變異與組內(nèi)(或誤差)變異進(jìn)行比較,得出統(tǒng)計(jì)量F值;最后根據(jù)F值的大小確定P值,作出統(tǒng)計(jì)推斷。v方差分析的應(yīng)用條件為:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總
30、體方差相等,即方差齊性。v完全隨機(jī)設(shè)計(jì)是采用完全隨機(jī)化的分組方法,將全部試驗(yàn)對(duì)象分配到k個(gè)處理組,各組分別接受不同的處理,試驗(yàn)結(jié)束后比較各組均數(shù)之間的差別有無統(tǒng)計(jì)學(xué)意義,推論處理因素的效應(yīng)。本章小節(jié)v隨機(jī)區(qū)組設(shè)計(jì)是根據(jù)“局部控制”和“隨機(jī)排列”原理進(jìn)行的,將研究對(duì)象按性質(zhì)不同劃分為等于重復(fù)次數(shù)的區(qū)組,使區(qū)組內(nèi)環(huán)境差異最小而區(qū)組間環(huán)境允許存在差異,每個(gè)區(qū)組即為一次完整的重復(fù),區(qū)組內(nèi)各處理都獨(dú)立地隨機(jī)排列。這是隨機(jī)排列設(shè)計(jì)中最常用、最基本的設(shè)計(jì)。v將k個(gè)不同符號(hào)排成k列,使得每一個(gè)符號(hào)在每一行、每一列都只出現(xiàn)一次的方陣,叫做kk拉丁方。應(yīng)用拉丁方設(shè)計(jì)(latin square design)就是將
31、處理從縱橫二個(gè)方向排列為區(qū)組(或重復(fù)),使每個(gè)處理在每一列和每一行中出現(xiàn)的次數(shù)相等(通常一次),即在行和列兩個(gè)方向都進(jìn)行局部控制。所以它是比隨機(jī)區(qū)組多一個(gè)方向局部控制的隨機(jī)排列的設(shè)計(jì),因而具有較高的精確性。本章小節(jié)v如果試驗(yàn)所涉及的處理因素的個(gè)數(shù)2,當(dāng)各因素在試驗(yàn)中所處的地位基本平等,而且因素之間存在1級(jí)(即2因素之間)、2級(jí)(即3因素之間)乃至更復(fù)雜的交互作用時(shí),需選用析因設(shè)計(jì)。析因設(shè)計(jì)的缺點(diǎn)是當(dāng)因素個(gè)數(shù)較多時(shí)(三個(gè)因素以上),所需實(shí)驗(yàn)單位數(shù)、處理組數(shù)、實(shí)驗(yàn)次數(shù)和方差分析的計(jì)算量劇增。減少多因素實(shí)驗(yàn)次數(shù)的有效方法是采用正交設(shè)計(jì)。本章小節(jié)v重復(fù)測量是指對(duì)同一觀察對(duì)象的同一觀察指標(biāo)在不同時(shí)間點(diǎn)上
32、進(jìn)行多次測量,用于分析觀察指標(biāo)在不同時(shí)間上的變化規(guī)律。這類測量資料在醫(yī)學(xué)研究中比較常見。重復(fù)測量設(shè)計(jì)大體有兩類。一類是對(duì)每個(gè)人在同一時(shí)間不同因子組合間測量;另外一類是對(duì)每個(gè)人在不同時(shí)間點(diǎn)上重復(fù)。具有重復(fù)測量的設(shè)計(jì),即在給予某種處理后,在幾個(gè)不同的時(shí)間點(diǎn)上從同1個(gè)受試對(duì)象(或樣品)身上重復(fù)獲得指標(biāo)的觀測值;有時(shí)是從同1個(gè)個(gè)體的不同部位(或組織)上重復(fù)獲得指標(biāo)的觀測值。由于這種設(shè)計(jì)符合許多醫(yī)學(xué)試驗(yàn)本身的特點(diǎn),故在醫(yī)學(xué)科研中應(yīng)用的頻率相當(dāng)高。本章小節(jié)v協(xié)方差分析是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。在這種分析中,先將定量的影響因素(即難以控制的因素)看作自變量,或稱為協(xié)變量,建立因變量隨
33、自變量變化的回歸方程,這樣就可以利用回歸方程把因變量的變化中受不易控制的定量因素的影響扣除掉,從而能夠較合理地比較定性的影響因素處在不同水平下,經(jīng)過回歸分析手段修正以后的因變量的總體均數(shù)之間是否有顯著性的差別,這就是協(xié)方差分析問題的基本思想。第第9章章 直線回歸與相關(guān)直線回歸與相關(guān)學(xué)習(xí)目標(biāo)v掌握直線相關(guān)的定義,熟悉簡單相關(guān)系數(shù)的計(jì)算;v掌握直線相關(guān)分析的SAS程序(CORR過程以及選項(xiàng));v掌握直線回歸的模型假設(shè)以及計(jì)算方法;v了解直線回歸應(yīng)用的注意事項(xiàng);v掌握直線回歸分析的SAS程序(REG過程以及選項(xiàng))。概述v在醫(yī)學(xué)上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重、體溫與脈搏、年齡與血壓、
34、釘螺與血吸蟲感染等。而有些事物的關(guān)系是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時(shí)因果不清,只是伴隨關(guān)系。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這里不是因果關(guān)系,而可能與社會(huì)條件、家庭經(jīng)濟(jì)、營養(yǎng)、遺傳等因素有關(guān)。概述v相關(guān)是解決客觀事物或現(xiàn)象相互關(guān)系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關(guān)系。有相關(guān)不一定因果關(guān)系;反之,有因果關(guān)系的,一定有相關(guān)。我們稱“因”的變量叫因變量,習(xí)慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關(guān)系在坐標(biāo)圖上以P(X,Y)的方法定位,作出一群散點(diǎn)圖,便可在圖上看出兩者的關(guān)系。v相關(guān)分析和回歸分析是研究現(xiàn)
35、象之間相關(guān)關(guān)系的兩種基本方法。所謂相關(guān)分析,就是用一個(gè)指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度。直線相關(guān)分析介紹 v設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)值時(shí),y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為 y = f(x),其中x稱為自變量,y稱為因變量。各觀測點(diǎn)落在一條線上。v自變量取值一定時(shí),因變量的取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系叫做相關(guān)關(guān)系。當(dāng)一個(gè)或幾個(gè)相互聯(lián)系的變量取一定數(shù)值時(shí),與之相對(duì)應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。直線相關(guān)分析介紹v與函數(shù)關(guān)系不同,相關(guān)變
36、量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá),一個(gè)變量的取值不能由另一個(gè)變量唯一確定,當(dāng)變量x取某個(gè)值時(shí),變量y的取值可能有無數(shù)個(gè),各觀測點(diǎn)分布在直線周圍。v按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、和不相關(guān):不相關(guān) v如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不相關(guān),即沒有任何相關(guān)關(guān)系。自變量x變動(dòng)時(shí),因變量y的數(shù)值不隨之相應(yīng)變動(dòng)。完全相關(guān) v如果一個(gè)變量的變化是由其他變量的數(shù)量變化所唯一確定,此時(shí)變量間的關(guān)系稱為完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動(dòng)而變動(dòng),它在相關(guān)圖上表現(xiàn)為所有的觀察點(diǎn)都落在同一條直線上,這種情況下,相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。 不完全相
37、關(guān) v如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計(jì)研究的主要對(duì)象。正相關(guān)和負(fù)相關(guān) v正相關(guān):兩個(gè)變量之間的變化方向一致,都是呈增長或下降的趨勢。即自變量x的值增加(或減少),因變量y的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是正相關(guān)。v負(fù)相關(guān):兩個(gè)變量之間變化方向相反,即自變量的數(shù)值增大(或減小),因變量隨之減小(或增大)。線形相關(guān)和非線形相關(guān) v直線相關(guān)(或線性相關(guān)):當(dāng)相關(guān)關(guān)系的自變量x發(fā)生變動(dòng),因變量y值隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)通稱為直線相關(guān)。v曲線(或非線性)相關(guān)。在兩個(gè)相關(guān)現(xiàn)象中,自變量x值發(fā)生變
38、動(dòng),因變量y也隨之發(fā)生變動(dòng),這種變動(dòng)不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。 單相關(guān)、復(fù)相關(guān)和偏相關(guān) v單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。v復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量。v在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)。相關(guān)系數(shù)v所謂相關(guān)分析,就是分析測定變量間相互依存關(guān)系的密切程度的統(tǒng)計(jì)方法。一般可以借助相關(guān)系數(shù)來進(jìn)行相關(guān)分析。v相
39、關(guān)系數(shù)是表示兩個(gè)變量(X,Y)之間線性關(guān)系密切程度的指標(biāo),用r表示,其值在-1至+1間。如兩者呈正相關(guān),r呈正值,r=1時(shí)為完全正相關(guān);如兩者呈負(fù)相關(guān)則r呈負(fù)值,而r=-1時(shí)為完全負(fù)相關(guān)。完全正相關(guān)或負(fù)相關(guān)時(shí),所有圖點(diǎn)都在直線回歸線上;點(diǎn)子的分布在直線回歸線上下越離散,r的絕對(duì)值越小。當(dāng)例數(shù)相等時(shí),相關(guān)系數(shù)的絕對(duì)值越接近1,相關(guān)越密切;越接近于0,相關(guān)越不密切。當(dāng)r=0時(shí),說明X和Y兩個(gè)變量之間無直線關(guān)系。相關(guān)系數(shù)v簡單相關(guān)系數(shù)反映兩個(gè)變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)測定,它是其他相關(guān)系數(shù)形成的基礎(chǔ)。簡單相關(guān)系數(shù)的計(jì)算公式為:22)()()(yyxxyyxxr直線相關(guān)分析的SAS程序
40、vSAS系統(tǒng)中進(jìn)行直線相關(guān)分析的過程步是CORR過程。 vCORR過程存在于SAS的base模塊,可以計(jì)算Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)、Kendalls tau-b統(tǒng)計(jì)量、Hoeffdings獨(dú)立性分析統(tǒng)計(jì)量D以及Pearson,Spearman,以及Kendall偏相關(guān)系數(shù)。另外,它還對(duì)用于估計(jì)可靠性的Cronbach系數(shù)進(jìn)行計(jì)算。Corr過程的語句基本格式如下:vPROC CORR ;BY 變量名-1. 變量名-n ; FREQ 變量名; PARTIAL 變量名(列表); VAR 變量名(列表); WEIGHT 變量名; WITH 變量名(列表);直線相關(guān)分析的S
41、AS程序vCORR過程的幾條語句中,BY語句、FREQ語句以及WEIGHT語句與以前所介紹的過程中的完全相同,大家可以參考以前的內(nèi)容。下面簡要介紹其余的幾條語句。vPARTIAL語句:用以對(duì)所指定的變量計(jì)算偏相關(guān)系數(shù)或類似的偏統(tǒng)計(jì)量,可計(jì)算的偏統(tǒng)計(jì)量與PROC CORR語句中指定的選項(xiàng)有關(guān)。但其中只有Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)及Kendalls Tau-b可計(jì)算相應(yīng)的偏統(tǒng)計(jì)量。直線相關(guān)分析的SAS程序vVAR語句:VAR語句和其它過程中的也基本相同,這里VAR語句指定的變量必須為數(shù)值型變量,至少應(yīng)指定兩個(gè)變量(當(dāng)然只指定一個(gè)變量也可以計(jì)算,但是你必須確定你確實(shí)需要證
42、明“一個(gè)變量和它自身的相關(guān)系數(shù)為1”),可同時(shí)指定多個(gè)變量,此時(shí)SAS會(huì)對(duì)任意兩個(gè)變量之間進(jìn)行相關(guān)分析。直線相關(guān)分析的SAS程序vWITH語句:WITH語句用來指定和VAR語句指定的變量進(jìn)行相關(guān)分析的變量。當(dāng)有WITH語句存在時(shí),VAR語句中指定的變量之間不再進(jìn)行相關(guān)性分析,而其中的每個(gè)變量都和WITH語句指定的所有變量進(jìn)行相關(guān)性分析,相關(guān)分析也不會(huì)發(fā)生在WITH語句所指定的變量之間。輸出結(jié)果的相關(guān)矩陣中,VAR語句指定的變量排列在行上,WITH語句指定的變量則排列在列上。如果需要,一個(gè)變量可以同時(shí)出現(xiàn)在VAR語句和WITH語句內(nèi)。vPearson相關(guān)用于雙變量正態(tài)分布的資料,其相關(guān)系數(shù)稱為積
43、矩相關(guān)系數(shù)。進(jìn)行相關(guān)分析時(shí),我們一般會(huì)同時(shí)對(duì)兩變量繪制散點(diǎn)圖,以更直觀地考察兩變量之間的相互變化關(guān)系。直線回歸分析 v醫(yī)學(xué)上,不少變量間雖存在一定關(guān)系,但這種關(guān)系不象函數(shù)關(guān)系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個(gè)變量在坐標(biāo)上的方位點(diǎn),并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。v 直線回歸分析的任務(wù)在于找出兩個(gè)變量有依存關(guān)系的直線方程,以確定一條最接近于各實(shí)測點(diǎn)的直線,使各實(shí)測點(diǎn)與該線的縱向距離的平方和為最小。這個(gè)方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。直線回歸分析v直線回歸是用直線回
44、歸方程表示兩個(gè)數(shù)量變量間依存關(guān)系的統(tǒng)計(jì)分析方法,屬雙變量分析的范疇。如果某一個(gè)變量隨著另一個(gè)變量的變化而變化,并且它們的變化在直角坐標(biāo)系中呈直線趨勢,就可以用一個(gè)直線方程來定量地描述它們之間的數(shù)量依存關(guān)系,這就是直線回歸分析。v直線回歸分析中兩個(gè)變量的地位不同,其中一個(gè)變量是依賴另一個(gè)變量而變化的,因此分別稱為因變量和自變量,習(xí)慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數(shù)值(非隨機(jī)變量),也可以是隨機(jī)變量。v所謂回歸分析,就是依據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,來近似地表達(dá)變量間的平均變化關(guān)系。直線回歸分析v相關(guān)關(guān)系能說明現(xiàn)象間有無關(guān)系,但它不能說明一個(gè)現(xiàn)象發(fā)生
45、一定量的變化時(shí),另一個(gè)變量將會(huì)發(fā)生多大量的變化。也就是說,它不能說明兩個(gè)變量之間的一般數(shù)量關(guān)系值。回歸分析,是指在相關(guān)分析的基礎(chǔ)上,把變量之間的具體變動(dòng)關(guān)系模型化,求出關(guān)系方程式,就是找出一個(gè)能夠反映變量間變化關(guān)系的函數(shù)關(guān)系式,并據(jù)此進(jìn)行估計(jì)和推算。通過回歸分析,可以將相關(guān)變量之間不確定、不規(guī)則的數(shù)量關(guān)系一般化、規(guī)范化。從而可以根據(jù)自變量的某一個(gè)給定值推斷出因變量的可能值(或估計(jì)值)。v回歸分析包括多種類型,根據(jù)所涉及變量的多少不同,可分為簡單回歸和多元回歸。簡單回歸又稱一元回歸,是指兩個(gè)變量之間的回歸。其中一個(gè)變量是自變量,另一個(gè)變量是因變量。直線回歸分析v相關(guān)分析和回歸分析有著密切的聯(lián)系,
46、它們不僅具有共同的研究對(duì)象,而且在具體應(yīng)用時(shí),常常必須相互補(bǔ)充。相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)程度。但是相關(guān)分析不能指出變量間相互關(guān)系的具體形式,也無法從一個(gè)變量的變化來推測另一個(gè)變量的變化情況?;貧w分析則是研究變量之間相互關(guān)系的具體形式,它對(duì)具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測定,確定一個(gè)相關(guān)的數(shù)學(xué)方程,根據(jù)這個(gè)數(shù)學(xué)方程可以從已知量推測未知量,從而為估算和預(yù)測提供了一個(gè)重要的方法。應(yīng)用直線回歸的注意事項(xiàng) v作回歸分析要有實(shí)際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象,隨意進(jìn)行回歸分析,忽視事物現(xiàn)象間的內(nèi)在聯(lián)系和規(guī)律;如對(duì)兒童身高與小樹的生長數(shù)據(jù)進(jìn)行回歸分析既無道理也無用途。另外,即使兩個(gè)變量間存
47、在回歸關(guān)系時(shí),也不一定是因果關(guān)系,必須結(jié)合專業(yè)知識(shí)作出合理解釋和結(jié)論。 v直線回歸分析的資料,一般要求應(yīng)變量Y是來自正態(tài)總體的隨機(jī)變量,自變量X可以是正態(tài)隨機(jī)變量,也可以是精確測量和嚴(yán)密控制的值。若稍偏離要求時(shí),一般對(duì)回歸方程中參數(shù)的估計(jì)影響不大,但可能影響到標(biāo)準(zhǔn)差的估計(jì),也會(huì)影響假設(shè)檢驗(yàn)時(shí)P值的真實(shí)性。應(yīng)用直線回歸的注意事項(xiàng)v進(jìn)行回歸分析時(shí),應(yīng)先繪制散點(diǎn)圖。若提示有直線趨勢存在時(shí),可作直線回歸分析;若提示無明顯線性趨勢,則應(yīng)根據(jù)散點(diǎn)分布類型,選擇合適的曲線模型,經(jīng)數(shù)據(jù)變換后,化為線性回歸來解決。一般說,不滿足線性條件的情形下去計(jì)算回歸方程會(huì)毫無意義,最好采用非線性回歸方程的方法進(jìn)行分析。v繪
48、制散點(diǎn)圖后,若出現(xiàn)一些特大特小的離群值(異常點(diǎn)),則應(yīng)及時(shí)復(fù)核檢查,對(duì)由于測定、記錄或計(jì)算機(jī)錄入的錯(cuò)誤數(shù)據(jù),應(yīng)予以修正和剔除。否則,異常點(diǎn)的存在會(huì)對(duì)回歸方程中的系數(shù)a、b的估計(jì)產(chǎn)生較大影響。應(yīng)用直線回歸的注意事項(xiàng)v回歸直線不要外延。直線回歸的適用范圍一般以自變量取值范圍為限,在此范圍內(nèi)求出的估計(jì)值稱為內(nèi)插;超過自變量取值范圍所計(jì)算的稱為外延。若無充足理由證明,超出自變量取值范圍后直線回歸關(guān)系仍成立時(shí),應(yīng)該避免隨意外延。直線回歸分析的SAS程序 vREG過程涉及到較多的語句和選項(xiàng), PROC REG ; MODEL 應(yīng)變量列表= ; BY 變量名列表 ; VAR 變量名列表 ; WEIGHT 變
49、量名 ; ADD 變量名列表 ; DELETE 變量名列表 ; MTEST 方程式 ; OUTPUT keyword=變量名列表 ; PLOT ;直線回歸分析的SAS程序vMODEL語句:用以指定所要擬合的回歸模型。其最前面的標(biāo)簽為可選項(xiàng),可以是不超過8個(gè)字符的字符串,用來對(duì)定義的模型進(jìn)行標(biāo)識(shí),以便于在結(jié)果中分辨不同的模型,一般情況下系統(tǒng)會(huì)以默認(rèn)的方式對(duì)模型進(jìn)行標(biāo)識(shí),你可以省略此項(xiàng)。關(guān)鍵字model后所列的是模型表達(dá)式,和方差分析中anova過程的model語句相似。模型表達(dá)式中等號(hào)的左邊為反應(yīng)變量,等號(hào)的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數(shù)據(jù)集中,而且是數(shù)值型的。如果要用到幾個(gè)變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程,model語句中的組合型變量將被視為非法。直線回歸分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- flash 課件教學(xué)課件
- 自愿放棄孩子協(xié)議書(2篇)
- 購買籽種合同范本(2篇)
- 高中技術(shù)《技術(shù)與設(shè)計(jì)II》課堂強(qiáng)化練習(xí)
- 節(jié)婦吟課件教學(xué)課件
- 南京航空航天大學(xué)《短片創(chuàng)作》2021-2022學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《數(shù)值分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 畢業(yè)論文(設(shè)計(jì))-香榭美臨住宅樓工程施工組織設(shè)計(jì)
- 深圳人民醫(yī)院幕墻工程施工組織設(shè)計(jì)
- 《致橡樹》說課稿
- 高危兒規(guī)范化健康管理專家共識(shí)解讀
- 2024至2030年中國連續(xù)熱鍍鋁硅合金鋼板行業(yè)市場深度分析及發(fā)展趨勢預(yù)測報(bào)告
- 05G335單層工業(yè)廠房鋼筋混凝土柱
- 2024年全國各地中考語文真題分類匯編【第二輯】專題07 文言文對(duì)比閱讀(含答案)
- DL∕T 899-2012 架空線路桿塔結(jié)構(gòu)荷載試驗(yàn)
- 2024年深圳公司試用期員工勞動(dòng)合同范文(二篇)
- QBT 102T-2023 甜菜糖廠設(shè)計(jì)規(guī)范 (正式版)
- 2023年上海市閔行區(qū)中考二模語文試卷含詳解
- 2024年山東濟(jì)南新舊動(dòng)能轉(zhuǎn)換起步區(qū)專職網(wǎng)格員招聘筆試沖刺題(帶答案解析)
- 國家開放大學(xué)《理工英語3》章節(jié)測試參考答案
- 智能手機(jī)維修技術(shù)第二版全套教學(xué)課件
評(píng)論
0/150
提交評(píng)論