試驗設(shè)計與回歸分析_第1頁
試驗設(shè)計與回歸分析_第2頁
試驗設(shè)計與回歸分析_第3頁
試驗設(shè)計與回歸分析_第4頁
試驗設(shè)計與回歸分析_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第4篇 試驗設(shè)計與回歸分析第1章 回歸分析的種類與簡單回歸分析第1節(jié) 回歸分析的任務(wù)和種類回歸分析僅哪些問題當(dāng)人們從一組對象上獲得2個或多個指標(biāo)的觀測值時,往往需要回答下述幾 個問題:如何實現(xiàn)預(yù)測,即如何由1個或多個指標(biāo)(自變量)的值去推算另1個 或多個指標(biāo)(因變量)的值;如何實現(xiàn)控制,即事先給鋤品質(zhì)量應(yīng)達(dá)到的標(biāo)準(zhǔn)(因 變量的取值范圍),根據(jù)變量之間的數(shù)量關(guān)系去控制那些影響產(chǎn)品質(zhì)量的因素(自 變量)的變化區(qū)間;如何實現(xiàn)修勻,由于所研究的指標(biāo)帶有變異性,當(dāng)用散布 圖將變量之間的關(guān)系呈現(xiàn)出來時,散點所形成的軌跡并非像數(shù)學(xué)中初等函數(shù)那樣 有規(guī)律,需要用合適的數(shù)學(xué)方法(如用直線或某種光滑曲線)對資料進(jìn)

2、行修勻, 使變量之間本質(zhì)聯(lián)系更清楚地呈現(xiàn)出來?;貧w分析正是回答上述問題的一種最常 用最有效的統(tǒng)計分析方法之一?;貧w分析的種類如果因變量是(非時間的)連續(xù)變量(即一般),設(shè)自變量的個數(shù)為k,當(dāng)k =1時,回歸分析的種類有:分析;通過直線化實現(xiàn)的簡單曲線回歸分析(以 下簡稱為曲線擬合);非線性曲線擬合;一般多項式曲線擬合;正交多項 式曲線擬合。當(dāng)kN2時,稱為多元回歸分析(注:前面的、2種情況實質(zhì) 上是用多元回歸分析僅只含1個自變量時較復(fù)雜的曲線擬合問題)。當(dāng)同時對多 個因變量進(jìn)行回歸分析時,稱之為多重回歸分析。在多元回歸分析中,簡單而又 實用的則是多元線性回歸分析(其中某些自變量可以是原觀測指標(biāo)

3、經(jīng)過某種初等 變換的結(jié)果,如對數(shù)變換、開平根變換等,因為這里所說的線性是指:函數(shù)f(x) 相對于回歸參數(shù)是線性的,并非相對于自變量而言)。這是本篇中要論述的問題。如果因變量是與時間有關(guān)的連續(xù)變量且未被離散化(如:生存時間、復(fù)發(fā)時 間、死亡時間等),而自變量可以是定量的,也可以是定性的。此時需用中的半 參數(shù)或參數(shù)回歸分析方法,將在本書第5篇中論述。如果因變量是名義或有序變量,無論它取二個離散值(如:死與活、復(fù)發(fā)與 未復(fù)發(fā)等)還是多個離散值(自變量可以是定性和定量的)時,都可選用分析; 如果把列聯(lián)表中每個格內(nèi)的理論頻數(shù)的對數(shù)當(dāng)作因變量,把分組變量(包含影響 因素和觀測結(jié)果變量2類)當(dāng)作自變量,可用

4、對數(shù)線性模性分析。這部分內(nèi)容請 參見本書第3篇中有關(guān)章節(jié)。在自變量代表時間的情況下,通常不假定因變量y的各次觀察值獨立,而具有某種非獨立的結(jié)構(gòu),例如構(gòu)成一平穩(wěn)序列。這種 回歸模型的研究被劃入統(tǒng)計學(xué)的另一個重要分支一時間序列統(tǒng)計分析的范圍, 本書不作討論。第2節(jié) 與相關(guān)分析的概念和要點1 .兩種分析方法的異同點研究在專業(yè)上有一定聯(lián)系的兩個變量之間是否存在直線關(guān)系以及如何求得 方程等問題,需進(jìn)行和回歸分析。從研究的目的來說,若僅僅為了了解兩變量之 間呈直線關(guān)系的密切程度和方向,宜選用線性相關(guān)分析;若僅僅為了建立由自變 量推算因變量的方程,宜選用分析。從資料所具備的條件來說,作相關(guān)分析時要 求兩變量

5、都是隨機(jī)變量(如:人的身長與體重、血硒與發(fā)硒);作回歸分析時要 求因變量是隨機(jī)變量,自變量可以是隨機(jī)的,也可以是一般變量(即可以事先指 定變量的取值,如:用藥的劑量)。在統(tǒng)計學(xué)教科書中習(xí)慣把相關(guān)與回歸分開論述,其實在應(yīng)用時,當(dāng)兩變量都是隨機(jī)變量時,常需同時給出這2種方法分 析的結(jié)果;另外,若用計算器實現(xiàn)統(tǒng)計分析,可用對相關(guān)系數(shù)的檢驗取代對回歸 系數(shù)的檢驗(理由見下節(jié)),脹方便地達(dá)到了化繁為簡的目的。故本書把這2個 內(nèi)容放在一起講解。2.散布圖在這兩種分析中的作用功能齊全的計算器和統(tǒng)計軟件,會蒙騙盲目運用統(tǒng)計方法的人,進(jìn)行和回歸 分析時,尤其要注意!因為統(tǒng)計方法只能幫助人們揭示數(shù)據(jù)之間內(nèi)在的統(tǒng)計

6、規(guī)律 性,但它不能創(chuàng)造規(guī)律,也就是說,資料之間是否存在本質(zhì)聯(lián)系要靠專業(yè)知識來 解釋;另外,在專業(yè)上有一定聯(lián)系的2項指標(biāo)之間的關(guān)系并非都是直線關(guān)系。實 事上,如果2項指標(biāo)之間呈一條彎曲度不大的“S”型或倒“S”型曲線趨勢, 錯誤地用一條方程來描述,在統(tǒng)計學(xué)上往往會得到較高的顯著性,即該方程是成 立的,但在生物學(xué)上是解釋不通的(當(dāng)因變量是某種率時最易發(fā)生這種現(xiàn)象)。 正確的做法是:將(x,y)的n對數(shù)值繪在直角坐標(biāo)系內(nèi),得到x與y變化趨勢 的散布圖,如果n個點形成的散布圖呈一條明顯的曲線趨勢時,宜擬合一條曲線 回歸方程;如果n個點在一條不太寬的長帶內(nèi)隨機(jī)地著,且不存在明顯的曲線趨 勢,可考慮進(jìn)行和

7、回歸分析;如果n個點形成的散布圖近似于一個圓盤,則說明 x與y之間無確定的變化趨勢,幾乎是互相獨立的,不必硬把它們捏合在一起分 析。第3節(jié) 與相關(guān)分析的計算和應(yīng)用1 .分析進(jìn)行分析的2個變量之間無自變量和因變量之分,分析的目的是研究在專業(yè) 上有一定聯(lián)系的2個變量呈直線關(guān)系的密切程度和方向,所用的統(tǒng)計量稱為相關(guān) 系數(shù)r,按式(4.1.1)(4.1.5)計算。lr = , xy =(4.1.1)(4.1.2)XXYY(4.1.1)(4.1.2)1 _ 、 lxx =(X - X)2 =X2 - -(EX,)2(4.1.3)(4.1.4)(4.1.5)1 E 、 婦=(Y - Y)2 = YY2 -

8、 - (K)2(4.1.3)(4.1.4)(4.1.5)1,、,、lXY=(X - X)(Y - Y) = YXY (X )(Y)lXYiii i n i i1Y = Yn i11Y = Yn iX = X n ,由式(4.1.1)定義的相關(guān)系數(shù)r滿足-iWrWl。當(dāng)n固定時,若|r|越接近于0,表明x與y之間呈直線關(guān)系的密切程 度越低;若lr|越接近于1,表明x與y之間呈直線關(guān)系的密切程度越高。相關(guān)系數(shù)的大小受數(shù)據(jù)的對子數(shù)和抽樣的影響,當(dāng)r所代表的相關(guān)系數(shù)P = 0時,|r|可能明顯大于0,為了盡可能排除抽樣的影響,較客觀地反映 出2變量之間呈直線關(guān)系的密切程度,需進(jìn)行假設(shè)檢驗,其假設(shè)為Ho

9、:P = 0; H:P尹0,a=0.05。按式(4.1.6)、(4.1.7)計算。r-O|_ Ir-O|_ Ir|y(4.1.6)S =. :12, df = n - 2r * n -2(4.1.7)求出統(tǒng)計量tr的值后,查t臨界值表、下結(jié)論的方法與比較時所用的t檢 驗相同。統(tǒng)計學(xué)家已編制出相關(guān)系數(shù)的臨界值表,按df=n-2查此表作檢驗就更 簡便了。2.分析進(jìn)行分析的2個變量之間一般有自變量和因變量之分,即使在專業(yè)上無法區(qū) 分時,常把容易測量的變量看作自變量,另一個較難測量的變量看作因變量。分 析的目的是建立2變量之間的方程,檢驗該方程是否成立,并結(jié)合專業(yè)知識說明 該方程是否值得應(yīng)用以及如何應(yīng)

10、用。關(guān)于模型,有下列統(tǒng)計假定:對于給定的x,y是1個具有特定的隨機(jī)變量,并且,與各x值對應(yīng)的y 服從具有等方差的正態(tài);獨立性假定,即各y值在統(tǒng)計學(xué)上彼此互相獨立(有時此假定與實際情況 有矛盾,需根據(jù)具體情形采取對策);直線假定,若用uyl x表示給定x時,y的,則此假定的含義是:y的 (uyl x)是x的直線函數(shù)。這等價于說,將(x1,uy|x1)、(x2,uy|x2)、 (xk,uy|xk)這些點連接起來,它們應(yīng)在1條直線上。設(shè)方程為y=a+Bx+e,e為隨機(jī),樣本方程為y=a+bx,a、b分別是a、B的估計值,根據(jù)最小平方法(或叫最小二乘法)原理,可導(dǎo)出計算a, b的公式, 見式(4.1.

11、8)、(4.1.9)。b = lXY xX,(4.1.9)式(4.1.8)中的 lxx、Ixy 由式(4.1.2)、B的估計值,根據(jù)最小平方法(或叫最小二乘法)原理,可導(dǎo)出計算a, b的公式, 見式(4.1.8)、(4.1.9)。b = lXY xX,(4.1.9)式(4.1.8)中的 lxx、Ixy 由式(4.1.2)、(4.1.4)定義;式(4.1.9)中 x、y 由式(4.1.5) 定義。如果根據(jù)專業(yè)知識需求過定點(x。,y0)的方程,則按式(4.1.10),(4.1.11) 計算。(4.1.8)a = Y - bXb = (X X )(Y Y0)/(X X0)2(4.1.10)a =

12、Y bX00(4.1.11)如果(x0,y) = (0,0)點,則按式(4.1.12)計算。b = YXY / X 2, a = 0(4.1.12)與需要對相關(guān)系數(shù)進(jìn)行檢驗的理由相同,對斜率和截距也需作檢驗。對B (斜率)作檢驗的假設(shè)和方法如下。H:B=0; H1: B 尹0;a=0.05。(4.1.13),S:l Y X yi &、XX.(Y Y )2n 一 2(4.1.14)A(Y Y)2 = l 12 /1 = l bl XY XY XX YY XY說明值得注意的是:同一批資料,按式(4.1.6)與按式(4.1.13)算得的 結(jié)果和查表的結(jié)果完全一致,即t=t,df=n-2。顯然,計算t

13、r要比tb容易得 多,在實用時,可用前者取代后者。實現(xiàn)這2種檢驗的更簡便的方法則是直接查 “相關(guān)系數(shù)臨界值表”。與對斜率檢驗等價的還有一種常用的方法:即對回歸方程是否顯著作(見后 面SAS軟件REG過程的輸出結(jié)果)。其基本思想是:計算出y的總離均差平和 SST、由回歸所能解釋的離均差平和SSR,它們的差值就是回歸所無法解釋的量, 稱為,記為SSE,然后,用回歸的均方除以的均方,構(gòu)造出F統(tǒng)計量,進(jìn)而根據(jù) F推斷出所求的回歸方程是否顯著。關(guān)于SS、SS、SS的計算參見本章第4節(jié),此處僅介紹SS,以便引入1個T R ER與相關(guān)系數(shù)有關(guān)的統(tǒng)計量一決定系數(shù)r 2。SS =r2SS ,即r2=SS /SS

14、 ,這說明決定系數(shù)r2就是回歸的離均差平和占y 的總離均差平和的百分比,它即建立了相關(guān)與回歸之間的聯(lián)系,又通過具體的數(shù) 量大小反映了回歸的貢獻(xiàn)大小,這是回歸分析中1個十分有用的統(tǒng)計量。對a (截距)作檢驗的假設(shè)和方法如下。H0: a=0; H1: a尹0; a (顯著性水平)=0.05。ta= I a-0 I /Sa =|a| /Sa , df=n-2(4.1.16)Sa =(4.1.17)Sa =(4.1.17)說明上述各式中Sy.x稱為剩余,是排除了乂的影響后,單獨y方面的 變異大小,常用它作為預(yù)報精確度的標(biāo)志。因為它的單位與y一致,最容易在實 際中進(jìn)行比較和檢驗,所以,一個回歸能否對僅實

15、際問題有所幫助,只要比較 Sy.x與允許的偏差就行。故它是檢驗一個回歸是否有效的極其重要的標(biāo)志。與回歸分析中區(qū)間估計問題利用回歸方程進(jìn)行預(yù)報與控制P、a、B 的 100(1-a)% 按式(4.1.18)(4.1.20)計算。r-ta(n-2)SrWpWr+ta(n-2)Sr(4.1.18)a-ta(n-2)SaW,Wa+ta(n-2)Sa(4.1.19)b-ta(n-2)SbWBWb+ta(n-2)Sb(4.1.20)若記uyl x=x0為給定x = x0條件下y的,則它的100(1- a)%按式、(4.1.22)計算。Y-1 s 匕皿 8 =3.355,即 P0.01,在a=0.01水準(zhǔn)上拒

16、絕H0,接受1H)。r0.01用查表法實現(xiàn)上述檢驗的方法是:查相關(guān)系數(shù)臨界值表,找到df=8所對應(yīng)的那一行,看r=0.848915在某2個 相鄰的數(shù)之間,與此二值對應(yīng)的表頭上的小數(shù)就是P值所在的范圍(注意有單、 雙側(cè)檢驗之分)。驗),因.;篇0,故可以認(rèn)為x與y之間呈非常顯著的正相 關(guān)關(guān)系,也即所求得的方程成立。說明適于進(jìn)行和回歸分析的資料類型為;當(dāng)運用求得的方程去對因變量 的取值進(jìn)行預(yù)報時,自變量的取值最好不要超出原試驗數(shù)據(jù)的變化范圍;檢查方 程的計算是否有錯的簡便方法:所求的直線應(yīng)通過(x,y)這一點,即將乂代入方 程,應(yīng)得y Ry。最后介紹用SAS軟件實現(xiàn)統(tǒng)計計算和檢驗的方法SAS 程序

17、D4P1.PRG DATA abc;PROC PLOT;INPUT x y;PLOT y*x=s;CARDS;RUN;654 130PROC CORR;786 168VAR x y;667 143RUN;605 130PROC REG;761 158MODEL y=x / R CLI CLM;642129PLOT (U95. L95. P.)*x=-652 151y*x=o / OVERLAY;706153OUTPUT OUT=aaa P=yhat R=yresid;602 149RUN;539 109PROCPLOTDATA=aaa;PLOT yresid*yhat=R;OPTIONS LS

18、=64PS=20;RUN;(程序的第1部分)(程序的第2部分)程序修改指導(dǎo)OPTIONS語句規(guī)定輸出時每行最多64個字符,每頁最多 20行,目的是使輸出的圖形小一些;第1次調(diào)用PLOT過程是為了繪原始數(shù)據(jù)的 散布圖,以便了解是否適合作和回歸分析,每1對數(shù)據(jù)用1個“s”表示出來; 第2個過程步是調(diào)用CORR過程作相關(guān)分析;第3個過程步是調(diào)用REG過程進(jìn)行 分析,在MODEL語句中,因變量放在等號左邊,右邊各選擇項的含義是:R(作殘 差分析,同時給出因變量的預(yù)測值)、CLI(給出各自變量所對應(yīng)的因變量的95% 的下限與上限值)、CLM(給出各自變量所對應(yīng)的因變量預(yù)測值()的95%的下限 與上限值)

19、,緊接此語句之后的PLOT語句第1部分要求以x為橫軸,縱軸分別 為U95(上限值)、L95(下限值)、P(因變量的預(yù)測值),均用“-”表示,將繪出 回歸直線的置信帶;同時用“。”表示原始數(shù)據(jù)點,OVERLAY要求將自變量相同 因變量取幾組不同值的圖繪在同1個坐標(biāo)系內(nèi);OUTPUT語句產(chǎn)生1個輸出數(shù)據(jù) 集AAA,內(nèi)含(x, y)原始數(shù)據(jù)和y的預(yù)測值yhat(即y)、殘差yresid=y-y”; 最后調(diào)用PLOT過程繪殘差圖,把殘差放在縱軸上、y的預(yù)測值放在橫軸上。200輸出結(jié)果及其解釋+1Plot of Y*X.Symbol used is s.Y|s|s150+sss|s|ss sIs100+

20、-+-500550600650700750800X 這是原始數(shù)據(jù)的散布圖,不存在某種明顯的曲線趨勢,各點在1條不太寬的 帶內(nèi)隨機(jī)地著,而且,2變量都是隨機(jī)變量,故可以繼續(xù)作和回歸分析。CORRELATION ANALYSIS 2 VAR Variables: XYSimple StatisticsVariable N Mean Std Dev Sum Minimum MaximumXY1010661.4142.074.294017.41656614.01420.0539.0109.0786.0168.0PearsonCorrelation Coefficients / XX1.000000.0

21、Y0.848920.0019Prob |R| under Ho:Y 0.84892 0.0019 1.00000 0.0Rho=0 / N = 10這是相關(guān)分析過程給出的關(guān)于、等的簡單統(tǒng)計量,皮爾遜(Pearson)相關(guān)系 數(shù)及其顯著性檢驗的P值。因r=0.84892, P=0.0019,說明2變量之間呈非常顯 著的正相關(guān)關(guān)系。Model: MODEL1Dependent Variable: YAnalysis of VarianceSum ofMeanSourceDFSquaresSquareF Value ProbFModel11967.392891967.3928920.6390.001

22、9Error8762.6071195.32589C Total92730.00000Root MSE9.76350R-square0.7207Dep Mean142.00000Adj R-sq0.6857C.V.6.87570這是回歸過程給出的關(guān)于所擬合的方程是否顯著的檢驗結(jié)果,這里使用的檢 驗方法是,它與前面講的關(guān)于P和B的檢驗是等價的。對應(yīng)的F=20.639, P=0.0019,說明方程是非常顯著的,此方程的精確度可用剩余來度量,即 Sy =9.7635。Parameter EstimatesParameterStandardT for H0:VariableDFEstimateError

23、Parameter=0Prob |T|INTERCEP110.37612229.137116640.3560.7310X10.1990080.043805674.5430.0019這是關(guān)于截距和斜率的參數(shù)估計及其顯著性檢驗結(jié)果,a*=a=10.37612a與0的差別不顯著(P=0.7310),應(yīng)不要截距重新擬合方程;B*=b=0.199008, B與0的差別非常顯著(P=0.0019)。Model: MODEL2NOTE: No intercept in model. R-square is redefined.Dependent Variable: Y Analysis of Varianc

24、eSum ofMeanSourceDFSquaresSquareF Value ProbFModel1 203595.30396203595.303962365.2600.0001Error9774.6960486.07734U Total10 204370.00000Root MSE9.27779R-square0.9962Dep Mean142.00000Adj R-sq0.9958C.V.6.53365這是關(guān)于不含截距項的方程是否顯著的檢驗結(jié)果,F=2365.26, P |T|X10.2145200.0044109148.6340.0001通過坐標(biāo)原點的方程為:y=0.2145520 x

25、,B與0的差別非常顯著(PEY2 = 539ExY=131.625DependentVariable:YAnalysis of VarianceSum ofMeanSourceDFSquaresSquareF ValueProbFModel196.1000096.10000262.0910.0005Error31.100000.36667C Total497.20000Root MSE0.60553R-square0.9887Dep Mean9.40000Adj R-sq0.9849C.V.6.44181Sy.x=0.605553、y-=9.4、全模型有非常顯著性意義(P=0.0005)。Pa

26、rameter EstimatesParameterStandardT for H0:VariableDFEstimateErrorParameter=0Prob |T|INTERCEP1-17.3980071.67730404-10.3730.0019X110.2990030.6361641916.1890.0005截距和斜率都有顯著性意義,方程為:Y=-17.398007+10.299003x。程序2輸出結(jié)果SE of x0t-Value TOC o 1-5 h z 0.0652.776log10(X0)95% ToleranceLimitof log10(X0)2.662.4812.83

27、9X095% ToleranceLimitof X0457.088302.691690.24專業(yè)結(jié)論與Y0=10對應(yīng)的對數(shù)劑量的點估計值x0=2.66、其標(biāo)準(zhǔn) Sx0=0.065、x0的95%為(2.481, 2.839);與Y0=10對應(yīng)的藥物濃度的點估計值 X”0=457.088(mM/L)、其 95%的為(302.691, 690.24)(mM/L)。專業(yè)結(jié)論從略。第4節(jié) 具有重復(fù)試驗數(shù)據(jù)的分析1 .回歸分析中安排重復(fù)試驗的目的目的在于弄清:影響y的因素除x外,是否還有1個或幾富可忽略的其他因 素,以及x與y的關(guān)系是否確是直線關(guān)系。如果除x的影響外,還有其他未加 控制的、不可忽視的影響因

28、素?fù)诫s,則此直線的擬合效果就不能算是好的,稱為失擬。即在無重復(fù)試驗情況下所建立的方程,既使假設(shè)檢驗的結(jié)果是“回歸方程 顯著”,僅僅說明X的一次項對y的影響是不可忽視的,并不能表明這個回歸方 程是擬合得很好的。重復(fù)試驗數(shù)據(jù)的收集與格式設(shè)自變量x共有k富同的取值,x,x,乂。對每1個給定的xi(i=1, 2,, k),做了m次試驗,得到因變量y的*個觀測值,脹得到了具有m次重復(fù)試驗的 回歸數(shù)據(jù),數(shù)據(jù)的格式如下:xy,y,y, ,y11112131mxy,y,y, ,y22122232mxy,y,y, ,ykk1k2k3km重復(fù)試驗數(shù)據(jù)的回歸分析方法(1)建立方程的方法把重復(fù)試驗數(shù)據(jù)看成是無重復(fù)試驗

29、數(shù)據(jù),即按kXm個數(shù)據(jù)點用通常的方法 (即最小二乘法)建立方程;若用計算器計算,還可用各xi下y的來計算,即用 (x,y ), (x,y),(x,y )這k個數(shù)據(jù)點來建立方程。用這2種方法建立 11 一、 2 .2k 、.k 、.一.的方程是完全相同的,但作顯著性檢驗時計算自由度要慎重,詳后。(2)回歸方程擬合效果的檢驗y的總離均差平和及其自由度的分解SS = SS + SS + SS , df = df + df + df ,T R L E T RLE(4.1.25)SST =能(Y - Y )2= Y2 - SST =能(Y - Y )2= Y2 - (Y)2 /kmSSR = YL(Y

30、- Y )2 = m、xx人SS =(Y - Y )2 = ml - SSLj jYY R(4.1.26)(4.1.27)(4.1.28)SSE = SSt - SSr - SSl(4.1.29)(4.1.30)df = km -1, df = 1, df = k - 2, df = k (m -1)(4.1.30)式中Ixx等參見式(4.1.2)(4.1.4),只是l ,l中的y代表用各x下y的作 為原始數(shù)據(jù)算得的相應(yīng)量。Xy yy1各離差平和SS的含義SS叫回歸平和,它是由于x的變化而產(chǎn)生的,SS越大,說明回歸的貢獻(xiàn)也 越大;Ss叫失擬平和,它是由于用來擬合該數(shù)據(jù)的模型不當(dāng)而產(chǎn)生的,SS越

31、大, 意味著推翻此模型的可能性也越大;SS叫的平和,它是反映重復(fù)試驗所引起的 y的變化,SS越大,可能是試驗的精底不高,也可能是被觀測的指標(biāo)的變異性 E大等原因所致。擬合效果檢驗(設(shè)MS為均方,即方差)先對失擬進(jìn)行F檢驗:H :MS =MS, H :MS尹MS, a=0.05。,、 0L, ,E 、1 L E,、F =MS/MS=SS/(k-2)/SS/(k(m-1)(4.1.31)F1服從df=k與、df =k(m-1)的F。查用的F臨界值表,下同。若結(jié)論是拒絕H0,說明SSL中除含有試驗的影響外,尚含有其他因素的影響, 需查明原因,再作研究。這時有如下幾種可能:影響y的除x外,致少還有1富

32、 可忽視的因素;y與x是曲線關(guān)系;y與x無關(guān)。此時,即使用F=MSR/MSE進(jìn)行 第2次F檢驗的結(jié)果顯著,僅說明求得的方程有一定的作用,但不能說明此方程 是擬合得好的,仍需查明原因,改變數(shù)學(xué)模型,作進(jìn)一步研究。若結(jié)論是接受H0,那就說明SS基本上是由試驗等偶然因素引起的,此時, 可將ssl與sse合并起來對回歸方程作顯著性檢驗。其假設(shè)與方法如下:H0:所求*得的方程不顯著,H1 :所求得的方程顯著,a=0.05。F =MS /MS =(SS/1)/(SS +SS)/(km-2)(4.1.32),2 R (L+E) R ,, L, . EF服從df =1、df =km-2的F分布。2若結(jié)論是拒絕

33、H0,就說明回歸方程是顯著的,這時的“顯著”表明這一回 歸方程擬合得好。若結(jié)論是接受H0,就說明x的一次項對y沒有多大作用,原 因可能是由于試驗過大;也可能是由于并不存在對y有顯著影響的因素。應(yīng)用舉例例4.1.2設(shè)有一批含重復(fù)試驗的數(shù)據(jù),由x與y的變化趨勢和專業(yè)知識 得知,x與y之間有一定的線性關(guān)系,試作分析。詳細(xì)的數(shù)據(jù)列在SAS程序中, 以第1行為例說明如下:x1=0.1429,重復(fù)試驗4次,其后的4個數(shù)是y的重復(fù)試驗結(jié)果(2.2148,1.8605,1.6667,1.5060),本試驗共有5富同的x值,重復(fù)試驗都是4次。SAS 程序D4P3.PRGDATA abc;0.1429 4 2.2

34、148 1.8605 1.6667 1.5060 PROC REG;INPUT x n ; g=_N_;0.2857 4 2.2051 1.8815 2.1142 1.7182 MODEL y=x;RUN;DO 1=1 TO n;0.5714 4 2.5974 2.4096 2.7100 1.9782 PROC GLM;INPUT y ;1.1429 4 3.0769 3.0675 3.6364 2.6350 CLASS g;OUTPUT; END;2.2857 4 4.7619 4.2373 6.7340 4.7281 MODEL y=xg/SS1;RUN;(程序的RUN;(程序的(程序的第

35、1部分)(程序的第2部分)第3部分)程序修改指導(dǎo)第1個INPUT語句讀取x值和重復(fù)試驗次數(shù)n,該語句共 執(zhí)行5次,隱含變量N的取值從15,將其值賦給分組變量G;用DO-END讀 取每行上y的4次重復(fù)試驗數(shù)據(jù);第1個過程步調(diào)用REG過程建立方程;第2個 過程步調(diào)用GLM過程,對失擬作檢驗。由于REG過程不能對失擬作檢驗,這里利 用GLM過程間接實現(xiàn)具有重復(fù)試驗數(shù)據(jù)回歸分析,這是1個有用的技巧。輸出結(jié)果及其解釋Dependent Variable: Y Analysis of VarianceSum ofMeanSourceDFSquaresSquareF ValueProbFModel128.6

36、522028.65220101.5360.0001Error185.079370.28219C Total1933.73157RootMSE0.53121R-square0.8494Dep Mean2.88696Adj R-sq0.8411C.V.18.40040Parameter EstimatesParameterStandardT for H0:VariableDFEstimateErrorParameter=0Prob |T|INTERCEP11.5266320.179817918.4900.0001X11.5358500.1524188410.0770.0001這是第1個過程步的輸出

37、結(jié)果,求得方程為:y = 1.526632+1.535850 x。對 此方程所作的顯著性檢驗(在失擬不顯著時才有意義)結(jié)果為:F=101.536,P=0.0001,說明此方程是非常顯著的。DependentVariable:YSum ofMeanSourceDFSquaresSquareF ValuePr FModel428.823125627.2057814022.020.0001Error154.908443970.32722960CorrectedTotal1933.73156959R-SquareC.V.Root MSEYMean0.85448519.814580.5720402.88

38、696500SourceDFType I SSMean SquareF ValuePr FX128.6521976328.6521976387.560.0001G30.170927980.056975990.170.9122這是第2個過程步輸出的結(jié)果,最后1行是對失擬檢驗的結(jié)果,F(xiàn)=0.17, P=0.9122,說明SSL基本上是由試驗等偶然因素引起的,故需將失擬部分合并到 中去,再檢驗回歸方程是否顯著。注意:第1部分實際已給出將失擬部分合并到中去作檢驗的結(jié)果了。第5節(jié) 加權(quán)的應(yīng)用一一半數(shù)效量的估計.半數(shù)效量的概念半數(shù)效量(ED )是實驗物質(zhì)引起實驗動物中半數(shù)產(chǎn)生某種反應(yīng)所需的劑量, 通常以m

39、g/kg表宗。若劑量用濃度(mg/L)或時間作標(biāo)志,則稱半數(shù)有效濃度(EC ) 或半數(shù)有效時間(ET );若反應(yīng)用死亡、耐受或抑制作標(biāo)志,則稱半數(shù)致死量 、一 .一直0 .一 .、(LD )、半數(shù)耐受量(ELM )或半數(shù)抑制量(ID )。其中LD50用得最多,它 在藥理學(xué)及毒理學(xué)研究中應(yīng)用甚廣。50研究1。(其他半數(shù)效量也一樣)的試驗資料的格式為:自變量常常是連續(xù) 50變化的量,如藥物的劑量,在所選定的k個劑量下,分別用m只動物作實驗(各 次實驗的動物數(shù)m最好相等,但也可以不等),然后,觀察各劑量下動物的死亡 率p,LD5就是求p = 50%所對應(yīng)的劑量x。有亍0LD的概念之后,也就不難理解L

40、D、LD、LD、LD的含義了。-.50.一. 一 2. 5 9598 一.一為什么要選ld50作為反映藥物或毒物毒性大小的指標(biāo)呢?其原因如下所述:50當(dāng)繪出劑量反應(yīng)曲線(劑量為橫軸,死亡率為縱軸),你會發(fā)現(xiàn)曲線呈長尾 s形,如將劑量取對數(shù)后,則劑量反應(yīng)曲線呈對稱的S形。此曲線2端伸延較緩, 說明在低劑量與高劑量區(qū)域內(nèi)劑量即使變化較大,但引起反應(yīng)率的變化卻很小, 而曲線中段,斜率較大,特別在死亡率p=50%處劑量稍有改變,就會引起反應(yīng) 率的明顯變化,說明LD甚為敏感,故選擇半數(shù)效量作為評價指標(biāo),對鑒別不同 藥物或毒物的毒性大小;0具有較高的敏感性。由于研究曲線的規(guī)律比較困難,人們發(fā)現(xiàn):將反應(yīng)率轉(zhuǎn)

41、換成單位后,便將對 稱的S形曲線直線化了,這給研究半數(shù)效量帶來了極大的方便。把反應(yīng)率轉(zhuǎn)化成單位的方法是:直接查百分?jǐn)?shù)p與單位對照表;如果 沒有此對照表,把反應(yīng)率看作正態(tài)曲線下的面積,根據(jù)面積,反查“標(biāo)準(zhǔn)正態(tài)曲 線下的面積表”,得到標(biāo)準(zhǔn)正態(tài)變量的u值,用查得的各u值加5,便得到與各 反應(yīng)率P相對應(yīng)的單位值。本書將用SAS程序求半數(shù)效量,為節(jié)省篇幅,這2個 表都未編入本書中。.單位法(或Bliss法)半數(shù)效量的單位法是多種計算半數(shù)效量的法中最有效的一種,最先由 C.I.Bliss提出,故簡稱為Bliss法。由于單位的是非正態(tài)的,且方差不齊, 故不適合用通常的最小二乘法直接擬合單位隨對數(shù)劑量變化的方

42、程,需用各點上 方差的倒數(shù)作權(quán)眾,進(jìn)行加權(quán),并用最大似然法(Maximum Likelihood Method) 求解,故此法又稱為單位法或最大似然法。3.應(yīng)用舉例例4.1.3某人以1種已知的毒物(標(biāo)號為1)作為對照,來研究另2種 未知毒物(標(biāo)號分別為2和3)的毒性大小,每種毒物均用了若干個劑量,每個劑 量下分別用若干只大鼠作了試驗。設(shè)毒物分組標(biāo)志為A,劑量為DOSE,各次試 驗的死亡數(shù)為R、試驗動物數(shù)為N,資料參見程序。試計算各種毒物的半數(shù)致死量LD50(mg/kg),并把2種未知毒物分別與對照毒物相比較。SAS 程序D4P4.PRGDATA a;2 2.0 3 10INPUT a dose

43、 r n;CARDS;2 2.5 6 103.0 9 100.7 0 101 0.3 0 83 0.8 2 101 0.4 2 83 0.9 5 101 0.5 3 163 1.0 9 101 0.6 10 16;1 0.7 13 16PROC PROBIT LOG10;1 0.8 8 8MODEL r/n=dose / LACKFIT INVERSECL2 1.0 0 10BY a;2 1.5 1 10RUN;(程序的第1部分)(程序的第2部分)程序修改指導(dǎo)此程序只能分別求出3種毒物所對應(yīng)的加權(quán)方程及各種 效應(yīng)量(含LD50),關(guān)于LD50之間的比較、斜率之間的比較,需用后面的程序來 實現(xiàn)。

44、數(shù)據(jù)步中的語句不言自明;過程步中:調(diào)用的是PROBIT過程,選擇項LOG10 是對劑量取常用對數(shù),MODEL語句等號右邊的LACKFIT要求對失擬進(jìn)行檢驗, INVERSECL要求求出用原始劑量所表達(dá)的各種反應(yīng)效量。BY語句要求按分組變量 A的各水浦別計算。輸出結(jié)果及其解釋Probit ProcedureA=1Log Likelihood for NORMAL -32.8766351Goodness-of-Fit TestsStatisticValueDFProbChi-SqPearson Chi-Square4.752840.3136L.R.Chi-Square4.700940.3194Re

45、sponse Levels: 2Number of CovariateValues:6NOTE: Since the chi-square is small (p 0.1000,)fiducial limits will be calculated using a t value of 1.96.這是用2種方法對第1批資料進(jìn)行失擬檢驗的結(jié)果,其P值都大于0.3,表 明用加權(quán)的方程描述此資料是合適的。Variable DF Estimate Std Err ChiSquare PrChi Label/ValueINTERCPT 1 2.37401407 0.527415 20.26107 0.0

46、001 Intercept Log10(DOS) 1 9.38121595 2.050085 20.93989 0.0001求得第1批資料的加權(quán)方程為:y”=2.374014+9.381216lg(dose)。此式中的 y為單位的預(yù)測值。對截距和斜率的檢驗結(jié)果均為PV0.0001。Estimated Covariance MatrixINTERCPT Log10(DOSE)INTERCPT0.2781661.018434Log10(DOSE)1.0184344.202850這是截距與斜率的協(xié)方差矩陣。Probit Model in Terms of Tolerance Distribution

47、MUSIGMA-0.253060.106596 =-0.25306是刺激(此處指對數(shù)半數(shù)致死劑量)的,。=0.106596是刺激 的尺度參數(shù)。所求得的方程中截距a、斜率b與、。之間的關(guān)系如下:a=-/。、 b=1/。Estimated Covariance Matrix for Tolerance ParametersMUSIGMAMU0.000362-0.000054676SIGMA-0.0000546760.000543這是參數(shù)、。的協(xié)方差矩陣。ProbaProbit Analysis on Log10(DOSE)Probit Analysis on DOSEbility Log10(DO

48、SE) 95 Percent F.L.DOSE 95 Percent F.L.0.010.02-0.-0.5010447198LowerUpper41741396340.315470.33730Lower0.199100.22345Upper 0.38246 0.40148-0.70093-0.-0.-0.650820.50-0.25306-0.29682-0.214130.558390.504870.610760.98-0.03414-0.104000.129260.924400.787051.346680.99-0.00508-0.082790.179230.988370.826441.5

49、1089F.L.= Fiducial Limits(置信限),即死亡率;分別為對數(shù)劑量及其95%置信限的下限與上限; (18)別為原始劑量及其95%置信限的下限與上限。A=2Log Likelihood for NORMAL -19.59578575Goodness-of-Fit TestsStatisticValue DF ProbChi-SqPearson Chi-Square0.496430.9197Pearson Chi-Square0.496430.9197L.R. Chi-Square0.510730.9165Response Levels: 2 Number of Covaria

50、te Values:5NOTE: Since the chi-square is small (p 0.1000) fiducial limits will be calculated using a t value of 1.96.Variable DF Estimate Std Err ChiSquare PrChi Label/ValueINTERCPT 1 -2.9650467 0.81074 13.37517 0.0003 Intercept Log10(DOS) 1 8.43146945 2.239507 14.17431 0.0002Estimated Covariance Ma

51、trixINTERCPT Log10(DOSE)INTERCPT0.657300-1.741760Log10(DOSE)-1.7417605.015390Probit Model in Terms of Tolerance Distribution MUSIGMA0.3516640.118603Estimated Covariance Matrix for Tolerance Parameters MUSIGMAMU0.0007390.000036660SIGMA0.0000366600.000992Probit Analysis on DOSE DOSE 95 Percent F.L.Low

52、er UpperProbit Analysis on DOSE DOSE 95 Percent F.L.Lower Upper2.24732 1.95380 2.60439Lower Upper0.500.35166 0.290880.41571以上是第2批數(shù)據(jù)的有關(guān)結(jié)果,為節(jié)省篇幅,最后1部分只給出P=0.50的 結(jié)果。A=3Log Likelihood for NORMAL -15.4414598Goodness-of-Fit TestsStatisticValueDFProbChi-SqPearson Chi-Square0.426320.8080L.R.Chi-Square0.5103

53、20.7748Response Levels: 2Number of CovariateValues:4NOTE: Since the chi-square is small (p 0.1000), fiducial limits will be calculated using a t value of 1.96.Variable DFLabel/ValueEstimate Std Err ChiSquare PrChiINTERCPT1 1.18794669 0.425893 7.780242 0.0053 InterceptLog10(DOS) 1 22.799945 6.244696

54、13.33046 0.0003Estimated Covariance MatrixINTERCPT Log10(DOSE)INTERCPT0.1813852.120800Log10(DOSE)2.12080038.996228Probit Model in Terms of Tolerance DistributionMUSIGMA-0.05210.04386Estimated Covariance Matrix for Tolerance ParametersMUSIGMAMU0.0001270.000007507SIGMA0.0000075070.000144Proba Probit A

55、nalysis on Log10(DOSE) bility Log10(DOSE) 95 Percent F.L.Lower Upper0.50-0.052103 -0.077421 -0.024937Probit Analysis on DOSE DOSE 95 Percent F.L.Lower Upper0.886946 0.836717 0.944197以上是第3批數(shù)據(jù)的有關(guān)結(jié)果,為節(jié)省篇幅,最后1部分只給出P=0.50的 結(jié)果。例4.1.4上述的輸出結(jié)果只回答了 例4.1.3提出的第1個問題,要回 答第2個問題(即把2種未知毒物分別與對照毒物相比較),需用下面的程序來實 現(xiàn)。SAS程

56、序一 DATA a; xld50a=-0.25306; ua=-0.21413; ub=0.41571; uc=-0.024937; b1=9.38121595; sb1=2.050085; q=2*1.96;D4P5.PRGxld50b=0.35166;la=-0.29682;lb=0.29088;lc=-0.077421;b2=8.43146945;sb2=2.239507;xld50c=-0.052103;b3=22.799945;sb3=6.244696;sld50a=(ua-la)/q; sld50b=(ub-lb)/q; sld50c=(uc-lc)/q; uab=abs(xld5

57、0a-xld50b)/sqrt(sld50a*2+sld50b*2); uac=abs(xld50a-xld50c)/sqrt(sld50a*2+sld50c*2); pld50ab=(1-probnorm(uab)*2; pld50ac=(1-probnorm(uac)*2;tab二abs(b1-b2)/sqrt(sb1*2+sb2*2);tac二abs(b1-b3)/sqrt(sb1*2+sb3*2);p_b_ab=(1-probnorm(tab)*2;p_b_ac=(1-probnorm(tac)*2;FILE PRINT;PUT #2 10 xld50a 25 xld50b 40 xl

58、d50c#3 10 xld50a 10.6 25 xld50b 10.6 40 xld50c 10.6#4 10 sld50a 25 sld50b 40 sld50c#5 10 sld50a 10.6 25 sld50b 10.6 40 sld50c 10.6#6 10 uab 25 uac 40 pld50ab 55 pld50ac#7 10 uab 5.3 25 uac 5.3 40 pld50ab 6.4 55 pld50ac 6.4#9 10 b1 25 b2 40 b3#10 10 b1 10.6 25 b2 #11 10 sb125 sb2#12 10 sb1 10.6 25 sb

59、2 #13 10 tab 25 tac #14 10 tab 5.3 25 tac10.6 40 b3 10.640 sb3;10.6 40 sb3 10.640 p_b_ab 55 p_b_ac5.3 40 p_b_ab 6.455 p_b_ac 6.4;RUN;程序修改指導(dǎo)此程序的目的是對多個LD50進(jìn)行兩兩比較、對多個直線斜 率進(jìn)行兩兩比較。由于PROBIT過程不能直接實現(xiàn)此目的,需用SAS語言和統(tǒng)計公 式來間接實現(xiàn)。首先,需將例4.1.3中輸出的有關(guān)數(shù)據(jù)作為已知條件,賦給相 應(yīng)的變量。各變量含義如下:xld50a、xld50b、xld50c分別是a, b, c3批數(shù)據(jù)的對數(shù)半數(shù)致死劑量

60、;ua、la分別是第1組資料對數(shù)半數(shù)致死劑量的95%置信限的上限與下限, 同理,知ub, lb, uc, lc的含義;b1b3分別是3條回歸直線的樣本斜率、sbsb分別是bb的標(biāo)準(zhǔn)。-1313若不是3條直線,就需要在看懂此程序后對有關(guān)語句作相應(yīng)的調(diào)整,就不一 一贅述了。輸出結(jié)果及其解釋xld50axld50bxld50c-0.2530600.351660-0.052103sld50asld50bsld50c0.0210940.0318440.013389uabuacpld50abpld50ac15.838.0430.00000.0000 xld50axld50c、sld50asld50c分別是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論