醫(yī)學統(tǒng)計學知識點匯總_第1頁
醫(yī)學統(tǒng)計學知識點匯總_第2頁
免費預(yù)覽已結(jié)束,剩余34頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、醫(yī)學統(tǒng)計學總結(jié)緒論1 1、隨機現(xiàn)象:在同一條件下進行試驗,一次試驗結(jié)果不能確定,而在一定數(shù) 量的重復(fù)試驗之后呈現(xiàn)統(tǒng)計規(guī)律的現(xiàn)象。2 2、同質(zhì):統(tǒng)計學中對研究指標影響較大的,可以控制的主要因素3 3、變異:同質(zhì)基礎(chǔ)上各觀察單位某變量值的差異。數(shù)值變量:變量值是定量的,由此而構(gòu)成的資料稱為數(shù)值變量資料或計量資料,其 數(shù)值是連續(xù)性的,稱之為連續(xù)型變量。變量無序分類變量:所分類別或?qū)傩灾g無順序和程度上的差異分類變量:定性變量有序分類變量:有順序和程度上的差異4 4、總體:根據(jù)研究目的確定的同質(zhì)研究對象中所有觀察單位某變量值的集 合。可以分為有限總體和無限總體。5 5、樣本:是按隨機化原則從同質(zhì)總體中

2、隨機抽取的部分觀察單位某變量值的 集合。樣本代表性的前提:同質(zhì)總體,足夠的觀察單位數(shù),隨機抽樣。統(tǒng)計學中,描述樣本特征的指標稱為統(tǒng)計量,描述總體特征的指標稱為參 數(shù)。6 6 概率:描述隨機事件發(fā)生的可能性大小的一個度量。若P P(A=1=1,則稱 A A為必然事件;若 P P (A A) =0,=0,則稱 A A 為不可能事件;隨機事件 A A 的概率為 0 0v P PV 1.1.小概率事件:若隨機事件 A A 的概率 P P a,則稱隨機事件 A A 為小概率事件, 其統(tǒng)計學意義為:小概率事件在一次隨機試驗中認為是不可能發(fā)生的。統(tǒng)計描述1 1、頻數(shù)分布有兩個重要的特征:集中趨勢和離散程度。

3、頻數(shù)分布有對稱分布 和偏態(tài)分布之分。后者是指頻數(shù)分布不對稱,集中趨勢偏向一側(cè),如偏向數(shù)值小的 一側(cè)為正偏態(tài)分布,如偏向數(shù)值大的一側(cè)為負偏態(tài)分布。2 2、常用的集中趨勢的描述指標有:均數(shù),幾何均數(shù),中位數(shù)等。均數(shù):適用于正態(tài)或近似正態(tài)的分布的數(shù)值變量資料。樣本均數(shù)用表示,總體均數(shù)用 卩表示。幾何均數(shù):適用于等比級數(shù)資料和對數(shù)呈正態(tài)分布的資料。注意觀察值中不 能有零,一組觀察值中不能同時有正值和負值。中位數(shù):適用于偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)的資 料。3 3、常用的離散程度的描述指標有:全距,四分位數(shù)間距,方差,標準差,變 異系數(shù)。全距:任何資料,一組中最大值與最小值的差。四分位

4、數(shù)間距:適用于偏態(tài)分布以及分布的一端或兩端無確切數(shù)據(jù)資料 方差和標準差:正態(tài)分布資料。標準差表示觀察值的變異度的大小。變異系數(shù):比較度量單位不同或均數(shù)相差懸殊的兩組資料的變異度。4 4、標準正態(tài)分布:對正態(tài)分布的(X-X-卩)/ /(T(T 進行 u u 的變換,u=u= (X-X-卩)/ /(T(T , ,則 正態(tài)分布變換為 卩=0=0, (T(T =1=1 的標準正態(tài)分布,亦稱 u u 分布。u u 被稱為標準正態(tài)變 量或標準正態(tài)離差。兩個參數(shù):卩是位置參數(shù),(T(T 是形狀參數(shù)。用 N N (0,1(0,1 )表示標準正態(tài)分 布。常用估計醫(yī)學參考值范圍的方法有:(1)正態(tài)分布方法:適用于

5、正態(tài)或近似正態(tài)分布的資料。雙側(cè)界值:X Xu c /2S/2S 單側(cè)上界:X+uX+uc S,S,或單側(cè)下界:X-u(TX-u(T S S(2)對數(shù)正態(tài)分布方法:適用于對數(shù)正態(tài)分布資料。雙側(cè)界值:Lg-1Lg-1 (X X lgxlgx u c/2S/2S IgxIgx ) 單側(cè)上界:Lg-1Lg-1 (X X IgxIgx +u+u c S S lgxlgx ),或單側(cè)下界:Lg-1Lg-1 (X X lgxlgx -u-u c S S lgxlgx )(3) 百分位數(shù)法:用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資 料。雙側(cè)上界:P2.5P2.5 和 P97.5P97.5;單側(cè)上界:

6、P95,P95,或單側(cè)下界:P5P5參考值范圍(% %單側(cè)雙側(cè)常用的 u u 值表5 5、分類變量資料的統(tǒng)計描述:常用相對數(shù)指標描述,包括:率,構(gòu)成比,相 對比。率:說明某現(xiàn)象發(fā)生的頻率或強度。(病死率不等于死亡率)構(gòu)成比:說明某現(xiàn)象內(nèi)部組成部分所占的比重或分布,常以百分數(shù)表示。相對比:亦稱比,是A B2個有關(guān)指標之比,說明 A A 為 B B 的若干倍或百分之 幾。兩個指標可以性質(zhì)相同,也可以性質(zhì)不同。應(yīng)用相對數(shù)時的注意事項:1 1、計算相對數(shù)的分母不宜過小;2 2、分析時不能以構(gòu)成比代替率;3 3、對觀察 單位數(shù)不等的幾個率,不能直接相加求其平均率;4 4、比較相對數(shù)時應(yīng)注意其可比性;5

7、5、對樣本率(或構(gòu)成比)的比較應(yīng)遵循隨機抽樣,并做假設(shè)檢驗。6 6 標準化法:標準化的目的在于消除混雜因素對結(jié)果的影響,使資料更具有 可比性。其基本思想是:將所比較的兩組或多組資料的構(gòu)成按統(tǒng)一的“標準”調(diào)整 后,計算標化率,使其更具有可比性。標準化率的計算方法:亦稱標化率,直接法用于已知被標化組的年齡別率, 以及已知標準組的年齡別人口數(shù)或年齡別人口構(gòu)成比時;間接法用于已知被標化組的年齡別人口數(shù)與發(fā)?。ㄋ劳觯┛倲?shù),但年齡別率未知,以及已知標準組年齡別發(fā) ?。ㄋ劳觯┞逝c總發(fā)?。ㄋ劳觯┞蕰r。通常可從下列 3 3 種方法選用標準組:以兩組資料中任一組的年齡別人口數(shù) 或構(gòu)成比作為標準組;以兩組資料合并的

8、各年齡組的人口數(shù)或構(gòu)成比作為標準 組;以公認的或便于與他人資料比較的標準作為標準組。7 7、統(tǒng)計表:結(jié)構(gòu):由標題、標目、線條和數(shù)字構(gòu)成。編制統(tǒng)計表的要求:1標題:概括表的內(nèi)容,列于表的上方居中,應(yīng)注明時間和地點;2標目:主語和謂語分別列于橫、縱標目,文字簡明,層次清楚。橫標目列 于表的左側(cè),通常為被研究的事物,縱標目列于表的上端,為說明橫標目的統(tǒng)計指 標。3線條:通常,除表的頂線、底線、縱標目下以及合計上的橫線外,其余線 條均省去,頂線和底線應(yīng)略粗些,表的左上角不宜用斜線。4數(shù)字:用阿拉伯數(shù)字表示,同一指標的小數(shù)位數(shù)要一致并對齊,數(shù)字暫缺 或無數(shù)字者分別用“”或“- -”表示,數(shù)字為 0 0

9、者要記作“ 0 0”,不應(yīng)空項,為方 便核實和分析,應(yīng)有合計。5備注:一般不列入表內(nèi),必要時可用“ * *”標出,列于表下。8 8、統(tǒng)計圖:1條圖:用于相互對比關(guān)系的資料;02圓圖與百分條圖:適用于百分構(gòu)成比資料,表示事物各組成部分所占的比 重或構(gòu)成;3線圖:用于連續(xù)性資料,用于說明事物在時間上的發(fā)展變化,或某現(xiàn)象隨 另一現(xiàn)象而變動的情況;4直方圖:表示連續(xù)性資料的頻數(shù)分布;5散點圖:適用于直線相關(guān)分析,說明兩個變量間的數(shù)量關(guān)系和變化趨勢。抽樣分布與參數(shù)估計抽樣研究的目的是用樣本信息來推斷總體特征,即統(tǒng)計推斷,包括兩個內(nèi) 容:一是總體參數(shù)的估計,二是假設(shè)檢驗。1 1、抽樣誤差:由于變異的存在,

10、抽樣研究所造成的樣本統(tǒng)計量與總體參數(shù)之 間的差異或各樣本統(tǒng)計量之間的差異稱為抽樣誤差。常用標準誤0反映均數(shù)抽樣誤差的大??;用率的標準誤(T P反映率的抽樣誤差的大?。挥肞ossionPossion 計數(shù)的標準誤a反映其抽樣誤差的大小。2 2、 中心極限定理和正態(tài)分布推理:從正態(tài)分布 N N(y,T2 2)總體中以固定 n n 隨機抽取樣本,樣本均數(shù)0 0的分布仍服從正態(tài)分布,即使是從偏態(tài)分布總體中隨機抽樣,只要n n 足夠大,的分布也近似正態(tài)分布。樣本均數(shù)的均數(shù)仍為卩,樣本均數(shù)的標準差為3 3樣本均數(shù)的抽樣誤差S(簡稱標準誤)是反映均數(shù)抽樣誤差大小的指標a回用樣本均數(shù) S S 作為 C的估計值

11、,則a03 3、t t 分布:將0 0看成變量值,那么可將正態(tài)變量進行 u u 變換(u=u=S S- -卩/ / c)后,也可將 N N (卩,0 0)變換成標準正態(tài)分布 N N( 0 0,1 1)。常用 s s 作為 c的估計值,統(tǒng)計量為 t t,此分布 為 t t 分布。統(tǒng)計量 t=t=a at t 曲線的形態(tài)變化與自由度 V V 的大小有關(guān)。V V 越小,t t 值越分散,曲線越低平, V V 逐漸增大時,則 t t 分布逐漸逼近正態(tài)分布,當 v=v=無窮大時,t t 分布即為 u u 分布。4 4、總體均數(shù)的估計有兩種方法:一種是點估計,即用統(tǒng)計量0 0估計總體均數(shù)zl;二是區(qū)間估計

12、,亦稱可信區(qū)間。(1 1)c未知且 n n ?。?t-t a /2/2,V V SXSX VyV+t+t a /2/2 , v v sxsx(2)(T(T 未知,但 n n 足夠大,t t 分布逼近 u u 分布:Q Q-U-U a /2SX/2SX V 卩 VJ+U+U a/2sx(3)(T(T 已知:0 0-U-U a /2/2TX XV 卩 V+U+U a /2/2TX X標準差和標準誤的比較標準差標準誤S=S=呂表示觀察值的變異程度大小估計均數(shù)的抽樣誤差大小 計算變異系數(shù) CV=CV=0100%100%估計總體均數(shù)可信區(qū)間0 0-t-t a /2/2 , v v sxsx V 卩 VJ

13、+t+t a /2/2 , v v SXSX確定醫(yī)學參考值的范圍 進行假設(shè)檢驗 計算標準誤數(shù)值變量資料的假設(shè)檢驗1 1、 假設(shè)檢驗的原理:假設(shè)在一次抽樣研究中得出了u u1.961.96,則 p pw 0.050.05 , 此為小概率事件,依據(jù)“小概率事件在一次隨機試驗中認為是不可能發(fā)生的”的定 理,可認為此樣本不是來自該總體。2 2、步驟:建立假設(shè)和確定檢驗水準;假設(shè)有兩種,一種是檢驗假設(shè),常稱 無效假設(shè)或零假設(shè),記為 H0,H0,假設(shè)樣本所代表的總體參數(shù)與已知總體參數(shù)相等; 另一種是備擇假設(shè),記為 H1,H1,是與 H0H0 相聯(lián)系且對立的假設(shè);檢驗水準,亦稱顯著 性水準,是判斷拒絕或不拒

14、絕 H0,H0,也是允許犯 I 型錯誤的概率,通常用 0.050.05。2選定檢驗方法和計算統(tǒng)計量確定 P P 值,做出推斷結(jié)論。P P 值是指從 H0H0 所 規(guī)定的總體中隨機抽樣時,獲得等于及大于現(xiàn)有樣本統(tǒng)計量的概率。3 3、 t t 檢驗:適用于:樣本均數(shù)與總體均數(shù)比較(T T 未知且 n nv 5050 或 n nv 3030);成組設(shè)計的兩小樣本均數(shù)的比較(n1n1,n2n2 均小于 3030 或 5050);配對設(shè)計 的兩樣本均數(shù)比較。應(yīng)用條件:當樣本含量較小(n nv5050 或 n nv3030)時,要求樣本來自正態(tài)分布 總體;用于成組設(shè)計的兩樣本均數(shù)比較時,要求兩樣本來自總體

15、方差相等的總 體。4 4、單樣本 t t 檢驗:用于樣本均數(shù)與已知總體均數(shù)的比較,研究目的是推斷樣 本所代表的總體均數(shù) 卩與已知總體均數(shù) 卩 0 0 有無差別。統(tǒng)計量 t=t=3v=n-1v=n-15 5、配對 t t 檢驗:用于配對設(shè)計資料的兩均數(shù)的比較。其研究目的是推斷某種 處理有無作用,或兩種處理的效果有無差別配對設(shè)計類型有 3 3 種:先將受試對象按配比條件配對,然后用隨機分組方法將各對中的 2 2 個受試對象分別分配到不同的處理組;同一對象分別接受2 2 種不同處理;同一對象處理前后。t=t=a(J是差值的樣本均數(shù))v=n-1v=n-16 6 兩樣本 t t 檢驗:用于完全隨機設(shè)計的

16、兩樣本均數(shù)的比較,兩個樣本來自兩 個總體,其研究目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。t=t=v=nv=n 1+1+ n2-2n2-27 7、單樣本 u u 檢驗:用于樣本均數(shù)與已知總體均數(shù)比較,其研究目的同 t t 檢 驗。研究目的是推斷樣本所代表的總體均數(shù) 卩與已知總體均數(shù) 卩 0 0 有無差別。其 統(tǒng)計量 u=u=8 8、兩樣本的 u u 檢驗:用于完全隨機設(shè)計的兩樣本均數(shù)的比較,兩個樣本來自 兩個總體,其研究目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。其統(tǒng)計量 為:u=u=9 9、 正態(tài)性檢驗和方差齊性檢驗:資料在做假設(shè)檢驗之前首先應(yīng)該檢驗資料是 否來自正態(tài)總體,并且它們的方

17、差是否齊。1010、兩類錯誤:I型錯誤:拒絕了實際上成立的 H0,H0,即樣本來自卩= =卩 0 0 的總體,由于抽樣的 偶然性,按a =0.05=0.05 檢驗水準拒絕了 H0,H0,接受 H1H1。這類在假設(shè)檢驗中拒絕了原本正 確的 H0H0 的錯誤稱為 I型錯誤。,理論上犯 I型錯誤的概率為a , a值得大小視研究目的而定。通常設(shè) a =0.05=0.05。U型錯誤:不拒絕了實際上不成立的 H0,H0,即樣本來自卩工卩 0 0 的總體,由于 抽樣的偶然性,按 a =0.05=0.05 檢驗水準不拒絕 H0,H0,這類在假設(shè)檢驗中不拒絕原本不 正確的 H0H0 的錯誤稱為 U型錯誤。犯 U

18、型錯誤的概率為B,它只有與特定的 H1H1 結(jié)合起來才有意義。同時減少 a和 B的方法是增加樣本含量。1-1- B稱為檢驗效能或把握度,即 兩總體確有差別時,按 a水準能識別該差別的能力。如 1-1- B =0.95=0.95 表示:若兩總 體確有差別,理論上平均 100100 次抽樣中,有 9595 次能得出兩總體有差別的結(jié)論。1111、假設(shè)檢驗時應(yīng)注意的事項1要有嚴密的抽樣研究設(shè)計-假設(shè)檢驗的前提2正確選用檢驗方法:完全隨機的設(shè)計的兩數(shù)值變量資料比較時,若 n n 小且 方差齊,則選用兩樣本 t t 檢驗;若方差不齊,則選用 t t 檢驗或成組設(shè)計的兩樣本比 較的秩和檢驗;若n1n1, n

19、2n2 均大于 5050,則選用兩樣本 u u 檢驗。3正確理解“顯著性”的含義4對差別有無統(tǒng)計學意義的判斷不能絕對化。方差分析1 1、 基本思想:按研究目的和設(shè)計類型,將總變異的離均差平方和SSSS 和自由度 v v 分別分解成若干部分,并求得各相應(yīng)部分的變異。其中的組內(nèi)變異或誤差主要 反映個體差異或抽樣誤差,其它部分的變異與之比較得出統(tǒng)計量F F 值,由 F F 值的大小確定 P P 值,并作出推斷,從而了解該因素對觀測指標有無影響。組內(nèi)變異主要由個體差異所致,組間變異可能由兩種原因所致:一是抽樣誤 差,二是由于接受的處理不同。2 2、總離均差平方和 SSSS 和自由度vSSSS 總= =

20、0v v 總=門-1-13 3、 組間離均差平方和 SSSS 組間,自由度v組間和均方 MSMS 組間SSSS 組間= =v v 組間=k-1=k-1MSMS 組間= =ZJ4 4、組內(nèi)離均差平方和 SSSS 組內(nèi),自由度v組內(nèi)和均方 MSMS 組內(nèi)SSSS 組內(nèi)=SS=SS 總-SS-SS 組間v組內(nèi)二n-kn-k MSMS 組內(nèi)=SS=SS 組內(nèi)/v/v 組內(nèi)多樣本均數(shù)比較的方差分析的應(yīng)用條件:各樣本是相互獨立的隨機樣本; 各樣本來自正態(tài)分布總體;各總體方差相等,即方差齊。5 5、完全隨機設(shè)計資料的方差分析:亦稱單因素的方差分析,可用于完全隨機 設(shè)計的多個樣本均數(shù)比較的資料,研究目的是推斷

21、各個樣本所代表的總體均數(shù)是否 相等。單因素方差分析的計算公式變異來源 SSSSvMSMS F F總變異a an-1n-1組間變異0 0Ek-1k-1S組內(nèi)變異 SSSS 總-SS-SS 組間 n-kn-k SSSS 組內(nèi)/v/v 組內(nèi)C C 為校正系數(shù)C=C=到6 6 配伍組設(shè)計資料的方差分析:亦稱兩因素的方差分析,用于配伍組設(shè)計的 多個樣本均數(shù)比較的資料,其研究目的是推斷各樣本所代表的總體均數(shù)是否相等, 但考慮了個體差異對試驗效應(yīng)的影響。兩因素方差分析的計算公式變異來源 SSSSvMSMS F F總變異n-1n-1處理組k-1k-1 SSSS 處理/v/v 處理 MSMS 處理/MS/MS

22、誤差配伍組b-1b-1 SSSS 配伍/v/v 配伍 MSMS 配伍/MS/MS 誤差誤差 SSSS 總-SS-SS 處理-SS-SS 配伍 (k-1k-1)( b-1b-1)SSSS 誤差/v/v 誤差C C 為校正系數(shù)C=C=b b 為配伍組數(shù)分類資料的假設(shè)檢驗1 1、二項分布:應(yīng)用條件:各觀察單位只能具有兩種相互對立的結(jié)果 已知發(fā)生某結(jié)果的概率為 n,其對立結(jié)果的概率為 1-1- nn 次試驗是在相同的條件下進行的。n未知時,用樣本率 P P 作為 n 的估計值,則Sp=Sp=總體率的估計:正態(tài)近似法:當樣本含量n n 足夠大,且樣本率 p p 或 1-p1-p 均不太小,如 npnp

23、與 n n (1-p1-p)均大于 5 5 時樣本率 p p 的抽樣誤差分布近似正態(tài)分布,可信 區(qū)間為:(p-up-ua/2Sp,p+Up+Ua /2Sp/2Sp)2 2、PoissonPoisson 分布:對于二項分類變量,若某結(jié)果發(fā)生的概率很小,如nV0.050.05 時,單位時間、人群、空間內(nèi)“陽性”發(fā)生次數(shù)x x (x=0 x=0,1 1,2 2,)的概率可用 PoissonPoisson 分布概率函數(shù)來描述:P(X)=P(X)=1 遞推公式:P P (0 0)= =性質(zhì):卩=n=n nCTCT若均數(shù)和標準差用率表示,則0-0-p=p=應(yīng)用條件:nV 0.050.05 夕卜,其余同二項

24、分布。分布的性質(zhì):(1)、 PoissonPoisson 分布式一種單參數(shù)的離散型分布,其參數(shù)為卩,表示單位時 間、人群、空間內(nèi)某事件平均發(fā)生的次數(shù)。(2) 、PoissonPoisson 分布的方差0與均數(shù)相等。(3) 、PoissonPoisson 分布可以看成是二項分布的極限形式。(4) 、PoissonPoisson 分布的極限形式也是二項分布,一般當 n n2020 時,可按正態(tài) 分布處理,當 n 0.010.01 時,二項分布可以當作 PoissonPoisson 分布來處理。(5) 、PoissonPoisson 分布具有可加性??傮w均數(shù)的估計:(正態(tài)近似法)LJ3 3、服從二項

25、分布資料的假設(shè)檢驗:(1 1)樣本率和總體率的估計:直接計算法:最多有 k k 例陽性的概率:P(xP(x k k)= =a a=1-=1-s s正態(tài)近似法:當a不太靠近 0 0 或 1 1,且樣本含量 n n 足夠大;或 n n且 n n (1 1S)5時,二項分布接近正態(tài)分布。u=u=3(2 2)兩樣本率的比較:目的是推斷兩個樣本各自代表的兩總體率是否相等, 當兩個樣本率均滿足正態(tài)近似條件時,可用 u u 檢驗。其公式為:u=u=為合并陽性率,= =(x1+x2x1+x2) /(n/(n 1+1+ n2)n2)x1,x2x1,x2 為兩個樣本的陽性例數(shù)。4 4、服從 PoissonPois

26、son 分布的假設(shè)檢驗:對于 PoissonPoisson 分布的假設(shè)檢驗,對于總體 均數(shù)可以用乘法將小單位化大,也可以用除法將大單位化小,對于樣本均數(shù),只能 用除法將大單位化小,而不能用乘法將小單位化大。(1 1)樣本均數(shù)與總體均數(shù)的比較:適用于卩 0 0V2020,且樣本陽性數(shù) X X 較小作單側(cè)檢驗時。直接計算法:最多有 k k 例陽性的概率:P(xP(x k k)= =s=1-=1-s正態(tài)近似法:當11 2020 時,PoissonPoisson 分布逼近正態(tài)分布。u=u=(2 2)兩樣本陽性數(shù)的比較:目的是推斷兩樣本各自代表的兩總體平均數(shù)是否相等。當兩樣本陽性數(shù) XIXI, X2X2

27、 均大于 2020 時,可用 u u 檢驗。其計算用兩種情況:兩樣本觀察單位(時間、面積、容積等)相同時:u=u=(4(4)兩樣本觀察單位(時間、面積、容積等)不同時:u=u=5 5、0檢驗:是一種連續(xù)型分布,u u 分布的平方即為0分布。對于同一份資料,。0檢驗的檢驗統(tǒng)計量為兇,其基本公式為:,自由度 v=v=(行數(shù)-1-1 )(列數(shù)-1-1)式中 A A 為實際頻數(shù),T T 為理論頻數(shù)。理論頻 數(shù) T T 的計算公式為:0為第 R R 行第 C C 列的理論頻數(shù),nRnR 為相應(yīng)行的合計,nCnC 為相應(yīng)列的合計,n n 為總例數(shù)。自由度v=( R-1R-1)( C-1C-1). .0反映

28、了實際頻數(shù)與理論頻數(shù)的吻合程度。只有考慮了自由度v v 的影響,0值才能正確地反應(yīng)實際頻數(shù) A A 和理論頻數(shù) T T 的吻合程度。6 6 四格表資料的 檢驗:最小理論頻數(shù)0的判斷,R R 行與 C C 列中,行合計數(shù)中的最小值與列合計數(shù)中的最小值所對應(yīng)的理論 頻數(shù)最小。(1) 四個表資料檢驗的專用公式:(2) 四個表資料檢驗的校正公式:在實際工作中,對于四個表資料,通常規(guī)定為:(1) 當 n n4040 且所有的 T T5 時,用S檢驗的基本公式或四個表資料兇檢驗的專用公式;當 p pa時,改用四個表資料的 FisherFisher 確切概率法(2) 當 n n4040,但 K K T TW

29、5時,用四格表資料的0檢驗的校正公式;或改用四個表資料的 FisherFisher 確切概率計算法。(3) 當 n nv4040,或 T Tv 1 1 時,用四個表資料的 FisherFisher 確切概率法(4(4)a連續(xù)性校正僅用于 v=1v=1 的四格表資料,尤其是 n n 小時。當 V VA2時一般不做校正7 7、配對四個表資料的0檢驗:由于在抽樣研究中,抽樣誤差是不可避免的,樣本中的b b 和 c c 往往不相等(即 b bM c c),為此,需進行假設(shè)檢驗,其檢驗統(tǒng)計量為:v=1v=1 (條件為:b+cb+c 4040)LKIv=1v=1 (條件為:b+cb+cv 4040)本方法

30、只適用于樣本含量不太大的資料,它僅考慮了兩種方法結(jié)果不一致的 情況,而未考慮樣本含量 n n 和兩種方法一致的兩種情況,所以當 n n 很大且 a a 與 d d 的 數(shù)值也很大,而 b b 與 c c的數(shù)值相對較小時,即使檢驗統(tǒng)計結(jié)果有統(tǒng)計學意義,其實 際意義也不大。8 8、行* *列表資料的S檢驗:只適用于多個樣本率的比較,兩個或多個構(gòu)成比的比較以及雙向無序分類資 料的關(guān)聯(lián)性檢驗。其基本數(shù)據(jù)由三種情況:1多個樣本率的比較時,有 R R 行 2 2 列,稱為 R*2R*2 表2兩個樣本的構(gòu)成比比較時,有 2 2 列 C C 列,稱為 2*C2*C 表3多個樣本的構(gòu)成比比較以及雙向無序分類資料

31、關(guān)聯(lián)性檢驗時,有R R 行 C C列,稱為 R*CR*C 表。以上三種可統(tǒng)稱為行* *列表資料基本公式:基本公式為:專用公式:自由度v=(行數(shù)-1-1 )(列數(shù)-1-1 )注意事項:一般人行* *列表資料中各格的理論頻數(shù)不能小于 1 1, 且 1T51T5 格子數(shù)不能超過 總數(shù)的 1/51/5。如果出現(xiàn)以上情況,可通過以下方法解決:最好是增加樣本含量,使得理論頻數(shù)增大;根據(jù)專業(yè)知識,考慮能否刪去理論頻數(shù)太小的行和列,能否 將理論頻數(shù)太小的行和列于性質(zhì)相近的鄰行或鄰列合并;改用雙向無序R*CR*C 的FisherFisher 確切概率計算法。當多個樣本率比較時,所得統(tǒng)計推斷為拒絕H0,H0,接受

32、 H1H1 時,只能認為各樣本率間總的來說有差別,但不能說明任兩個樣本率間均有差別,需要做多個樣本 率的多重比較。對于有序的 R*CR*C 表資料不宜用0檢驗。對于 R*CR*C 表的資料要根據(jù)分類類型和研究目的選用恰當?shù)臋z驗方法。9 9、雙向無序分類資料的關(guān)聯(lián)性檢驗:對于此資料,常常需要分析兩個分類變 量之間有無關(guān)系,關(guān)系的密切程度如何,進一步分析密切程度時,可以用 PearsonPearson 列聯(lián)系數(shù)取值在 0 01 1 之間,0 0 表示完全不相關(guān),1 1 表示完全相關(guān),愈接近于 0 0,關(guān)系愈不密 切,愈接近1 1,關(guān)系愈密切。1111、R*CR*C 表的分類及檢驗方法的選擇:分類:

33、雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序但屬性不同四 種。雙向無序 R*CR*C 表:兩個分類變量皆為無序分類變量,對于該資料:如果 研究目的為兩個樣本率(或構(gòu)成比)的比較,可用行 * *列資料的E檢驗;如果研究目的是分析兩個分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度 時,可用行* *列表資料的0檢驗以及 PearsonPearson 列聯(lián)系數(shù)進行分析。單向有序 R*CR*C 表:有兩種形式:一種是 R*CR*C 表的分組變量是有序的,而指 標變量是無序的;研究的目的通常是多個構(gòu)成比的比較,可用行* *列表資料的0檢驗進行分析。另一種是 R*CR*C 表中的分組變量是無序的,而指標變量是有

34、序的,研 究目的通常是多個等級資料的比較,可用秩和檢驗或RiditRidit 分析。雙向有序?qū)傩孕瓮?R*CR*C 表:兩個分類變量皆為有序且屬性相同,研究目 的通常是分析兩種檢測方法的一致性,此時宜用一致性檢驗(或稱KappaKappa 檢驗);也可用特殊模型分析方法。雙向有序?qū)傩圆煌?R*CR*C 表:兩分類變量皆為有序的,但屬性不同,對于 該資料:如果研究目的是分析不同年齡組患者療效見有無差別, 可把它視為單向 有序的 R*CR*C 表資料,選用秩和檢驗;如果研究目的是分析兩個有序分類變量間是 否存在相關(guān)關(guān)系,可以用等級相關(guān)分析或 PearsPears onon 積矩相關(guān)分析;如果研

35、究目的是分析兩個有序分類變量是否存在線性變化趨勢,可以用有序分組資料的線性趨勢 檢驗。非參數(shù)檢驗非參數(shù)檢驗的統(tǒng)計推斷基礎(chǔ)是比較分布而不是比較參數(shù),所以不必考慮被研 究對象的為何種分布以及分布是否已知。在實際工作中,對符合參數(shù)檢驗應(yīng)用條件 的資料,或經(jīng)變量變換后符合參數(shù)檢驗應(yīng)用條件的資料應(yīng)首選參數(shù)檢驗;而不能滿 足參數(shù)檢驗應(yīng)用條件的資料,應(yīng)選用非參數(shù)檢驗。主要選擇編秩的方法,比較統(tǒng)計 變量 T T,而做出統(tǒng)計推斷。直線回歸與相關(guān)分析1 1、直線相關(guān):如果兩個隨機變量中,當其中的一個變量由大到小的變化時, 另一個變量也相應(yīng)的由大到?。ê笥尚〉酱螅┑淖兓?,并且相應(yīng)變化的散點圖在直 角坐標系呈現(xiàn)直線趨

36、勢,則稱這兩個隨機變量存在直線相關(guān)。相關(guān)分析是研究變量和變量集合之間數(shù)量協(xié)同變化關(guān)系的密切程度和方向的 統(tǒng)計方法。要求:兩個變量 X X 和丫都服從正態(tài)分布,嚴格說應(yīng)服從雙變量正態(tài)分布。直線相關(guān)系數(shù):用于說明具有直線相關(guān)關(guān)系的兩個變量間的相關(guān)關(guān)系的密切 程度和相關(guān)方向;亦稱積差相關(guān)系數(shù),總體的為p,樣本的為丫。的取值在-1,1-1,1之間。其意義如下:若 則 X X 與丫存在直線相關(guān)關(guān)系;kJ為正相關(guān);kJ為負相關(guān);0 0越大,說明兩變量間的相關(guān)關(guān)系越密切; 0 0越小,說明兩變量間的相關(guān)關(guān)系越不密切;若到為完全相關(guān);若LHJLHJ,則 X X 和丫不存在相關(guān)關(guān)系。表示存在不同程度的線性相關(guān)關(guān)

37、系:為低度線性相關(guān);0 0為顯著線性相關(guān);S為高度顯著線性相關(guān)。相關(guān)分析的步驟:(在 X X 與丫均服從雙變量正態(tài)分布的情況下)繪制散點圖:呈線性趨勢,計算相關(guān)性;呈曲線趨勢,進行曲線擬 合;無任何趨勢,不必分析。根據(jù)上述公式計算丫的值;相關(guān)系數(shù)的假設(shè)檢驗,由于抽樣誤差的存在,判斷 是否來自的總體,常用 t t 檢驗,公式:(或直接查 t t 界值表)總體相關(guān)系數(shù)的區(qū)間估計:當kJ時,從這樣的總體中抽樣,計算出的 丫不服從正態(tài)分布,而進行反正切變換后,n n 較大時,Z Z近似服從均數(shù)為乙方差為的正態(tài)分布。則 Z Z 的可信區(qū)間為(),對其進行s的變換,可以得出zl的可信區(qū)間。直線相關(guān)分析的注

38、意事項:1 1 算相關(guān)系數(shù)時首先繪制散點圖,判斷兩變量是否存在線性趨勢;相關(guān)分析時要求 X X、丫均為隨機變量,而不能用于事先界定 X X、丫的資料;相關(guān)分析時必須剔除異常點;相關(guān)分析要有實際意義,兩變量相關(guān),并不一定存在聯(lián)系,可能是另外一種因素引起的;分層資料不宜盲目的合并,進行相關(guān)分析;同時進行相關(guān)分析時,如果不 能確定各層研究對象具有同質(zhì)基礎(chǔ),不宜盲目合并。不能將假設(shè)檢驗中顯著性大小理解為兩變量相關(guān)程度的大小,后者是由相 關(guān)系數(shù)的大小決定的。2 2、等級相關(guān):適用于不服從雙變量正態(tài)分布或總體分布未知的資料,還可用 于等級資料的相關(guān)分析。等級相關(guān)系數(shù)0表示兩個變量間相關(guān)系數(shù)的密切程度與相關(guān)

39、方向?;舅枷耄簩τ诓环险龖B(tài)分布的資料或等級資料,將兩個變量的原始觀察 值分別由小到大編秩,然后利用量變量的秩次計算相關(guān)系數(shù)。3 3、直線回歸: 處理兩個變量間線性數(shù)量依存關(guān)系的一種統(tǒng)計分析方法?;貧w方程為:為應(yīng)變量,給定 x x 的 y y 的條件均數(shù)的估計值;b b 為回歸斜率,表示當自變量 x x 每變 化 1 1 個單位時,應(yīng)變量 y y 平均變化 b b 個單位;a a 為截距,表示沒有自變量 x x 時其他 因素對 y y 的平均影響。線性回歸模型的前提條件:線性:應(yīng)變量 y y 的總體均數(shù)與自變量 x x 呈線性關(guān)系;因此進行回歸分析前 應(yīng)先繪制散點圖;獨立:任意兩個觀察單位之

40、間相互獨立;正態(tài)性:對任意給定 x x 的值,y y 均服從正態(tài)分布;該分布的均數(shù)是回歸直 線上與 x x 值相對應(yīng)的那點的縱坐標;等方差:自變量 x x 的取值范圍內(nèi),不論 x x 取什么值,y y 都具有相同的方 差。直線回歸分析的步驟:繪制散點圖,通過觀察散點的形態(tài)來判斷線性假設(shè)是否成立;建立直線回歸方程,即求出回歸參數(shù) a a 和 b b;通常用最小二乘法估計參數(shù),即要求殘差平方和達到最??;rix I1 K 1繪制回歸線;注意:不應(yīng)超過 x x 的實測值范圍;所繪制的直線必然通過);3 直線的左端延長與縱軸的焦點必然是截距 a a?;貧w方程的假設(shè)檢驗:檢驗方法有方差分析和t t 檢驗1方差分析:基本思想:將應(yīng)變量 y y 的總變異 SSSS 總分解成 SSSS 回歸和 SSSS 剩余 兩部分,然后利用 F F 檢驗來判斷回歸方程是否成立。任意一點 P P( x x,y y)的縱坐標被回歸直線與均數(shù)J J截成 3 3 段:三部分的變異可以表示為:即 SSSS 總=SS=SS 回歸+SS+SS 剩余各部分的意義:SSSS 總:即Id,為 y y 的總離均差平方和,反映未考慮 x x 和 y y 的回歸關(guān)系時的 y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論