完整word版醫(yī)學(xué)統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)匯總_第1頁
完整word版醫(yī)學(xué)統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)匯總_第2頁
完整word版醫(yī)學(xué)統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)匯總_第3頁
完整word版醫(yī)學(xué)統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)匯總_第4頁
完整word版醫(yī)學(xué)統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)匯總_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)統(tǒng)計(jì)學(xué)總結(jié)緒論1、隨機(jī)現(xiàn)象:在同一條件下進(jìn)行試驗(yàn),一次試驗(yàn)結(jié)果不能確定,而在一定數(shù)量的重復(fù)試驗(yàn)之后呈現(xiàn)統(tǒng)計(jì)規(guī)律的現(xiàn)象。2、同質(zhì):統(tǒng)計(jì)學(xué)中對研究指標(biāo)影響較大的,可以控制的主要因素。3、變異:同質(zhì)基礎(chǔ)上各觀察單位某變量值的差異。數(shù)值變量:變量值是定量的, 由此而構(gòu)成的資料稱為數(shù)值變量資料或計(jì)量資料,其數(shù)值是連續(xù)性的,稱之為連續(xù)型變量。變量無序分類變量:所分類別或?qū)傩灾g無順序和程度上的差異分類變量:定性變量有序分類變量:有順序和程度上的差異4、總體:根據(jù)研究目的確定的同質(zhì)研究對象中所有觀察單位某變量值的集合。可以分為有限總體和無限總體。5、樣本:是按隨機(jī)化原則從同質(zhì)總體中隨機(jī)抽取的部分觀察單位

2、某變量值的集合。樣本代表性的前提:同質(zhì)總體,足夠的觀察單位數(shù),隨機(jī)抽樣。統(tǒng)計(jì)學(xué)中,描述 樣本特征的指標(biāo)稱為統(tǒng)計(jì)量,描述總體特征的指標(biāo)稱為參數(shù)。6、概率:描述隨機(jī)事件發(fā)生的可能性大小的一個(gè)度量。若 P(A)=1,則稱 A 為必然事件;若P(A)=0,則稱 A 為不可能事件;隨機(jī)事件 A 的概率為 0P1.小概率事件:若隨機(jī)事件A 的概率 P,則稱隨機(jī)事件A 為小概率事件,其統(tǒng)計(jì)學(xué)意義為:小概率事件在一次隨機(jī)試驗(yàn)中認(rèn)為是不可能發(fā)生的。統(tǒng)計(jì)描述1、頻數(shù)分布有兩個(gè)重要的特征: 集中趨勢和離散程度。 頻數(shù)分布有對稱分布和偏態(tài)分布之分。后者是指頻數(shù)分布不對稱, 集中趨勢偏向一側(cè), 如偏向數(shù)值小的一側(cè)為正偏

3、態(tài)分布, 如偏向數(shù)值大的一側(cè)為負(fù)偏態(tài)分布。2、常用的集中趨勢的描述指標(biāo)有:均數(shù),幾何均數(shù),中位數(shù)等。均數(shù) : 適用于正態(tài)或近似正態(tài)的分布的數(shù)值變量資料。樣本均數(shù)用x 表示,總體均數(shù)用表示。幾何均數(shù):適用于等比級數(shù) 資料和對數(shù)呈正態(tài)分布的資料。注意觀察值中不能有零, 一組觀察值中不能同時(shí)有正值和負(fù)值。中位數(shù):適用于偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)的資料。3、常用的離散程度的描述指標(biāo)有:全距,四分位數(shù)間距,方差,標(biāo)準(zhǔn)差,變異系數(shù)。全距:任何資料,一組中最大值與最小值的差。四分位數(shù)間距:適用于偏態(tài)分布以及分布的一端或兩端無確切數(shù)據(jù)資料。方差和標(biāo)準(zhǔn)差:正態(tài)分布資料。標(biāo)準(zhǔn)差表示觀察值的變異

4、度的大小。變異系數(shù):比較度量單位不同或均數(shù)相差懸殊的兩組資料的變異度。4、標(biāo)準(zhǔn)正態(tài)分布:對正態(tài)分布的(X-)/ 進(jìn)行 u 的變換, u=(X-) / , 則正態(tài)分布變換為 =0, =1 的標(biāo)準(zhǔn)正態(tài)分布,亦稱u 分布。 u 被稱為標(biāo)準(zhǔn)正態(tài)變量或標(biāo)準(zhǔn)正態(tài)離差。兩個(gè)參數(shù):是位置參數(shù),是形狀參數(shù)。用 N(0,1 )表示標(biāo)準(zhǔn)正態(tài)分布。常用估計(jì)醫(yī)學(xué)參考值范圍的方法有:( 1) 正態(tài)分布方法:適用于正態(tài)或近似正態(tài)分布的資料。雙側(cè)界值: Xu/2 S 單側(cè)上界: X+u S,或單側(cè)下界: X-u S( 2) 對數(shù)正態(tài)分布方法:適用于對數(shù)正態(tài)分布資料。雙側(cè)界值: Lg-1 (X lgx u /2S lgx )單

5、側(cè)上界: Lg-1 (X lgx +u S lgx ),或單側(cè)下界: Lg-1 ( X lgx -uS lgx )( 3)百分位數(shù)法:用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。雙側(cè)上界: P2.5 和 P97.5 ;單側(cè)上界: P95,或單側(cè)下界: P5常用的 u 值表參考值范圍( %)單側(cè)雙側(cè)800.8421.282901.2821.645951.6451.96992.3262.5765、分類變量資料的統(tǒng)計(jì)描述:常用相對數(shù)指標(biāo)描述,包括:率,構(gòu)成比,相對比。率:說明某現(xiàn)象發(fā)生的頻率或強(qiáng)度。 (病死率不等于死亡率)構(gòu)成比:說明某現(xiàn)象內(nèi)部組成部分所占的比重或分布,常以百分?jǐn)?shù)表示。相對

6、比:亦稱比,是 A、B 2 個(gè)有關(guān)指標(biāo)之比,說明 A 為 B 的若干倍或百分之幾。兩個(gè)指標(biāo)可以性質(zhì)相同,也可以性質(zhì)不同。應(yīng)用相對數(shù)時(shí)的注意事項(xiàng):1 、計(jì)算相對數(shù)的分母不宜過??; 2、分析時(shí)不能以構(gòu)成比代替率; 3、對觀察單位數(shù)不等的幾個(gè)率,不能直接相加求其平均率; 4、比較相對數(shù)時(shí)應(yīng)注意其可比性; 5、對樣本率(或構(gòu)成比)的比較應(yīng)遵循隨機(jī)抽樣,并做假設(shè)檢驗(yàn)。6、標(biāo)準(zhǔn)化法:標(biāo)準(zhǔn)化的目的在于消除混雜因素對結(jié)果的影響,使資料更具有可比性。其基本思想是:將所比較的兩組或多組資料的構(gòu)成按統(tǒng)一的“標(biāo)準(zhǔn)”調(diào)整后,計(jì)算標(biāo)化率,使其更具有可比性。標(biāo)準(zhǔn)化率的計(jì)算方法: 亦稱標(biāo)化率, 直接法用于已知被標(biāo)化組的年齡別

7、率, 以及已知標(biāo)準(zhǔn)組的年齡別人口數(shù)或年齡別人口構(gòu)成比時(shí); 間接法用于已知被標(biāo)化組的年齡別人口數(shù)與發(fā)病 (死亡)總數(shù),但年齡別率未知,以及已知標(biāo)準(zhǔn)組年齡別發(fā)?。ㄋ劳觯┞逝c總發(fā)?。ㄋ劳觯┞蕰r(shí)。通常可從下列 3 種方法選用標(biāo)準(zhǔn)組: 以兩組資料中任一組的年齡別人口數(shù)或構(gòu)成比作為標(biāo)準(zhǔn)組;以兩組資料合并的各年齡組的人口數(shù)或構(gòu)成比作為標(biāo)準(zhǔn)組; 以公認(rèn)的或便于與他人資料比較的標(biāo)準(zhǔn)作為標(biāo)準(zhǔn)組。7、統(tǒng)計(jì)表:結(jié)構(gòu):由標(biāo)題、標(biāo)目、線條和數(shù)字構(gòu)成。編制統(tǒng)計(jì)表的要求:標(biāo)題:概括表的內(nèi)容,列于表的上方居中,應(yīng)注明時(shí)間和地點(diǎn);標(biāo)目:主語和謂語分別列于橫、縱標(biāo)目,文字簡明,層次清楚。橫標(biāo)目列于表的左側(cè),通常為被研究的事物,縱標(biāo)

8、目列于表的上端,為說明橫標(biāo)目的統(tǒng)計(jì)指標(biāo)。線條:通常,除表的頂線、底線、縱標(biāo)目下以及合計(jì)上的橫線外,其余線條均省去,頂線和底線應(yīng)略粗些,表的左上角不宜用斜線。數(shù)字:用阿拉伯?dāng)?shù)字表示, 同一指標(biāo)的小數(shù)位數(shù)要一致并對齊, 數(shù)字暫缺或無數(shù)字者分別用“ ”或“ - ”表示,數(shù)字為 0 者要記作“ 0”,不應(yīng)空項(xiàng),為方便核實(shí)和分析,應(yīng)有合計(jì)。備注:一般不列入表內(nèi),必要時(shí)可用“* ”標(biāo)出,列于表下。8、統(tǒng)計(jì)圖:條圖:用于相互對比關(guān)系的資料;圓圖與百分條圖:適用于百分構(gòu)成比資料,表示事物各組成部分所占的比重或構(gòu)成;線圖:用于連續(xù)性資料, 用于說明事物在時(shí)間上的發(fā)展變化,或某現(xiàn)象隨另一現(xiàn)象而變動(dòng)的情況;直方圖:

9、表示連續(xù)性資料的頻數(shù)分布;散點(diǎn)圖:適用于直線相關(guān)分析,說明兩個(gè)變量間的數(shù)量關(guān)系和變化趨勢。抽樣分布與參數(shù)估計(jì)抽樣研究的目的是用樣本信息來推斷總體特征, 即統(tǒng)計(jì)推斷,包括兩個(gè)內(nèi)容: 一是總體參數(shù)的估計(jì),二是假設(shè)檢驗(yàn)。1、抽樣誤差:由于變異的存在,抽樣研究所造成的樣本統(tǒng)計(jì)量與總體參數(shù)之間的差異或各樣本統(tǒng)計(jì)量之間的差異稱為抽樣誤差。常用標(biāo)準(zhǔn)誤 x 反映均數(shù)抽樣誤差的大??;用率的標(biāo)準(zhǔn)誤p 反映率的抽樣誤差的大??;用Possion 計(jì)數(shù)的標(biāo)準(zhǔn)誤 反映其抽樣誤差的大小。2、中心極限定理和正態(tài)分布推理:從正態(tài)分布N(, 2 )總體中以固定 n 隨機(jī)抽取樣本,樣本均數(shù) x 的分布仍服從正態(tài)分布,即使是從偏態(tài)分

10、布總體中隨機(jī)抽樣,只要n 足夠大, x 的分布也近似正態(tài)分布。樣本均數(shù)的均數(shù)仍為,樣本均數(shù)的標(biāo)準(zhǔn)差為x 。樣本均數(shù)的抽樣誤差x (簡稱標(biāo)準(zhǔn)誤)是反映均數(shù)抽樣誤差大小的指標(biāo)。x =S用樣本均數(shù) S 作為的估計(jì)值,則 sx =nn3、t 分布:將 x 看成變量值,那么可將正態(tài)變量進(jìn)行u 變換(u= x - / )后,也可將 N(,2x )變換成標(biāo)準(zhǔn)正態(tài)分布N( 0,1)。常用 s 作為的估計(jì)值,統(tǒng)計(jì)量為t ,此分布為 t 分布。統(tǒng)計(jì)量 t=xt曲線的形態(tài)變化與自由度v 的大小有關(guān)。 v 越小, t 值越分散,曲線越低sx平, v 逐漸增大時(shí),則t 分布逐漸逼近正態(tài)分布,當(dāng) v=無窮大時(shí), t 分布

11、即為 u 分布。4、總體均數(shù)的估計(jì)有兩種方法:一種是點(diǎn)估計(jì),即用統(tǒng)計(jì)量x 估計(jì)總體均數(shù);二是區(qū)間估計(jì),亦稱可信區(qū)間。( 1)未知且 n ?。?x -t /2 ,v s x x +t /2 , v s x( 2)未知,但 n 足夠大, t 分布逼近 u 分布: x -u /2 sx x +u /2 sx( 3)已知: x -u /2 x x +u/2 x標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的比較標(biāo)準(zhǔn)差標(biāo)準(zhǔn)誤( x x)2sx = sS=n 1n表示觀察值的變異程度大小估計(jì)均數(shù)的抽樣誤差大小計(jì)算變異系數(shù) CV=s100%估計(jì)總體均數(shù)可信區(qū)間xx-t /2 , vsx+t/2 , vsxx確定醫(yī)學(xué)參考值的范圍進(jìn)行假設(shè)檢驗(yàn)

12、計(jì)算標(biāo)準(zhǔn)誤數(shù)值變量資料的假設(shè)檢驗(yàn)1、假設(shè)檢驗(yàn)的原理:假設(shè)在一次抽樣研究中得出了u1.96 ,則 P 0.05 ,此為小概率事件,依據(jù)“小概率事件在一次隨機(jī)試驗(yàn)中認(rèn)為是不可能發(fā)生的”的定理,可認(rèn)為此樣本不是來自該總體。2、步驟:建立假設(shè)和確定檢驗(yàn)水準(zhǔn);假設(shè)有兩種,一種是檢驗(yàn)假設(shè),常稱無效假設(shè)或零假設(shè),記為 H0,假設(shè)樣本所代表的總體參數(shù)與已知總體參數(shù)相等;另一種是備擇假設(shè) ,記為 H1 ,是與 H0 相聯(lián)系且對立的假設(shè);檢驗(yàn)水準(zhǔn),亦稱顯著性水準(zhǔn),是判斷拒絕或不拒絕H0,也是允許犯型錯(cuò)誤的概率 ,通常用 0.05 。選定檢驗(yàn)方法和計(jì)算統(tǒng)計(jì)量確定 P 值,做出推斷結(jié)論。 P 值是指從 H0 所規(guī)定的

13、總體中隨機(jī)抽樣時(shí),獲得等于及大于現(xiàn)有樣本統(tǒng)計(jì)量的概率。3、t 檢驗(yàn):適用于:樣本均數(shù)與總體均數(shù)比較(未知且n50 或 n30);成組設(shè)計(jì)的兩小樣本均數(shù)的比較( n1 ,n2 均小于 30 或 50);配對設(shè)計(jì)的兩樣本均數(shù)比較。應(yīng)用條件:當(dāng)樣本含量較?。╪ 50 或 n30)時(shí),要求樣本來自正態(tài)分布總體;用于成組設(shè)計(jì)的兩樣本均數(shù)比較時(shí),要求兩樣本來自總體方差相等的總體。4、單樣本 t 檢驗(yàn):用于樣本均數(shù)與已知總體均數(shù)的比較,研究目的是推斷樣本所代表的總體均數(shù)與已知總體均數(shù) 0 有無差別。統(tǒng)計(jì)量t=x0v=n-1s /n5、配對 t 檢驗(yàn):用于配對設(shè)計(jì)資料的 兩均數(shù)的 比較。其研究目的是推斷某種處

14、理有無作用,或兩種處理的效果有無差別。配對設(shè)計(jì)類型有 3 種:先將受試對象按配比條件配對,然后用隨機(jī)分組方法將各對中的 2 個(gè)受試對象分別分配到不同的處理組; 同一對象分別接受 2 種不同處理; 同一對象處理前后。 t=d( d 是差值的樣本均數(shù)) v=n-1sd /n6、兩樣本 t 檢驗(yàn):用于 完全隨機(jī)設(shè)計(jì)的兩樣本均數(shù)的比較,兩個(gè)樣本來自兩個(gè)總體,其研究目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。x1 x2x1x2=x1x2v=n +n -2t=Sx1 x22 11s21) s212(n(n21)11sc ()112n1 n22()n1n2n1n27、單樣本 u 檢驗(yàn):用于樣本均數(shù)與已知總

15、體均數(shù)比較,其研究目的同t 檢驗(yàn)。研究目的是推斷樣本所代表的總體均數(shù)與已知總體均數(shù) 0 有無差別。其統(tǒng)計(jì)量 u= x 0 s/ n8、兩樣本的 u 檢驗(yàn):用于完全隨機(jī)設(shè)計(jì)的兩樣本均數(shù)的比較,兩個(gè)樣本來自兩個(gè)總體,其研究目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。其統(tǒng)計(jì)量為:u= x1x2 =x1x2sx1 x2s12 / n1s22 / n29、正態(tài)性檢驗(yàn)和方差齊性檢驗(yàn): 資料在做假設(shè)檢驗(yàn)之前首先應(yīng)該檢驗(yàn)資料是否來自正態(tài)總體,并且它們的方差是否齊。10、兩類錯(cuò)誤:的總體,由于抽樣的偶然性, 按 =0.05型錯(cuò)誤: 拒絕了實(shí)際上成立的 H, 即樣本來自 =00檢驗(yàn)水準(zhǔn)拒絕了 H0, 接受 H1

16、。這類在假設(shè)檢驗(yàn)中拒絕了原本正確的H0 的錯(cuò)誤稱為型錯(cuò)誤。,理論上犯型錯(cuò)誤的概率為,值得大小視研究目的而定。通常設(shè)=0.05 。型錯(cuò)誤:不拒絕了實(shí)際上不成立的 H0 ,即樣本來自 0 的總體,由于抽樣的偶然性,按 =0.05 檢驗(yàn)水準(zhǔn)不拒絕 H,這類在假設(shè)檢驗(yàn)中不拒絕原本不正確的H 的錯(cuò)誤稱為型錯(cuò)誤。00犯型錯(cuò)誤的概率為,它只有與特定的H1 結(jié)合起來才有意義。同時(shí)減少和的方法是 增加樣本含量 。1- 稱為檢驗(yàn)效能或把握度 ,即兩總體確有差別時(shí),按水準(zhǔn)能識(shí)別該差別的能力。 如 1- =0.95 表示:若兩總體確有差別, 理論上平均 100 次抽樣中,有 95 次能得出兩總體有差別的結(jié)論。11、假

17、設(shè)檢驗(yàn)時(shí)應(yīng)注意的事項(xiàng):要有嚴(yán)密的抽樣研究設(shè)計(jì)- 假設(shè)檢驗(yàn)的前提正確選用檢驗(yàn)方法: 完全隨機(jī)的設(shè)計(jì)的兩數(shù)值變量資料比較時(shí), 若 n 小且方差齊,則選用兩樣本 t 檢驗(yàn);若方差不齊,則選用 t 檢驗(yàn)或成組設(shè)計(jì)的兩樣本比較的秩和檢驗(yàn);若 n1 ,n2 均大于 50,則選用兩樣本 u 檢驗(yàn)。正確理解“顯著性”的含義對差別有無統(tǒng)計(jì)學(xué)意義的判斷 不能絕對化 。方差分析1、基本思想:按研究目的和設(shè)計(jì)類型,將總變異的離均差平方和SS 和自由度v 分別分解成若干部分,并求得各相應(yīng)部分的變異。其中的組內(nèi)變異或誤差主要反映個(gè)體差異或抽樣誤差,其它部分的變異與之比較得出統(tǒng)計(jì)量 F 值,由 F 值的大小確定 P 值,并

18、作出推斷,從而了解該因素對觀測指標(biāo)有無影響。組內(nèi)變異主要由個(gè)體差異所致,組間變異可能由兩種原因所致:一是抽樣誤差,二是由于接受的處理不同。2、總離均差平方和SS和自由度 vk2niSS總 =(xij x) = x 2( x) 2 / ni 1j 1v 總 =n-13、組間離均差平方和SS組間 ,自由度 v 組間 和均方 MS組間nik (xij ) 2( x)2組間SS組間 =j 1v 組間 =k-1MS 組間=SSninv 組間i 14、組內(nèi)離均差平方和 SS組內(nèi) ,自由度 v 組內(nèi) 和均方 MS組內(nèi)SS組內(nèi) =SS總-SS 組間 v 組內(nèi) =n-k MS 組內(nèi) =SS組內(nèi) /v 組內(nèi)多樣本

19、均數(shù)比較的方差分析的應(yīng)用條件: 各樣本是相互獨(dú)立的隨機(jī)樣本; 各樣本來自正態(tài)分布總體;各總體方差相等,即方差齊。5、完全隨機(jī)設(shè)計(jì)資料的方差分析:亦稱單因素的方差分析,可用于完全隨機(jī)設(shè)計(jì)的多個(gè)樣本均數(shù)比較的資料,研究目的是推斷各個(gè)樣本所代表的總體均數(shù)是否相等。單因素方差分析的計(jì)算公式變異來源SSvMSF總變異x 2Cn-1nixij ) 2k(SS組間MS組間j1Ck-1組間變異niv 組間MS組內(nèi)i1組內(nèi)變異SS總 -SS 組間n-kSS組內(nèi) /v 組內(nèi)*C 為校正系數(shù) C= (x) 2 / n6、配伍組設(shè)計(jì)資料的方差分析:亦稱兩因素的方差分析,用于配伍組設(shè)計(jì)的多個(gè)樣本均數(shù)比較的資料,其研究目

20、的是推斷各樣本所代表的總體均數(shù)是否相等, 但考慮了個(gè)體差異對試驗(yàn) 效應(yīng)的影響。兩因素方差分析的計(jì)算公式變異來源SSvMSF總變異x 2Cn-1bxij ) 2k(j1Ck-1SS處理 /v 處理處理組MS 處理 /MS 誤差i 1bkxij ) 2b(配伍組i1Cb-1SS配伍/v配伍MS配伍/MS誤差kj1誤差SS 總 -SS 處理 -SS 配伍(k-1)( b-1)SS 誤差 /v 誤差*C 為校正系數(shù)C= (x) 2 / n b為配伍組數(shù)分類資料的假設(shè)檢驗(yàn)1、二項(xiàng)分布: 應(yīng)用條件:各觀察單位只能具有兩種相互對立的結(jié)果已知發(fā)生某結(jié)果的概率為,其對立結(jié)果的概率為 1- n 次試驗(yàn)是在相同的條

21、件下進(jìn)行的。性質(zhì): =n= n(1)若均數(shù)和標(biāo)準(zhǔn)差用率表示,則p= p= (1 )/ n未知時(shí),用樣本率P 作為的估計(jì)值,則Sp=p(1p) / n總體率的估計(jì):正態(tài)近似法:當(dāng)樣本含量 n 足夠大,且樣本率 p 或 1-p 均不太小,如 np 與 n ( 1-p )均大于 5 時(shí)樣本率 p 的抽樣誤差分布近似正態(tài)分布, 可信區(qū)間為:( p-u /2 Sp,p+u /2 Sp)2、Poisson分布:對于二項(xiàng)分類變量,若某結(jié)果發(fā)生的概率很小,如 0.05 時(shí),單位時(shí)間、人群、空間內(nèi)“陽性”發(fā)生次數(shù) x(x=0,1,2, )的概率可用 Poisson分布概率函數(shù)來描述:xP(X)= e( / x!

22、)遞推公式: P( 0) =eP(x)=P(x1)x應(yīng)用條件: 0.05 外,其余同二項(xiàng)分布。分布的性質(zhì):( 1)、Poisson 分布式一種單參數(shù)的離散型分布,其參數(shù)為,表示單位時(shí)間、人群、空間內(nèi)某事件平均發(fā)生的次數(shù)。2( 2)、Poisson分布的方差 與均數(shù)相等。( 3)、Poisson分布可以看成是二項(xiàng)分布的極限形式。( 4)、Poisson 分布的極限形式也是二項(xiàng)分布,一般當(dāng) n20 時(shí),可按正態(tài)分布處理,當(dāng) 0.01 時(shí),二項(xiàng)分布可以當(dāng)作 Poisson 分布來處理。( 5)、Poisson 分布具有 可加性 ??傮w均數(shù)的估計(jì):(正態(tài)近似法)xux , xux/ 2/ 23、服從二

23、項(xiàng)分布資料的假設(shè)檢驗(yàn):( 1)樣本率和總體率的估計(jì):k直接計(jì)算法:最多有k 例陽性的概率: P(x k)=P( x)0nk 1最少有 k 例陽性的概率: P( x k) =P( x) =1-P( x)k0不太靠近 05) 5正態(tài)近似法: 當(dāng) 0或 1,且樣本含量 n 足夠大;或 n 0且 n( 1- 0時(shí),二項(xiàng)分布接近正態(tài)分布。P0=xn0u=( )nn(10 1000 )( 2)兩樣本率的比較:目的是推斷兩個(gè)樣本各自代表的兩總體率是否相等,當(dāng)兩個(gè)樣本率均滿足正態(tài)近似條件時(shí),可用 u 檢驗(yàn)。其公式為: u= p1p2 =p1 p2s p1p211)pc (1 pc )(n2n1pc 為合并陽性

24、率, pc=( x1+x2)/(n1+n2)x1,x2 為兩個(gè)樣本的陽性例數(shù)。4、服從 Poisson分布的假設(shè)檢驗(yàn):對于 Poisson分布的假設(shè)檢驗(yàn),對于總體均數(shù)可以用乘法將小單位化大, 也可以用除法將大單位化小, 對于樣本均數(shù), 只能用除法將大單位化小, 而不能用乘法將小單位化大。( 1)樣本均數(shù)與總體均數(shù)的比較:適用于0 20,且樣本陽性數(shù)X 較小作單側(cè)檢驗(yàn)時(shí)。k直接計(jì)算法:最多有k 例陽性的概率:P(x k)=P( x)0nk 1最少有k 例陽性的概率:P( x k) =P( x)=1-P( x)k0正態(tài)近似法:當(dāng) 20 時(shí), Poisson 分布逼近正態(tài)分布。 u=( x0 )0(

25、 2)兩樣本陽性數(shù)的比較:目的是推斷兩樣本各自代表的兩總體平均數(shù)是否相等。當(dāng)兩樣本陽性數(shù) X 1,X 2 均大于 20 時(shí),可用 u 檢驗(yàn)。其計(jì)算用兩種情況:兩樣本觀察單位(時(shí)間、面積、容積等)相同時(shí):u=x1x2=x1x2x1x2x1x2兩樣本觀察單位(時(shí)間、面積、容積等)不同時(shí):u=x1x2x1n1x2n25、222 。2檢驗(yàn):是一種連續(xù)型分布,u 分布的平方即為分布 。對于同一份資料, u 222檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為(A T ) ,自由度v=(行數(shù) -1)(列數(shù) -1),其基本公式為: 2T式中 A 為實(shí)際頻數(shù), T 為理論頻數(shù)。理論頻數(shù)T 的計(jì)算公式為:TRCnR * nCT為第 RnR

26、C行第 C 列的理論頻數(shù), nR 為相應(yīng)行的合計(jì), C為相應(yīng)列的合計(jì),n為總例數(shù)。自由度(R-1)nv=( C-1).22反映了實(shí)際頻數(shù)與理論頻數(shù)的吻合程度。只有考慮了自由度v 的影響,值才能正確地反應(yīng)實(shí)際頻數(shù)A 和理論頻數(shù) T 的吻合程度。6、四格表資料的2的判斷, R 行與 C 列中,行合計(jì)數(shù)中的最小值與檢驗(yàn):最小理論頻數(shù)T RC列合計(jì)數(shù)中的最小值所對應(yīng)的理論頻數(shù)最小。( 1)四個(gè)表資料22( adbc) 2 n檢驗(yàn)的專用公式:( ab)(cd )(a c)(b d )( 2)四個(gè)表資料2檢驗(yàn)的校正公式:2( A T0.5) 22( adbcn 2)2 nTc(a b)(c d )( a

27、c)(b d)在實(shí)際工作中,對于四個(gè)表資料,通常規(guī)定為:2檢驗(yàn)的基本公式或四個(gè)表資料2( 1)當(dāng) n40 且所有的 T 5 時(shí),用檢驗(yàn)的專用公式;當(dāng) P時(shí),改用四個(gè)表資料的Fisher 確切概率法。( 2)當(dāng) n40,但 1T5 時(shí),用四格表資料的2檢驗(yàn)的校正公式;或改用四個(gè)表資料的Fisher 確切概率計(jì)算法。( 3)當(dāng) n40,或 T 1 時(shí),用四個(gè)表資料的 Fisher 確切概率法。( 4)2連續(xù)性校正僅用于 v=1 的四格表資料,尤其是 n 小時(shí)。當(dāng) v2 時(shí)一般不做校正。7、配對四個(gè)表資料的2b 和 c檢驗(yàn):由于在抽樣研究中,抽樣誤差是不可避免的,樣本中的2(bc)2v=1 (條往往

28、不相等(即 b c),為此,需進(jìn)行假設(shè)檢驗(yàn),其檢驗(yàn)統(tǒng)計(jì)量為:bc件為: b+c 40)2( b c1) 2v=1 (條件為: b+c40)bc本方法只適用于樣本含量不太大的資料,它僅考慮了兩種方法結(jié)果不一致的情況,而未考慮樣本含量 n 和兩種方法一致的兩種情況,所以當(dāng)n 很大且 a 與 d 的數(shù)值也很大, 而 b 與 c的數(shù)值相對較小時(shí) ,即使檢驗(yàn)統(tǒng)計(jì)結(jié)果有統(tǒng)計(jì)學(xué)意義,其實(shí)際意義也不大。28、行* 列表資料的檢驗(yàn):只適用于多個(gè)樣本率的比較,兩個(gè)或多個(gè)構(gòu)成比的比較以及雙向無序分類資料的關(guān)聯(lián)性檢驗(yàn)。其基本數(shù)據(jù)由三種情況:多個(gè)樣本率的比較時(shí),有R行2列,稱為 R*2 表兩個(gè)樣本的構(gòu)成比比較時(shí),有2列

29、C列,稱為 2*C 表多個(gè)樣本的構(gòu)成比比較以及雙向無序分類資料關(guān)聯(lián)性檢驗(yàn)時(shí),有R 行 C 列,稱為 R*C 表。以上三種可統(tǒng)稱為行 * 列表資料基本公式:基本公式為:2(A T)2T專用公式:2(A21)自由度v=(行數(shù)-1)(列數(shù)-1)nnR nC注意事項(xiàng):一般人行 * 列表資料中各格的理論頻數(shù)不能小于1,且 1T5 格子數(shù)不能超過總數(shù)的1/5。如果出現(xiàn)以上情況, 可通過以下方法解決: 最好是增加樣本含量, 使得理論頻數(shù)增大; 根據(jù)專業(yè)知識(shí),考慮能否刪去理論頻數(shù)太小的行和列,能否將理論頻數(shù)太小的行和列于性質(zhì)相近的鄰行或鄰列合并;改用雙向無序R*C 的 Fisher 確切概率計(jì)算法。當(dāng)多個(gè)樣本

30、率比較時(shí),所得統(tǒng)計(jì)推斷為拒絕H0,接受 H1 時(shí),只能認(rèn)為各樣本率間總的來說有差別,但不能說明任兩個(gè)樣本率間均有差別,需要做多個(gè)樣本率的多重比較。對于 有序的 R*C 表資料不宜用2檢驗(yàn)。對于 R*C 表的資料要根據(jù)分類類型和研究目的選用恰當(dāng)?shù)臋z驗(yàn)方法。9、雙向無序分類資料的關(guān)聯(lián)性檢驗(yàn): 對于此資料,常常需要分析兩個(gè)分類變量之間有無關(guān)系,2關(guān)系的密切程度如何,進(jìn)一步分析密切程度時(shí),可以用Pearson 列聯(lián)系數(shù) r p , r p2nr p 取值在 01 之間, 0 表示完全不相關(guān), 1 表示完全相關(guān),愈接近于0,關(guān)系愈不密切,愈接近 1,關(guān)系愈密切。11、R*C 表的分類及檢驗(yàn)方法的選擇:分

31、類:雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序但屬性不同四種。雙向無序 R*C 表:兩個(gè)分類變量皆為無序分類變量,對于該資料:如果研究目的為兩個(gè)2樣本率(或構(gòu)成比)的比較,可用行* 列資料的檢驗(yàn);如果研究目的是分析兩個(gè)分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度時(shí),可用行 * 列表資料的2檢驗(yàn)以及 Pearson列聯(lián)系數(shù)進(jìn)行分析。單向有序 R*C 表:有兩種形式:一種是 R*C 表的分組變量是有序的, 而指標(biāo)變量是無序的;2研究的目的通常是多個(gè)構(gòu)成比的比較,可用行* 列表資料的檢驗(yàn)進(jìn)行分析。另一種是R*C表中的分組變量是無序的, 而指標(biāo)變量是有序的, 研究目的通常是多個(gè) 等級資料的比較, 可用

32、秩和檢驗(yàn)或 Ridit 分析。雙向有序?qū)傩孕瓮?R*C 表:兩個(gè)分類變量皆為有序且屬性相同,研究目的通常是分析兩種檢測方法的一致性,此時(shí)宜用 一致性檢驗(yàn)(或稱 Kappa 檢驗(yàn));也可用特殊模型分析方法。雙向有序?qū)傩圆煌?R*C 表:兩分類變量皆為有序的,但屬性不同,對于該資料:如果研究目的是分析不同年齡組患者療效見有無差別,可把它視為單向有序的 R*C 表資料,選用秩和檢驗(yàn); 如果研究目的是分析兩個(gè)有序分類變量間是否存在相關(guān)關(guān)系, 可以用等級相關(guān)分析或 Pearson積矩相關(guān)分析;如果研究目的是分析兩個(gè)有序分類變量是否存在線性變化趨勢,可以用有序分組資料的線性趨勢檢驗(yàn)。非參數(shù)檢驗(yàn)非參數(shù)檢

33、驗(yàn)的統(tǒng)計(jì)推斷基礎(chǔ)是比較分布而不是比較參數(shù), 所以不必考慮被研究對象的為何種分布以及分布是否已知。 在實(shí)際工作中, 對符合參數(shù)檢驗(yàn)應(yīng)用條件的資料, 或經(jīng)變量變換后符合參數(shù)檢驗(yàn)應(yīng)用條件的資料應(yīng)首選參數(shù)檢驗(yàn); 而不能滿足參數(shù)檢驗(yàn)應(yīng)用條件的資料, 應(yīng)選用非參數(shù)檢驗(yàn)。主要選擇編秩的方法,比較統(tǒng)計(jì)變量 T,而做出統(tǒng)計(jì)推斷。直線回歸與相關(guān)分析1、直線相關(guān):如果兩個(gè)隨機(jī)變量中,當(dāng)其中的一個(gè)變量由大到小的變化時(shí),另一個(gè)變量也相應(yīng)的由大到?。ê笥尚〉酱螅┑淖兓⑶蚁鄳?yīng)變化的散點(diǎn)圖在直角坐標(biāo)系呈現(xiàn)直線趨勢,則稱這兩個(gè)隨機(jī)變量存在直線相關(guān)。相關(guān)分析是研究變量和變量集合之間數(shù)量協(xié)同變化關(guān)系的密切程度和方向的統(tǒng)計(jì)方法。

34、要求:兩個(gè)變量X 和 Y 都服從正態(tài)分布,嚴(yán)格說應(yīng)服從雙變量正態(tài)分布。直線相關(guān)系數(shù):用于說明具有直線相關(guān)關(guān)系的兩個(gè)變量間的相關(guān)關(guān)系的密切程度和相關(guān)方向;亦稱積差相關(guān)系數(shù),總體的為,樣本的為。x和y的協(xié)方差( xx)( yy)l xy(的方差)( 的方差)( xx)2( yy)2l xx l yyxy的取值在 -1,1 之間。其意義如下:若0 則 X 與 Y 存在直線相關(guān)關(guān)系;0 為正相關(guān);0 為負(fù)相關(guān);越大,說明兩變量間的相關(guān)關(guān)系越密切;越小,說明兩變量間的相關(guān)關(guān)系越不密切;若1為完全相關(guān);若0 ,則X 和Y 不存在相關(guān)關(guān)系。 01 表示存在不同程度的線性相關(guān)關(guān)系:00.4 為低度線性相關(guān);0

35、.40.7 為顯著線性相關(guān);0.71 為高度顯著線性相關(guān)。相關(guān)分析的步驟 :(在 X 與 Y 均服從雙變量正態(tài)分布的情況下)繪制散點(diǎn)圖 :呈線性趨勢,計(jì)算相關(guān)性;呈曲線趨勢,進(jìn)行曲線擬合;無任何趨勢,不必分析。根據(jù)上述公式計(jì)算的值;相關(guān)系數(shù)的假設(shè)檢驗(yàn),由于抽樣誤差的存在,判斷是否來自0 的總體,常用 t 檢驗(yàn),公式:t0n2(或直接查 t 界值表)s12 n 2總體相關(guān)系數(shù)的區(qū)間估計(jì):當(dāng)0時(shí),從這樣的總體中抽樣,計(jì)算出的不服從正態(tài)分布,而進(jìn)行反正切變換后,n 較大時(shí), Z 近似服從均數(shù)為Z,方差為21的正態(tài)分布。n31(1 )2z1則 Z 的可信區(qū)間為(u(n 3) ,u(n 3) ),對其進(jìn)

36、行e2ln2z1e1的變換,可以得出的可信區(qū)間。直線相關(guān)分析的注意事項(xiàng): 算相關(guān)系數(shù)時(shí)首先繪制散點(diǎn)圖,判斷兩變量是否存在線性趨勢;相關(guān)分析時(shí)要求X 、Y 均為隨機(jī)變量,而不能用于事先界定X 、Y 的資料;相關(guān)分析時(shí)必須剔除異常點(diǎn);相關(guān)分析要有實(shí)際意義,兩變量相關(guān),并不一定存在聯(lián)系,可能是另外一種因素引起的;分層資料不宜盲目的合并, 進(jìn)行相關(guān)分析; 同時(shí)進(jìn)行相關(guān)分析時(shí), 如果不能確定各層研究對象具有同質(zhì)基礎(chǔ),不宜盲目合并。不能將假設(shè)檢驗(yàn)中 顯著性大小 理解為兩變量 相關(guān)程度的 大小,后者是由相關(guān)系數(shù)的大小決定的。2、等級相關(guān):適用于不服從雙變量正態(tài)分布或總體分布未知的資料,還可用于等級資料的相關(guān)

37、分析。等級相關(guān)系數(shù)表示兩個(gè)變量間相關(guān)系數(shù)的密切程度與相關(guān)方向。s基本思想:對于不符合正態(tài)分布的資料或等級資料, 將兩個(gè)變量的原始觀察值分別由小到大編秩,然后利用量變量的秩次計(jì)算相關(guān)系數(shù)。3、直線回歸:處理兩個(gè)變量間線性數(shù)量依存關(guān)系的一種統(tǒng)計(jì)分析方法。?為應(yīng)變量, 給定 x 的 y 的條件均數(shù)的估計(jì)值; b 為回歸斜率, 表示回歸方程為: y a bxy當(dāng)自變量 x 每變化 1 個(gè)單位時(shí),應(yīng)變量y 平均變化 b 個(gè)單位; a 為截距,表示沒有自變量x 時(shí)其他因素對 y 的平均影響。線性回歸模型的前提條件:線性:應(yīng)變量 y 的總體均數(shù)與自變量 x 呈線性關(guān)系;因此進(jìn)行回歸分析前應(yīng)先繪制散點(diǎn)圖;獨(dú)立

38、:任意兩個(gè)觀察單位之間相互獨(dú)立;正態(tài)性:對任意給定 x 的值, y 均服從正態(tài)分布;該分布的均數(shù)是回歸直線上與 x 值相對應(yīng)的那點(diǎn)的縱坐標(biāo);等方差:自變量x 的取值范圍內(nèi),不論x 取什么值, y 都具有相同的方差。直線回歸分析的步驟 :繪制散點(diǎn)圖,通過觀察散點(diǎn)的形態(tài)來判斷線性假設(shè)是否成立;建立直線回歸方程,即求出回歸參數(shù)a 和 b;通常用最小二乘法估計(jì)參數(shù),即要求殘差平方和達(dá)到最??;nbi 1( xi x)( yi y)l xyl xxx2(x) 2nl xxn( xi x) 2i 1a ybxl xy(x)( y)xyn繪制回歸線;注意:不應(yīng)超過x 的實(shí)測值范圍;所繪制的直線必然通過( x

39、, y );直線的左端延長與縱軸的焦點(diǎn)必然是截距a?;貧w方程的假設(shè)檢驗(yàn):檢驗(yàn)方法有方差分析和t 檢驗(yàn)方差分析:基本思想:將應(yīng)變量y 的總變異 SS 總 分解成 SS 回歸 和 SS 剩余 兩部分,然后利用 F檢驗(yàn)來判斷回歸方程是否成立。任意一點(diǎn) P(x,y)的縱坐標(biāo)被回歸直線與均數(shù)y 截成 3 段:三部分的變異可以表示為:( y y)2=?2+? 2( y y)( y y)即 SS 總=SS 回歸 +SS 剩余各部分的意義:SS 總 :即 l yy =( yy) 2 ,為 y 的總離均差平方和,反映未考慮x 和 y 的回歸關(guān)系時(shí)的 y 的變異;SS回歸:即?y)2,稱回歸平方和,反映在y的總變

40、異中,由于x和y的直線關(guān)系而使y( y變異減小的部分,即在總變異中可以用x 解釋的部分; SS 回歸 越大,說明回歸效果越好,即 SS總 中可用 X 與 Y 線性關(guān)系解釋的變異越多。SS剩余:即( y? 2,殘差平方和或剩余平方和, 反映x和y的線性影響之外的一切因素對yy)的變異的作用,即在總變異中無法用 x 解釋的部分。該部分越小說明直線回歸的估計(jì)值誤差越小;各部分的自由度為:總 =回歸+ 剩余總 =n-1, 回歸 =1, 剩余 =n-2各部分變異的計(jì)算公式為:SS總=( yy)2 = y 2(y) 2統(tǒng)計(jì)量 F 的計(jì)算公式: Fn2l xySS回歸bl xyl xxSS剩余 =SS 總

41、-SS 回歸SS回歸回歸MS回歸SS剩余剩余MS剩余回歸系數(shù)的 t 檢驗(yàn):基本思想:通過樣本回歸系數(shù) b 與總體均數(shù)回歸系數(shù)進(jìn)行比較來判斷回歸方程是否成立。有關(guān)公式如下:t bb;n 2 ; sbsXY; sXYMS剩余sbl xxsXY 為剩余標(biāo)準(zhǔn)差,是指扣除了x 因變量線性影響后離散程度。擬合效果評價(jià): 回歸模型的擬合優(yōu)度假設(shè)檢驗(yàn),檢驗(yàn)回歸方程對樣本數(shù)據(jù)的擬合程度。決定22( y?y)系數(shù) R表示, R( yy)22SS回歸222RSS總Rr總體回歸系數(shù)的區(qū)間估計(jì): ( b t.sb , b t.sb ),n 2,n 222回歸方程的應(yīng)用:利用回歸方程進(jìn)行預(yù)報(bào);統(tǒng)計(jì)控制。直線回歸分析的注意

42、事項(xiàng): 回歸分析要有實(shí)際意義, 注意變量之間的內(nèi)在聯(lián)系和規(guī)律, 兩變量之間還必須是因果關(guān)系; 對資料的要求:一般 y 來自正態(tài)總體的隨機(jī)變量, x 可以是正態(tài)總體的隨機(jī)變量,也可以是精確測量和嚴(yán)密控制的值; 進(jìn)行分析前應(yīng)先繪制散點(diǎn)圖; 必須剔除一些異常點(diǎn); 回歸方程的適用范圍不能隨意外延。其適用范圍一般以自變量取值范圍為界。直線相關(guān)和回歸的區(qū)別與聯(lián)系:區(qū)別:資料的要求不同:相關(guān)要求兩個(gè)變量呈雙變量正態(tài)分布;回歸要求 y 服從正態(tài)分布,而 x 可以是精確測量和嚴(yán)格控制的變量;統(tǒng)計(jì)意義不同: 相關(guān)反映的是兩變量間的伴隨關(guān)系, 二者的關(guān)聯(lián)程度如何, 而回歸反映的是兩變量間的依存關(guān)系,即因果關(guān)系,或從屬關(guān)系;分析的目的不同: 相關(guān)分析的目的是描述兩個(gè)變量間的相互關(guān)系,用 r 來反映這種關(guān)系的方向以及密切程度, 而回歸分析的目的是描述兩個(gè)變量間的數(shù)量依存關(guān)系,從而進(jìn)行統(tǒng)計(jì)預(yù)測和統(tǒng)計(jì)控制;聯(lián)系:對于同一資料, r 和 b 的符號(hào)一致

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論