




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計學(xué)的基本步驟和基本概念橫斷面研究病例對照研究隊列研究動物實驗臨床試驗社區(qū)干預(yù)試驗1、統(tǒng)計學(xué)的基本步驟:①研究設(shè)計;②收集資料;③整理資料;④分析資料;⑤對分析結(jié)果的正確解釋和表達(dá)。橫斷面研究病例對照研究隊列研究動物實驗臨床試驗社區(qū)干預(yù)試驗1觀察性研究一J統(tǒng)計設(shè)計一-實驗性研究―「統(tǒng)計描述:運用統(tǒng)計學(xué)指標(biāo)對數(shù)據(jù)特征及其分布規(guī)律進(jìn)行客觀描述和表達(dá)統(tǒng)計分析T統(tǒng)計推斷:在一定的可信程度或概率保證下,根據(jù)樣本信息推斷總體特征L集中趨勢:L集中趨勢:L統(tǒng)計描述L離散程度:定量資料1「參數(shù)估計:L統(tǒng)計推斷TL假設(shè)檢驗:方差、標(biāo)準(zhǔn)差、極差、四分位間距、變異系數(shù)均數(shù)的標(biāo)準(zhǔn)誤、總體均數(shù)的置信區(qū)間t檢驗、管檢驗、方差分析、秩和檢驗統(tǒng)計描述:率、構(gòu)成比、相對比定性資料T一統(tǒng)計推斷:X2檢驗、秩和檢驗、二項分布、Poission分布2、總體和樣本:總體:是根據(jù)研究目的所確定的所有同質(zhì)觀察單位某種觀察值(變量值)的集合。樣本:從研究總體中抽取的一部分滿足代表性的個體觀察值所組成的集合稱為樣本,樣本包含的觀察單位數(shù)稱為樣本含量或樣本大小。3、參數(shù)和統(tǒng)計量:參數(shù):描述總體分布特征的指標(biāo),總體均數(shù)U、總體標(biāo)準(zhǔn)差。、總體率n統(tǒng)計量:根據(jù)樣本算得的某些數(shù)值特征,樣本均數(shù)X、樣本標(biāo)準(zhǔn)差S、樣本率p4、變量和資料變量:是觀察單位的某種特征或?qū)傩?,變量的觀測值就是所謂的變量值。5、隨機(jī)誤差和系統(tǒng)誤差誤差:泛指實測值與真實值之差,一般可分為隨機(jī)誤差和非隨機(jī)誤差。隨機(jī)誤差:即抽樣誤差,由于隨機(jī)抽樣造成的實測值與真實值之差。是不可避免的,但一般服從正態(tài)分布,可以通過統(tǒng)計學(xué)方法進(jìn)行分析。系統(tǒng)誤差:最常見的非隨機(jī)誤差,指實測值系統(tǒng)偏離真實值、具有方向性的誤差。6、概率、頻率和小概率事件頻率:若用隨機(jī)事件A發(fā)生表示觀察到某個可能的結(jié)果,在n次隨機(jī)試驗中,隨機(jī)事件A發(fā)生了m次,則稱A發(fā)生的比例f=m/n為頻率,醫(yī)學(xué)上所說的患病率、病死率等都是頻率。概率:描述事件發(fā)生可能性大小的一個度量。小概率事件:當(dāng)某事件發(fā)生的概率小于或等于0.05時,統(tǒng)計學(xué)習(xí)慣上稱該事件為小概率事件。7、同質(zhì)性和個體變異同質(zhì)性:通常指研究對象在一定范疇內(nèi)的各種可能影響主要觀察指標(biāo)的其他因素處于相同或非常相似的情況。個體變異:同質(zhì)個體中同一觀察指標(biāo)的個體觀察值之間的差異稱為該觀察指標(biāo)的個體變異。調(diào)查研究設(shè)計1、調(diào)查研究及其特點調(diào)查研究:又稱觀察性研究,指研究者在研究中沒有施加任何干預(yù)措施,僅客觀地觀察和記錄研究對象的現(xiàn)狀及其相關(guān)特征的研究。特點:①研究過程中沒有人為施加的干預(yù)措施,研究事物或現(xiàn)象及其相關(guān)特征(包括研究因素和非研究因素)是客觀存在的;②不能將研究因素隨機(jī)地分配到研究對象中,也不能用隨機(jī)化分組來平衡非研究因素對調(diào)查結(jié)果的影響。2、調(diào)查研究設(shè)計的基本內(nèi)容:①明確調(diào)查目的和指標(biāo);②確定調(diào)查對象和觀察單位;③確定調(diào)查方法;④確定調(diào)查方式;⑤確定調(diào)查項目和調(diào)查表;⑥制定資料整理分析計劃;⑦制定調(diào)查的組織計劃。3、調(diào)查設(shè)計的常用抽樣方法及其優(yōu)缺點普查:即調(diào)查目標(biāo)總體中全部觀察對象。優(yōu):理論上沒有抽樣誤差,可以直接得到總體參數(shù)。缺:成本較高。抽樣調(diào)查:即從總體中抽取一定數(shù)量的觀察單位組成樣本,對樣本進(jìn)行調(diào)查。分為概率抽樣和非概率抽樣。優(yōu):節(jié)省調(diào)查成本,有助于獲得較為深入、細(xì)致和準(zhǔn)確的資料。缺:樣本推斷總體時存在抽樣誤差。概率抽樣:是指總體中觀察單位被抽中的概率是已知的或可以計算的。優(yōu):總體代表性較好,可以計算抽樣誤差,可以對總體進(jìn)行統(tǒng)計推斷。缺點或前提:目標(biāo)總體和抽樣框架明確。非概率抽樣:是指總計中每個觀察單位被抽中的概率是已知或不能計算的。抽樣方法定義優(yōu)點缺點概率抽樣單純隨機(jī)抽樣按等概率原則直接從含有N個觀察單位的總體中抽取n個觀察單位組成樣本均數(shù)(或率)及標(biāo)準(zhǔn)誤的計算簡單當(dāng)總體觀察單位較多時,要對觀察單位一一編號,比較麻煩系統(tǒng)抽樣先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機(jī)抽取第k號觀察單位,依次用相等間距,從每一部分各抽取一個觀察單位組成樣本①易于理解,簡單易行;②容易得到一個按比例分配的樣本;③樣本的觀察單位在總體中分布均勻,其抽樣誤差一般小于單純隨機(jī)誤差。①當(dāng)總體中觀察單位按順序有周期趨勢或單調(diào)增(或減)趨勢時,將產(chǎn)生明顯的偏性;②實際中按單純隨機(jī)抽樣方法估計誤差會一般偏大。分層抽樣按對主要研究指標(biāo)影響較大的某種特征,將總體分為若干類別,再從每一層內(nèi)隨機(jī)抽取一定數(shù)量的觀察單位組成樣本①減少抽樣誤差;②便于不同的層采用不同的抽樣方法,有利于調(diào)查組織工作的實施;③還可對不同層進(jìn)行獨立分析。要求層內(nèi)差異較小整群抽樣將總體按照某種與主要研究指標(biāo)無關(guān)的特征劃分為K個“群”,每個群包含若干觀察單位,再隨機(jī)抽取k個“群”,由抽取的各個群的全部觀察單位組成樣本便于組織,節(jié)省經(jīng)費,容易控制調(diào)查質(zhì)量當(dāng)樣本含量一定時,其抽樣誤差一般大于單純隨機(jī)誤差(因為樣本觀察單位未能廣泛地散布在總體中)非概率抽樣偶遇抽樣研究者根據(jù)現(xiàn)實情況,抽取偶然遇到的人或選擇那些距離最近的、最容易找到的人作為調(diào)查對象簡單易行結(jié)果對總體代表性差立意抽樣調(diào)查者根據(jù)研究目的分析判斷來選擇調(diào)查對象對研究者要求較高
定額抽樣研究者首先依據(jù)那些可能影響研究指標(biāo)的各種因素對總體進(jìn)行分層,并確定各層樣本占總體比例,再在各層中抽取樣本樣本代表性存在一定問題,選擇性偏倚較大雪球抽樣當(dāng)無法了解總體情況時,可以從總體中少數(shù)成員入手,對他們進(jìn)行調(diào)查,并請他們介紹所認(rèn)識的其他符合條件的人,再去找那些人進(jìn)行調(diào)查,如此重復(fù),直到達(dá)到所需的樣本含量常用于缺少抽樣框架、目標(biāo)總體不明、采用其他方法難以找到調(diào)查對象的情形4、調(diào)查問題安排順序總原則:①符合邏輯;②一般問題在前,特殊問題在后;③易答題在前,難答題在后;④如果采用封閉式和開放式相結(jié)合的問題,一般先設(shè)置封閉式問題;⑤敏感問題一般放在最后。5、信度和效度效度:又稱真實性或準(zhǔn)確性,用以反映測量結(jié)果與“真實值”的接近程度。定量觀察:通常用兩者的相關(guān)系數(shù)「來描述標(biāo)準(zhǔn)效度。定性或半定量觀察:Kappa系數(shù)描述兩個測量手段或結(jié)果的一致性。信度:又稱可靠信、重復(fù)性、穩(wěn)定性或精密度,用以反映相同條件下重復(fù)測定結(jié)果的一致程度。重復(fù)測量法:組內(nèi)相關(guān)系數(shù)ICC評價信度高低。ICC=/,廠MLMS為組間(研究對象間)均方,MS為組內(nèi)(誤差)均方,n為重復(fù)測量次數(shù)。一般MS-(n-1)MS A eA e認(rèn)為ICCN0.75,說明測量結(jié)果的可重復(fù)性較好。實驗研究設(shè)計1、實驗設(shè)計的3個基本原則和3個基本元素:對照、隨機(jī)化、重復(fù),受試對象、處理因素、實驗效應(yīng)。2、對照形式主要有:空白對照、安慰劑對照、標(biāo)準(zhǔn)對照、實驗對照、自身對照、相互對照。3、常用的實驗設(shè)計類型及其優(yōu)缺點:類型設(shè)計優(yōu)點缺點完全隨機(jī)設(shè)計單因素兩水平或多水平效應(yīng)設(shè)計簡單,易于實施,出現(xiàn)缺失數(shù)據(jù)時仍可進(jìn)行統(tǒng)計分析小樣本時,均衡性可能較差,與隨機(jī)區(qū)組設(shè)計相比,一般效率較低配對設(shè)計受試對象按配對因素相同或相近配成對子可增強(qiáng)處理組間的均衡性,效率較高配對條件不易嚴(yán)格控制隨機(jī)區(qū)組設(shè)計受試對象按性質(zhì)相同或相近分為b個區(qū)組,每個區(qū)組中的k個受試對象分配到k個處理組處理組之間的均衡性較好;更容易揭示處理之間的差別,效率較高非處理因素(配伍條件)不易控制交叉設(shè)計按事先設(shè)計好的實驗次序,在各個時期對受試對象先后實施各種處理①節(jié)約樣本含量;②能夠控制個體差異和時間差異對處理因素的影響,故效率較高;③在臨床試驗中,均等地考慮了每個患者的利益。①每個處理的持續(xù)時間不能太長;②當(dāng)受試對象的狀態(tài)發(fā)生根本變化時,例死亡等,后一階段的處理將無法進(jìn)行;③受試對象一旦在某一階段退出試驗,就會造成該階段及其以后的數(shù)據(jù)缺失析因設(shè)計兩個或多個處理因素的各水平進(jìn)行組合,對所有可能的組合中安排多個實驗對象進(jìn)行實驗可以均衡地對各因素的不同水平進(jìn)行全面組合,以最小的實驗次數(shù)探討各因素不同水平的效應(yīng),同時可獲得各因素間的交互作用,通過比較還能需求最佳組合工作量較大,析因設(shè)計的處理數(shù)等于各因素水平數(shù)的乘積,其統(tǒng)計分析不但計算復(fù)雜,而且給眾多交互作用的解釋帶來困難定量資料的統(tǒng)計描述1、頻數(shù)表和頻數(shù)圖的制作及用途:頻數(shù)表的制作:(1)求全距R,R二最大值-最小值;(2)劃組段:①定組數(shù),以8-15組為宜;②定組距:組距二R/組數(shù),可適當(dāng)取整;③定上下限:起點為下限,終點為上限,組囹下閉,上開),一般寫下限,最后上下全。(3)統(tǒng)計頻數(shù)和頻率制作頻數(shù)表。頻數(shù)表和頻數(shù)的用途:①揭示頻數(shù)的分布特征:集中趨勢和離散趨勢;②揭示頻數(shù)的分布類型:對稱分布和偏態(tài)分布,集中偏小為正偏,集中偏大為負(fù)偏;③可以發(fā)現(xiàn)某些特大或特小的可疑值,提示檢查核對。
2、頻數(shù)分布特征的描述指標(biāo)及其適用條件:*對于經(jīng)對數(shù)變換后呈正態(tài)分布或近似正態(tài)分布的資料,應(yīng)將原始觀察值取對數(shù)值后計算幾何標(biāo)準(zhǔn)差。分布特征指標(biāo)計算公式適用條件集中趨勢平均數(shù)X£x①原始資料:X=F =- 2 nn nZfX-fX+fX+■--fX ii②頻數(shù)表資料:X=,11,22一昔f=——于1+于2ifk Zfi單峰對稱分布資料,特別是正態(tài)分布或近似正態(tài)分布幾何均數(shù)G①原始資料:G=nX1x2x3…x1 1 1 ZlgX或G=lg-1(lgX1+gX2+…gX”)=lg_1( L)n n②頻數(shù)表資料:ZflgXflgX+flgX+ flgX 1 1G=lg-1('161,2:2 Jk&k)=lg-1(^-——)于1+于2+…f Zfi①正偏態(tài)分布資料,經(jīng)過對數(shù)變換呈正態(tài)分布或近似正態(tài)分布;②觀察值間呈倍數(shù)關(guān)系或近似倍數(shù)關(guān)系;③變量值中不能有0和負(fù)數(shù),可適當(dāng)加上一個正數(shù);中位數(shù)M①原始資料:M—X^,當(dāng)「為奇數(shù)時;2M=(X+X)/2,當(dāng)n為偶數(shù)時n n+12 2②頻數(shù)表資料:M=L+3(nx50%-Zf)Mf LMLM為中位數(shù)所在組段的下限;i為組距;fM為中位數(shù)所在組段的頻數(shù);ZfL為中位數(shù)所在組段前一組的累計頻數(shù)。不對稱分布的資料,兩端無確切值或分布不明確的資料離散趨勢極差RR二最大值-最小值單峰對稱分布小樣本資料四分位間距Q-QU LQ-Q=P-PP=L+—(nx%-Zf)U L75 25xxf LxLx為第x百分位數(shù)所在組段下限,i為第x百分位數(shù)所在組段的組距,fx為第x百分位數(shù)所在組段的頻數(shù),ZfL為第x百分位數(shù)所在組段前一組的累計頻數(shù)偏態(tài)分布資料、兩端無確切值或分布不明確資料方差S2V _ v (Zx"乙(X-X)2乙X2-*1'i i n①原女□資料:S2—I ■ —I -n-1 n一1丁 (ZfX)2ZfX2 ? n②頻數(shù)表資料:S2— n-1單峰對稱分布資料標(biāo)準(zhǔn)差S變異系數(shù)CVSCV—之x100%X比較計量單位不同或均數(shù)相差懸殊的幾組資料的離散程度3、正態(tài)分布及其應(yīng)用:概率密度曲線和正態(tài)分布曲線:對于變量的頻數(shù)分布滿足中間多,兩邊少,且左右對稱的資料,以觀察變量(組距)為橫軸,頻率密度(頻率密度二頻率/組距)為縱軸,即可得到頻率密度直方圖,當(dāng)觀察單位逐漸增加,組段一8,頻率分布圖中的直條逐漸變窄,就會逐漸形成一條高峰位于中央(均數(shù)所在處)、兩側(cè)逐漸降低且左右對稱、不與橫軸相交的光滑曲線,即概率密度曲線,近似于數(shù)學(xué)上的正態(tài)分布曲線。若變量X的頻率曲線逼近數(shù)學(xué)上的正態(tài)分布曲線,則稱該變量服從正態(tài)分布。正態(tài)分布曲線的密度函數(shù)為:1 (一一||)2f(x)=-^e-2a2-8<x<+8(日為總體均數(shù),o為總體標(biāo)準(zhǔn)差,n為圓周率,e為自然對數(shù)的底)八;2兀特點:①正態(tài)曲線在橫軸上方均數(shù)處最高;②正態(tài)分布以均數(shù)為中心,左右對稱;③正態(tài)分布有兩個參數(shù),即均數(shù)N與標(biāo)準(zhǔn)差o,N決定位置,o決定“胖瘦”③正態(tài)曲線在±1o處各有一個拐點;④正態(tài)曲線下的面積分布有一定的規(guī)律:X土1.645S-90%,X土1.96S-95%,X土2.58S-99%。令若X服從正態(tài)分布N(日,o2),經(jīng)Z=X二艮變換后,則Z就服從均數(shù)為0,標(biāo)準(zhǔn)差為1的xo1 」正態(tài)分布N(0,1),稱為標(biāo)準(zhǔn)正態(tài)分布或Z分布,其密度函數(shù)為:奴z)=^=e2,-oo<z<+oo。兀?正態(tài)分布的應(yīng)用:(1)估計總體變量值的頻率分布D:①(zx)可通過查附表2(Z分布界值表)獲得。D=①(z)-①(z)Z=上E(可用樣本均數(shù)X和樣本標(biāo)準(zhǔn)差S作為總體均數(shù)目和總體標(biāo)準(zhǔn)差o的估計值)1 2 o(2)制定醫(yī)學(xué)參考值范圍:醫(yī)學(xué)參考值范圍指包括絕大多數(shù)正常人的人體形態(tài)、功能和代謝產(chǎn)物等各種生理及生化指標(biāo)觀察值的波動范圍。制定步驟及注意事項:①確定觀察對象和抽取足夠的觀察單位;②測定方法統(tǒng)一、準(zhǔn)確;③決定是否分組制定參考值范圍;④確定取雙側(cè)或單側(cè)參考值范圍;⑤選定適當(dāng)?shù)陌俜纸缦?⑥選擇制定醫(yī)學(xué)參考值范圍的方法:部分指標(biāo)服從對數(shù)正態(tài)分布,對觀察值取對數(shù)后計算其對數(shù)值的均數(shù)和標(biāo)準(zhǔn)差,按正態(tài)分布法算出醫(yī)學(xué)參考值范圍的對數(shù)值,然后取反對數(shù)求其真數(shù)。百分界限(%)正態(tài)分布法百分位數(shù)法雙側(cè)單側(cè)雙側(cè)單側(cè)只有下下艮只有上限只有下限只有上限95X±1.96S叉-1.64S叉+1.64SP?P 2.5 92.5—P 5 P 95 99X±2.58SN-2.32SN+2.32SP?P 0^ 99^—P 1 P 99
總體均數(shù)的估計1、1、??抽樣誤差:這種由個體變異產(chǎn)生的、隨機(jī)抽樣引起的樣本統(tǒng)計量與總體參數(shù)間的差異稱為抽樣誤差。均數(shù)的標(biāo)準(zhǔn)誤:由于隨機(jī)抽樣所造成的樣本均數(shù)與總體均數(shù)的差別,即為樣本均數(shù)的抽樣誤差。樣本均數(shù)的標(biāo)準(zhǔn)差稱為均數(shù)的標(biāo)準(zhǔn)誤(SEM),用符號外表示,它說明各樣本均數(shù)又圍繞總體均數(shù)u的離散程度,可用來描O述樣本均數(shù)的抽樣誤差大小。°X=茴在抽樣研究中,總體標(biāo)準(zhǔn)差。常常未知,常用樣本標(biāo)準(zhǔn)差s作為。的估計值,因而得到均數(shù)標(biāo)準(zhǔn)誤的估計值為,-……cS其計算公式為:S-=「=xme根據(jù)數(shù)理統(tǒng)計的中心極限定理:從均數(shù)為u,標(biāo)準(zhǔn)差為。的正態(tài)總體中進(jìn)行獨立隨機(jī)抽樣,其樣本均數(shù)服從均數(shù)為u,標(biāo)準(zhǔn)差為。/后的正態(tài)分布;即使是從非正態(tài)總體(均數(shù)為小標(biāo)準(zhǔn)差為Q中進(jìn)行獨立隨機(jī)抽樣,當(dāng)樣本含量逐漸增大(nN50)時,其樣本均數(shù)的分布逐漸逼近與均數(shù)為u,標(biāo)準(zhǔn)差為。/石的正態(tài)分布。e標(biāo)準(zhǔn)差與均數(shù)的標(biāo)準(zhǔn)誤的區(qū)別于聯(lián)系:標(biāo)準(zhǔn)差均數(shù)的標(biāo)準(zhǔn)誤區(qū)別統(tǒng)計符號總體標(biāo)準(zhǔn)差用。表示,樣本標(biāo)準(zhǔn)差用S表示均數(shù)的標(biāo)準(zhǔn)誤用與表示,其估計值用L表示計算公式s=jE(x-.)2n—1=木統(tǒng)計學(xué)意義標(biāo)準(zhǔn)差越小,個體值分布相對越集中,樣本均數(shù)對數(shù)據(jù)的代表性越好標(biāo)準(zhǔn)誤越小,樣本均數(shù)的分布越集中,樣本均數(shù)與總體均數(shù)的差別越小,抽樣誤差越小,的本均數(shù)估計總體均數(shù)的可靠性越大用途描述個體值的變異程度描述均數(shù)的抽樣誤差大小聯(lián)系S-X=92、t分布產(chǎn)生、特征?t分布的產(chǎn)生:從正態(tài)總體中隨機(jī)抽取的樣本的均數(shù)又服從總體均數(shù)為u、總體標(biāo)準(zhǔn)差為2的正態(tài)分布。經(jīng)過Z變換,正態(tài)分布N(u,哆)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布N(0,1),即Z分布。由于實際研究工作中,為未知常見,一一S .、一..X-U只能以為代替支,而S-=r中S會因為樣本不同而不盡相同,即S9有變異,故一^不再服從標(biāo)準(zhǔn)正態(tài)分XXX7n x S-x布,而服從t分布,即:Z=——止-Z=——止—t=..=X_匕#=n-1° °X Sq S/<'n?t分布特征:①t分布是一簇單峰分布曲線。②t分布以t=0為中心,左右對稱且均勻下降。③其形態(tài)變化與自由度v的大小有關(guān)。自由度丫越小,則t值越分散,曲線越低平;自由度/逐漸增大時,t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)v=8時,t分布即為標(biāo)準(zhǔn)正態(tài)分布。3、總體均數(shù)的估計:點估計用樣本統(tǒng)計量直接作為總體參數(shù)的估計值。區(qū)間估計是給出被估計參數(shù)的可能范圍。e區(qū)間估計:是指按照一定的概率(1-a),估計總體參數(shù)所在的范圍,這個范圍稱為參數(shù)的置信區(qū)間,概率(1-a)稱為置信度。?總體均數(shù)置信區(qū)間的估計:總體均數(shù)口的雙側(cè)(1-a)置信區(qū)間的計算公式為:P(-1 <t<t)—1-a—pP(-1 < 上<t)—1-a—>X-1s-<曰<X+1s-a/2,v a/2,v a/2,vS/n a/2,v a/2,vX a/2,vX其余計算同下表。?兩總體均數(shù)差值的置信區(qū)間:假設(shè)兩正態(tài)總體分布服從正態(tài)分布NQ1,4)和NQ2,吟),當(dāng)呼,吟均已知,但嚀一時,兩總體均數(shù)之差%”的雙側(cè)(2置信區(qū)間為:(*「*J土%.Sq,一x2其中t值的自由度丫=(『1)+(4-1)=%+4-2,Sy均稱為兩均數(shù)之差的標(biāo)準(zhǔn)誤。s J心(n-1)S2+(n-1)S2S=:S2(1)S2=1123-x1-x2\cnnc (n+n-2)1 1 1 2S2S當(dāng)n,n均較大時,差值的可信區(qū)間為:(X一X)±zL+H2 1 2 a/2,v丫nn?置信區(qū)間的含義:總體均數(shù)的95%置信區(qū)間的含義是從正態(tài)總體中重復(fù)100此抽樣,每次樣本含量為n,每個樣本均按攵±t-,Sy計算95%置信區(qū)間,則在這100個置信區(qū)間中,理論上有95個置信區(qū)間包含了總體均U.U5/2,VX數(shù)(估計正確),而有5個置信區(qū)間未包含總體均數(shù)(估計錯誤),即犯錯誤的概率是0.05o?總體均數(shù)置信區(qū)間與醫(yī)學(xué)參考值范圍的區(qū)別:區(qū)別總體均數(shù)置信區(qū)間醫(yī)學(xué)參考值范圍意義按一定的置信度(1-a)估計總體均數(shù)所在范圍絕大多數(shù)“正常人”的某項解剖、生理、生物化學(xué)指標(biāo)的波動范圍計算公式①。未知:(X-%/2/Sn,X+%/2/9②。未知而n較大時:(另一Z/S一N+Z,S.)' a/2,uX a/2,uX③。已知:(文-Z.展,N+Z,j)? a/2,uX a/2,uX①正態(tài)分布雙側(cè),(文-Z”S,N+Za/2,a單側(cè),々-Za/2,F+8)或(-8,N+Za/2,“S)②偏態(tài)分布雙側(cè),號?P100T單側(cè),(1,+8)或(-8,P100T)用途估計總體均數(shù)所在的范圍判斷觀察對象的某項指標(biāo)正常與否,為臨床診斷提供參考假設(shè)檢驗1、假設(shè)檢驗的基本思想:在總體參數(shù)相等這一假設(shè)成立的前提下,計算出現(xiàn)等于及大于(或等于及小于)現(xiàn)有樣本統(tǒng)計量的可能性(P值)。在零假設(shè)H0成立的前提下利用小概率反證法的邏輯思維方式,先計算比現(xiàn)有樣本檢驗統(tǒng)計量以及更極端情況的可能性(P值),然后根據(jù)檢驗水準(zhǔn)進(jìn)行判斷。如果P值很小,小于或等于事先規(guī)定的檢驗水準(zhǔn)a,如0.05,結(jié)論就是拒絕零假設(shè)H0,接受Hj認(rèn)為總體參數(shù)間不同;如果P值大于a,不拒絕H。,尚不能認(rèn)為總體參數(shù)之間不同。2、假設(shè)檢驗的基本過程:①建立檢驗假設(shè),確定檢驗水準(zhǔn)a:零假設(shè)H0和備擇假設(shè)可,檢驗水準(zhǔn)注明單側(cè)或雙側(cè)。②計算檢驗統(tǒng)計量:注明自由度V。③確定P值,做出統(tǒng)計推斷。3、I型錯誤和n型錯誤:當(dāng)拒絕h0時,認(rèn)為在零假設(shè)成立的情況下,出現(xiàn)現(xiàn)在這種樣本均數(shù)以及更極端情況的概率很下(P<0.001),但是,并不是說不可能發(fā)生。如果真實的情況是H0成立,這時結(jié)論就錯了。因此,當(dāng)我們進(jìn)行假設(shè)檢驗時,無論是拒絕零假設(shè)H0,還是不拒絕零假設(shè)H0,都有可能犯錯誤。I型錯誤:統(tǒng)計學(xué)上將這種拒絕了實際上正確的零假設(shè)H0(棄真)的錯誤稱為I型錯誤,a稱為犯I型錯誤的概率。11型錯誤:統(tǒng)計學(xué)上將這種不拒絕實際上不成立的零假設(shè)h0(存?zhèn)危┧傅腻e誤稱為n型錯誤,b稱為犯n型錯誤的概率。真實情況假設(shè)檢驗的結(jié)論拒絕H0不拒絕H0H0正確I型錯誤(a)推斷正確(1-a)乩不正確推斷正確(1-B)n型錯誤(0)e當(dāng)樣本量固定時,a越小,B越大,反之,a越大,B越小。要同時減少a和B,只有通過增加樣本含量來實現(xiàn)。?檢驗效能:如果兩個總體參數(shù)間確實存在差異,即H1:uWu0成立,使用假設(shè)檢驗方法能夠發(fā)現(xiàn)這種差異(即拒絕H0)的能力稱為檢驗效能,記為(1-B)。一般要求檢驗效能應(yīng)在0.8以上。4、假設(shè)檢驗需要注意的問題:(1)數(shù)據(jù)應(yīng)該來自科學(xué)嚴(yán)密設(shè)計的實驗或調(diào)查;(2)數(shù)據(jù)應(yīng)該滿足假設(shè)檢驗方法的前提條件:①獨立性,即各觀察值間相互獨立;②正態(tài)性,即該樣本來自服從正態(tài)分布的總體。(3)正確理解假設(shè)檢驗中概率P值的含義,P值是指在H0成立的前提下,出現(xiàn)現(xiàn)有樣本統(tǒng)計量以及更極端情況的概率。P值越小,說
明當(dāng)前樣本的證據(jù)越傾向于拒絕H0,當(dāng)P值小于或等于事先規(guī)定的檢驗水準(zhǔn)a時,就拒絕H0。P值的大小不僅與總體參數(shù)間的差別有關(guān),而且與抽樣誤差大小等有關(guān),但P值大小不能得出總體參數(shù)間差別大小的結(jié)論。(4)結(jié)論不能絕對化:報告假設(shè)檢驗結(jié)果時要給出檢驗水準(zhǔn)、單雙側(cè)檢驗、樣本量大小等。(5)統(tǒng)計學(xué)意義與實際意義:有統(tǒng)計學(xué)意義存在有實際意義.、可能有實際意義.、無實際意義.:無統(tǒng)計學(xué)意義存在樣本過小和可接受零假設(shè)。t檢驗1、t檢驗的應(yīng)用條件:①要求兩樣本均來自正態(tài)分布總體;②兩樣本總體方差相等。?配對設(shè)計資料:①配對的兩個受試對象分別接受兩種不同處理之后的數(shù)據(jù),如把同年齡、同種屬、同窩別的動物配成一對;②同一樣品用兩種方法(或儀器)檢驗出的結(jié)果;③同一受試對象處理前后的測定數(shù)據(jù)。用途公式單樣本:N與從。單樣本:N與從。比較t= 0-= =0-,v=n—1s— s/<nd—0td—0t= S一d =,v=n—1成組:5與也比較X—Xt=i s成組:5與也比較X—Xt=i s X1-X2X,—X。;1 ,s2(+)
cnnX,-X2s2(n—1)+s2(n—1),1 1、-4——1 2——2 (—+—)成組:5與也比較+n2ni(ni、n2均大于5°)在進(jìn)行兩小樣本均數(shù)比較時,若兩總體方差叫w嗎,可使用t'檢驗。(S工+S上)2 XXTS?二X.4X.,■1一1 ,,2一n—1n—1正態(tài)性檢驗與方差齊性檢驗:①正態(tài)性檢驗:P-P圖、Q-Q圖和統(tǒng)計學(xué)檢驗(W檢驗、D檢驗及矩法檢驗)當(dāng)進(jìn)行矩法檢驗計算偏度系數(shù)(SKEW)和峰度系數(shù)(KURT)時,雙側(cè)1=0.10,只有當(dāng)上述兩個檢驗都不拒絕H0時,才有理由認(rèn)為總體的分布為正態(tài)分布。②兩總體的方差齊性檢驗:雙側(cè)。=0.10,P>a,不拒絕H0時,尚不能認(rèn)為兩總體方差不齊。1r S2(較大)v=n—1,v=n—1F二—t——v=n—1,v=n—1S2(較小)2方差分析方差分析的基本思想:將總變異按設(shè)計和需要分解成兩個或多個部分。用途:比較k個總體均數(shù)間差別有無統(tǒng)計學(xué)
意義。應(yīng)用條件:①各樣本是相互獨立的隨機(jī)樣本,均服從正態(tài)分布;②各樣本的總體方差相等,即滿足方差齊性。?完全隨機(jī)設(shè)計資料的方差分析:又稱單因素方差分析。完全隨機(jī)設(shè)計是將同質(zhì)的受試對象隨機(jī)地分配到各處理組,再觀察其實驗效應(yīng)。%=SS組間+SS組內(nèi),v總=v組間+v組內(nèi)變異來源SSvMSF總變異E(X—X)2N—1組間變異/n(X—X)2k—1ss組間/v組間MS組間/MS組內(nèi)組內(nèi)變異巴一SS組間N—kss組內(nèi)/v組內(nèi)
隨機(jī)區(qū)組設(shè)計資料的方差分析:屬于無重復(fù)數(shù)據(jù)的兩因素方差分析。隨機(jī)區(qū)組設(shè)計又稱配伍組設(shè)計,通常是將受試對象按性質(zhì)相同或相近者組成b個區(qū)組(又稱配伍組),再將每個區(qū)組中的受試對象分別隨機(jī)分配到卜個處理組中。SS總=SS處理+SS區(qū)組+SS誤差,%=v處理+y區(qū)組+y誤差變異來源SSvMSF總變異£(X—X)2N—1處理組zn(X—X)2k—1ss處理/v處理MS處理/MS誤差區(qū)組£n(X—X)2jjb-1ss區(qū)組/v區(qū)組MS區(qū)組/MS誤差誤差SS總一SS處理一SS區(qū)組“總 v處理 v區(qū)組SS誤差/v誤差個多個均數(shù)兩兩之間比較:SNK法(q檢驗):比較每兩個樣本均數(shù)所代表的總體均數(shù)是否不同。Dunnett-t檢驗:用于多個處理組與對照組的比較。多個均數(shù)兩兩之間比較進(jìn)行t檢驗會增大I型錯誤。交叉設(shè)計資料的方差分析:按事先設(shè)計好的實驗次序,在各個時期對受試對象先后實施各種處理。田總=非處理+SS階段+SS個體+SS誤差\「v處理+V階段+V個體+V誤差變異來源SSvMSF總變異£(X-X)22n-1處理£n處理(X處理-X)21SS處理/1MS處理/MS誤差階段£n (X -X)2階段階段1SS階段〃MS階段/MS誤差個體£n (X -X)2個體個體n—1SS個體/(n-1)MS個體/MS誤差誤差SS總-SS處理-SS階段-SS個體n—2SS誤差/(n-2)?析因設(shè)計資料的方差分析:析因設(shè)計是將兩個或多個實驗因素的各水平進(jìn)行全面組合,對各組合都進(jìn)行實驗,從而探討各實驗因素的單獨效應(yīng)、主效應(yīng)以及各因素間的交互效應(yīng)。統(tǒng)計推斷時先判斷有無交互效應(yīng),若存在交互效應(yīng)時,單純研究某個因素的作用是沒有意義的,必須在另一個因素的不同水平下研究該因素的作用大小。SS總=SS處理+SS誤差=(SS4+SSB+SSAB)+SS誤差v總=v處理+v誤差=(vA+vB+vAB)+v誤差變異來源SSvMSF總變異£(X-X)2N—1處理£n(X-X)2k-1A£n(X-X)2AA1SSA/vAMSA/MS誤差B£n(X-X)2BB1SSb/vBMSB/MS誤差A(yù)BSS處理-SSa-SSb1SSab/vBBMSAB/MS誤差誤差SS總-SS處理N-kSS誤差八誤差?重復(fù)測量資料的方差分析:重復(fù)測量資料是同一受試對象的同一觀察指標(biāo)在不同時間點上進(jìn)行多次測量所獲得的資料,常用來分析該觀察指標(biāo)在不同時間點上的變化特點。前提條件:除需滿足一般方差分析的條件外,還需特別滿足協(xié)方差陣的球形性或復(fù)合對稱性。若球?qū)ΨQ性質(zhì)不能滿足,方差分析的結(jié)果會增大I型錯誤的概率。球?qū)ΨQ性通常采用Mauchly檢驗來判斷。若PWa,從理論上講,應(yīng)對受試對象內(nèi)所有變異的自由度進(jìn)行校正,包括時間效應(yīng)、處理X時間的交互效應(yīng)以及個體內(nèi)誤差三者的自由度均需乘以G-G法或H-F法的“球?qū)ΨQ”系數(shù)0再查F界值表獲得P值。重復(fù)測量資料還可以用Mixed回歸模型分析,不要求資料滿足球形對稱性。ss總一SS受試對象間+SS受試對象內(nèi)一(SS處理+SS個體間誤差)+(SS時間+SS處理x時間+SS個體內(nèi)誤差)V總 V受試對象間+V受試對象內(nèi) "處理+V個體間誤差)+"時間+V處理X時間+V個體內(nèi)誤差)變異來源SSvMSF總變異z(X-X)2N-1受試對象間工n(X-X)2k—1處理Zn處理(X處理-X)2g—1ss處理/y處理MS處理/MS個體間誤差個體間誤差ss對象間ss處理k-gss個體間誤差/y個體間誤差受試對象內(nèi)SSjSS對象間N—k時間Zn(X -X)2時間時間P-1ss時間/'間MS時間/MS個體內(nèi)誤差處理X時間n處理X時間(X處理X時間X)(g-1)(P-1)SS處理x時間處理X時間"S處理x時間/"S個體內(nèi)誤差誤差ss對象內(nèi)s'時間s'處理x時間N—k-g(p—1)ss個體內(nèi)誤差/“個體內(nèi)誤差e隨機(jī)區(qū)組設(shè)計與完全隨機(jī)設(shè)計相比,因為通過區(qū)組控制了可能的混雜因素,并將區(qū)組變異從原組內(nèi)變異中分解出來,所以,當(dāng)區(qū)組因素有統(tǒng)計學(xué)意義時,方差分析的隨機(jī)誤差部分更為準(zhǔn)確,檢驗效能更高。e隨機(jī)區(qū)組設(shè)計和2X2析因設(shè)計雖然均為兩因素,但隨機(jī)區(qū)組設(shè)計通常為研究單因素而設(shè)計,區(qū)組因素只是一個控制因素,不能分析其交互效應(yīng);2X2析因設(shè)計為兩因素設(shè)計,可以分析兩因素間的交互作用。對析因設(shè)計資料,應(yīng)先分析交互效應(yīng)。若交互效應(yīng)有統(tǒng)計學(xué)意義,須固定某一因素的水平,逐一分析其他因素的單獨效應(yīng);反之,若交互效應(yīng)無統(tǒng)計學(xué)意義,則因素間的作用相互獨立,分析某一因素的作用只需考察該因素的主效應(yīng)。定性資料的統(tǒng)計描述1、定性資料:在醫(yī)學(xué)研究和實踐中,有一類資料是按照事物的特征或?qū)傩赃M(jìn)行分類的,這類資料稱為定性資料,也稱分類資料或計數(shù)資料。定性資料的頻數(shù)分布:定性資料頻數(shù)分布表又稱列聯(lián)表,是用兩個分類變量對同一資料進(jìn)行雙向分類形成的表,可用于考察兩種屬性的關(guān)系。常用相對數(shù)指標(biāo):(1)率:是指某現(xiàn)象實際發(fā)生數(shù)與某時間點或某時間段可能發(fā)生該現(xiàn)象的觀察單位數(shù)之比,用以說明該現(xiàn)象發(fā)生的頻率或強(qiáng)度。包括頻率和速率兩類指標(biāo)。(2)構(gòu)成比(proportion):即比例,是指事物內(nèi)部某一部分組成觀察單位數(shù)與同一事物各組成部分的觀察單位總數(shù)之比,用以說明事物內(nèi)部各組成部分所占比重。特點:①分子是分母的一部分,各組成部分的構(gòu)成比數(shù)值之和等于1或100%。②事物內(nèi)部各組成部分之間呈此消彼長關(guān)系。(3)相對比(ratio):是兩個有關(guān)聯(lián)的指標(biāo)之比值,用以說明一個指標(biāo)是另一個指標(biāo)的幾倍或幾分之幾??煞譃椋孩訇P(guān)系指標(biāo):指兩個有關(guān)的非同類事物的指標(biāo),如醫(yī)護(hù)人員與病床數(shù)之比。②對比指標(biāo):指同類事物的兩個指標(biāo)之比,以達(dá)到比較的目的。如男女性別比。
應(yīng)用相對數(shù)的注意事項:①計算相對數(shù)應(yīng)有足夠的觀察單位數(shù);②分析時不能以構(gòu)成比代替率;③應(yīng)將分子和分母分別合計求合計率;④相對數(shù)的比較應(yīng)注意其可比性;⑤樣本率或樣本構(gòu)成比的比較應(yīng)作假設(shè)檢驗;⑥某些情況下最好使用絕對數(shù):傳染病疫情描述和其他突發(fā)事件的描述。2、率的標(biāo)準(zhǔn)化:標(biāo)準(zhǔn)化法的基本思想就是采用統(tǒng)一的標(biāo)準(zhǔn)構(gòu)成,以消除年齡、性別、病情輕重及病程長短等因素構(gòu)成不同對病死率、死亡率、治愈率等的影響,使算得的標(biāo)準(zhǔn)化率具有可比性。直接法:已知被標(biāo)化組的年齡別死亡率/,時,官用直接法計算標(biāo)準(zhǔn)化率。(1)已知標(biāo)準(zhǔn)組年齡別人口數(shù)時,£Np標(biāo)準(zhǔn)化率p'=——(標(biāo)準(zhǔn)化人口N按照被標(biāo)化組的年齡別死亡率p去死)(2)已知標(biāo)準(zhǔn)組年齡別人口Nii構(gòu)成比時,標(biāo)準(zhǔn)化率p'=Z(N)p(標(biāo)準(zhǔn)組年齡別人口構(gòu)成比x被標(biāo)化組的年齡別死亡率稱為分配死亡率)Ni間接法:當(dāng)只有被標(biāo)化組的年齡別人口數(shù)勺、死亡總數(shù)廠和標(biāo)準(zhǔn)組的年齡別死亡率P時,可采用間接法。, _r_ rp'=Px£^7=PxSMR(被標(biāo)化組人口n按照標(biāo)準(zhǔn)組的年齡別死亡率P去死)£--是被標(biāo)化組的實乙nP i i乙nPii ii際死亡數(shù)與預(yù)期死亡數(shù)之比,稱為標(biāo)準(zhǔn)化死亡比(SMR)標(biāo)準(zhǔn)組的選擇:①根據(jù)研究目的選擇有代表性的、較穩(wěn)定的、數(shù)量較大的人群;②將欲比較的兩地或兩組的人口數(shù)合并作為標(biāo)準(zhǔn)組,或選擇其中一組較多的人口作為標(biāo)準(zhǔn)組。e應(yīng)用標(biāo)準(zhǔn)化法的注意事項:①標(biāo)準(zhǔn)化率并不代表真實水平,選擇的標(biāo)準(zhǔn)不同,計算出的標(biāo)準(zhǔn)化率也不相同。因此標(biāo)準(zhǔn)化率僅適用于相互間的比較,實際水平應(yīng)采用未標(biāo)化率來反映。②樣本的標(biāo)準(zhǔn)化率是樣本指標(biāo)值,亦存在抽樣誤差,若要比較其代表的總體標(biāo)準(zhǔn)化率是否不同,需作假設(shè)檢驗。③當(dāng)被標(biāo)準(zhǔn)化組各年齡段人口數(shù)太少,年齡別死亡率波動較大時,宜采用間接法。④各年齡組率若出現(xiàn)明顯交叉,或呈非平行變化趨勢時,則不適合采用標(biāo)準(zhǔn)化法,宜分層比較各年齡組率。x2檢驗殍檢驗時在X2分布的基礎(chǔ)上,利用樣本信息考察樣本頻數(shù)分布與假設(shè)成立條件下的理論頻數(shù)分布之間差異的假設(shè)檢驗方法。由于X2分布本身是一種連續(xù)型隨機(jī)變量的概率分布形式,而基于頻數(shù)算的的X2值是離散的,不可能取[0,+8)的任意值,因此,Pearson^只是近似服從8分布,只有當(dāng)樣本例數(shù)或理論頻數(shù)足夠大時,這種近似才較好,進(jìn)行8檢驗才是有效的。1、獨立樣本率或構(gòu)成比比較的X2檢驗2x2列聯(lián)表資料的X2檢驗:v=k-s—p=(R—1)(。-1)①當(dāng)n>40且所有格子的T>5時,工①當(dāng)n>40且所有格子的T>5時,工(A-T)一 T~(a+b)(c+d)(a+c)(b+d)②當(dāng)n>40且有1<T<5時,亦可使用確切概率法_ (|ad-bc\-n『2)2n _£(|②當(dāng)n>40且有1<T<5時,亦可使用確切概率法( (a+b)(c+d)(a+c)(b+d) T(a+b)!(c+d)!(a+c)!(b+d)!、③當(dāng)n<40或有T<1時,應(yīng)選擇Fisher確切概率法P= £P(guān)=1i a!b!c!d!n! ,四格表確切概率法的基本思想:在四格表周邊合計不變的條件下,利用超幾何分布直接計算發(fā)生樣本事件及比樣本事件更極端情形發(fā)生的概率。由于四格表的自由度為1,在周邊合計不變的條件下,只需依次增減樣本四格表第1個格子數(shù)據(jù),即a由小變大,即可得到各種組合的四格表,按a由小到大排列,然后依次計算出各種組合的概率尸產(chǎn)找出概率小于或等于原四格表概率的所有四格表,將其對應(yīng)的概率相加,得出雙側(cè)概率。最后,將計算出的概率與檢驗水準(zhǔn)a比較,得出結(jié)論。?RXC列聯(lián)表資料的X2檢驗:一般要求不能有1/5以上格子的T<5,或有1個格子的T<1。X2二dzDi二n(Z土一1)T nn個RXC列聯(lián)表X2檢驗注意事項:①計算X2值時,必須用絕對數(shù),而不能用相對數(shù),因為X2值的大小與頻數(shù)大小有關(guān)。②X2檢驗時要求理論頻數(shù)不宜過小,否則有可能導(dǎo)致分析的偏性。處理方法:a.最好增大樣本含量,以達(dá)到增大理論頻數(shù)的目的;b.將理論頻數(shù)大小的行或列與性質(zhì)相近的鄰行或鄰列合并,相應(yīng)的實際頻數(shù)相加,使重新計算的理論頻數(shù)增大;c.刪去理論頻數(shù)太小的格子所對應(yīng)的行或列;d.用確切概率法;③在比較各處理組的平均效應(yīng)大小是否有差別時,應(yīng)該用秩和檢驗。有序多分類變量時,X2值沒有考慮效應(yīng)的等級順序,X2檢驗只能說明各處理效應(yīng)的構(gòu)成比是否有差異。④當(dāng)多個樣本率(或構(gòu)成比)比較的X2檢驗,結(jié)論拒絕H0時,只能認(rèn)為各總體率(或總構(gòu)成比)之間總的來說有差異,但不能說明它們彼此之間都有差異,或某兩者間有差異。多個樣本率兩兩比較的方法:a.調(diào)整檢驗水準(zhǔn)后進(jìn)行兩兩比較;b.X2分割;c.估計兩率之間的置信區(qū)間。2、配對設(shè)計樣本率比較的X2檢驗:配對2X2列聯(lián)表資料的X2檢驗:當(dāng)b+c>40時,x2=(b—C)2,v=1(配對設(shè)計的X2檢驗又被稱為McNemar檢驗)b+c當(dāng)b+c<40時,x2=(b:。卜1)2,v=1(Yates校正或連續(xù)性校正)b+ce注意事項:①比較兩種診斷方法的診斷效能有無差異時,要求所投入的檢品是用標(biāo)準(zhǔn)法檢出的陽性樣品,或者受檢對象是確診的病例,以便判斷兩種方法的優(yōu)劣。a、d反映的是甲、乙兩種屬性一致的情況。②由于a、d兩個格子不能反映差異,因此,當(dāng)a、d比較大,b、c比較小時,若得到差異有統(tǒng)計學(xué)意義,需結(jié)合兩樣本率差異的大小作出專業(yè)結(jié)論。③X2檢驗的分析目的在于比較兩種方法檢出陽性率的差異,而非兩種方法檢出陽性率的一致性。若要分析檢出結(jié)果是否一致,應(yīng)進(jìn)行一致性檢驗(Kappa檢驗)配對RXR列聯(lián)表資料的X2檢驗:^R-1(n—m)2T二乙一4—,v=R-1(A為第i行第i列的實際頻數(shù),n和m分別為第,行合計和第,列合計)Rn+m-2A i iii=1iiii3、擬合優(yōu)度的北檢驗:是根據(jù)樣本的頻數(shù)分布檢驗其總體是否服從某特定的理論分布。其原理是按照該理論分布計算理論頻數(shù),利用8檢驗,推斷實際頻數(shù)與理論頻數(shù)的吻合程度。可用于判斷頻數(shù)分布是否符合正態(tài)分布、二項分布或Poisson分布等。X2=Z(A;TXV=k-S-1(k為組段數(shù),S為利用樣本統(tǒng)計量估計的總體參數(shù)個數(shù))iTe注意事項:①擬合優(yōu)度的X2檢驗同樣要求樣本含量應(yīng)足夠大,且每個組段的理論頻數(shù)均應(yīng)三5。理論頻數(shù)過小時的處理方法:a.將理論頻數(shù)小于5的組段與相鄰組段合并,使窄5。b.當(dāng)v=1時,可進(jìn)行連續(xù)型校正,校正(A-T-0.5)2公式如下:x2=Z-i—t i=1 i②擬合優(yōu)度X2檢驗中期望頻數(shù)分布服從理論分布,為了降低犯^型錯誤的概率,將斕高到0.1或0.2。4、率的線性趨勢X2檢驗:當(dāng)率按某變量自然順序的等級分層,或連續(xù)性變量等級化后在分層時,可采用CochranArmitageq趨勢檢驗以分析率隨該分層因素變化的線性趨勢。N(NZtN-TZnZ)2X2T V V ,VT1T(N-T)[N乙nZ2-(ZnZ)2]N是總?cè)藬?shù),n是各組人數(shù),T是總陽性數(shù),t是各組陽性數(shù),Z是各組評分。如果是按數(shù)量分組的資料,評分的原則與分組間隔相適應(yīng);如果是按性質(zhì)分組的資料,評分的原則是1,2,3,…。
秩和檢驗1、參數(shù)檢驗(parametrictest):以特定的總體分布為前提,對未知的總體參數(shù)作推斷的假設(shè)檢驗方法。非參數(shù)檢驗(nonparametrictest):不以特定的總體分布為前提,也不對總體參數(shù)作推斷,故也稱為任意分布檢驗(distribution-freetest)。由于非參數(shù)檢驗沒有利用觀察值的具體數(shù)據(jù),而只利用了其大小次序的信息,信息利用不夠充分,故凡適合參數(shù)檢驗的資料,應(yīng)首選參數(shù)檢驗。2、秩和檢驗(ranksumtest):是將原數(shù)據(jù)轉(zhuǎn)換為秩次,比較各組秩和的一類非參數(shù)檢驗方法。適用范圍:①等級資料;②總體分布類型不明的資料;③非正態(tài)分布的資料;④對比組間方差不齊的資料;⑤一端或兩端觀察值不確切的類型。Wilcoxon符號秩和檢驗(Wilcoxonsigned-ranktest):可用于配對設(shè)計計量差值的比較,還可用于單一樣本與總體中位數(shù)的比較。①配對設(shè)計的兩樣本比較:Wilcoxon配對符號秩和檢驗的基本思想:在配對樣本中,由于隨機(jī)誤差的存在,其對差值的影響不可避免。假定兩種處理的效應(yīng)相同,則差值的總體分布為對稱分布,并且差值的總體中位數(shù)為0。若此假設(shè)成立,樣本差值為正的秩和與差值為負(fù)的秩和應(yīng)相差不大,均接近i(n+1)/4;當(dāng)正負(fù)組秩和相差懸殊,超出抽樣誤差可解釋的范圍時,則有理由懷疑該假設(shè),從而拒絕H0。編秩過程:(1)求差值d.;(2)編秩,以差值的絕對值由小到大編秩,當(dāng)差值為0,舍去不計,n隨之減少;(3)分別計算正差值的秩和T+與負(fù)差值T的秩和;(4)確定檢驗統(tǒng)計量T,任取T+或T作為檢驗統(tǒng)計量T。查表法:附表10(T界值表),若T值在上、下界值范圍內(nèi),其P值大于相應(yīng)的概率;若T值恰好等于界值,其P值一般等于相應(yīng)概率;若T值在上、下界值范圍外,其P值小于相應(yīng)的概率,下移一行再做比較。正態(tài)近似法:隨著n的增大,T統(tǒng)計量的分布逐漸逼近均數(shù)為n(n+1)/4,方差為n(n+1)(2n+1)/24的正態(tài)分布,當(dāng)n>50時,近似程度較滿意。T—nT—n(n+1)/4|-0.5'~Znn(n+1)(2n+1)/24T-n(n+1)4|-0.5? (當(dāng)相持的情形較多時,如個體數(shù)超過n(n+1)(2n+1)工(t3一24482425%,可用校正的統(tǒng)計量Zc,今為第j個相同秩次的個數(shù))②單一樣本與總體中位數(shù)比較;求差值、編秩、求秩和、計算檢驗統(tǒng)計量。成組設(shè)計兩樣本比較的秩和檢驗:Wilcoxon秩和檢驗(Wilcoxonranksumtest)推斷連續(xù)型定量資料或有序分類資料的兩個獨立樣本代表的總體分布位置是否有差別。基本思想:假設(shè)含量為n1和n2的兩個樣本(且n1<n2),來自同一總體或分布相同的兩個總體,則\樣本的秩和T1與其理論秩和n1(N+1)/2相差不大,即[T]-n](N+1)/2]僅為抽樣誤差所致。當(dāng)兩者相差懸殊,超出抽樣誤差可解釋的范圍時,則有理由懷疑該假設(shè),從而拒絕H0。①原始數(shù)據(jù)的兩樣本比較:原始數(shù)據(jù)為連續(xù)性定量資料,且不滿足參數(shù)檢驗條件時編秩過程:編秩過程同上,若兩樣本例數(shù)相等時,取任意組的秩和作為檢驗統(tǒng)計量;若兩樣本例數(shù)不相等時,取樣本含量較小組的秩和作為檢驗統(tǒng)計量。(1)查表法:當(dāng)樣本含量較小組W10,且兩樣本含量之差W10時,查附表11(內(nèi)大外小)。(2)正態(tài)近似法:當(dāng)n1>10或n1-n2>10時,根據(jù)中心極限定理,這時T1的分布已接近均數(shù)為n1(N+1)/2,方差為nfn2(N+1)/12的正態(tài)分布。Z=二二,c=1-Z(13-1)/(NZ=二二,c=1-Z(13-1)/(N3-N)(當(dāng)相持的情形較多時,如個體數(shù)超過25%n(N+1)/12可用校正的統(tǒng)計量Zc,今為第j個相同秩次的個數(shù))②等級資料的兩樣本比較:編秩、求秩和、確定統(tǒng)計量,計算同上。成組設(shè)計多個樣本比較的秩和檢驗:Kruskal-WallisH秩和檢驗,同于推斷非正態(tài)分布定量變量或有序分類變量的多個總體分布位置有無差別。多個獨立樣本間的多重比較可以采用秩變換后進(jìn)行方差分析及SNK法多重比較,也可以通過調(diào)整a水準(zhǔn)(a,=a/需比較次數(shù))直接采用兩獨立樣本的Wilcoxon秩和檢驗。隨機(jī)區(qū)組設(shè)計的秩和檢驗:可用Friedman秩和檢驗(FriedmanMtest),又稱M檢驗,為了比較平衡區(qū)組因素影響后個處理間的效應(yīng),采用了不同的編秩方法(區(qū)組內(nèi)按大小編秩)。多個相關(guān)樣本的兩兩比較與多個獨立樣本間的多重比較相似。
二項分布和Poisson分布及其應(yīng)用1、二項分布的定義、適用條件及性質(zhì)和應(yīng)用令在相同條件下每次試驗只有兩種對立結(jié)果(A或)、各次試驗相互獨立并且可重復(fù)的試驗叫作Bernoulli試驗或成敗性試驗。n次Bernoulli試驗,所感興趣的事件A發(fā)生X次的概率分布叫做二項分布。當(dāng)每次Bernoulli試驗發(fā)生陽性的概率為五時,n次Bernoulli試驗中恰好發(fā)生X個陽性的概率為:P(X)=CP(X)=CX兀X(1一兀)n—X
nn!X!(n-X)!兀x(1一兀)n一X(X=0,1,2…,n)二項分布常計為X?B(n,n)適用條件:①每次試驗只會發(fā)生兩種對立的可能結(jié)果之一;②在相同試驗條件下,每次試驗產(chǎn)生某種結(jié)果的概率n固定不變;③重復(fù)試驗是相互獨立的。性質(zhì):(1)二項分布的均數(shù)與標(biāo)準(zhǔn)差:若X?B(n,n),則:X的總體均數(shù):口=n兀;X的總體方差:O2=n兀(1一兀);X的總體標(biāo)準(zhǔn)差:。=\,;而(1-兀)。若以樣本率表示,則:樣本率P的總體均數(shù)為:口=1口=兀pn一I?, jr 1 兀(1一兀)樣本率P的總體方差為:02=—O2= ——人pn2 n樣本率P的總體標(biāo)準(zhǔn)差為:1 樣本率P的總體標(biāo)準(zhǔn)差為:1 :兀(1一兀)=n令樣本率的標(biāo)準(zhǔn)差也稱率的標(biāo)準(zhǔn)誤,常用來描述樣本率的抽樣誤差。當(dāng)總體率五未知時,以樣本資料計算的P=X/n作為五的估計值,則'的估計值為:5作為五的估計值,則'的估計值為:5〃=p(1-p)n(2)二項分布的圖形:當(dāng)n=0.5時,二項分布圖形是對稱的;當(dāng)nW0.5時,圖形是偏態(tài)的,隨著n的增大,圖形趨于對稱。當(dāng)n-8時,只要五不太靠近0或1,二項分布近似正態(tài)分布。應(yīng)用:(一)總體率的區(qū)間估計:①直接法:對于小樣本資料3<50),直接查百分率的置信區(qū)間表(附表7)即可得到總體率的95%和99%置信區(qū)間;②正態(tài)近似法:當(dāng)n較大、p和1-p均不太小,如np和n(1-p)均大于5時,可利用樣本率的口的分布近似正態(tài)分布來估計總體率的(1-。)置信區(qū)間。計算公式:p土ZSa/2p(二)單個樣本率與已知總體率的比較:①直接法:對單側(cè)檢驗,有下面兩種情況:A若是回答“差”或“低”的問題,則計算出“陽性”次數(shù)至多為k次的概率,即:£p(£p(x)=X=0工X=0n!X!(n一X)!加X(1一兀)B若是回答“優(yōu)”或“高”的問題,則計算出現(xiàn)“陽性”次數(shù)至少為k次的概率,即:P(X>k)=£p(X)=Z——n——兀X(1一兀)n一X
x=k x=kX!(n-X)!兀W兀0,因此,對于雙側(cè)檢驗:由于要回答的是“是否有差別”,即無效假設(shè)H0:兀=兀0,備擇假設(shè)H1:
所要計算的雙側(cè)檢驗概率P值應(yīng)為實際樣本出現(xiàn)的概率與更背離無效假設(shè)的事件出現(xiàn)的概率之和,即P=P(x=k)+ZP(x=i),其中i滿足P(X=i)<P(X兀W兀0,因此,>例題:一種鴨通常感染某種傳染病的概率是0.2,現(xiàn)將一種藥物注射到25只鴨后發(fā)現(xiàn)有1只鴨發(fā)生感染,試判斷這種藥物對預(yù)防感染是否有效。(1)建立假設(shè)檢驗,確定檢驗水準(zhǔn)H°:此藥物對預(yù)防感染無效,即兀=0.2;H1:此藥物對預(yù)防感染有效,即冗<0.2; 單側(cè)a=0.05(2)計算概率:在X?B(25,0.2)成立的前提下,至多有1只感染的概率,則有:P(X<1)=P(X=0)+P(X=1)=0.825+C150.210.824=0.0274 *這表明在自然情況下,25只鴨感染只數(shù)不超過1只屬于小概率事件,很難在一次實驗中出現(xiàn),現(xiàn)在的事實是竟然出現(xiàn)了;(3)作出統(tǒng)計推斷:根據(jù)檢驗水準(zhǔn),有理由拒絕藥物未起作用的假設(shè)H0,接受H1,認(rèn)為藥物是有預(yù)防作用的。②正態(tài)近似法:當(dāng)n較大,n不接近0,也不接近1,如nn和n(1-n)均大于5時,利用正態(tài)近似原理,可作樣本率p與已知總體率n作樣本率p與已知總體率n0的比較,檢驗統(tǒng)計量為:p一兀
0
儼0(1一兀0)(三)兩獨立樣本率的比較:兩獨立樣本率比較的目的在于利用樣本信息對相應(yīng)兩總體率的差別進(jìn)行統(tǒng)計推斷。設(shè)兩樣本含量分別為人和與,均較大;兩樣本率分別為p1和p2,且p1、1-p1及p2、1-p2均不太小,如np、n1(1-pJ及nR、n2(1-p2)均大于5時,采用正態(tài)近似法。檢驗統(tǒng)計量為:? 2z=z=4^sS p1-p2P1-P2XJX2(1_
n+nX+X-1 1、T 2)(一十)n+nnn2、弋Poisson2、弋而試驗的次數(shù)n很大的小概率事件出現(xiàn)規(guī)律性的一種泊松分布是描述當(dāng)試驗中成功的概率式很小(如汽而試驗的次數(shù)n很大的小概率事件出現(xiàn)規(guī)律性的一種離散型隨機(jī)分布。用于描述在單位時間(空間)內(nèi)稀有事件的發(fā)生數(shù)。?Poisson分布的概率密度函數(shù):若離散型隨機(jī)變量X,其取值為0,1,2,…,相應(yīng)的概率函數(shù)為:e-RaxP(X)=—7—則稱X服從參數(shù)為u的Poisson分布,記作X?P(u)。0:自然對數(shù)的底,e^2.7182;X!u為總體均數(shù)(u>0),稱為Poisson分布的參數(shù);X為隨機(jī)變量。 之P(X)=1X=0適用條件:①平穩(wěn)性:X的取值與觀察單位的位置無關(guān),只與觀察單位的大小有關(guān)。②獨立增量性(無后效性):在某個觀察單位上X的取值與前面各觀察單位上X的取值獨立(無關(guān))。③普通性:在充分小的觀察單位上X的取值最多為1。即在試驗次數(shù)n足夠大時,每次試驗可看作是一個“充分小的觀測單位”,且每次試驗只會發(fā)生兩種互斥的可能結(jié)果之一(“陽性”或“陰性”),這樣每次實驗的陽性數(shù)X的取值最多為1。性質(zhì):①總體均數(shù)U與總體方差。2相等,即與工。②當(dāng)n很大,而n很小,且nn=u為常數(shù)時,Poisson分布可看作是二項分布的極限分布。③當(dāng)后20時已接近正態(tài)分布,當(dāng)后50時則非常接近正態(tài)分布,Poisson分布資料可作為正態(tài)分布處理。④Poisson分布具備加和性:如果X『X2,…,Xk相互獨立,且它們分別服從以UjU2,…Uk為參數(shù)的Poisson分布,則T=XjX2+…+Xk也服從Poisson分布,其參數(shù)為口=?+匕+…";⑤u越小,Poisson分布越偏,u越大,Poisson分布漸近正態(tài)分布。應(yīng)用:①可用來分析一些不具有傳染性、無永久免疫、無遺傳性且發(fā)病率很低的疾病的發(fā)病程度,例出生缺陷、癌癥等非傳染性疾?。虎谘芯繂挝粫r間(或單位空間、面積)內(nèi)某事件發(fā)生次數(shù)的分布,如分析單位時間中放射性脈沖數(shù),單位面積或容積內(nèi)細(xì)菌數(shù),單位空間內(nèi)粉塵顆粒數(shù),單位空間某種昆蟲或野生動物數(shù)等的分布。
(一)總體均數(shù)的區(qū)間估計:①查表法:樣本計數(shù)XW50時,可直接查Poisson分布u的置信區(qū)間表(附表8)。②正態(tài)分布法:當(dāng)X>50時,可采用正態(tài)近似法估計總體均數(shù)的(1-a)置信區(qū)間。如總體均數(shù)的雙側(cè)(1-&)置信區(qū)間計算公式如下:X±Z5漢。(二)單個樣本均數(shù)與已知總體均數(shù)的比較:檢驗假設(shè)同二項分布①直接法:當(dāng)總體均數(shù)u<20時,可采用直接計算概率的方法對樣本代表的總體均數(shù)與已知總體均數(shù)間的差別進(jìn)行統(tǒng)計推斷,即對以樣本代表的總體率n與已知的總體率n0進(jìn)行比較。單側(cè)檢驗時:若備擇假設(shè)為斗:口>匕(或者斗:n>;°),則所要計算的單側(cè)檢驗概率P=P(XNk);若備擇假設(shè)為此:口<匕(或者斗:n”°),則所要計算的單側(cè)檢驗概率P=P(XWk)。雙側(cè)檢驗時:備擇假設(shè)斗:口2%(或者斗:冗£冗0),所要計算的雙側(cè)檢驗概率P=2P(X=i),其中i滿足P(X二i)WP(X二k)。②正態(tài)近似法:一般當(dāng)口三20時,近似正態(tài)分布。樣本計數(shù)*與已知總體均數(shù)%的比較,檢驗統(tǒng)計量為:(三)完全隨機(jī)設(shè)計兩個樣本均數(shù)的比較:設(shè)兩個樣本計數(shù)分別為£和%,當(dāng)£和%均較大(一般要求£三20且X2三20)時,可采用正態(tài)近似法比較。 1 1「X一X①兩個樣本的觀察單位數(shù)相等(njnJ時:Z=&+X1V1 2②兩個樣本的觀察單位數(shù)不等('WnJ時:②兩個樣本的觀察單位數(shù)不等('WnJ時:XX―1——23、正態(tài)分布、二項分布和Poisson分布之間的關(guān)系:①Poisson分布與二項分布:當(dāng)n很大,n很小時,二項分布B(n,n)逼近Poisson分布P(nn)。根據(jù)這一性質(zhì),在n很大且n很小時,利用Poisson分布概率計算可以簡化二項分布的概率計算。②正態(tài)分布與二項分布:當(dāng)nn和n(1-n)均較大時(通常要求nn和n(1-n)均大于5并且n>40),二項分布逐漸逼近于均數(shù)為nn,方差為n(1-n)n的正態(tài)分布。此時可用正態(tài)分布N(nn,nn(1-n))作近似二項分布的概率計算,并且對應(yīng)的樣本率P=X/n近似正態(tài)分布N(n,n(1-n)/n)。③正態(tài)分布與Poisson分布:當(dāng)均數(shù)u越來越大時,Poisson分布逐漸逼近于均數(shù)為u,方差為u的正態(tài)分布。據(jù)此性質(zhì),均數(shù)較大的Poisson分布(通常要求u>20)可用正態(tài)分布計算。二項分布用于率的計算和比較,Poisson分布用于均數(shù)的計算和比較。統(tǒng)計表與統(tǒng)計圖1、統(tǒng)計表制表原則:重點突出、簡單明了、主謂分明、層次清楚。基本結(jié)構(gòu):標(biāo)題、標(biāo)目、線條、數(shù)字。2、統(tǒng)計圖基本架構(gòu):標(biāo)題、標(biāo)目、刻度、圖例。統(tǒng)計圖適用條件條圖適用于比較相互獨立的統(tǒng)計指標(biāo)的數(shù)值大小圓圖、百分比條圖描述分類變量各類別所占構(gòu)成比,后者特別適合多個構(gòu)成比的比較線圖描述某統(tǒng)計量隨另一連續(xù)性數(shù)值變量變化而變化的趨勢直方圖描述數(shù)值變量的頻數(shù)分布箱式圖描述數(shù)據(jù)的分布特征統(tǒng)計地圖描述某指標(biāo)在地理區(qū)域的分布
雙變量關(guān)聯(lián)性分析1、兩變量關(guān)聯(lián)性分析的目的在于推斷從某一總體中隨機(jī)抽取的同一份樣本觀測出的兩個變量間是否存在關(guān)聯(lián)性,以及這種關(guān)聯(lián)性的密切程度如何,這種關(guān)聯(lián)并不表示專業(yè)上的因果關(guān)系。在統(tǒng)計學(xué)上兩個隨機(jī)變量之間呈直線趨勢的關(guān)系被稱為直線相關(guān),又稱簡單相關(guān)。?兩個定量變量間的直線相關(guān):Pearson積矩相關(guān)系數(shù)----常被用于定量描述兩個定量變量間直線關(guān)系的相關(guān)方向和密切程度,又被稱為直線相關(guān)系數(shù),用廠表示。樣本相關(guān)系數(shù),正負(fù)號表示兩變量間直線相關(guān)的方向,大于0為正相關(guān),小于0為負(fù)相關(guān),等于0為零相關(guān)。其絕對值大小表示兩變量間直線相關(guān)的密切程度,絕對值越接近于1,說明相關(guān)密切程度越高;絕對值越接近于0,說明相關(guān)密切程度越低。廠取值范圍在[-1,1]之間?!陎y」(£x)(£y)ii=1TOC\o"1-5"\h\ziini iii=1t=1 i=1 t=1£(xjx)2£(yi-y)2i=1 i=1統(tǒng)計推斷:用樣本計算出來的相關(guān)系數(shù)[[££(xjx)2£(yi-y)2i=1 i=1統(tǒng)計推斷:用樣本計算出來的相關(guān)系數(shù)Vini inii=1 i=1 i=1 i=1r是一個樣本統(tǒng)計量,存在抽樣誤差,需作假設(shè)檢驗以便判斷總體相關(guān)系數(shù)p是否為0。若PWa時,則拒絕H°,可認(rèn)為兩變量間存在直線相關(guān)關(guān)系;若P>a,則不拒絕H°,尚不能認(rèn)為兩變量間存在直線相關(guān)關(guān)系。 ° °r—0 .1—r2①t檢驗:t=—S=:--(S為樣本相關(guān)系數(shù)r的標(biāo)準(zhǔn)誤,當(dāng)X和丫無線性關(guān)系,即H成立時,t服rSr\n-2 r 0 rr從自由度為v=n-2的t分布)②查表法:根據(jù)自由度丫』-2,查相關(guān)系數(shù)界值表(附表14),|丁|越大,P越??;|丁|越小,P越大。。注意事項:①進(jìn)行直線相關(guān)分析前應(yīng)先繪制散點圖;②Pearson積矩相關(guān)系數(shù)的統(tǒng)計推斷要求兩個隨機(jī)變量均服從正態(tài)分布。③出現(xiàn)離群點慎用;④相關(guān)關(guān)系不一定是因果關(guān)系;⑤分層資料不可盲目合并。?秩相關(guān):對于不服從正態(tài)分布、總體分布未知、存在極端值或原始數(shù)據(jù)用等級表示的資料可采用秩相關(guān),也稱等級相關(guān),不以特定的總體分布為前提,屬于非參數(shù)統(tǒng)計方法。最常用的統(tǒng)計量是Spearman秩相關(guān)系數(shù)rs,又稱等級相關(guān)系數(shù),其值在[-1,1]之間,無單位,rs>0,為正相關(guān);rs<0,為負(fù)相關(guān)。rs:將兩變量x、y成對的觀察值分別從小到大編秩,用秩次作為分析變量,直接計算Pearson積矩相關(guān)系數(shù)。lr=p7qq統(tǒng)計推斷:總體秩相關(guān)系數(shù)4的假設(shè)檢驗,可用以下方法進(jìn)行推斷:當(dāng)nW50時,可查等級相關(guān)系數(shù)界值表(附表15),若|q|超過臨界值,則拒絕H0;當(dāng)n>50時,可作t檢驗,同上。?分類變量的關(guān)聯(lián)性分析:兩個分類變量關(guān)聯(lián)性分析在設(shè)計上是從同一個總體中進(jìn)行隨機(jī)抽樣,對樣本中的每個個體,考察其兩種屬性的關(guān)系。其目的是檢查兩個分類變量之間是否獨立。對于至少一個變量為無序分類變量的兩個分類變量的關(guān)聯(lián)性分析,通常先是根據(jù)交叉分類計數(shù)所得的列聯(lián)表進(jìn)行兩種屬性獨立性的X,2檢驗,然后計算關(guān)聯(lián)系數(shù)。y2 , .一——,k=min(y2 , .一——,k=min(R,C)n(k-1)(2)RXC列聯(lián)表的關(guān)聯(lián)性分析:兩種屬性獨立性的X2檢驗,然后計算關(guān)聯(lián)系數(shù)。V=令至少一個變量為無序分類變量的兩個分類變量的獨立性檢驗與幾個獨立樣本頻率比較的假設(shè)檢驗所用的X2檢驗公式、理論頻數(shù)計算公式和自由度的計算公式完全相同。但是,必須注意,這兩種分析方法所針對的研究目的、設(shè)計方案、數(shù)據(jù)結(jié)構(gòu)之間及其結(jié)果解釋都不相同。(3)兩有序分類變量的關(guān)聯(lián)性分析:宜用Goodman-KruskalGamma方法(簡稱Gamma法)來完成。利用列聯(lián)表,計算Gamma系數(shù):①共變(concordance,。:變量X和Y具有相同變化趨勢,即兩者同向變化。②異變(discordance,。:變量X和Y具有不同變化趨勢,即兩者反向變化。
③共變頻數(shù)(Nc):變量X和Y具有相同變化趨勢的對子數(shù)。④異變頻數(shù)(Nd):變量X和Y具有不同變化趨勢的對子數(shù)。⑤Gamma系數(shù):如果兩變量間相互獨立,那么兩變量共變頻率與異變概率之差應(yīng)為零;否則,可認(rèn)為兩變量存在相關(guān)。其總體值用Y表示,樣本值用G表示:G=N~NN+N獨立性檢驗一-Z檢驗:Z=Gx:NJNd、(N為列聯(lián)表的總例數(shù))\N(1-G2)直線回歸分析1、直線回歸:用來研究兩個連續(xù)型變量之間數(shù)量上線性依存關(guān)系的方法,又稱簡單回歸。直線相關(guān)或回歸分析步驟:①繪制散點圖,判斷是否有線性趨勢及異常值;②滿足運用條件時,可計算樣本相關(guān)/回歸系數(shù);③對樣本相關(guān)/回歸系數(shù)的假設(shè)檢驗;④正確解釋相關(guān)/回歸系數(shù)的意義;⑤回歸分析應(yīng)評價回歸模型的擬合效果R2。描述歹隨x的變化而變化的方程稱為直線回歸方程,也稱為直線回歸模型,可表示為:9=。+次。其中,夕表示當(dāng)x取某一值時因變量y的平均估計值;b為回歸系數(shù),表示x增加(或減少)1個單位時y的平均改變b個單位;a為回歸直線的截距或常數(shù)項,表示x=0時,y的平均估計值。與單變量問題類似,由于個體觀察值不一定總等于其均數(shù),所以散點圖中個點不會恰好都在回歸直線上,故兩變量的直線關(guān)系并非一一對應(yīng)的函數(shù)關(guān)系,而是回歸關(guān)系,也就是說因變量的均數(shù)隨著自變量的改變呈線性變化。2、回歸方程的估計:統(tǒng)計學(xué)上將各點距回歸直線的縱向距離平方和最小這一原則稱為“殘差平方和最小”。按照最小二乘法,當(dāng)E(y,一9J2取得最小值時所對應(yīng)a和b的計算公式如下:I Z(X一工)(J-y) _y V (ZX)(Zy)b=產(chǎn)=—_、——,a=y-bxy=乙(x-x)(y-y)=乙xy l -(x-x)2 nXX式中,lxy為x與y的離均差交叉乘積和,簡稱離均差積和。3、直線回歸的統(tǒng)計推斷:?回歸系數(shù)的假設(shè)檢驗:對總體回歸系數(shù)B是否等于0進(jìn)行統(tǒng)計推斷。①方差分析:對因變量y的離均差平方和E(y—歹)2作分解:E(y—歹)2=E(y—歹)2+E(y—y)2上式也可表示為:SS總上式也可表示為:SS總=SS回+SS殘,v總="一1'v回=1,v殘=n-2,v總="回十"殘SS即E(y-歹)2,稱為總離均差平方和,即不考慮y與x的回歸關(guān)系時y的總變異??係S回即E(y-刃2稱為回歸平方和。SS回反映了在y的總變異中可以用y與x的回歸關(guān)系所解釋的部分,也即在y的總變異中由于y與x的回歸關(guān)系而使y的總變異減少的部分。SS回越大,說明回歸效果越好。SS儂即E(y-y)2,稱為殘差平方和,反映在總平方和中無法用回歸關(guān)系解釋的部分,表示考慮回歸關(guān)系之殘后y的隨機(jī)誤差。在散點圖中,各實測值離回歸直線越近,SS殘越小,說明直線回歸的估計誤差越小?!窶SSSvF=回=一回回式中,MS為回歸均方,MS為殘差均方。SS=bl=l2/1=b21MSSSv 回 殘 回xyxyxxxx殘殘殘在H0為B=0的假設(shè)下,統(tǒng)計量F服從自由度為v回、v殘的F分布(附表4)。一,b-0 …S「②t檢驗:t= ,v=n-2S=y-x^SS=1-殘bS b :i y?x\n-2b xxx?總體回歸系數(shù)B的置信區(qū)間:0的雙側(cè)(1—a)置信區(qū)間為b±%/2("一2)Sb,式中與為樣本回歸系數(shù)b的標(biāo)準(zhǔn)誤;%/2m-2)是自由度為u=n-2的雙側(cè)概率對應(yīng)的t界值。
?決定系數(shù):回歸平方和,,與總離均差平方和、,總之比稱為決定系數(shù),記為R2,R2?,取值在0到1之間,無單位,作為反映回歸貢獻(xiàn)的相對程度,即在因變量y的總變異中,用y與x的回歸系數(shù)系能解釋的比例。還可用來對回歸擬合效果作假設(shè)檢驗。4、??令令R2 SSVMSF= =—回一回=回(1-R2)/(n—2)SS殘/v殘MS殘直線回歸分析的應(yīng)用:因變量總體條件均數(shù)的置信區(qū)間:給定數(shù)值”由于樣本回歸方程算出的%=a+%只是總體條件均數(shù)以\的一個點估計值。由于存在抽樣誤差,%會因樣本而異,反映其抽樣誤差大小的標(biāo)準(zhǔn)誤計算如下:11(X-X)2 人S.=sI-+———其條件總體均數(shù)RI的雙側(cè)(1-。)置信區(qū)間為:y土t S,yp y?x\n l y^ p3n-2)ypxx p因變量個體y值的預(yù)測區(qū)間:利用回歸方程進(jìn)行統(tǒng)計預(yù)測,就是將自變量帶入回歸方程中,對因變量的個體值/ 1(x-X)2進(jìn)行估計。給定數(shù)值與,對應(yīng)的個體y也存在一個波動范圍,其標(biāo)準(zhǔn)差S,S=S 1+-+———P yx y\x y?x丫 n lp P xx%=%時個體y值的雙側(cè)(1-。)預(yù)測區(qū)間為y土tSP p0/2,vyxp當(dāng)%-%p時,其條件總體均數(shù)的置信區(qū)間與個體y值的預(yù)測區(qū)間含義是不同的:前者表示在固定的%處,反復(fù)抽樣100次,可算出100個相應(yīng)y的總體均數(shù)的置信區(qū)間,平均而言(概率意義上)有100X(1-a)個置信區(qū)間包含總體均數(shù);而后者表示個體值的取值范圍,即固定在%處,隨機(jī)抽取100個個體,平均將有100X(1-a)個個體值在求出的范圍內(nèi)。直線回歸與直線相關(guān)分析的區(qū)別與聯(lián)系:區(qū)別直線相關(guān)分析直線回歸分析使用條件要求x、y服從雙變量正態(tài)分布①x與y呈線性關(guān)系;②個體觀察值之間相互獨立;③不同的x值所對應(yīng)的隨機(jī)變量y的方差相等;④在給定某個x值時y服從正態(tài)分布應(yīng)用反映兩變量間相關(guān)關(guān)系、方向和密切程度反映兩變量數(shù)量依存變化的關(guān)系意義相關(guān)系數(shù)r說明具有直線關(guān)系的兩變量間相互關(guān)系的方向與密切程度回歸系數(shù)b表示x每改變一個單位所引起的y的平均改變量計算公式r=(xy/jlJyyb=lxy/lXX取值范圍-1<r<1一8<b<+8單位r沒有單位b有單位聯(lián)系①對于服從雙變量正態(tài)分布的同一組數(shù)據(jù),既可作直線相關(guān)關(guān)系,又可作直線回歸分析,計算出的b與r正負(fù)號一致。②相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗等價,即對于同一樣本,tb=tr。由于相關(guān)系數(shù)的假設(shè)檢驗可以方便地查表得到P值,所以可用相關(guān)系數(shù)的假設(shè)檢驗來回答回歸系數(shù)的假設(shè)檢驗問題。③對于服從雙變量正態(tài)分布的同一組資料,其相關(guān)系數(shù)r和回歸系數(shù)b可以相互換算:r-J。④用回歸可以解釋相關(guān)。決定系數(shù)R2-SS回/SS總,為相關(guān)系數(shù)的平方。SS回越接近SS總,則相關(guān)系數(shù)和決定系數(shù)都越接近1,說明引入回歸效果越好。
生存分析1、生存資料:這類既考慮事件是否出現(xiàn),又考慮事件出現(xiàn)的時間長短的資料,在統(tǒng)計學(xué)上稱為生存資料。特點:①包含有結(jié)局和發(fā)生結(jié)局所經(jīng)歷的時間兩方面信息;②結(jié)局為兩分類互斥事件;③一般是通過隨訪觀察收集得到;④生存時間的不完全形式(不確切),使得資料分布類型不規(guī)則、不確定(未知),分布形式多樣。生存分析:它是將事件的結(jié)局和發(fā)生這種結(jié)局所經(jīng)歷的時間進(jìn)行綜合分析的一類統(tǒng)計分析方法?;緝?nèi)容:①描述生存過程;②比較生存曲線;③分析生存過程的影響因素。死亡事件:又稱失效事件或終點事件,泛指標(biāo)志某種處理措施失敗或失效的特征事件。生存時間:泛指研究者關(guān)心的某種現(xiàn)象的持續(xù)時間。①完全數(shù)據(jù):指從觀察起點到發(fā)生死亡事件所經(jīng)歷的時間。②截尾數(shù)據(jù)(censoreddata):簡稱截尾值,又稱刪失值或終檢值,從觀察起點至截尾時點所經(jīng)歷的時間。生存時間觀察過程的截尾不是由于死亡事件,而是由于其他原因引起的,稱為截尾。截尾的主要原因:(1)失訪:指失去聯(lián)系;(2)退出:指死于非研究因素或非處理因素而退出研究;(3)終止:指設(shè)計時規(guī)定的研究時限已到而終止觀察,但研究對象仍然存活。死亡概率:記為q,是指死于某時段內(nèi)的可能性大小,即在某單位時段開始時存活的個體在該時段內(nèi)死亡的可能性大小。某年內(nèi)死亡數(shù)q能性大小。某年內(nèi)死亡數(shù)q二 1 某年年初觀察例數(shù)-土截尾例數(shù)生存概率:記為p,表示在某單位時段開始時存活的個體到該時刻結(jié)束時仍存活的可能性大小。某年活滿1年人數(shù)某年年初觀察例數(shù)-2截尾例數(shù)t時刻仍存活的例數(shù)死亡率:記為^?(t),是指觀察對象能存活到某一時點t的概率。S(t)=P(T>t)=‘而三將一(如觀察總例數(shù)人無截尾數(shù)據(jù))當(dāng)存在截尾數(shù)據(jù)時采用概率乘法原理估計生存率:s(t)=P(T>t)=pXpX...XpTOC\o"1-5"\h\z1 2 i\o"CurrentDocument"人 人生存曲線:是指以時點t為橫坐標(biāo),以各時點生存率s(t)為縱坐標(biāo),將各個時點t的生存率S(t)在坐標(biāo)系中i i i i連接在一起的曲線圖,用以描述生存過程。中位生存時間:又稱半數(shù)生存期、中位生存期,是指生存率為0.5時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025━2030年中國汽車帶天窗頂篷總成項目投資可行性研究報告
- 2025━2030年中國冷軋網(wǎng)狀烤漆客房桶項目投資可行性研究報告
- 2025-2035年全球及中國柔性紙包裝行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國聲雹裝置行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2030年中國生料花生仁數(shù)據(jù)監(jiān)測研究報告
- 2025年社保代繳項目建議書
- 2025年包裝測試設(shè)備項目建議書
- 2025年鋼結(jié)構(gòu)用H型鋼合作協(xié)議書
- 2025年海運貨代項目建議書
- 2025年U型熒光燈管合作協(xié)議書
- 孕產(chǎn)婦高危五色管理(醫(yī)學(xué)講座培訓(xùn)課件)
- 2024年陪診師準(zhǔn)入理論考核試題
- 拼多多企業(yè)戰(zhàn)略分析報告
- 梁柱加固施工方案
- 孕婦枕行業(yè)深度研究報告
- 中考復(fù)習(xí)物理力學(xué)部分綜合試題(人教版含答案)
- 培訓(xùn)資料預(yù)防混料培訓(xùn)
- 《多元化之教學(xué)評量》課件
- 企業(yè)廉政教育培訓(xùn)課件
- 三年級數(shù)學(xué)《搭配中的學(xué)問》 全國一等獎
- 【工商管理專業(yè)畢業(yè)綜合訓(xùn)練報告2600字(論文)】
評論
0/150
提交評論