版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物統(tǒng)計學(xué)(Biostatistics)是以概率理論為基礎(chǔ),研究生命科學(xué)中隨機現(xiàn)象規(guī)律性的應(yīng)用數(shù)學(xué)科學(xué)。涉及到醫(yī)學(xué)科學(xué)研究的設(shè)計、資料搜集、歸納、分析與解釋的一門應(yīng)用性基礎(chǔ)學(xué)科、二、科學(xué)研究的基本程序1、提出一個欲待研究的問題:2、科學(xué)研究設(shè)計:專業(yè)設(shè)計、統(tǒng)計學(xué)設(shè)計:統(tǒng)計學(xué)設(shè)計(statisticaldesign):是指用統(tǒng)計學(xué)原理對研究的全過程所作出的周密合理的統(tǒng)籌安排,如確定研究對象,擬定研究因素及其分配,如何執(zhí)行隨機、對照與重復(fù)的統(tǒng)計學(xué)原則,如何觀察與度量效應(yīng),以及數(shù)據(jù)收集、整理與分析的方法,通過合理的、系統(tǒng)的安排,達到控制系統(tǒng)誤差,以盡可能少的資源消耗(最小的人力、物力、財力和時間)獲
2、取準確可靠的信息資料及可信的結(jié)論,使效益最大化。3、獲取試驗與觀察的資料,又稱為搜集資料4、數(shù)據(jù)審核與計算機錄入5、分析資料描述性統(tǒng)計(descriptivestatistics)是指用統(tǒng)計指標、統(tǒng)計圖、統(tǒng)計表等方法,對數(shù)據(jù)的特征及其分布規(guī)律進行檢測與描述。統(tǒng)計推斷(inferentialstatistics)是通過隨機樣本信息推斷總體特征的過程。統(tǒng)計推斷又包括置信區(qū)間(con巾denceinterval)估計與統(tǒng)計學(xué)假設(shè)檢驗(hypothesistest)統(tǒng)計學(xué)分析過程按變量的多寡可分為單變量分析與多重變量分析。6、分析結(jié)果的合理解釋(Explicationofresults):研究中應(yīng)注意
3、的問題1、統(tǒng)計學(xué)結(jié)論的正確與否取決于統(tǒng)計學(xué)分析數(shù)據(jù)的真實性、準確性以及研究樣本對研究總體的代表性。2、盡可能地控制系統(tǒng)誤差是統(tǒng)計分析數(shù)據(jù)真實性、準確性的保證。3、隨機化抽樣是確保樣本數(shù)據(jù)對研究總體具有代表性的重要過程。變量variable:依總體中,個體的許多屬性(如年齡、性別、血漿膽固醇等)存在變異性,統(tǒng)計學(xué)上將反映個體屬性變異性特征的指標稱為隨機變量(Randomvariable)|,簡稱變量;針對不同類型的屬性,需采用不同類型的變量,因而產(chǎn)生不同類型的資料??傮w(Population)與樣本(Sample)|:根據(jù)研究目的所確定的具有相同性質(zhì)的觀察單位的集合成為總體(母體)。從同一總體中
4、通過隨機化過程抽取的部分觀察單位稱為樣本(子樣)。抽樣(Sampling)恢研究總體中通過一定原則獲取樣本的過程樣本含量(Samplesize).樣本中所包含的基本研究單位數(shù)量同質(zhì)(Homogeneity):同一總體中的每一個體都具有相同性質(zhì)類別的特征。變異(Variation)二|同一總體中的各個體間的差異性。遁機化(randomization):9使總體中每一觀察單位均能以同等機會(概率)進入樣本,或分配到實驗組與對照組的過程。抽樣誤差(SamplingError)|:由于總體中各個體間存在變異性,因抽樣過程的隨機性所至樣本的統(tǒng)計量與總體的參數(shù)不等,或多個樣本的統(tǒng)計量存在差異性稱為抽樣誤差
5、。概率(Probability)|:描述隨機事件發(fā)生的可能性的度量。隨機事件A的發(fā)生概率記為P(A)。概率的取值在0到1之間,若P=1或P=0的事件稱為必然事件,若0<P<1的事件為隨機事件。概率接近于0(如P<0.05)的事件稱為小概率事件。分布(distribution個隨機試驗的所有結(jié)局事件與對應(yīng)的概率的排列稱為分布。對應(yīng)于樣本數(shù)量值分布稱其為頻;|yK/LFrequencyDistribution;對應(yīng)總體數(shù)量值的分布則稱其為概率分布(ProbabilityDistribution)參數(shù)(Parameter):描述總體特征的數(shù)量稱為參數(shù);常用希臘字符表示,如以表示總體
6、均數(shù),(T表小總體標準差,冗表小總體率。統(tǒng)計量(Statistic)|:描述樣本特征的數(shù)量稱為統(tǒng)計量;常用英語字母表示,如x表示樣本均數(shù),s表示樣本標準差,p表示樣本率。生物醫(yī)學(xué)數(shù)據(jù)的組織與表達變量的類型:按變量測量的精確程度由低到高,將數(shù)據(jù)分類為:名義變量(如性別、婚姻狀況)、有序變量(如療效,類別問差別大小難以度量)、區(qū)間變量(如攝氏體溫,類別問差別有實際意義)、比變量(如身高,除具有區(qū)間變量的特征外,還具有真實意義的零點。攝氏溫度的零點為水結(jié)冰時溫度,并非絕對意義的零點,所以它不屬于比變量)1、定性變量(QualitativeVariable)(1)名義變量(Nominalvariabl
7、e)二項分類:性別分類,如男性為1,女性為0。多項無序分類:血型的A、B、AR。型多項無序分類(2)有序(等級)變量(Ordinalorrankingvariable)多項有序分類:療效觀測分為顯效、有效、好轉(zhuǎn)及無效4個類別。2、定量變量(QuantitativeVariable)(1)區(qū)間變量(intervalvariable):或數(shù)值變量(numericalvariable)如:身高,血壓,血清膽固醇濃度,體溫,脈搏計數(shù)、紅細胞計數(shù)、玫瑰花環(huán)計數(shù)、住院天數(shù)等。(一般有度量衡單位,類別間的差別大小有實際意義)(2)比變量(ratiovariable):以上例子中除體溫外(具有真實意義的零點)
8、連續(xù)型變量(Continuousvariable)與離散型變量(Discretevariables)根據(jù)觀察數(shù)據(jù)之間有無縫隙(gap),常將數(shù)據(jù)分類為離散型變量(有縫隙)與連續(xù)型變量(無縫隙)兩大類,名義變量一定是離散型變量;連續(xù)型變量只能是比、區(qū)間和有序變量,但比、區(qū)間和有序變量也可以是離散型變量頻數(shù)分布表:*定量數(shù)據(jù)的頻數(shù)分布;*(非配對設(shè)計)定性數(shù)據(jù)的頻數(shù)分布*配對設(shè)計定性數(shù)據(jù)的頻數(shù)分布頻數(shù)(frequency)|:將定量數(shù)據(jù)分類成若干個組段,或?qū)⒍ㄐ詳?shù)據(jù)分類成若干個類別,所清點得到的每一組段或類別的數(shù)據(jù)出現(xiàn)個數(shù)。頻數(shù)表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全
9、距。R=6.29-2.72=3.57mmol/L(2)決定分組組數(shù)、組距:組距=極差/組數(shù)。(3)列出組段:(4)劃記計數(shù)。(非配對設(shè)計)定性數(shù)據(jù)的頻數(shù)分布:*一維頻數(shù)表*二維頻數(shù)表*高維頻數(shù)表統(tǒng)計圖形表達:*直方圖(Histogram):用于描述定量變量的數(shù)據(jù)分布特征。*概率-概率散點圖(p-pplot)又稱為p-p圖或百分點圖,橫軸為觀察累積概率,縱軸為理論(如正態(tài))累積概率,確定樣本數(shù)據(jù)對于理論分布的一致性;*分位數(shù)-分位數(shù)散點圖(q-qplot)又稱為q-q圖,橫軸為觀察值,縱軸為理論(如正態(tài))分位數(shù),確定樣本數(shù)據(jù)對于理論分布的一致性繪P-P或QQ圖的數(shù)據(jù)*莖葉(Stem-Leaf)圖
10、*盒式圖(Boxplot)直條圖(Barchart):用直條反映定性變量不同類別下的某指標大小。餅圖(pieChart):反映定性變量各個分類的構(gòu)成情況。*散點圖*線圖*統(tǒng)計地圖(statisticalmap)SA必話窗口界面:三個基本窗口*Editor編輯窗:在此編寫SAS程序*Log記錄窗:記錄程序運行過程中所做的內(nèi)容,如所運行的數(shù)據(jù)情況、所調(diào)用的過程步、程序運行時間等(紅色-錯誤綠色一警告蘭色一正常)*Output結(jié)果輸出窗:統(tǒng)計分析的結(jié)果。*Result窗口*Explorer窗口單變量綜合性描述統(tǒng)計量常用的中心趨勢指標:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù),統(tǒng)稱為平均數(shù)(average)算
11、術(shù)平均數(shù)TheArithmeticmean|:簡稱均數(shù)(Mear)或均值,定義為所有測量值之和除以變量值個數(shù)(即,樣本含量SampleSize)。反映一組呈對稱分布的變量值在數(shù)量上的平均水平。(1)直接計算法:公式:nXii 1n(2)加權(quán)法:XkXi fi i 1 kfii 1Xi i 1fikfii 1組中值=(下限值+上限值)/2均數(shù)的特征:*最常用,特別是正態(tài)分布資料;拉向自己;*離均差的和為0*對極值非常敏感,最大值和最小值常將其中位數(shù)(median)|:是將每個變量值從小到大排列,位置居于中間的那個變量值公式:n為奇數(shù)時MXn1(")n為偶數(shù)時M1XnXn2(2)(21)
12、頻數(shù)表資料的中位數(shù)中位數(shù)的特征:計算時只利用了位置居中的測量值,優(yōu)點:對極值不敏感,缺點:并非考慮到每個觀測值;適用于各種分布類型的資料,特別適合于:大樣本偏態(tài)分布資料或者一端或兩端無確切數(shù)值的資料百分位數(shù)(percentile):直接計算設(shè)有n個原始數(shù)據(jù)從小到大排列,第X百分位數(shù)的計算公式為:當nX%fe帶有小數(shù)位時:PxXint(nX%)11當nX%為整數(shù)時:PX-X(nX%)X(nX%i)頻數(shù)表法:計算方法大致同中位數(shù)幾何均數(shù)(geometricmean):可用于反映一組經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布或正態(tài)分布的變量值在數(shù)量上的平均水平。公式:GnX1X2.Xn(2)加權(quán)法:Glg1(號X)幾何
13、均數(shù)的特征1、幾何均數(shù)適用于對數(shù)正態(tài)分布,如藥物的效價、抗體的滴度、傳染性疾病的潛伏期等資料。2、變量x服從對數(shù)正態(tài)分布,即表示變量lg(xi)服從正態(tài)分布。對于lg(xi),具有正態(tài)分布的所有特性。眾數(shù)(Mode:蛙一群數(shù)據(jù)中出現(xiàn)次數(shù)(頻數(shù))最多的值。適用于大樣本;較粗糙。眾數(shù)的特征:1、對于某些數(shù)據(jù)而言,例如均勻分布,并不存在眾數(shù);2、對于某些數(shù)據(jù)存在兩個或多于兩個的眾數(shù);3、定性數(shù)據(jù)可以存在眾數(shù);4.眾數(shù)對于進一步的統(tǒng)計學(xué)計算與分析不具備應(yīng)用價值。離散與變異性指標:全距;方差;標準差;變異系數(shù);四分位間距;多樣性指數(shù)全距range'T"最大值與最小值之差,也叫極差,即R
14、=Max(x)?Min(x).方差:(Variance)也稱均方差(meansquaredeviation),反映一組數(shù)據(jù)的平均離散水平。樣本方差為各變量值到樣本均數(shù)距離的平方和除以自由度的商值,即n(xi口2總體方差:b2LN標準差:樣本標準差為樣本方差的平方根;總體標準差為總體方差的平方根。樣本標準差實用公式nn(為)2xi2i1i inn 1kk( fiX)2fix2 i1k i1fii 1 kfi 1 i 1樣本標準差的加權(quán)公式隨機變量xi的標準化:如果隨機變量xi服從正態(tài)分布,均數(shù)和標準差分別為X和s,則隨機變量xi的標準化正態(tài)離差值(Standardnormaldeviation)
15、又稱為標準化得分值(StandardScores)、廠xiX為:Zi-s變異系數(shù)(coefficientofvariation,CV):常用于比較度量單位不同或均數(shù)相差懸殊s的兩組(或多組)資料的變異程度。CV亍100%x四分位數(shù)間距(inter-quartilerange):用IQR表示:IQR=P75P25=QMQ4多樣性指數(shù)(IndicesofDiversity)|:描述無序分類變量在各各義類別間頻數(shù)的離散度用嫡與最大嫡之比表達離散度率、比的均數(shù)與方差率(rate)|:在特定條件下,可能發(fā)生某現(xiàn)象的總例數(shù)中,實際發(fā)生某現(xiàn)象的強度或頻率。比(ratio)|:構(gòu)成比(Proportion,c
16、onstituentratio):構(gòu)成比指標用以表示事物內(nèi)部某一構(gòu)成成分在全部構(gòu)成中所占的比例或比重。相對比(relativeratio)是由兩個有關(guān)聯(lián)的指標之比。應(yīng)用率比指標時的注意事項1、保證有足夠樣本含量;2、不要將率和比指標混淆;3、注意平均率的計算;4、率和比指標比較時,要有可比性(不可比時可采用率標準化);5、不要簡單由樣本率的差異做出結(jié)論。率比和均數(shù)一樣都有抽樣誤差,需采用假設(shè)檢驗下結(jié)論。隨機變量、概率和概率分布頻率frequency:本的實際發(fā)生率。設(shè)在相同條件下,獨立重復(fù)進行n次試驗,事件A出現(xiàn)f次,則事件A出現(xiàn)的頻率為f/n。概率probability:隨機事件發(fā)生的可能性
17、大小,用大寫的P表示;取值0,1。樣本空間(samplingspace):隨機試驗的所有可能的結(jié)果稱為樣本空間。頻率與概率間的關(guān)系:1.樣本頻率總是圍繞概率上下波動;2.樣本含量n越大,波動幅度越小,頻率越接近概率。事件間的關(guān)系:(1)和事件(Unionoftwoevents):事件A或者事件B發(fā)生(A或B)或(AUB)(2)積事件(Intersectionoftwoevents):事件A與事件B同時發(fā)生(A與B)或(ACB(3)互斥事件:事件A、事件B不可能同時發(fā)生(也可都不發(fā)生),則事件A與事件B互斥(4)對立事件:事件A、事件B不可能同時發(fā)生,并且事件A與事件B必有一個發(fā)生。條件概率(c
18、onditionprobability)若關(guān)心的事件為B,以事件A為條件,則在A的條件下,事件B發(fā)生的概率為P(B|A)事件的獨立性:若事件A的發(fā)生不影響事件B的發(fā)生,即事件A與事件B相互獨立,則有P(B|A)=P(B)概率分布(probabilitydistribution):描述隨機變量值xi及這些值對應(yīng)概率P(X=xi)的表格、公式或圖形。概率密度函數(shù)(probabilitydensityfunction):如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。大多數(shù)情況下,可采用一個函數(shù)擬合這一光滑曲線。這種函數(shù)稱為常用的概率分布:離散型隨機變量分布一、二項分布二、泊
19、松分布當二項分布中n很大,冗很小時,二項分布就變成為Poisson分布,所以Poisson分布實際上是二項分布的極限分布。gx由二項分布的概率函數(shù)可得到泊松分布的概率函數(shù)為:PXx'-x!Poisson分布主要用于描述在單位時間(空間)中稀有事件的發(fā)生數(shù)Poisson分布概率的計算Poisson分布的性質(zhì)1 .Poisson分布的均數(shù)與方差相等即(r2=m2 .Poisson分布的可加性3 .Poisson分布的正態(tài)近似:m相當大(20)時,近似服從正態(tài)分布:N(m,m)4 .二項分布的Poisson分布近似連續(xù)型隨機變量分布:變量的取值充滿整個數(shù)值區(qū)間,無法一一列出其每一個可能值。一
20、般將連續(xù)型隨機變量整理成頻數(shù)表,對頻數(shù)作直方圖,直方圖的每個矩形頂端連接的階梯形曲線來描述連續(xù)型變量的頻數(shù)分布。如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。大多數(shù)情況下,可采用一個函數(shù)擬合這一光滑曲線。這種函數(shù)稱為概率密度函數(shù)(probabilitydensityfunction)成功次數(shù)的概率分布一二項分布:p(xk)(n)Ttk(1冗)nk二項分布的應(yīng)用1.二項分布的均數(shù)與方差XB(n,九)X的均數(shù)5n冗X的方差:(rX=nu(1%)X的標準差:crXJn冗(1jt)出現(xiàn)陽性次數(shù)至多為k的概率:出現(xiàn)陽性次數(shù)至少為k的概率:正態(tài)分布(NormalDistribut
21、ion)1.概率密度函數(shù)2.概率分布函數(shù)正態(tài)分布特征(1)正態(tài)分布在橫軸上方均數(shù)處最高。(2)?正態(tài)分布以均數(shù)以為中心,左右對稱。(3)正態(tài)分布由參數(shù)以和確定。(總體均數(shù))是位置參數(shù),當b(總體標準差)不變時,仙越大,則曲線沿橫軸越向右移動;反之,以越小,曲線沿橫軸越向左移動。是變異度參數(shù),當以不變時,越大,表示數(shù)據(jù)越分散,曲線越平坦;越小,表示數(shù)據(jù)越集中,曲線越陡峭。(4)正態(tài)分布曲線與X軸所圍成的面積為1。(5)在以士6的區(qū)間內(nèi)占總面積的68.27%,在1±1.96b的區(qū)間內(nèi)占總面積的95%在叱±2.58b的區(qū)間內(nèi)占總面積的99%標準正態(tài)分布:標準正態(tài)離差:ZX二0,此
22、概率密度函數(shù)實質(zhì)上就是正態(tài)分布的概率密度函數(shù)中仙=0,(7=1的情形。從幾何意義上=0,標準差0- =1+1.96的區(qū)間內(nèi)說,此變換實質(zhì)上是作了一個坐標軸的平移和尺度變換,使正態(tài)分布具有平均數(shù)為小標準差(7=1。這種變換稱為標準化正態(tài)變換。因此將這種具有平均數(shù)為小的正態(tài)分布稱為標準正態(tài)分布,記為N(0,1)正態(tài)分布概率密度曲線在-1+1的區(qū)間內(nèi)占總面積的68.27%,在-1.96占總面積的95%在-2.58+2.58的區(qū)間內(nèi)占總面積的99%標準正態(tài)分布正態(tài)分布面積或概率-11士(T68.27%-1.961.96仙±1.96695%-2.582.58仙±2.58(T99%描述
23、正態(tài)分布特征的兩個參數(shù):r1 =0為對稱,r1 >0r2 = 0為正態(tài)峰,r2偏度系數(shù)coefficientofskewness:度量隨機變量對稱性的參數(shù)為正偏態(tài),反之為負偏態(tài)。峰度系數(shù)coefficientofkurtosis:描述隨機變量陡峭度的參數(shù),>0分布較正態(tài)分布陡峭,r2<0時分布較正態(tài)分布平闊。正態(tài)分布的特征,歸納起來有兩點:一是對稱性(symmetry):若分布不對稱就是偏態(tài),長尾拖向右側(cè)(變量值較大的一側(cè))叫做正偏態(tài),或右偏態(tài);長尾拖向左側(cè)(變量值較小的一側(cè))叫做負偏態(tài),或左偏態(tài)。二是正態(tài)峰(mesokurtosis):峰態(tài)系數(shù)是描述隨機變量陡峭度的參數(shù),分
24、為:正態(tài)峰、平闊峰、尖峭峰正態(tài)分布在醫(yī)學(xué)中的應(yīng)用1 .大多數(shù)生理生化指標服從正態(tài)分布2 .估計醫(yī)學(xué)參考值范圍3 .質(zhì)量控制4 .二項分布,poisson分布的極限均為正態(tài)分布;5 .卡方、t與F分布都與正態(tài)分布有關(guān)。如果總體服從正態(tài)分布N(3s2),則從該正態(tài)總體中抽取樣本,得到的樣本均數(shù)也服從正態(tài)分布,但該分布為N(m,s2/n),此時的方差是總體的1/n倍,即有不論總體的分布形式如何,只要樣本含量n足夠大時,樣本均數(shù)的分布就近似正態(tài)分布,此稱為中心極限定理centrallimittheorem。常用的三種抽樣分布2一、分布(1)自由度為1的x2分布若ZN(0,1)則Z2的分布稱為自由度為1
25、的x2分布(chi-squaredistribution),記為X:)二、t分布:自由度一1t分布的特征以0為中心,左右對稱的單峰分布;t分布曲線是一簇曲線,其形態(tài)變化與自由度的大小有關(guān)。自由度越小,則t值越分散,曲線越低平;自由度逐漸增大時,t分布逐漸逼近Z分布(標準正態(tài)分布);當趨于時,t分布即為Z分布。三、F分布令2(1)和2(2)分別為服從自由度為1和2的獨立變量的卡方分布,則稱F:(“1服從分子自由度(2)2為1和分母自由度為2的F分布,記為FF(i,2)。對于樣本方差s2和s2,自由度分別為1和2的正態(tài)總體,所以有F=sF(1,2)s2統(tǒng)計推斷統(tǒng)計推斷(Statisticalinf
26、erence)是采用樣本統(tǒng)計量X、s、p、sp對相應(yīng)總體參數(shù)p、p所做的非確定性的推估。包括:1.點估計pointestimation;2.區(qū)間估計intervalestimation;3.假設(shè)檢驗hypothesistesting(orsignificancetesting);4.預(yù)測(prediction)抽樣誤差(samplingerror):由于個體差異導(dǎo)致的樣本統(tǒng)計量與總體參數(shù)間的差別。標準誤(standard error, SE):即樣本均數(shù)的標準差,可用于衡量抽樣誤差的大小。樣本總體標準差已知時,S S7樣本總體標準差未知時,Sx三nn總體均數(shù)的點估計(point estimat
27、ion )與區(qū)間估計(interval estimation )參數(shù)的估計:點估計:由樣本統(tǒng)計量直接估計總體參數(shù)區(qū)間估計:獲得一個置信區(qū)間(confidence interval。)100(1 a ) %可能包含未知總體參數(shù)的一個范圍值。由樣本數(shù)據(jù)估計得到的、(T(T、置信區(qū)間的有關(guān)概念:(1 a )或100(1 a ) %稱為置信度(confidence level ),常取 95% (90%、99%)。已知 或s未知但n足夠大,按Z分布;s未知,按t分布(T已知,總體均數(shù)雙側(cè) 已知,總體均數(shù)單側(cè)(X z x)或(X100 (1 a )100 (1 a )%置信區(qū)間為:%置信區(qū)間為:Z x)
28、Z0.05/2=1.96雙側(cè)Z0.05=1.645單側(cè)(confidence limit , CL):L),較大的稱為置信上限(upper limit , U),置信區(qū)間通常兩個數(shù)值即兩個置信限較小的稱為置信下限(lowe門imit置信區(qū)間的涵義從同一總體中重復(fù)抽取若干個相互獨立的樣本,將具有100(1-a)%的置信度,所計算的置信區(qū)間包括總體均數(shù)。如95%勺置信區(qū)間表示:如果從同一總體中重復(fù)抽取100個獨立樣本,那么將可能有95個置信區(qū)間包括總體均數(shù)。(總體均數(shù)會落在這樣的區(qū)間說法欠妥)對于一次估計的置信區(qū)間,可能有95%勺正確率包括總體均數(shù),但仍有5%勺置信區(qū)間估計錯誤。5癖小概率事件,統(tǒng)
29、計學(xué)認為在一次的估計中不發(fā)生。置信區(qū)間估計的優(yōu)劣:置信度大好,還是小好?1 .置信度1a(準確度,accuracy),愈接近1愈好,如99%勺置信度比95%勺置信度要好;2 .區(qū)間的寬度(精密度,precision),區(qū)間愈窄愈好。當樣本含量為定值時,上述兩者互相矛盾。在置信度確定的情況下,增加樣本含量可減小區(qū)間寬度??傮w均數(shù)置信區(qū)間與參考值范圍的區(qū)別區(qū)別占八、總體均數(shù)可信區(qū)問參考值范圍含義從同一總體中重復(fù)抽取若干個相互獨立的樣本,將具有100(1-a)%的置信度,所計算的置信區(qū)間包括總體均數(shù)。“正常人”的解剖,生理,生化某項指標的波動范圍。總體均數(shù)的波動范圍個體值的波動范圍計算公式未知n較小
30、:Xt/2,Sx已知,或未知但n較大:XZ/2SX止態(tài)分布:Xt/2S偏態(tài)分布:PxP100X用途總體均數(shù)的區(qū)間估計絕大多數(shù)(如95%觀察對象某項指標的分布范圍方差的抽樣分布特征1 .樣本方差的分布是正偏態(tài)分布,樣本含量較小時更是如此。2 .隨著樣本含量的逐漸增大,對稱性逐漸改善。3 .理論上可以證明:若隨機變量x服從正態(tài)分布,則其相應(yīng)的樣本方差S2的分布服從自由度為n-1的卡方分布。4.標準差的標準誤s總體方差s2的100(1-a)%置信區(qū)間:(n 1)s2(n 1)s2X /22X1/2由抽樣引起的樣本率(p)和總體率(兀)的差異稱為率的抽樣誤差(samplingerrorofrate),
31、用率的標準誤(standarderrorofrate)度量。如果總體率冗未知,用樣本率p估計I型錯誤(棄真):拒絕實際正確的H0,I型錯誤的概率記為a。(1-a)即置信度:重復(fù)抽樣時,樣本區(qū)間包含總體參數(shù)(n)的百分數(shù)。II型錯誤(納偽):不拒絕實際不正確的HO,II型錯誤的概率記為B。(1B)即把握度(或檢驗效能):兩總體確有差別,被檢出有差別的能力單個總體均數(shù)的假設(shè)檢驗1 .總體方差已知,采用Z檢驗2 .總體方差未知,采用t檢驗:自由度n1第七節(jié)總體率的假設(shè)檢驗例數(shù)較少時,采用二項分布的概率公式計算當n:t5,且n(1-九)5(n大,冗不接近0,1)時近似正態(tài)分布,可計算Z統(tǒng)計量冗0為已知
32、總體均數(shù)檢驗方法的選擇:假設(shè)檢驗的基本步驟1 .建立檢驗假設(shè),確定檢驗水準2 .選擇檢驗方法和計算統(tǒng)計量3 .確定概率P值和作出統(tǒng)計推斷:P值是在H0成立前提下,比樣本統(tǒng)計量(Z、t、F值等)更極端的概率。四、根據(jù)統(tǒng)計推斷結(jié)果,結(jié)合相應(yīng)的專業(yè)知識,給出一個專業(yè)的結(jié)論。兩總體均數(shù)差異性檢驗大樣本(兩組例數(shù)均50例):z近似,t更精確配對設(shè)計資料均數(shù)的比較1 .異源配對:將受試對象按某些混雜因素(如性別、年齡、窩別等)配成對子,然后將每,對子成對出現(xiàn),僅對對子中對中的兩個個體隨機分配給兩種處理(如處理組與對照組)的兩個體進行隨機。2 .同源配對(或自身配對):同一受試對象作兩次不同的處理(如甲法、
33、乙法),或一種處理的前后比較。優(yōu)點:特點:配對設(shè)計減少了比較對子間的個體差異。資料成對(對子編號),利用每對數(shù)據(jù)間的差值(d)作比較Sd /、 n Sd / * nSd,=n-1完全隨機設(shè)計兩總體均數(shù)的比較實驗設(shè)計:用完全隨機設(shè)計(completelyrandomdesign)方法,把受試對象隨機分為兩組,分別給予不同處理,然后比較獨立的兩組樣本均數(shù)。各組對象數(shù)不必嚴格相同。但兩組例數(shù)相等,可提高檢驗效能。兩總體均數(shù)的Z檢驗當總體方差已知時,應(yīng)使用Z檢驗大樣本(如兩組例數(shù)均50例)情況下,盡管總體方差未知,也可用樣本方差取代總體方差,用Z檢驗作近似計算兩總體方差間的差異性檢驗自由度n1-1,n
34、2-1使用雙側(cè)的原因:計算F值時,較大方差S2可以作為分子,也可作為分母。注意:一般的方差分析,只采用單側(cè)檢驗對出現(xiàn)方差不齊情況時統(tǒng)計學(xué)應(yīng)對策略1 .采用不以來總體分布的非參數(shù)檢驗2 .對原變量合適數(shù)學(xué)變換,使方差變?yōu)辇R性方差3 .當各組方差相差懸殊時課采用Welch加權(quán)方差分析總體方差齊同情況下的t檢驗:自由度=n1+n2-2均數(shù)的標準誤:SX1 X2Si11)n1“方差不齊時t'檢驗SXi X2(XiX2)0(XiX2)S2S2nin2S2s22n1n2°22C22ni一(n11)(n21)卡方檢驗Chi-squareTest卡方檢驗是對分類資料進行統(tǒng)計推斷分析的一種方法
35、。它可以用來比較兩個或多個率的差異(同質(zhì)性檢驗)或檢驗兩個指標是否關(guān)聯(lián)(關(guān)聯(lián)性檢驗)或判斷列聯(lián)表的邊際分布是否一致(一致性檢驗)等。r。理論頻數(shù):Ejn卡方檢驗的分類A) 2X2四格表:(1)同質(zhì)性檢驗一比較兩個率;(2)關(guān)聯(lián)性檢驗B) 2Xk列聯(lián)表:(1)同質(zhì)性檢驗一比較k個率;(2)關(guān)聯(lián)性檢驗;(3)趨勢分析C) RXC列聯(lián)表:關(guān)聯(lián)性檢驗:雙向無序,單向有序,雙向有序D) kxk配對分類數(shù)據(jù)的卡方檢驗:1)一致性檢驗(reliabiHty);2)對稱性檢驗(symmetry)卡方界值X2(0.05,1)=3.841自由度df=(行數(shù)-1)(列數(shù)-1)=1四格表專用公式(Pearson公式)
36、連續(xù)性校正公式Y(jié)ates:當樣本含量40,如有一個格子理論頻數(shù)小于5時使用四格表的精確概率Fisherexact若有理論頻數(shù)小于1或n<40時,尤其時用其它方法計算概率接近檢驗水平時使用四格表卡方檢驗方法的選擇原則對于成組分類數(shù)據(jù)的2X2表:a) n>40,且所有E>5-Pearson(一般公式)b) n>40,但有1<E<5-Yates(校正公式)c) n<40或有E<1或pa-Fisher'sexact(精確算法)1) 左單側(cè)檢驗:H0:兀1=兀2vsH1:兀1<九22) 右單側(cè)檢驗:H0:兀1=兀2vsH1:兀1>兀23
37、) 雙側(cè)檢驗:H0:兀1=兀2vsH1:冗1w冗2左側(cè)概率+右側(cè)概率-原表格概率=1行X列表卡方檢驗:RxC表有序分類型數(shù)據(jù)的卡方檢驗TheChi-squaretestforordinalcategoricaldata1)有序分類變量的量化方法(1)等距離法(2)非等距離法(3)秩得分法(rankscores):第i行秩得分:r1ink(ni1)/2ki第j行秩得分:c1ink(nj1)/2kj(4)Ridit得分法(riditscores):在秩得分的基礎(chǔ)上進行:r2i=ri/n;c2i=ci/n(5)調(diào)整Ridit得分法(modriditscores):在秩得分的基礎(chǔ)上進行:r3i=r1i
38、/(n+1);c3i=c1i/(n+1)2)標準化得分=(樣本得分-n個樣本得分均值)/得分標準差配比方表同質(zhì)與對稱性檢驗kxk配對分類數(shù)據(jù)的卡方檢驗1) 一致性檢驗(reliability)一致性檢驗方法-kappa檢驗2)對稱性檢驗(symmetry)(a) McNemar檢驗-2x2表配對四格表公式:(b c)2b cb+c > 40時使用(b c 1)2b cb+c<40時使用校正(b) Bowker檢驗-kxk表非參數(shù)檢驗(nonparametrictest)參數(shù)檢驗parametrictest(1)總體分布類型已知,如率服從二項分布、樣本均數(shù)服從正態(tài)分布;(2)由樣本參
39、數(shù)推斷未知總體參數(shù)。這時,對總體參數(shù)mp的假設(shè)檢驗稱為參數(shù)檢驗。如t檢驗,F(xiàn)檢驗。非參數(shù)檢驗(nonparametrictest):對數(shù)據(jù)的總體分布類型不作嚴格假定,又稱任意分布檢驗(distribution-freetest),它直接對總體分布的位置作假設(shè)檢驗。參數(shù)檢驗(parametrictest):已知總體分布類型,對未知參數(shù)進行統(tǒng)計推斷依賴于特定分布類型,比較的是參數(shù)非參數(shù)檢驗(nonparametrictest):對總體的分布類型不作嚴格要求,不受分布類型的影響,比較的是總體分布位置優(yōu)點:方法簡便、易學(xué)易用,易于推廣使用、應(yīng)用范圍廣;可用于參數(shù)檢驗難以處理的資料(如等級資料,或含數(shù)值
40、”>50mg等)缺點:方法比較粗糙,對于符合參數(shù)檢驗條件者,采用非參數(shù)檢驗會損失部分信息,其檢驗效能較低;樣本含量較大時,兩者結(jié)論常相同應(yīng)用非參數(shù)檢驗的情況:1 .不滿足正態(tài)和方差齊性條件的小樣本資料;2 .總體分布類型不明的小樣本資料;3 .一端或二端是不確定數(shù)值(如<0.002、>65等)的資料(必選);4 .單向有序列聯(lián)表資料;5 .各種資料的初步分析。秩次(tie)將數(shù)值變量值從小到大,或等級變量值從弱到強所排列的序號。兩個獨立樣本檢驗Wilcoxon秩和檢驗Wilcoxonranksumtest1 .區(qū)間(計量)數(shù)據(jù)的兩樣本比較:符合參數(shù)條件時,采用兩樣本均數(shù)的t檢
41、驗2 .有序(等級)數(shù)據(jù)的兩樣本比較常錯誤采用卡方檢驗名義數(shù)據(jù)的兩樣本比較,采用率或構(gòu)成比的卡方檢驗K個獨立樣本檢驗完全隨機設(shè)計多個樣本比較的Kruskal-WallisH檢驗1.區(qū)間(計量)數(shù)據(jù)的多個樣本比較Kruskal-WallisH檢驗;如果滿足參數(shù)條件,這類資料一般作完全隨機設(shè)計ANOVAK個相關(guān)樣本檢驗:隨機區(qū)組設(shè)計多個樣本比較的FriedmanM檢驗等級相關(guān):應(yīng)用:兩個樣本的相關(guān)分析,當兩個變量不服從正態(tài)分布時,可以采用等級相關(guān)分析。醫(yī)學(xué)研究的統(tǒng)計學(xué)設(shè)計研究設(shè)計的基本類型1 .實驗(Experiment)研究(干預(yù))受試對象:人臨床試驗(clinicaltrial)動物動物實驗(
42、animalexperiment)臨床試驗:治療臨床療效實驗預(yù)防社區(qū)干預(yù)實驗(communityinterventiontrial)2 .調(diào)查(Survey)研究(無干預(yù))被動地觀察、如實記錄研究設(shè)計的重要性設(shè)計好:(1)既省又可靠;(2)可估計和控制誤差;(3)獲取多方面知識設(shè)計不好:(1)雜亂無章、雖多猶無;(2)只能羅列現(xiàn)象、無規(guī)律可言兩種研究類型的區(qū)別與聯(lián)系實驗研究調(diào)查研究干預(yù)因素施加不施加研究類型推斷性描述性研究范圍較小大研究地點實驗室或現(xiàn)場現(xiàn)場控制誤差較好較差如萬辛多對調(diào)查加以驗為實驗提供線相互關(guān)系、丁代證索研究設(shè)計的基本要素(一)處理因素(treatmentfactor)(二)受
43、試對象(subject)(三)實驗效應(yīng)(experimentaleffect)1 .客觀性:主觀指標和客觀指標。2 .精確性:準確度(accuracy)或真實性(validity)觀察值與真實值的接近程度,受系統(tǒng)誤差的影響。常用指標:靈敏度、特異度精密度(precision)或可靠性(reliabiliy)或重復(fù)性(repeatability)重復(fù)觀察時觀察值與其均值的接近程度,受隨機誤差的影響。常用指標:Kappa值、一致百分率實驗設(shè)計的基本原則1.隨機化原則(randomization);2.對照原則(control);3.重復(fù)原則(replication):重復(fù)(replication)
44、是指各處理組與對照組要有一定樣本含量(samplesizes)。幾種不同設(shè)計類型的隨機化分組:(1)完全隨機實驗設(shè)計:將觀察單位完全隨機地分配到實驗組與對照組或幾個對比組中(2)配對實驗設(shè)計pairedexperimentdesign:1.同源配對:同一受試對象用兩種不同的實驗方法;受試對象自身實驗前后的對比。2.非同源配對:將具有相同條件的實驗對象配成對子。(3) 隨機區(qū)組實驗設(shè)計(randomizedblockexperimentdesign)(1)將多方面條件相近的受試對象配成一組,稱作一個區(qū)組(block)。(2)每個區(qū)組的受試對象個數(shù)取決于對比組組數(shù)。(3) 每個區(qū)組的受試對象被隨機
45、地分配到各對比組中。配對設(shè)計的擴展,故又稱配伍組設(shè)計(4) 交叉設(shè)計:(cross-overexperimentdesign)每個受試者隨機地在兩個或多個不同試驗階段分別接受指定的處理(試驗藥或?qū)φ账帲?。同源配對設(shè)計的擴展優(yōu)點:(1)控制個體間的差異,(2)減少受試者人數(shù)。對照的形式:包括:空白對照、實驗對照、標準對照、自身對照、相互對照、歷史對照設(shè)立對照應(yīng)注意的事項(1)均衡:對照組與實驗組除研究因素外,其他因素應(yīng)盡可能相同(2)同步:對照組與實驗組應(yīng)處于同一空間和同一時間常用的抽樣方法1 .單純隨機抽樣simplerandomsampling:先將總體的全部觀察對象編號,再利用抽簽或隨機數(shù)
46、字表的方法隨機抽取觀察對象組成樣本。最基本的抽樣方法2 .保統(tǒng)抽樣systematicsampling:按照一定的順序,機械地每隔若干個單位抽取一個單位的方法。又稱間隔抽樣,機械抽樣3 .分層抽樣stratfiedsamplin而先按某種特征將總體分為若干組別、類型或區(qū)域等(統(tǒng)稱為“層”),再用隨機抽樣的方法從每個子總體中抽取樣本。要求“層內(nèi)齊同,層間不同”。4 .整群抽樣clustersampling:按群體而不是按個體抽取觀察單位的抽樣方法。各種抽樣方法的抽樣誤差順序:分層系統(tǒng)0單純整群誤差(error):實測值與真值之差。系統(tǒng)誤差(systematicerror)|:在一定實驗條件下,由
47、某種未發(fā)現(xiàn)或未確定的因素所引起觀測值具有方向性和系統(tǒng)性的誤差,又稱偏倚(bias)。(三)系統(tǒng)誤差類型及其控制類型發(fā)生階段控制選擇偏倚設(shè)計隨機化測量偏倚實施盲法混雜偏倚分析配對、分層樣本含量的估計與檢驗效能樣本含量(samplesize)|:為了保證研究結(jié)論的可靠性,確定的實驗研究或調(diào)查研究所需要的最低觀察對象的數(shù)量。檢驗效能(power)|:也叫把握度,即1-B(第二類錯誤的概率)。如果兩總體參數(shù)實際有差異(H1成立),按a水準,假設(shè)檢驗?zāi)馨l(fā)現(xiàn)這種差異的能力(真陽性)。通常要求達到80%£90%(即B=0.2或B=0.1),不得低于75%樣本含量的影響因素1 .檢驗水準a:a低,則
48、n高?2 .檢驗效能1-B:(1-B)高,則n高,(1-B)>0.75,通常取0.8或0.9。3 .客觀差異6(delta),即比較總體參數(shù)間的差值(如m1-m2,p1-p2)。6低,則n高4 .總體標準差6、總體平均數(shù)小(或總體率九),這里主要指離散程度指標。高,貝Un個體間標準差越小或樣本含量越大,檢驗效能越大;s小或n大一均數(shù)對應(yīng)的概率密度曲線(m,s2/n)瘦高一檢驗效能大第一類錯誤的概率a越大,檢驗效能越大客觀差異6越大,檢驗效能越大樣本含量的估計1 .均數(shù)抽樣2 .率的抽樣3 .樣本均數(shù)與總體均數(shù)比較2(z/2z)n4 .兩樣本均數(shù)比較n15 .配對計量資料比較2(z/2z)
49、dn山:每對觀察對象差值的標準差6 .兩樣本率比較冗1和冗2:分別表小兩組的總體率Ttc:兩組的合并率7.配對計數(shù)資料比較:兀+-=b/(a+b),兀-+=c/(a+c),兀c=(兀+-+兀-+)/2檢驗效能及其計算出現(xiàn)“陰性”結(jié)果有兩種可能:(1) (1-B)較大,被比較的指標間很可能無差別。(2) (1-B)較小,所比較的指標間很可能差別有顯著性,但由于樣本含量不足而未能發(fā)現(xiàn)。Z0一查z值表一B一(1-B)ZB的計算1 .兩樣本均數(shù)比較:|x1X2z11zsc"n2(6未知時)2 .配對計量資料比較N為對子數(shù),為差值均數(shù),Sd為差值標準差。多元線性回歸分析分析多個變量之間的相互關(guān)
50、聯(lián)和相互依存的關(guān)系多元線性回歸模型的矩陣形式:y=xB+ey是因變量觀察值構(gòu)成的向量,x是自變量觀察值和常數(shù)項構(gòu)成的矩陣,B是未知參數(shù)構(gòu)成的向量(待估計的偏回歸系數(shù)向量),e是因變量的殘差構(gòu)成的向量。多元線性回歸分后研究一個因變量與一組自變量的依存關(guān)系,即,研究一組自變量是如何直接影響一個因變量的。多元線性回歸分析的基本原理:利用觀察或收集到的因變量和自變量的一組數(shù)據(jù)建立一個因變量關(guān)于自變量的線性函數(shù)模型,并且,這個模型最好地擬和了觀察數(shù)據(jù)。多元線性回歸分析的方法步驟一、估計參數(shù);二、檢驗參數(shù);三、檢驗?zāi)P停凰?、模型診斷;五、解釋模型參數(shù)的實際意義。估計參數(shù)(估計偏回歸系數(shù)Bj)方法最小二乘法
51、標準偏回歸系數(shù)的估計同一模型中對參數(shù)的標準估計值進行大小比較,絕對值大的b'j對應(yīng)的自變量xj對因變量y的影響大,或者說,與因變量y的關(guān)聯(lián)性強。bj表示了當其它自變量不變時,xj改變一個單位所引起的y的改變量。復(fù)確定系數(shù)(multipledeterminentcoefficient):它表示了因變量y的總體變異中被所有自變量所解釋的比例。多元線性回歸分析的逐步回歸法1 .向前選擇法(forwardselection);2.向后消去法(backwardelimination);3.逐步過程法(stepwiseprocedure)決定模型好壞的常用指標有三個:檢驗總體模型的p-值,確定系數(shù)
52、R2值和檢驗每一個回歸系數(shù)bj的p-值。多元相關(guān)分析相關(guān)分析(correlationanalysis):研究兩個或多個變量之間關(guān)聯(lián)性或關(guān)聯(lián)程度的一種統(tǒng)計分析方法。相關(guān)系數(shù)(correlationcoefficient):描述變量之間的關(guān)聯(lián)程度大小的常數(shù),它介于-1和1之間,一般用p來表示。多個變量之間關(guān)系三個基本方法:2 .偏相關(guān)分析partialcorrelationanalysis:判斷其它因素不變的情況下,一個變量與另一個變量之間是否關(guān)聯(lián)。3 復(fù)相關(guān)分析multiplecorrelationanalysis:判斷一個變量與另一組變量之間是否關(guān)聯(lián)4 .典型相關(guān)分析canonicalcorrelationanalysis:判斷一組變量與另一組變量之間是否關(guān)聯(lián)多元線性回歸分析模型:Y=a+B1X1+02X2+03X3+e偏相關(guān)系數(shù)(partialcorrelationcoefficient):度量了當其它變量固定不變時,或者說在消除了其它變量的影響之后,兩個變量之間線性關(guān)聯(lián)的強度。多元相關(guān)分析和多元回歸分析的異同點相同點是:討論了變量之間的關(guān)聯(lián)性。不同點是:多元回歸分析給出了變量之間的依存關(guān)系,而多元相關(guān)分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 44811-2024物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量評價方法
- 2024年度年福建省高校教師資格證之高等教育學(xué)題庫檢測試卷B卷附答案
- 2024年度山西省高校教師資格證之高等教育法規(guī)綜合檢測試卷B卷含答案
- 運用邏輯思維
- 2024專業(yè)采購協(xié)議模板
- 2024新水電安裝合作協(xié)議樣本
- 2024年鋼筋工程承包協(xié)議范本
- 2024年勞動協(xié)議固定期限本參考
- 2024年中央空調(diào)系統(tǒng)工程協(xié)議
- 2024年汽車信貸保證協(xié)議模板定制
- 【類文閱讀】25.古人談讀書(試題)五年級語文上冊 部編版(含答案、解析)
- 新疆維吾爾自治區(qū)吐魯番市2023-2024學(xué)年九年級上學(xué)期期中數(shù)學(xué)試題
- 小學(xué)信息技術(shù)《認識“畫圖”》說課稿
- 魯教版七年級上冊地理知識點匯總
- 新課標-人教版數(shù)學(xué)六年級上冊第四單元《比》單元教材解讀
- 全國高中青年數(shù)學(xué)教師優(yōu)質(zhì)課大賽一等獎《函數(shù)的單調(diào)性》課件
- 部編版道德與法治 四年級上冊 單元作業(yè)設(shè)計《為父母分擔》
- 核酸的生物合成 完整版
- 第一章-教育及其本質(zhì)
- 天然氣巡檢記錄表
- 食品進貨臺賬制度范本(3篇)
評論
0/150
提交評論