關(guān)于生物統(tǒng)計(jì)學(xué)基本概念及公式_第1頁
關(guān)于生物統(tǒng)計(jì)學(xué)基本概念及公式_第2頁
關(guān)于生物統(tǒng)計(jì)學(xué)基本概念及公式_第3頁
關(guān)于生物統(tǒng)計(jì)學(xué)基本概念及公式_第4頁
關(guān)于生物統(tǒng)計(jì)學(xué)基本概念及公式_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、生物統(tǒng)計(jì)學(xué)(Biostatistics)是以概率理論為基礎(chǔ),研究生命科學(xué)中隨機(jī)現(xiàn)象規(guī)律性的應(yīng)用數(shù)學(xué)科學(xué)。涉及到醫(yī)學(xué)科學(xué)研究的設(shè)計(jì)、資料搜集、歸納、分析與解釋的一門應(yīng)用性基礎(chǔ)學(xué)科、二、科學(xué)研究的基本程序1、提出一個(gè)欲待研究的問題:2、科學(xué)研究設(shè)計(jì):專業(yè)設(shè)計(jì)、統(tǒng)計(jì)學(xué)設(shè)計(jì):統(tǒng)計(jì)學(xué)設(shè)計(jì)(statisticaldesign):是指用統(tǒng)計(jì)學(xué)原理對(duì)研究的全過程所作出的周密合理的統(tǒng)籌安排,如確定研究對(duì)象,擬定研究因素及其分配,如何執(zhí)行隨機(jī)、對(duì)照與重復(fù)的統(tǒng)計(jì)學(xué)原則,如何觀察與度量效應(yīng),以及數(shù)據(jù)收集、整理與分析的方法,通過合理的、系統(tǒng)的安排,達(dá)到控制系統(tǒng)誤差,以盡可能少的資源消耗(最小的人力、物力、財(cái)力和時(shí)間)獲

2、取準(zhǔn)確可靠的信息資料及可信的結(jié)論,使效益最大化。3、獲取試驗(yàn)與觀察的資料,又稱為搜集資料4、數(shù)據(jù)審核與計(jì)算機(jī)錄入5、分析資料描述性統(tǒng)計(jì)(descriptivestatistics)是指用統(tǒng)計(jì)指標(biāo)、統(tǒng)計(jì)圖、統(tǒng)計(jì)表等方法,對(duì)數(shù)據(jù)的特征及其分布規(guī)律進(jìn)行檢測(cè)與描述。統(tǒng)計(jì)推斷(inferentialstatistics)是通過隨機(jī)樣本信息推斷總體特征的過程。統(tǒng)計(jì)推斷又包括置信區(qū)間(con巾denceinterval)估計(jì)與統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)(hypothesistest)統(tǒng)計(jì)學(xué)分析過程按變量的多寡可分為單變量分析與多重變量分析。6、分析結(jié)果的合理解釋(Explicationofresults):研究中應(yīng)注意

3、的問題1、統(tǒng)計(jì)學(xué)結(jié)論的正確與否取決于統(tǒng)計(jì)學(xué)分析數(shù)據(jù)的真實(shí)性、準(zhǔn)確性以及研究樣本對(duì)研究總體的代表性。2、盡可能地控制系統(tǒng)誤差是統(tǒng)計(jì)分析數(shù)據(jù)真實(shí)性、準(zhǔn)確性的保證。3、隨機(jī)化抽樣是確保樣本數(shù)據(jù)對(duì)研究總體具有代表性的重要過程。變量variable:依總體中,個(gè)體的許多屬性(如年齡、性別、血漿膽固醇等)存在變異性,統(tǒng)計(jì)學(xué)上將反映個(gè)體屬性變異性特征的指標(biāo)稱為隨機(jī)變量(Randomvariable)|,簡稱變量;針對(duì)不同類型的屬性,需采用不同類型的變量,因而產(chǎn)生不同類型的資料??傮w(Population)與樣本(Sample)|:根據(jù)研究目的所確定的具有相同性質(zhì)的觀察單位的集合成為總體(母體)。從同一總體中

4、通過隨機(jī)化過程抽取的部分觀察單位稱為樣本(子樣)。抽樣(Sampling)恢研究總體中通過一定原則獲取樣本的過程樣本含量(Samplesize).樣本中所包含的基本研究單位數(shù)量同質(zhì)(Homogeneity):同一總體中的每一個(gè)體都具有相同性質(zhì)類別的特征。變異(Variation)二|同一總體中的各個(gè)體間的差異性。遁機(jī)化(randomization):9使總體中每一觀察單位均能以同等機(jī)會(huì)(概率)進(jìn)入樣本,或分配到實(shí)驗(yàn)組與對(duì)照組的過程。抽樣誤差(SamplingError)|:由于總體中各個(gè)體間存在變異性,因抽樣過程的隨機(jī)性所至樣本的統(tǒng)計(jì)量與總體的參數(shù)不等,或多個(gè)樣本的統(tǒng)計(jì)量存在差異性稱為抽樣誤差

5、。概率(Probability)|:描述隨機(jī)事件發(fā)生的可能性的度量。隨機(jī)事件A的發(fā)生概率記為P(A)。概率的取值在0到1之間,若P=1或P=0的事件稱為必然事件,若0<P<1的事件為隨機(jī)事件。概率接近于0(如P<0.05)的事件稱為小概率事件。分布(distribution個(gè)隨機(jī)試驗(yàn)的所有結(jié)局事件與對(duì)應(yīng)的概率的排列稱為分布。對(duì)應(yīng)于樣本數(shù)量值分布稱其為頻;|yK/LFrequencyDistribution;對(duì)應(yīng)總體數(shù)量值的分布則稱其為概率分布(ProbabilityDistribution)參數(shù)(Parameter):描述總體特征的數(shù)量稱為參數(shù);常用希臘字符表示,如以表示總體

6、均數(shù),(T表小總體標(biāo)準(zhǔn)差,冗表小總體率。統(tǒng)計(jì)量(Statistic)|:描述樣本特征的數(shù)量稱為統(tǒng)計(jì)量;常用英語字母表示,如x表示樣本均數(shù),s表示樣本標(biāo)準(zhǔn)差,p表示樣本率。生物醫(yī)學(xué)數(shù)據(jù)的組織與表達(dá)變量的類型:按變量測(cè)量的精確程度由低到高,將數(shù)據(jù)分類為:名義變量(如性別、婚姻狀況)、有序變量(如療效,類別問差別大小難以度量)、區(qū)間變量(如攝氏體溫,類別問差別有實(shí)際意義)、比變量(如身高,除具有區(qū)間變量的特征外,還具有真實(shí)意義的零點(diǎn)。攝氏溫度的零點(diǎn)為水結(jié)冰時(shí)溫度,并非絕對(duì)意義的零點(diǎn),所以它不屬于比變量)1、定性變量(QualitativeVariable)(1)名義變量(Nominalvariabl

7、e)二項(xiàng)分類:性別分類,如男性為1,女性為0。多項(xiàng)無序分類:血型的A、B、AR。型多項(xiàng)無序分類(2)有序(等級(jí))變量(Ordinalorrankingvariable)多項(xiàng)有序分類:療效觀測(cè)分為顯效、有效、好轉(zhuǎn)及無效4個(gè)類別。2、定量變量(QuantitativeVariable)(1)區(qū)間變量(intervalvariable):或數(shù)值變量(numericalvariable)如:身高,血壓,血清膽固醇濃度,體溫,脈搏計(jì)數(shù)、紅細(xì)胞計(jì)數(shù)、玫瑰花環(huán)計(jì)數(shù)、住院天數(shù)等。(一般有度量衡單位,類別間的差別大小有實(shí)際意義)(2)比變量(ratiovariable):以上例子中除體溫外(具有真實(shí)意義的零點(diǎn))

8、連續(xù)型變量(Continuousvariable)與離散型變量(Discretevariables)根據(jù)觀察數(shù)據(jù)之間有無縫隙(gap),常將數(shù)據(jù)分類為離散型變量(有縫隙)與連續(xù)型變量(無縫隙)兩大類,名義變量一定是離散型變量;連續(xù)型變量只能是比、區(qū)間和有序變量,但比、區(qū)間和有序變量也可以是離散型變量頻數(shù)分布表:*定量數(shù)據(jù)的頻數(shù)分布;*(非配對(duì)設(shè)計(jì))定性數(shù)據(jù)的頻數(shù)分布*配對(duì)設(shè)計(jì)定性數(shù)據(jù)的頻數(shù)分布頻數(shù)(frequency)|:將定量數(shù)據(jù)分類成若干個(gè)組段,或?qū)⒍ㄐ詳?shù)據(jù)分類成若干個(gè)類別,所清點(diǎn)得到的每一組段或類別的數(shù)據(jù)出現(xiàn)個(gè)數(shù)。頻數(shù)表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全

9、距。R=6.29-2.72=3.57mmol/L(2)決定分組組數(shù)、組距:組距=極差/組數(shù)。(3)列出組段:(4)劃記計(jì)數(shù)。(非配對(duì)設(shè)計(jì))定性數(shù)據(jù)的頻數(shù)分布:*一維頻數(shù)表*二維頻數(shù)表*高維頻數(shù)表統(tǒng)計(jì)圖形表達(dá):*直方圖(Histogram):用于描述定量變量的數(shù)據(jù)分布特征。*概率-概率散點(diǎn)圖(p-pplot)又稱為p-p圖或百分點(diǎn)圖,橫軸為觀察累積概率,縱軸為理論(如正態(tài))累積概率,確定樣本數(shù)據(jù)對(duì)于理論分布的一致性;*分位數(shù)-分位數(shù)散點(diǎn)圖(q-qplot)又稱為q-q圖,橫軸為觀察值,縱軸為理論(如正態(tài))分位數(shù),確定樣本數(shù)據(jù)對(duì)于理論分布的一致性繪P-P或QQ圖的數(shù)據(jù)*莖葉(Stem-Leaf)圖

10、*盒式圖(Boxplot)直條圖(Barchart):用直條反映定性變量不同類別下的某指標(biāo)大小。餅圖(pieChart):反映定性變量各個(gè)分類的構(gòu)成情況。*散點(diǎn)圖*線圖*統(tǒng)計(jì)地圖(statisticalmap)SA必話窗口界面:三個(gè)基本窗口*Editor編輯窗:在此編寫SAS程序*Log記錄窗:記錄程序運(yùn)行過程中所做的內(nèi)容,如所運(yùn)行的數(shù)據(jù)情況、所調(diào)用的過程步、程序運(yùn)行時(shí)間等(紅色-錯(cuò)誤綠色一警告蘭色一正常)*Output結(jié)果輸出窗:統(tǒng)計(jì)分析的結(jié)果。*Result窗口*Explorer窗口單變量綜合性描述統(tǒng)計(jì)量常用的中心趨勢(shì)指標(biāo):算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù),統(tǒng)稱為平均數(shù)(average)算

11、術(shù)平均數(shù)TheArithmeticmean|:簡稱均數(shù)(Mear)或均值,定義為所有測(cè)量值之和除以變量值個(gè)數(shù)(即,樣本含量SampleSize)。反映一組呈對(duì)稱分布的變量值在數(shù)量上的平均水平。(1)直接計(jì)算法:公式:nXii 1n(2)加權(quán)法:XkXi fi i 1 kfii 1Xi i 1fikfii 1組中值=(下限值+上限值)/2均數(shù)的特征:*最常用,特別是正態(tài)分布資料;拉向自己;*離均差的和為0*對(duì)極值非常敏感,最大值和最小值常將其中位數(shù)(median)|:是將每個(gè)變量值從小到大排列,位置居于中間的那個(gè)變量值公式:n為奇數(shù)時(shí)MXn1(")n為偶數(shù)時(shí)M1XnXn2(2)(21)

12、頻數(shù)表資料的中位數(shù)中位數(shù)的特征:計(jì)算時(shí)只利用了位置居中的測(cè)量值,優(yōu)點(diǎn):對(duì)極值不敏感,缺點(diǎn):并非考慮到每個(gè)觀測(cè)值;適用于各種分布類型的資料,特別適合于:大樣本偏態(tài)分布資料或者一端或兩端無確切數(shù)值的資料百分位數(shù)(percentile):直接計(jì)算設(shè)有n個(gè)原始數(shù)據(jù)從小到大排列,第X百分位數(shù)的計(jì)算公式為:當(dāng)nX%fe帶有小數(shù)位時(shí):PxXint(nX%)11當(dāng)nX%為整數(shù)時(shí):PX-X(nX%)X(nX%i)頻數(shù)表法:計(jì)算方法大致同中位數(shù)幾何均數(shù)(geometricmean):可用于反映一組經(jīng)對(duì)數(shù)轉(zhuǎn)換后呈對(duì)稱分布或正態(tài)分布的變量值在數(shù)量上的平均水平。公式:GnX1X2.Xn(2)加權(quán)法:Glg1(號(hào)X)幾何

13、均數(shù)的特征1、幾何均數(shù)適用于對(duì)數(shù)正態(tài)分布,如藥物的效價(jià)、抗體的滴度、傳染性疾病的潛伏期等資料。2、變量x服從對(duì)數(shù)正態(tài)分布,即表示變量lg(xi)服從正態(tài)分布。對(duì)于lg(xi),具有正態(tài)分布的所有特性。眾數(shù)(Mode:蛙一群數(shù)據(jù)中出現(xiàn)次數(shù)(頻數(shù))最多的值。適用于大樣本;較粗糙。眾數(shù)的特征:1、對(duì)于某些數(shù)據(jù)而言,例如均勻分布,并不存在眾數(shù);2、對(duì)于某些數(shù)據(jù)存在兩個(gè)或多于兩個(gè)的眾數(shù);3、定性數(shù)據(jù)可以存在眾數(shù);4.眾數(shù)對(duì)于進(jìn)一步的統(tǒng)計(jì)學(xué)計(jì)算與分析不具備應(yīng)用價(jià)值。離散與變異性指標(biāo):全距;方差;標(biāo)準(zhǔn)差;變異系數(shù);四分位間距;多樣性指數(shù)全距range'T"最大值與最小值之差,也叫極差,即R

14、=Max(x)?Min(x).方差:(Variance)也稱均方差(meansquaredeviation),反映一組數(shù)據(jù)的平均離散水平。樣本方差為各變量值到樣本均數(shù)距離的平方和除以自由度的商值,即n(xi口2總體方差:b2LN標(biāo)準(zhǔn)差:樣本標(biāo)準(zhǔn)差為樣本方差的平方根;總體標(biāo)準(zhǔn)差為總體方差的平方根。樣本標(biāo)準(zhǔn)差實(shí)用公式nn(為)2xi2i1i inn 1kk( fiX)2fix2 i1k i1fii 1 kfi 1 i 1樣本標(biāo)準(zhǔn)差的加權(quán)公式隨機(jī)變量xi的標(biāo)準(zhǔn)化:如果隨機(jī)變量xi服從正態(tài)分布,均數(shù)和標(biāo)準(zhǔn)差分別為X和s,則隨機(jī)變量xi的標(biāo)準(zhǔn)化正態(tài)離差值(Standardnormaldeviation)

15、又稱為標(biāo)準(zhǔn)化得分值(StandardScores)、廠xiX為:Zi-s變異系數(shù)(coefficientofvariation,CV):常用于比較度量單位不同或均數(shù)相差懸殊s的兩組(或多組)資料的變異程度。CV亍100%x四分位數(shù)間距(inter-quartilerange):用IQR表示:IQR=P75P25=QMQ4多樣性指數(shù)(IndicesofDiversity)|:描述無序分類變量在各各義類別間頻數(shù)的離散度用嫡與最大嫡之比表達(dá)離散度率、比的均數(shù)與方差率(rate)|:在特定條件下,可能發(fā)生某現(xiàn)象的總例數(shù)中,實(shí)際發(fā)生某現(xiàn)象的強(qiáng)度或頻率。比(ratio)|:構(gòu)成比(Proportion,c

16、onstituentratio):構(gòu)成比指標(biāo)用以表示事物內(nèi)部某一構(gòu)成成分在全部構(gòu)成中所占的比例或比重。相對(duì)比(relativeratio)是由兩個(gè)有關(guān)聯(lián)的指標(biāo)之比。應(yīng)用率比指標(biāo)時(shí)的注意事項(xiàng)1、保證有足夠樣本含量;2、不要將率和比指標(biāo)混淆;3、注意平均率的計(jì)算;4、率和比指標(biāo)比較時(shí),要有可比性(不可比時(shí)可采用率標(biāo)準(zhǔn)化);5、不要簡單由樣本率的差異做出結(jié)論。率比和均數(shù)一樣都有抽樣誤差,需采用假設(shè)檢驗(yàn)下結(jié)論。隨機(jī)變量、概率和概率分布頻率frequency:本的實(shí)際發(fā)生率。設(shè)在相同條件下,獨(dú)立重復(fù)進(jìn)行n次試驗(yàn),事件A出現(xiàn)f次,則事件A出現(xiàn)的頻率為f/n。概率probability:隨機(jī)事件發(fā)生的可能性

17、大小,用大寫的P表示;取值0,1。樣本空間(samplingspace):隨機(jī)試驗(yàn)的所有可能的結(jié)果稱為樣本空間。頻率與概率間的關(guān)系:1.樣本頻率總是圍繞概率上下波動(dòng);2.樣本含量n越大,波動(dòng)幅度越小,頻率越接近概率。事件間的關(guān)系:(1)和事件(Unionoftwoevents):事件A或者事件B發(fā)生(A或B)或(AUB)(2)積事件(Intersectionoftwoevents):事件A與事件B同時(shí)發(fā)生(A與B)或(ACB(3)互斥事件:事件A、事件B不可能同時(shí)發(fā)生(也可都不發(fā)生),則事件A與事件B互斥(4)對(duì)立事件:事件A、事件B不可能同時(shí)發(fā)生,并且事件A與事件B必有一個(gè)發(fā)生。條件概率(c

18、onditionprobability)若關(guān)心的事件為B,以事件A為條件,則在A的條件下,事件B發(fā)生的概率為P(B|A)事件的獨(dú)立性:若事件A的發(fā)生不影響事件B的發(fā)生,即事件A與事件B相互獨(dú)立,則有P(B|A)=P(B)概率分布(probabilitydistribution):描述隨機(jī)變量值xi及這些值對(duì)應(yīng)概率P(X=xi)的表格、公式或圖形。概率密度函數(shù)(probabilitydensityfunction):如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。大多數(shù)情況下,可采用一個(gè)函數(shù)擬合這一光滑曲線。這種函數(shù)稱為常用的概率分布:離散型隨機(jī)變量分布一、二項(xiàng)分布二、泊

19、松分布當(dāng)二項(xiàng)分布中n很大,冗很小時(shí),二項(xiàng)分布就變成為Poisson分布,所以Poisson分布實(shí)際上是二項(xiàng)分布的極限分布。gx由二項(xiàng)分布的概率函數(shù)可得到泊松分布的概率函數(shù)為:PXx'-x!Poisson分布主要用于描述在單位時(shí)間(空間)中稀有事件的發(fā)生數(shù)Poisson分布概率的計(jì)算Poisson分布的性質(zhì)1 .Poisson分布的均數(shù)與方差相等即(r2=m2 .Poisson分布的可加性3 .Poisson分布的正態(tài)近似:m相當(dāng)大(20)時(shí),近似服從正態(tài)分布:N(m,m)4 .二項(xiàng)分布的Poisson分布近似連續(xù)型隨機(jī)變量分布:變量的取值充滿整個(gè)數(shù)值區(qū)間,無法一一列出其每一個(gè)可能值。一

20、般將連續(xù)型隨機(jī)變量整理成頻數(shù)表,對(duì)頻數(shù)作直方圖,直方圖的每個(gè)矩形頂端連接的階梯形曲線來描述連續(xù)型變量的頻數(shù)分布。如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。大多數(shù)情況下,可采用一個(gè)函數(shù)擬合這一光滑曲線。這種函數(shù)稱為概率密度函數(shù)(probabilitydensityfunction)成功次數(shù)的概率分布一二項(xiàng)分布:p(xk)(n)Ttk(1冗)nk二項(xiàng)分布的應(yīng)用1.二項(xiàng)分布的均數(shù)與方差XB(n,九)X的均數(shù)5n冗X的方差:(rX=nu(1%)X的標(biāo)準(zhǔn)差:crXJn冗(1jt)出現(xiàn)陽性次數(shù)至多為k的概率:出現(xiàn)陽性次數(shù)至少為k的概率:正態(tài)分布(NormalDistribut

21、ion)1.概率密度函數(shù)2.概率分布函數(shù)正態(tài)分布特征(1)正態(tài)分布在橫軸上方均數(shù)處最高。(2)?正態(tài)分布以均數(shù)以為中心,左右對(duì)稱。(3)正態(tài)分布由參數(shù)以和確定。(總體均數(shù))是位置參數(shù),當(dāng)b(總體標(biāo)準(zhǔn)差)不變時(shí),仙越大,則曲線沿橫軸越向右移動(dòng);反之,以越小,曲線沿橫軸越向左移動(dòng)。是變異度參數(shù),當(dāng)以不變時(shí),越大,表示數(shù)據(jù)越分散,曲線越平坦;越小,表示數(shù)據(jù)越集中,曲線越陡峭。(4)正態(tài)分布曲線與X軸所圍成的面積為1。(5)在以士6的區(qū)間內(nèi)占總面積的68.27%,在1±1.96b的區(qū)間內(nèi)占總面積的95%在叱±2.58b的區(qū)間內(nèi)占總面積的99%標(biāo)準(zhǔn)正態(tài)分布:標(biāo)準(zhǔn)正態(tài)離差:ZX二0,此

22、概率密度函數(shù)實(shí)質(zhì)上就是正態(tài)分布的概率密度函數(shù)中仙=0,(7=1的情形。從幾何意義上=0,標(biāo)準(zhǔn)差0- =1+1.96的區(qū)間內(nèi)說,此變換實(shí)質(zhì)上是作了一個(gè)坐標(biāo)軸的平移和尺度變換,使正態(tài)分布具有平均數(shù)為小標(biāo)準(zhǔn)差(7=1。這種變換稱為標(biāo)準(zhǔn)化正態(tài)變換。因此將這種具有平均數(shù)為小的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1)正態(tài)分布概率密度曲線在-1+1的區(qū)間內(nèi)占總面積的68.27%,在-1.96占總面積的95%在-2.58+2.58的區(qū)間內(nèi)占總面積的99%標(biāo)準(zhǔn)正態(tài)分布正態(tài)分布面積或概率-11士(T68.27%-1.961.96仙±1.96695%-2.582.58仙±2.58(T99%描述

23、正態(tài)分布特征的兩個(gè)參數(shù):r1 =0為對(duì)稱,r1 >0r2 = 0為正態(tài)峰,r2偏度系數(shù)coefficientofskewness:度量隨機(jī)變量對(duì)稱性的參數(shù)為正偏態(tài),反之為負(fù)偏態(tài)。峰度系數(shù)coefficientofkurtosis:描述隨機(jī)變量陡峭度的參數(shù),>0分布較正態(tài)分布陡峭,r2<0時(shí)分布較正態(tài)分布平闊。正態(tài)分布的特征,歸納起來有兩點(diǎn):一是對(duì)稱性(symmetry):若分布不對(duì)稱就是偏態(tài),長尾拖向右側(cè)(變量值較大的一側(cè))叫做正偏態(tài),或右偏態(tài);長尾拖向左側(cè)(變量值較小的一側(cè))叫做負(fù)偏態(tài),或左偏態(tài)。二是正態(tài)峰(mesokurtosis):峰態(tài)系數(shù)是描述隨機(jī)變量陡峭度的參數(shù),分

24、為:正態(tài)峰、平闊峰、尖峭峰正態(tài)分布在醫(yī)學(xué)中的應(yīng)用1 .大多數(shù)生理生化指標(biāo)服從正態(tài)分布2 .估計(jì)醫(yī)學(xué)參考值范圍3 .質(zhì)量控制4 .二項(xiàng)分布,poisson分布的極限均為正態(tài)分布;5 .卡方、t與F分布都與正態(tài)分布有關(guān)。如果總體服從正態(tài)分布N(3s2),則從該正態(tài)總體中抽取樣本,得到的樣本均數(shù)也服從正態(tài)分布,但該分布為N(m,s2/n),此時(shí)的方差是總體的1/n倍,即有不論總體的分布形式如何,只要樣本含量n足夠大時(shí),樣本均數(shù)的分布就近似正態(tài)分布,此稱為中心極限定理centrallimittheorem。常用的三種抽樣分布2一、分布(1)自由度為1的x2分布若ZN(0,1)則Z2的分布稱為自由度為1

25、的x2分布(chi-squaredistribution),記為X:)二、t分布:自由度一1t分布的特征以0為中心,左右對(duì)稱的單峰分布;t分布曲線是一簇曲線,其形態(tài)變化與自由度的大小有關(guān)。自由度越小,則t值越分散,曲線越低平;自由度逐漸增大時(shí),t分布逐漸逼近Z分布(標(biāo)準(zhǔn)正態(tài)分布);當(dāng)趨于時(shí),t分布即為Z分布。三、F分布令2(1)和2(2)分別為服從自由度為1和2的獨(dú)立變量的卡方分布,則稱F:(“1服從分子自由度(2)2為1和分母自由度為2的F分布,記為FF(i,2)。對(duì)于樣本方差s2和s2,自由度分別為1和2的正態(tài)總體,所以有F=sF(1,2)s2統(tǒng)計(jì)推斷統(tǒng)計(jì)推斷(Statisticalinf

26、erence)是采用樣本統(tǒng)計(jì)量X、s、p、sp對(duì)相應(yīng)總體參數(shù)p、p所做的非確定性的推估。包括:1.點(diǎn)估計(jì)pointestimation;2.區(qū)間估計(jì)intervalestimation;3.假設(shè)檢驗(yàn)hypothesistesting(orsignificancetesting);4.預(yù)測(cè)(prediction)抽樣誤差(samplingerror):由于個(gè)體差異導(dǎo)致的樣本統(tǒng)計(jì)量與總體參數(shù)間的差別。標(biāo)準(zhǔn)誤(standard error, SE):即樣本均數(shù)的標(biāo)準(zhǔn)差,可用于衡量抽樣誤差的大小。樣本總體標(biāo)準(zhǔn)差已知時(shí),S S7樣本總體標(biāo)準(zhǔn)差未知時(shí),Sx三nn總體均數(shù)的點(diǎn)估計(jì)(point estimat

27、ion )與區(qū)間估計(jì)(interval estimation )參數(shù)的估計(jì):點(diǎn)估計(jì):由樣本統(tǒng)計(jì)量直接估計(jì)總體參數(shù)區(qū)間估計(jì):獲得一個(gè)置信區(qū)間(confidence interval。)100(1 a ) %可能包含未知總體參數(shù)的一個(gè)范圍值。由樣本數(shù)據(jù)估計(jì)得到的、(T(T、置信區(qū)間的有關(guān)概念:(1 a )或100(1 a ) %稱為置信度(confidence level ),常取 95% (90%、99%)。已知 或s未知但n足夠大,按Z分布;s未知,按t分布(T已知,總體均數(shù)雙側(cè) 已知,總體均數(shù)單側(cè)(X z x)或(X100 (1 a )100 (1 a )%置信區(qū)間為:%置信區(qū)間為:Z x)

28、Z0.05/2=1.96雙側(cè)Z0.05=1.645單側(cè)(confidence limit , CL):L),較大的稱為置信上限(upper limit , U),置信區(qū)間通常兩個(gè)數(shù)值即兩個(gè)置信限較小的稱為置信下限(lowe門imit置信區(qū)間的涵義從同一總體中重復(fù)抽取若干個(gè)相互獨(dú)立的樣本,將具有100(1-a)%的置信度,所計(jì)算的置信區(qū)間包括總體均數(shù)。如95%勺置信區(qū)間表示:如果從同一總體中重復(fù)抽取100個(gè)獨(dú)立樣本,那么將可能有95個(gè)置信區(qū)間包括總體均數(shù)。(總體均數(shù)會(huì)落在這樣的區(qū)間說法欠妥)對(duì)于一次估計(jì)的置信區(qū)間,可能有95%勺正確率包括總體均數(shù),但仍有5%勺置信區(qū)間估計(jì)錯(cuò)誤。5癖小概率事件,統(tǒng)

29、計(jì)學(xué)認(rèn)為在一次的估計(jì)中不發(fā)生。置信區(qū)間估計(jì)的優(yōu)劣:置信度大好,還是小好?1 .置信度1a(準(zhǔn)確度,accuracy),愈接近1愈好,如99%勺置信度比95%勺置信度要好;2 .區(qū)間的寬度(精密度,precision),區(qū)間愈窄愈好。當(dāng)樣本含量為定值時(shí),上述兩者互相矛盾。在置信度確定的情況下,增加樣本含量可減小區(qū)間寬度??傮w均數(shù)置信區(qū)間與參考值范圍的區(qū)別區(qū)別占八、總體均數(shù)可信區(qū)問參考值范圍含義從同一總體中重復(fù)抽取若干個(gè)相互獨(dú)立的樣本,將具有100(1-a)%的置信度,所計(jì)算的置信區(qū)間包括總體均數(shù)?!罢H恕钡慕馄剩?,生化某項(xiàng)指標(biāo)的波動(dòng)范圍??傮w均數(shù)的波動(dòng)范圍個(gè)體值的波動(dòng)范圍計(jì)算公式未知n較小

30、:Xt/2,Sx已知,或未知但n較大:XZ/2SX止態(tài)分布:Xt/2S偏態(tài)分布:PxP100X用途總體均數(shù)的區(qū)間估計(jì)絕大多數(shù)(如95%觀察對(duì)象某項(xiàng)指標(biāo)的分布范圍方差的抽樣分布特征1 .樣本方差的分布是正偏態(tài)分布,樣本含量較小時(shí)更是如此。2 .隨著樣本含量的逐漸增大,對(duì)稱性逐漸改善。3 .理論上可以證明:若隨機(jī)變量x服從正態(tài)分布,則其相應(yīng)的樣本方差S2的分布服從自由度為n-1的卡方分布。4.標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)誤s總體方差s2的100(1-a)%置信區(qū)間:(n 1)s2(n 1)s2X /22X1/2由抽樣引起的樣本率(p)和總體率(兀)的差異稱為率的抽樣誤差(samplingerrorofrate),

31、用率的標(biāo)準(zhǔn)誤(standarderrorofrate)度量。如果總體率冗未知,用樣本率p估計(jì)I型錯(cuò)誤(棄真):拒絕實(shí)際正確的H0,I型錯(cuò)誤的概率記為a。(1-a)即置信度:重復(fù)抽樣時(shí),樣本區(qū)間包含總體參數(shù)(n)的百分?jǐn)?shù)。II型錯(cuò)誤(納偽):不拒絕實(shí)際不正確的HO,II型錯(cuò)誤的概率記為B。(1B)即把握度(或檢驗(yàn)效能):兩總體確有差別,被檢出有差別的能力單個(gè)總體均數(shù)的假設(shè)檢驗(yàn)1 .總體方差已知,采用Z檢驗(yàn)2 .總體方差未知,采用t檢驗(yàn):自由度n1第七節(jié)總體率的假設(shè)檢驗(yàn)例數(shù)較少時(shí),采用二項(xiàng)分布的概率公式計(jì)算當(dāng)n:t5,且n(1-九)5(n大,冗不接近0,1)時(shí)近似正態(tài)分布,可計(jì)算Z統(tǒng)計(jì)量冗0為已知

32、總體均數(shù)檢驗(yàn)方法的選擇:假設(shè)檢驗(yàn)的基本步驟1 .建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)2 .選擇檢驗(yàn)方法和計(jì)算統(tǒng)計(jì)量3 .確定概率P值和作出統(tǒng)計(jì)推斷:P值是在H0成立前提下,比樣本統(tǒng)計(jì)量(Z、t、F值等)更極端的概率。四、根據(jù)統(tǒng)計(jì)推斷結(jié)果,結(jié)合相應(yīng)的專業(yè)知識(shí),給出一個(gè)專業(yè)的結(jié)論。兩總體均數(shù)差異性檢驗(yàn)大樣本(兩組例數(shù)均50例):z近似,t更精確配對(duì)設(shè)計(jì)資料均數(shù)的比較1 .異源配對(duì):將受試對(duì)象按某些混雜因素(如性別、年齡、窩別等)配成對(duì)子,然后將每,對(duì)子成對(duì)出現(xiàn),僅對(duì)對(duì)子中對(duì)中的兩個(gè)個(gè)體隨機(jī)分配給兩種處理(如處理組與對(duì)照組)的兩個(gè)體進(jìn)行隨機(jī)。2 .同源配對(duì)(或自身配對(duì)):同一受試對(duì)象作兩次不同的處理(如甲法、

33、乙法),或一種處理的前后比較。優(yōu)點(diǎn):特點(diǎn):配對(duì)設(shè)計(jì)減少了比較對(duì)子間的個(gè)體差異。資料成對(duì)(對(duì)子編號(hào)),利用每對(duì)數(shù)據(jù)間的差值(d)作比較Sd /、 n Sd / * nSd,=n-1完全隨機(jī)設(shè)計(jì)兩總體均數(shù)的比較實(shí)驗(yàn)設(shè)計(jì):用完全隨機(jī)設(shè)計(jì)(completelyrandomdesign)方法,把受試對(duì)象隨機(jī)分為兩組,分別給予不同處理,然后比較獨(dú)立的兩組樣本均數(shù)。各組對(duì)象數(shù)不必嚴(yán)格相同。但兩組例數(shù)相等,可提高檢驗(yàn)效能。兩總體均數(shù)的Z檢驗(yàn)當(dāng)總體方差已知時(shí),應(yīng)使用Z檢驗(yàn)大樣本(如兩組例數(shù)均50例)情況下,盡管總體方差未知,也可用樣本方差取代總體方差,用Z檢驗(yàn)作近似計(jì)算兩總體方差間的差異性檢驗(yàn)自由度n1-1,n

34、2-1使用雙側(cè)的原因:計(jì)算F值時(shí),較大方差S2可以作為分子,也可作為分母。注意:一般的方差分析,只采用單側(cè)檢驗(yàn)對(duì)出現(xiàn)方差不齊情況時(shí)統(tǒng)計(jì)學(xué)應(yīng)對(duì)策略1 .采用不以來總體分布的非參數(shù)檢驗(yàn)2 .對(duì)原變量合適數(shù)學(xué)變換,使方差變?yōu)辇R性方差3 .當(dāng)各組方差相差懸殊時(shí)課采用Welch加權(quán)方差分析總體方差齊同情況下的t檢驗(yàn):自由度=n1+n2-2均數(shù)的標(biāo)準(zhǔn)誤:SX1 X2Si11)n1“方差不齊時(shí)t'檢驗(yàn)SXi X2(XiX2)0(XiX2)S2S2nin2S2s22n1n2°22C22ni一(n11)(n21)卡方檢驗(yàn)Chi-squareTest卡方檢驗(yàn)是對(duì)分類資料進(jìn)行統(tǒng)計(jì)推斷分析的一種方法

35、。它可以用來比較兩個(gè)或多個(gè)率的差異(同質(zhì)性檢驗(yàn))或檢驗(yàn)兩個(gè)指標(biāo)是否關(guān)聯(lián)(關(guān)聯(lián)性檢驗(yàn))或判斷列聯(lián)表的邊際分布是否一致(一致性檢驗(yàn))等。r。理論頻數(shù):Ejn卡方檢驗(yàn)的分類A) 2X2四格表:(1)同質(zhì)性檢驗(yàn)一比較兩個(gè)率;(2)關(guān)聯(lián)性檢驗(yàn)B) 2Xk列聯(lián)表:(1)同質(zhì)性檢驗(yàn)一比較k個(gè)率;(2)關(guān)聯(lián)性檢驗(yàn);(3)趨勢(shì)分析C) RXC列聯(lián)表:關(guān)聯(lián)性檢驗(yàn):雙向無序,單向有序,雙向有序D) kxk配對(duì)分類數(shù)據(jù)的卡方檢驗(yàn):1)一致性檢驗(yàn)(reliabiHty);2)對(duì)稱性檢驗(yàn)(symmetry)卡方界值X2(0.05,1)=3.841自由度df=(行數(shù)-1)(列數(shù)-1)=1四格表專用公式(Pearson公式)

36、連續(xù)性校正公式Y(jié)ates:當(dāng)樣本含量40,如有一個(gè)格子理論頻數(shù)小于5時(shí)使用四格表的精確概率Fisherexact若有理論頻數(shù)小于1或n<40時(shí),尤其時(shí)用其它方法計(jì)算概率接近檢驗(yàn)水平時(shí)使用四格表卡方檢驗(yàn)方法的選擇原則對(duì)于成組分類數(shù)據(jù)的2X2表:a) n>40,且所有E>5-Pearson(一般公式)b) n>40,但有1<E<5-Yates(校正公式)c) n<40或有E<1或pa-Fisher'sexact(精確算法)1) 左單側(cè)檢驗(yàn):H0:兀1=兀2vsH1:兀1<九22) 右單側(cè)檢驗(yàn):H0:兀1=兀2vsH1:兀1>兀23

37、) 雙側(cè)檢驗(yàn):H0:兀1=兀2vsH1:冗1w冗2左側(cè)概率+右側(cè)概率-原表格概率=1行X列表卡方檢驗(yàn):RxC表有序分類型數(shù)據(jù)的卡方檢驗(yàn)TheChi-squaretestforordinalcategoricaldata1)有序分類變量的量化方法(1)等距離法(2)非等距離法(3)秩得分法(rankscores):第i行秩得分:r1ink(ni1)/2ki第j行秩得分:c1ink(nj1)/2kj(4)Ridit得分法(riditscores):在秩得分的基礎(chǔ)上進(jìn)行:r2i=ri/n;c2i=ci/n(5)調(diào)整Ridit得分法(modriditscores):在秩得分的基礎(chǔ)上進(jìn)行:r3i=r1i

38、/(n+1);c3i=c1i/(n+1)2)標(biāo)準(zhǔn)化得分=(樣本得分-n個(gè)樣本得分均值)/得分標(biāo)準(zhǔn)差配比方表同質(zhì)與對(duì)稱性檢驗(yàn)kxk配對(duì)分類數(shù)據(jù)的卡方檢驗(yàn)1) 一致性檢驗(yàn)(reliability)一致性檢驗(yàn)方法-kappa檢驗(yàn)2)對(duì)稱性檢驗(yàn)(symmetry)(a) McNemar檢驗(yàn)-2x2表配對(duì)四格表公式:(b c)2b cb+c > 40時(shí)使用(b c 1)2b cb+c<40時(shí)使用校正(b) Bowker檢驗(yàn)-kxk表非參數(shù)檢驗(yàn)(nonparametrictest)參數(shù)檢驗(yàn)parametrictest(1)總體分布類型已知,如率服從二項(xiàng)分布、樣本均數(shù)服從正態(tài)分布;(2)由樣本參

39、數(shù)推斷未知總體參數(shù)。這時(shí),對(duì)總體參數(shù)mp的假設(shè)檢驗(yàn)稱為參數(shù)檢驗(yàn)。如t檢驗(yàn),F(xiàn)檢驗(yàn)。非參數(shù)檢驗(yàn)(nonparametrictest):對(duì)數(shù)據(jù)的總體分布類型不作嚴(yán)格假定,又稱任意分布檢驗(yàn)(distribution-freetest),它直接對(duì)總體分布的位置作假設(shè)檢驗(yàn)。參數(shù)檢驗(yàn)(parametrictest):已知總體分布類型,對(duì)未知參數(shù)進(jìn)行統(tǒng)計(jì)推斷依賴于特定分布類型,比較的是參數(shù)非參數(shù)檢驗(yàn)(nonparametrictest):對(duì)總體的分布類型不作嚴(yán)格要求,不受分布類型的影響,比較的是總體分布位置優(yōu)點(diǎn):方法簡便、易學(xué)易用,易于推廣使用、應(yīng)用范圍廣;可用于參數(shù)檢驗(yàn)難以處理的資料(如等級(jí)資料,或含數(shù)值

40、”>50mg等)缺點(diǎn):方法比較粗糙,對(duì)于符合參數(shù)檢驗(yàn)條件者,采用非參數(shù)檢驗(yàn)會(huì)損失部分信息,其檢驗(yàn)效能較低;樣本含量較大時(shí),兩者結(jié)論常相同應(yīng)用非參數(shù)檢驗(yàn)的情況:1 .不滿足正態(tài)和方差齊性條件的小樣本資料;2 .總體分布類型不明的小樣本資料;3 .一端或二端是不確定數(shù)值(如<0.002、>65等)的資料(必選);4 .單向有序列聯(lián)表資料;5 .各種資料的初步分析。秩次(tie)將數(shù)值變量值從小到大,或等級(jí)變量值從弱到強(qiáng)所排列的序號(hào)。兩個(gè)獨(dú)立樣本檢驗(yàn)Wilcoxon秩和檢驗(yàn)Wilcoxonranksumtest1 .區(qū)間(計(jì)量)數(shù)據(jù)的兩樣本比較:符合參數(shù)條件時(shí),采用兩樣本均數(shù)的t檢

41、驗(yàn)2 .有序(等級(jí))數(shù)據(jù)的兩樣本比較常錯(cuò)誤采用卡方檢驗(yàn)名義數(shù)據(jù)的兩樣本比較,采用率或構(gòu)成比的卡方檢驗(yàn)K個(gè)獨(dú)立樣本檢驗(yàn)完全隨機(jī)設(shè)計(jì)多個(gè)樣本比較的Kruskal-WallisH檢驗(yàn)1.區(qū)間(計(jì)量)數(shù)據(jù)的多個(gè)樣本比較Kruskal-WallisH檢驗(yàn);如果滿足參數(shù)條件,這類資料一般作完全隨機(jī)設(shè)計(jì)ANOVAK個(gè)相關(guān)樣本檢驗(yàn):隨機(jī)區(qū)組設(shè)計(jì)多個(gè)樣本比較的FriedmanM檢驗(yàn)等級(jí)相關(guān):應(yīng)用:兩個(gè)樣本的相關(guān)分析,當(dāng)兩個(gè)變量不服從正態(tài)分布時(shí),可以采用等級(jí)相關(guān)分析。醫(yī)學(xué)研究的統(tǒng)計(jì)學(xué)設(shè)計(jì)研究設(shè)計(jì)的基本類型1 .實(shí)驗(yàn)(Experiment)研究(干預(yù))受試對(duì)象:人臨床試驗(yàn)(clinicaltrial)動(dòng)物動(dòng)物實(shí)驗(yàn)(

42、animalexperiment)臨床試驗(yàn):治療臨床療效實(shí)驗(yàn)預(yù)防社區(qū)干預(yù)實(shí)驗(yàn)(communityinterventiontrial)2 .調(diào)查(Survey)研究(無干預(yù))被動(dòng)地觀察、如實(shí)記錄研究設(shè)計(jì)的重要性設(shè)計(jì)好:(1)既省又可靠;(2)可估計(jì)和控制誤差;(3)獲取多方面知識(shí)設(shè)計(jì)不好:(1)雜亂無章、雖多猶無;(2)只能羅列現(xiàn)象、無規(guī)律可言兩種研究類型的區(qū)別與聯(lián)系實(shí)驗(yàn)研究調(diào)查研究干預(yù)因素施加不施加研究類型推斷性描述性研究范圍較小大研究地點(diǎn)實(shí)驗(yàn)室或現(xiàn)場(chǎng)現(xiàn)場(chǎng)控制誤差較好較差如萬辛多對(duì)調(diào)查加以驗(yàn)為實(shí)驗(yàn)提供線相互關(guān)系、丁代證索研究設(shè)計(jì)的基本要素(一)處理因素(treatmentfactor)(二)受

43、試對(duì)象(subject)(三)實(shí)驗(yàn)效應(yīng)(experimentaleffect)1 .客觀性:主觀指標(biāo)和客觀指標(biāo)。2 .精確性:準(zhǔn)確度(accuracy)或真實(shí)性(validity)觀察值與真實(shí)值的接近程度,受系統(tǒng)誤差的影響。常用指標(biāo):靈敏度、特異度精密度(precision)或可靠性(reliabiliy)或重復(fù)性(repeatability)重復(fù)觀察時(shí)觀察值與其均值的接近程度,受隨機(jī)誤差的影響。常用指標(biāo):Kappa值、一致百分率實(shí)驗(yàn)設(shè)計(jì)的基本原則1.隨機(jī)化原則(randomization);2.對(duì)照原則(control);3.重復(fù)原則(replication):重復(fù)(replication)

44、是指各處理組與對(duì)照組要有一定樣本含量(samplesizes)。幾種不同設(shè)計(jì)類型的隨機(jī)化分組:(1)完全隨機(jī)實(shí)驗(yàn)設(shè)計(jì):將觀察單位完全隨機(jī)地分配到實(shí)驗(yàn)組與對(duì)照組或幾個(gè)對(duì)比組中(2)配對(duì)實(shí)驗(yàn)設(shè)計(jì)pairedexperimentdesign:1.同源配對(duì):同一受試對(duì)象用兩種不同的實(shí)驗(yàn)方法;受試對(duì)象自身實(shí)驗(yàn)前后的對(duì)比。2.非同源配對(duì):將具有相同條件的實(shí)驗(yàn)對(duì)象配成對(duì)子。(3) 隨機(jī)區(qū)組實(shí)驗(yàn)設(shè)計(jì)(randomizedblockexperimentdesign)(1)將多方面條件相近的受試對(duì)象配成一組,稱作一個(gè)區(qū)組(block)。(2)每個(gè)區(qū)組的受試對(duì)象個(gè)數(shù)取決于對(duì)比組組數(shù)。(3) 每個(gè)區(qū)組的受試對(duì)象被隨機(jī)

45、地分配到各對(duì)比組中。配對(duì)設(shè)計(jì)的擴(kuò)展,故又稱配伍組設(shè)計(jì)(4) 交叉設(shè)計(jì):(cross-overexperimentdesign)每個(gè)受試者隨機(jī)地在兩個(gè)或多個(gè)不同試驗(yàn)階段分別接受指定的處理(試驗(yàn)藥或?qū)φ账帲?。同源配?duì)設(shè)計(jì)的擴(kuò)展優(yōu)點(diǎn):(1)控制個(gè)體間的差異,(2)減少受試者人數(shù)。對(duì)照的形式:包括:空白對(duì)照、實(shí)驗(yàn)對(duì)照、標(biāo)準(zhǔn)對(duì)照、自身對(duì)照、相互對(duì)照、歷史對(duì)照設(shè)立對(duì)照應(yīng)注意的事項(xiàng)(1)均衡:對(duì)照組與實(shí)驗(yàn)組除研究因素外,其他因素應(yīng)盡可能相同(2)同步:對(duì)照組與實(shí)驗(yàn)組應(yīng)處于同一空間和同一時(shí)間常用的抽樣方法1 .單純隨機(jī)抽樣simplerandomsampling:先將總體的全部觀察對(duì)象編號(hào),再利用抽簽或隨機(jī)數(shù)

46、字表的方法隨機(jī)抽取觀察對(duì)象組成樣本。最基本的抽樣方法2 .保統(tǒng)抽樣systematicsampling:按照一定的順序,機(jī)械地每隔若干個(gè)單位抽取一個(gè)單位的方法。又稱間隔抽樣,機(jī)械抽樣3 .分層抽樣stratfiedsamplin而先按某種特征將總體分為若干組別、類型或區(qū)域等(統(tǒng)稱為“層”),再用隨機(jī)抽樣的方法從每個(gè)子總體中抽取樣本。要求“層內(nèi)齊同,層間不同”。4 .整群抽樣clustersampling:按群體而不是按個(gè)體抽取觀察單位的抽樣方法。各種抽樣方法的抽樣誤差順序:分層系統(tǒng)0單純整群誤差(error):實(shí)測(cè)值與真值之差。系統(tǒng)誤差(systematicerror)|:在一定實(shí)驗(yàn)條件下,由

47、某種未發(fā)現(xiàn)或未確定的因素所引起觀測(cè)值具有方向性和系統(tǒng)性的誤差,又稱偏倚(bias)。(三)系統(tǒng)誤差類型及其控制類型發(fā)生階段控制選擇偏倚設(shè)計(jì)隨機(jī)化測(cè)量偏倚實(shí)施盲法混雜偏倚分析配對(duì)、分層樣本含量的估計(jì)與檢驗(yàn)效能樣本含量(samplesize)|:為了保證研究結(jié)論的可靠性,確定的實(shí)驗(yàn)研究或調(diào)查研究所需要的最低觀察對(duì)象的數(shù)量。檢驗(yàn)效能(power)|:也叫把握度,即1-B(第二類錯(cuò)誤的概率)。如果兩總體參數(shù)實(shí)際有差異(H1成立),按a水準(zhǔn),假設(shè)檢驗(yàn)?zāi)馨l(fā)現(xiàn)這種差異的能力(真陽性)。通常要求達(dá)到80%£90%(即B=0.2或B=0.1),不得低于75%樣本含量的影響因素1 .檢驗(yàn)水準(zhǔn)a:a低,則

48、n高?2 .檢驗(yàn)效能1-B:(1-B)高,則n高,(1-B)>0.75,通常取0.8或0.9。3 .客觀差異6(delta),即比較總體參數(shù)間的差值(如m1-m2,p1-p2)。6低,則n高4 .總體標(biāo)準(zhǔn)差6、總體平均數(shù)小(或總體率九),這里主要指離散程度指標(biāo)。高,貝Un個(gè)體間標(biāo)準(zhǔn)差越小或樣本含量越大,檢驗(yàn)效能越大;s小或n大一均數(shù)對(duì)應(yīng)的概率密度曲線(m,s2/n)瘦高一檢驗(yàn)效能大第一類錯(cuò)誤的概率a越大,檢驗(yàn)效能越大客觀差異6越大,檢驗(yàn)效能越大樣本含量的估計(jì)1 .均數(shù)抽樣2 .率的抽樣3 .樣本均數(shù)與總體均數(shù)比較2(z/2z)n4 .兩樣本均數(shù)比較n15 .配對(duì)計(jì)量資料比較2(z/2z)

49、dn山:每對(duì)觀察對(duì)象差值的標(biāo)準(zhǔn)差6 .兩樣本率比較冗1和冗2:分別表小兩組的總體率Ttc:兩組的合并率7.配對(duì)計(jì)數(shù)資料比較:兀+-=b/(a+b),兀-+=c/(a+c),兀c=(兀+-+兀-+)/2檢驗(yàn)效能及其計(jì)算出現(xiàn)“陰性”結(jié)果有兩種可能:(1) (1-B)較大,被比較的指標(biāo)間很可能無差別。(2) (1-B)較小,所比較的指標(biāo)間很可能差別有顯著性,但由于樣本含量不足而未能發(fā)現(xiàn)。Z0一查z值表一B一(1-B)ZB的計(jì)算1 .兩樣本均數(shù)比較:|x1X2z11zsc"n2(6未知時(shí))2 .配對(duì)計(jì)量資料比較N為對(duì)子數(shù),為差值均數(shù),Sd為差值標(biāo)準(zhǔn)差。多元線性回歸分析分析多個(gè)變量之間的相互關(guān)

50、聯(lián)和相互依存的關(guān)系多元線性回歸模型的矩陣形式:y=xB+ey是因變量觀察值構(gòu)成的向量,x是自變量觀察值和常數(shù)項(xiàng)構(gòu)成的矩陣,B是未知參數(shù)構(gòu)成的向量(待估計(jì)的偏回歸系數(shù)向量),e是因變量的殘差構(gòu)成的向量。多元線性回歸分后研究一個(gè)因變量與一組自變量的依存關(guān)系,即,研究一組自變量是如何直接影響一個(gè)因變量的。多元線性回歸分析的基本原理:利用觀察或收集到的因變量和自變量的一組數(shù)據(jù)建立一個(gè)因變量關(guān)于自變量的線性函數(shù)模型,并且,這個(gè)模型最好地?cái)M和了觀察數(shù)據(jù)。多元線性回歸分析的方法步驟一、估計(jì)參數(shù);二、檢驗(yàn)參數(shù);三、檢驗(yàn)?zāi)P?;四、模型診斷;五、解釋模型參數(shù)的實(shí)際意義。估計(jì)參數(shù)(估計(jì)偏回歸系數(shù)Bj)方法最小二乘法

51、標(biāo)準(zhǔn)偏回歸系數(shù)的估計(jì)同一模型中對(duì)參數(shù)的標(biāo)準(zhǔn)估計(jì)值進(jìn)行大小比較,絕對(duì)值大的b'j對(duì)應(yīng)的自變量xj對(duì)因變量y的影響大,或者說,與因變量y的關(guān)聯(lián)性強(qiáng)。bj表示了當(dāng)其它自變量不變時(shí),xj改變一個(gè)單位所引起的y的改變量。復(fù)確定系數(shù)(multipledeterminentcoefficient):它表示了因變量y的總體變異中被所有自變量所解釋的比例。多元線性回歸分析的逐步回歸法1 .向前選擇法(forwardselection);2.向后消去法(backwardelimination);3.逐步過程法(stepwiseprocedure)決定模型好壞的常用指標(biāo)有三個(gè):檢驗(yàn)總體模型的p-值,確定系數(shù)

52、R2值和檢驗(yàn)每一個(gè)回歸系數(shù)bj的p-值。多元相關(guān)分析相關(guān)分析(correlationanalysis):研究兩個(gè)或多個(gè)變量之間關(guān)聯(lián)性或關(guān)聯(lián)程度的一種統(tǒng)計(jì)分析方法。相關(guān)系數(shù)(correlationcoefficient):描述變量之間的關(guān)聯(lián)程度大小的常數(shù),它介于-1和1之間,一般用p來表示。多個(gè)變量之間關(guān)系三個(gè)基本方法:2 .偏相關(guān)分析partialcorrelationanalysis:判斷其它因素不變的情況下,一個(gè)變量與另一個(gè)變量之間是否關(guān)聯(lián)。3 復(fù)相關(guān)分析multiplecorrelationanalysis:判斷一個(gè)變量與另一組變量之間是否關(guān)聯(lián)4 .典型相關(guān)分析canonicalcorrelationanalysis:判斷一組變量與另一組變量之間是否關(guān)聯(lián)多元線性回歸分析模型:Y=a+B1X1+02X2+03X3+e偏相關(guān)系數(shù)(partialcorrelationcoefficient):度量了當(dāng)其它變量固定不變時(shí),或者說在消除了其它變量的影響之后,兩個(gè)變量之間線性關(guān)聯(lián)的強(qiáng)度。多元相關(guān)分析和多元回歸分析的異同點(diǎn)相同點(diǎn)是:討論了變量之間的關(guān)聯(lián)性。不同點(diǎn)是:多元回歸分析給出了變量之間的依存關(guān)系,而多元相關(guān)分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論