交大醫(yī)學(xué)院《統(tǒng)計學(xué)》考試重點整理_第1頁
交大醫(yī)學(xué)院《統(tǒng)計學(xué)》考試重點整理_第2頁
交大醫(yī)學(xué)院《統(tǒng)計學(xué)》考試重點整理_第3頁
交大醫(yī)學(xué)院《統(tǒng)計學(xué)》考試重點整理_第4頁
交大醫(yī)學(xué)院《統(tǒng)計學(xué)》考試重點整理_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

一、緒論1..統(tǒng)計學(xué)是醫(yī)學(xué)研究設(shè)計的技術(shù)三大原則:對照、隨機、重復(fù)2?資料分類:計量資料計數(shù)資料等級資料計量資料:指對每個觀察單位某個變量用儀器、工具等測量方法或其他定量方法獲得的定量觀察結(jié)果,即為計量資料(measurmentdata)。也叫定量數(shù)據(jù)Quantitativedata。①有計量單位②數(shù)據(jù)間有連續(xù)性計數(shù)資料:將觀察單位按某種屬性分組計數(shù)的定性觀察結(jié)果,稱計數(shù)資料(countdata)或enumerationdata,也叫定性數(shù)據(jù)Qualitativedata。①無固有計量單位血型(ABO)職業(yè)(工農(nóng)兵)②各觀察單位間或相同或存在質(zhì)的差別③有質(zhì)的差別者之間無連續(xù)性。等級資料(rankdata)將觀察單位按某種屬性的不同程度或次序分成等級后分組計數(shù)的半定性或半定量的觀察結(jié)果。有大小順序,所以也叫有序分類資料(ordinalcategorydata)。例如:癌癥分期:早、中、晚。藥物療效:治愈、好轉(zhuǎn)、無效、死亡。尿蛋白:一,,+,++,+++及以上。①各觀察單位間或相同,或存在質(zhì)的差別;②各等級間只有順序,而無數(shù)值大小。3資料的分類:數(shù)值變量資料;分類資料:i?二分類;ii?多分類(a.無序多分類;b?有序多分類/等級資料)4.基本概念:變量(variable)收集資料時,對每個觀察單位的某項特征進行測量和觀察,這種被觀察單位的特征稱為變量。變化的或取值不同的量,一般指隨機變量。變量,統(tǒng)計上習(xí)慣用大寫拉丁字母表示,如X、Y、Z、…。變量值習(xí)慣用小寫拉丁字母表示,如性別X]=1(男)、x2=1(男)、x3=0變量的分類:離散型變量(discretevariable)相當(dāng)于計數(shù)資料;連續(xù)性變量(continuousvariable)相當(dāng)于計量資料;有序變量(ordinalvariable)相當(dāng)于等級資料。觀察單位observationunit是獲得數(shù)據(jù)的最基本的最小的單位。同質(zhì)與變異同質(zhì)(homogeneity):指事物的性質(zhì)、影響條件或背景相同或非常相近。同質(zhì)性是構(gòu)成研究總體的必備條件;研究內(nèi)容不同,對同質(zhì)性的要求不同;變異(variation):指同質(zhì)的個體之間的某個變量的差異??傮w與樣本總體(population):根據(jù)研究目的確定的全部同質(zhì)個體的某個(某些)變量值。樣本(sample):從總體中隨機抽取的部分觀察單位的觀察值。總體有三大特點:①同質(zhì)性;②大量性;③差異性總體可分為兩大類:①有限總體:指總體單位數(shù)有限而可以計數(shù)的總體;②無限總體:指總體單位數(shù)無限不可以計數(shù)的總體。隨機抽樣randomsampling為了保證樣本的可靠性和代表性,需要采用隨機的抽樣方法隨機(random)機會均等隨機抽樣(randomsampling),有相同的機會被抽到;隨機分組(randomallocation),有相同的機會被分到不同的組中;實驗順序隨機,先后接受處理的機會相同;參數(shù)與統(tǒng)計量parameterandstatistic

參數(shù):刻畫總體特征的統(tǒng)計指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為卩、0。固定的常數(shù)。X、S參數(shù):刻畫總體特征的統(tǒng)計指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為卩、0。固定的常數(shù)。數(shù)附近波動的隨機變量。(7)誤差error誤差:實際觀察值與客觀真實值之差①系統(tǒng)誤差systematicerror在實際觀測過程中,由受試對象、研究者、儀器設(shè)備、研究方法、非實驗因素影響等原因造成的有一定傾向性或規(guī)律性的誤差。流行病學(xué)稱之為偏倚(bias)。特點:觀察值有系統(tǒng)性、方向性、周期性的偏離真值??梢酝ㄟ^嚴(yán)格的實驗設(shè)計和技術(shù)措施消除。②隨機誤差randomerror排除上述誤差后尚存的誤差,受多種無法控制的因素的影響。大小方向不一的隨機變化。L隨機測量誤差(randommeasurementerror)——提高操作者熟練程度可以減少這種誤差?!筰?…隨機抽一樣誤差(randomsamplingerror):由個體變異和抽樣造成的樣本統(tǒng)計量和總體參數(shù)間的差異。一一不可避免,但有一定的分布規(guī)律,可估計。(8)概率probability確定性現(xiàn)象:在一定條件下,一定會發(fā)生或一定不會發(fā)生的現(xiàn)象。其表現(xiàn)結(jié)果為兩種事件:肯定發(fā)生某種結(jié)果的叫必然事件;肯定不發(fā)生某種結(jié)果的叫不可能事件。隨機現(xiàn)象:在同樣條件下可能會出現(xiàn)兩種或多種結(jié)果,究竟會發(fā)生哪種結(jié)果,事先不能確定。其表現(xiàn)結(jié)果稱為隨機事件。隨機事件的特征:①隨機性;②規(guī)律性:每次發(fā)生的可能性的大小是確定的。概率:隨機事件發(fā)生的可能性大小,用大寫的P表示;取值[0,1]。PW0.05(5%)或PW0.01(1%)稱為小概率事件(習(xí)慣)。(9)頻率frequency樣本的實際發(fā)生率稱為頻率。設(shè)在相同條件下,獨立重復(fù)進行n次試驗,事件A出現(xiàn)f次,則事件A出現(xiàn)的頻率為f/n。頻率與概率間的關(guān)系:樣本頻率總是圍繞概率上下波動:樣本含量n越大,波動幅度越小,頻率越接近概率。5?統(tǒng)計工作基本步驟:統(tǒng)計設(shè)計一收集資料一整理資料一分析資料一解釋數(shù)據(jù)(結(jié)果說明)收集資料一(1)資料來源:統(tǒng)計報表;療衛(wèi)生工作記錄和報告卡;題調(diào)查或?qū)嶒?。?)對資料要求:完整、準(zhǔn)確、及時。對原始資料進行科學(xué)的加工與綜合,使之系統(tǒng)化整理資料一(1)檢查與核對:(2)分組設(shè)計:質(zhì)量分組數(shù)量分組;3)擬訂整理表:(4)歸納匯總。分析資料包括:統(tǒng)計描述和統(tǒng)計推斷inference;統(tǒng)計推斷又包括兩部分:參數(shù)估計,假設(shè)檢驗。醫(yī)學(xué)研究的主要方法有實驗性研究、觀察性研究。觀察性研究又分為:描述性研究、分析性研究。醫(yī)學(xué)研究的類型:實驗研究(干預(yù))按受試對象的特征分為1)動物實驗(animalexperiment)2)臨床試驗(clinicaltrial)社區(qū)干預(yù)實驗(communityinterventiontrial)調(diào)查研究(無干預(yù)):被動地觀察、如實記錄實驗設(shè)計三要素(基本組成):1?處理因素;2?受試對象;3?實驗效應(yīng)。處理因素(studyfactor,treatment):研究者根據(jù)研究目的而施加的特定的實驗措施。例:藥劑、手術(shù)方法。區(qū)分處理與非處理因素(混雜因素confoundingfactor);處理因素必須標(biāo)準(zhǔn)化。受試對象(studysubjects):是指在實驗研究中接受處理并作為實驗觀察的客體。選擇實驗對象的注意事項:1?是否對處理因素敏感;2是否對處理因素穩(wěn)定;3對象的齊同性;4納入標(biāo)準(zhǔn)和剔除標(biāo)準(zhǔn)。實驗效應(yīng)(experimentaleffect):是指處理因素施加于受試對象并經(jīng)過一定時間,受試對象產(chǎn)生的各種反應(yīng)及表現(xiàn)。受試對象的結(jié)果,通過觀察指標(biāo)表達。觀察指標(biāo)應(yīng)客觀、精確、有效。1客觀性:主觀指標(biāo)和客觀指標(biāo)。2精確性:準(zhǔn)確度(accuracy)或真實性(validity):觀察值與真值的接近程度,受系統(tǒng)誤差的影響如靈敏度、特異度)。精密度(precision)或可靠性(reliability)或重復(fù)性(repeatability):重復(fù)觀察時觀察值與其均值的接近程度,受隨機誤差的影響,如一致百分率、Kappa值(診斷一致性)。3有效性包括靈敏度與特異度兩個方面。實驗設(shè)計的基本原則:對照(control);隨機化(randomization);重復(fù)(replication)??瞻讓φ?blankcontrol):對照組不加任何處理因素。實驗對照(experimentalcontrol):施加基礎(chǔ)實驗條件(非處理因素)。標(biāo)準(zhǔn)對照(standardcontrol):以現(xiàn)有的標(biāo)準(zhǔn)或正常值作對照。自身對照:實驗在同一受試對象上進行。簡單易行,使用廣泛。相互對照:幾個實驗組互相對照歷史對照:以過去的研究結(jié)果作對照。主要用于對難治或無法治愈的疾病的研究,如晚期惡性腫瘤,狂犬病等疾病。隨機化分組方法:抽簽;隨機數(shù)字表;計算器或計算機。幾種常見隨機化分組設(shè)計:完全隨機設(shè)計(兩樣本t檢驗,單因素方差分析,兩組或多組獨立樣本的秩和檢驗);配對設(shè)計(配對t檢驗,符號秩和檢驗);隨機單位組設(shè)計;配伍組設(shè)計(方差分析,秩和檢驗);盲法設(shè)計。重復(fù)(replication):結(jié)論的重復(fù),用多個實驗對象進行重復(fù),同一實驗對象的重復(fù)觀察。偏倚bias:除抽樣誤差外,還可能受到非處理因素的干擾導(dǎo)致研究結(jié)果出現(xiàn)偏差。選擇性偏倚;測量偏倚;混合偏倚。樣本含量的估計:四個主要因素:a、1—B、§、。一類錯誤的概率a,即檢驗水準(zhǔn)。a越小,所需樣本含量越多。一般取0=0.05,還應(yīng)明確單雙側(cè)。⑵檢驗效能1-B。為第二類錯誤的概率,1-B表示在特定的a水準(zhǔn)下,H1為真時檢驗?zāi)苷_發(fā)現(xiàn)的能力。1-B越大,所需樣本含量越多。通常取B=0.1或0.2,一般1-B不能低于0.75。⑶允許誤差希望發(fā)現(xiàn)或需控制的樣本和總體間或兩個樣本間某統(tǒng)計量的差別大小。如5=u1-u2,或5=n1-n2o§越小,所需樣本含量越多??勺黝A(yù)實驗或用專業(yè)上有意義的差值代替。⑷總體變異度。越大,所需樣本含量越多。通常根據(jù)預(yù)實驗、查閱文獻和專業(yè)知識判斷。值。正態(tài)分布:該分布由兩個參數(shù)一一平均值和方差決定。概率密度函數(shù)曲線以均值為對稱中線,方差越小,分布越集中在均值附近。概率論中最重要的一種分布,一種最常見的連續(xù)性隨機變量的概率分布。中位數(shù):M指的是按大小順序排列的一個變量的所有n個值中位于正中間的那個數(shù)。分位數(shù):是介于最大值和最小值之間的一個數(shù)值,它使得變量的一部分觀察值小于或等于它,另一部分觀察值大于或等于它。變異系數(shù)CV:—個度量相對離散程度的指標(biāo),無量綱,可以用來比較幾個不同的變量之間的離散程度的差異,也可用來比較量綱相同但均數(shù)相差懸殊的幾個變量之間的離散程度的差異。四分位間距:Q3與4的差值四分位數(shù)間距不易受極端值的影響,通常與中位數(shù)一起描述偏態(tài)分布資料的分布特征。方差:是將離均差平方和再取平均,描述所有觀察值與平均離散程度的指標(biāo)。右偏態(tài)分布:即頻數(shù)分布向右拖尾。比:表示兩個相關(guān)指標(biāo)的值之商,描述一個指標(biāo)的值是另一個指標(biāo)的值的幾倍或幾分之幾。率:是表示某種現(xiàn)象發(fā)生的頻率和強度,表示單位時間內(nèi)某事件發(fā)生的可能性大小。百分比:表示分布結(jié)構(gòu)的比例,表示事物內(nèi)部各個組成部分所占整體的比重,通常以100%為比例基數(shù),以百分比表示又稱百分比。相對比:是兩個有關(guān)聯(lián)指標(biāo)之比,用以描述兩者的對比水平,常用R表示。如相對危險度RR:指的是同一事件在不同的情況下發(fā)生的率之比。優(yōu)勢比:OR是一個事物在一種情況下發(fā)生的發(fā)生率與不發(fā)生率之比,與該事件在另一情況下的發(fā)生率與不發(fā)生率之比的比。醫(yī)學(xué)參考值范圍:“正?!比说慕馄?、生理、生化指標(biāo)及組織代謝產(chǎn)物含量等數(shù)據(jù)正常與否的參考值。標(biāo)準(zhǔn)誤SE:樣本統(tǒng)計量的標(biāo)準(zhǔn)差稱~。樣本均數(shù)的標(biāo)準(zhǔn)差也稱均數(shù)的標(biāo)準(zhǔn)誤SEM,反映樣本均數(shù)間的離散程度,也反映樣本均數(shù)與相應(yīng)總體均數(shù)間的差異。區(qū)間估計:指按預(yù)先給定的概率,計算出一個區(qū)間,使它能夠包含未知的總體均數(shù)。這個區(qū)間即稱為可信區(qū)間事先給定的概率1-a稱為可信度(confidencelevel),通常取1-a=95%??尚艆^(qū)間優(yōu)劣的兩個指標(biāo):準(zhǔn)確性:可信度,1-a,即計算出的區(qū)間包括總體均數(shù)卩的概率大小。越接近于1越好。精確性:與變量的變異度大小、樣本量和1-a取值有關(guān),當(dāng)1-a確定后,可信區(qū)間的長度受制于個體變異和樣本量算術(shù)均數(shù):適用于對稱分布或偏斜度不大的數(shù)值資料,特別是正態(tài)分布資料或近似正態(tài)分布資料;大多數(shù)正常人的生理、生化指標(biāo),如身高、體重、胸圍、血紅蛋折含量、白細胞計數(shù)等均適宜用均數(shù)來描述其集中趨勢中位數(shù):適用于各種分布類型的資料,偏態(tài)資料、分布不明資料、一端或兩端開口資料(一端或兩端無確切數(shù)值的資料)。幾何均數(shù):適用于等比資料,對數(shù)正態(tài)分布資料,即取對數(shù)后資料近似呈對稱分布的資料,右偏態(tài)分布數(shù)據(jù)。全距:只考慮極端值而忽略了其他大部分觀察值,和均數(shù)一樣,易受極端值的影響,粗略二不穩(wěn)定,用途非常有限。百分位數(shù):中位數(shù)是百分位數(shù)的特例。其特點是不易受異常值的影響,適用于描述明顯偏態(tài)分布、或兩端無確定數(shù)值數(shù)據(jù)的平均水平。四分位間距:四分位數(shù)間距不易受極端值的影響,通常與中位數(shù)一起描述偏態(tài)分布資料的分布特征。但四分位數(shù)間距只考慮了中間50%的觀察值。離均差和:正負(fù)抵消。平均偏差:特點:直觀,易理解;但由于用了絕對值,不便于數(shù)學(xué)處理,實際中很少使用。離均差平方和:克服平均偏差的缺點,可以不通過取絕對值,而是通過取平方來避免正負(fù)抵消,即使用離均差平方和。受樣本大小影響。方差的特點:便于數(shù)學(xué)上的處理,但由于有平方,度量衡發(fā)生變化,不便于實際應(yīng)用。標(biāo)準(zhǔn)差比方差更常用,因為它與均數(shù)具有相同的度量單位,常與均數(shù)一樣表示觀察值的集中和離散趨勢。不適合用于單位不同或均值差異很大的資料。變異系數(shù):多用于觀察指標(biāo)單位不同時,如身高與體重的變異程度的比較;或均數(shù)相差較大時,如兒童身高與成人身高變異程度的比較。是一個相對數(shù),不能反映個體實際的變異程度。平均數(shù)是描述一組觀察值集中位置或平均水平的統(tǒng)計指標(biāo),常用的有算術(shù)均數(shù)、幾何均數(shù)和中位數(shù)。其中均數(shù)的應(yīng)用最為廣泛,幾何均數(shù)則多用于血清學(xué)和微生物學(xué)中,中位數(shù)主要用于偏度較大的數(shù)據(jù)分布資料。百分位數(shù)可用來描述資料的觀察值序列在某百分位置的水平,中位數(shù)是其中的一個特例。構(gòu)成比通常只能說明比重,不能說明發(fā)生的頻率或強度。構(gòu)成比指標(biāo)中某一部分所占比重的增減相應(yīng)地會影響其他指標(biāo)的比重。比較兩個總體率時,如兩個總體的內(nèi)部構(gòu)成有所差別,就不能直接拿兩個總體率進行比較和下結(jié)論,只有消除其內(nèi)部構(gòu)成上的差別之后,才能進行比較。標(biāo)準(zhǔn)化法:就是在一個指定的標(biāo)準(zhǔn)構(gòu)成條件下進行率的對比的方法。直接標(biāo)準(zhǔn)化法需要的指標(biāo):被比較兩組資料的年齡別死亡率;標(biāo)準(zhǔn)人口構(gòu)成即各年齡別人口數(shù)或人口構(gòu)成比;間接標(biāo)準(zhǔn)化法需要的指標(biāo):被比較兩組的年齡別人口數(shù)及總死亡率;作為標(biāo)準(zhǔn)的某一人口各年齡別死亡率及其總死亡率。參考值范圍估計的方法有多種,其中最基本的有百分位數(shù)法和正態(tài)分布法。正態(tài)法的優(yōu)點是結(jié)果較穩(wěn)定,但對資料要求嚴(yán)格;百分位數(shù)法適合于任何分布類型的資料,但要求大樣本。標(biāo)準(zhǔn)誤與樣本含量的平方根成反比,說明在同一總體中隨機抽樣,樣本含量n越大,標(biāo)準(zhǔn)誤越小,從而降低抽樣誤差;在樣本含量一定的情況下,標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差成正比。標(biāo)準(zhǔn)誤是抽樣分布的重要特征之一,可用于衡量抽樣誤差的大小,更重要的是可以用于參數(shù)的區(qū)間估計和對不同組之間的參數(shù)進行比較。正態(tài)分布除了可估計頻數(shù)分布外,還是許多統(tǒng)計方法的基礎(chǔ),并可應(yīng)用于質(zhì)量控制及制定醫(yī)學(xué)參考值范圍。t分布主要用于總體均數(shù)的區(qū)間估計和t檢驗。t分布曲線是以0為中心的對稱分布。自由度V越小,t值越分散,t分布的峰部越矮而尾部翹得越高;當(dāng)自由度V逼近8時,t分布趨向于標(biāo)準(zhǔn)正態(tài)分布;自由度V不同,曲線形態(tài)不同,t分布是一簇曲線??尚艆^(qū)間估計的優(yōu)劣準(zhǔn)確性:可信度:1-a,即計算出的區(qū)間包括總體均數(shù)卩的概率大小。越接近于1越好精確性:與變量的變異度大小、樣本量和1-a取值有關(guān)。當(dāng)1-a確定后,可信區(qū)間的長度受制于個體變異和樣本量??尚哦?-a,即區(qū)間包含總體均數(shù)的理論概率大小,愈接受于1越好,如99%的可信度比95%的可信度好。區(qū)間的寬度:對雙側(cè)可信區(qū)間而言,區(qū)間愈窄愈好。當(dāng)樣本含量為定值時,兩者互相矛盾。樣本率抽樣分布的特點:總體率n相同時,樣本量越大,樣本率的分布越趨向?qū)ΨQ;樣本量n相同時,n偏離0.5,樣本率的分布呈偏態(tài)分布;總體率n=0.5時,樣本率呈對稱分布。參數(shù)估計有點估計和區(qū)間估計兩種方式。點估計的重要表達方式是平均值;區(qū)間估計是指按預(yù)先給定的概率,計算出一個區(qū)間,使它能夠包含未知的總體均數(shù)。區(qū)間越窄說明估計的準(zhǔn)確度越高。u檢驗亦稱為Z檢驗:大樣本均數(shù)(率)與總體均數(shù)(率)比較的u檢驗,條件:(樣本數(shù)據(jù)服從正態(tài)分布,總體方差已知),當(dāng)總體標(biāo)準(zhǔn)差未知,n>=60時,可用樣本標(biāo)準(zhǔn)差S作為總體標(biāo)準(zhǔn)差的估計值;兩個大樣本均數(shù)/率比較的u檢驗;第一類錯誤:當(dāng)H0為真時,檢驗結(jié)論拒絕H0接受H1,這類錯誤稱為第一類錯誤或I型錯誤(typeIerror),亦稱假陽性錯誤。檢驗水準(zhǔn),就是預(yù)先規(guī)定的允許犯I型錯誤概率的最大值,用a表示。第二類錯誤:當(dāng)真實情況為H0不成立而H1成立時,檢驗結(jié)論不拒絕H0反而拒絕H1,這類錯誤稱為第二類錯誤或II型錯誤(typeIIerror),亦稱假陰性錯誤。概率大小用B表示,只取單側(cè),一般未知,在已知兩總體差值d(如卩1-卩2)、和n時,才能算出。檢驗效能(power):1-B,也稱把握度.當(dāng)兩總體確有差別,按檢驗水準(zhǔn)a,假設(shè)檢驗?zāi)馨l(fā)現(xiàn)其差別(拒絕H0)的能力。同時減小I型錯誤和II型錯誤,唯一的方法就是增加樣本含量n。1?假設(shè)檢驗的思想是,首先對所需要比較的總體提出一個無差別的假設(shè),然后通過樣本數(shù)據(jù)去推斷是否拒絕這一假設(shè)。假設(shè)檢驗基本思想:先對總體特征作出某種假設(shè)H0,如假設(shè)總體均數(shù)(或總體率)為一定值,兩個總體均數(shù)(或總體率)相等,然后通過從總體中抽取的樣本計算有關(guān)檢驗統(tǒng)計量(teststatistic),最后獲得P值,并依據(jù)P值的大小作出拒絕或接受假設(shè)H0的判斷。2?假設(shè)檢驗有三個基本步驟:建立假設(shè)和確定檢驗水準(zhǔn),通常選選擇檢驗方法和計算檢驗統(tǒng)計量確定P值和做出統(tǒng)計推斷結(jié)論t檢驗(ttest,studentttest)和u檢驗(utest)是用于計量資料兩組比較的最常用的假設(shè)檢驗方法根據(jù)研究設(shè)計t檢驗可由三種形式:單個樣本均數(shù)的t檢驗X=U0配對樣本均數(shù)t檢驗卩d=o兩個獨立樣本均數(shù)t檢驗卩]=卩2t檢驗應(yīng)用條件:正態(tài)、獨立、方差齊性(1)兩組計量資料小樣本比較;(2)樣本對總體有較好代表性,對比組間有較好組間均衡性——隨機抽樣和隨機分組;樣本來自正態(tài)分布總體,配對t檢驗要求差值服從正態(tài)分布,實際應(yīng)用時單峰對稱分布也可以;(4)大樣本時,用u檢驗,且正態(tài)性要求可以放寬;兩獨立樣本均數(shù)t檢驗要求方差齊性一一兩組總體方差相等或兩樣本方差間無顯著性。若資料為非正態(tài)分布,可采用數(shù)據(jù)變換的方法,嘗試將資料變換成正態(tài)分布資料后進行分析。假設(shè)檢驗和可信區(qū)間的關(guān)系:兩者既有聯(lián)系又有區(qū)別假設(shè)檢驗用以推斷總體均數(shù)是否相同或不同:用于推斷質(zhì)的差異;可信區(qū)間則用于估計總體均數(shù)所在的范圍:用于說明量的大小即推斷總體均數(shù)的范圍;可信區(qū)間具有假設(shè)檢驗的主要功能:可根據(jù)計算樣本信息計算出總體的可信區(qū)間,再看H0假設(shè)的卩值在不在此區(qū)間進行推斷.方差分析的應(yīng)用條件:各觀察值相互獨立,并服從正態(tài)分布;各組資料總體方差相等,即各總體具有方差齊性(homogeneityofvariance);方差分析應(yīng)用:多個樣本均數(shù)(計量資料)的比較,各樣本含量可以不等,但樣本含量相等時檢驗效率高。均數(shù)之間的多重比較:SNK(Student-Newman-Keuls法最常用方法之一,其檢驗統(tǒng)計量為q,故又稱為q檢驗;Dunnett法其檢驗統(tǒng)計量為tD,故又稱Dunnett-t檢驗,它適用于k-1個試驗組與對照組均數(shù)的比較;拉丁方設(shè)計可以同時分析3個因素:一個因素為處理因素,主要是研究因素,兩個需要加以控制的非處理因素:如同時控制體重和窩別兩個非處理因素。拉丁方的優(yōu)點:可同時研究3個因素,減少實驗次數(shù)從組內(nèi)變異中不但分離出行區(qū)組變異,而且還分離出列區(qū)組變異,使誤差變異進一步減小拉丁方的缺點:要求處理組數(shù)與所要控制的兩個因素水平數(shù)相等,一般實驗不容易滿足此條件,而且數(shù)據(jù)缺失會增加統(tǒng)計分析的難度方差齊性檢驗(HomogeneityofVarianceTest:Bartlett檢驗法:正態(tài)分布資料;Levene檢驗法:非正態(tài)分布資料二項分布的圖形取決于n和n;當(dāng)n=1-n時,圖形對稱;當(dāng)"<1/2時,二項分布的圖形左偏;當(dāng)n>1/2時,圖形右偏;當(dāng)n增大時,圖形趨于對稱。二項分布的應(yīng)用:(一)總體率的區(qū)間估計查表法:對于nW50的小樣本資料,直接查附表百分率可信區(qū)間表,即可得到其總體率的可信區(qū)間。正態(tài)近似法:當(dāng)n較大、p和1-p均不太小,如np和n(1-p)均大于5時,可利用樣本率p的分布近似正態(tài)分布來估計總體率的可信區(qū)間。(二)樣本率與總體率的比較(直接法、正態(tài)近似法)泊松分布的性質(zhì):(一)02=入(二)當(dāng)n很大,而n很小,且nn=入為常數(shù)時,二項分布近似Poisson分布。(三)當(dāng)入增大時,Poisson分布漸近正態(tài)分布。一般而言,入220時,Poisson分布資料可作為正態(tài)分布處理。(四)Poisson分布具備可加性。(五)Poisson分布的圖形泊松分布的應(yīng)用:(一)總體均數(shù)的區(qū)間估計:利用服從Poisson分布的樣本資料可估計其總體均數(shù)1-a的可信區(qū)間。查表法:當(dāng)xW50時,直接查附表7正態(tài)近似法:當(dāng)x>50時,(二)樣本均數(shù)與總體均數(shù)的比較直接法:當(dāng)總體均數(shù)入<20時正態(tài)近似法:當(dāng)總體均數(shù)入220時(三)兩個樣本均數(shù)的比較卡方檢驗:用途廣泛,推斷兩個及以上總體率(或構(gòu)成比)之間有無差別,兩個分類變量間有無關(guān)系(關(guān)聯(lián)),頻數(shù)分布資料擬合優(yōu)度檢驗等??ǚ綑z驗注意事項:為保證正態(tài)近似性比較好,一般認(rèn)為行列表中不宜有20%以上格子的理論頻數(shù)小于5。對理論頻數(shù)太小有以下處理方法:增加樣本含量;將理論數(shù)太小的行或列與相鄰的行或列合并;刪除理論數(shù)太小的行或列。當(dāng)一個或兩個分組變量為等級變量時,為提高資料信息的利用率,一般不直接用卡方檢驗。當(dāng)拒絕H0時,只能認(rèn)為構(gòu)成比有差異,尚不能認(rèn)為或斷定到底構(gòu)成比的差異在哪里。這需要進行卡方分割。參數(shù)檢驗(parametrictest):針對總體參數(shù)進行的檢驗。非參檢驗(nonparametrictest):與參數(shù)檢驗不同,非參檢驗不要求樣本所代表總體的分布類型,所以又稱為distribution-freetest。不考慮總體分布型,也不針對總體的參數(shù)進行檢驗。非參數(shù)檢驗的適用范圍:韭參數(shù)檢驗只有在參數(shù)檢驗丕能用的時候才用偏態(tài)資料;分布類型不明的資料;等級資料;相互比較的各組變異程度相差懸殊。優(yōu)點:不受總體分布的限制,適用范圍廣;可用“等級”或“符號”來評定,收集資料方便。缺點:造成信息的丟失,導(dǎo)致檢驗效率下降。增加犯第二類錯誤的概率。常見的非參數(shù)檢驗:配對樣本符號秩檢驗(Wilcoxonsignedranktest)兩獨立樣本比較的秩和檢驗(Wilcoxonranksumtest)多個獨立樣本比較的秩和檢驗(Kruskal-Wallistest)隨機區(qū)組設(shè)計資料的秩和檢驗(Friedmantest)K組秩均值的多重比較簡單相關(guān)系數(shù)(correlationcoefficient),亦稱積差相關(guān)系數(shù)或積矩相關(guān)系數(shù),簡稱相關(guān)系數(shù),它是表示兩個變量間直線關(guān)系的密切程度和相關(guān)方向與強度的統(tǒng)計指標(biāo)?;蚱柹嚓P(guān)系數(shù)(Pearson'scorrelationcoefficient)是定量描述線性相關(guān)程度的一個常用指標(biāo)。樣本相關(guān)系數(shù)必須作顯著性檢驗,常用的檢驗方法有兩種:1、t檢驗法;2、查表法并非任何有聯(lián)系的兩個變量都屬線性相關(guān);相關(guān)系數(shù)為接近0并不意味著兩變量間一定無相關(guān)性。相關(guān)未必真有內(nèi)在聯(lián)系。解釋要結(jié)合專業(yè)背景,不可盲目下結(jié)論。相關(guān)所揭示的可能僅僅是統(tǒng)計學(xué)上的關(guān)聯(lián)性,而非一種因果聯(lián)系。樣本大而r較小但可得到P較小,并不一定就反應(yīng)關(guān)系密切。等級相關(guān)是分析兩個變量(x、y)的等級間是否相關(guān)的非參數(shù)方法,用等級相關(guān)系數(shù)rs表示其相關(guān)關(guān)系。適用范圍:不服從雙變量正態(tài)分布而不宜作級差相關(guān)分析;總體分布型未知;原始數(shù)據(jù)用等級表示;相關(guān)系數(shù)只說明兩個變量(x、y)相互關(guān)系的程度及方向,而線性回歸是處理兩變量間線性依存關(guān)系的一種統(tǒng)計分析方法。在確定獨立變量和依存變量的基礎(chǔ)上,建立y回歸于x的線性回歸方程式,這樣就可確定:當(dāng)x為某一定值時,y將會在什么范圍內(nèi)變動,在統(tǒng)計學(xué)上,就稱為回歸分析。在研究兩個變量時,通常以x表示獨立變量或稱自變量(independentvariable),為固定的,是試驗時預(yù)先確定亦可隨機取值,沒有誤差或誤差很??;y表示依存變量或稱應(yīng)變量(dependentvariable),它是因x的變化而隨機變動的,因而存在隨機誤差?;貧w模型的前提假設(shè):線性(linear):反應(yīng)變量y的總體平均值與自變量X呈線性關(guān)系;獨立(independent):任意兩個觀察值互相獨立;正態(tài)(normal):指線性模型的誤差項服從正態(tài)分布;等方差(equalvariance):指自變量X取值范圍內(nèi),不論X取什么值,Y都具有相同的方差。最小二乘法:a和b取不同的值獲得不同的候選直線。如果得到了a、b的適宜值,能使所有n個數(shù)據(jù)點的殘差平方和達到最小值,則稱這一對a和b為a和B的最小二乘估計(leastsquaredestimation,LSE)使回歸殘差平方和最小的策略稱為最小二乘原則回歸平方和(regressionsumofsquare),用SS表示。反映了在y總的變異中由于x與y的線回性關(guān)系而引起y變化的部分。剩余平方和(或殘差平方和)(residualsumofsquare),用SS「表示,它是除了x對y的線性影響剩之外的一切因素對y變異的作用,也就是在總平方和中無法用x解釋的部分。在散點圖中,各實測點與回歸直線越近,工(y—y)2也就越小,說明直線回歸的估計誤差越小。SSfSS回+SS剩心如果回歸均方顯著地大于剩余均方,則說明回歸是顯著的,因此,可以用方差分析的方法來檢驗回歸方程是否有顯著性意義。在簡單線性回歸方程中,線性回歸方程的顯著性檢驗G檢驗)與回歸系數(shù)的(t)檢驗結(jié)果一致,是等價的,也等價于簡單相關(guān)系數(shù)的顯著性檢驗。線性相關(guān)與回歸區(qū)別與聯(lián)系區(qū)別:1.資料類型不同:相關(guān)分析要求兩個變量均服從正態(tài)分布。而回歸分析則有兩種不同的模型:一是事先規(guī)定X值,然后在X的每個值上測定Y值,對應(yīng)于每個X值的Y值必需服從正態(tài)分布,此為I型回歸;另一類是X和Y都服從正態(tài)分布,稱為II型回歸。2、應(yīng)用情況不同3、系數(shù)的求法不同4、對于同一份資料,只能計算一個相關(guān)系數(shù),而II型回歸可以建立由X推Y,或由Y推X的兩個不同的回歸方程。5、系數(shù)的意義:-1WrW1,沒有單位;b的取值沒有限制,b有單位。聯(lián)系:1、對于同一樣本資料若同時計算r與b,二者的正負(fù)號是一致的。2、對于同一樣本資料,r與b的假設(shè)檢驗結(jié)果是等價的。3、r與b可以互相換算中r2稱為確定系數(shù)(coefficientofdetermination)r2=bxy/(lxx?lyy)=(bxy/lxx)/lyy=SS/SS總r2沒有負(fù)值,其值在0?1之間,故當(dāng)rMO,rM1時,r2恒小于r。r2作為度量兩變量相互關(guān)系的指標(biāo)較r更易理解,r2是回歸平方和在總平方和中所占的比重?;貧w平方和是由于引入了相關(guān)變量而使總平方和減少的部分,回歸平方和越接近總平方和,則r2越接近1,說明引入相關(guān)的效果越好。什么時候該用回歸系數(shù)?什么時候用相關(guān)系數(shù)?當(dāng)需要用一個變量去預(yù)測另一個變量時應(yīng)應(yīng)使用回歸系數(shù);如果僅要知道兩變量間的線性關(guān)系而不需要做預(yù)測時用相關(guān)系數(shù);當(dāng)目標(biāo)不清楚時可以同時給出相關(guān)系數(shù)和回歸系數(shù)。多元線性回歸:偏回歸系數(shù)13(partialregressioncoefficient),它表示在其它自變量固定不變的情況下,xj每改變一個測量單位時所引起的應(yīng)變量Y的平均改變量。30為常數(shù)項,又稱為截距;e為殘差,是去除m個自變量對Y的影響后的隨機誤差,e~N(0,。2)。多元線性回歸的假設(shè)條件:Linear(線性);Independent^獨立);Normaldistribution(正態(tài));Equalvariance(等方差)。模型的評價:決定系數(shù)R2coefficientofdetermination模型的選擇ModelSelection:全局擇優(yōu)法--校正的確定系數(shù)(AdjustedR2),最大則優(yōu)。全局擇優(yōu)法--Mallows'Cp應(yīng)選擇Cp第一次接近p+1的回歸方程為最優(yōu)方程。逐步回歸過程:向前選擇法(forwardselection)向后消去法(backwardelimination)逐步過程法(stepwiseprocedure)多元線性回歸中應(yīng)注意的問題:自變量賦值問題一數(shù)量化L.I.N.E.—殘差分析(殘差圖出現(xiàn)特殊趨勢,喇叭形,提示方差不恒等。曲線形,提示曲線關(guān)系。)共線性問題一共線性診斷變量間的交互作用一交互作用檢查統(tǒng)計與專業(yè)結(jié)合一不能過分依靠統(tǒng)計統(tǒng)計表(statisticaltable):用表格的形式表達被研究對象的特征、內(nèi)部構(gòu)成及各項內(nèi)容之間的依存關(guān)系。統(tǒng)計圖(statisticalgraph):用幾何圖形把統(tǒng)計資料形象化,用點的位置、線段的升降、直條的長短或面積的大小代表數(shù)量。統(tǒng)計表:標(biāo)題:說明表的名稱或主題;橫標(biāo)目:說明各橫行數(shù)字的含義;縱標(biāo)目:說明各縱列數(shù)字的含義;數(shù)字:具體數(shù)值;文字說明和備注:說明一些無法在表中表達的附加信息。注明單位、一般不允許使用斜線和豎線、小數(shù)位數(shù)一致,小數(shù)點對齊。四種統(tǒng)計表:簡單表(simpletable);組合表(crosstabulationtable);頻數(shù)分布表(frequencydistributiontable);列聯(lián)表(contingencytable)。直方圖(histogram):用于描述數(shù)值資料的分布情況。直方圖矩形面積表達各組頻數(shù)或頻率的大小,面積總和相當(dāng)于各組頻數(shù)的總和或1。線圖(linediagram)以線段的上升和下降來表示某事物在時間上的發(fā)展變化,或某一現(xiàn)象隨另一現(xiàn)象變化而變化的趨勢。常用于連續(xù)性資料。餅形圖(piediagram)以圓形的整個面積代表100%,以圓內(nèi)各扇形面積代表總體的各個部分所占的比重。百分直條圖(percentagebarchart)以資料的構(gòu)成比數(shù)值大小在長條中劃出相應(yīng)的比例面積,用以表達各組成部分在全體中的比重。直條圖(barchart):用等寬直條的長短來表示相互獨立的各指標(biāo)的數(shù)值大小,適用于相互獨立資料(離散型)的比較。種類:有單式和復(fù)式兩種。縱軸尺度必須從“0”開始。散點圖(scatterdiagram):用點的密集程度和趨勢表示兩種現(xiàn)象間的相互關(guān)系關(guān)系。生存分析:研究的數(shù)據(jù)為隨訪資料(longitutinaldata)截尾(Censoring):在隨訪研究中,由于某種原因未能觀察到隨訪對象發(fā)生事先定義的終點事件,無法得知隨訪對象的確切生存時間,這種現(xiàn)象稱為刪失或終檢、截尾。線性回歸和普通Logistic回歸不能用于生存數(shù)據(jù)。生存分析中最基本的兩個描述統(tǒng)計量為生存概率(survivalprobability)和生存率(survivalrate)。前者用P表示,是指單位時段開始存活的個體到該時段結(jié)束時仍然存活的可能性;后者用S(t)表示,是指觀察對象活過t個單位時間的概率。生存過程的兩種非參數(shù)方法:小樣本未分組資料的乘積限法(product-limitmethod)和大樣本分組資料的壽命表法(lifetablemethod)。中位生存時間(mediansurvivaltime)又稱生存時間的中位數(shù),表示剛好有50%的個體其存活期大于該時間。按調(diào)查涉及的時間劃分橫斷面調(diào)查(cross-sectionalsurvey)了解某一特定時間斷面上特定人群中疾病或衛(wèi)生服務(wù)的現(xiàn)狀及其與之相聯(lián)系的各種因素。特點:簡單便利縱向調(diào)查(Longitudinalsurvey)病例對照研究(case-controlstudy)隊列研究(cohortstudy)按調(diào)查的范圍,可分為普查和非全面調(diào)查,后者又以抽樣調(diào)查和典型調(diào)查最為常用。搜集原始資料的方式主要有兩種:直接觀察法和采訪法(①訪問②開調(diào)查會③信訪)。調(diào)查表(questionnaire)或稱問卷把調(diào)查項目按提問的羅輯順序列成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論