醫(yī)學統(tǒng)計學考試_第1頁
醫(yī)學統(tǒng)計學考試_第2頁
醫(yī)學統(tǒng)計學考試_第3頁
醫(yī)學統(tǒng)計學考試_第4頁
醫(yī)學統(tǒng)計學考試_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、醫(yī)學統(tǒng)計學基本概念1. 醫(yī)學統(tǒng)計學是以醫(yī)學理論為指導,應用概率論與數理統(tǒng)計的有關原理和方法,研究醫(yī)學資料的搜集、整理、分析和推斷的一門應用科學。2. 統(tǒng)計工作的步驟:(1)設計(2)收集資料(3)整理資料(4)分析資料; 或者分三步:(1)研究設計(2)資料分析(3)結論。3. 定量資料:又稱為數值變量資料,特點:(1)各觀察值之間有量的差別;(2)數據間有連續(xù)性。它是指變量的取值不止是可列個,而是可取某區(qū)間a,b,(-oo,oo)上的一切值。4. 定性資料:又稱為分類資料、分類變量資料(包括二項分類、多項分類資料),特點:(1)各觀察值之間有質的差別;(2)數據間有離散性。它是指變量的取值有

2、限的,至多是可列多個。附:無序分類:二項分類、多項分類5. 等級資料:又稱為半定量資料,有序分類,指各類之間有程度的差別。特點:()各觀察單位間或者相同,或者存在質的差別;(2)各等級間只有順序,而無數值大小,故等級之間不可度量。6. 個體individual:即每個觀察單位。7. 總體population:根據研究目的確定的同質觀察單位的全體。8. 樣本:是從總體中隨機抽取部分觀察單位,其實測值的集合。樣本包含的觀察單位數稱為樣本含量或樣本大小。9. 參數parameters:描述某總體特征的統(tǒng)計指標稱為總體參數,簡稱參數。如總體均數、總體標準差等。特點:參數是未知的,固有的,不變的!10.

3、 統(tǒng)計量:描述某樣本特征的的統(tǒng)計指標稱為樣本統(tǒng)計量,簡稱統(tǒng)計量。特點:統(tǒng)計量是已知的,變化的,有誤差的!11. 概率probability:是描述隨機事件發(fā)生的可能性大小的數值。常用P表示。它的大小界于0和1之間。12. 隨機事件:(1)可重復性:相同條件下可重復進行;(2)隨機性:出現兩種機兩種以上結果;(3)偶然性:實驗前不能肯定將出現哪種結果。13. 頻率的穩(wěn)定性:在重復試驗中,事件A的頻率隨著試驗次數的不斷增加將愈來愈接近一個常數p,頻率的這一特性稱為頻率的穩(wěn)定性。14. 概率的統(tǒng)計定義:頻率的穩(wěn)定性充分說明隨機事件出現的可能是事物本身固有的一種客觀屬性,因而是可以被認識和度量的。這個

4、常數p就稱為事件A出現的概率(probability),記作 P(A) 或 P。這一定義稱為概率的統(tǒng)計定義。它是事件A發(fā)生的可能性大小的一個度量。容易看出, 頻率為一變量,是樣本統(tǒng)計量,而概率為常數,是一總體參數。實踐中,當試驗次數足夠多時,可以近似地將頻率作為概率的一個估計。15. 小概率原理:當某事件發(fā)生的概率小于或等于0.05時,統(tǒng)計學通常稱該事件為小概率事件,其涵義為該事件發(fā)生的可能性很小,進而認為其在一次抽樣中不可能發(fā)生,此即為小概率原理。16. 同質(homogeneity): 性質相同的事物稱為同質的。17. 變異(variation):同質的事物內個體之間或同一個體重

5、復測量間的差別稱為變異。18. 參考值范圍(reference interval)又稱正常值范圍(normal range)。由于正常人的形態(tài)、功能、生化等各種指標的數據因人而異,而且同一個人的某些指標還會隨著時間、機體內外環(huán)境的改變而變化,因此需要確定其波動范圍,即正常值范圍,簡稱正常值(normal value)。19. 正常值范圍(normal ranges), 是指絕大多數正常人的某指標范圍。20. 抽樣誤差(sampling error): 由于抽樣造成的樣本統(tǒng)計量和總體參數之間的差異。21. 標準誤(standard error):樣本統(tǒng)計量的標準差稱為標準誤。樣本均數的標準差稱為

6、均數的標準誤。22. 參數估計:由樣本信息估計總體參數稱為參數估計,包括點估計和區(qū)間估計。23. 點估計(point estimation) :直接用樣本統(tǒng)計量作為總體參數的估計值。這種估計方法簡單,但未考慮抽樣誤差的大小。24. 區(qū)間估計(interval estimation) :按一定的概率或可信度(1-a)用一個區(qū)間估計總體參數所在范圍,這個范圍稱作可信度為1-a 的可信區(qū)間(confidence interval, CI),又稱置信區(qū)間。這種估計方法稱為區(qū)間估計。 25. 可信度為1-a 的可信區(qū)間的確切涵義是:每100個樣本所算得的100(1-a)可信區(qū)間,平均有100(1-a)個

7、包含了總體參數。如取a=0.05,則每100個樣本所算得的100個95可信區(qū)間,平均有95個包含總體參數在內,有5個不包含總體參數。26. 可信區(qū)間的兩個要素:第一個要素是可靠性,常用可信度1-a的大小表示;第二個要素是精確性,常用可信區(qū)間的長度CU-CL衡量。27. 均數95%可信區(qū)間,其涵義是:如果重復100次抽樣,每次樣本含量均為n,每個樣本均按 (見課本P42)構建可信區(qū)間,則在此100個可信區(qū)間內,理論上有95個包含總體均數,而有5個不包含總體均數。28. 可信度為95%的CI的涵義:每100個樣本,按同樣方法計算95%的CI,平均有95%的CI包含了總體參數。這里的95%,指的是方

8、法本身!而不是某個區(qū)間!29. 第一類錯誤(I型錯誤):拒絕了實際上成立的H0假設,稱為“假陽性”, 用來表示。30. 第二類錯誤(II型錯誤):不拒絕實際上不成立的H0,稱為“假陰性”,用來表示。31. 檢驗效能(power of a test)或檢驗功效:1-b 稱檢驗效能(power of a test),過去稱把握度。為當兩總體確有差異,按檢驗水準a所能發(fā)現該差異的能力。1-b只取單尾。32. 完全隨機設計:根據某一試驗因素,將試驗對象完全按隨機設計分為若干個組,每個組的樣本例數可以相等,也可以不等,分別求出各組試驗結果的均數,即為單因素多個樣本均數,單個因素可以有多個水平,R>

9、233. 隨機區(qū)組設計又稱配伍組設計(Random Block Design):即兩因素多個樣本均數的比較(或稱兩因素方差分析,two way analysis of variance)。34. 絕對數:在計數資料中,各組的觀察數稱絕對數。35. 相對數:是兩個有聯系的指標的比,計數資料的統(tǒng)計描述主要是相對數(relative number)。36. 率(rate):說明某現象發(fā)生的頻率或強度,常用%、1/萬、1/10萬等作單位,表示在一定范圍內,某現象的發(fā)生數與可能發(fā)生某現象的總數之比 。率的結果常以保留1-2位整數為宜。37. 構成比(constituent ratio):說明一事物內部各

10、組成部分所占的比例,常以%來表示。38. 比:也稱相對比(relative ratio),兩個有關指標之比。通常以某種現象的數量為1或100作基數,看另一種現象的數量是多少,說明一事物是另一事物的若干倍或百分之幾。兩個相比的指標可以性質相同,如時間比、性別比;也可性質不同。比=A/B39. 秩次是指全部觀察值按某種順序排列的位序;秩和:是同組秩次之和。40. 秩變換:將等級變成秩次的方法稱為秩變換。41. 秩和檢驗:就是通過秩次的排列求出秩和,從而對總體的分布進行假設檢驗的方法。42. 確定性關系:是指兩變量間的關系是函數關系。非確定性關系:是指兩變量在宏觀上存在關系,但并未精確到可以用函數關

11、系來表達。相關關系:指既是必然的又是不確定的關系稱為相關關系。當兩個變量之間出現如下關系,一個增大,另一個也同時增大,或縮小,我們稱這種現象為共變,也就是說兩個變量之間有相關關系。相關關系不一定是因果關系。相關關系可以是因果關系,也可以是伴隨關系。43. 直線相關系數:簡稱為相關系數,用符號 r表示,是用于說明具有直線關系兩個變量之間,相關關系的密切程度和相關方向的指標。44. 等級相關的含義:等級相關反映的是兩變量等級間的相關,并不反映兩變量間的數值關系。45. 直線相關:這種直線關系,或分析這種直線關系的理論和方法,統(tǒng)稱為直線相關。46. 直線回歸: 直線回歸是用于研究兩個變量x與y之間的

12、線性依存關系的一種統(tǒng)計分析方法。47. 試驗研究設計:是指研究者根據研究目的、通過對受試對象施加干預,嚴格控制各種影響因素,獲得干預研究結果。48. 雙盲臨床試驗:是指觀察者方和被觀察者方在整個試驗過程中不知道受試者接受的是何種處理;單盲臨床試驗是指僅被觀察者方處于盲態(tài)。觀察者方指的是研究者、參與試驗效應評價的研究人員、數據管理人員、統(tǒng)計分析人員;被觀察者方指的是受試對象及其親屬或監(jiān)護人。雙盲雙模擬:試驗組:試驗藥+陽性對照藥的安慰劑;對照組:陽性對照藥+試驗藥的安慰劑。 醫(yī)學統(tǒng)計學相關知識1. 頻數分布表的用途:(1)看出頻數分布的兩個重要特征:集中趨勢 、離散趨勢 (2)揭示資料的分布類型

13、2. 描述定量資料集中趨勢的三個指標及其應用條件:(1)均數(也稱算術均數):適用于單峰對稱分布的資料;(2)幾何均數:適用于等比資料、對數正態(tài)分布資料;(3)中位數:適用于偏態(tài)分布資料、分布不規(guī)則或未知分布資料、一端或兩端有不確定數據(開口資料)的資料。3. 描述定量資料離散程度的指標(極差、四分位數間距、標準差、變異系數)及其適用范圍:這四個指標均反映定量資料的離散程度。極差和四分位數間距可用于任何分布(極差常用于描述單峰對稱分布小樣本分布資料的變異程度,或用于初步了解資料的變異程度;四分位數間距常用于描述偏態(tài)分布資料、兩端無確切值或分布不明確資料的離散程度),后者比前者穩(wěn)定,但均不能綜合

14、反映各觀察值的變異程度;標準差最常用,要求資料近似服從正態(tài)分布;變異系數可用于比較度量單位不同的兩組或多組資料的變異度或均數相差懸殊的兩組或多組資料的變異度。4. 正態(tài)分布的特征:(1)正態(tài)分布是一單峰分布,高峰位置在均數處;(2)正態(tài)分布以均數為中心,左右完全對稱;(3)正態(tài)分布取決于兩個參數,即均數和標準差。是位置參數,越大,則曲線沿橫軸向右移動;越小,曲線沿橫軸向左移動。為 形態(tài)參數,表示數據的離散程度,若小,則曲線形態(tài)“瘦高”;大,則曲線形態(tài)“矮胖”。(4)有些指標不服從正態(tài)分布,但通過適當的變換后服從正態(tài)分布;(5)正態(tài)分布曲線下的面積分布是有規(guī)律的。5. 正態(tài)曲線下的面積規(guī)律 正態(tài)

15、曲線下面積總和為1;正態(tài)曲線關于均數對稱;對稱的區(qū)域內面積相等; 對任意正態(tài)曲線,按標準差為單位,對應的面積相等; m-1.64s m+1.64s內面積為90%; m-1.96s m+1.96s內面積為95%;m-2.58s m+2.58s內面積為99%。 小于m-3s的面積為 0.13%; 小于m-2s的面積為 2.28%; 小于m-s 的面積為15.87%。6. 標準誤與標準差的關系區(qū)別 標準差 s 標準誤 sx意義 個體變異 統(tǒng)計量的抽樣誤差用途 正常值范圍 (x±1.96s) 總體均數的可信區(qū)間( x±t a, n s x)與n關系 n­ s趨于穩(wěn)定 n&

16、#173; sx趨于 0聯系 1.兩者都是變異指標,說明個體之間的變異用標準差,說明統(tǒng)計量之間的變異用標準誤。 2.當樣本含量不變時,標準差大,標準誤亦大,均數的標準差與標準誤成正比。7.下列說法正確嗎?算得某95%的可信區(qū)間,則: 總體參數有95%的可能落在該區(qū)間。(錯) 有95%的總體參數在該區(qū)間內。(錯) 該區(qū)間包含95%的總體參數。(錯) 該區(qū)間有95%的可能包含總體參數。(錯) 該區(qū)間包含總體參數,可信度為95%。(對)8. 影響可信區(qū)間大小的因素:(1)可信度:可信度越大,區(qū)間越寬;(2)個體變異:變異越大,區(qū)間越寬; (3)樣本含量:樣本含量越大,區(qū)間越窄。9. 均數的可信區(qū)間和

17、參考值范圍的區(qū)別區(qū)別 可信區(qū)間 參考值范圍意義 未知參數的可能范圍 正常值的波動范圍公式 s已知或s未知,但n足夠大(x±u a /2,sx)或(x±u a /2 s,x) (x±u a /2,sx) s未知( x±t a, n s x)用途 估計總體均數 判斷正異常小結:均數的可信區(qū)間:均數±界值×標準誤 個體的容許區(qū)間(參考值范圍):均數±界值×標準差10. 可信區(qū)間與容許區(qū)間的區(qū)別:見P4411. 假設檢驗的基本思想: 提出一個假設(H0); 驗證這個假設。如果假設成立,會得到現在的結果嗎? 兩種可能的情況:

18、(1)得到現在的結果可能性很小(小概率) 拒絕H0 (2)有可能得到現在的結果(不是小概率) 沒有理由拒絕H0 假設檢驗的步驟:(1)建立檢驗假設;(2)確定檢驗水準;(3)計算檢驗統(tǒng)計量并求P值;(5)界定P值并作結論。12. I 型錯誤和 II 型錯誤實際情況假設檢驗的結果拒絕 H0 不拒絕 H0 H0 成立I 型錯誤(a)  H0 不成立把握度(1-b)II 型錯誤(b)13. 差異檢驗和優(yōu)度檢驗:差異檢驗之意義在于是否能夠確認H1成立,故希望所得P值很小,因為P值越小,表示手頭樣本從H0總體隨機獲得之概率越小,即否定H0而確認H1成立的把握越大。優(yōu)度檢驗之意義在于是否能夠確認

19、H0成立,故希望所得P值較大,因為P值越大,表示手頭樣本從H0總體隨機獲得之概率越大。 14. 可信區(qū)間與假設檢驗區(qū)別和聯系:可信區(qū)間說明量的大小即推斷總體均數范圍,假設檢驗推斷質的不同即判斷兩總體均數是否不等;可信區(qū)間可回答假設檢驗問題,可信區(qū)間若包含了H0 ,按a水準,不拒絕H0;若不包含H0 ,按a水準,拒絕H0 ,接受H1;可信區(qū)間不但能回答差別有無統(tǒng)計學意義,還能提示差別有無實際專業(yè)意義;可信區(qū)間不能夠完全代替假設檢驗。可信區(qū)間只能在預先規(guī)定概率a的前提下進行計算,假設檢驗能獲得一較為確切的P值。15. 下列說法正確嗎? P是H0成立的概率。(錯) P是 I 型誤差的概率。(錯)P是

20、 H0 成立時,獲得現有差別的概率。(錯) P是 H0 成立時,獲得現有差別以及更大的差別的概率。(對) 統(tǒng)計推斷時的風險。(錯) 拒絕H0時所冒的風險。(對)16.t檢驗的應用條件:(1)獨立性:各觀察個體間是相互獨立的,不能互相影響,亦不能一方影響另一方;(2)正態(tài)性:兩組均數比較時,要求兩組數據服從正態(tài)分布;配對設計時,要求差值服從正態(tài)分布。(3)方差齊性:兩樣本所對應的正態(tài)總體之方差相等。17. 總體方差不相等的t 檢驗 :(1)數據變換后進行t 檢驗;(2)秩轉換的非參數檢驗;(3)近似t檢驗 ¾ t'檢驗。18. 兩樣本均數比較方法的選擇方差齊 方差不齊小樣本 t

21、 檢驗 t 檢驗 大樣本 u 檢驗 u 檢驗 19.方差分析的基本思想:方差分析(analysis of variance)又稱為變異數分析,采用F檢驗統(tǒng)計量,也稱F檢驗。這種方法的基本思想是對變異進行分解和分析,把全部觀察值之間的變異總變異,按照設計和需要分為兩個或多個組成部分,再作分析, 從而達到統(tǒng)計推斷之目的??傋儺?組內變異+組間變異;組內變異:抽樣(隨機)誤差(個體差異和測量誤差);組間變異:組間本質差別抽樣(隨機)誤差;如果組間無本質差別,則組間變異組內變異或F20.方差分析的優(yōu)點:(1)不受比較組數的限制;(2)可同時分析多個因素的作用;(3)可分析因素間的交互作用。21. 方差

22、分析的意義:是按照實驗設計把總變異分成若干部分,劃分得越細,各部分的涵義越明確,對結論亦較易解釋;同時,殘余的變異即誤差部分越小,因而能夠提高檢驗的靈敏度和結論的準確性。22. F分布是方差比的分布,常用于方差齊性檢驗,方差分析等。 F分布特征:(1) F分布為一簇單峰正偏態(tài)分布曲線,與兩個自由度有關。(2) 若F服從自由度為(n1,n2)的F分布,則其倒數1/F服從自由度為(n2,n1)的F分布。(3) 自由度為(n1,n2)的F分布,其均數為n2/(n2-2),與第一自由度無關。(4) 第一自由度n11時,F分布實際上是t分布之平方;第二自由度n2時,F分布實際上等于c2分布。(5) 每一

23、對自由度下的F分布曲線下的面積分布規(guī)律,見方差分析用F界值表,表中橫標目為第一自由度,縱標目為第二自由度,表中分別給出了右側尾部概率為0.05和0.01時的F界值。23.方差分析表變異來源SSvMSF P組間SS組間k-1SS組間/v組間MS組間/ MS組內組內SS組內N-kSS組內/v組內總SS總N-1  24.方差分析與t檢驗的關系當比較兩個均數時,從同一資料算得之 F 值與t值有如下關系:F = t2 可見在兩組均數比較時,方差分析與t檢驗的效果是完全一樣的。25. 方差分析后的兩兩比較(多重比較)的幾種方法:一、SNKq檢驗(多個均數間全面比較) 二、LSDt檢驗(

24、有專業(yè)意義的均數間比較)三、Dunnett檢驗 (多個實驗組與對照組比較) 還有TUKEY 、DUNCAN、 SCHEFFE、 WALLER 、BON等比較方法各組間的比較用SNK法; 各試驗組與某一對照組間的比較用Dunnet法。26. 方差分析應用條件:  各樣本是相互獨立的隨機樣本;  各樣本來自正態(tài)總體;  各組總體方差相等,即方差齊。方差分析和t檢驗要求: 獨立性、正態(tài)性、方差齊性。27. 總結:均數、方差的比較:樣本均數與總體均數的比較( t 檢驗) 配對設計樣本均數的比較(配對t 檢驗)兩樣本均數的比較 ( t 檢驗,

25、u 檢驗, F 檢驗, SNK, Duncan)多樣本均數的比較( F 檢驗,ANOVA) 各組間的比較(SNK法); 各試驗組與某一對照組間的比較用(Duncan法)兩個方差的比較( F 檢驗) 多個方差的比較( Bartlett 檢驗28. 二項分布應用條件:醫(yī)學領域有許多二分類記數資料都符合二項分布(傳染病和遺傳病除外),但應用時仍應注意考察是否滿足以下應用條件:(1)每次實驗只有兩類對立的結果;如陽性或陰性、生存或死亡,不允許考慮“可疑”等模糊結果,屬于二項分類的資料。(2) n次事件相互獨立;即每個觀察單位的觀察結果不會影響到其它觀察單位的結果。如要求疾病無傳染性、無家族聚集性等。(

26、3)每次實驗某類結果的發(fā)生的概率是一個常數。已知發(fā)生某一結果(如陽性)的概率為,其對應的概率必然是(1-),我們知道總體率一般是未知的,在實際工作中要求是從大量觀察中獲得的比較穩(wěn)定的數值。29.二項分布的應用:(1)樣本率與總體率的比較;(2)兩樣本率的比較。30. Poisson分布特征:  非對稱,但增大時趨于對稱;  均數與方差均為; 分布的可加性, n個獨立的Poisson分布相加仍符合Poisson分布,可使>20,使得可用正態(tài)近似。31. Poisson分布應用條件:(1)平穩(wěn)性:X的取值與觀察單位的位置無關;(2)獨立增量性:在某個觀察單位X的

27、取值與前面各觀察單位上X的取值獨立.;(3)普通性:在充分小的觀察單位上X的取值最多為1。32. Possion分布的應用:(1)總體均數估計;(2)樣本均數與總體均數的比較;(3)兩樣本均數的比較。33.2檢驗的用途:(1)推斷多個總體率之間有無差別(2)推斷幾組總體構成比之間有無差別(3)兩個變量之間有無關聯性(4)頻數分布的擬合優(yōu)度檢驗。34. 2檢驗的基本思想:2= 如果H0假設成立,那么實際頻數與理論頻數應該比較接近。如果實際頻數與理論頻數相差很大,超出了抽樣誤差所能解釋的范圍,則可認為H0假設不成立,即兩樣本對應的總體率不等。2值反映了實際頻數與理論頻數吻合的程度。如果兩總體率相同

28、的假設成立,則實際頻數與理論頻數之差異純系抽樣誤差所致,故一般不會很大,2值也就不會很大;在一次隨機試驗中,出現大的2值的概率P是很小的。因此,若根據實際樣本資料求得一個很小的P,且P(檢驗水準),根據小概率原理,就有理由懷疑H0假設的真實性,因而拒絕它;若P,則沒有理由拒絕H0。2值的大小除取決于A-T的差值外,還與基本數據的格子數有關,嚴格地說是與自由度有關。在x2檢驗中,自由度指在表中周邊合計不變的前提下,基本數據可以自由變動的格子數 。35. x2檢驗的精髓:檢驗實際頻數和理論頻數的吻合程度。如果實際頻數和理論頻數越吻合,說明H0假設成立的可能性就越大,反之,如果實際頻數和理論頻數相差

29、越遠,說明H0越不可能成立。36.普通四個表資料卡方檢驗公式的選用條件:1) n40,且T5時,用未校正的值2) 1T<5,且n40時,宜用校正2值3) T<1或n<40時,宜用確切概率計算法37. 行×列表的2值計算專用公式: c2=38. 行×列表資料采用2檢驗時,注意事項:(1)注意理論數的大小。行×列表資料采用2檢驗時,對理論數的要求與四格表資料相同,不能有T<1,T<5的個數不能超過所有理論數個數的1/5(四格表中有一個T<5即超過1/5),如出現上述情況,可用以下辦法解決:   1)增加

30、觀察例數可使實際頻數增加,從而使T增大。    2)合并相鄰行或列的實際數,從而使T增大。合并時應注意合理性,一般有序分類可合并,無序分類則不可合并。    3)采用精確概率檢驗法或似然比2檢驗法,(2)最小理論數求法。上述2檢驗時,采用專用公式計算2值無須理論數,但也必須求出最小理論數,觀察其大小是否滿足上述各項條件。最小理論數位于最小行列合計數相對應的位置上,因此可用行、列合計數中小者相乘除以總例數即得到最小理論數。 (3)多組資料比較經2檢驗拒絕H0時只能認為多組間總的看差別有統(tǒng)計學意義,并不說明兩兩之間差別均有統(tǒng)計學意義。若需

31、分析兩兩之間構成差別有無統(tǒng)計學意義,可采用2分割法或改變檢驗水準法進行分析等。39. 配對四格表資料的c2檢驗步驟:(H0、H1寫法特殊)一H0: 兩法檢出陽性率相同,總體BC; H1: 兩法檢出陽性率不同,總體BC。 a0.05。二 計算統(tǒng)計量: c2。三 查c2界值表,判斷P與大小四 按a0.05水準,拒絕H0 或接受H1 。得出結論。40. 列聯表:將單一樣本的每個觀察單位,同時按兩種因素,進行分組,分組以后就得到R×C表。然后對這個表進行x2檢驗,以判斷兩個因素的關聯性。而這種配對設計而形成的雙向交叉排列的統(tǒng)計表,用以描述行變量和列變量之間的關系,特稱為列聯表。關于列聯表內兩

32、個分類變量是否有關聯性的統(tǒng)計推斷,仍然是用x2檢驗,但是它的檢驗假設有所不同。 一 列聯表關聯性分析的c2檢驗步驟:(結合課件看)H0: 不同矽肺期次的患者肺門密度分布相同; H1: 不同矽肺期次的患者肺門密度分布不同或不全相同。a0.05。二 計算統(tǒng)計量: c2 , v 。三 P=?四 按a0.05水準,拒絕H0 ,接受H1 。認為肺門密度與矽肺期次有關。結合本資料,肺門密度有隨矽肺期次增高而增加的趨勢。41. R×C表資料中的行一般為研究因素的不同水平分組,列一般為研究結果(效應指標)的分類。根據行和列的分組或分類情況,可將R×C表資料分為以下幾種情況: 1)雙向無序R

33、×C表行和列的分組或分類均為無序。此時可采用2檢驗處理。2)單向有序R×C表 若行的分組為有序(如藥物劑量、患者年齡、病情輕重等),但率的效應為無序分類(如染色體損傷的類型、疾病的證型等),此時仍可按雙向無序處理,采用2檢驗;若行的分組為無序(如三種藥物處理),而列的效應為有序(如痊愈、顯效、好轉、無效),此時應采用秩和檢驗或Ridit檢驗方可判斷療效上的優(yōu)劣。因為2檢驗不考慮有序分類變量的順序。如果固定有序分類變量的順序,將列的頻數互換后,檢驗的結論相同,顯然不合理 。3)雙向有序R×C表 若行的分組為有序(如年齡),效應分類也為有序(如療效等級),可按單向有序

34、R×C表中,列為有序分類時的處理方法,采用秩和檢驗或Ridit檢驗。若行和列均為同一觀察對象的兩個有序變量,如矽肺的期次和肺門密度的級別,病程與療效等,此時為配對設計,可先采用2檢驗。 42. 資料的分類數值變量資料 二分類分類資料 無序多分類 多分類 有序多分類(等級資料)43. 參數統(tǒng)計和非參數統(tǒng)計參數統(tǒng)計 非參數統(tǒng)計(parametric statistics) (nonparametric statistics) 已知總體分布類型,對未知參數進行統(tǒng)計推斷 對總體的分布類型不作任何要求 不受總體參數的影響,比較分布或分布位置依賴于特定分布類型,比較的是參數 適用范圍廣;可用于任

35、何類型資料(等級資料,或“>50mg” ) 44. 非參數檢驗適用情況:總體分布形式未知或分布類型不明;偏態(tài)分布的資料:等級資料:不能精確測定,只能以嚴重程度、優(yōu)劣等級、次序先后等表示;不滿足參數檢驗條件的資料:各組方差明顯不齊。數據的一端或兩端是不確定數值,如“>50mg”等。 45.秩和檢驗的適用范圍:(1)等級資料;(2)定量資料,但數據的某一端或兩端無確定數值(開口資料);(3)定量資料,但數值的分布是極度偏態(tài)的,如L形分布,或個別數值偏離過大而不屬于“過失誤差”者;(4)定量資料,但各組離散程度相差懸殊,即使經變量變換,也難以達到方差齊性;(5)定量資料,但分布型尚未確知

36、,此時可先用秩和檢驗法進行分析;(6)兼有等級和定量性質的資料。46.秩和檢驗的優(yōu)缺點:優(yōu)點 :不論樣本所來自的總體分布的形式如何,甚至是未知的,都能適用。某些非參數方法計算簡便。因此在急需獲得初步結果時可采用。易于理解和掌握??捎糜诓荒芑蛭醇泳_測量的資料,如等級資料或某些記數資料。缺點:對適宜用參數方法的資料,若用非參數法處理,常損失部分信息,降低效率。雖然許多非參數法計算簡單,但不少問題的計算仍嫌繁冗。47.樣本的相關系數r 的特征:(1) -1 r 1,沒有單位; (2)r 的絕對值大小表示相關關系的密切程度;(3) r 的符號表示相關的方向:r0為正相關;r0為負相關;r0為零相關或

37、無相關48. 回歸系數和回歸方程的意義及性質:(1)b 的意義:回歸系數b稱為斜率,表示自變量增加一個單位時,應變量的平均改變量。(2)a 的意義:a為截距或常數項,a的值表示當X=0時,應變量Y的估計值。從坐標軸上看,a對應回歸直線延伸至X=0時與Y軸的交點,故稱為截距。(3)Y(Y-hat)的意義: Y表示給定X時Y的平均值的估計。Y的涵義是均數不同X時Y均數的估計值,與一般的均數的計算方法不同,這里的均數是給定X的條件下,由回歸方程估計得到的,故又稱為條件均數。(4)Y-Y的意義:Y-Y稱為剩余,又稱殘差,是Y的觀察值與對應的估計值之差,在回歸圖中表示各散點到回歸直線的縱向距離。(5)

38、的意義:稱為殘差平方和 (residual sum of squares)或剩余平方和,是所有剩余之平方和,綜合表示點距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘)49. 回歸直線的有關性質:(1) 直線通過均點 (2) 直線上方各點到直線的縱向距離之和 = 直線下方各點到直線的縱向距離之和即: (3) 各點到該回歸線縱向距離平方和較到其它任何直線者為小。 50. 應變量Y的總變異分解: v總v回v剩,v回=1, v剩=n-2。51. 直線回歸中三種假設檢驗間的關系: 在直線回歸中,相關系數的假設檢驗,回歸系數的假設檢驗,以及回歸方程的方差分析結果等價。52. 的可信

39、區(qū)間與Y的容許區(qū)間:可信區(qū)間是針對條件均數的,而容許區(qū)間是針對Y的取值范圍的。的容許區(qū)間估計 :給定 X 時 Y 的估計值是 Y 的均數的一個估計。給定X 時 Y 值的容許區(qū)間是 Y 值的可能范圍。53. 回歸方程的應用:(1)描述兩個變量間的依存關系。 (2)利用回歸方程進行預測。 (3)利用回歸方程進行估計。(4)利用回歸方程獲得更高精度的參考值。 (5)利用回歸方程進行控制。54. 應用直線回歸的注意點:(1).回歸分析要有實際意義: 要有實際意義; 充分利用散點圖,判斷:(1) 線性趨勢 (2) 離群值 當樣本含量較大時,統(tǒng)計學檢驗的作用減弱; 回歸關系可以內插,不宜外延; 自變量的選擇: 原因 容易測量的 變異小的 年齡、身高、體重、體表面積(2)在作回歸前應先作散點圖 (3)內插和外延55. 回歸分析的正確應用:回歸系數是有單位的,不能根據 b 的大小判斷回歸關系的密切程度。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論