如何選用統(tǒng)計(jì)學(xué)方法PPT幻燈片_第1頁
如何選用統(tǒng)計(jì)學(xué)方法PPT幻燈片_第2頁
如何選用統(tǒng)計(jì)學(xué)方法PPT幻燈片_第3頁
如何選用統(tǒng)計(jì)學(xué)方法PPT幻燈片_第4頁
如何選用統(tǒng)計(jì)學(xué)方法PPT幻燈片_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

原始數(shù)據(jù)的記錄形式

原始數(shù)據(jù)的記錄形式

原始數(shù)據(jù)中,變量分為標(biāo)識(shí)變量和分析變量兩種。1.標(biāo)識(shí)變量主要用于數(shù)據(jù)管理,包括數(shù)據(jù)的核對與增刪等,是研究記錄中不可缺少的內(nèi)容,如上表中的“病人編號(hào)”和“病案號(hào)”即為標(biāo)識(shí)變量。2.分析變量則是數(shù)據(jù)分析的主要內(nèi)容,上表中除上述2個(gè)標(biāo)識(shí)變量外,其它9個(gè)變量均為分析變量。分析變量又被分為反應(yīng)變量(responsevariable)和解釋變量(explanatoryvariable)。反應(yīng)變量是表示試驗(yàn)效應(yīng)或觀察結(jié)果大小的變量或指標(biāo)。解釋變量又稱指示變量(indicator)、分組變量(groupingvariable)、分類變量(categoricalvariable)、協(xié)變量等。根據(jù)研究目的以及變量間的相互關(guān)系,各變量的作用并非一成不變。

原始數(shù)據(jù)的錄入

在進(jìn)行統(tǒng)計(jì)分析前,原始數(shù)據(jù)需錄入計(jì)算機(jī)。錄入的文件類型大致有:1.數(shù)據(jù)庫文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;2.文本文件,如word文件、WPS文件等;3.統(tǒng)計(jì)應(yīng)用軟件的相應(yīng)文件,如SPSS數(shù)據(jù)文件、SAS數(shù)據(jù)文件、STATA數(shù)據(jù)文件等。目前,上述文件類型絕大多數(shù)都可以相互轉(zhuǎn)換。錄入數(shù)據(jù)時(shí),應(yīng)遵循便于錄入,便于核查,便于轉(zhuǎn)換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,例如,下圖是前表原始數(shù)據(jù)錄入為SPSS數(shù)據(jù)文件(數(shù)據(jù).sav)的形式,錄入時(shí),用數(shù)值變量取代了字符變量(如圖中的“性別”,“腎毒性”,“黃疸”,“昏迷”),可以大大節(jié)約錄入的時(shí)間和費(fèi)用。(如將性別標(biāo)記為1=“男”,0=“女”)。數(shù)據(jù)處理中的幾個(gè)基本問題2.離群數(shù)據(jù)的處理當(dāng)個(gè)別數(shù)據(jù)與群體數(shù)據(jù)嚴(yán)重偏離時(shí),被稱為離群數(shù)據(jù)(outlier)或極端數(shù)據(jù)(extremevalue)。統(tǒng)計(jì)軟件一般都有判斷離群數(shù)據(jù)的方法。判斷離群數(shù)據(jù)有多種方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(boxplot)的箱體底線(第25百分位數(shù))或頂線(第75百分位數(shù))的距離為箱體高度(四分位數(shù)間距)的1.5倍至3倍時(shí)被視為離群點(diǎn);觀察值距箱體底線或頂線的距離超過3倍的箱體高度時(shí)被視為極端值。

若有離群數(shù)據(jù)出現(xiàn),可分為兩種情況處理:一種是,如果確認(rèn)數(shù)據(jù)有邏輯錯(cuò)誤,又無法糾正,可直接刪除該數(shù)據(jù)。例如,若某一數(shù)據(jù)中某病例的身高變量為“1755”cm,且原始記錄亦如此,又無法再找到該病例時(shí),顯然這是一個(gè)錯(cuò)誤的記錄,只能刪除。另一種是,若數(shù)據(jù)并無明顯的邏輯錯(cuò)誤,可將該數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾,則不剔除;若結(jié)果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等。數(shù)據(jù)處理中的幾個(gè)基本問題3.統(tǒng)計(jì)方法前提條件的檢驗(yàn):應(yīng)用參數(shù)方法進(jìn)行假設(shè)檢驗(yàn)往往要求數(shù)據(jù)滿足某些前提條件,如兩個(gè)獨(dú)立樣本比較t檢驗(yàn)或多個(gè)獨(dú)立樣本比較的方差分析,均要求方差齊性,因此需要做方差齊性檢驗(yàn)。如果要用正態(tài)分布法估計(jì)參考值范圍,首先要檢驗(yàn)資料是否服從正態(tài)分布。在建立各種多重回歸方程時(shí),常需檢驗(yàn)變量間的多重共線性和殘差分布的正態(tài)性。

統(tǒng)計(jì)方法選擇的基本思路

數(shù)據(jù)處理中,正確選擇統(tǒng)計(jì)方法至關(guān)重要。選擇統(tǒng)計(jì)方法可以沿著以下思路進(jìn)行。第一個(gè)層面,看反應(yīng)變量是單變量、雙變量還是多變量。對于前者,第二個(gè)層面看屬于三種資料類型中的哪一種;第三個(gè)層面看單因素還是多因素;第四個(gè)層面看單樣本、兩樣本或多樣本;第五個(gè)層面看是否是配對或配伍設(shè)計(jì);第六個(gè)層面看是否滿足檢驗(yàn)方法所需的前提條件。

單變量計(jì)量資料的分析

1.樣本均數(shù)與總體均數(shù)比較分析思路為:反應(yīng)變量為單變量→計(jì)量資料→單因素→樣本均數(shù)與總體均數(shù)比較→如果服從正態(tài)分布,選用樣本均數(shù)與總體均數(shù)比較的t檢驗(yàn)(one-samplet-test);如果不服從正態(tài)分布,則考慮用非參數(shù)檢驗(yàn)方法。2.兩個(gè)相關(guān)樣本均數(shù)的比較分析思路為:反應(yīng)變量為單變量→計(jì)量資料→單因素→兩個(gè)相關(guān)樣本均數(shù)比較(因?yàn)槭桥鋵υO(shè)計(jì))。如果差值服從正態(tài)分布,選用配對t檢驗(yàn)(pairedt-test);如果差值不服從正態(tài)分布,選用單樣本秩和檢驗(yàn)(Wilcoxonone-sampletest)。3.兩個(gè)獨(dú)立樣本均數(shù)比較

分析思路為:反應(yīng)變量為單變量→計(jì)量資料→單因素→兩個(gè)獨(dú)立樣本均數(shù)比較。如果方差齊性,且兩樣本均服從正態(tài)分布,選用兩樣本t檢驗(yàn)(two-samplet-test);如果方差不齊,但兩樣本均服從正態(tài)分布,選用t’檢驗(yàn),或兩樣本秩和檢驗(yàn)(Wilcoxontwo-sampletest/Mann-Whitneytest);如果方差不齊,且兩樣本不服從正態(tài)分布,選用兩樣本秩和檢驗(yàn)。本例選兩樣本t檢驗(yàn)。

單變量計(jì)量資料的分析4.多個(gè)樣本均數(shù)比較

應(yīng)變量為單變量,又屬計(jì)量資料時(shí),多個(gè)樣本均數(shù)比較分為單因素和多因素兩種情形。而重復(fù)測量資料則被視為多個(gè)反應(yīng)變量的類型。(1)單因素方差分析:若方差齊性,且各樣本均服從正態(tài)分布,選單因素方差分析(one-wayANOVA);若方差不齊,或某樣本不服從正態(tài)分布,選Kruskal-Wallis秩和檢驗(yàn)(Kruskal-Wallistest)。若方差分析或秩和檢驗(yàn)結(jié)果顯著,需進(jìn)一步做多重比較,如SNK法,LSD法,擴(kuò)展t檢驗(yàn)等。(2)兩因素方差分析但不分析交互作用:主要是隨機(jī)區(qū)組設(shè)計(jì)資料,涉及2個(gè)因素,即1個(gè)處理因素和1個(gè)區(qū)組因素。如果滿足方差齊性和正態(tài)分布兩個(gè)條件,選用兩因素方差分析(two-wayANOVA),如果不滿足上述兩個(gè)條件,選用隨機(jī)區(qū)組設(shè)計(jì)資料的Friedman秩和檢驗(yàn)(Friedmantest)。單變量計(jì)量資料的分析(3)三因素方差分析但不分析交互作用:主要有拉丁方設(shè)計(jì)和二階段交叉設(shè)計(jì)兩種資料類型。對于拉丁方設(shè)計(jì)資料,涉及3個(gè)因素,即1個(gè)處理因素和2個(gè)區(qū)組因素;對于二階段交叉設(shè)計(jì)資料,3個(gè)因素分別為處理因素、受試者和試驗(yàn)階段。如果滿足方差齊性和正態(tài)分布兩個(gè)條件,拉丁方設(shè)計(jì)可選用三因素方差分析(three-wayANOVA),如例4-5;二階段交叉設(shè)計(jì)可選用廣義線性模型的方差分析,如例4-6。如果不滿足上述兩個(gè)條件,選用非參數(shù)方法(參見有關(guān)文獻(xiàn))。若對處理因素的方差分析或秩和檢驗(yàn)結(jié)果顯著,均需進(jìn)一步做多重比較。

單變量計(jì)量資料的分析(4)多因素方差分析且分析交互作用:此類資料包括析因設(shè)計(jì)資料(例11-2),正交設(shè)計(jì)資料(例11-4),嵌套設(shè)計(jì)資料(例11-6),裂區(qū)設(shè)計(jì)資料(例11-7)等。(5)重復(fù)測量資料:單因素重復(fù)測量只有1個(gè)重復(fù)測量因素,如表12-3的數(shù)據(jù)。多因素重復(fù)測量除有1個(gè)重復(fù)測量因素外,至少還有1個(gè)其它處理因素,可分析交互作用,如例12-3。

單變量計(jì)數(shù)資料的分析

單變量等級(jí)資料的分析

若為兩組配對等級(jí)資料的比較,選Wilcoxon單樣本秩和檢驗(yàn);若為兩組獨(dú)立樣本等級(jí)資料的比較,選Wilcoxon兩樣本樣本秩和檢驗(yàn);若為多組獨(dú)立樣本等級(jí)資料的比較,選Kruskal-Wallis秩和檢驗(yàn)。

雙變量資料的分析

1.簡單相關(guān)分析

分析兩變量的相關(guān)關(guān)系時(shí),若兩變量滿足二元正態(tài)分布,可選Pearson積矩相關(guān)分析(Pearsoncorrelation);若兩變量不滿足二元正態(tài)分布,可選Spearman秩相關(guān)分析(Spearmancorrelation)。2.線性回歸分析

分析兩變量的回歸關(guān)系時(shí),若兩變量關(guān)系呈線性趨勢,可選簡單線性回歸分析(linearregression)。3.曲線回歸分析

分析兩變量的回歸關(guān)系時(shí),若兩變量關(guān)系呈曲線趨勢,可按曲線類型選指數(shù)曲線,多項(xiàng)式曲線,生長曲線,Logistic曲線等。也可選用非線性回歸分析方法。多變量資料的分析

1.有應(yīng)變量的多元分析

若應(yīng)變量Y為數(shù)值型隨機(jī)變量,且服從正態(tài)分布,自變量滿足多元正態(tài)分布,可選多元回歸分析或多元逐步回歸分析因變量Y為分類變量(二分類或多分類),且以判別分類為主要目的,自變量滿足多元正態(tài)分布,可選判別分析或逐步判別分析。若因變量Y為生存時(shí)間,并含有截尾數(shù)據(jù),可選Cox模型做生存分析,

若因變量Y為二分類變量或多分類變量,且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論