醫(yī)學案例統(tǒng)計分析與SAS應用(第1章)_第1頁
醫(yī)學案例統(tǒng)計分析與SAS應用(第1章)_第2頁
醫(yī)學案例統(tǒng)計分析與SAS應用(第1章)_第3頁
醫(yī)學案例統(tǒng)計分析與SAS應用(第1章)_第4頁
醫(yī)學案例統(tǒng)計分析與SAS應用(第1章)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、前言序 言生物體de變異性決定了醫(yī)學統(tǒng)計學在醫(yī)藥衛(wèi)生研究中de重要地位。醫(yī)學統(tǒng)計學是什么?醫(yī)學統(tǒng)計學是與生物體神秘莫測de變異緊密關聯(lián)de,是為了探求醫(yī)學生物體個體變異de規(guī)律而產(chǎn)生和發(fā)展de。沒有醫(yī)學統(tǒng)計學指導de醫(yī)藥學研究不能稱為真正de醫(yī)藥學研究,缺乏醫(yī)學統(tǒng)計學支持de醫(yī)藥衛(wèi)生研究結(jié)果永遠不會得到醫(yī)學界de承認。這已經(jīng)為越來越多de醫(yī)藥衛(wèi)生研究工作者所認識。多年來,大批醫(yī)學統(tǒng)計工作者積極從事醫(yī)學統(tǒng)計de普及工作,撰寫了不少應用de文章與專著,努力指導醫(yī)藥衛(wèi)生研究工作者掌握這門工具。但醫(yī)學統(tǒng)計學在醫(yī)學生或臨床醫(yī)生面前卻依然猶如雨后云霧環(huán)繞de山峰,若隱若現(xiàn),看似清楚,卻又朦朧,似乎伸手可及

2、,卻又似遠隔萬丈。他們中de許多人,對于統(tǒng)計de認識就是處于這樣一種一知半解de朦朧狀態(tài),對于統(tǒng)計方法學de使用尚處于“知其然、不知其所以然”、照貓畫虎、依葫蘆畫瓢de階段。在眾多眼花繚亂、望而生畏de數(shù)學公式面前,更多de人則是一臉茫然,束手無策,無所適從。這些不僅增添了他們對這門學科de神秘感,而且必定會使他們對醫(yī)學統(tǒng)計學“敬而遠之”,從而影響這門學科de發(fā)展。在從現(xiàn)在起往前de三十余年間,信息技術(shù)得到飛速發(fā)展,出現(xiàn)了功能強大de統(tǒng)計分析軟件,諸如SAS、SPSS等,統(tǒng)計分析從此結(jié)束了手工計算de時代。統(tǒng)計軟件可以使許多原來計算繁瑣de統(tǒng)計方法不斷引入到統(tǒng)計學中,可以使你不必專注于繁雜de

3、統(tǒng)計計算,而是將關注點轉(zhuǎn)移到統(tǒng)計方法de選擇、數(shù)據(jù)分析de思路上,提高了研究效率,產(chǎn)出了手工時代難以獲得de結(jié)果。但統(tǒng)計軟件卻又是一把雙刃劍,人們在贊嘆其功能神奇de同時,很少有人關注統(tǒng)計方法de使用條件,極少有人去認真進行結(jié)果解釋。更多看到de卻是對統(tǒng)計軟件de不求甚解以及由此出現(xiàn)在各類醫(yī)學期刊上de比比皆是de尷尬。藝術(shù)家de朦朧醉眼可以使他們de思維猶如行空de天馬,在由此產(chǎn)生de奇思異想指導下de作品可以成為絕世佳作。但在科學上卻不允許有任何醉眼,來不得一點點de朦朧。對統(tǒng)計方法de一知半解和統(tǒng)計軟件de誤用不僅會使研究者難以獲得真正重要de關鍵信息,從而使研究結(jié)果前功盡棄,甚至可能由

4、于錯誤de信息,而將決策者引入歧途。這就使如何深入淺出、通俗易懂地將醫(yī)學統(tǒng)計方法及其軟件應用介紹給廣大迫切希望掌握這門專業(yè)de醫(yī)藥衛(wèi)生工作者,成為輔助他們進行醫(yī)學研究得心應手de工具,成為擺在從事醫(yī)學統(tǒng)計de專業(yè)工作者面前de頭等大事,也是他們所面臨de巨大難題之一。難題之一,是如何沖破似是而非、千書一律de概念敘述、故弄玄虛、生拉硬拽de方法介紹de固有模式,深入淺出地把統(tǒng)計概念、方法介紹清楚,這是使醫(yī)學工作者對醫(yī)學統(tǒng)計學不再“敬而遠之”、朦朧看山de關鍵。難題之二,如何正確使用統(tǒng)計軟件。統(tǒng)計軟件de編寫考慮到了不同用戶de需求,正因為如此,對于使用條件de選擇與結(jié)果de解釋就顯得尤其de重

5、要,既涉及對統(tǒng)計方法de正確理解,又要對其與統(tǒng)計軟件de結(jié)合十分熟悉。破解此二難題,絕非易事。所幸de是,目前已有一批熱愛統(tǒng)計de年輕人致力于推廣、普及醫(yī)學統(tǒng)計學,努力拉近醫(yī)學統(tǒng)計學與使用者de距離,努力使醫(yī)藥衛(wèi)生工作者對醫(yī)學統(tǒng)計學不再“敬而遠之”,而是使他們能靈活應用醫(yī)學統(tǒng)計學。馮國雙博士正是其中de代表之一,自2008年起他就開始在網(wǎng)絡上用通俗淺顯de語言推廣醫(yī)學統(tǒng)計學de原理和分析思路,而且收到了很好de效果。此次馮國雙博士將其對醫(yī)學統(tǒng)計學de理解和心得整理成冊,即將付梓,這是難能可觀de。故欣然為序。本書通俗易懂,文字流暢,可讀性強,有助于培養(yǎng)讀者de統(tǒng)計思維,提高數(shù)據(jù)分析技能。它不是

6、簡單de統(tǒng)計學方法和SAS軟件de應用介紹,更多de則是作者多年來數(shù)據(jù)分析經(jīng)驗和體會de總結(jié)。其編寫也不同于以往統(tǒng)計學教材de書寫風格,不以方法劃分章節(jié),而以數(shù)據(jù)分析de需求為導向,引導讀者逐步深入對數(shù)據(jù)de分析,并通過SAS軟件實現(xiàn)結(jié)果de輸出。這實在是一個值得推薦de嘗試。能把復雜de統(tǒng)計學方法介紹de如此通俗易懂、深入淺出,說明作者在把統(tǒng)計方法變成一種大眾喜愛de藝術(shù)方面所作de努力。感謝作者為醫(yī)學統(tǒng)計學領域提供了一本有益de著作。相信不管是醫(yī)學研究生還是廣大醫(yī)務工作者或是科研人員,均可從本書獲得相應de知識和借鑒。金水高2010年7月于北京前 言我在研究生時就對統(tǒng)計學特別感興趣,甚至可

7、以用著迷來形容。那時幾乎每天晚上都看各種統(tǒng)計書,學習各種統(tǒng)計方法,并不斷在SAS上練習應用。但真正讓我萌生寫一本統(tǒng)計書de念頭則是在我博士畢業(yè)后。我是在北京大學醫(yī)學部de附屬醫(yī)院攻讀博士,在此期間我接觸了大量de臨床資料,經(jīng)常協(xié)助臨床或科研科室進行數(shù)據(jù)處理和分析。在數(shù)據(jù)分析過程中,我不斷地將理論轉(zhuǎn)化為實踐,對許多統(tǒng)計方法有了自己de見解,不再局限于課本de束縛。在與臨床醫(yī)師de接觸過程中,我發(fā)現(xiàn)他們其實很希望能掌握一些常用de統(tǒng)計學方法,但由于各種原因,他們始終不得要領。而且我發(fā)現(xiàn),如果用一些通俗de語言進行講解,他們也可以比較輕松地理解。這讓我產(chǎn)生了寫一本適合臨床醫(yī)師de統(tǒng)計書de想法。最初

8、我只是將一些統(tǒng)計學心得用通俗de話寫在博客(“拜讀了您de統(tǒng)計心得,有些糾纏了很久de問題豁然開朗,學術(shù)界有您de分享相信多了很多精彩。謝謝您de辛勤勞動和大度分享”?!翱戳?個小時,全部文章看完了!一句話:領悟很多!統(tǒng)計能學到這種境界,佩服博主”?!白x您de文章,如醍醐灌頂,受益頗多,期待您de新文章”?!八形恼露紝W習過了,淺顯易懂,觸類旁通,謝謝”?!爸vde非常淺顯易懂,本人受益匪淺”。“讀君一博客,勝看教科書”。諸如此類de留言讓我很感動,也給了我繼續(xù)與大家分享統(tǒng)計學心得de動力。后來在一次機會中,我與北京大學醫(yī)學出版社de董采萱編輯見面,談到這些事情,她建議我將這些內(nèi)容整理出本書,這

9、與我de想法不謀而合。于是真正開始著手準備。本書de特點是實用,因此一切都圍繞“讓人看懂”這一理念來寫。語言上,避免以往教材中嚴肅莊重de語言,盡量使用通俗易懂de話語來闡釋各種統(tǒng)計方法,并在分析中融入自己de心得。書中除非不得已,盡量不出現(xiàn)計算公式。內(nèi)容上,本書根據(jù)多來年de分析經(jīng)驗,選擇了臨床中最為常用de幾種分析方法。像判別分析、聚類分析、因子分析、典則分析等方法由于臨床應用較少,并未包含在本書中。結(jié)構(gòu)上,本書摒棄了以往教材中每章介紹一種方法de模式,因為統(tǒng)計分析是根據(jù)研究目de、數(shù)據(jù)類型等選擇相應方法,而不是拿統(tǒng)計方法去套數(shù)據(jù)。因此本書以研究目de和數(shù)據(jù)類型為導向,以此作為劃分章節(jié)de

10、依據(jù)。對每一案例de數(shù)據(jù),給出選用de分析分析,并說明為什么要用這種方法,以及如何通過統(tǒng)計軟件來實現(xiàn),對統(tǒng)計軟件輸出de結(jié)果給出詳細de解釋,使讀者掌握不同數(shù)據(jù)de應用方法,做到舉一反三。案例選擇上,本書沒有采用以往教材中“完美案例”de做法。以往教材中多是對每一種方法舉一案例,該案例de數(shù)據(jù)非常完美,總是能恰好滿足所學de方法。但實際中這種典型de案例并不多見,很多情況下,數(shù)據(jù)分析過程中步步荊棘,因此本書著重介紹了如何一步步披荊斬棘de過程,對分析中出現(xiàn)de問題給出如何解決de方法,使讀者在面臨類似問題時有一定de借鑒作用。本書融入了作者多年來對臨床研究、新藥研發(fā)、流行病學研究等各領域數(shù)據(jù)分

11、析de心得,對初學者容易困惑而又很難在普通教科書上找到答案de問題給出了較為通俗de解釋。如為什么某因素在單因素分析中有意義,而在多因素分析中變得無意義?為什么某因素de危險度會大于999,真de有這么高嗎?SAS同時輸出兩個結(jié)果相差很大,該選擇哪個結(jié)果?類似de實際問題是初學者最容易犯錯而又很難找到答案de地方。本書de數(shù)據(jù)均來自于實際研究項目,有de來自醫(yī)院、研究所de研究項目,有de來自網(wǎng)友de熱心提供。由于本書出版時有de項目尚未整理發(fā)表,因此書中主要是借用項目de研究指標,數(shù)據(jù)在實際基礎上做了一些改動,僅用于統(tǒng)計分析de思路闡釋,其結(jié)果并不一定代表真實情況。請讀者不要將其作為實際結(jié)論

12、采用。為了方便讀者運用SAS程序,本書中所有deSAS程序均放在北京大學醫(yī)學出版社de官方網(wǎng)站(),有需要de讀者可自行下載。本書de主要對象是臨床醫(yī)師以及公共衛(wèi)生相關專業(yè)de研究生,但統(tǒng)計學在不同領域de應用是相通de,也希望本書能對其它領域de統(tǒng)計工作者有一定參考價值。本書包含了作者多年來數(shù)據(jù)分析de經(jīng)驗和心得,有de可能只是“一家之言”,限于水平,錯謬之處在所難免,真誠地希望同行專家及廣大讀者不吝批評指正。相應de意見和建議可直接到“衛(wèi)生統(tǒng)計空間”(馮國雙2010年7月于北京18目錄目 錄第一章 醫(yī)學統(tǒng)計學與SAS簡介8第一節(jié) 醫(yī)學統(tǒng)計學簡介8一、醫(yī)學統(tǒng)計學概述8二、醫(yī)學統(tǒng)計學中常用de

13、幾個概念8三、統(tǒng)計分析中應注意de幾個問題9四、統(tǒng)計學應用de幾個誤區(qū)10第二節(jié) SAS簡介11一、SAS概述11二、SAS界面介紹11三、SAS常用窗口介紹12四、SAS編程簡介14第三節(jié) 小結(jié)16第二章 醫(yī)學研究設計與SAS實現(xiàn)18第一節(jié) 科研設計思路及SAS命令簡介18一、樣本含量估計及SAS命令簡介18二、常用實驗設計方法及SAS命令簡介20第二節(jié) 科研設計deSAS實現(xiàn)21一、完全隨機設計與樣本含量估計21二、隨機區(qū)組設計與樣本含量估計25三、析因設計de隨機分組26四、關系型研究de樣本含量估計28第三節(jié) 小結(jié)30第三章 統(tǒng)計描述與SAS分析32第一節(jié) 統(tǒng)計描述及SAS命令簡介32

14、一、常用de統(tǒng)計描述指標32二、常用de統(tǒng)計圖表34第二節(jié) 統(tǒng)計描述deSAS實現(xiàn)35一、定量資料de統(tǒng)計描述35二、分類資料de統(tǒng)計描述39第三節(jié) 小結(jié)41第四章 定量資料deSAS統(tǒng)計分析43第一節(jié) 定量資料常用統(tǒng)計方法及SAS命令簡介43一、t檢驗及SAS命令簡介43二、方差分析及SAS命令簡介44三、秩和檢驗及SAS命令簡介45四、多重檢驗及SAS命令簡介46第二節(jié) 定量資料de分析思路及SAS實現(xiàn)47一、兩組正態(tài)資料de比較47二、兩組非正態(tài)資料de比較50三、多組正態(tài)資料de比較53四、多組非正態(tài)資料de比較58五、析因設計資料de分析64六、配對設計資料de分析69七、隨機區(qū)組資

15、料de分析71八、多指標de組間比較77第三節(jié) 小結(jié)79第五章 分類資料deSAS統(tǒng)計分析82第一節(jié) 分類資料常用統(tǒng)計方法及SAS命令簡介82一、2檢驗及SAS命令簡介82第二節(jié) 分類資料de分析思路及SAS實現(xiàn)84一、四格表資料de分析84二、R×2表資料de分析87三、2×C表無序資料de分析89四、2×C表有序資料de分析91五、配對資料de分析92六、多層分類資料de分析94第三節(jié) 小結(jié)97第六章 相關性分析及SAS實現(xiàn)98第一節(jié) 相關分析及SAS命令簡介98一、定量資料相關分析及SAS命令簡介98二、分類資料相關分析及SAS命令簡介99第二節(jié) 相關分析d

16、e思路及SAS實現(xiàn)100一、線性相關分析100二、分類資料de相關性分析103三、配對分類資料de相關性分析105四、多分類指標de相關性分析107第三節(jié) 小結(jié)110第七章 線性回歸與SAS分析112第一節(jié) 線性回歸及SAS命令簡介112一、線性回歸簡介112二、線性回歸de應用條件113三、線性回歸模型de分析過程113四、線性回歸模型診斷與評價114五、線性回歸deSAS程序116第二節(jié) 線性回歸de分析思路及SAS實現(xiàn)117一、簡單線性回歸分析117二、多重線性回歸分析121第三節(jié) 線性回歸de替代方法及SAS實現(xiàn)131一、主成分回歸132二、偏最小二乘回歸137三、穩(wěn)健回歸141四、非

17、參數(shù)回歸145第四節(jié) 小結(jié)149第八章 Logistic回歸與SAS分析151第一節(jié) Logistic回歸及SAS命令簡介151一、Logistic回歸簡介151二、Logistic回歸模型de分析過程152三、Logistic回歸deSAS程序154第二節(jié) Logistic回歸de分析思路及SAS實現(xiàn)155一、單因素logistic回歸分析155二、多因素logistic回歸分析159第三節(jié) logistic回歸de擴展及SAS實現(xiàn)170一、多項logistic回歸170二、有序logistic回歸174第四節(jié) 小結(jié)176第九章 生存分析與SAS分析179第一節(jié) 生存分析及SAS命令簡介17

18、9一、生存分析中de常見名詞179二、生存分析方法簡介179第二節(jié) 生存分析思路及SAS實現(xiàn)183一、生存曲線de比較183二、等比例風險deCox回歸188三、非等比例風險deCox回歸196第三節(jié) 小結(jié)203第十章 一般線性模型與廣義線性模型204第一節(jié) 一般線性模型與廣義線性模型簡介204一、一般線性模型及SAS命令簡介204二、廣義線性模型及SAS命令簡介205第二節(jié) 一般線性模型與廣義線性模型deSAS實現(xiàn)207一、協(xié)方差分析207二、Poisson回歸分析210第三節(jié) 小結(jié)213第十一章 多水平數(shù)據(jù)deSAS分析215第一節(jié) 多水平數(shù)據(jù)常用統(tǒng)計方法及SAS命令簡介215一、多水平模

19、型及SAS命令簡介215二、廣義估計方程及SAS命令簡介217第二節(jié) 多水平數(shù)據(jù)de分析思路及SAS實現(xiàn)218一、定量資料de多水平數(shù)據(jù)分析218二、分類資料de多水平數(shù)據(jù)分析227第三節(jié) 小結(jié)232參考文獻233第一章 醫(yī)學統(tǒng)計學與SAS簡介第一節(jié) 醫(yī)學統(tǒng)計學簡介一、醫(yī)學統(tǒng)計學概述馬克吐溫說:“世界上有三種謊言:謊言、該死de謊言和統(tǒng)計數(shù)據(jù)”。不少人對統(tǒng)計學存在一定de誤解,認為統(tǒng)計學是數(shù)字游戲。實際上,統(tǒng)計數(shù)字有可能是謊言,但統(tǒng)計學絕對是科學。統(tǒng)計學不僅是一門科學,更是一種藝術(shù),是一種決策藝術(shù),它教你在面對不確定性事件時如何做出合理de決策。這種決策小到今天你出門是否決定帶雨傘,大到國家某

20、一政策是否應該出臺,都需要統(tǒng)計學de幫助才能做出合理de決策。比如某藥廠準備研發(fā)一種降糖藥,想了解該新藥是否比舊藥效果好,是否值得上市推廣。這就是不確定性事件,需要做出決策。統(tǒng)計學可以通過合理de統(tǒng)計設計和分析提供科學de依據(jù),協(xié)助藥廠做出決定。醫(yī)學統(tǒng)計學de內(nèi)容包括研究設計、資料搜集、數(shù)據(jù)整理、數(shù)據(jù)分析等一系列de過程。例如,要確定新de降糖藥是否該上市,首先要設計一個合理de研究計劃,對樣本選擇、隨機分組、確定分析指標、選擇數(shù)據(jù)分析方法等一系列問題做出安排。研究計劃書確定后,需要按照計劃收集相應數(shù)據(jù),如研究對象de性別、年齡等基礎資料,空腹血糖、餐后2小時血糖等療效指標。數(shù)據(jù)收集結(jié)束后,需

21、要將數(shù)據(jù)錄入數(shù)據(jù)庫并核對整理,這是數(shù)據(jù)分析de前期工作。一旦數(shù)據(jù)庫核實整理完畢,就可以采用相應de統(tǒng)計分析方法對數(shù)據(jù)做出分析,給出統(tǒng)計學結(jié)論,如新藥與舊藥de療效是否有差異。最終藥廠可根據(jù)這一結(jié)論做出決策,決定是否應該申報上市。醫(yī)學統(tǒng)計學de主要功能是幫助我們透過現(xiàn)象認識本質(zhì),從一堆看似雜亂無章de數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,闡明事物de本質(zhì)。統(tǒng)計學不可能創(chuàng)造出規(guī)律,只是對已有規(guī)律de探索發(fā)現(xiàn),通過發(fā)現(xiàn)這些規(guī)律,幫助我們進行合理de決策。有de醫(yī)學生花了大量精力收集了珍貴de資料,但在距離真相只有一步之遙de時候,卻因不懂統(tǒng)計而寸步難行,有時甚至因為誤用統(tǒng)計方法而與真相失之交臂,實在令人惋惜。很多情況下,

22、如果加上合理de統(tǒng)計方法這一點睛之筆,就會“破壁而出”,揭示事物de本質(zhì)。而缺少這一有力工具,很可能就會功虧一簣,僅隔一層窗戶紙卻看不清真相。因此,建議醫(yī)學生掌握一點醫(yī)學統(tǒng)計學de思維,具體de設計和分析可以跟統(tǒng)計學家共同合作,但是自己一定要有統(tǒng)計學思維。二、醫(yī)學統(tǒng)計學中常用de幾個概念(1)總體和樣本總體和樣本是相對de。總體是根據(jù)研究目de確定de同質(zhì)個體de全體集合。樣本則是從總體中抽取de部分個體de集合??傮w根據(jù)研究目de不同而不同,如要了解某學校學生de身高,則該校所有學生de身高組成總體。如果采用隨機抽樣de方法從該校抽取部分學生測量身高,然后利用統(tǒng)計學方法估計該校所有學生de身

23、高,則抽取de學生身高就是樣本。再如,要比較兩種藥物療效是否不同,則所有服用這兩種藥物de人de療效就是總體,但這些人可能分布于全球各地,其資料很難全部獲得,只能選擇部分服用兩種藥de人,觀察他們de療效,然后以此推斷兩種藥物是否療效不同,選擇人群de療效就是樣本。(2)參數(shù)和統(tǒng)計量參數(shù)和統(tǒng)計量也是相對de,參數(shù)是描述總體特征de指標,統(tǒng)計量則是描述樣本特征de指標。它們一般都用字母表示,為了區(qū)分,參數(shù)通常用希臘字母表示,統(tǒng)計量通常用英文字母表示。如總體均數(shù)用希臘字母表示;樣本均數(shù)用英文字母表示,總體標準差用希臘字母表示,樣本標準差用英文字母s表示;總體比例用希臘字母表示,樣本比例用英文字母p

24、表示。統(tǒng)計分析de一個重要目de就是通過樣本統(tǒng)計量估計總體參數(shù)。(3)變量和資料變量(variable)是對研究個體進行觀察或測量de某種特征,如對身高進行測量,身高就是變量;觀察某藥物de療效,療效就是變量。變量de觀察值構(gòu)成資料(data),也就是我們接觸到de具體數(shù)據(jù)。資料大致可分為兩大類,一是定量資料(quantitative data),又分為離散型資料和連續(xù)型資料,二是定性資料(qualitative data),即分類資料(categorical data),又分為無序分類資料和有序分類資料。連續(xù)型資料可以取任意數(shù)值,可以有小數(shù)點,如身高、體重、血壓、血糖等。離散型資料只能取整數(shù)

25、,不能有小數(shù)點,如發(fā)病人數(shù)等。無序分類資料指各分類之間無等級或程度de變化,如血型分為A、B、O、AB四型,它們是地位平等de。有序分類資料也稱等級資料(ordinal data),指各分類之間有等級或程度de差異,如療效分痊愈、顯效、有效、無效四類,各類之間有等級差別。(4)第一類錯誤和第二類錯誤統(tǒng)計學結(jié)論往往是建立在樣本數(shù)據(jù)基礎上de,由于樣本是隨機抽取de,因此不可避免地會存在抽樣誤差,結(jié)論也可能存在一定de錯誤風險。常見de錯誤有兩種:第一類錯誤是假陽性錯誤,即把“無統(tǒng)計學意義”錯誤地判斷為“有統(tǒng)計學意義”,通常用表示。第二類錯誤是假陰性錯誤,即把“有統(tǒng)計學意義”錯誤地判斷為“無統(tǒng)計學

26、意義”,通常用表示。三、統(tǒng)計分析中應注意de幾個問題(1)關于P值de理解P值可以理解為結(jié)論de風險大小,也就是根據(jù)數(shù)據(jù)得出de結(jié)果有多大de錯誤風險,P值越小,結(jié)論錯誤de風險越小,即結(jié)論越可靠。P值越大,錯誤de風險越大,即結(jié)論de可靠性差。P值是對已有結(jié)果de錯誤風險判斷,與結(jié)果大小無關。目前不少醫(yī)學雜志上仍然存在著關于P值de不規(guī)范用語,如P0.05認為“差異顯著”,P0.01認為“差異非常顯著”等,將P值大小與實際差異大小聯(lián)系起來,這是醫(yī)學工作者值得注意de地方。統(tǒng)計學中普遍以0.05作為假設檢驗de檢驗水準,這在當年手工計算de時代無疑是十分方便de。但到了計算機發(fā)達de今天,我們

27、已經(jīng)可以很輕松地計算出確切deP值,僅以P0.05認為有統(tǒng)計學意義已經(jīng)不符合潮流了。P值等于0.049和等于0.051有什么差別呢?無非就是0.049比0.051多了0.2%支持結(jié)論de證據(jù),但是少了這0.2%de證據(jù)難道就沒有意義了嗎?因此發(fā)表文章時不要僅僅給出“P0.05”,最好給出確切deP值,以給讀者更多de信息。(2)關于significantde理解以往教材通常將significant譯為“顯著de”,這一詞很容易讓人將其與實際差別大小聯(lián)系起來。實際上significantde含義應該是“非偶然de”,當根據(jù)樣本資料所得結(jié)果是significant,實際上表明這一結(jié)果“不是偶然”得

28、到de,更可能是真實存在這樣一種結(jié)果。如顯著性水準設為0.05,則P0.05表示根據(jù)樣本數(shù)據(jù)計算de統(tǒng)計量只有不到5%de可能是偶然造成de,反過來就是說,計算de統(tǒng)計量不大可能是偶然造成de,而更有可能是真實de情況。(3)統(tǒng)計學意義與實際意義當統(tǒng)計分析結(jié)果顯示P0.05時,我們de結(jié)論應寫為“組間差異有統(tǒng)計學意義”、“相關性有統(tǒng)計學意義”、“影響有統(tǒng)計學意義”等,而不應直接寫“組間有差異”、“變量間有相關”、“變量有影響”等。統(tǒng)計學結(jié)論與實際結(jié)論不同,它僅反映了從樣本數(shù)據(jù)得到當前結(jié)果不是偶然de,但不反映實際結(jié)果de大小。理論上,樣本含量越大,越有可能得到小deP值。即使實際差別很小,大樣

29、本所得deP值也可能很小,有de人便認為統(tǒng)計學是數(shù)字游戲。實際上并非如此,大樣本deP值小,表明大樣本de結(jié)果更為穩(wěn)定可靠,恰是反映了統(tǒng)計學de嚴謹性。比如某醫(yī)生治療1人治愈,他據(jù)此宣稱治愈率100%你會相信嗎?但如果他治療10 000人仍然全部治愈,那他說治愈率100%你會不會更相信?當一個人說街上有虎,魏王并不相信,當三個人說街上有虎,為什么魏王就相信? 關鍵de問題是,當增加樣本de時候,是不是還會保持原來de結(jié)果?治療1人可以痊愈,治療第2個人一定會痊愈嗎?第一個人可以說街上有虎,第二個人一定也會這么說嗎?如果不斷地增加樣本,而結(jié)果仍然不變,統(tǒng)計學就會認為這種建立在大樣本基礎上de結(jié)果

30、是可靠de,而不是偶然de,就會給出一個小deP值。如果小樣本de結(jié)果發(fā)現(xiàn)有差異,統(tǒng)計學會認為基于小樣本de差異不一定可靠,因此會給出一個較大deP值,以提醒研究者謹慎下結(jié)論。(4)單側(cè)檢驗與雙側(cè)檢驗單側(cè)和雙側(cè)檢驗多用于組間比較,如要比較A、B兩種藥物療效,如果預期B藥不可能不如A藥,則可以采用單側(cè)檢驗。這種情形常用于新藥與安慰劑比較,預期藥物療效不可能比安慰劑差,可用單側(cè)檢驗。如果對兩種藥de療效并不確定,B藥可能優(yōu)于A藥,也可能劣于A藥,則多采用雙側(cè)檢驗。一般而言,如果事先對A、B兩組了解不多,沒有足夠de證據(jù)了解A和B孰大孰小,就可選擇雙側(cè)檢驗。如果事先已經(jīng)明確A一定不會小于B,或B一定

31、不會小于A,就可以選擇單側(cè)檢驗。單側(cè)檢驗和雙側(cè)檢驗de選擇必須根據(jù)專業(yè)在數(shù)據(jù)分析之前確定,對于同一資料,單側(cè)檢驗比雙側(cè)檢驗更容易得到“有統(tǒng)計學意義”de結(jié)論,也就是更容易得到陽性結(jié)果。因此,切不可得到P值后再返回來選擇有利de單側(cè)檢驗或雙側(cè)檢驗,否則那就真de是在玩統(tǒng)計游戲了。本書中de案例分析如果沒有特殊說明,均為雙側(cè)檢驗。(5)關于把握度de理解把握度又稱檢驗效能(Power),它表示如果確實有統(tǒng)計學意義de話,按照現(xiàn)有數(shù)據(jù)能夠發(fā)現(xiàn)這種統(tǒng)計學意義de概率或把握有多大。例如,兩組比較中,Power為0.8,表示如果兩組確實有差異de話,那我們在分析中有80%de把握能夠得到“有統(tǒng)計學差異”d

32、e結(jié)論。把握度通常用1-表示,即犯第二類錯誤de概率。把握度在平常de統(tǒng)計分析中一般不大為人所重視,但當你de數(shù)據(jù)出現(xiàn)陰性結(jié)果de時候你就會發(fā)現(xiàn)它de用處了。你可以根據(jù)把握度來判斷一下陰性結(jié)果是否因為例數(shù)太少,如果是,你可以繼續(xù)增加樣本含量,如果不是,那就只好宣布試驗結(jié)果事與愿違了。四、統(tǒng)計學應用de幾個誤區(qū)(1)研究目de大而全很多醫(yī)學研究者都很珍惜做科研de機會,總想在每次研究中盡可能多地收集資料,盡可能多地實現(xiàn)研究目de。想法是好de,但并不切實際。臥虎藏龍中有句臺詞:“把手握緊,里面什么也沒有,把手松開,你擁有de是一切。”。研究中de精力、物力都是有限de,如果追求de目de太多,反

33、而什么目標也實現(xiàn)不了。一般情況下,研究設計de目de不宜太多,最好在設計時仔細論證,明確研究目de,每次研究目標以不超過三個為宜。(2)方法一味追求新穎不少醫(yī)學生存在這樣de想法,認為統(tǒng)計學方法越新穎,越能體現(xiàn)出研究de水平,其實不然。統(tǒng)計方法絕無優(yōu)劣之分,只有合適與否。很多人不屑于用方差分析、相關分析等,認為過于簡單。實際上,這些方法歷經(jīng)數(shù)十年至今仍然廣為應用,已經(jīng)充分說明了它們de有效性。對于數(shù)據(jù)分析,利用簡單de方法實現(xiàn)復雜數(shù)據(jù)de分析,化繁為簡,返璞歸真,這才是數(shù)據(jù)分析de至高境界。一味追求方法de新穎性,反而脫離了初始de目標,變得迷途忘返,這是初學者需要警惕之處。(3)統(tǒng)計方法盲目

34、套用不少臨床工作者在用到統(tǒng)計學方法時,不是去請教統(tǒng)計學家,而是先從網(wǎng)上搜一篇跟自己數(shù)據(jù)類似de文章,然后照貓畫虎,依樣葫蘆進行分析,渾然不理會文章de方法是否正確。而目前國內(nèi)醫(yī)學雜志不少文章都存在統(tǒng)計學誤用現(xiàn)象,這樣方法照搬de結(jié)果就是統(tǒng)計學方法一直誤用下去,錯誤de方法一直延續(xù)下去。有de醫(yī)學生發(fā)現(xiàn)自己de結(jié)果跟上一屆de師兄師姐不同,就理所當然地認為是自己de實驗出了問題,有de為了畢業(yè)甚至會造假數(shù)據(jù)以達到與上一屆de結(jié)果相符。而實際情形很可能是上一屆錯誤而自己正確,這正如“皇帝de新衣”,大家心知肚明,只是無人點破。這不僅是個人de悲哀,更是科學de悲哀。第二節(jié) SAS簡介一、SAS概述

35、SAS全稱是Statistical Analysis System,直譯就是統(tǒng)計分析系統(tǒng)。在數(shù)據(jù)處理和統(tǒng)計分析領域,SAS一直被譽為國際上de標準軟件系統(tǒng)。其領先de技術(shù)和全面de功能,使得它成為全球數(shù)據(jù)分析de首選軟件。目前全球500強企業(yè)中,90%以上de公司使用SAS軟件解決方案。在歐美職場流行一句話:“只要有了SAS認證,你就永遠不會失業(yè)”(If you have a SAS certification,you will never lose your job)。SAS是一個綜合軟件系統(tǒng),包含了眾多de功能模塊,分別可完成不同de任務。最常用有SAS/BASE(基礎模塊)、SAS/ST

36、AT(統(tǒng)計模塊)、SAS/GRAPH(繪圖)、SAS/QC(質(zhì)量控制)、SAS/OR(運籌規(guī)劃)、SAS/ETS(計量經(jīng)濟和時間序列)、SAS/GIS(地理信息系統(tǒng))等。醫(yī)學統(tǒng)計中用到de主要是SAS/BASE和SAS/STAT,本書中所涉及deSAS命令均屬于這兩個模塊。目前醫(yī)學領域存在一種誤解,一提到SAS就想到編程,好像遙不可及。事實上,SASde編程跟其它軟件de編程不同。SAS中de命令大多有固定de格式和選項,只要記住常用de命令和選項,就可以輕松實現(xiàn)各種統(tǒng)計分析方法de編程。SAS只是統(tǒng)計分析de輔助工具,只要統(tǒng)計方法選擇正確,分析思路明確,僅利用SAS完成數(shù)據(jù)de分析并不難。二

37、、SAS界面介紹SAS啟動后de界面如圖1.1所示,盡管各版本在細節(jié)上略有不同,但總體結(jié)構(gòu)是相同de。圖1.1 SAS啟動界面菜單欄包括文件(file)、編輯(edit)、查看(view)、工具(tools)、運行(run)、解決方案(solutions)、窗口(window)、幫助(help)。文件主要用于文件打開、關閉、保存、打印、發(fā)送、數(shù)據(jù)導入、數(shù)據(jù)導出等功能。編輯主要有撤銷、剪切、復制、粘貼、選定、清空、查找、替換等功能。查看主要用于顯示不同de窗口,如編輯窗口、圖形窗口、日志窗口、結(jié)果輸出窗口等。工具主要用于圖形、報表等de編輯,以及對SASde一些簡單設定。運行主要用于對程序運行d

38、e控制,可以直接運行,也可選擇部分程序運行。窗口主要用于各個窗口de排列、大小調(diào)整等。幫助主要提供了SAS中各種模塊、各種命令de幫助,可以隨時查看。解決方案是SAS中最主要de菜單,該菜單提供了各種模塊可以調(diào)用。該菜單還提供了分析家(Analyst),可用于下拉菜單式de分析,適用于新手上路。工具欄中de圖標跟其它軟件類似,其功能基本上一目了然,只有圖標需要注意,這是個程序運行de標志,當程序編寫好之后,點此圖標便可運行。左邊deSAS資源管理器(explorer)顯示和管理SAS數(shù)據(jù)庫,初學者可暫不理會,它對編程和分析關系不大。三、SAS常用窗口介紹SAS最常用de窗口有三個,即編輯窗口(

39、editor)、日志窗口(log)和輸出窗口(output)。編輯窗口用于程序編寫,當程序?qū)懞茫c擊提交運行后,運行結(jié)果顯示在輸出窗口,而運行過程中de信息顯示在日志窗口。SAS啟動后一般直接進入編輯窗口,在此窗口可直接輸入數(shù)據(jù)和編寫程序。圖1.2給出了一段簡單de程序編寫。圖1.2 簡單SAS程序示例可以發(fā)現(xiàn),SAS對不同語句自動賦予了不同de顏色,這是SAS 8e版本以后增加de增強型編輯窗口(enhanced editor)de特有功能。增強型編輯窗口對不同de語句賦予不同de顏色,便于發(fā)現(xiàn)錯誤。程序會根據(jù)輸入de語句或數(shù)據(jù)自動賦予四種顏色,即深藍、淺藍、黃底黑色和白底黑色。如果程序書寫

40、錯誤,相應de顏色就會發(fā)生變化。如圖1.2中,PROC MEANS為深藍色,如果將PROC改為PROD(圖1.3),則PROC變?yōu)榧t色,提示輸入錯誤。圖1.3 錯誤deSAS程序示例這時如果切換到日志窗口(圖1.4),可以發(fā)現(xiàn)有一句綠色de話“假定符號PROC錯拼為PROD”,即盡管PROC拼寫錯誤,但SAS會自動判斷可能正確de語句,然后給出輸出結(jié)果。日志窗口一般會有四種顏色字體:黑色是對程序de重復,沒有太大意義;藍色字體主要是“提示(note)”作用,提供了SAS運行de常規(guī)信息,一般情況下我們不必理會;綠色字體是“警告(warning)”作用,一般提示de是小錯誤,SAS大多會自動糾正

41、,而且繼續(xù)運行;紅色字體提示程序出現(xiàn)“錯誤(error)”,SAS已經(jīng)無法運行下去,需要根據(jù)提示修改程序。圖1.4 日志窗口de提示實際中常見deSAS程序錯誤有:拼寫錯誤,如proc拼寫為prod;遺漏run語句,導致程序無法執(zhí)行;漏寫分號,或?qū)懗闪酥形臓顟B(tài)下de分號;數(shù)據(jù)后de分號沒有另起一行;引用了不存在de選項;過程步中de變量名稱與數(shù)據(jù)步中de變量名稱不符;引號不對稱;等。程序編寫結(jié)束,點擊后,輸出窗口會輸出程序de運行結(jié)果,圖1.2中de程序運行結(jié)果如圖1.5所示。該程序采用proc means命令,對數(shù)據(jù)進行簡單de統(tǒng)計描述,結(jié)果給出了均數(shù)、標準差等統(tǒng)計量。該命令在第三章有詳細介

42、紹,這里僅給出一個簡單de示例。圖1.5 輸出窗口de結(jié)果四、SAS編程簡介圖1.2中de程序雖然簡單,但包含了SAS程序de基本結(jié)構(gòu)。SAS程序主要包括兩部分,第一部分是數(shù)據(jù)輸入部分,稱為數(shù)據(jù)步(data step);第二部分是數(shù)據(jù)分析部分,稱為過程步(proc step)。圖1.2中共有三個語句是深藍色,即DATA語句、PROC語句和RUN語句。DATA表示數(shù)據(jù)步de開始,這部分主要用于完成數(shù)據(jù)輸入;PROC表示過程步de開始,這部分主要通過相應de命令實現(xiàn)數(shù)據(jù)分析;RUN表示程序運行de開始,即提交程序,使之運行。數(shù)據(jù)步用于輸入數(shù)據(jù)或調(diào)取電腦上已有de數(shù)據(jù)文件。DATA是數(shù)據(jù)步開始de標

43、志,這是大多數(shù)程序de起始,表示要建立一個數(shù)據(jù)集。在DATA與PROC之間de語句都是數(shù)據(jù)步,其目de是建立一個用于分析de數(shù)據(jù)集。DATA后面de“example1_1”是數(shù)據(jù)集de名稱,是給數(shù)據(jù)集起de名字,該名字可根據(jù)自己de愛好自行決定,名字必須由字母或下劃線起始,可包括英文字母、下劃線、數(shù)字,不能有中文及%、#、!等特殊字符。Input語句表示要輸入變量名稱,圖1.2de程序共有兩個變量,變量名稱由自己指定,一般取意義較為明確de英文名,如分組變量起名為group,分析變量起名為num。如果有多個變量,則依次輸入,變量之間空格。如果輸入de變量是數(shù)值型,則直接依次輸入變量名即可。如果

44、變量是字符型,則需要在變量名后加一“$”符號,SAS根據(jù)這一標志就可判斷它是字符型。如圖1.2中degroup不是數(shù)值型,而是字符A和B,因此在group后加入“$”。Cards語句起一個承前啟后de作用,連接變量和數(shù)據(jù)。Cards前面deinput語句輸入變量,而cards則提示其后就是與變量對應de數(shù)據(jù)。Cards后面de數(shù)據(jù)一定要與變量一一對應,尤其對于初學者,最好先嚴格按一定格式輸入數(shù)據(jù)。過程步用于對已有數(shù)據(jù)de統(tǒng)計分析。PROC是過程步de開始標志,表示從這里開始就要調(diào)用SAS中相應de統(tǒng)計分析命令。不同de研究目de需要調(diào)用不同de命令,圖1.2中調(diào)用de是proc means命令

45、,表示對數(shù)據(jù)進行簡單描述,輸出均數(shù)、標準差等統(tǒng)計量。本書用到de統(tǒng)計分析方法所對應de命令見表1.1。表1.1 本書用到deSAS統(tǒng)計分析命令及其用途簡介命令用途PROC PLAN實驗設計de隨機化分組PROC POWER樣本含量估計,把握度估計PROC MEANS統(tǒng)計描述PROC UNIVARIATE統(tǒng)計描述,正態(tài)性檢驗PROC TTEST定量資料de兩組間比較,t檢驗,配對t檢驗等PROC GLM一般線性模型,包括方差分析、協(xié)方差分析、線性回歸等PROC NPAR1WAY非參數(shù)檢驗de組間比較,Wilcoxon、Kruskal-wallis檢驗等PROC MULTTEST多指標、多重比較,

46、Bonferroni法、permutation法、bootstrap法等PROC FREQ分類資料組間比較及相關性分析,2檢驗PROC CORR相關性分析,Pearson相關、Spearman相關等PROC REG線性回歸分析PROC PRINCOMP主成分分析PROC PLS偏最小二乘回歸PROC ROBUSTREG穩(wěn)健回歸PROC GAM廣義可加模型PROC LOGISTIC二分類logistic回歸、有序logistic回歸PROC CATMOD對數(shù)線性模型,多項logistic回歸PROC LIFETEST生存數(shù)據(jù)組間比較,Kaplan-Meier法PROC PHREG生存數(shù)據(jù)deCo

47、x回歸PROC GENMOD廣義線性模型,包括logistic回歸、Poisson回歸、廣義估計方程等PROC MIXED多水平模型,混合線性模型SAS命令中,許多語句都是通用de,最常見de如class、by、weight、freq、var語句。Class語句用于指定分類變量,如兩組或多組de組間比較中,class語句可指定組別變量。By語句也用于指定分類變量,但其功能與class語句不同,by語句按指定分類變量de類別將數(shù)據(jù)集分割為多個子數(shù)據(jù)集,在各自數(shù)據(jù)集內(nèi)分別執(zhí)行相應de命令。使用by語句時,一定要先按照by語句定義de變量排序,否則會給出錯誤提示。Weight語句和freq語句在多數(shù)情況下功能相似,用于指定權(quán)重或頻數(shù)變量。Var

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論