生物醫(yī)學(xué)數(shù)據(jù)挖掘 第二章 臨床醫(yī)學(xué)數(shù)據(jù)采集與分析1_第1頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第二章 臨床醫(yī)學(xué)數(shù)據(jù)采集與分析1_第2頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第二章 臨床醫(yī)學(xué)數(shù)據(jù)采集與分析1_第3頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第二章 臨床醫(yī)學(xué)數(shù)據(jù)采集與分析1_第4頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第二章 臨床醫(yī)學(xué)數(shù)據(jù)采集與分析1_第5頁
已閱讀5頁,還剩163頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二章臨床醫(yī)學(xué)數(shù)據(jù)采集與分析數(shù)據(jù)的概念數(shù)據(jù)(data)是對客觀事物特征狀態(tài)的記錄。如某類藥物的使用量、床位使用率、心率、血壓等生理參數(shù)數(shù)據(jù)是信息和知識(shí)的載體;信息和知識(shí)才是真正有意義的。數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)對象(或數(shù)據(jù)記錄)一個(gè)樣本的數(shù)據(jù)記錄對應(yīng)表格的一行特征屬性表格的每一列也稱為:變量、指標(biāo)、字段、特征、維AttributesObjects屬性值字段名一條記錄的所有屬性的結(jié)合描述了這個(gè)具體對象的特征標(biāo)識(shí)變量分析變量自變量(解釋變量)反應(yīng)變量屬性與屬性值數(shù)據(jù)類型不同,值的形式也不同相同的屬性可能有不同的屬性值 例子: 高度可以用米或英尺來表示不同的屬性可能映射到相同的值的集合 例子: 雇員ID an

2、d 年齡 都用整型表示 然而,談?wù)撈骄挲g是有意義的,平均ID是無意義的ID和年齡最大值不同數(shù)據(jù)的類型數(shù)據(jù)定量(數(shù)值)連續(xù)離散定性(分類)無序二分類多項(xiàng)分類有序(半定量或等級)不同類型的分類數(shù)據(jù)在統(tǒng)計(jì)分析方法上也不同定量數(shù)據(jù)研究對象的指標(biāo)(X)表現(xiàn)為有數(shù)字大小和單位的數(shù)據(jù),又稱計(jì)量數(shù)據(jù).連續(xù)性數(shù)據(jù)(Continuous Data)身高值 (cm) :1.65,1.70 , 1.58 .體重值 (kg): 52,55,61.不連續(xù)性數(shù)據(jù)(Discrete Data)如疾病的復(fù)發(fā)次數(shù)、年齡、學(xué)習(xí)成績等。定性數(shù)據(jù)定性數(shù)據(jù)(Qualitative Data)或稱分類數(shù)據(jù)(Categorical Dat

3、a) 變量值表現(xiàn)為按某屬性劃分的定性類別分類數(shù)據(jù)的分層大于2時(shí),又稱為多分類數(shù)據(jù)。定性數(shù)據(jù)類型有無序和有序。無序數(shù)據(jù)(Nominal Categorial)二分類:如性別(男、女)、多分類:血型(A、B、O、AB型)等。有序數(shù)據(jù)(Ordinal Categorieal)如腫瘤的分級(I級、II級、III級)、疼痛的程度(輕、 中、重)等,以及在臨床研究設(shè)計(jì)中,經(jīng)常看到的“非常好、好、一般、差”這樣的數(shù)據(jù)類型。數(shù)據(jù)類型的轉(zhuǎn)換 數(shù)據(jù)的類型是可以轉(zhuǎn)換的定量數(shù)據(jù)轉(zhuǎn)換為定性或等級數(shù)據(jù) 分組切割值確定方法以正常參考值或臨床診斷標(biāo)準(zhǔn)作為分組依據(jù)。年齡資料是計(jì)量資料,但可以按大于65歲、4565歲、小于45歲

4、分為老、中、青年3類而轉(zhuǎn)變?yōu)榈燃壻Y料 某些定量指標(biāo)尚無公認(rèn)的正常參考值,可根據(jù)均數(shù)或四分位間距值,將其分為兩組或四組。根據(jù)數(shù)據(jù)的分布特點(diǎn)和研究需要,自行確定,但要能對統(tǒng)計(jì)分析結(jié)果做出合理的解釋。數(shù)據(jù)的類型決定著所要選擇的分析方法。定量數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù)一般比較簡單從定性數(shù)據(jù)就無法再轉(zhuǎn)換成定量數(shù)據(jù)對兩組或多組研究單項(xiàng)的某項(xiàng)指標(biāo)進(jìn)行分析時(shí),數(shù)據(jù)從定量轉(zhuǎn)換為定性或等級數(shù)據(jù)時(shí),數(shù)據(jù)的信息量會(huì)下降。注意事項(xiàng)臨床醫(yī)學(xué)原始資料臨床醫(yī)學(xué)原始資料的收集方式直接觀察法:包括體檢標(biāo)本檢測等。采訪法:面訪、調(diào)查會(huì)及信訪電話訪問等醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)隱私性(Privacy)醫(yī)學(xué)數(shù)據(jù)不可避免地涉及到患者的一些隱私信息,當(dāng)這些隱

5、私信息使患者在日常生活中遭遇到不可預(yù)料的侵?jǐn)_時(shí),就產(chǎn)生了隱私性問題。知情同意書多樣性由于醫(yī)學(xué)數(shù)據(jù)是從醫(yī)學(xué)影像、實(shí)驗(yàn)數(shù)據(jù)以及醫(yī)生與病人的交流中獲得的,所以原始的醫(yī)學(xué)數(shù)據(jù)具有多種形式。醫(yī)學(xué)數(shù)據(jù)的多樣性是它區(qū)別于其它領(lǐng)域數(shù)據(jù)的最顯著特征。不完整性醫(yī)學(xué)數(shù)據(jù)的搜集和處理過程經(jīng)常相互脫節(jié),以及一些人為因素使得醫(yī)學(xué)數(shù)據(jù)庫不可能對任何疾病信息都能全面地反映。冗余性醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)龐大的數(shù)據(jù)資源,每天都會(huì)有大量的記錄存儲(chǔ)到數(shù)據(jù)庫中,其中可能會(huì)包含重復(fù)的、無關(guān)緊要的、甚至是相互矛盾的記錄。數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量問題: 噪聲(Noise) 離群點(diǎn)(outliers )遺漏值(missing values )重復(fù)數(shù)據(jù)(

6、duplicate data )(內(nèi)源性) 隨機(jī)誤差非隨機(jī)誤差/系統(tǒng)誤差儀器、方法的不一致,選擇對象偏倚、測量偏倚 未知眾多微小因素所引起數(shù)據(jù)的變異,如抽樣誤差。不能避免,有統(tǒng)計(jì)學(xué)規(guī)律性可控制和縮小誤差來源與種類(外源性)過失誤差研究者操作失誤予以清除(1)噪聲噪聲是測量誤差的隨機(jī)部分 Examples: distortion of a persons voice when talking on a poor phone and “snow” on television screenTwo Sine WavesTwo Sine Waves + Noise測定值(X)=真值(t)+誤差(e)系統(tǒng)

7、誤差隨機(jī)誤差(2)離群點(diǎn)噪聲和離群點(diǎn)的區(qū)別離群點(diǎn)可以是合法的數(shù)據(jù)對象或值,不像噪聲,離群點(diǎn)本身可以是令人感興趣的例子:欺詐和網(wǎng)絡(luò)攻擊檢測中,目標(biāo)就是從大量正常對象或事件中發(fā)現(xiàn)不正常的對象和事件離群值和極端值離群值(outliner) 與P25或P75的距離為“四分位數(shù)間距”的1.53.0倍。極端值(extreme value) 與P25或P75的距離為“四分位數(shù)間距”的3.0倍以上。百分位數(shù)(percentile)是一種位置指標(biāo),用 表示。計(jì)算定義:將一組變量值由小到大依次排列, 為第x百分位數(shù)的秩次,其對應(yīng)的變量值(x)為第x百分位數(shù),記為Px。X: 1 5 8 10.105秩次 1 2 3

8、 4 100 % 1% 2% 3%n=100百分位數(shù)計(jì)算方法1.直接法將樣本值由小到大排隊(duì),用 確定Px的位次和PX。當(dāng) 為帶有小數(shù)位時(shí)當(dāng) 為整數(shù)時(shí)trunc(a)表示對數(shù)字取其整數(shù)。 式2.8式2.7例:8位患者某病的住院天數(shù): 2 2 2 3 3 4 5 6求50%位數(shù)和80%位數(shù)。解:第50%位次:nX%=80.5=4,用式2.8 中位數(shù)=P50=3(天)第80%位次:nX%=80.8=6.4,用公式2.7離群值和極端值離群值(outliner) 與P25或P75的距離為“四分位數(shù)間距IQR”的1.53.0倍。極端值(extreme value) 與P25或P75的距離為“四分位數(shù)間距I

9、QR”的3.0倍以上。P75+1.5IQR P75 (Q3)P50 (Q2)P25 (Q1)P25-1.5IQR 離群或極端值剔除離群或極端值要予以合理解釋。發(fā)現(xiàn)可疑值后,首先應(yīng)從專業(yè)、技術(shù)與操作方面進(jìn)行檢查,尋找可能發(fā)生失誤的原因。若查明屬于粗枝大葉、中途條件改變、未遵守操作規(guī)程、儀器或試劑失靈等,則應(yīng)舍棄該可疑值。如身高1755cm數(shù)據(jù)無明顯的邏輯錯(cuò)誤,可將數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾可以不剔除。否則,需要剔除,并給出充分合理的解釋,如,用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等(3)遺漏值產(chǎn)生遺漏值的原因信息未收集到例如:血脂或血糖因?yàn)檠辶坎蛔慊蜓芯繉ο缶芙^采血而

10、導(dǎo)致某些研究對象實(shí)驗(yàn)室的檢測結(jié)果成為缺失數(shù)據(jù)。 屬性并不能用于所有對象例如:填寫學(xué)歷后,填寫專業(yè),研究方向處理遺漏值刪除數(shù)據(jù)對象或?qū)傩怨烙?jì)遺漏值在分析時(shí)忽略遺漏值(4)重復(fù)數(shù)據(jù)數(shù)據(jù)集可能包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對象例1:許多人收到重復(fù)的郵件例2:不同數(shù)據(jù)庫收集的蛋白質(zhì)互作數(shù)據(jù)和通路數(shù)據(jù)的重復(fù)例3:重復(fù)序列,如rRNA基因、tRNA基因和某些蛋白質(zhì)(如組蛋白、肌動(dòng)蛋白等)的基因序列例4:旁系同源基因合并重復(fù)數(shù)據(jù)數(shù)據(jù)的轉(zhuǎn)換將不同來源數(shù)據(jù)的數(shù)據(jù)格式、數(shù)據(jù)類型進(jìn)行一致性轉(zhuǎn)換偏態(tài)分布資料數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對數(shù)變換,平方根變換或倒

11、數(shù)變換等。 數(shù)據(jù)轉(zhuǎn)換的目的:使偏態(tài)分布接近正態(tài)分布;消除多組資料均數(shù)與標(biāo)準(zhǔn)差的正比關(guān)系。多見于用百分比做觀察結(jié)果的數(shù)值變量資料。數(shù)據(jù)的整理將數(shù)據(jù)存儲(chǔ)成規(guī)范的表格形式計(jì)量資料的統(tǒng)計(jì)描述概念:即用少量幾個(gè)統(tǒng)計(jì)指標(biāo)刻畫出原始數(shù)據(jù)的特征稱為統(tǒng)計(jì)描述。計(jì)量資料的統(tǒng)計(jì)描述方法:1. 通過頻數(shù)表描述數(shù)據(jù)特征2.用統(tǒng)計(jì)指標(biāo) 定量描述數(shù)據(jù)的特征。 計(jì)量資料的頻數(shù)表(大樣本數(shù)據(jù))頻數(shù)表:將變量值分為不同數(shù)量的組段,清點(diǎn)各組段的例數(shù)。意義:概括了解變量值在各組段中的分布范圍和規(guī)律。例: 表1例1 從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇(mmol/L )的測量結(jié)果 2.354.213

12、.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83

13、.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26boxplot(data)計(jì)量資料編制頻數(shù)表的步驟例1數(shù)據(jù) 1.確定全距(R)=最大值 最小值load(E:本科課程生物醫(yī)學(xué)數(shù)據(jù)挖掘血清總膽固醇.mat);R=max(data)-min(data);2.定組數(shù)(8-15組)和組距:大概分成10組3.36/10=0.3360.34.劃計(jì)并計(jì)數(shù)(見表2-3)f, xout = hist(data, 10);表2-1 101名正常成年女性血清總膽固醇頻數(shù)表總計(jì)1.00101頻數(shù)表

14、及分布圖的用途1. 通過頻數(shù)表了解數(shù)據(jù)的分布特征。X值分布情況:偏態(tài)或正態(tài)分布取值情況:變量值取值范圍集中趨勢:變量值集中位置。2.便于發(fā)現(xiàn)資料中的可疑值。3.組段的頻率作為概率的估計(jì)。例:表2-1資料頻數(shù)分布圖直方圖圖2-1 101名正常成年女性血清總膽固醇頻數(shù)分布頻數(shù)血清總膽固醇正態(tài)分布hist(data, 10);數(shù)據(jù)的類型數(shù)據(jù)定量(數(shù)值)連續(xù)離散定性(分類)無序二分類多項(xiàng)分類有序(半定量或等級)不同類型的分類數(shù)據(jù)在統(tǒng)計(jì)分析方法上也不同數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量問題: 噪聲(Noise) 離群點(diǎn)(outliers )遺漏值(missing values )重復(fù)數(shù)據(jù)( duplicate data

15、 )數(shù)據(jù)的轉(zhuǎn)換將不同來源數(shù)據(jù)的數(shù)據(jù)格式、數(shù)據(jù)類型進(jìn)行一致性轉(zhuǎn)換偏態(tài)分布資料數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對數(shù)變換,平方根變換或倒數(shù)變換等。 數(shù)據(jù)轉(zhuǎn)換的目的:使偏態(tài)分布接近正態(tài)分布;消除多組資料均數(shù)與標(biāo)準(zhǔn)差的正比關(guān)系。多見于用百分比做觀察結(jié)果的數(shù)值變量資料。數(shù)據(jù)的整理將數(shù)據(jù)存儲(chǔ)成規(guī)范的表格形式計(jì)量資料的統(tǒng)計(jì)描述概念:即用少量幾個(gè)統(tǒng)計(jì)指標(biāo)刻畫出原始數(shù)據(jù)的特征稱為統(tǒng)計(jì)描述。計(jì)量資料的統(tǒng)計(jì)描述方法:1. 通過頻數(shù)表描述數(shù)據(jù)特征2.用統(tǒng)計(jì)指標(biāo) 定量描述數(shù)據(jù)的特征。 基于臨床數(shù)據(jù)發(fā)現(xiàn)廣義知識(shí)計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述連續(xù)變量的指標(biāo)集

16、中趨勢指標(biāo)平均數(shù):算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)離散趨勢指標(biāo)變異指標(biāo):極差、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、變異系數(shù)經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。集中趨勢指標(biāo)平均數(shù)用于描述一組同質(zhì)計(jì)量資料的集中趨勢,反映一組觀察值的平均水平或者一個(gè)分布的平均位置的指標(biāo)作用:是一組計(jì)量數(shù)據(jù)平均水平的代表值;可作為不同組間的比較值。平均數(shù)的種類算術(shù)平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)調(diào)和平均數(shù)集中趨勢指標(biāo)算術(shù)平均數(shù) (mean),簡稱均數(shù),常用 表示定義:是一群已知性質(zhì)相同的數(shù)值之和除以數(shù)值個(gè)數(shù)的商數(shù)。適用條件:頻數(shù)為正態(tài)或近似正態(tài)分布的計(jì)量資料計(jì)算方法直接計(jì)算法加權(quán)計(jì)算法注意事項(xiàng)同質(zhì)對稱mean

17、_value=mean(data);表2-2 101名正常成年女性血清總膽固醇頻數(shù)表 頻數(shù)(f)作為X值的權(quán)數(shù)加權(quán)法集中趨勢指標(biāo)幾何平均數(shù)(Geometric mean)適用條件:不呈正態(tài)分布,差距較大,X值呈倍數(shù)增長或部分?jǐn)?shù)據(jù)偏離過的大偏態(tài)分布(正偏態(tài))資料59名鏈球菌咽喉炎患者潛伏期正偏態(tài)分布幾何平均數(shù)計(jì)算方法直接法加權(quán)法注意事項(xiàng)觀察值不能小于或等于零觀察值不能同時(shí)有正值和負(fù)值同一組資料求得的幾何均數(shù)小于算術(shù)均數(shù)或例3 某地5例微絲蚴血癥患者治療7年后用間接熒光抗體試驗(yàn)測得其抗體滴度分別為1/10,1/20,1/40,1/80,1/160,求幾何均數(shù)。結(jié)論:平均抗體滴度為1:40(幾何均數(shù)

18、法)直接法,例數(shù)較少用1800.025a=1/10 1/20 1/40 1/80 1/160;geomean_a=geomean(a);表2-3 69例RA患者血清EBV-lgG抗體測定結(jié)果滴度倒數(shù) X 人數(shù) f lgX flgX1041.00004.00002031.30103.903040101.602116.021080101.903119.0310160112.204124.2451320152.505137.5765640142.806239.28681280 23.1072 6.2144合計(jì)69150.2778幾何均數(shù)計(jì)算例數(shù)合計(jì) 結(jié)論:69例RA患者血清EBV-lgG抗體平均滴度

19、為1:150.6中位數(shù)( Median, M)定義:把一組觀察值,按大小次序排列,居于中間位置的那個(gè)數(shù)值。適用條件:明顯偏態(tài)分布;資料的分布情況不清楚。計(jì)算方法集中趨勢指標(biāo)X: 5, 5, 6, 7, 20(d) 位次 1 2 3 4 5n為奇數(shù)n為偶數(shù)median_value=median(data);小結(jié)1.平均數(shù)概括描述一組計(jì)量數(shù)據(jù)集中趨勢。2.數(shù)據(jù)分布為正態(tài)時(shí),選用均數(shù)描述,并有均數(shù)中位數(shù)。數(shù)據(jù)分布為偏態(tài),選用中位數(shù)描述較好。數(shù)據(jù)為等級和相差較大時(shí),選用幾何均數(shù)描述。離散趨勢指標(biāo)變異性:同質(zhì)條件下的觀察單位,其同一標(biāo)志的數(shù)據(jù)間的差異性。描述計(jì)量資料數(shù)據(jù)間離散(變異)程度的指標(biāo) 變異指標(biāo)

20、描述計(jì)量資料觀察值之間參差不齊程度的指標(biāo)。變異指標(biāo)的種類全局極差四分位數(shù)間距方差與標(biāo)準(zhǔn)差變異系數(shù)離散趨勢指標(biāo)極差(Range):用(R)表示即 一組數(shù)據(jù)的R=最大值 最小值意義:R值越大,表示該組數(shù)據(jù)的變異越大。缺點(diǎn):數(shù)據(jù)利用不全,部分信息損失,在例數(shù)少時(shí)結(jié)果不穩(wěn)定。離散趨勢指標(biāo)四分位數(shù)間距(quartile range) ,常用QR表示 計(jì)算: QR=P75-P25作為變異指標(biāo)比極差穩(wěn)定。常用于表示偏態(tài)分布資料的變異。例:QR= P75-P25 =67.739.2=28.5天表示方法:Md(QR) M=51天,(QR=28.5天)方差與標(biāo)準(zhǔn)差(Standard deviation and v

21、ariance)定義(理論)方差:離均差平方和的均數(shù)。標(biāo)準(zhǔn)差:方差的平方根。樣本標(biāo)準(zhǔn)差(s)意義反映一組變量值變異程度,組間單位相同時(shí),S越小,表示數(shù)據(jù)的變異程度越小。標(biāo)準(zhǔn)差的應(yīng)用表示離散程度;計(jì)算變異系數(shù);求正常值的范圍;計(jì)算標(biāo)準(zhǔn)誤離散趨勢指標(biāo)當(dāng)用n代替N,估計(jì)偏小,因此用n-1代替N 。或例2-5甲組5名同齡男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 標(biāo)準(zhǔn)差的計(jì)算表2-1 101名正常女子血清膽固醇值組段(X) 頻數(shù)(f) fX fx 22.302.45 12.45 6.002.602.75 38.25 22.

22、692.903.05 618.30 55.823.203.35 8 .3.503.65 173.803.95 204.104.25 174.404.55 124.704.85 95.005.15 5 5.305.45 2 5.6 5.75 1409.75 1705.09 合計(jì)101頻數(shù)表資料統(tǒng)計(jì)描述:某地101名正常女子血清膽固醇值平均為4.06(mmol/L),標(biāo)準(zhǔn)差為0.654 (mmol/L)標(biāo)準(zhǔn)差的計(jì)算頻數(shù)表資料變異系數(shù)亦稱離散系數(shù),即標(biāo)準(zhǔn)差與均數(shù)之比用百分?jǐn)?shù)表示。應(yīng)用范圍組間單位不同時(shí)變異程度的比較。比較組單位相同,但均數(shù)相差懸殊的組間變異程度意義:CV越大,表示數(shù)據(jù)變異越大。常用于

23、衡量方法、儀器的精密度。離散趨勢指標(biāo)1.單位不同時(shí)組間變異程度的比較 某地7歲年齡組男童身高與體重 指標(biāo) S CV(%)身高(cm) 123.10 4.71 3.83體重(kg) 22.29 2.26 10.14結(jié)論: 7歲年齡組男童身高與體重值指標(biāo)比較,體重指標(biāo)的變異大于身高指標(biāo)。 某地不同年齡組男童身高(cm)年齡組 S CV%1-2月 56.3 2.1 3.735-6月 66.5 2.2 3.313-3.5歲 96.1 3.1 3.225-5.5歲 107.8 3.3 3.06結(jié)論:隨著年齡增加,身高的變異變小。 2.比較組單位相同,但均數(shù)相差懸殊的組間變異程度比較 1. 在醫(yī)學(xué)雜志中正

24、態(tài)或近似正態(tài)的資料,描述和比較數(shù)據(jù)的平均水平和離散程度。兩組患者年齡(歲)的比較 組別 n 范圍值試驗(yàn)組 12 45.9 3.7 35-57對照組 10 50.5 13.0 18-83兩組患者基線情況的比較計(jì)量數(shù)據(jù)的統(tǒng)計(jì)描述小結(jié)2.偏態(tài)分布或特定資料如生存時(shí)間、病程、潛伏期時(shí)間等1)用中位數(shù)和四分位間距描述。表達(dá)形式:M,四分位數(shù)間距(QR)例2-9 :118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。2)用百分位數(shù)的P25、P50、P75描述分布位置。3.等比數(shù)據(jù)和正偏態(tài)數(shù)據(jù)可用幾何均數(shù)和幾何標(biāo)準(zhǔn)差描述表達(dá)形式:GSG統(tǒng)計(jì)指標(biāo) 計(jì)量資料(單變量)中心位置 離散 程度 個(gè)體值 樣

25、本均數(shù): 正態(tài)非正態(tài): 量綱相同:量綱不同: 正態(tài):非正態(tài):連續(xù)變量的指標(biāo)集中趨勢指標(biāo)平均數(shù):算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)離散趨勢指標(biāo)變異指標(biāo):極差、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、變異系數(shù)經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用?;谂R床數(shù)據(jù)發(fā)現(xiàn)廣義知識(shí)計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述絕對數(shù):表示在一定的條件下某事物發(fā)生的具體規(guī)模和絕對數(shù)量的多少。發(fā)病例數(shù)、死亡人數(shù)絕對數(shù)的缺陷不具有可比性不利于保密由兩個(gè)有聯(lián)系的指標(biāo)之比組成,統(tǒng)稱為相對數(shù)。常用相對數(shù)包括率(rate) 、構(gòu)成比(proportion)和相對比(ratio)克服缺陷的手段將基數(shù)化成相同的數(shù)

26、值相對數(shù) The division of two numbers Numerator NOT INCLUDED in the denominator Allows to compare quantities of different nature相對比 Ratiobedsdoctors850 / 10 =85 / 1 malesfemales=5 / 2 =2.5 /1 3 / 1 =participantsfacilitators比:表示分子與分母間兩種情況(如兩個(gè)絕對數(shù)值或兩個(gè)相對數(shù))的關(guān)系;說明一個(gè)指標(biāo)為另一個(gè)指標(biāo)的倍數(shù)或百分之幾的關(guān)系可以有單位的,如每千人口的醫(yī)院床位數(shù);也可以是無單位

27、的,是一種比(或率)除以另一種比(或率),如比數(shù)(值)比(odds ratio, OR)、相對危險(xiǎn)度(relative risk, RR)、人口性別比、標(biāo)準(zhǔn)化死亡比 醫(yī)學(xué)研究常用指標(biāo)例、對某大學(xué)學(xué)生吸煙狀況進(jìn)行調(diào)查,結(jié)果顯示該校男性大學(xué)生吸煙率為35.12%,女性大學(xué)生吸煙率為1.58%,則該校男女學(xué)生吸煙率之比為: 即該校男大學(xué)生吸煙率是女大學(xué)生吸煙率的22.23倍。 The division of 2 numbersNumerator ALWAYS INCLUDED in the denominatorQuantities have to be of same natureProporti

28、on always ranges between 0 and 1 Percentage = proportion x 100構(gòu)成比 Proportionfemalespopulation=400 / 1000 =40% 構(gòu)成比:表示某事物或現(xiàn)象內(nèi)部各組成部分的比重。說明部分與整體之間的關(guān)系,即部分在整體中占的比重,通常以100為比例基數(shù),故常稱為百分比 。構(gòu)成比只能說明某一部分在總體中所占比重的大小,而不能說明該事件發(fā)生頻率的高低。 醫(yī)學(xué)研究常用指標(biāo)表5 某醫(yī)院1990年和1998年住院病人的五種疾病死亡人數(shù)和構(gòu)成比疾病構(gòu)成1990年1998年死亡人數(shù)構(gòu)成比()死亡人數(shù)構(gòu)成比()惡性腫瘤 58

29、 30.53 40 26.85循環(huán)系統(tǒng)疾病 44 23.16 44 29.53呼吸系統(tǒng)疾病 37 19.47 29 19.46消化系統(tǒng)疾病 19 10.00 18 12.08傳染病 32 16.84 18 12.08合計(jì) 190 100.00 149 100.00計(jì)算構(gòu)成比時(shí)應(yīng)注意:1.構(gòu)成比中分子是分母的一部分,但構(gòu)成事物整體的各個(gè)組成部分性質(zhì)相同,類別不同2.同一事物各構(gòu)成比之和為100%3.各構(gòu)成部分之間是相互影響的4.構(gòu)成比不能反映各類的頻率或嚴(yán)重程度,應(yīng)區(qū)別于率The division of 2 numbersTIME INCLUDED in the denominatorSpeed

30、 of occurrence of an event over time率 RateBirths in 2007Population in 2007=2000 / 15 000 000 = 0.00013 = 1.3 per 10,000 inhabitants per yearRate may be expressed in any power of 10:100, 1000, 10000, 100 000率 rate又稱頻率指標(biāo)。某現(xiàn)象實(shí)際發(fā)生數(shù)與可能發(fā)生總數(shù)之比。說明某現(xiàn)象發(fā)生的頻率與強(qiáng)度: 比例基數(shù)(K) 可以是100、1000、常用的頻率指標(biāo)有發(fā)病率、患病率、死亡率、病死率、有效率、

31、治愈率等。例2 1999年某幼兒園有36名兒童患了腮腺炎,該幼兒園共有200名兒童(其中25名兒童以前患過),求該幼兒園1999年腮腺炎的發(fā)病率例1 某企業(yè)2003年有2839名職工,該企業(yè)每年都對職工進(jìn)行體檢,這年新發(fā)生高血壓病人5例率的正確使用需注意:1.率的分母是由性質(zhì)不同的兩部分組成2.率的分子和分母數(shù)的確定與該率的定義有關(guān) 3. 計(jì)算合計(jì)率時(shí)不能將幾個(gè)率相加或相加后求平均,而應(yīng)該用分子分母的合計(jì)數(shù)進(jìn)行計(jì)算Difference of ratio, proportion and rateRatioNumerator INCLUDED in the denominator?Yes NoTi

32、me period was Considered?Measuring:Rate Proportion RatioExample: Incidence Prevalence Female/MaleYes No應(yīng)用相對數(shù)的注意事項(xiàng)1.正確區(qū)分率和構(gòu)成比,不能以比代率2.計(jì)算相對數(shù)應(yīng)有足夠的數(shù)量3.正確計(jì)算合計(jì)率4.注意資料的可比性5.對比不同時(shí)期資料應(yīng)注意客觀條件是否相同6.樣本率(或構(gòu)成比)的抽樣誤差例: 某廠某年有某病患病職工500人,其中450人為女性職工,占90%,男職工僅占10%,女性職工比男性職工更易患該病,因此今后應(yīng)加強(qiáng)對女性職工的健康防護(hù)工作。該廠有男性職工200人,有女性職工40

33、00人。女性患病率=450/4000=11.25%男性患病率=50/200=25%“以比代率” 的錯(cuò)誤A. 10年工齡組工人患病情況最嚴(yán)重B. 15年工齡組工人患病情況最嚴(yán)重C. 5年工齡組與15年工齡組工人患病情況差不多D. 以上三種說法都有根據(jù)醫(yī)學(xué)研究中常用的指標(biāo)死亡率發(fā)病率患病率罹患率病死率感染率續(xù)發(fā)率生存率醫(yī)學(xué)研究常用指標(biāo)拓展計(jì)量資料常用的檢驗(yàn)方法T檢驗(yàn)兩樣本均數(shù)比較、樣本均數(shù)與總體均數(shù)比較(單一樣本的t檢驗(yàn))配對t檢驗(yàn)同體自身前后,配對資料U檢驗(yàn)兩大樣本資料方差分析兩組及兩組以上秩和檢驗(yàn)偏態(tài)分布資料正態(tài)分布方差齊性正態(tài)性和方差齊性檢驗(yàn)正態(tài)性檢驗(yàn)可用正態(tài)性檢驗(yàn)的方法如Jarque-Be

34、ra檢驗(yàn)基于數(shù)據(jù)樣本的偏度和峰度,評價(jià)給定數(shù)據(jù)服從未知均值和方差正態(tài)分布的假設(shè)是否成立 h,p,JBSTAT,CV=jbtest(x,alpha) 還可用圖示法、 醫(yī)學(xué)知識(shí)對資料的正態(tài)性進(jìn)行估計(jì)F檢驗(yàn)原理:看較大樣本方差與較小樣本方差的商是否接近“1”。若接近“1”,則可認(rèn)為兩樣本代表的總體方差齊,否則,兩方差不齊t檢驗(yàn)兩小樣本(n t0.05(25) , p 0.05 做出推論: p 0.05 ( ), 小概率事件發(fā)生了,原假設(shè)不成立;拒絕H0 , 接受H1。 可認(rèn)為:常參加體育鍛煉的中學(xué)男生的心率與一般中學(xué)生差別有顯著性;常參加體育鍛煉的中學(xué)男生的心率比一般中學(xué)生的心率慢。兩組樣本的t檢驗(yàn)

35、由兩個(gè)樣本均數(shù)的差別推斷兩樣本所代表的總體均數(shù)間有無差別。 為了比較國產(chǎn)藥和進(jìn)口藥對治療更年期婦女骨質(zhì)疏松效果是否相同,采取隨機(jī)雙盲的臨床試驗(yàn)方法。國產(chǎn)藥組20例,進(jìn)口藥組19例,評價(jià)指標(biāo)為第2-4腰椎骨密度的改變值計(jì)算公式 t 統(tǒng)計(jì)量: t = 自由度 = n1+n2 2配對樣本的t檢驗(yàn)配對設(shè)計(jì)資料均數(shù)的比較;兩組樣本的比較例: 為考察一種新型透析療法的效果,隨機(jī)抽取了10名病人測量透析前后的血中尿素氮含量,請根據(jù)本實(shí)驗(yàn)資料對此療法進(jìn)行評價(jià)。計(jì)算公式差值 d適用條件:.同一批病人或動(dòng)物用不同的方法處理。.觀察同一批病人在治療前后的變化,治療前的數(shù)值和治療后的數(shù)值也是配對資料。表5 . 三棱莪

36、術(shù)液抑瘤試驗(yàn)的效果 小白鼠對子號注 射藥液組對照組 差值 d d2 13.03.6 0.6 0.36 22.34.5 2.2 4.84 32.44.2 1.8 3.24 41.14.4 3.310.89 54.03.7-0.3 0.09 63.75.6 1.9 3.61 72.77.0 4.318.49 81.94.1 2.2 4.84 92.65.0 2.4 5.76101.34.5 3.210.24合計(jì)21.662.36U檢驗(yàn)兩大樣本均數(shù)比較當(dāng)樣本含量較大時(shí),t分布趨向于正態(tài)分布,可采用u檢驗(yàn)。樣本與總體的U檢驗(yàn)兩樣本的U檢驗(yàn)分布特征與t、u檢驗(yàn)T檢驗(yàn)是以t分布為理論基礎(chǔ),以t值為統(tǒng)計(jì)量的

37、假設(shè)檢驗(yàn)方法,適用于例數(shù)較少,來源于正態(tài)分布的資料。U檢驗(yàn)是以標(biāo)準(zhǔn)正態(tài)分布為理論基礎(chǔ),以U值作為統(tǒng)計(jì)量的假設(shè)檢驗(yàn)方法,適用于例數(shù)較多的數(shù)值資料T、U檢驗(yàn)都可用于樣本與總體比較、配對設(shè)計(jì)、兩組完全隨機(jī)的假設(shè)檢驗(yàn)大樣本與小樣本100認(rèn)為是大樣本30100視情況而定方差分析analysis of varianceANOVA它把所有數(shù)據(jù)放在一起,一次比較就對所有各組間是否有差異做出判斷如果沒有顯著性差異,則認(rèn)為各組平均數(shù)相同;如果發(fā)現(xiàn)有差異,再進(jìn)一步比較是哪組數(shù)據(jù)與其它數(shù)據(jù)不同t檢驗(yàn)做兩兩比較會(huì)提高犯I型錯(cuò)誤的概率如,對5個(gè)平均數(shù)進(jìn)行檢驗(yàn),若做t檢驗(yàn),則需做10次,假設(shè)每一次檢驗(yàn)接受零假設(shè)的概率為0.

38、95,那么10次都接受零假設(shè)的概率為(0.95)10=0.60,(至少有1次)拒絕零假設(shè)的概率為0.40,犯I型錯(cuò)誤的概率明顯平加方差分析方差分析實(shí)質(zhì)上是關(guān)于觀測值變異原因的數(shù)量分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分。總變異全部觀察值之間的變異 MS總或MST組內(nèi)變異組間變異反映處理因素(T)和隨機(jī)誤差(E)大小。 MS組間或MSTR反映隨機(jī)誤差(E)大小。 MS組內(nèi)或MSe方差分析方差分析實(shí)質(zhì)上是關(guān)于觀測值變異原因的數(shù)量分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分。F= MS組間/ MS組內(nèi)觀察值Xij與組均數(shù) 的離均差平方和各組均數(shù) 與總均數(shù) 的離均差平方

39、和k為處理組數(shù) MS組間= SS組間/組間MS組內(nèi)= SS組內(nèi)/組內(nèi)1.00.80.60.40.20.01 2 3 4 F值概率密度函數(shù) 例 某醫(yī)生為了研究一種降血脂新藥的臨床療效,按統(tǒng)一納入標(biāo)準(zhǔn)選擇120名患者,采用完全隨機(jī)設(shè)計(jì)方法將患者等分為4組進(jìn)行雙盲試驗(yàn)。6周后測得低密度脂蛋白作為試驗(yàn)結(jié)果。問4個(gè)處理組患者的低密度脂蛋白含量總體均數(shù)有無差別?表4-3 4個(gè)處理組低密度脂蛋白測量值(mmol/L)分析步驟 H0: 即4個(gè)試驗(yàn)組總體均數(shù)相等 H1:4個(gè)試驗(yàn)組總體均數(shù)不全相等 2 . 計(jì)算檢驗(yàn)統(tǒng)計(jì)量 :1. 建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn): m1 = m2 = m3列方差分析表按1=3,2=11

40、6查附表3的F界值表,得F0.01(3,116)= 3.98,F(xiàn)24.93F0.01(3,116),P0.01。 按 水準(zhǔn),拒絕H0,接受H1,認(rèn)為4個(gè)試驗(yàn)組ldl-c總體均數(shù)不相等,即不同劑量藥物對血脂中l(wèi)dl-c降低影響有差別。確定P值,下結(jié)論注意: 方差分析的結(jié)果拒絕H0,接受H1,不能說明各組總體均數(shù)間兩兩都有差別。如果要分析哪些兩組間有差別,可進(jìn)行多個(gè)均數(shù)間的多重比較。秩和檢驗(yàn)適用條件總體分布為偏態(tài)或分布形式未知的計(jì)量資料方差不齊的計(jì)量資料比較的數(shù)據(jù)只能用嚴(yán)重程度、優(yōu)劣等級的半定量(等級)資料組間的比較。非參數(shù)檢驗(yàn)在統(tǒng)計(jì)檢驗(yàn)中不需要假定總體分布形式和用參數(shù)估計(jì)量,直接對比較數(shù)據(jù)的分布

41、進(jìn)行統(tǒng)計(jì)檢驗(yàn)的方法。稱為非參數(shù)檢驗(yàn)(nonparametric test).秩和檢驗(yàn)的方法秩轉(zhuǎn)換1.將數(shù)據(jù)(x)按大小轉(zhuǎn)化為秩次(i),用秩次的大小反映變量值的大小。2.對各組”秩次”求和,稱為秩和(T =i)。3.對各組秩和(T)做檢驗(yàn)當(dāng)n1n2時(shí),任取一組秩和為檢驗(yàn)統(tǒng)計(jì)量,即 T=(T1 or T2) 當(dāng)n1n2時(shí),取較小樣本的秩和為檢驗(yàn)統(tǒng)計(jì)量,即4.以樣本含量較小組的個(gè)體數(shù)n1、兩組樣本含量之差n2-n1及T值查檢驗(yàn)界值表;對于計(jì)量數(shù)據(jù),如果資料方差相等,且服從正態(tài)分布,就可以用t檢驗(yàn)比較如果此假定不成立或不能確定是否成立,就應(yīng)采用秩和檢驗(yàn)來分析兩樣本是否來自同一總體。例兩獨(dú)立樣本差別的

42、秩和檢驗(yàn)對10例肺癌病人和12例矽肺(硅沉著?。?期工人用X線片測量肺門橫徑右側(cè)距RD值(cm),結(jié)果見下表。問肺癌病人的RD值是否高于矽肺0期工人的RD值?Page 112肺癌病人矽肺0期工人RD值秩RD值秩2.78 13.23 2.53.23 2.53.50 44.20 74.04 54.87 144.15 65.12 174.28 86.21 184.34 97.18 194.47 108.05 204.64 118.56 214.75 129.60 224.82 134.95 155.10 16Page 113H0:兩組RD值的總體分布相同,M1M2;H1:兩組RD值的總體分布不同,M

43、1M2 ; = 0.05。編秩,求秩和并確定檢驗(yàn)統(tǒng)計(jì)量:T1=141.5確定P值,得雙側(cè)0.05p0.10,按檢驗(yàn)水準(zhǔn)不拒絕H0 ,認(rèn)為兩組的RD值分布不同。兩樣本秩和檢驗(yàn)的步驟 常用檢驗(yàn)方法的matlab實(shí)現(xiàn)T檢驗(yàn)H,P = ttest (X,M)x = normrnd(0.1, 1, 1, 100);h,p = ttest(x,0)h = 0p = 0.8323配對t檢驗(yàn)H,P = ttest(X,Y)x and y must be vectors of the same length兩獨(dú)立樣本t檢驗(yàn)H,P = ttest2(x,y)x = normrnd(0, 1, 1, 1000);y

44、 = normrnd(0.1, 2, 1,1000);h,p, = ttest2(x,y)h = 1p = 0.0102常用檢驗(yàn)方法的matlab實(shí)現(xiàn)U檢驗(yàn)H,P = ztest(x,m,sigma)x = normrnd(0.1, 1, 1, 100);h,p,ci = ztest(x,0,1)h = 0p = 0.1391方差分析p,table = anova1(X,group)strength = 82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79;alloy = st,st,st,st,st,st,st,st,al1,

45、al1,al1,al1,al1,al1, al2,al2,al2,al2,al2,al2;p = anova1(strength,alloy)p = 1.5264e-004常用檢驗(yàn)方法的matlab實(shí)現(xiàn)秩和檢驗(yàn)p,h = ranksum(x,y)X=2.783.234.204.875.126.217.188.058.569.60;Y=3.233.504.044.154.284.344.474.644.754.824.955.10;p,h = ranksum(X,Y)p = 0.0864h = 0拓展分類資料常用的檢驗(yàn)方法卡方檢驗(yàn)推斷兩個(gè)或兩個(gè)以上總體率(或構(gòu)成比)之間有無差別基本思想:實(shí)際頻數(shù)和理論頻數(shù)吻合的程度2*2行列式的自由度R*C行列式的自由度O 為實(shí)際頻數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論