醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第1頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第2頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第3頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第4頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第5頁(yè)
已閱讀5頁(yè),還剩109頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章

臨床醫(yī)學(xué)數(shù)據(jù)采集與分析徐娟Email:生物信息教研室分子學(xué)館106辦公室大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)數(shù)據(jù)的概念數(shù)據(jù)(data)是對(duì)客觀事物特征狀態(tài)的記錄。如某類(lèi)藥物的使用量、床位使用率、心率、血壓等生理參數(shù)數(shù)據(jù)是信息和知識(shí)的載體;信息和知識(shí)才是真正有意義的。數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)對(duì)象(或數(shù)據(jù)記錄)一個(gè)樣本的數(shù)據(jù)記錄對(duì)應(yīng)表格的一行特征屬性表格的每一列也稱(chēng)為:變量、指標(biāo)、字段、特征、維AttributesObjects屬性值字段名一條記錄的所有屬性的結(jié)合描述了這個(gè)具體對(duì)象的特征標(biāo)識(shí)變量分析變量自變量(解釋變量)反應(yīng)變量屬性與屬性值數(shù)據(jù)類(lèi)型不同,值的形式也不同相同的屬性可能有不同的屬性值

例子:高度可以用米或英尺來(lái)表示不同的屬性可能映射到相同的值的集合例子:雇員IDand年齡都用整型表示然而,談?wù)撈骄挲g是有意義的,平均ID是無(wú)意義的ID和年齡最大值不同數(shù)據(jù)的類(lèi)型數(shù)據(jù)定量(數(shù)值)連續(xù)離散定性(分類(lèi))無(wú)序二分類(lèi)多項(xiàng)分類(lèi)有序

(半定量或等級(jí))不同類(lèi)型的分類(lèi)數(shù)據(jù)在統(tǒng)計(jì)分析方法上也不同定量數(shù)據(jù)研究對(duì)象的指標(biāo)(X)表現(xiàn)為有數(shù)字大小和單位的數(shù)據(jù),又稱(chēng)計(jì)量數(shù)據(jù).連續(xù)性數(shù)據(jù)(ContinuousData)身高值(cm):1.65,1.70,1.58…..體重值(kg):52,55,61…..不連續(xù)性數(shù)據(jù)(DiscreteData)如疾病的復(fù)發(fā)次數(shù)、年齡、學(xué)習(xí)成績(jī)等。定性數(shù)據(jù)定性數(shù)據(jù)(QualitativeData)或稱(chēng)分類(lèi)數(shù)據(jù)(CategoricalData)變量值表現(xiàn)為按某屬性劃分的定性類(lèi)別分類(lèi)數(shù)據(jù)的分層大于2時(shí),又稱(chēng)為多分類(lèi)數(shù)據(jù)。定性數(shù)據(jù)類(lèi)型有無(wú)序和有序。無(wú)序數(shù)據(jù)(NominalCategorial)二分類(lèi):如性別(男、女)、多分類(lèi):血型(A、B、O、AB型)等。有序數(shù)據(jù)(OrdinalCategorieal)如腫瘤的分級(jí)(I級(jí)、II級(jí)、III級(jí))、疼痛的程度(輕、中、重)等,以及在臨床研究設(shè)計(jì)中,經(jīng)??吹降摹胺浅:谩⒑?、一般、差”這樣的數(shù)據(jù)類(lèi)型。數(shù)據(jù)類(lèi)型的轉(zhuǎn)換數(shù)據(jù)的類(lèi)型是可以轉(zhuǎn)換的定量數(shù)據(jù)轉(zhuǎn)換為定性或等級(jí)數(shù)據(jù)

分組切割值確定方法以正常參考值或臨床診斷標(biāo)準(zhǔn)作為分組依據(jù)。年齡資料是計(jì)量資料,但可以按大于65歲、45~65歲、小于45歲分為老、中、青年3類(lèi)而轉(zhuǎn)變?yōu)榈燃?jí)資料

某些定量指標(biāo)尚無(wú)公認(rèn)的正常參考值,可根據(jù)均數(shù)或四分位間距值,將其分為兩組或四組。根據(jù)數(shù)據(jù)的分布特點(diǎn)和研究需要,自行確定,但要能對(duì)統(tǒng)計(jì)分析結(jié)果做出合理的解釋。數(shù)據(jù)的類(lèi)型決定著所要選擇的分析方法。定量數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù)一般比較簡(jiǎn)單從定性數(shù)據(jù)就無(wú)法再轉(zhuǎn)換成定量數(shù)據(jù)對(duì)兩組或多組研究單項(xiàng)的某項(xiàng)指標(biāo)進(jìn)行分析時(shí),數(shù)據(jù)從定量轉(zhuǎn)換為定性或等級(jí)數(shù)據(jù)時(shí),數(shù)據(jù)的信息量會(huì)下降。注意事項(xiàng)臨床醫(yī)學(xué)原始資料臨床醫(yī)學(xué)原始資料的收集方式直接觀察法:包括體檢標(biāo)本檢測(cè)等。采訪法:面訪、調(diào)查會(huì)及信訪電話訪問(wèn)等臨床數(shù)據(jù)的特點(diǎn)醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)隱私性(Privacy)——醫(yī)學(xué)數(shù)據(jù)不可避免地涉及到患者的一些隱私信息,當(dāng)這些隱私信息使患者在日常生活中遭遇到不可預(yù)料的侵?jǐn)_時(shí),就產(chǎn)生了隱私性問(wèn)題。知情同意書(shū)不完整性——醫(yī)學(xué)數(shù)據(jù)的搜集和處理過(guò)程經(jīng)常相互脫節(jié),以及一些人為因素使得醫(yī)學(xué)數(shù)據(jù)庫(kù)不可能對(duì)任何疾病信息都能全面地反映。冗余性——醫(yī)學(xué)數(shù)據(jù)庫(kù)是一個(gè)龐大的數(shù)據(jù)資源,每天都會(huì)有大量的記錄存儲(chǔ)到數(shù)據(jù)庫(kù)中,其中可能會(huì)包含重復(fù)的、無(wú)關(guān)緊要的、甚至是相互矛盾的記錄。大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量問(wèn)題:噪聲(Noise)離群點(diǎn)(outliers)遺漏值(missingvalues)重復(fù)數(shù)據(jù)(duplicatedata)(內(nèi)源性)隨機(jī)誤差非隨機(jī)誤差/系統(tǒng)誤差儀器、方法的不一致,選擇對(duì)象偏倚、測(cè)量偏倚

未知眾多微小因素所引起數(shù)據(jù)的變異,如抽樣誤差。不能避免,有統(tǒng)計(jì)學(xué)規(guī)律性可控制和縮小誤差來(lái)源與種類(lèi)(外源性)過(guò)失誤差研究者操作失誤予以清除(1)噪聲噪聲是測(cè)量誤差的隨機(jī)部分

Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise測(cè)定值(X)=真值(t)+誤差(e)系統(tǒng)誤差隨機(jī)誤差(2)離群點(diǎn)噪聲和離群點(diǎn)的區(qū)別離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或值,不像噪聲,離群點(diǎn)本身可以是令人感興趣的例子:姚明的審稿,李娜打網(wǎng)球的表現(xiàn)離群值和極端值離群值(outliner)

與P25或P75的距離為“四分位數(shù)間距”的1.5~3.0倍。極端值(extremevalue)

與P25或P75的距離為“四分位數(shù)間距”的3.0倍以上。百分位數(shù)(percentile)是一種位置指標(biāo),用表示。計(jì)算定義:將一組變量值由小到大依次排列,為第x百分位數(shù)的秩次,其對(duì)應(yīng)的變量值(x)為第x百分位數(shù),記為Px。X:15810…….105秩次1234100%1%2%3%n=100百分位數(shù)計(jì)算方法1.直接法將樣本值由小到大排隊(duì),用確定Px位次和PX。當(dāng)為帶有小數(shù)位時(shí)當(dāng)為整數(shù)時(shí)trunc(a)表示對(duì)數(shù)字取其整數(shù)。式2.8式2.7例:8位患者某病的住院天數(shù):

22233456求50%位數(shù)和80%位數(shù)。解:第50%位次:nX%=8×0.5=4,用式2.8

中位數(shù)=P50=3(天)第80%位次:nX%=8×0.8=6.4,用公式2.7離群值和極端值離群值(outliner)

與P25或P75的距離為“四分位數(shù)間距IQR”的1.5~3.0倍。極端值(extremevalue)

與P25或P75的距離為“四分位數(shù)間距IQR”的3.0倍以上。P75+1.5IQRP75(Q3)P50(Q2)P25(Q1)P25-1.5IQR離群或極端值剔除離群或極端值要予以合理解釋。發(fā)現(xiàn)可疑值后,首先應(yīng)從專(zhuān)業(yè)、技術(shù)與操作方面進(jìn)行檢查,尋找可能發(fā)生失誤的原因。若查明屬于粗枝大葉、中途條件改變、未遵守操作規(guī)程、儀器或試劑失靈等,則應(yīng)舍棄該可疑值。如身高1755cm數(shù)據(jù)無(wú)明顯的邏輯錯(cuò)誤,可將數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾可以不剔除。否則,需要剔除,并給出充分合理的解釋?zhuān)纾煤畏N方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等(3)遺漏值產(chǎn)生遺漏值的原因信息未收集到例如:血脂或血糖因?yàn)檠辶坎蛔慊蜓芯繉?duì)象拒絕采血而導(dǎo)致某些研究對(duì)象實(shí)驗(yàn)室的檢測(cè)結(jié)果成為缺失數(shù)據(jù)。屬性并不能用于所有對(duì)象例如:填寫(xiě)學(xué)歷后,填寫(xiě)專(zhuān)業(yè),研究方向處理遺漏值刪除數(shù)據(jù)對(duì)象或?qū)傩怨烙?jì)遺漏值在分析時(shí)忽略遺漏值(4)重復(fù)數(shù)據(jù)數(shù)據(jù)集可能包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對(duì)象例1:許多人收到重復(fù)的郵件例2:不同數(shù)據(jù)庫(kù)收集的蛋白質(zhì)互作數(shù)據(jù)和通路數(shù)據(jù)的重復(fù)例3:重復(fù)序列,如rRNA基因、tRNA基因和某些蛋白質(zhì)(如組蛋白、肌動(dòng)蛋白等)的基因序列例4:旁系同源基因合并重復(fù)數(shù)據(jù)數(shù)據(jù)的轉(zhuǎn)換將不同來(lái)源數(shù)據(jù)的數(shù)據(jù)格式、數(shù)據(jù)單位、數(shù)據(jù)類(lèi)型進(jìn)行一致性轉(zhuǎn)換偏態(tài)分布資料數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對(duì)數(shù)變換,平方根變換或倒數(shù)變換等。

數(shù)據(jù)轉(zhuǎn)換的目的:使偏態(tài)分布接近正態(tài)分布;消除多組資料均數(shù)與標(biāo)準(zhǔn)差的正比關(guān)系。多見(jiàn)于用百分比做觀察結(jié)果的數(shù)值變量資料。數(shù)據(jù)的結(jié)構(gòu)化整理將數(shù)據(jù)存儲(chǔ)成規(guī)范的表格形式大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)基于臨床數(shù)據(jù)發(fā)現(xiàn)廣義知識(shí)計(jì)量資料的統(tǒng)計(jì)描述分類(lèi)資料的統(tǒng)計(jì)描述計(jì)量資料的統(tǒng)計(jì)描述概念:即用少量幾個(gè)統(tǒng)計(jì)指標(biāo)刻畫(huà)出原始數(shù)據(jù)的特征稱(chēng)為統(tǒng)計(jì)描述。計(jì)量資料的統(tǒng)計(jì)描述方法:1.通過(guò)頻數(shù)表描述數(shù)據(jù)特征2.用統(tǒng)計(jì)指標(biāo)定量描述數(shù)據(jù)的特征。計(jì)量資料的頻數(shù)表(大樣本數(shù)據(jù))頻數(shù)表:將變量值分為不同數(shù)量的組段,清點(diǎn)各組段的例數(shù)。意義:概括了解變量值在各組段中的分布范圍和規(guī)律。例:表1例1從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇(mmol/L)的測(cè)量結(jié)果

2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26boxplot(data,ylab="血清總膽固醇");計(jì)量資料編制頻數(shù)表的步驟例1數(shù)據(jù)1.確定全距(R)=最大值—最小值data<-read.table("C:\\DocumentsandSettings\\Administrator\\桌面\\R實(shí)現(xiàn)\\101名正常成年女子的血清總膽固醇.txt",sep=",");R<-max(data)-min(data);2.定組數(shù)(8-15組)和組距:大概分成10組3.36/10=0.336≈0.33.寫(xiě)出組段:第1組段小于或等于最小值。4.劃計(jì)并計(jì)數(shù)表2-1101名正常成年女性血清總膽固醇頻數(shù)表總計(jì)1.00101頻數(shù)表及分布圖的用途1.通過(guò)頻數(shù)表了解數(shù)據(jù)的分布特征。X值分布情況:偏態(tài)或正態(tài)分布取值情況:變量值取值范圍集中趨勢(shì):變量值集中位置。2.便于發(fā)現(xiàn)資料中的可疑值。3.組段的頻率作為概率的估計(jì)。例:表2-1資料頻數(shù)分布圖—直方圖正態(tài)分布hist(data[,1],breaks=c(min(data)+r*0:10),xlab="血清總膽固醇",ylab="頻數(shù)",main="血清總膽固醇直方圖");連續(xù)變量的指標(biāo)集中趨勢(shì)指標(biāo)平均數(shù):算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)離散趨勢(shì)指標(biāo)變異指標(biāo):極差、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、變異系數(shù)經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。集中趨勢(shì)指標(biāo)平均數(shù)用于描述一組同質(zhì)計(jì)量資料的集中趨勢(shì),反映一組觀察值的平均水平或者一個(gè)分布的平均位置的指標(biāo)作用:是一組計(jì)量數(shù)據(jù)平均水平的代表值;可作為不同組間的比較值。平均數(shù)的種類(lèi)算術(shù)平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)調(diào)和平均數(shù)集中趨勢(shì)指標(biāo)算術(shù)平均數(shù)(mean),簡(jiǎn)稱(chēng)均數(shù),常用表示定義:是一群已知性質(zhì)相同的數(shù)值之和除以數(shù)值個(gè)數(shù)的商數(shù)。適用條件:頻數(shù)為正態(tài)或近似正態(tài)分布的計(jì)量資料計(jì)算方法直接計(jì)算法加權(quán)計(jì)算法注意事項(xiàng)同質(zhì)對(duì)稱(chēng)mean_value=mean(data);表2-2101名正常成年女性血清總膽固醇頻數(shù)表

頻數(shù)(f)作為X值的權(quán)數(shù)加權(quán)法集中趨勢(shì)指標(biāo)幾何平均數(shù)(Geometricmean)適用條件:不呈正態(tài)分布,差距較大,X值呈倍數(shù)增長(zhǎng)或部分?jǐn)?shù)據(jù)偏離過(guò)的大偏態(tài)分布(正偏態(tài))資料59名鏈球菌咽喉炎患者潛伏期正偏態(tài)分布幾何平均數(shù)計(jì)算方法直接法加權(quán)法注意事項(xiàng)觀察值不能小于或等于零觀察值不能同時(shí)有正值和負(fù)值同一組資料求得的幾何均數(shù)小于算術(shù)均數(shù)或例3

某地5例微絲蚴血癥患者治療7年后用間接熒光抗體試驗(yàn)測(cè)得其抗體滴度分別為1/10,1/20,1/40,1/80,1/160,求幾何均數(shù)。結(jié)論:平均抗體滴度為1:40(幾何均數(shù)法)直接法,例數(shù)較少用1800.025a=[1/101/201/401/801/160];geomean_a=geomean(a);表2-369例RA患者血清EBV-lgG抗體測(cè)定結(jié)果

滴度倒數(shù)

X人數(shù)

flgXflgX1041.00004.00002031.30103.903040101.602116.021080101.903119.0310160112.204124.2451320152.505137.5765640142.806239.2868128023.10726.2144合計(jì)69150.2778幾何均數(shù)計(jì)算例數(shù)合計(jì)

結(jié)論:69例RA患者血清EBV-lgG抗體平均滴度為1:150.6

中位數(shù)(Median,M)定義:把一組觀察值,按大小次序排列,居于中間位置的那個(gè)數(shù)值。適用條件:明顯偏態(tài)分布;資料的分布情況不清楚。計(jì)算方法集中趨勢(shì)指標(biāo)X:5,5,6,7,20(d)位次12345n為奇數(shù)n為偶數(shù)median_value=median(data);小結(jié)1.平均數(shù)概括描述一組計(jì)量數(shù)據(jù)集中趨勢(shì)。2.數(shù)據(jù)分布為正態(tài)時(shí),選用均數(shù)描述,并有均數(shù)≈中位數(shù)。數(shù)據(jù)分布為偏態(tài),選用中位數(shù)描述較好。數(shù)據(jù)為等級(jí)和相差較大時(shí),選用幾何均數(shù)描述。離散趨勢(shì)指標(biāo)變異性:同質(zhì)條件下的觀察單位,其同一標(biāo)志的數(shù)據(jù)間的差異性。描述計(jì)量資料數(shù)據(jù)間離散(變異)程度的指標(biāo)—變異指標(biāo)描述計(jì)量資料觀察值之間參差不齊程度的指標(biāo)。變異指標(biāo)的種類(lèi)全局/極差四分位數(shù)間距方差與標(biāo)準(zhǔn)差變異系數(shù)離散趨勢(shì)指標(biāo)極差(Range):用(R)表示即一組數(shù)據(jù)的R=最大值–最小值意義:R值越大,表示該組數(shù)據(jù)的變異越大。缺點(diǎn):數(shù)據(jù)利用不全,部分信息損失,在例數(shù)少時(shí)結(jié)果不穩(wěn)定。離散趨勢(shì)指標(biāo)四分位數(shù)間距(quartilerange),常用QR表示計(jì)算:QR=P75-P25作為變異指標(biāo)比極差穩(wěn)定。常用于表示偏態(tài)分布資料的變異。例:QR=P75-P25=67.7-39.2=28.5天表示方法:Md(QR)

M=51天,(QR=28.5天)方差與標(biāo)準(zhǔn)差(Standarddeviationandvariance)定義(理論)方差:離均差平方和的均數(shù)。標(biāo)準(zhǔn)差:方差的平方根。樣本標(biāo)準(zhǔn)差(s)意義反映一組變量值變異程度,組間單位相同時(shí),S越小,表示數(shù)據(jù)的變異程度越小。標(biāo)準(zhǔn)差的應(yīng)用表示離散程度;計(jì)算變異系數(shù);求正常值的范圍;計(jì)算標(biāo)準(zhǔn)誤離散趨勢(shì)指標(biāo)當(dāng)用n代替N,σ估計(jì)偏小,因此用n-1代替N?;蚶?-5甲組5名同齡男孩的身高值(cm)

XX2908100959025100100001051102511012100

標(biāo)準(zhǔn)差的計(jì)算表2-1101名正常女子血清膽固醇值組段(X)

頻數(shù)(f)fXfx22.30~2.4512.456.002.60~2.7538.2522.692.90~3.05618.3055.823.20~3.358…….3.50~3.65173.80~3.95204.10~4.25174.40~4.55124.70~4.8595.00~5.1555.30~5.4525.6~5.751409.751705.09

合計(jì)101頻數(shù)表資料統(tǒng)計(jì)描述:某地101名正常女子血清膽固醇值平均為4.06(mmol/L),標(biāo)準(zhǔn)差為0.654(mmol/L)標(biāo)準(zhǔn)差的計(jì)算頻數(shù)表資料變異系數(shù)亦稱(chēng)離散系數(shù),即標(biāo)準(zhǔn)差與均數(shù)之比用百分?jǐn)?shù)表示。應(yīng)用范圍組間單位不同時(shí)變異程度的比較。比較組單位相同,但均數(shù)相差懸殊的組間變異程度意義:CV越大,表示數(shù)據(jù)變異越大。常用于衡量方法、儀器的精密度。離散趨勢(shì)指標(biāo)1.單位不同時(shí)組間變異程度的比較

某地7歲年齡組男童身高與體重

指標(biāo)SCV(%)身高(cm)123.104.713.83體重(kg)22.292.2610.14結(jié)論:7歲年齡組男童身高與體重值指標(biāo)比較,體重指標(biāo)的變異大于身高指標(biāo)。

某地不同年齡組男童身高(cm)年齡組SCV%1-2月56.32.13.735-6月66.52.23.313-3.5歲96.13.13.225-5.5歲107.83.33.06結(jié)論:隨著年齡增加,身高的變異變小。2.比較組單位相同,但均數(shù)相差懸殊的組間變異程度比較1.在醫(yī)學(xué)雜志中正態(tài)或近似正態(tài)的資料,描述和比較數(shù)據(jù)的平均水平和離散程度。兩組患者年齡(歲)的比較

組別n范圍值試驗(yàn)組1245.9±3.735-57對(duì)照組1050.5±13.018-83兩組患者基線情況的比較計(jì)量數(shù)據(jù)的統(tǒng)計(jì)描述小結(jié)2.偏態(tài)分布或特定資料如生存時(shí)間、病程、潛伏期時(shí)間等1)用中位數(shù)和四分位間距描述。表達(dá)形式:M,四分位數(shù)間距(QR)例2-9:118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。2)用百分位數(shù)的P25、P50、P75描述分布位置。3.等比數(shù)據(jù)和正偏態(tài)數(shù)據(jù)可用幾何均數(shù)和幾何標(biāo)準(zhǔn)差描述表達(dá)形式:G±SG統(tǒng)計(jì)指標(biāo)

計(jì)量資料(單變量)中心位置

離散程度

個(gè)體值

樣本均數(shù):

正態(tài)非正態(tài):

量綱相同:量綱不同:

正態(tài):非正態(tài):基于臨床數(shù)據(jù)發(fā)現(xiàn)廣義知識(shí)計(jì)量資料的統(tǒng)計(jì)描述分類(lèi)資料的統(tǒng)計(jì)描述分類(lèi)資料的統(tǒng)計(jì)描述絕對(duì)數(shù):表示在一定的條件下某事物發(fā)生的具體規(guī)模和絕對(duì)數(shù)量的多少。發(fā)病例數(shù)、死亡人數(shù)絕對(duì)數(shù)的缺陷不具有可比性不利于保密由兩個(gè)有聯(lián)系的指標(biāo)之比組成,統(tǒng)稱(chēng)為相對(duì)數(shù)。常用相對(duì)數(shù)包括率(rate)、構(gòu)成比(proportion)和相對(duì)比(ratio)克服缺陷的手段將基數(shù)化成相同的數(shù)值--相對(duì)數(shù)ThedivisionoftwonumbersNumeratorNOTINCLUDEDinthedenominatorAllowstocomparequantitiesofdifferentnature相對(duì)比Ratiobedsdoctors850/10

==85/1

malesfemales=5/2

=2.5/1

3/1

=participantsfacilitators比:表示分子與分母間兩種情況(如兩個(gè)絕對(duì)數(shù)值或兩個(gè)相對(duì)數(shù))的關(guān)系;說(shuō)明一個(gè)指標(biāo)為另一個(gè)指標(biāo)的倍數(shù)或百分之幾的關(guān)系可以有單位的,如每千人口的醫(yī)院床位數(shù);也可以是無(wú)單位的,是一種比(或率)除以另一種比(或率),如比數(shù)(值)比(oddsratio,OR)、相對(duì)危險(xiǎn)度(relativerisk,RR)、人口性別比、標(biāo)準(zhǔn)化死亡比醫(yī)學(xué)研究常用指標(biāo)例、對(duì)某大學(xué)學(xué)生吸煙狀況進(jìn)行調(diào)查,結(jié)果顯示該校男性大學(xué)生吸煙率為35.12%,女性大學(xué)生吸煙率為1.58%,則該校男女學(xué)生吸煙率之比為:

即該校男大學(xué)生吸煙率是女大學(xué)生吸煙率的22.23倍。

Thedivisionof2numbersNumeratorALWAYSINCLUDEDinthedenominatorQuantitieshavetobeofsamenatureProportionalwaysrangesbetween0and1Percentage=proportionx100構(gòu)成比Proportionfemalespopulation=400/1000

=40%

構(gòu)成比:表示某事物或現(xiàn)象內(nèi)部各組成部分的比重。說(shuō)明部分與整體之間的關(guān)系,即部分在整體中占的比重,通常以100為比例基數(shù),故常稱(chēng)為百分比。構(gòu)成比只能說(shuō)明某一部分在總體中所占比重的大小,而不能說(shuō)明該事件發(fā)生頻率的高低。

醫(yī)學(xué)研究常用指標(biāo)表5某醫(yī)院1990年和1998年住院病人的五種疾病死亡人數(shù)和構(gòu)成比疾病構(gòu)成1990年1998年死亡人數(shù)構(gòu)成比(%)死亡人數(shù)構(gòu)成比(%)惡性腫瘤5830.534026.85循環(huán)系統(tǒng)疾病4423.164429.53呼吸系統(tǒng)疾病3719.472919.46消化系統(tǒng)疾病1910.001812.08傳染病3216.841812.08合計(jì)190100.00149100.00計(jì)算構(gòu)成比時(shí)應(yīng)注意:1.構(gòu)成比中分子是分母的一部分,但構(gòu)成事物整體的各個(gè)組成部分性質(zhì)相同,類(lèi)別不同2.同一事物各構(gòu)成比之和為100%3.各構(gòu)成部分之間是相互影響的4.構(gòu)成比不能反映各類(lèi)的頻率或嚴(yán)重程度,應(yīng)區(qū)別于率Thedivisionof2numbersTIMEINCLUDEDinthedenominatorSpeedofoccurrenceofaneventovertime率RateBirthsin2007Populationin2007=2000/15000000

==0.00013=1.3per10,000inhabitantsperyearRatemaybeexpressedinanypowerof10:100,1000,10000,100000…率rate又稱(chēng)頻率指標(biāo)。某現(xiàn)象實(shí)際發(fā)生數(shù)與可能發(fā)生總數(shù)之比。說(shuō)明某現(xiàn)象發(fā)生的頻率與強(qiáng)度:比例基數(shù)(K)可以是100%、1000‰、……常用的頻率指標(biāo)有發(fā)病率、患病率、死亡率、病死率、有效率、治愈率等。例21999年某幼兒園有36名兒童患了腮腺炎,該幼兒園共有200名兒童(其中25名兒童以前患過(guò)),求該幼兒園1999年腮腺炎的發(fā)病率率的正確使用需注意:1.率的分母是由性質(zhì)不同的兩部分組成2.率的分子和分母數(shù)的確定與該率的定義有關(guān)3.計(jì)算合計(jì)率時(shí)不能將幾個(gè)率相加或相加后求平均,而應(yīng)該用分子分母的合計(jì)數(shù)進(jìn)行計(jì)算Differenceofratio,proportionandrateRatioNumeratorINCLUDEDinthedenominator???YesNoTimeperiodwasConsidered?Measuring:Rate

ProportionRatioExample:IncidencePrevalenceFemale/MaleYesNo應(yīng)用相對(duì)數(shù)的注意事項(xiàng)1.正確區(qū)分率和構(gòu)成比,不能以比代率2.計(jì)算相對(duì)數(shù)應(yīng)有足夠的數(shù)量3.正確計(jì)算合計(jì)率4.注意資料的可比性5.對(duì)比不同時(shí)期資料應(yīng)注意客觀條件是否相同6.樣本率(或構(gòu)成比)的抽樣誤差例:某廠某年有某病患病職工500人,其中450人為女性職工,占90%,男職工僅占10%,女性職工比男性職工更易患該病,因此今后應(yīng)加強(qiáng)對(duì)女性職工的健康防護(hù)工作。該廠有男性職工200人,有女性職工4000人。女性患病率=450/4000=11.25%男性患病率=50/200=25%“以比代率”的錯(cuò)誤A.10年~工齡組工人患病情況最嚴(yán)重B.15年~工齡組工人患病情況最嚴(yán)重C.5年~工齡組與15年~工齡組工人患病情況差不多D.以上三種說(shuō)法都有根據(jù)醫(yī)學(xué)研究中常用的指標(biāo)死亡率發(fā)病率患病率罹患率病死率感染率續(xù)發(fā)率生存率醫(yī)學(xué)研究常用指標(biāo)拓展計(jì)量資料常用的檢驗(yàn)方法T檢驗(yàn)兩樣本均數(shù)比較、樣本均數(shù)與總體均數(shù)比較(單一樣本的t檢驗(yàn))配對(duì)t檢驗(yàn)同體自身前后,配對(duì)資料U檢驗(yàn)兩大樣本資料方差分析兩組及兩組以上秩和檢驗(yàn)偏態(tài)分布資料正態(tài)分布方差齊性正態(tài)性和方差齊性檢驗(yàn)正態(tài)性檢驗(yàn)可用正態(tài)性檢驗(yàn)的方法如Jarque-Bera檢驗(yàn)基于數(shù)據(jù)樣本的偏度和峰度,評(píng)價(jià)給定數(shù)據(jù)服從未知均值和方差正態(tài)分布的假設(shè)是否成立

[h,p,JBSTAT,CV]=jbtest(x,alpha)

還可用圖示法、醫(yī)學(xué)知識(shí)對(duì)資料的正態(tài)性進(jìn)行估計(jì)F檢驗(yàn)原理:看較大樣本方差與較小樣本方差的商是否接近“1”。若接近“1”,則可認(rèn)為兩樣本代表的總體方差齊,否則,兩方差不齊t檢驗(yàn)兩小樣本(n<30)均數(shù)的比較兩小樣本均數(shù)比較的t檢驗(yàn)要求兩樣本服從正態(tài)分布,方差齊性。單一樣本的t檢驗(yàn)兩組樣本的t檢驗(yàn)配對(duì)樣本的t檢驗(yàn)=9單側(cè)概率為0.05雙側(cè)概率為0.05單側(cè)概率的t界值t分布中t界值和概率的關(guān)系雙側(cè)概率的t界值單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)檢驗(yàn)水準(zhǔn)P值的拒絕域

P≤α,拒絕H0單一樣本的t檢驗(yàn)已知中學(xué)一般男生的心率平均為74次/分鐘。為了研究常參加體育鍛煉的中學(xué)生心臟功能是否與一般的中學(xué)生相同,在某地區(qū)中學(xué)生中隨機(jī)抽取常年參加體育鍛煉的男生16名,測(cè)量他們的心率。55.0072.0058.0057.0070.0075.0072.0069.0061.0067.0069.0073.0059.0071.0053.0069.00▲建立假設(shè):檢驗(yàn)假設(shè):常參加體育鍛煉的中學(xué)男生的心率與一般中學(xué)生相等;H0:μ=μ0;

備擇假設(shè):常參加體育鍛煉的中學(xué)男生的心率與一般中學(xué)生不同;H1:μ≠μ0

▲確定顯著性水平():0.05▲目的:比較一個(gè)樣本均數(shù)所代表的未知總體均數(shù)與已知的總體均數(shù)有無(wú)差別。89▲計(jì)算統(tǒng)計(jì)量:

t=

t=4.65▲確定自由度和概率值:

n=16,自由度=n–1=15,t0.05(15)=2.131t>t0.05(25),p<0.05▲做出推論:

p

<0.05

),小概率事件發(fā)生了,原假設(shè)不成立;拒絕H0,接受H1。

可認(rèn)為:常參加體育鍛煉的中學(xué)男生的心率與一般中學(xué)生差別有顯著性;常參加體育鍛煉的中學(xué)男生的心率比一般中學(xué)生的心率慢。兩組樣本的t檢驗(yàn)由兩個(gè)樣本均數(shù)的差別推斷兩樣本所代表的總體均數(shù)間有無(wú)差別。為了比較國(guó)產(chǎn)藥和進(jìn)口藥對(duì)治療更年期婦女骨質(zhì)疏松效果是否相同,采取隨機(jī)雙盲的臨床試驗(yàn)方法。國(guó)產(chǎn)藥組20例,進(jìn)口藥組19例,評(píng)價(jià)指標(biāo)為第2-4腰椎骨密度的改變值▲計(jì)算公式

t統(tǒng)計(jì)量:t=

自由度=n1+n2–2配對(duì)樣本的t檢驗(yàn)配對(duì)設(shè)計(jì)資料均數(shù)的比較;兩組樣本的比較例:為考察一種新型透析療法的效果,隨機(jī)抽取了10名病人測(cè)量透析前后的血中尿素氮含量,請(qǐng)根據(jù)本實(shí)驗(yàn)資料對(duì)此療法進(jìn)行評(píng)價(jià)?!?jì)算公式差值d適用條件:

①.同一批病人或動(dòng)物用不同的方法處理。

②.觀察同一批病人在治療前后的變化,治療前的數(shù)值和治療后的數(shù)值也是配對(duì)資料。

表5.三棱莪術(shù)液抑瘤試驗(yàn)的效果

小白鼠對(duì)子號(hào)注射藥液組對(duì)照組

差值dd213.03.60.60.3622.34.52.24.8432.44.21.83.2441.14.43.310.8954.03.7-0.30.0963.75.61.93.6172.77.04.318.4981.94.12.24.8492.65.02.45.76101.34.53.210.24合計(jì)————21.662.36U檢驗(yàn)兩大樣本均數(shù)比較當(dāng)樣本含量較大時(shí),t分布趨向于正態(tài)分布,可采用u檢驗(yàn)。樣本與總體的U檢驗(yàn)兩樣本的U檢驗(yàn)分布特征與t、u檢驗(yàn)T檢驗(yàn)是以t分布為理論基礎(chǔ),以t值為統(tǒng)計(jì)量的假設(shè)檢驗(yàn)方法,適用于例數(shù)較少,來(lái)源于正態(tài)分布的資料。U檢驗(yàn)是以標(biāo)準(zhǔn)正態(tài)分布為理論基礎(chǔ),以U值作為統(tǒng)計(jì)量的假設(shè)檢驗(yàn)方法,適用于例數(shù)較多的數(shù)值資料T、U檢驗(yàn)都可用于樣本與總體比較、配對(duì)設(shè)計(jì)、兩組完全隨機(jī)的假設(shè)檢驗(yàn)大樣本與小樣本<=30認(rèn)為是小樣本>100認(rèn)為是大樣本30~100視情況而定方差分析analysisofvariance-ANOVA它把所有數(shù)據(jù)放在一起,一次比較就對(duì)所有各組間是否有差異做出判斷如果沒(méi)有顯著性差異,則認(rèn)為各組平均數(shù)相同;如果發(fā)現(xiàn)有差異,再進(jìn)一步比較是哪組數(shù)據(jù)與其它數(shù)據(jù)不同.t檢驗(yàn)做兩兩比較會(huì)提高犯I型錯(cuò)誤的概率如,對(duì)5個(gè)平均數(shù)進(jìn)行檢驗(yàn),若做t檢驗(yàn),則需做10次,假設(shè)每一次檢驗(yàn)接受零假設(shè)的概率為0.95,那么10次都接受零假設(shè)的概率為(0.95)10=0.60,(至少有1次)拒絕零假設(shè)的概率為0.40,犯I型錯(cuò)誤的概率明顯平加方差分析方差分析實(shí)質(zhì)上是關(guān)于觀測(cè)值變異原因的數(shù)量分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分??傋儺惾坑^察值之間的變異

MS總或MST組內(nèi)變異組間變異反映處理因素(T)和隨機(jī)誤差(E)大小。

MS組間或MSTR反映隨機(jī)誤差(E)大小。

MS組內(nèi)或MSe方差分析方差分析實(shí)質(zhì)上是關(guān)于觀測(cè)值變異原因的數(shù)量分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分。F=M組間/

MS組內(nèi)觀察值Xij與組均數(shù)的離均差平方和各組均數(shù)與總均數(shù)的離均差平方和k為處理組數(shù)

MS組間=SS組間/υ組間MS組內(nèi)=SS組內(nèi)/υ組內(nèi)秩和檢驗(yàn)適用條件總體分布為偏態(tài)或分布形式未知的計(jì)量資料方差不齊的計(jì)量資料比較的數(shù)據(jù)只能用嚴(yán)重程度、優(yōu)劣等級(jí)的半定量(等級(jí))資料組間的比較。非參數(shù)檢驗(yàn)在統(tǒng)計(jì)檢驗(yàn)中不需要假定總體分布形式和用參數(shù)估計(jì)量,直接對(duì)比較數(shù)據(jù)的分布進(jìn)行統(tǒng)計(jì)檢驗(yàn)的方法。稱(chēng)為非參數(shù)檢驗(yàn)(nonparametrictest).秩和檢驗(yàn)的方法秩轉(zhuǎn)換1.將數(shù)據(jù)(x)按大小轉(zhuǎn)化為秩次(i),用秩次的大小反映變量值的大小。2.對(duì)各組”秩次”求和,稱(chēng)為秩和(T=∑i)。3.對(duì)各組秩和(T)做檢驗(yàn)當(dāng)n1=n2時(shí),任取一組秩和為檢驗(yàn)統(tǒng)計(jì)量,即T=(T1orT2)當(dāng)n1≠n2時(shí),取較小樣本的秩和為檢驗(yàn)統(tǒng)計(jì)量,即4.以樣本含量較小組的個(gè)體數(shù)n1、兩組樣本含量之差n2-n1及T值查檢驗(yàn)界值表;對(duì)于計(jì)量數(shù)據(jù),如果資料方差相等,且服從正態(tài)分布,就可以用t檢驗(yàn)比較如果此假定不成立或不能確定是否成立,就應(yīng)采用秩和檢驗(yàn)來(lái)分析兩樣本是否來(lái)自同一總體。例兩獨(dú)立樣本差別的秩和檢驗(yàn)對(duì)10例肺癌病人和12例矽肺(硅沉著?。?期工人用X線片測(cè)量肺門(mén)橫徑右側(cè)距RD值(cm),結(jié)果見(jiàn)下表。問(wèn)肺癌病人的RD值是否高于矽肺0期工人的RD值?Page101肺癌病人矽肺0期工人RD值秩RD值秩2.7813.232.53.232.53.5044.2074.0454.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016Page102H0:兩組RD值的總體分布相同,M1=M2;H1:兩組RD值的總體分布不同,M1≠M(fèi)2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論