ch18-20判別 聚類 主成分 因子_第1頁
ch18-20判別 聚類 主成分 因子_第2頁
ch18-20判別 聚類 主成分 因子_第3頁
ch18-20判別 聚類 主成分 因子_第4頁
ch18-20判別 聚類 主成分 因子_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》ch18~20:判別分析聚類分析主成分分析與因子分析2判別分析Discriminantanalysis3知識(shí)發(fā)現(xiàn)/數(shù)據(jù)挖掘DataMining4Question

如何根據(jù)某病人的多種癥狀(體溫、白血球、惡心、嘔吐、腹部壓疼感等)判別此人患何種類型闌尾炎(急性、慢性、有無穿孔等)?5判別分析的基本概念Robert.Ledley

根據(jù)判別對(duì)象若干觀測(cè)指標(biāo)的結(jié)果判定其屬于哪一類。例:對(duì)急腹癥患者,臨床醫(yī)師需要根據(jù)主訴、體征及檢查結(jié)果判斷患者患的是闌尾炎、腸梗阻還是別的疾病。若診斷為闌尾炎,則又需要診斷出是什么類型的,是否有并發(fā)腹膜炎、是否穿孔等,以便確定治療方案。

臨床輔助鑒別診斷計(jì)量診斷學(xué)6一、判別分析方法RonaldAylmerFisherFisher線性判別FisherLinearDiscriminant,F(xiàn)LDThomasBayesBayes判別BayesDiscriminant訓(xùn)練樣本預(yù)測(cè)分類判別函數(shù)支持向量機(jī)(SupportVectorMachines,SVMs)最鄰近分類法(k-NearestNeighbors,kNNs)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANNs)……7Fisher線性判別訓(xùn)練樣本判別函數(shù)Step1預(yù)測(cè)分類Step2Fisher準(zhǔn)則Ci:判別系數(shù)類間差異盡可能大類內(nèi)差異盡可能小判別規(guī)則

又稱為典則判別(canonicaldiscriminant),主要用于兩類判別。判別規(guī)則例18-1收集了22例某病患者的三個(gè)指標(biāo)(X1,X2,X3)的資料列于表18-1,其中前期患者(A類)12例,晚期患者(B)類10例。試作判別分析。9SPSS判別分析:Analysis—>Classify—>Discriminant…指標(biāo)變量分組變量10SPSS軟件結(jié)果—判別函數(shù)11預(yù)測(cè)分類SPSS軟件結(jié)果—預(yù)測(cè)分類12一般,誤判概率小于0.1或0.2才有應(yīng)用價(jià)值。1.回顧性(夸大判別效果)用建立判別函數(shù)的樣本回代,進(jìn)行判別。2.前瞻性(比較客觀,但未充分利用樣本信息)樣本量的85%作為訓(xùn)練樣本,15%作為驗(yàn)證樣本。誤判概率:P=P(A|B)+P(B|A)3.刀切法Jackknife;交叉驗(yàn)證

crossvalidation(客觀,充分利用樣本信息)(1)順序剔除一個(gè)樣品,用余下N-1個(gè)樣品建立判別函數(shù);(2)用判別函數(shù)判斷所剔除的樣品所屬的類別;(3)重復(fù)上兩步N次。二、判別效果的評(píng)價(jià)13誤判率=1-81.8%=18.2%誤判率=1-72.7%=27.3%SPSS軟件結(jié)果—分類效果評(píng)價(jià)原始樣本回代交叉驗(yàn)證(刀切法)14判別函數(shù)的應(yīng)用輸入新患者的指標(biāo)觀測(cè)值,分類變量為“.”預(yù)測(cè)分類151.訓(xùn)練樣本足夠大,代表性好;原始分類正確;用于判別的觀測(cè)指標(biāo)選擇恰當(dāng)。2.各類先驗(yàn)概率(用于Bayes判別):

(1)各類構(gòu)成比(樣本量大且無選擇性偏倚)

(2)等概率:P(Yk)=1/gg為分類數(shù)等概率各類構(gòu)成比三、判別分析的注意事項(xiàng)163.判別效果評(píng)價(jià):不應(yīng)以訓(xùn)練樣本的回代得出結(jié)論。4.判別函數(shù)建立后,應(yīng)不斷積累資料,修正、完善。5.判別分析方法的選擇:(1)兩類判別:線性:Fisher判別、Bayes線性判別…

非線性:logistic判別…(2)多類判別:線性:Bayes線性判別…

非線性:logistic判別…三、判別分析的注意事項(xiàng)17logistic判別,屬于A類(如病例),屬于B類(如對(duì)照),判為A類,判為B類判別規(guī)則18例:為了在不手術(shù)的情況下推測(cè)前列腺癌淋巴結(jié)的轉(zhuǎn)移情況,某研究者收集了53例患者的資料,記錄了患者的年齡(AGE)、酸性磷酸酯酶(ACID)、X射線(X_RAY)、術(shù)前活檢病理分級(jí)(GRADE)、直腸指檢腫瘤的大小與位置(STAGE)等。后3個(gè)變量為兩分類變量,按0、1賦值,1表示陽性或較嚴(yán)重情況,0表示陰性或較輕情況。并以手術(shù)檢查結(jié)果NODES為結(jié)局變量,1表示有淋巴結(jié)轉(zhuǎn)移,0表示無淋巴結(jié)轉(zhuǎn)移。19VariablesintheEquationBS.E.WalddfSig.Exp(B)95.0%C.I.forEXP(B)LowerUpperStep1X_RAY2.182.6979.7831.0028.8612.25834.770Constant-1.170.3829.4031.002.310Step2bX_RAY2.119.7478.0541.0058.3261.92635.989STAGE1.588.7005.1481.0234.8951.24119.304Constant-2.045.61011.2361.001.129該研究者用SPSS軟件進(jìn)行了Logistic逐步回歸分析(

入選=

剔除=0.05),得到結(jié)果如下。20判別結(jié)果:該病人發(fā)生了淋巴結(jié)轉(zhuǎn)移?,F(xiàn)有一位50歲的前列腺癌病人,其X射線檢查為陽性(X_RAY=1),直腸指檢腫瘤的大小與位置較嚴(yán)重(STAGE=1),試根據(jù)研究結(jié)果判斷該病人是否發(fā)生淋巴結(jié)轉(zhuǎn)移。21Question形狀?形狀+顏色?22聚類分析Clusteringanalysis23Question隨機(jī)抽取200名患有抑郁癥的病人,按照測(cè)量得到的多項(xiàng)指標(biāo),可以將他們分成幾種類型?24判別分析與聚類分析判別分析supervisedanalysis聚類分析unsupervisedanalysis聚類分析:不知道應(yīng)分多少類的情況下,進(jìn)行探索性分析,對(duì)觀察對(duì)象依據(jù)某些數(shù)量特征適當(dāng)分類。251.指標(biāo)聚類(R型聚類):將m個(gè)指標(biāo),即變量(variables)歸類,目的是將性質(zhì)相近的變量聚為同一個(gè)類,從中找出代表變量,從而減少變量個(gè)數(shù),達(dá)到降維的效果。常用于變量數(shù)目比較多、且相關(guān)性比較強(qiáng)的情況。2.樣品聚類(Q型聚類):將n個(gè)樣品,即觀測(cè)記錄(cases)歸類,目的是找出樣品間的共性,把性質(zhì)相似的樣品分在同一個(gè)類,性質(zhì)差異較大的樣品分在不同的類。聚類分析的分類目的261、凝聚法:系統(tǒng)聚類(Hierarchicalclustering)優(yōu)點(diǎn):易用,結(jié)果可視化。2、分裂法:

K均值聚類(K-meansclustering)自組織圖(SOM,Self-organizingmaps)模糊聚類(FuzzyClustering)聚類分析的常用方法27系統(tǒng)聚類Hierarchicalclustering1.開始時(shí),各樣品或指標(biāo)單獨(dú)為一類;2.計(jì)算各類間的相似性;3.將相似性最大的兩類合并成新類;4.計(jì)算新類與其余各類間的相似性;5.重復(fù)第3、4步,直至全部樣品或指標(biāo)并為一類。281.指標(biāo)聚類:簡(jiǎn)單相關(guān)系數(shù)的絕對(duì)值(定量):列聯(lián)系數(shù)(定性):R×C表Pearson

2,0<C<1相似性的衡量——相似系數(shù)(similaritycoefficient)292.樣品聚類:將n例樣品看成空間中的n個(gè)點(diǎn),用兩點(diǎn)間距離定義相似系數(shù),距離越小表明兩樣品間相似程度越高。

(1)歐氏距離(Euclideandistance)(2)絕對(duì)值距離或曼哈頓距離(Manhattandistance)(3)明考夫斯基距離(Minkowskidistance)(4)馬氏距離(Mahalanobisdistance)30系統(tǒng)聚類Hierarchicalclustering1.開始時(shí),各樣品或指標(biāo)單獨(dú)為一類;2.計(jì)算各類間的相似性;3.將相似性最大的兩類合并成新類;

相似性最大:相關(guān)系數(shù)最大或距離最小4.計(jì)算新類與其余各類間的相似性;5.重復(fù)第3、4步,直至全部樣品或指標(biāo)并為一類。31類間相似系數(shù)的計(jì)算LinkageRules最大相似系數(shù)法:適用于非常離散的資料(Singlelinkage/nearestneighbor)A類B類C類32類間相似系數(shù)的計(jì)算LinkageRules最小相似系數(shù)法:受異常值影響大(Completelinkage/furthestneighbor)A類B類C類33類間相似系數(shù)的計(jì)算LinkageRules樣品聚類專用:類平均法(Between-groupslinkage)

其中,np、nq分別為第p類、第q類的樣品數(shù)量。

重心法(Centroidclustering)離差平方和法(Ward‘smethod)系統(tǒng)聚類示意圖35例19-3調(diào)查了27名瀝青工和焦?fàn)t工的年齡、工齡、吸煙情況,檢測(cè)了血清P21、P53、外周血淋巴細(xì)胞SCE、染色體畸變數(shù)和染色體畸變細(xì)胞數(shù)。見表19-3,其中P21倍數(shù)=P21檢測(cè)值/對(duì)照組P21均數(shù)。試用系統(tǒng)聚類法將27名工人歸類。3637SPSS系統(tǒng)聚類:Analysis—>Classify—>Hierarchicalcluster…觀測(cè)指標(biāo)聚類目的選擇樣品38SPSS定義相似系數(shù)與類間相似系數(shù)的計(jì)算方法39SPSS類平均法歐氏距離40SPSS軟件結(jié)果—系統(tǒng)聚類圖結(jié)合專業(yè)研究,該類為癌癥高危人群41二、聚類分析的注意事項(xiàng)-11.相似系數(shù)及類間相似系數(shù)的定義不同,系統(tǒng)聚類結(jié)果有所差異。2.在變量較多時(shí)聚類結(jié)果的差異愈加明顯,在聚類分析前盡可能選擇有效變量,剔除無效變量(變量值變化很?。?、缺失值過多的變量(如基因表達(dá)數(shù)據(jù)缺失值>20%)。歐氏距離、類平均法(樣品聚類)、最大/最小相似系數(shù)法(指標(biāo)聚類)42二、聚類分析的注意事項(xiàng)-23.結(jié)合專業(yè)知識(shí),嘗試多種聚類方法,詳細(xì)解讀聚類圖。最大相似系數(shù)法最小相似系數(shù)法43二、聚類分析的注意事項(xiàng)-34.樣品聚類原則:類內(nèi)差異小,類間差異大。樣品聚類效果的評(píng)價(jià):?jiǎn)巫兞浚篈NOVA多變量:多元ANOVA以類別為不同的組別,類與類之間的差別應(yīng)具有統(tǒng)計(jì)學(xué)意義。44Question45如何利用這些指標(biāo)對(duì)每一兒童的生長發(fā)育情況作出正確評(píng)價(jià)?僅用單一指標(biāo):結(jié)論片面;沒有充分利用原有數(shù)據(jù)信息。利用所有指標(biāo):各指標(biāo)評(píng)價(jià)的結(jié)論可能不一致,使綜合評(píng)價(jià)困難。能否利用少數(shù)獨(dú)立的綜合指標(biāo)反映多個(gè)相關(guān)的原始指標(biāo)的信息?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論