多元統(tǒng)計方法之二課件_第1頁
多元統(tǒng)計方法之二課件_第2頁
多元統(tǒng)計方法之二課件_第3頁
多元統(tǒng)計方法之二課件_第4頁
多元統(tǒng)計方法之二課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、判別分析與聚類分析多元統(tǒng)計方法之二主講:何仁斌實際應(yīng)用問題 1、蠓蟲的分類問題 兩種蠓蟲Af和Apf,根據(jù)它們觸角長度和翼長加以區(qū)分。假定已知類別的部分樣本數(shù)據(jù),即 9只Af蠓蟲和 6只Apf蠓蟲的數(shù)據(jù)。 若給定一只蠓蟲,如何正確地區(qū)分它屬于哪一類?已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.381.381.41.481.541.56翼長1.721.741.641.821.91.71.821.822.08Apf觸角1.141.181.21.261.281.3翼長1.781.961.862.02.01.96未知類別的三個樣本數(shù)據(jù):(1.24,1.8)、(1.28,1.84)、(1.4,

2、2.04)2、乳腺癌的診斷問題 通過某種醫(yī)學(xué)手段利用細(xì)針穿刺進(jìn)行采樣,可以確定哪些乳房腫瘤為良性(benign)哪些為惡性(malignant)。 醫(yī)學(xué)研究發(fā)現(xiàn)乳房腫瘤病灶組織的細(xì)胞核顯微圖像的10個量化特征:細(xì)胞核直徑x1,質(zhì)地x2,周長x3,面積x4,光滑度x5,緊密度x6,凹陷度x7,凹陷點數(shù)x8,對稱度x9,斷裂度x10。3、DNA序列的分類模型 假定已知兩組人工已分類的DNA序列(20個已知類別的人工制造的序列),其中序列標(biāo)號110 為A類,11-20為B類。要求我們從中提取已經(jīng)分類了的DNA序列片段的特征和構(gòu)造分類方法,并且還要衡量所用分類方法的好壞,從而構(gòu)造或選擇一種較好的分類方

3、法。測試對象是20個未標(biāo)明類別的人工序列(標(biāo)號2140)和182個自然DNA序列。例如A類: a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg;b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; 需要進(jìn)行特征提取,將字符轉(zhuǎn)換成數(shù)據(jù)。上述兩個問

4、題極其相似,都屬于分類問題。有關(guān)的分類方法有:判別分析、聚類分析、神經(jīng)網(wǎng)絡(luò)分析、粗集理論判別分析目的:對某一種研究對象的歸屬作出判斷。例如:在經(jīng)濟(jì)學(xué)中,根據(jù)人均國民收入、人均消費(fèi)水平、人均住房面積等多種指標(biāo)去判定一個國家的經(jīng)濟(jì)發(fā)展程度所屬類型(高、中、低等)。 設(shè)有k個類別G1,G2,Gk (總體),對任意樣品x,希望建立一個準(zhǔn)則能判定它屬于哪個總體? G1G2Gkx關(guān)鍵是建立什么樣的判別準(zhǔn)則,判斷x的歸屬問題。 要求建立的準(zhǔn)則在某中意義下是最優(yōu)的。例如誤判概率最小或錯判損失最小等。判別分析的統(tǒng)計模型描述待判點 1=(11,12,1p)數(shù)據(jù)結(jié)構(gòu) x1 x2 xp12n1 x1 x2 xp12n

5、2G1G2 2=(21,22,2p)待判數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與G1,G2的數(shù)據(jù)結(jié)構(gòu)一致。1、距離判別x12X=x1, x2, , xn1=a1,an, 2=b1,bnd2(x,G1)=(x-1)1-1(x-1)d2(x,G2)=(x-2)2-1(x-2)其中1,2分別為協(xié)方差矩陣注意:正態(tài)性假定馬氏距離判別規(guī)則如下: 當(dāng)w(x)0時, 則 xG2 當(dāng)w(x)0 n=2;else n=1;endnplot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*) 這是蠓蟲分類的算例mcfl.m 當(dāng)判別準(zhǔn)則提出后,還應(yīng)該研究其優(yōu)良性。這里我們主要考慮誤判概率。 注

6、意: 1,2 ,1,2往往是未知的,它們可以用各總體的訓(xùn)練樣本作估計。判別準(zhǔn)則的評價判別情況分析在正態(tài)性的假定下,誤判概率為圖中陰影部分的面積。如何計算?閾值閾值點的選擇極為重要。注意:如果兩個總體靠得很近,則無論用何種辦法,誤判的概率都很大。誤判率的交叉確認(rèn)估計1)從總體G1的容量為n1的訓(xùn)練樣本中,剔除其中一個樣品,用剩余的n1-1的訓(xùn)練樣本和總體G2的n2個訓(xùn)練樣本一起建立判別函數(shù); 2)用建立的判別函數(shù)對刪除的樣本作判別;3)重復(fù)以上步驟,直到n1個訓(xùn)練樣本依次被剔除,又進(jìn)行判別,其誤判樣品個數(shù)記為n12*。4)對總體G2的訓(xùn)練樣本重復(fù)1)2)3),其誤判樣品個數(shù)為n21*。2、Fis

7、her判別判別思想: 通過將多維數(shù)據(jù)投影到某個方向上。投影的原則是將總體與總體之間盡可能分開,再選擇合適的判別規(guī)則,將待判的樣品進(jìn)行分類判別。Fisher判別方法的圖形解釋蠓蟲分類的散點圖mAfApf*y=0.5448 x1-0.5070 x2Fisher判別方法概述G1, 1,1G2, 2,2 欲尋找線性函數(shù) y = ax, 使得來自兩個總體的數(shù)據(jù)間的距離大,而來自同一個總體數(shù)據(jù)間的變異小??梢宰C明:a=(1- 2) -1, 其中1= 2= Af=1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56; 1.72,1.74,1.64,1.82,1.90,1.7

8、,1.82,1.82,2.08;Apf=1.14,1.18,1.2,1.26,1.28,1.3; 1.78,1.96,1.86,2.0,2.0,1.96;mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf); xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)w=1.24 1.28 1.4;1.8

9、,1.84,2.04;y=a*wplot(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);計算結(jié)果:m = -0.2267y = -0.2371 -0.2356 -0.2716AfApf方法概述 系統(tǒng)聚類法 動態(tài)聚類法 圖論聚類法 模糊聚類法 有序聚類法2、對指標(biāo)進(jìn)行聚類 對指標(biāo)之間的“靠近程度往往用相似系數(shù)來刻畫。Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster 從連接輸出(linkage)中創(chuàng)建聚類clusterdata 從數(shù)據(jù)集合(x)中創(chuàng)建聚類dendrogram 畫系統(tǒng)樹狀圖linkage 連接數(shù)據(jù)集中的目標(biāo)為二元群的層次

10、樹pdist 計算數(shù)據(jù)集合中兩兩元素間的距離(向量)squareform 將距離的輸出向量形式定格為矩陣形式zscore 對數(shù)據(jù)矩陣 X 進(jìn)行標(biāo)準(zhǔn)化處理 1、T = clusterdata(X, cutoff) 其中X為數(shù)據(jù)矩陣,cutoff是創(chuàng)建聚類的臨界值。即表示欲分成幾類。以上語句等價與以下幾句命令: Y=pdist(X,euclid) Z=linkage(Y,single) T=cluster(Z,cutoff)以上三組命令更加靈活,可以自由選擇各種方法!各種命令解釋2、T = cluster(Z, cutoff) 從逐級聚類樹中構(gòu)造聚類,其中Z是由語句likage產(chǎn)生的(n-1)3階

11、矩陣,cutoff是創(chuàng)建聚類的臨界值。3、 Z = linkage(Y) Z = linkage(Y, method) 創(chuàng)建逐級聚類樹,其中Y是由語句pdist產(chǎn)生的n(n-1)/2 階向量,method表示用何方法,默認(rèn)值是歐氏距離(single)。有complete最長距離法;average類平均距離;centroid重心法 ;ward遞增平方和等。 4、 Y = pdist(X) Y = pdist(X, metric) 計算數(shù)據(jù)集X中兩兩元素間的距離, metric表示使用特定的方法,有歐氏距離euclid 、標(biāo)準(zhǔn)歐氏距離SEuclid 、馬氏距離mahal、明可夫斯基距離Minkow

12、ski 等5、 H = dendrogram(Z) H = dendrogram(Z, p) 由likage產(chǎn)生的數(shù)據(jù)矩陣z畫聚類樹狀圖。P是結(jié)點數(shù),默認(rèn)值是30。X=7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29; 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87; 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76; 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35; 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81;BX=zscore(X); % 標(biāo)準(zhǔn)化數(shù)據(jù)矩陣Y=pdist(X) % 用歐氏距離計算兩兩之間的距離D=squareform(Y) % 歐氏距離矩陣Z = linkage(Y) % 最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論