判別和聚類分析課件

上傳人：文*** IP屬地：貴州上傳時間：2023-07-31 格式：PPT 頁數(shù)：35 大小：229.92KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

判別分析與聚類分析多元統(tǒng)計方法之二主講：何仁斌判別分析與聚類分析多元統(tǒng)計方法之二主講：何仁斌實際應(yīng)用問題1、蠓蟲的分類問題

兩種蠓蟲——Af和Apf，根據(jù)它們觸角長度和翼長加以區(qū)分。假定已知類別的部分樣本數(shù)據(jù)，即9只Af蠓蟲和6只Apf蠓蟲的數(shù)據(jù)。若給定一只蠓蟲，如何正確地區(qū)分它屬于哪一類？實際應(yīng)用問題1、蠓蟲的分類問題兩種蠓蟲——Af和A已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.381.381.41.481.541.56翼長1.721.741.641.821.91.71.821.822.08Apf觸角1.141.181.21.261.281.3翼長1.781.961.862.02.01.96未知類別的三個樣本數(shù)據(jù)：（1.24，1.8）、（1.28，1.84）、（1.4，2.04）已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.3812、乳腺癌的診斷問題

通過某種醫(yī)學(xué)手段——利用細(xì)針穿刺進行采樣，可以確定哪些乳房腫瘤為良性（benign）哪些為惡性（malignant）。醫(yī)學(xué)研究發(fā)現(xiàn)乳房腫瘤病灶組織的細(xì)胞核顯微圖像的10個量化特征：細(xì)胞核直徑x1,質(zhì)地x2,周長x3,面積x4,光滑度x5,緊密度x6,凹陷度x7,凹陷點數(shù)x8,對稱度x9,斷裂度x10。2、乳腺癌的診斷問題通過某種醫(yī)學(xué)手段——利用細(xì)針穿2、乳腺癌的診斷問題

現(xiàn)需要根據(jù)已獲得的實驗數(shù)據(jù)建立起一種診斷乳房腫瘤是良性還是惡性的方法。假設(shè)已經(jīng)確診了500個病例，利用這組數(shù)據(jù)建立一種分類模型，由此診斷另外69名已做穿刺采樣的患者。2、乳腺癌的診斷問題現(xiàn)需要根據(jù)已獲得的實驗數(shù)據(jù)建立3、DNA序列的分類模型

假定已知兩組人工已分類的DNA序列（20個已知類別的人工制造的序列），其中序列標(biāo)號1—10為A類，11-20為B類。要求我們從中提取已經(jīng)分類了的DNA序列片段的特征和構(gòu)造分類方法，并且還要衡量所用分類方法的好壞，從而構(gòu)造或選擇一種較好的分類方法。測試對象是20個未標(biāo)明類別的人工序列（標(biāo)號21—40）和182個自然DNA序列。例如A類：3、DNA序列的分類模型假定已知兩組人工已a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……

需要進行特征提取，將字符轉(zhuǎn)換成數(shù)據(jù)。上述兩個問題極其相似，都屬于分類問題。有關(guān)的分類方法有：判別分析、聚類分析、神經(jīng)網(wǎng)絡(luò)分析、粗集理論……a1='aggcacggaaaaacgggaataacgga方法概述判別分析主成分分析因子分析聚類分析現(xiàn)代統(tǒng)計分析方法與應(yīng)用方法概述判別分析現(xiàn)代統(tǒng)計分析方法與應(yīng)用判別分析目的：對某一種研究對象的歸屬作出判斷。例如：在經(jīng)濟學(xué)中，根據(jù)人均國民收入、人均消費水平、人均住房面積等多種指標(biāo)去判定一個國家的經(jīng)濟發(fā)展程度所屬類型（高、中、低等）。判別分析目的：對某一種研究對象的歸屬作出判斷。例如：在經(jīng)濟學(xué)

設(shè)有k個類別G1，G2，…，Gk(總體)，對任意樣品x，希望建立一個準(zhǔn)則能判定它屬于哪個總體？G1G2Gkx關(guān)鍵是建立什么樣的判別準(zhǔn)則，判斷x的歸屬問題。要求建立的準(zhǔn)則在某中意義下是最優(yōu)的。例如誤判概率最小或錯判損失最小等。判別分析的統(tǒng)計模型描述待判點設(shè)有k個類別G1，G2，…，Gk(總體)，μ1=（μ11,μ12,…,μ1p)數(shù)據(jù)結(jié)構(gòu)x1x2…xp12∶n1x1x2…xp12∶n2G1G2μ2=（μ21,μ22,…,μ2p)待判數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與G1，G2的數(shù)據(jù)結(jié)構(gòu)一致。μ1=（μ11,μ12,…,μ1p)數(shù)據(jù)結(jié)構(gòu)x11、距離判別xμ1μ2X={x1,x2,…,xp}μ1={a1,…,ap},μ2={b1,…,bp}d2(x,G1)=(x-μ1)’∑1-1(x-μ1)d2(x,G2)=(x-μ2)’∑2-1(x-μ2)其中∑1，∑2分別為協(xié)方差矩陣注意：正態(tài)性假定馬氏距離1、距離判別xμ1μ2X={x1,x2,…,xp}注意判別規(guī)則如下：①當(dāng)w(x)>0時，則x∈G2

②當(dāng)w(x)<0時，則x∈G1

③當(dāng)w(x)=0時，則x待判（線性判別法）假設(shè)∑1=∑2=∑，可以證明d2(x,G1)-d2(x,G2)=-2(x-(μ1+μ2)/2)’∑-1(μ1-μ2)記為w(x)，顯然w(x)是x的線性函數(shù)。一般地，判別規(guī)則如下：假設(shè)∑1=∑2=∑，可以證明一般地，x=[1.24,1.8];M1=[1.241.361.381.381.381.41.481.541.56;1.721.741.641.821.91.71.821.822.08];M2=[1.141.181.21.261.281.3;1.78 1.961.862.02.01.96];G1=M1';G2=M2';u1=mean(G1);u2=mean(G2);S1=cov(G1);S2=cov(G2);S=(9*S1+6*S2)/15;NS=inv(S);W=-2*(x-(u1+u2)/2)*NS*(u1-u2)';ifW>0n=2;elsen=1;endn%n=2plot(G1(:,1),G1(:,2),'*',G2(:,1),G2(:,2),'*',x(1),x(2),'*')這是蠓蟲分類的算例mcfl.mx=[1.24,1.8];這是蠓蟲分類的算例mcfl.mmcfl.mmcfl.m

當(dāng)判別準(zhǔn)則提出后，還應(yīng)該研究其優(yōu)良性。這里我們主要考慮誤判概率。

注意：μ1,μ2,∑1,∑2往往是未知的，它們可以用各總體的訓(xùn)練樣本作估計。判別準(zhǔn)則的評價當(dāng)判別準(zhǔn)則提出后，還應(yīng)該研究其優(yōu)良性。這里我們判別情況分析在正態(tài)性的假定下，誤判概率為圖中陰影部分的面積。如何計算？閾值閾值點的選擇極為重要。注意：如果兩個總體靠得很近，則無論用何種辦法，誤判的概率都很大。判別情況分析在正態(tài)性的假定下，誤判概率為圖中陰影部分的面積。誤判率回代估計法

設(shè)G1,G2為兩個總體，x(1),x(2)分別是來自兩個總體的樣本，其樣本容量分別是n1,n2。以全體訓(xùn)練樣本，逐個代入已建立的判別準(zhǔn)則中判別其歸屬，這個過程稱為回判。回判結(jié)果如下表：其中n12表示屬于G1的樣品誤判為G2的個數(shù)，則總的誤判個數(shù)為n12+n21。誤判率回代估計：

回判情況實際歸類G1G2G1G2n11

n12n21n22n1n2頻率誤判率回代估計法設(shè)G1,G2為兩個總體，x(誤判率的交叉確認(rèn)估計1）從總體G1的容量為n1的訓(xùn)練樣本中，剔除其中一個樣品,用剩余的n1-1的訓(xùn)練樣本和總體G2的n2個訓(xùn)練樣本一起建立判別函數(shù)；2）用建立的判別函數(shù)對刪除的樣本作判別；3）重復(fù)以上步驟，直到n1個訓(xùn)練樣本依次被剔除，又進行判別，其誤判樣品個數(shù)記為n12*。4）對總體G2的訓(xùn)練樣本重復(fù)1）2）3），其誤判樣品個數(shù)為n21*。誤判率的交叉確認(rèn)估計1）從總體G1的容量為n1的訓(xùn)練樣本中，2、Fisher判別判別思想：通過將多維數(shù)據(jù)投影到某個方向上。投影的原則是將總體與總體之間盡可能分開，再選擇合適的判別規(guī)則，將待判的樣品進行分類判別。2、Fisher判別判別思想：Fisher判別方法的圖形解釋蠓蟲分類的散點圖mAfApf******y=0.5448x1-0.5070x2Fisher判別方法的圖形解釋蠓蟲分類的散點圖mAfApf*Fisher判別方法概述G1,μ1，∑1G2,μ2，∑2

欲尋找線性函數(shù)

y=a’x,使得來自兩個總體的數(shù)據(jù)間的距離大，而來自同一個總體數(shù)據(jù)間的變異小?？梢宰C明：a=(μ1-μ2)’∑-1,其中∑1=∑2=∑Fisher判別方法概述G1,μ1，∑1G2,μ2，∑2Af=[1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56;1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08]';Apf=[1.14,1.18,1.2,1.26,1.28,1.3;1.78,1.96,1.86,2.0,2.0,1.96]';mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf);xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)'w=[1.241.281.4;1.8,1.84,2.04];y=a*wplot(Af(:,1),Af(:,2),'o',Apf(:,1),Apf(:,2),'*',w(1,:),w(2,:),'*');y1=a*Af’,y2=a*Apf計算結(jié)果：m=-0.2267y=-0.2371-0.2356-0.2716%判別屬于Apf類Af=[1.24,1.36,1.38,1.38,1.38,1AfApfAfApf聚類分析基本概念

聚類分析(ClusterAnalysis)是研究“物以類聚”的一種方法。根據(jù)一批樣品的多個觀測指標(biāo)，具體找出能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計量，以這些統(tǒng)計量為劃分類型的依據(jù)，將相似程度較大的樣品（指標(biāo)）聚合為一類。聚類分析基本概念聚類分析(ClusterAn方法概述

系統(tǒng)聚類法動態(tài)聚類法圖論聚類法模糊聚類法有序聚類法√方法概述系統(tǒng)聚類法√2、對指標(biāo)進行聚類對指標(biāo)之間的“靠近‘程度往往用相似系數(shù)來刻畫。2、對指標(biāo)進行聚類系統(tǒng)聚類法（HierarchicalClustering)的計算步驟：1）計算n個樣品兩兩間的距離{dij}，記D2）構(gòu)造n個類，每個類只包含一個樣品；3）合并距離最近的兩類為一新類；4）計算新類與當(dāng)前各類的距離；若類的個數(shù)等于1，轉(zhuǎn)到5）；否則回3）；5）畫聚類圖；6）決定類的個數(shù)和類；系統(tǒng)聚類法（HierarchicalClustering)Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster從連接輸出(linkage)中創(chuàng)建聚類clusterdata從數(shù)據(jù)集合(x)中創(chuàng)建聚類dendrogram畫系統(tǒng)樹狀圖linkage

連接數(shù)據(jù)集中的目標(biāo)為二元群的層次樹pdist

計算數(shù)據(jù)集合中兩兩元素間的距離(向量)squareform將距離的輸出向量形式定格為矩陣形式zscore對數(shù)據(jù)矩陣X進行標(biāo)準(zhǔn)化處理Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster1、T=clusterdata(X,cutoff)

其中X為數(shù)據(jù)矩陣，cutoff是創(chuàng)建聚類的臨界值。即表示欲分成幾類。以上語句等價與以下幾句命令：

Y=pdist(X,’euclid’)Z=linkage(Y,’single’)T=cluster(Z,cutoff)以上三組命令更加靈活，可以自由選擇各種方法！各種命令解釋1、T=clusterdata(X,cutoff)各種2、T=cluster(Z,cutoff)

從逐級聚類樹中構(gòu)造聚類，其中Z是由語句likage產(chǎn)生的(n-1)×3階矩陣，cutoff是創(chuàng)建聚類的臨界值。3、Z=linkage(Y)Z=linkage(Y,'method')

創(chuàng)建逐級聚類樹，其中Y是由語句pdist產(chǎn)生的n(n-1)/2階向量，’method’表示用何方法，默認(rèn)值是歐氏距離（single)。有’complete’——最長距離法；‘a(chǎn)verage’——類平均距離；‘centroid’——重心法；‘ward‘——遞增平方和等。

2、T=cluster(Z,cutoff)3、Z4、Y=pdist(X)Y=pdist(X,'metric')

計算數(shù)據(jù)集X中兩兩元素間的距離，‘metric’表示使用特定的方法，有歐氏距離‘euclid’

、標(biāo)準(zhǔn)歐氏距離‘SEuclid’

、馬氏距離‘mahal’、明可夫斯基距離'Minkowski‘

等5、H=dendrogram(Z)H=dendrogram(Z,p)

由likage產(chǎn)生的數(shù)據(jù)矩陣z畫聚類樹狀圖。P是結(jié)點數(shù)，默認(rèn)值是30。4、Y=pdist(X)5、H=dendrogX=[7.9039.778.4912.9419.2711.052.0413.29;7.6850.3711.3513.319.2514.592.7514.87;9.4227.938.208.1416.179.421.559.76;9.1627.989.019.3215.999.101.8211.35;10.0628.6410.5210.0516.188.391.9610.81];Y=pdist(X)%用歐氏距離計算兩兩之間的距離D=squareform(Y)%歐氏距離矩陣Z=linkage(Y)%最短距離法T=cluster(Z,3)%等價于{T=clusterdata(

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

判別和聚類分析課件

文檔簡介

溫馨提示

最新文檔

評論

判別和聚類分析課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔