判別和聚類分析課件_第1頁
判別和聚類分析課件_第2頁
判別和聚類分析課件_第3頁
判別和聚類分析課件_第4頁
判別和聚類分析課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

判別分析與聚類分析多元統(tǒng)計方法之二主講:何仁斌判別分析與聚類分析多元統(tǒng)計方法之二主講:何仁斌實際應用問題1、蠓蟲的分類問題

兩種蠓蟲——Af和Apf,根據(jù)它們觸角長度和翼長加以區(qū)分。假定已知類別的部分樣本數(shù)據(jù),即9只Af蠓蟲和6只Apf蠓蟲的數(shù)據(jù)。若給定一只蠓蟲,如何正確地區(qū)分它屬于哪一類?實際應用問題1、蠓蟲的分類問題兩種蠓蟲——Af和A已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.381.381.41.481.541.56翼長1.721.741.641.821.91.71.821.822.08Apf觸角1.141.181.21.261.281.3翼長1.781.961.862.02.01.96未知類別的三個樣本數(shù)據(jù):(1.24,1.8)、(1.28,1.84)、(1.4,2.04)已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.3812、乳腺癌的診斷問題

通過某種醫(yī)學手段——利用細針穿刺進行采樣,可以確定哪些乳房腫瘤為良性(benign)哪些為惡性(malignant)。醫(yī)學研究發(fā)現(xiàn)乳房腫瘤病灶組織的細胞核顯微圖像的10個量化特征:細胞核直徑x1,質地x2,周長x3,面積x4,光滑度x5,緊密度x6,凹陷度x7,凹陷點數(shù)x8,對稱度x9,斷裂度x10。2、乳腺癌的診斷問題通過某種醫(yī)學手段——利用細針穿2、乳腺癌的診斷問題

現(xiàn)需要根據(jù)已獲得的實驗數(shù)據(jù)建立起一種診斷乳房腫瘤是良性還是惡性的方法。假設已經確診了500個病例,利用這組數(shù)據(jù)建立一種分類模型,由此診斷另外69名已做穿刺采樣的患者。2、乳腺癌的診斷問題現(xiàn)需要根據(jù)已獲得的實驗數(shù)據(jù)建立3、DNA序列的分類模型

假定已知兩組人工已分類的DNA序列(20個已知類別的人工制造的序列),其中序列標號1—10為A類,11-20為B類。要求我們從中提取已經分類了的DNA序列片段的特征和構造分類方法,并且還要衡量所用分類方法的好壞,從而構造或選擇一種較好的分類方法。測試對象是20個未標明類別的人工序列(標號21—40)和182個自然DNA序列。例如A類:3、DNA序列的分類模型假定已知兩組人工已a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……

需要進行特征提取,將字符轉換成數(shù)據(jù)。上述兩個問題極其相似,都屬于分類問題。有關的分類方法有:判別分析、聚類分析、神經網絡分析、粗集理論……a1='aggcacggaaaaacgggaataacgga方法概述判別分析主成分分析因子分析聚類分析現(xiàn)代統(tǒng)計分析方法與應用方法概述判別分析現(xiàn)代統(tǒng)計分析方法與應用判別分析目的:對某一種研究對象的歸屬作出判斷。例如:在經濟學中,根據(jù)人均國民收入、人均消費水平、人均住房面積等多種指標去判定一個國家的經濟發(fā)展程度所屬類型(高、中、低等)。判別分析目的:對某一種研究對象的歸屬作出判斷。例如:在經濟學

設有k個類別G1,G2,…,Gk(總體),對任意樣品x,希望建立一個準則能判定它屬于哪個總體?G1G2Gkx關鍵是建立什么樣的判別準則,判斷x的歸屬問題。要求建立的準則在某中意義下是最優(yōu)的。例如誤判概率最小或錯判損失最小等。判別分析的統(tǒng)計模型描述待判點設有k個類別G1,G2,…,Gk(總體),μ1=(μ11,μ12,…,μ1p)數(shù)據(jù)結構x1x2…xp12∶n1x1x2…xp12∶n2G1G2μ2=(μ21,μ22,…,μ2p)待判數(shù)據(jù)的數(shù)據(jù)結構與G1,G2的數(shù)據(jù)結構一致。μ1=(μ11,μ12,…,μ1p)數(shù)據(jù)結構x11、距離判別xμ1μ2X={x1,x2,…,xp}μ1={a1,…,ap},μ2={b1,…,bp}d2(x,G1)=(x-μ1)’∑1-1(x-μ1)d2(x,G2)=(x-μ2)’∑2-1(x-μ2)其中∑1,∑2分別為協(xié)方差矩陣注意:正態(tài)性假定馬氏距離1、距離判別xμ1μ2X={x1,x2,…,xp}注意判別規(guī)則如下:①當w(x)>0時,則x∈G2

②當w(x)<0時,則x∈G1

③當w(x)=0時,則x待判(線性判別法)假設∑1=∑2=∑,可以證明d2(x,G1)-d2(x,G2)=-2(x-(μ1+μ2)/2)’∑-1(μ1-μ2)記為w(x),顯然w(x)是x的線性函數(shù)。一般地,判別規(guī)則如下:假設∑1=∑2=∑,可以證明一般地,x=[1.24,1.8];M1=[1.241.361.381.381.381.41.481.541.56;1.721.741.641.821.91.71.821.822.08];M2=[1.141.181.21.261.281.3;1.78 1.961.862.02.01.96];G1=M1';G2=M2';u1=mean(G1);u2=mean(G2);S1=cov(G1);S2=cov(G2);S=(9*S1+6*S2)/15;NS=inv(S);W=-2*(x-(u1+u2)/2)*NS*(u1-u2)';ifW>0n=2;elsen=1;endn%n=2plot(G1(:,1),G1(:,2),'*',G2(:,1),G2(:,2),'*',x(1),x(2),'*')這是蠓蟲分類的算例mcfl.mx=[1.24,1.8];這是蠓蟲分類的算例mcfl.mmcfl.mmcfl.m

當判別準則提出后,還應該研究其優(yōu)良性。這里我們主要考慮誤判概率。

注意:μ1,μ2,∑1,∑2往往是未知的,它們可以用各總體的訓練樣本作估計。判別準則的評價當判別準則提出后,還應該研究其優(yōu)良性。這里我們判別情況分析在正態(tài)性的假定下,誤判概率為圖中陰影部分的面積。如何計算?閾值閾值點的選擇極為重要。注意:如果兩個總體靠得很近,則無論用何種辦法,誤判的概率都很大。判別情況分析在正態(tài)性的假定下,誤判概率為圖中陰影部分的面積。誤判率回代估計法

設G1,G2為兩個總體,x(1),x(2)分別是來自兩個總體的樣本,其樣本容量分別是n1,n2。以全體訓練樣本,逐個代入已建立的判別準則中判別其歸屬,這個過程稱為回判?;嘏薪Y果如下表:其中n12表示屬于G1的樣品誤判為G2的個數(shù),則總的誤判個數(shù)為n12+n21。誤判率回代估計:

回判情況實際歸類G1G2G1G2n11

n12n21n22n1n2頻率誤判率回代估計法設G1,G2為兩個總體,x(誤判率的交叉確認估計1)從總體G1的容量為n1的訓練樣本中,剔除其中一個樣品,用剩余的n1-1的訓練樣本和總體G2的n2個訓練樣本一起建立判別函數(shù);2)用建立的判別函數(shù)對刪除的樣本作判別;3)重復以上步驟,直到n1個訓練樣本依次被剔除,又進行判別,其誤判樣品個數(shù)記為n12*。4)對總體G2的訓練樣本重復1)2)3),其誤判樣品個數(shù)為n21*。誤判率的交叉確認估計1)從總體G1的容量為n1的訓練樣本中,2、Fisher判別判別思想:通過將多維數(shù)據(jù)投影到某個方向上。投影的原則是將總體與總體之間盡可能分開,再選擇合適的判別規(guī)則,將待判的樣品進行分類判別。2、Fisher判別判別思想:Fisher判別方法的圖形解釋蠓蟲分類的散點圖mAfApf******y=0.5448x1-0.5070x2Fisher判別方法的圖形解釋蠓蟲分類的散點圖mAfApf*Fisher判別方法概述G1,μ1,∑1G2,μ2,∑2

欲尋找線性函數(shù)

y=a’x,使得來自兩個總體的數(shù)據(jù)間的距離大,而來自同一個總體數(shù)據(jù)間的變異小??梢宰C明:a=(μ1-μ2)’∑-1,其中∑1=∑2=∑Fisher判別方法概述G1,μ1,∑1G2,μ2,∑2Af=[1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56;1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08]';Apf=[1.14,1.18,1.2,1.26,1.28,1.3;1.78,1.96,1.86,2.0,2.0,1.96]';mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf);xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)'w=[1.241.281.4;1.8,1.84,2.04];y=a*wplot(Af(:,1),Af(:,2),'o',Apf(:,1),Apf(:,2),'*',w(1,:),w(2,:),'*');y1=a*Af’,y2=a*Apf計算結果:m=-0.2267y=-0.2371-0.2356-0.2716%判別屬于Apf類Af=[1.24,1.36,1.38,1.38,1.38,1AfApfAfApf聚類分析基本概念

聚類分析(ClusterAnalysis)是研究“物以類聚”的一種方法。根據(jù)一批樣品的多個觀測指標,具體找出能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù),將相似程度較大的樣品(指標)聚合為一類。聚類分析基本概念聚類分析(ClusterAn方法概述

系統(tǒng)聚類法動態(tài)聚類法圖論聚類法模糊聚類法有序聚類法√方法概述系統(tǒng)聚類法√2、對指標進行聚類對指標之間的“靠近‘程度往往用相似系數(shù)來刻畫。2、對指標進行聚類系統(tǒng)聚類法(HierarchicalClustering)的計算步驟:1)計算n個樣品兩兩間的距離{dij},記D2)構造n個類,每個類只包含一個樣品;3)合并距離最近的兩類為一新類;4)計算新類與當前各類的距離;若類的個數(shù)等于1,轉到5);否則回3);5)畫聚類圖;6)決定類的個數(shù)和類;系統(tǒng)聚類法(HierarchicalClustering)Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster從連接輸出(linkage)中創(chuàng)建聚類clusterdata從數(shù)據(jù)集合(x)中創(chuàng)建聚類dendrogram畫系統(tǒng)樹狀圖linkage

連接數(shù)據(jù)集中的目標為二元群的層次樹pdist

計算數(shù)據(jù)集合中兩兩元素間的距離(向量)squareform將距離的輸出向量形式定格為矩陣形式zscore對數(shù)據(jù)矩陣X進行標準化處理Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster1、T=clusterdata(X,cutoff)

其中X為數(shù)據(jù)矩陣,cutoff是創(chuàng)建聚類的臨界值。即表示欲分成幾類。以上語句等價與以下幾句命令:

Y=pdist(X,’euclid’)Z=linkage(Y,’single’)T=cluster(Z,cutoff)以上三組命令更加靈活,可以自由選擇各種方法!各種命令解釋1、T=clusterdata(X,cutoff)各種2、T=cluster(Z,cutoff)

從逐級聚類樹中構造聚類,其中Z是由語句likage產生的(n-1)×3階矩陣,cutoff是創(chuàng)建聚類的臨界值。3、Z=linkage(Y)Z=linkage(Y,'method')

創(chuàng)建逐級聚類樹,其中Y是由語句pdist產生的n(n-1)/2階向量,’method’表示用何方法,默認值是歐氏距離(single)。有’complete’——最長距離法;‘average’——類平均距離;‘centroid’——重心法;‘ward‘——遞增平方和等。

2、T=cluster(Z,cutoff)3、Z4、Y=pdist(X)Y=pdist(X,'metric')

計算數(shù)據(jù)集X中兩兩元素間的距離,‘metric’表示使用特定的方法,有歐氏距離‘euclid’

、標準歐氏距離‘SEuclid’

、馬氏距離‘mahal’、明可夫斯基距離'Minkowski‘

等5、H=dendrogram(Z)H=dendrogram(Z,p)

由likage產生的數(shù)據(jù)矩陣z畫聚類樹狀圖。P是結點數(shù),默認值是30。4、Y=pdist(X)5、H=dendrogX=[7.9039.778.4912.9419.2711.052.0413.29;7.6850.3711.3513.319.2514.592.7514.87;9.4227.938.208.1416.179.421.559.76;9.1627.989.019.3215.999.101.8211.35;10.0628.6410.5210.0516.188.391.9610.81];Y=pdist(X)%用歐氏距離計算兩兩之間的距離D=squareform(Y)%歐氏距離矩陣Z=linkage(Y)%最短距離法T=cluster(Z,3)%等價于{T=clusterdata(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論