聚類分析與判別分析_第1頁
聚類分析與判別分析_第2頁
聚類分析與判別分析_第3頁
聚類分析與判別分析_第4頁
聚類分析與判別分析_第5頁
已閱讀5頁,還剩152頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1

中心問題:分類解決方法:聚類分析——無管理的模式識別判別分析——有管理的模式識別授課思路:基本思想;用SPSS軟件解決問題。第7章聚類分析與判別分析

Clusteranalysis&DiscriminantAnalysis

聚類分析是將一群具有相關(guān)性的資料(樣本、變量)加以有意義的分類。判別分析是在已知的分類之下,選定一判別標準,將新樣本歸類。2提綱1聚類分析

1-1概述

1-1-1聚類分析的原理

1-1-2距離和相似系數(shù)

1-1-3類間距離的算法1-2系統(tǒng)聚類分析(Hierarchicalclustering)

1-2-1基本思想

1-2-2分類

1-2-3SPSS實現(xiàn)1-3k-均值聚類(

K-MeansCluster)

1-3-1基本思想

1-3-2SPSS實現(xiàn)1-4PCA與聚類分析連用實例解析2判別分析

2-1距離判別法

2-2Fisher判別法

2-3Bayes判別法

2-4逐步判別分析

2-5應(yīng)用SPSS實現(xiàn)判別分析3綜合性實例解析3

1聚類分析

1-1概述

1-1-1聚類分析的原理

定義:根據(jù)事物本身特性來研究個體分類的統(tǒng)計方法,是按照物以類聚的原則來研究的事物分類。每一種樣品都具有多種特性,或稱之為具有多種變量。聚類分析是基于多變量數(shù)據(jù),對n個樣品進行分類的一種方法,即將那些相似的樣品歸為一類,不相似的樣品分別歸到各自不容的類別中。

目的:尋找數(shù)據(jù)中潛在的自然分組結(jié)構(gòu)和感興趣的關(guān)系。4自然分組結(jié)構(gòu)Naturalgrouping

:例如:有16張牌,如何將他們分為一組一組的牌?AKQJ5分成四組:每組里花色相同,組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits6分成四組:符號相同的牌為一組AKQJ符號相同的的牌Likefacecards7分成兩組:顏色相同的牌為一組AKQJ顏色相同的配對Blackandredsuits8如何定義并度量“相似性”Similarity——

一系列度量相似性的算法AKQJ大配對和小配對Majorandminorsuits9

1-1-2距離和相似系數(shù)

——相似性的度量樣本之間距離有很多定義方式,最簡單的是歐氏距離,還有其他的距離。和距離相反但起同樣作用的概念,比如相似性等,兩點相似度越大,就相當于距離越短。10歐氏距離(Euclidean)平方歐氏距離(SquaredEuclidean)切比雪夫距離

(Chebychev)

Maxi|xi-yi|絕對距離(Block):Si|xi-yi|明考夫斯基距離(Minkowski)(1)點間距離的計算方法

向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離:11夾角余弦cosine相關(guān)系數(shù)

Pearsoncorrelation(2)相似系數(shù)

向量x=(x1,…,xp)與y=(y1,…,yp)之間的相似系數(shù):cosθ=1,說明x和y完全相似;接近1,x和y比較相似。cosθ=0,說明x和y完全不一樣;接近0,x和y差別很大。12當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s為標準偏差(標準差),則標準化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s:當觀測值大于0時,有人采用Lance和Williams的距離13兩個距離概念點間距離:每個樣本之間的距離。類間距離:

由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離。

類間距離是基于點間距離定義的:兩類之間最近點之間的距離可以作為這兩類之間的距離;兩類中最遠點之間的距離作為這兩類之間的距離;各類的重心之間的距離來作為類間距離;

……

各種點間距離和類間距離的計算可通過統(tǒng)計軟件的選項實現(xiàn)。141-1-3類間距離的算法

(1)最小距離法(singlelinkagemethod)

(nearestneighbor)極小異常值在實際中不多出現(xiàn),避免極大值的影響15最大距離法(completelinkagemethod)

(fartherstneighbor)可能被極大值扭曲,刪除這些值之后再聚類16(3)重心法(centroidhierarchicalmethod)類的重心之間的距離對異常值不敏感,結(jié)果更穩(wěn)定

17(4)類平均距離法(averagelinkagemethod)類間所有樣本點的平均距離利用了所有樣本的信息,是較好的系統(tǒng)聚類法18(5)離差平方和法(wardmethod)D2=WM-WK-WL

即對異常值很敏感;對較大的類傾向產(chǎn)生較大的距離,從而不易合并,較符合實際需要。

ClusterKClusterLClusterM19類Gp與類Gq之間的距離Dpq

(d(xi,xj)表示點xi∈Gp和xj∈Gq之間的距離)最短距離法:最長距離法:重心法:離差平方和:(Ward)類平均法:20聚類的方法系統(tǒng)聚類:事先不用確定分多少類k-均值聚類:事先要確定分多少類(快速樣本聚類)

211-2系統(tǒng)聚類分析

Hierarchicalclustering定義:對給定的數(shù)據(jù)進行層次的分解。分層聚類方法分類方式:凝聚法agglomerative:先視每個為一類,

再合并為幾大類分解法divisive:先視為一大類,再分成幾類22

1-2-1基本思想首先定義樣本之間類與類之間的距離。在各自成類的樣本中,將距離最近的兩類合并,重新計算新類與其他類間的距離,并按最小距離歸類,重復(fù)此過程,每次減少一類,直到所有的樣本成為一類為止。聚類圖23系統(tǒng)聚類:事先不用確定分多少類

系統(tǒng)聚類或分層聚類(hierarchicalcluster)。開始時,有多少點就是多少類。第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠。特點:類的個數(shù)不需事先定好需確定距離矩陣運算量大,適用于處理小樣本數(shù)據(jù)

24距離Q型聚類:主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離相似系數(shù)R型聚類:用于對變量分類,可以用變量之間的相似系數(shù)的變形如1-rij定義距離1-2-2系統(tǒng)聚類的分類25例7-1某中學(xué)10位女生的身高和體重的數(shù)值如下,請進行聚類分析。

編號12345678910身高X1/cm160163157161148150159169172162體重X2/kg4850415157594251524826{1,10}2728293031323334聚類譜系圖點間距離:歐式距離點間距離:歐式距離類間距離:最近鄰法類間距離:Within-groupslinkage類內(nèi)平均連鎖法35

聚類結(jié)果散點圖36在SPSS中選擇Analyze-Classify-HierarchicalCluster,把變量選入Variables,Cluster

-選Cases,對觀測值聚類(Q型聚類)

-選Variables,對變量聚類(R型聚類)Plots,點Dendrogram,畫出樹狀圖。

1-2-3系統(tǒng)聚類的SPSS實現(xiàn)37SPSS11.5軟件提供8種點間距離測量技術(shù):Euclideandistance:歐氏距離,適用于Q型聚類SquaredEuclideandistance,適用于Q型聚類(默認)Cosine::變量矢量的余選,適用于R型聚類Pearsoncorrelation:相關(guān)系數(shù)距離,適用于R型聚類Chebychev:Chebychev距離,即兩觀察單位間的距離為其任意變量的最大絕對差值,適用于Q型聚類Block:City-Block或Manhattan距離,即兩觀察單位間的距離為其差值的絕對值和,適用于Q型聚類Minkowski:距離是一個絕對冪的度量,即變量絕對值的第p次冪之和的平方根,p由用戶指定。Customized:距離是一個絕對冪的度量,即變量絕對值的第p次冪之和的第r次根,p和r由用戶指定。38SPSS11.5軟件提供7種聚類方法:Between-groupslinkage:類間平均連鎖法(組間連接)Within-groupslinkage:類內(nèi)平均連鎖法(默認)Nearestneighbor:最近鄰居法Furthestneighbor:最遠鄰居法Centroidclustering:重心法,應(yīng)與歐氏距離平方法一起使用Medianclustering:中間距離法,應(yīng)與歐氏距離平方法一起使用Ward’sclustering:離差平方和法(最小偏差平方和法),應(yīng)與歐氏距離平方法一起使用39應(yīng)用SPSS11.5,Analyze-classify-HierarchicalCluster(Cluster處選Cases表示觀測對象聚類,Variables表示變量聚類)Cluster-cases-點擊Statistics按鈕,選擇Agglomertionschedule(聚類進度表,顯示聚類過程的每一步合并的類或樣品\被合并的類或樣品之間的距離以及加入到一類的類水平),Proximitymatrix(各類之間的距離或相似測度值)。-點擊Plots按鈕,選擇Dendrogram輸出聚類結(jié)果的樹狀關(guān)系圖)(-點擊Method按鈕,

Clustermethod選Nearestneighbor最近鄰居法;Measureinterval選Euclideandistance歐氏距離404142434445距離矩陣ProximityMatrixThisisadissimilaritymatrixProximities:先對數(shù)據(jù)進行的預(yù)處理(標準化和計算距離等)46Stage聚類事件ClusterCombined

聚類系數(shù)Coefficients前一級聚類進程StageClusterFirstAppears后一級聚類進程NextStageCluster1Cluster2Cluster1Cluster211102.0000042372.2360083242.2360044122.2361375562.8280096893.1620077186.0834688136.08372991513.601850AgglomerationSchedule聚類進度表

凝聚過程:Coefficients為不相似系數(shù),由于是歐氏距離,小的先合并.47用系統(tǒng)聚類法進行觀測量聚類實例啤酒名 熱量 鈉含量 酒精 價格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .4720個樣本對20種啤酒進行分類,變量包括:calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、prize(價格)Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格LabelCaseBy:BeernameCluster:Case,Q聚類Display:選中Statistics,-StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix:距離矩陣Clustermembership:Singlesolution:4顯示分為4類時,各觀測量所屬的類-Plots:(Dendrogram)Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical縱向作圖)-Method:Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)-Save:ClusterMembership選Singlesolution[4])得到的有用結(jié)果:根據(jù)需要進行分類,在數(shù)據(jù)文件中的分類新變量clu4_1等用系統(tǒng)聚類法進行變量聚類變量聚類,是一種降維的方法,用于在變量眾多時尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時,損失信息很少。與進行觀測量聚類雷同,不同點在于:選擇Variable而非CaseSave選項失效,不建立新的變量變量聚類實例——上面啤酒分類問題。Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格Cluster:Variable,R聚類Statistics:ProximitymatrixPlots:DendrogramMethod:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationTransformValues:ZScore(ByVariable)得到的比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹型圖,可知calorie(熱量)和alcohol(酒精含量)的相關(guān)系數(shù)最大,首先聚為一類。從整體上看,聚為三類是比較好的結(jié)果。至于熱量和酒精含量選擇哪個作為典型指標代替原來的兩個變量,可以根據(jù)專業(yè)知識或測度的難易程度決定。51系統(tǒng)聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分;聚類的數(shù)目和結(jié)構(gòu)都沒有事先假定。521-3k-均值聚類(快速樣本聚類)

k-meanscluster/quickcluster531-3-1基本思想假定說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此迭代下去,直到達到停止迭代的要求(比如,各類最后變化不大了,或者迭代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。541-3-2K-均值聚類的SPSS實現(xiàn)k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉(zhuǎn)置。Analyze-Classify-K-MeansCluster,把變量選入Variables在NumberofClusters處選擇3(想要分的類數(shù)),Method選Iterateandclassify-Save選ClusterMembership等。k-均值聚類過程使用k均值分類法對觀測量cases進行聚類,可使用系統(tǒng)的默認選項或自己設(shè)置選項,如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3…LabelCaseBy:No.NumberofCluster:4Method選Iterateandclassify要知每個樣本究竟屬于哪一類就要用到Save選項-ClusterMembership得到的有用的結(jié)果:聚類結(jié)果形成的最后四類中心點(FinalClusterCenters)每類的觀測量數(shù)目(NumberofCasesineachCluster)每個樣本的歸屬——結(jié)果出現(xiàn)在原始數(shù)據(jù)表中56使用k-均值聚類的選擇項:類中心數(shù)據(jù)的輸入與輸出:Centers選項輸出數(shù)據(jù)選擇項:Save選項聚類方法選擇項:Method選項聚類何時停止選擇項:Iterate選項輸出統(tǒng)計量選擇項:Option選項57例7-2為研究兒童生長發(fā)育的分期,調(diào)查1253名1月至6歲兒童的身高(cm),體重(kg),胸圍(cm),坐高(cm)資料。資料劃成19個月份段,做如下整理,列于下表中。欲將兒童生長發(fā)育分為四期,試通過逐步聚類分析確定四期的起止區(qū)間。58聚類結(jié)果月份月平均增長率/%身高(cm)體重(kg)胸圍(cm)坐高(cm)1111.0350.3011.8111.27225.4719.305.207.18333.589.853.142.11442.014.171.471.58362.135.651.042.11482.061.740.171.574101.632.041.041.464121.171.600.890.764151.032.340.530.894180.691.330.480.584240.771.410.520.424300.591.250.300.144360.651.190.490.384420.510.930.160.254480.731.130.350.554540.530.820.160.344600.360.520.190.214660.521.030.300.554720.340.490.180.1659Analyze-Classify-K-MeansCluster,

把變量選入Variables,

在NumberofClusters處輸入需要聚合的組數(shù)

4

Method,選Iterateandclassify

66利用SPSS,只經(jīng)過兩次迭代(計算機選的種子還可以),即得到最后的四類的中心以及每類有多少點:67聚類要注意的問題

聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。

就分成多少類來說,也要有道理。從分層聚類的計算機結(jié)果可以得到任何可能數(shù)量的類,但是,聚類的目的是要使各類距離盡可能的遠,而類中點的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點就不是數(shù)學(xué)可以解決的了。68不穩(wěn)定的聚類方法(1)受所選擇變量的影響如果去掉或者增加一些變量,結(jié)果會很不同.因此,聚類之前一定要明確目標,選擇有意義的變量。變量之間的相關(guān)性也會影響聚類結(jié)果,因此可以先用主成分或因子分析法把眾多變量壓縮為若干個相互獨立的并包含大部分信息的指標,然后再進行聚類。69(2)輸入?yún)?shù)憑主觀導(dǎo)致難以控制聚類的質(zhì)量很多聚類算法要求輸入一定的參數(shù),如希望產(chǎn)生的類的數(shù)目,使得聚類的質(zhì)量難以控制,尤其是對于高維的,沒有先驗信息的龐大數(shù)據(jù)。首先要明確聚類的目的,就是要使各個類之間的距離盡可能遠,類中的距離盡可能近,聚類算法可以根據(jù)研究目的確定類的數(shù)目,但分類的結(jié)果要有令人信服的解釋。在實際操作中,更多的是憑經(jīng)驗來確定類的數(shù)目,測試不同類數(shù)的聚類效果,直到選擇較理想的分類。70(3)算法的選擇沒有絕對當聚類結(jié)果被用作描述或探查工具時,可以對同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。

71(4)聚類分析中權(quán)重的確定當各指標重要性不同的時候,需要根據(jù)需要調(diào)整權(quán)重。如加權(quán)歐式距離,權(quán)重可以用專家法確定。

72聚類的應(yīng)用領(lǐng)域環(huán)境化學(xué)領(lǐng)域:……生物學(xué)領(lǐng)域推導(dǎo)植物和動物的分類;對基因分類,獲得對種群的認識數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對特定的類做進一步的研究731-4PCA與聚類分析連用實例解析18種元素(15種元素)MgAlPCaVCrMnFeCoNiCuZnAsSeSrMoCdPbS1184048.76202212970.05800.789038.84107.0-2.0685.59512.610.678-15.460.1760-0.2340S2146043.06182111580.04800.292036.4472.79-1.0554.32311.440.5950-10.760.1440-0.3130S32311180.4242817430.26400.618064.07288.4-2.2946.36814.390.644-18.750.2680-0.2310S41713117.2248811740.07301.93362.88166.90.01301.8616.83136.151.366-17.650.13100.01800.2530S5144769.942425802.30.09801.93345.46138.50.07801.3556.12429.131.1280.205014.210.1570-0.4160S6218844.603575924.40.01800.635027.87113.50.62000.6914.41821.650.3890.009010.020.2680-0.3450S7177556.0126151958-0.792028.76118.7-1.3171.05345.550.2540-30.260.6260-0.4070S8173639.35297914920.00500.648034.19101.6-1.1432.82512.430.1790-23.100.2330-0.08900S91900176.30223115880.18900.537038.01239.0-0.73302.47817.090.1190-13.750.1350-0.5190S10186454.55251818550.062000.221044.27216.4-1.1037.17812.760.6910-17.610.2010-0.4090S11160931.84254216040.059000.101042.5985.80-0.84204.5039.790.4180-17.720.2690-0.2240S12164660.75218218390.039000.156033.4487.40-0.99105.91111.520.7590-18.480.1790-0.2140Thecontentsof18inorganicelementsindifferentsamples(μg/g)MgAlPCaVCrMnFeNiCuZnAsSrMoPbS1184048.76202212970.05800.789038.84107.02.0685.59512.610.67815.460.17600.2340S2146043.06182111580.04800.292036.4472.791.0554.32311.440.595010.760.14400.3130S32311180.4242817430.26400.618064.07288.42.2946.36814.390.64418.750.26800.2310S41713117.2248811740.07301.93362.88166.91.8616.83136.151.36617.650.13100.2530S5144769.942425802.30.09801.93345.46138.51.3556.12429.131.12814.210.15700.4160S6218844.603575924.40.01800.635027.87113.50.6914.41821.650.38910.020.26800.3450S7177556.0126151958-0.792028.76118.71.3171.05345.550.254030.260.62600.4070S8173639.35297914920.00500.648034.19101.61.1432.82512.430.179023.100.23300.08900S91900176.30223115880.18900.537038.01239.00.73302.47817.090.119013.750.13500.5190S10186454.55251818550.062000.221044.27216.41.1037.17812.760.691017.610.20100.4090S11160931.84254216040.059000.101042.5985.800.84204.5039.790.418017.720.26900.2240S12164660.75218218390.039000.156033.4487.400.99105.91111.520.759018.480.17900.2140Thecontentsof15inorganicelementsindifferentsamples(μg/g)Analyze-DescriptiveStatistics-Descriptives,勾選Savestandardizedvaluesasvariables,則標準化數(shù)據(jù)出現(xiàn)在原始數(shù)據(jù)表中7778第一主成分與Al,V,Mn,Fe,Ni,Cu,As7個元素正相關(guān);——過渡金屬因子第二主成分與Mg,Ca,Sr,Mo4個元素正相關(guān);——堿土金屬因子第三主成分與Cr,Zn2個元素正相關(guān);——第四主成分與Pb正相關(guān);第五主成分與P正相關(guān).第一主成分與Al,V,Mn,Fe,Ni,Cu,As7個元素正相關(guān);與Mo負相關(guān);——過渡金屬和主族金屬因子第二主成分與Mg,Ca2個元素正相關(guān);——堿土金屬因子第三主成分與Sr,Cr,Zn3個元素正相關(guān);——過渡金屬和主族金屬因子第四主成分與Pb正相關(guān);第五主成分與P正相關(guān).15種元素作為變量聚類,分為三類:Ca,Mg為一類(堿土金屬),P為一類,其余12種元素為一類(西洋參特種金屬)f1f2f3f4f5F排序S10.22049-0.60935-0.15283-0.829070.08205-0.180098S2-0.37842-1.1536-0.829750.01811-1.13525-0.6000912S31.893971.63886-0.36854-0.784320.814720.8429091S41.40793-0.783121.56679-0.153770.241890.5261482S50.70607-1.296891.081751.04999-0.580350.1938344S6-0.76359-0.21069-0.237451.81792.185710.1133326S7-1.475871.598042.0012-0.09935-0.829680.1252935S8-1.04670.04085-0.03625-0.808691.09223-0.312179S90.374391.18932-1.120651.72467-1.330060.2656563S100.209820.25142-0.62432-0.19783-0.1019-0.01977S11-0.71575-0.23655-0.63311-0.669940.01564-0.452810S12-0.43235-0.42829-0.64682-1.06771-0.455-0.5023211用5個主成份聚類,12個西洋參樣品分成5類:12個樣品用15種元素含量聚類8586不同地區(qū)中藥甘草的微量元素(×10-6)No產(chǎn)地CaCoCuFeMgPbZnMnNi1甘肅寧縣93621.0012.00724.5036633.758.5199.255.502甘肅合水63631.5011.25562.5033752.2511.0070.751.503甘肅環(huán)縣89013.1323.19125.3833855.6412.5438.241.884寧夏鹽地41263.3216.60117.1520872.3712.8133.201.425甘肅甜水69881.0014.7583.2533252.5019.0052.751.506甘肅鎮(zhèn)原17380.7514.25115.5045632.2518.2538.251.007寧夏惠安堡42380.5013.7557.0025251.7515.5022.751.758甘肅民勤15212.4710.2831.2540425.767.8134.955.359甘肅金塔155644.0716.7040.7533679.7835.8585.669.3710新疆博樂200284.5717.8936.5516949.1437.3124.369.1711甘肅武威72250.7519.5063.2521381.2523.7528.753.0012甘肅酒泉199583.3119.4324.81500411.1637.2938.428.2787方差貢獻率No產(chǎn)地f1f2f3F排序1甘肅寧縣-0.762222.15626-0.913580.02599642甘肅合水-0.999251.05583-0.6281-0.3143693甘肅環(huán)縣0.17982-0.703580.02686-0.0720664寧夏鹽地-0.37552-0.93925-0.9047-0.50155115甘肅甜水-0.52818-0.212560.2453-0.2816386甘肅鎮(zhèn)原-0.81011-0.216041.5361-0.2791277寧夏惠安堡-0.76754-0.94882-0.0297-0.60013128甘肅民勤-0.403450.121861.32315-0.024559甘肅金塔1.408370.98452-0.195740.898187210新疆博樂1.6913-0.51703-1.331370.563965311甘肅武威-0.26053-1.19988-0.70197-0.483351012甘肅酒泉1.627320.418671.573741.0685581綜合得分F=40.079%F1+23.205%F2+10.976%F3可見,甘草品質(zhì)數(shù)甘肅酒泉的最好,甘肅金塔的次之,寧夏惠安堡的最差。表主成份得分和綜合得分對3個主成份進行聚類分析,聚為3類:綜合排名前三的聚為1類,綜合排名為4、9的甘肅寧縣、合水聚為1類,其余7個聚為1類。92

判別分析的一般步驟2判別分析

DiscriminantAnalysis93按判別組數(shù)分為:兩組判別和多組判別按數(shù)學(xué)模型分為:線性判別和非線性判別按判別方法分為:逐步判別和序貫判別判別準則分為:馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等

距離判別法費舍爾(Fisher)判別法貝葉斯(Bayes)判別法逐步判別法判別分析的分類:94判別分析常用方法(1)最大似然法:建立在概率論中獨立事件乘法定律的基礎(chǔ)上,適用于各指標是定性的或半定量的情況。(2)Fisher判別分析:用于兩類或兩類以上間判別,但常用于兩類間判別。(3)Bayes判別分析:用于兩類或兩類以上間判別,要求各類內(nèi)指標服從多元正態(tài)分布。(4)逐步判別分析:建立在Bayes判別分析基礎(chǔ)上,它象逐步回歸分析一樣,可以在眾多指標中挑選一些有顯著作用的指標來建立一個判別函數(shù),使方程內(nèi)的指標都有顯著的判別作用而方程外的指標作用都不顯著。(5)logistic判別:常用于兩類間判別。它不要求多元正態(tài)分布的假設(shè),故可用于各指標為兩值變量或半定量的情況。9595RonaldAylmerFisher1890–1962英國統(tǒng)計與遺傳學(xué)家現(xiàn)代統(tǒng)計科學(xué)的奠基人之一PrasantaChandraMahalanobis馬哈拉諾比斯1893-1972

印度統(tǒng)計學(xué)家ThomasBayes1702–1761英國數(shù)學(xué)家英國皇家學(xué)會會員

962.1距離判別法

思想:某點離哪個中心的距離最近,就屬于哪一類。距離:通常采用“馬氏距離”判別函數(shù)(discrimantfunction):用來比較到各個類中心距離的數(shù)學(xué)函數(shù)。9798σy=2σx99100101馬氏距離:表示數(shù)據(jù)的協(xié)方差距離102

1936年Mahalanobis提出“馬氏距離”

103兩個總體的距離判別問題

問題:設(shè)有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值分別是

1和

2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計算新樣品X到兩個總體的馬氏距離

D2(X,G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷這個判別規(guī)則的等價描述為:求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。1042-2Fisher判別分析1930’sFisher判別分析的中心思想:設(shè)法找出一最佳投影方向,將m維空間中的點投影到低維空間,如一維空間中,使不同類的點盡可能分離開來,然后在低維空間再分類。105106Fisher判別的基本思想

107判別分析步驟:有一個訓(xùn)練樣本集:個體的觀察值必須準確;個體的數(shù)目必須足夠多。建立一個判別函數(shù),解釋變量(簡稱為變量或指標)X1,X2,…,Xp必須確實與分類有關(guān)。利用此判別函數(shù)來判別未知個體所屬類別。108

用一個實例來說明判別分析的基本思想欲用顯微分光光度計對病人細胞進行檢查以判斷病人是否患有癌癥。(1)根據(jù)研究目的確定研究對象(樣本)及所用指標例:110例癌癥病人和190例正常人。指標:X1,X2和X3。X1:三倍體的得分,X2:八倍體的得分,X3:不整倍體的得分。(0-10分)109(2)收集數(shù)據(jù),得到訓(xùn)練樣本對于若干已明確診斷為癌癥的110個病人和無癌癥的190個正常人均用顯微分光光度計對細胞進行檢測,得到X1,X2和X3的值。這就是訓(xùn)練樣本。例號X1X2X3Y(類別)

1122022561

。。。。。。

3003330110(3)用判別分析方法得到判別函數(shù)根據(jù)實測資料(訓(xùn)練樣本)用判別分析方法可建立判別函數(shù),本例用Fisher判別分析方法得到:

Y=X1+10X2+10X3

并確定判別準則為:如有某病人的X1,X2,X3實測值,代入上述判別函數(shù)可得Y值,Y>100則判斷為癌癥,Y<100則判斷為非癌癥。111(4)考核該判別函數(shù)是否有實用價值還需要進行考核;如考核的結(jié)果,其診斷符合率達到臨床要求則可應(yīng)用于實踐。回顧性考核(組內(nèi)考核)前瞻性考核(組外考核)得到總符合率,特異性,敏感性,假陽性率和假陰性率。112(5)實際應(yīng)用未知類別樣品的判別歸類。如有某病人,用顯微分光光度計對其細胞進行檢測,得到X1,X2和X3的值。將X1,X2,X3值,代入判別函數(shù)

Y=X1+10X2+10X3;可得Y值,Y>100則判斷為癌癥,Y<100則判斷為非癌癥。1132-3Bayes判別分析Bayes準則

設(shè)有定義明確的g個總體π1,π2,…,πg(shù),分別為X1,X2,…,Xp的多元正態(tài)分布。對于任何一個個體,若已知p個變量的觀察值,要求判斷該個體最可能屬于哪一個總體。如果我們制訂了一個判別分類規(guī)則,難免會發(fā)生錯分現(xiàn)象。把實屬第i類的個體錯分到第j類的概率記為P(j|i),這種錯分造成的損失記為C(j|i)。Bayes判別準則就是平均損失最小的準則。按照這個準則去找一種判別分類的規(guī)則,就是Bayes判別。114115分類函數(shù)(g個類別,p個指標)Bayes準則下判別分析的分類函數(shù)形式如下:

Y1=C01+C11X1+C21X2+……+Cp1Xp

Y2=C02+C12X1+C22X2+……+Cp2Xp

…………

Yg=C0g+C1gX1+C2gX2+……+CpgXp

116即g個線性函數(shù)的聯(lián)立方程,每個線性函數(shù)對應(yīng)于某一類別。其中C0j,C1j,……,Cpj,(j=1,2,……,g)為需估計的參數(shù)。用SAS的DISCRIM過程可得到這些參數(shù)的估計值。判別函數(shù)建立后通常的判別準則為:如欲判斷某樣品屬于上述g類中的哪一類,可將該樣品的各Xi值代入式(17.1)中的各個方程,分別算出Y1,Y2,……,Yg等值。其中如Yf為最大則意味著該樣品屬第f類的概率最大,故判它屬于第f類。117

事前概率/先驗概率priorprobability如在所研究的總體中任取一個樣品,該樣品屬于第f類別的概率為q(yf),則稱它為類別f的事前概率。例如,闌尾炎病人總體中卡他性占50%,蜂窩織炎占30%,壞疽性占10%,腹膜炎占10%;則在該總體中任取一個闌尾炎病人,該病人屬于以上四型的概率分別為0.5,0.3,0.1和0.1,它們也分別是這四類的事前概率。118考慮事前概率時,判別函數(shù)如下式:

Y1=C01+C11X1+C21X2+……+Cp1Xp+ln(q(Y1))

Y2=C02+C12X1+C22X2+……+Cp2Xp+ln(q(Y2))

…………

Yg=C0g+C1gX1+C2gX2+……+CpgXp+ln(q(Yg))

差別僅僅在于ln(q(Yj))項119

考慮事前概率可適當提高判別的敏感性。事前概率可據(jù)于文獻報道或以往的大樣本研究。但是困難在于事前概率往往不容易知道;如果訓(xùn)練樣本是從所研究的總體中隨機抽取的,則可用訓(xùn)練樣本中各類的發(fā)生頻率Q(Yj)來估計各類別的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)來估計q(Yj),就只能將事前概率取為相等值,即取q(Yj)=1/g。120

事后概率/后驗概率posteriorprobability如果已知某樣品各個指標Xi的觀察值為Si,則在該條件下,樣品屬于Yj類別的概率P(Yj/S1,S2,…,SP)稱為事后概率。事后概率和指標的值有關(guān)。引入事后概率后,可用事后概率來描述某樣品屬于Yj類別的概率。這就使得判別的可靠性有一個數(shù)量的指標。121例:A1,A2,A3的事后概率為0.95,0.03和0.02

判為A1類的可靠性好。

A1,A2,A3的事后概率為0.40,0.30和0.30

判為A1類的可靠性差。如欲判別某樣品屬于哪個類別時,可據(jù)樣品各指標的取值S1,S2,……,SP代入判別函數(shù),求得各類別之Y值,即Y1,Y2,……,Yg。122事后概率的計算公式為:123124

僅憑哪一個事后概率為最大,就判為那一類別有時是不夠的。例如某樣品屬于三個類別的事后概率分別為0.95,0.03,0.02,則判為第一類的可靠性就較大。但如果三個事后概率分別為0.4,0.3,0.3。再判為第一類的可靠性就較差了。與臨床上診斷相類似,當對某病員的診斷把握不大時,常定為可疑或待查等。判別過程中可以定義一個事后概率p的臨界值,當各類別最大的事后概率大于此值時,就作出判別歸類,否則將被判為other類,相當于可疑或待查。125例某醫(yī)院眼科研究糖尿病患者的視網(wǎng)膜病變情況,視網(wǎng)膜病變分輕、中、重三型。研究者用年齡(age)、患糖尿病年數(shù)(time)、血糖水平(glucose)、視力(vision)、視網(wǎng)膜電圖中的a波峰時(at)、a波振幅(av)、b波峰時(bt)、b波振幅(bv)、qp波峰時(qpt)及qp波振幅(qpv)等指標建立判別視網(wǎng)膜病變的分類函數(shù),以判斷糖尿病患者的視網(wǎng)膜病變屬于輕、中、重中哪一型。126

觀察131例糖尿病患者,要求其患眼無其他明顯眼前段疾患,眼底無明顯其他視網(wǎng)膜疾病和視神經(jīng)、葡萄膜等疾患,測定了他們的以上各指標值,并根據(jù)統(tǒng)一標準診斷其疾患類型,記分類指標名為group。見表14.2。(表中僅列出前5例)。試以此為訓(xùn)練樣本,僅取age,vision,at,bv和qpv5項指標,求分類函數(shù),并根據(jù)王××的信息:38歲,視力1.0,視網(wǎng)膜電圖at=14.25,bv=383.39,qpv=43.18判斷其視網(wǎng)膜病變屬于哪一型。127131例糖尿病患者各指標實測記錄(前5例)────────────────────────────────────例號年齡患病血糖視力a波a波b波b波qp波pq波視網(wǎng)膜年數(shù)峰時振幅峰時振幅峰時振幅病變程度────────────────────────────────────

1492.001911.512.25235.4052.50417.5778.527.43A12492.001911.213.50225.1552.00391.2078.546.69A13634.002001.014.25318.9253.25616.3577.535.38A14634.002000.614.00361.9055.00723.3077.047.01A155410.001370.613.75269.5955.50451.2778.033.70A2────────────────────────────────────128解假定樣本系從總體中隨機抽取,則樣本中三種疾患類型的樣本量可近似地反映先驗概率,計算得分類函數(shù):Y1=-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv)Y2=-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv)Y3=-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv)以王××的觀察值代入分類函數(shù),得Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25+0.048×383.39+0.364×43.18=183.36同樣可算得:Y2=180.58,Y3=179.66其中最大者為Y1,故判斷為輕度病變。129

由上例見,Y1,Y2,Y3的數(shù)值相差不多,單純憑分類函數(shù)值的大小作決策有時易出偏差。分別估計該個體屬于各總體的概率卻能客觀地反映該個體的各種可能歸屬,而避免武斷。令Y*=180,從而有P(Y1|X1,X2,…,X5)=e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180))

=e4.36/(e4.36+e1.58+e0.66)=0.9202類似地,可得

P(Y2|X1,X2,…,X5)=0.0571P(Y3|X1,X2,…,X5)=0.0227

由此可見王××為輕度病變的概率為0.9202,因此把他判斷為輕度病變可靠性較大。1302-4逐步判別分析

從逐步回歸分析中我們已知道,回歸方程中的自變量并非越多越好。作用不大的變量進入方程后不但無益,反而有害。在判別分析中也有類似情況,解釋變量并非越多越好。解釋變量的特異性越強,判別能力越強,這類解釋變量當然越多越好;相反,那些判別能力不強的解釋變量如果引入分類函數(shù),同樣也是有害無益的,不但增加了搜集數(shù)據(jù)和處理數(shù)據(jù)的工作量,而且還可能削弱判別效果。因此我們希望在建立分類函數(shù)時既不要遺漏有顯著判別能力的變量,也不要引入不必要的判別能力很弱的變量。逐步判別分析是達到上述目標的重要方法。它象逐步回歸分析一樣,可以在很多候選變量中挑選一些有重要作用的變量來建立分類函數(shù),使方程內(nèi)的變量都較重要而方程外的變量都不甚重要。分類函數(shù)內(nèi)的變量是否有重要作用可用F檢驗,檢驗的零假設(shè)是:該變量對判別的貢獻為零。若P值較小便拒絕零假設(shè),認為該變量的貢獻具有統(tǒng)計學(xué)意義。131132

含10個變量的分類函數(shù)中各變量的統(tǒng)計檢驗───────────────────────────────────變量F值P值───────────────────────────────────年齡25.3380.0001

病程1.2110.3016

血糖1.2550.2889

視力45.9560.0001

at20.3100.0001

av0.2190.8037

bt0.9500.3898

bv6.0120.0033

qpt0.9710.3818

apv1.9890.1414───────────────────────────────────133

SPSS中的STEPWISE過程可用于逐步判別分析的變量選擇。其基本步驟與逐步回歸極為類似。先規(guī)定選入變量及剔除變量的顯著性水平(即Ⅰ型錯誤的概率),設(shè)分別為P1和P2。P1和P2可取為相等,如取0.05,0.1或0.15等。P1和P2也可取不相等,但P1必須不大于P2。一般說,P1取得越小,分類函數(shù)內(nèi)選入的變量就越少。逐步判別分析中變量選擇也是一步一步地進行的,每一步挑選一個判別能力最大且具有統(tǒng)計學(xué)意義的變量進入分類函數(shù),而且在每步選變量之前先對已選入的變量逐個檢驗其重要性,如果發(fā)現(xiàn)某個變量因為新變量的進入而變得不重要就剔除這個變量,只有在不能剔除時才考慮選入新變量。這樣一步一步的進行下去,直至分類函數(shù)中包含的所有變量都重要,而分類函數(shù)外的所有變量都不重要為止。然后可用篩選出來的變量用SPSS中的STEPWISE過程最終建立分類函數(shù)。134

逐步判別分析剔選變量結(jié)果───────────────────────────────────判別函數(shù)內(nèi)判別函數(shù)外─────────────────────────────────變量F值P值變量F值p值───────────────────────────────────年齡28.8180.0001病程0.8910.4127

視力46.4910.0001血糖0.7930.4548

at24.9640.0001av0.3970.6730

bv9.3870.0002bt0.4210.6572

qpv3.8290.0243qpt1.0160.3649───────────────────────────────────135回顧性考核和前瞻性考核分類函數(shù)及判別準則建立后必須進行考核。考核就是將樣品逐一用所建立的判別準則進行歸類,求出其假陽性率、假陰性率及總的錯誤率??己丝煞譃榛仡櫺钥己伺c前瞻性考核?;仡櫺钥己艘卜Q回代或組內(nèi)考核(internalvalidation),即用原來的訓(xùn)練樣本進行考核。前瞻性考核也稱組外考核,是對新的已知其分類的樣品(稱為考核樣本)進行考核。用前瞻性考核可估計總體中的假陽性率、假陰性率和總的錯誤率。136

除了可用前瞻性考核來估計總體中的錯誤率外,還可用刀切法(jackknife)交叉考核(crossvalidation)。其方法如下:設(shè)訓(xùn)練樣本中共有n個個體,先擱置第一個個體,對其余n-1個個體進行判別分析求出判別函數(shù),用該函數(shù)對第一個個體進行考核;然后放回第一個個體,擱置第二個個體,用其余n-1個個體求出判別函數(shù)并對第二個個體進行考核……每次擱置一個個體,用其余的n-1個個體作出判別函數(shù)(注意,這些判別函數(shù)可能不相同),對擱置的個體進行考核,一共進行n次,遍歷每一個個體;從而求出假陽性率、假陰性率和總的錯誤率,稱為刀切法交叉考核,它們可作為前瞻性考核的輔助信息。1372-5應(yīng)用SPSS實現(xiàn)判別分析例題7-3為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標含義及原始數(shù)據(jù)如下:X1:0歲組死亡概率X2:1歲組死亡概率X3:10歲組死亡概率X4:55歲組死亡概率X5

:80歲組死亡概率X6

:平均預(yù)期壽命地區(qū)編號X1X2X3X4X5X6類別134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.9797.368.81440.1713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.021.08

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論