版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第14章聚類分析與判別分析介紹:1、聚類分析2、判別分析
分類學(xué)是人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。1精選2021版課件14.1.1聚類分析根據(jù)事物本身的特性研究個(gè)體分類的方法,原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。根據(jù)分類對(duì)象的不同,分為樣品(觀測(cè)量)聚類和變量聚類兩種:樣品聚類:對(duì)觀測(cè)量(Case)進(jìn)行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組)變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服號(hào)碼(身長(zhǎng)、胸圍、褲長(zhǎng)、腰圍)、鞋的號(hào)碼。變量聚類使批量生產(chǎn)成為可能。2精選2021版課件14.1.2判別分析判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法。在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類進(jìn)行判斷。如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類的研究和某個(gè)動(dòng)物屬于哪一類、目、綱的判斷。不同:判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類(訓(xùn)練樣本)。3精選2021版課件14.1.3聚類分析與判別分析的SPSS過程在AnalyzeClassify下:K-MeansCluster:觀測(cè)量快速聚類分析過程HierarchicalCluster:分層聚類(進(jìn)行觀測(cè)量聚類和變量聚類的過程Discriminant:進(jìn)行判別分析的過程4精選2021版課件14.2快速樣本聚類過程(QuickCluster)使用k均值分類法對(duì)觀測(cè)量進(jìn)行聚類可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng),如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等??焖倬垲悓?shí)例(P342,data14-01a):使用系統(tǒng)的默認(rèn)值進(jìn)行:對(duì)運(yùn)動(dòng)員的分類(分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4比較有用的結(jié)果:聚類結(jié)果形成的最后四類中心點(diǎn)(FinalClusterCenters)和每類的觀測(cè)量數(shù)目(NumberofCasesineachCluster)但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類?這就要用到Save選項(xiàng)5精選2021版課件14.2快速樣本聚類過程(QuickCluster)中的選項(xiàng)使用快速聚類的選擇項(xiàng):類中心數(shù)據(jù)的輸入與輸出:Centers選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng):Save選項(xiàng)聚類方法選擇項(xiàng):Method選項(xiàng)聚類何時(shí)停止選擇項(xiàng):Iterate選項(xiàng)輸出統(tǒng)計(jì)量選擇項(xiàng):Option選項(xiàng)6精選2021版課件14.2指定初始類中心的聚類方法例題P343數(shù)據(jù)同上(data14-01a):以四個(gè)四類成績(jī)突出者的數(shù)據(jù)為初始聚類中心(種子)進(jìn)行聚類。類中心數(shù)據(jù)文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。對(duì)運(yùn)動(dòng)員的分類(還是分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4Center:Readinitialfrom:data14-01bSave:Clustermembership和DistancefromClusterCenter比較有用的結(jié)果(可將結(jié)果與前面沒有初始類中心比較):聚類結(jié)果形成的最后四類中心點(diǎn)(FinalClusterCenters)每類的觀測(cè)量數(shù)目(NumberofCasesineachCluster)在數(shù)據(jù)文件中的兩個(gè)新變量qc1_1(每個(gè)觀測(cè)量最終被分配到哪一類)和qc1_2(觀測(cè)量與所屬類中心點(diǎn)的距離)7精選2021版課件14.3分層聚類(HierarchicalCluster)分層聚類方法:分解法:先視為一大類,再分成幾類凝聚法:先視每個(gè)為一類,再合并為幾大類可用于觀測(cè)量(樣本)聚類(Q型)和變量聚類(R型)一般分為兩步(自動(dòng),可從Paste的語句知道,P359):Proximities:先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理(標(biāo)準(zhǔn)化和計(jì)算距離等)Cluster:然后進(jìn)行聚類分析兩種統(tǒng)計(jì)圖:樹形圖(Dendrogram)和冰柱圖(Icicle)各類型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算P348-354定距變量、分類變量、二值變量標(biāo)準(zhǔn)化方法p353:ZScores、Range-1to1、Range0to1等8精選2021版課件14.3.4用分層聚類法進(jìn)行觀測(cè)量聚類實(shí)例P358對(duì)20種啤酒進(jìn)行分類(data14-02),變量包括:Beername(啤酒名稱)、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、cost(價(jià)格)Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價(jià)格LabelCaseBy:BeernameCluster:Case,Q聚類
Display:選中Statistics,單擊StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix:距離矩陣Clustermembership:Singlesolution:4顯示分為4類時(shí),各觀測(cè)量所屬的類Method:
Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)
Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical縱向作圖)Save:ClusterMembership(Singlesolution[4])比較有用的結(jié)果:根據(jù)需要進(jìn)行分類,在數(shù)據(jù)文件中的分類新變量clu4_1等9精選2021版課件14.3.5用分層聚類法進(jìn)行變量聚類變量聚類,是一種降維的方法,用于在變量眾多時(shí)尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時(shí),損失信息很少。與進(jìn)行觀測(cè)量聚類雷同,不同點(diǎn)在于:選擇Variable而非CaseSave選項(xiàng)失效,不建立的新變量10精選2021版課件14.3.6變量聚類實(shí)例1P366上面啤酒分類問題data14-02。Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價(jià)格Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationTransformValues:ZScore(ByVariable)Plots:Dendrogram樹型圖Statistics:Proximitymatrix:相關(guān)矩陣比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹型圖,可知calorie(熱量)和alcohol(酒精含量)的相關(guān)系數(shù)最大,首先聚為一類。從整體上看,聚為三類是比較好的結(jié)果。至于熱量和酒精含量選擇哪個(gè)作為典型指標(biāo)代替原來的兩個(gè)變量,可以根據(jù)專業(yè)知識(shí)或測(cè)度的難易程度決定。11精選2021版課件14.3.6變量聚類實(shí)例2P368有10個(gè)測(cè)試項(xiàng)目,分別用變量X1-X10表示,50名學(xué)生參加測(cè)試。想從10個(gè)變量中選擇幾個(gè)典型指標(biāo)。data14-03Analyze→Classify→HierarchicalCluster:Variables:
X1-X10Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationPlots:Dendrogram樹型圖Statistics:Proximitymatrix相關(guān)矩陣比較有用的結(jié)果:可以從樹型圖中看出聚類過程。具體聚為幾類最為合理,根據(jù)專業(yè)知識(shí)來定。而每類中的典型指標(biāo)的選擇,可用p370的相關(guān)指數(shù)公式的計(jì)算,然后比較類中各個(gè)變量間的相關(guān)指數(shù),哪個(gè)大,就選哪個(gè)變量作為此類的代表變量。12精選2021版課件14.4判別分析P374判別分析的概念:是根據(jù)觀測(cè)到的若干變量值,判斷研究對(duì)象如何分類的方法。要先建立判別函數(shù)Y=a1x1+a2x2+...anxn,其中:Y為判別分?jǐn)?shù)(判別值),x1x2...xn為反映研究對(duì)象特征的變量,a1a2...an為系數(shù)SPSS對(duì)于分為m類的研究對(duì)象,建立m個(gè)線性判別函數(shù)。對(duì)于每個(gè)個(gè)體進(jìn)行判別時(shí),把觀測(cè)量的各變量值代入判別函數(shù),得出判別分?jǐn)?shù),從而確定該個(gè)體屬于哪一類,或計(jì)算屬于各類的概率,從而判別該個(gè)體屬于哪一類。還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù)。具體見下面吳喜之教授有關(guān)判別分析的講義13精選2021版課件補(bǔ)充:聚類分析與判別分析以下的講義是吳喜之教授有關(guān)聚類分析與判別分析的講義,我覺得比書上講得清楚。先是聚類分析一章再是判別分析一章14精選2021版課件聚類分析15精選2021版課件分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。16精選2021版課件聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒有什么不同。17精選2021版課件飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量18精選2021版課件如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問題了。19精選2021版課件兩個(gè)距離概念按照遠(yuǎn)近程度來聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就要確定類間距離,類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。20精選2021版課件向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對(duì)距離):Si|xi-yi|Minkowski:當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s.當(dāng)觀測(cè)值大于0時(shí),有人采用Lance和Williams的距離21精選2021版課件類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)最短距離法:最長(zhǎng)距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時(shí),有統(tǒng)一的遞推公式(假設(shè)Gr是從Gp和Gq合并而來):22精選2021版課件Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數(shù)而得:方法 ai(i=p,q) b
g最短距離 ? 0 -1/2最長(zhǎng)距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0
0
離差平方和(ni+nk)/(nr+nk)
-nk/(nr+nk)
0
中間距離 1/2
-1/4
0
可變法 (1-b)/2
b(<1)
0
可變平均 (1-b)ni/nr
b(<1)
0
23精選2021版課件有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。24精選2021版課件事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類??雌饋碛行┲饔^,是吧!假定你說分3類,這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類種子”(SPSS軟件自動(dòng)為你選種子);也就是說,把這3個(gè)點(diǎn)作為三類中每一類的基石。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。25精選2021版課件假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn)
26精選2021版課件根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。27精選2021版課件SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。28精選2021版課件事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時(shí),有多少點(diǎn)就是多少類。它第一步先把最近的兩類(點(diǎn))合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠(yuǎn)。再對(duì)飲料例子來實(shí)施分層聚類。29精選2021版課件對(duì)于我們的數(shù)據(jù),SPSS輸出的樹型圖為30精選2021版課件聚類要注意的問題聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。
另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠(yuǎn),而類中點(diǎn)的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。31精選2021版課件SPSS實(shí)現(xiàn)(聚類分析)分層聚類對(duì)drink.sav數(shù)據(jù)在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在Cluster選Cases(這是Q型聚類:對(duì)觀測(cè)值聚類),如果要對(duì)變量聚類(R型聚類)則選Variables,為了畫出樹狀圖,選Plots,再點(diǎn)Dendrogram等。32精選2021版課件啤酒成分和價(jià)格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含量 酒精 價(jià)格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .4733精選2021版課件Statistics→Classify→HierarchicalCluster:Variables:啤酒名和成分價(jià)格等Cluster(Case,Q型聚類)Display:(Statistics)(AgglomerationSchedule凝聚狀態(tài)表),(Proximitymatrix),Clustermembership(Singlesolution,[4])Method:
Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)
Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical)Save:ClusterMembership(Singlesolution[4])34精選2021版課件啤酒例子下表(Proximitymatrix)中行列交叉點(diǎn)為兩種啤酒之間各變量的歐氏距離平方和35精選2021版課件凝聚過程:Coefficients為不相似系數(shù),由于是歐氏距離,小的先合并.36精選2021版課件分為四類的聚類結(jié)果37精選2021版課件冰柱圖(icicle)38精選2021版課件聚類樹型圖39精選2021版課件學(xué)生測(cè)驗(yàn)數(shù)據(jù)(data14-03)50個(gè)學(xué)生,X1-X10個(gè)測(cè)驗(yàn)項(xiàng)目要對(duì)這10個(gè)變量進(jìn)行變量聚類(R型聚類),過程和Q型聚類(觀測(cè)量聚類,對(duì)cases)一樣40精選2021版課件Statistics→Classify→HierarchicalCluster:Variables:x1-x10Cluster(Variable,R型聚類)Display:(Statistics)(Proximitymatrix),Clustermembership(Singlesolution,[2])Method:
Cluster(FurthestNeighbor),Measure-Interval(Pearsoncorrelation,用Pearson相關(guān)系數(shù)),Plots:Icicle(AllCluster)41精選2021版課件學(xué)生測(cè)驗(yàn)例子下表(Proximitymatrix)中行列交叉點(diǎn)為兩個(gè)變量之間變量的歐氏距離平方和42精選2021版課件分為兩類的聚類結(jié)果43精選2021版課件冰柱圖(icicle)44精選2021版課件判別分析45精選2021版課件判別有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對(duì)的,而且用不著殺死昆蟲來進(jìn)行判別了。
46精選2021版課件判別分析(discriminantanalysis)這就是本章要講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主要不同點(diǎn)就是,在聚類分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類,完全根據(jù)數(shù)據(jù)來確定。而在判別分析中,至少有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,利用這個(gè)數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過預(yù)測(cè)變量來為未知類別的觀測(cè)值進(jìn)行判別了。47精選2021版課件判別分析例子數(shù)據(jù)disc.sav:企圖用一套打分體系來描繪企業(yè)的狀況。該體系對(duì)每個(gè)企業(yè)的一些指標(biāo)(變量)進(jìn)行評(píng)分。這些指標(biāo)包括:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤(rùn)增長(zhǎng)(prr)、市場(chǎng)份額(ms)、市場(chǎng)份額增長(zhǎng)(msr)、流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類別(三個(gè)類別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個(gè)分類標(biāo)準(zhǔn),以對(duì)沒有被該刊物分類的企業(yè)進(jìn)行分類。該數(shù)據(jù)有90個(gè)企業(yè)(90個(gè)觀測(cè)值),其中30個(gè)屬于上升型,30個(gè)屬于穩(wěn)定型,30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。48精選2021版課件Disc.sav數(shù)據(jù)
49精選2021版課件根據(jù)距離的判別(不用投影)
Disc.sav數(shù)據(jù)有8個(gè)用來建立判別標(biāo)準(zhǔn)(或判別函數(shù))的(預(yù)測(cè))變量,另一個(gè)(group)是類別。因此每一個(gè)企業(yè)的打分在這8個(gè)變量所構(gòu)成的8維空間中是一個(gè)點(diǎn)。這個(gè)數(shù)據(jù)有90個(gè)點(diǎn),由于已經(jīng)知道所有點(diǎn)的類別了,所以可以求得每個(gè)類型的中心。這樣只要定義了如何計(jì)算距離,就可以得到任何給定的點(diǎn)(企業(yè))到這三個(gè)中心的三個(gè)距離。顯然,最簡(jiǎn)單的辦法就是離哪個(gè)中心距離最近,就屬于哪一類。通常使用的距離是所謂的Mahalanobis距離。用來比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱為判別函數(shù)(discriminantfunction).這種根據(jù)遠(yuǎn)近判別的方法,原理簡(jiǎn)單,直觀易懂。50精選2021版課件Fisher判別法(先進(jìn)行投影)所謂Fisher判別法,就是一種先投影的方法??紤]只有兩個(gè)(預(yù)測(cè))變量的判別分析問題。假定這里只有兩類。數(shù)據(jù)中的每個(gè)觀測(cè)值是二維空間的一個(gè)點(diǎn)。見圖(下一張幻燈片)。這里只有兩種已知類型的訓(xùn)練樣本。其中一類有38個(gè)點(diǎn)(用“o”表示),另一類有44個(gè)點(diǎn)(用“*”表示)。按照原來的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開。于是就尋找一個(gè)方向,也就是圖上的虛線方向,沿著這個(gè)方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類分得最清楚。可以看出,如果向其他方向投影,判別效果不會(huì)比這個(gè)好。有了投影之后,再用前面講到的距離遠(yuǎn)近的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是Fisher判別法。51精選2021版課件52精選2021版課件逐步判別法(僅僅是在前面的方法中加入變量選擇的功能)有時(shí),一些變量對(duì)于判別并沒有什么作用,為了得到對(duì)判別最合適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進(jìn)判別能力最強(qiáng)的變量,這個(gè)過程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種,主要利用各種檢驗(yàn),例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗(yàn)。其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來實(shí)現(xiàn)。逐步判別的其他方面和前面的無異。53精選2021版課件Disc.sav例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例(cp),還剩下七個(gè)變量is,se,sa,prr,ms,msr,cs,得到兩個(gè)典則判別函數(shù)(CanonicalDiscriminantFunctionCoefficients):0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
這兩個(gè)函數(shù)實(shí)際上是由Fisher判別法得到的向兩個(gè)方向的投影。這兩個(gè)典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的:54精選2021版課件Disc.sav例子根據(jù)這兩個(gè)函數(shù),從任何一個(gè)觀測(cè)值(每個(gè)觀測(cè)值都有7個(gè)變量值)都可以算出兩個(gè)數(shù)。把這兩個(gè)數(shù)目當(dāng)成該觀測(cè)值的坐標(biāo),這樣數(shù)據(jù)中的150個(gè)觀測(cè)值就是二維平面上的150個(gè)點(diǎn)。它們的點(diǎn)圖在下面圖中。55精選2021版課件56精選2021版課件Disc.sav例子從上圖可以看出,第一個(gè)投影(相應(yīng)于來自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值)已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類型了。這兩個(gè)典則判別函數(shù)并不是平等的。其實(shí)一個(gè)函數(shù)就已經(jīng)能夠把這三類分清楚了。SPSS的一個(gè)輸出就給出了這些判別函數(shù)(投影)的重要程度:前面說過,投影的重要性是和特征值的貢獻(xiàn)率有關(guān)。該表說明第一個(gè)函數(shù)的貢獻(xiàn)率已經(jīng)是99%了,而第二個(gè)只有1%。當(dāng)然,二維圖要容易看一些。投影之后,再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式(SPSS輸出):57精選2021版課件Disc.sav例子具體的判別公式(SPSS輸出),由一張分類函數(shù)表給出:該表給出了三個(gè)線性分類函數(shù)的系數(shù)。把每個(gè)觀測(cè)點(diǎn)帶入三個(gè)函數(shù),就可以得到分別代表三類的三個(gè)值,哪個(gè)值最大,該點(diǎn)就屬于相應(yīng)的那一類。當(dāng)然,用不著自己去算,計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類法分到某一類。當(dāng)然,我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀測(cè)值的歸屬,但即使是這些訓(xùn)練樣本的觀測(cè)值(企業(yè))按照這里推導(dǎo)出的分類函數(shù)來分類,也不一定全都能夠正確劃分。58精選2021版課件Disc.sav例子下面就是對(duì)我們的訓(xùn)練樣本的分類結(jié)果(SPSS):59精選2021版課件誤判和正確判別率從這個(gè)表來看,我們的分類能夠100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀測(cè)值分到其本來的類。該表分成兩部分;上面一半(Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來判斷每一個(gè)點(diǎn)的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。下面一半(Crossvalidated)是對(duì)每一個(gè)觀測(cè)值,都用缺少該觀測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來判斷的結(jié)果。這里的判別結(jié)果是100%判別正確,但一般并不一定。60精選2021版課件Disc.sav例子如果就用這個(gè)數(shù)據(jù),但不用所有的變量,而只用4個(gè)變量進(jìn)行判別:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、資金周轉(zhuǎn)速度(cs)。結(jié)果的圖形和判別的正確與否就不一樣了。下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的150個(gè)企業(yè)的二維點(diǎn)圖。它不如前面的圖那么容易分清楚了原先的圖61精選2021版課件Disc.sav例子下面是基于4個(gè)變量時(shí)分類結(jié)果表:這個(gè)表的結(jié)果是有87個(gè)點(diǎn)(96.7%)得到正確劃分,有3個(gè)點(diǎn)被錯(cuò)誤判別;其中第二類有兩個(gè)被誤判為第一類,有一個(gè)被誤判為第三類。62精選2021版課件判別分析要注意什么?訓(xùn)練樣本中必須有所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能由于判別的預(yù)測(cè)變量。這是最重要的一步。當(dāng)然,在應(yīng)用中,選擇的余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗(yàn)證。判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果進(jìn)行解釋。63精選2021版課件判別分析要注意什么?在計(jì)算中需要看關(guān)于各個(gè)類的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果(在SPSS選項(xiàng)中選擇Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗(yàn)的計(jì)算機(jī)輸出),以確定是否分類結(jié)果是僅僅由于隨機(jī)因素。此外成員的權(quán)數(shù)(SPSS用priorprobability,即“先驗(yàn)概率”,和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別)需要考慮;一般來說,加權(quán)要按照各類觀測(cè)值的多少,觀測(cè)值少的就要按照比例多加權(quán)。對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯(cuò)誤分類率。研究被誤分類的觀測(cè)值,看是否可以找出原因。64精選2021版課件SPSS選項(xiàng)打開disc.sav數(shù)據(jù)。然后點(diǎn)擊Analyze-Classify-Discriminant,把group放入GroupingVariable,再定義范圍,即在DefineRange輸入1-3的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enterindependentstogether,而選擇Usestepwisemethod,在方法(Method)中選挑選變量的準(zhǔn)則(檢驗(yàn)方法;默認(rèn)值為Wilks’Lambda)。為了輸出Fisher分類函數(shù)的結(jié)果可以在Statistics中的FunctionCoefficient選Fisher和UnStandardized(點(diǎn)則判別函數(shù)系數(shù)),在Matrices中選擇輸出所需要的相關(guān)陣;還可以在Classify中的Display選summarytable,Leave-one-outclassification;注意在Classify選項(xiàng)中默認(rèn)的PriorProbability為Allgroupsequal表示所有的類都平等對(duì)待,而另一個(gè)選項(xiàng)為Computefromgroupsizes,即按照類的大小加權(quán)。在Plots可選Combined-groups,Territorialmap等。65精選2021版課件14.4.3判別分析實(shí)例P379鳶尾花數(shù)據(jù)(花瓣,花萼的長(zhǎng)寬)5個(gè)變量:花瓣長(zhǎng)(slen),花瓣寬(swid),花萼長(zhǎng)(plen),花萼寬(pwid),分類號(hào)(1:Setosa,2:Versicolor,3:Virginica)(data14-04)66精選2021版課件Statistics→Classify→Discriminant:Variables:
independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)Classify:priorprobability(Allgroupequal)
usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)Statistics:Descriptive(Means)
FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)
Save:
(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)67精選2021版課件鳶尾花數(shù)據(jù)(數(shù)據(jù)分析過程簡(jiǎn)明表)68精選2021版課件鳶尾花數(shù)據(jù)(原始數(shù)據(jù)的描述)69精選2021版課件鳶尾花數(shù)據(jù)(合并類內(nèi)相關(guān)陣和協(xié)方差陣)70精選2021版課件鳶尾花數(shù)據(jù)(總協(xié)方差陣)71精選2021版課件鳶尾花數(shù)據(jù)(特征值表)
Eigenvalue:用于分析的前兩個(gè)典則判別函數(shù)的特征值,是組間平方和與組內(nèi)平方和之比值.最大特征值與組均值最大的向量對(duì)應(yīng),第二大特征值對(duì)應(yīng)著次大的組均值向量
典則相關(guān)系數(shù)(canonicalcorrelation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.72精選2021版課件鳶尾花數(shù)據(jù)(Wilks’Lambda統(tǒng)計(jì)量)
檢驗(yàn)的零假設(shè)是各組變量均值相等.Lambda接近0表示組均值不同,接近1表示組均值沒有不同.Chi-square是lambda的卡方轉(zhuǎn)換,用于確定其顯著性.73精選2021版課件鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)標(biāo)準(zhǔn)化的典則判別函數(shù)系數(shù)(使用時(shí)必須用標(biāo)準(zhǔn)化的自變量)74精選2021版課件鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)典則判別函數(shù)系數(shù)75精選2021版課件鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)
這是類均值(重心)處的典則判別函數(shù)值這是典則判別函數(shù)(前面兩個(gè)函數(shù))在類均值(重心)處的值76精選2021版課件鳶尾花數(shù)據(jù)(用判別函數(shù)對(duì)觀測(cè)量分類結(jié)果)先驗(yàn)概率(沒有給)費(fèi)歇判別函數(shù)系數(shù)把自變量代入三個(gè)式子,哪個(gè)大歸誰.77精選2021版課件TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度綠化工程承包合同
- 大班種子課件教學(xué)課件
- 2024山西勞動(dòng)合同范本
- 2024年度J企業(yè)衛(wèi)星通信技術(shù)服務(wù)合同
- 2024年店面續(xù)租協(xié)議:市中心
- 2024互聯(lián)網(wǎng)銷售涂料產(chǎn)品獨(dú)家代理合同
- 2024年工程進(jìn)度與安全合同
- 2024年建筑修正協(xié)議
- 2024年家用電器維修服務(wù)合同
- 2024雙方關(guān)于影視制作與發(fā)行委托合同
- 業(yè)主業(yè)主委員會(huì)通用課件
- 了解金融市場(chǎng)和金融產(chǎn)品
- 南京理工大學(xué)2015年613物理化學(xué)(含答案)考研真題
- 初中數(shù)學(xué)應(yīng)用題解題思路分享
- 安全生產(chǎn)科技創(chuàng)新與應(yīng)用
- 人工智能在文化傳承與遺產(chǎn)保護(hù)中的價(jià)值實(shí)現(xiàn)
- 2024年汽修廠開業(yè)計(jì)劃書
- ISTA標(biāo)準(zhǔn)-2A、2B、2C系列解讀(圖文)
- 日間手術(shù)應(yīng)急預(yù)案方案
- 退費(fèi)賬戶確認(rèn)書
- 幼兒園小班《汽車滴滴響》
評(píng)論
0/150
提交評(píng)論