SPSS 軟件培訓(xùn)(第三單元)解析_第1頁
SPSS 軟件培訓(xùn)(第三單元)解析_第2頁
SPSS 軟件培訓(xùn)(第三單元)解析_第3頁
SPSS 軟件培訓(xùn)(第三單元)解析_第4頁
SPSS 軟件培訓(xùn)(第三單元)解析_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第八講

聚類分析、判別分析聚類分析意義聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法。聚類分析在統(tǒng)計(jì)分析的應(yīng)用領(lǐng)域已經(jīng)得到了極為廣泛的應(yīng)用。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)諸多特征,按照在性質(zhì)上的親疏程度在沒有先驗(yàn)知識的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果,類內(nèi)部的個(gè)體在特征上具有相似性,不同類間個(gè)體特征的差異較大。方法原理按照個(gè)體(記錄)的特征將它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性,而類別之間則具有盡可能高的異質(zhì)性。為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對象之間的聯(lián)系的緊密程度。直觀的理解為按空間距離的遠(yuǎn)近來劃分類別方法原理假定研究對象均用所謂的“點(diǎn)”來表示。在聚類分析中,一般的規(guī)則是將“距離”較小的點(diǎn)歸為同一類,將“距離”較大的點(diǎn)歸為不同的類。常見的是對個(gè)體(Case)分類,也可以對變量(Variable)分類此時(shí)一般使用相似系數(shù)作為“距離”測量指標(biāo)方法原理

例:根據(jù)年齡將人群分成適當(dāng)?shù)念?,從右圖可見,人群被分為兩類是比較合適的。方法原理在右圖中可以看到五個(gè)樣品應(yīng)當(dāng)可能被分為兩組或者三組,C/D組x和y的取值均偏低,而另三個(gè)所在組x和y的取值均偏高分為兩類或三類都是可接受的從圖中可以直觀的理解“距離”的含義方法原理當(dāng)用于聚類的變量逐漸增多時(shí),分析思路完全相同,只是這樣簡單、清晰的圖示展現(xiàn)類別情況變得逐漸不大可能多維空間中的觀察可能的解決方法放棄圖示化觀察,改用復(fù)雜的統(tǒng)計(jì)指標(biāo)縮減維度,使得可以在低維度空間進(jìn)行呈現(xiàn)聚類分析的特點(diǎn)聚類分析前所有個(gè)體所屬的類別是未知的,類別個(gè)數(shù)一般也是未知的,分析的依據(jù)就是原始數(shù)據(jù),可能事先沒有任何有關(guān)類別的信息可參考。嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),它不像其它多元分析法那樣,需要從樣本去推斷總體。一般都涉及不到有關(guān)統(tǒng)計(jì)量的分布,也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法,而對相關(guān)假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。聚類分析的用途設(shè)計(jì)抽樣方案分層抽樣預(yù)分析過程先通過聚類分析達(dá)到簡化數(shù)據(jù)的目的,將眾多的個(gè)體先聚集成比較好處理的幾個(gè)類別或子集,然后再進(jìn)行后續(xù)的多元分析。細(xì)分市場、個(gè)體消費(fèi)行為劃分先聚類,然后再利用判別分析進(jìn)一步研究各個(gè)群體之間的差異。聚類分析的步驟步驟1:確定研究問題選擇研究目的:分類描述;數(shù)據(jù)簡化;揭示相互聯(lián)系選擇分類變量步驟2研究設(shè)計(jì)對個(gè)體聚類還是對變量聚類?分類變量是什么類型?選擇用“距離”還是“相似系數(shù)”?是哪一種?數(shù)據(jù)是否需要標(biāo)準(zhǔn)化?是否需要?jiǎng)h除奇異點(diǎn)?步驟3考慮是否滿足基本假定樣本對總體是否有代表性?聚類變量是否存在共線性?共線性是否足以影響結(jié)果?聚類分析步驟步驟4選擇聚類方法采用譜系聚類法、非譜系聚類法、還是兩者的結(jié)合??采用哪種具體的聚類方法??應(yīng)該聚成幾個(gè)類別?步驟5:解釋聚類分析的結(jié)果考察類別的中心是否存在顯著的差異?觀察樹形圖和冰柱圖是否可以根據(jù)分類變量給各個(gè)類別命名?步驟6:評價(jià)聚類分析結(jié)果的有效性利用適當(dāng)?shù)慕Y(jié)果變量進(jìn)行評價(jià);利用其它描述性的變量描述各個(gè)類別的輪廓。評定聚類結(jié)果的標(biāo)準(zhǔn)一個(gè)好的聚類分析是:Efficient.盡可能少的分類數(shù).Effective.尋找到無論在統(tǒng)計(jì)上還是在商業(yè)上都重要的分類.比如,一個(gè)類中含有5個(gè)客戶,也許在統(tǒng)計(jì)上是有意義的,但是在商業(yè)上卻沒有利用價(jià)值TWOSTEPCLUSTER特點(diǎn)處理對象:分類變量和連續(xù)變量自動(dòng)決定最佳分類數(shù)快速處理大數(shù)據(jù)集前提假設(shè):變量間彼此獨(dú)立分類變量服從多項(xiàng)分布,連續(xù)變量服從正態(tài)分布模型穩(wěn)健步驟:建立ClusterFeatures(CF)Tree確定最佳聚類數(shù)分析實(shí)例:某汽車制造商為了了解整個(gè)汽車市場的形勢,希望根據(jù)汽車的基本屬性和價(jià)錢對其進(jìn)行分類,以有效地提高競爭力。數(shù)據(jù):car_sales.savcategoricalvariable:Vehicletypecontinuousvariables:Priceinthousands~FuelefficiencyTWOSTEPCLUSTERHIERARCHICALCLUSTER屬于系統(tǒng)聚類法的一種其聚類過程可以用樹形結(jié)構(gòu)(treelikestructure)來描繪的方法方法原理先將所有n個(gè)變量/觀測看成不同的n類然后將性質(zhì)最接近(距離最近)的兩類合并為一類再從這n-1類中找到最接近的兩類加以合并依此類推,直到所有的變量/觀測被合為一類使用者再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類即可進(jìn)入HierarchicalCluster主菜單,或K-MeansCluster主菜單。下面對利用這兩個(gè)過程進(jìn)行聚類的步驟和主要選項(xiàng)加以介紹。1.HierarchicalCluster進(jìn)行層次聚類有以下步驟:(1)指定參與聚類的變量將選定的變量放到“Variables”下的矩形框中。(2)指定聚類對象要進(jìn)行變量聚類,在Cluster選項(xiàng)中選擇“Variables”,要對案例進(jìn)行聚類,選擇“Cases”。HierarchicalCluster對話框(3)在“Method”子對話框中指定聚類方法、相似測度的方法和標(biāo)準(zhǔn)化數(shù)據(jù)的方法在“ClusterMethod”對話框中選擇聚類方法,SPSS軟件提供了本章前面介紹的七種聚類方法可供選擇。在“Measure”子對話框中選擇不同變量類型的相似性測度方法,對于間距測度變量在“Interval”對話框中選擇,分類變量在“Counts”中選擇,二分類變量在“Binary”中選擇。在“Transform

Value”對話框中選擇標(biāo)準(zhǔn)化數(shù)據(jù)的方法。(4)選擇要輸出的統(tǒng)計(jì)量在“Statistics”對話框中可以選擇輸出聚類進(jìn)度表、距離距陣和聚類結(jié)果(即每個(gè)案例屬于哪一類)?!癝ingleSolutions”輸出指定類數(shù)的聚類結(jié)果,“Rangeofsolutions

”輸出指定類數(shù)范圍的聚類結(jié)果,比如指定類數(shù)范圍從2到4,則分別輸出聚為2、3。4類時(shí)的聚類結(jié)果。(5)選擇要輸出的統(tǒng)計(jì)圖表在“Plots”對話框中可以選擇輸出樹狀結(jié)構(gòu)圖和冰柱圖。輸出冰柱圖時(shí),選擇“Allclusters”顯示整個(gè)聚類過程,選擇“

Specifiedrangeofclusters”顯示指定范圍的聚類過程。(6)生成新變量在“Save”對話框中可以選擇把聚類結(jié)果作為變量保存到數(shù)據(jù)文件中。HIERARCHICALCLUSTER實(shí)例應(yīng)用根據(jù)購物環(huán)境、服務(wù)質(zhì)量對5個(gè)商廈進(jìn)行分類31省市自治區(qū)小康和現(xiàn)代化指數(shù)的層次聚類個(gè)體聚類采用平方歐式距離,組間距離采用平均組間連接距離實(shí)例應(yīng)用:對變量進(jìn)行聚類裁判打分的聚類分析HIERARCHICALCLUSTERK-MEANSCLUSTER屬于非系統(tǒng)聚類法的一種方法原理選擇(或人為指定)某些記錄作為凝聚點(diǎn)按就近原則將其余記錄向凝聚點(diǎn)凝集計(jì)算出各個(gè)初始分類的中心位置(均值)用計(jì)算出的中心位置重新進(jìn)行聚類如此反復(fù)循環(huán),直到凝聚點(diǎn)位置收斂為止K-MEANSCLUSTER方法特點(diǎn)要求已知類別數(shù)?可人為指定初始位置節(jié)省運(yùn)算時(shí)間?樣本量大于100時(shí)有必要考慮只能使用連續(xù)性變量K-MEANSCLUSTER分析實(shí)例31個(gè)省市自治區(qū)各類小康和現(xiàn)代化的數(shù)據(jù)注意類別數(shù)、分類結(jié)果的實(shí)際應(yīng)用。聚類分析應(yīng)注意的問題

距離測量方法使用默認(rèn)值即可變量選擇無關(guān)變量有時(shí)會(huì)引起嚴(yán)重的錯(cuò)分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進(jìn)行分析使用連續(xù)變量,將分類變量用于結(jié)果解釋新的聚類方法可以同時(shí)使用這些變量聚類分析應(yīng)注意的問題共線性問題對記錄聚類結(jié)果有較大的影響相當(dāng)于某個(gè)變量在聚類中的權(quán)重大于其它變量最好先進(jìn)行預(yù)處理變量的標(biāo)準(zhǔn)化變量量綱/變異程度相差非常大時(shí)需要進(jìn)行數(shù)理統(tǒng)計(jì)算法上要求一律標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化后會(huì)削弱有用變量的作用聚類分析應(yīng)注意的問題異常值影響較大還沒有比較好的解決辦法盡力避免分類數(shù)從實(shí)用角度講,2~8類比較合適專業(yè)意義一定要結(jié)合專業(yè)知識進(jìn)行分析聚類分析應(yīng)注意的問題其他方面聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解總結(jié)判別分析的基本原理判別分析也是一種分類的學(xué)科,和聚類分析一樣,它已成為高級統(tǒng)計(jì)分析不可缺少的一部分。判別分析是根據(jù)觀察或測量到的若干變量值判斷研究對象如何分類的方法。這一點(diǎn)和聚類分析相似。但聚類分析和判別分析之間有存在一些差別。聚類分析是在未知類別數(shù)目的情況下對樣本數(shù)據(jù)進(jìn)行分類,判別分析則是在一直分類數(shù)目的情況下,根據(jù)判別函數(shù)對不知類別的樣本進(jìn)行分類,同時(shí)對已經(jīng)分類的樣本進(jìn)行檢驗(yàn)。判別分析判別分析產(chǎn)生于20世紀(jì)30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計(jì)方法。近年來,判別分析在自然科學(xué)、社會(huì)學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類別。判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。判別分析的概念判別分析是一種進(jìn)行統(tǒng)計(jì)鑒別和分組的技術(shù)手段。它可以就一定數(shù)量案例的一個(gè)分組變量和相應(yīng)的其他多元變量的已知信息,確定分組與其他多元變量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminantfunction)。然后便可以利用這一數(shù)量關(guān)系對其他已知多元變量信息、但未知分組類型所屬的案例進(jìn)行鑒別分組。沿用多元回歸模型的稱謂,在判別分析中稱分組變量(groupingvariable)為因變量,而用以分組的其他特征變量稱為判別變量(discriminantvariable)或自變量。判別分析技術(shù)曾經(jīng)在許多領(lǐng)域得到成功的應(yīng)用,包括對兒童心理測驗(yàn)。手術(shù)或藥品效果、地理區(qū)劃的經(jīng)濟(jì)差異、決策行為預(yù)測等結(jié)果的分類。判別分析判別分析與聚類分析有所不同。聚類分析是一種純統(tǒng)計(jì)技術(shù),只要有多種指標(biāo)存在,它就能根據(jù)各案例的變量值近似程度排出順序來,只是描述性的統(tǒng)計(jì)。但是判別分析則不同,在分析之前就根據(jù)理論或?qū)嶋H的要求對于分組的意義和分組類別數(shù)目加以確定。并且,判別分析要以此為標(biāo)準(zhǔn)來建立判別函數(shù)。最后,判別分析并不停留在描述分類類型與各鑒別指標(biāo)之間的關(guān)系上,還能夠?qū)τ谖粗纸M類型的案例進(jìn)行鑒別分組。因此,它帶有“預(yù)測”的意義。判別分析包括兩個(gè)階段的工作:第一階段是分析和解釋各組的指標(biāo)特征之間存在的差異,并建立判別函數(shù)。在這部分工作中,研究人員要處理的是已知分組屬性的那些案例。這時(shí)需要確定是否能在特征變量數(shù)據(jù)的基礎(chǔ)上鑒別出已知的分組來,以及分組能被鑒別的程度和哪些特征變量是最有用的鑒別因素。另一個(gè)用途是為了分組的目的推導(dǎo)一個(gè)或多個(gè)數(shù)學(xué)方程。這些方程稱為“判別函數(shù)”,它們以某種數(shù)學(xué)形式將表示特征的判別變量與分組屬性結(jié)合起來,使我們能辨識一個(gè)案例所最近似的分組。第二階段所要處理的是未知分組屬性的案例,以第一階段的分析結(jié)果為根據(jù)將這些案例進(jìn)行鑒別分組。這相當(dāng)于根據(jù)以往經(jīng)驗(yàn)來“預(yù)測”案例的分組屬性。在分組屬性能夠成為一種明確結(jié)果時(shí)(如分組代表的是事物發(fā)展的不同結(jié)果),便可以作為事實(shí)來檢驗(yàn)預(yù)測的準(zhǔn)確性。而有的時(shí)候,分組的內(nèi)在屬性并不是顯性的,如一個(gè)病人的病癥到底是哪一類的,那么判別分析只是提供一種判斷。1.判別分析的假設(shè)條件判別分析最基本的要求是:分組類型(Group,用g表示)在兩種以上,即g≥2;在第一階段工作時(shí)每組案例的規(guī)模必須至少在一個(gè)以上,即nj>1(下標(biāo)j表示所在類型組);各判別變量的測度水平在間距測度等級以上;各分組的案例在各判別變量的數(shù)值上能夠體現(xiàn)差別。判別分析的假設(shè)之二,是各組案例的協(xié)方差矩陣相等。判別分析的最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)這個(gè)假設(shè)條件破壞時(shí),計(jì)算的概率將非常不準(zhǔn)確。判別分析是用于研究兩個(gè)或多個(gè)組之間在一套判別變量上的差別的方法。因?yàn)榉纸M被定義為一個(gè)名義測度等級變量,所以在本質(zhì)上判別分析是一種將一個(gè)名義變量與多個(gè)間距等級變量聯(lián)系起來的方法。2.判別分析的基本模型判別分析的基本模型就是判別函數(shù),它表示為分組變量與滿足假設(shè)的條件的判別變量的線性函數(shù)關(guān)系,其數(shù)學(xué)形式如下:其中,y是判別函數(shù)值;xi

為各判別變量;bi為相應(yīng)的判別系數(shù)。從上述判別函數(shù)的方程式可以看出,它與一般多元線性回歸模型的形式一致。所以,我們可以將判別函數(shù)值(dicriminantfunctionvalue)看成是因變量,而將判別系數(shù)看成是回歸系數(shù)。但實(shí)際上鑒別模型與線性回歸有本質(zhì)上的區(qū)別。首先,判別函數(shù)中的y并不代表原來輸入的因變量的估計(jì)。在判別分析中所輸入的因變量是一個(gè)定性的分組變量,表示案例所在的不同組別,通常以連貫的整數(shù)作為編碼。而在分析輸出的判別函數(shù)中的y卻是一個(gè)間距變量,并且它并不直接與分組變量有數(shù)量聯(lián)系,只代表在某一空間上的坐標(biāo)。其次,回歸分析的方程式只有一個(gè),而判別分析中的函數(shù)往往并不是只有一個(gè),在判別變量較多時(shí),判別函數(shù)也往往有多個(gè)。判別函數(shù)值y又常簡稱為判別值(discriminantscore)。其判別系數(shù)(discriminantcoefficientorweight)表示各判別變量對于判別函數(shù)值的影響,其中b0是常數(shù)項(xiàng)。判別模型對應(yīng)的幾何解釋是,各判別變量代表了k維空間。每個(gè)案例按其判別變量值成為這一k維空間中的一個(gè)點(diǎn)。如果各組案例就其判別變量值有明顯不同,就意味著每一組將會(huì)在這一空間的某一部分形成明顯分離的蜂集點(diǎn)群。即使這些組的點(diǎn)群在空間位置上有少量重疊,其各自的“領(lǐng)域”也大體可以分清。為了概括這個(gè)組的位置,我們可以計(jì)算它的領(lǐng)域的中心。中心的位置可以用這個(gè)組別中各案例在每個(gè)變量上的組平均值作為其坐標(biāo)值。因?yàn)槊總€(gè)中心代表了所在組的基本位置,我們可以通過研究它們來取得對于這些分組之間差別的理解。然而,僅看單個(gè)變量會(huì)使我們只從單一方向觀察;當(dāng)有很多變量時(shí),這樣的信息也許會(huì)復(fù)雜得難于理解。可以證明,實(shí)際可能用不著用這么多維度來完整地代表一個(gè)組的中心的相對位置。因此,判別分析可以幫助我們精簡對鑒別用處不大的維度??偠灾?,判別分析將這些空間分布特征與已知分組屬性之間的聯(lián)系加以擬合,并估計(jì)出各判別系數(shù)的最優(yōu)估計(jì),并且對于整個(gè)模型和各參數(shù)估計(jì)進(jìn)行評價(jià)和檢驗(yàn)。模型估計(jì)的過程可簡略描述如下:首先將判別變量表示的k維空間進(jìn)行旋轉(zhuǎn),尋找某個(gè)角度使各分組平均值的差別盡可能大,然后將其作為鑒別的第一維度。在這一維度上可以代表或解釋原始變量組間方差中最大的部分。上述判別函數(shù)就表達(dá)了將原始數(shù)量值轉(zhuǎn)換至這一維度的系數(shù)方程式。對應(yīng)第一維度的判別函數(shù)稱為第一判別函數(shù)。然后按照同一原則尋找第二維度,并建立第二判別函數(shù)。如此下去,直至推導(dǎo)出所有判別函數(shù)。建立后續(xù)判別函數(shù)的條件是,后一個(gè)函數(shù)必須與前面所有的函數(shù)正交,即判別函數(shù)之間完全獨(dú)立(完全不相關(guān))。實(shí)際上這樣推導(dǎo)出的函數(shù)有min(k,g-1)個(gè),即等于判別變量個(gè)數(shù)或分組個(gè)數(shù)減1兩者中的較小者。其實(shí),這已經(jīng)有可能將原來的k維加以精簡了。比如判別變量有8個(gè),而組型分為3種,實(shí)際上能夠得到的判別函數(shù)只有2個(gè),即我們只要從兩個(gè)維度來進(jìn)行案例分組即可。如果判別變量的數(shù)目大于分組數(shù)目時(shí),能推導(dǎo)的判別函數(shù)雖然還是k維,但這時(shí)所有案例的空間分布將最有利于識別分組。得到的每一個(gè)函數(shù)都反映判別變量組間方差的一部分,可以用所占比例表示其相對重要性。各判別函數(shù)所代表的組間方差比例之和為100%。其實(shí),推導(dǎo)出來的判別函數(shù)也不見得所有都真的有實(shí)用價(jià)值。往往先推導(dǎo)的那些判別函數(shù)作用很大,而后面推導(dǎo)出的函數(shù)只代表很少一部分方差。即使在對案例鑒別分組時(shí)忽略它們,也不會(huì)造成鑒別錯(cuò)誤的明顯增加。所以,這些實(shí)際效用不大的判別函數(shù),也可以被精簡掉。判別分析的方法判別分析(Discriminatory

Analysis)的任務(wù)是根據(jù)已掌握的1批分類明確的樣品,建立較好的判別函數(shù),使產(chǎn)生錯(cuò)判的事例最少,進(jìn)而對給定的1個(gè)新樣品,判斷它來自哪個(gè)總體。根據(jù)資料的性質(zhì),分為定性資料的判別分析和定量資料的判別分析;采用不同的判別準(zhǔn)則,又有費(fèi)歇、貝葉斯、距離等判別方法。

判別分析的方法費(fèi)歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個(gè)適當(dāng)?shù)耐队拜S,使所有的樣品點(diǎn)都投影到這個(gè)軸上得到一個(gè)投影值。對這個(gè)投影軸的方向的要求是:使每一類內(nèi)的投影值所形成的類內(nèi)離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。判別分析的方法貝葉斯(BAYES)判別思想是根據(jù)先驗(yàn)概率求出后驗(yàn)概率,并依據(jù)后驗(yàn)概率分布作出統(tǒng)計(jì)推斷。所謂先驗(yàn)概率,就是用概率來描述人們事先對所研究的對象的認(rèn)識的程度;所謂后驗(yàn)概率,就是根據(jù)具體資料、先驗(yàn)概率、特定的判別規(guī)則所計(jì)算出來的概率。它是對先驗(yàn)概率修正后的結(jié)果。距離判別思想是根據(jù)各樣品與各母體之間的距離遠(yuǎn)近作出判別。即根據(jù)資料建立關(guān)于各母體的距離判別函數(shù)式,將各樣品數(shù)據(jù)逐一代入計(jì)算,得出各樣品與各母體之間的距離值,判樣品屬于距離值最小的那個(gè)母體。判別模型一.

判別模型中的各參數(shù)指標(biāo)二.判別分析模型的統(tǒng)計(jì)檢驗(yàn)判別分析模型的各參數(shù)指標(biāo)一個(gè)判別分析不光要有基本模型,還需要多個(gè)不同指標(biāo)來表示模型的不同方面。有的用于表示數(shù)量關(guān)系,有的用于評價(jià)和比較。下面分別對鑒別模型中所涉及的主要指標(biāo)加以介紹。為了避免有的參數(shù)計(jì)算過程所必須涉及的矩陣代數(shù)形式或其他復(fù)雜的數(shù)學(xué)公式,這里將不對每個(gè)參數(shù)的來龍去脈加以詳細(xì)討論。由于本在介紹判別分析時(shí)將與SPSS統(tǒng)計(jì)軟件的應(yīng)用相結(jié)合,我們用不著在估計(jì)過程的細(xì)節(jié)上花費(fèi)許多功夫,因?yàn)橹灰覀冋_地輸入數(shù)據(jù)和制定判別分析的程序命令,計(jì)算機(jī)能夠提供全部統(tǒng)計(jì)結(jié)果。所以,在此中我們將只討論每個(gè)指標(biāo)的意義和用途。判別系數(shù)又稱函數(shù)系數(shù)(functioncoefficient),其中還進(jìn)一步分為兩種:非標(biāo)準(zhǔn)化的和標(biāo)準(zhǔn)化的。非標(biāo)準(zhǔn)化判別系數(shù)(unstandardizeddiscriminantcoefficient)也稱粗系數(shù)(rowcoefficients)。將原始變量值(即粗?jǐn)?shù)據(jù),rawdata)直接輸入模型,得到的系數(shù)估計(jì)即非標(biāo)準(zhǔn)化的“粗”系數(shù)。得到非標(biāo)準(zhǔn)化的判別系數(shù)就意味著我們得到了求解的判別分析基本模型。非標(biāo)準(zhǔn)化判別系數(shù)類似于回歸分析中的非標(biāo)準(zhǔn)化系數(shù),非標(biāo)準(zhǔn)化的判別系數(shù)的大小并不能反映相應(yīng)變量在鑒別作用上的大小。這是因?yàn)?,由于原始變量所取的測量單位有所不同,因此非標(biāo)準(zhǔn)化系數(shù)之間沒有可比性。標(biāo)準(zhǔn)化判別系數(shù)通過對于非標(biāo)準(zhǔn)化系數(shù)加以特定形式的調(diào)整,就得到標(biāo)準(zhǔn)化判別系數(shù)(standardizeddiscriminantcoefficient)。以標(biāo)準(zhǔn)化系數(shù)表達(dá)的判別函數(shù)不再有常數(shù)項(xiàng),并且函數(shù)中出現(xiàn)的自變量不再是原始變量,而是標(biāo)準(zhǔn)化的變量。也就是說,如果將經(jīng)過標(biāo)準(zhǔn)化的變量輸入鑒別模型,那么可以直接得到標(biāo)準(zhǔn)化的回歸系數(shù)。標(biāo)準(zhǔn)化使得每個(gè)變量都以自己的平均值作為數(shù)軸原點(diǎn),以自己的標(biāo)準(zhǔn)差作為單位。這樣一來,每個(gè)案例的原始變量值現(xiàn)在則一方面表現(xiàn)為與平均值之間的距離,另一方面以正負(fù)號形式表示了自己偏離平均值的方向。并且,各標(biāo)準(zhǔn)化系數(shù)因?yàn)橐恢乱云錁?biāo)準(zhǔn)差來測量也具有了可比性。哪個(gè)變量的標(biāo)準(zhǔn)化系數(shù)絕對值大,就意味著將對鑒別值有更大的影響,于是可以用來比較各變量對鑒別值的相對作用。但是正如分析中回歸系數(shù)只表達(dá)自變量軸與回歸線之間的角度,但并不反映各案例點(diǎn)與回歸線之間的擬合程度一樣,判別系數(shù)(即使是標(biāo)準(zhǔn)化的判別系數(shù)也一樣)也只是表達(dá)判別變量與鑒別值之間的這樣一種關(guān)系。所以僅僅由于標(biāo)準(zhǔn)化判別系數(shù)絕對值大,就認(rèn)為相應(yīng)自變量對于整個(gè)鑒別力(注意這里說的是鑒別力而不是鑒別值)最有用仍然是有問題的。如果判別系數(shù)實(shí)際上擬合效果很不好,那么即使對鑒別值有很大作用,但是鑒別值在鑒別準(zhǔn)確性方面仍會(huì)存在很大問題。因此,我們在判斷各個(gè)變量對鑒別力的影響時(shí),除了要看標(biāo)準(zhǔn)化判別系數(shù)的絕對值以外,還要檢查它的結(jié)構(gòu)系數(shù)。在判別分析中結(jié)構(gòu)系數(shù)(structuralcoefficient)又被稱為判別負(fù)載(disciriminantloading),它實(shí)際上是某個(gè)判別變量xi與鑒別值y之間的相關(guān)系數(shù),它表達(dá)兩者之間的擬合水平。當(dāng)這個(gè)系數(shù)的絕對值很大(接近+1或-1)時(shí),這個(gè)函數(shù)表達(dá)的信息與這個(gè)變量的信息幾乎相同。當(dāng)這個(gè)系數(shù)接近于0時(shí),它們之間就沒有什么共同之處。類似在因子分析中所做的那樣,如果一些變量與一個(gè)函數(shù)之間有很大的結(jié)構(gòu)系數(shù)值,我們就可以用這些變量的名字命名這個(gè)函數(shù)。如果這些變量似乎有類似方面的特征,我們可以以這種總的特征來命名這個(gè)函數(shù)。結(jié)構(gòu)系數(shù)結(jié)構(gòu)系數(shù)有兩種,一種是總結(jié)構(gòu)系數(shù),另一種是組內(nèi)結(jié)構(gòu)系數(shù)??偨Y(jié)構(gòu)系數(shù)基于總相關(guān)之上。它們的用途是在于識別由這些函數(shù)攜帶的在分組間進(jìn)行鑒別的信息。然而,有時(shí)我們的興趣在于探求一個(gè)函數(shù)與分組內(nèi)部的變量的緊密聯(lián)系程度。這一信息可以從匯合的組內(nèi)相關(guān)(Pooledwithin-groupscorrelations),又稱為組內(nèi)結(jié)構(gòu)系數(shù)(within-groupsstructurecoefficient)得到。SPSS判別分析提供的就是這樣一種組內(nèi)結(jié)構(gòu)系數(shù)。SPSS在判別分析時(shí)還能自動(dòng)按組內(nèi)結(jié)構(gòu)系數(shù)分組,它選擇最大的一些組內(nèi)結(jié)構(gòu)系數(shù)標(biāo)上星號,并且按組排序列出。分組的矩心分組的矩心(groupcentroid)描述在鑒別空間中每一組案例的中心位置。它是通過將式(1)基本模型中代入所有判別變量的平均值所計(jì)算出來的。其結(jié)果,每個(gè)判別函數(shù)的計(jì)算值便是每個(gè)分組在各鑒別軸上的坐標(biāo)值。考察在鑒別空間中每個(gè)案例點(diǎn)與各組的矩心之間的距離,便于分析具體案例分組屬性的傾向。前面曾經(jīng)提到,有時(shí)判別分析可以推導(dǎo)出多個(gè)判別函數(shù),然而這些判別函數(shù)不一定都很有用??梢愿鶕?jù)一定指標(biāo)來描述其對于鑒別的效用。鑒別能力強(qiáng)的需要保留,在對未知分組的那些案例進(jìn)行鑒別時(shí)所應(yīng)用。對于鑒別能力很差的判別函數(shù),為了使鑒別工作簡約,可以將其略去。略去這樣的判別函數(shù),一般不會(huì)對總的鑒別結(jié)果有明顯的影響。這里所說的鑒別力,既包括了每個(gè)判別變量對于判別函數(shù)的作用,也包括了本判別函數(shù)對于所有原始變量總方差的代表性。鑒別力指數(shù)鑒別力指數(shù)(potencyindex)就是這樣一個(gè)指標(biāo),有時(shí)它也被更直接地稱為方差百分比(percentofvariance)。判別分析通過一個(gè)判別函數(shù)所能代表的所有原始變量的總方差百分比來表示每個(gè)判別函數(shù)的鑒別力。在判別分析中,一個(gè)判別函數(shù)所代表的方差量用所對應(yīng)的特征值(eigenvalue)來相對表示。那么特征值的合計(jì)就相對代表了總方差量。而每個(gè)特征值占這一合計(jì)的比例就是相應(yīng)判別函數(shù)能夠代表的總方差比例,即它的鑒別力指數(shù)。當(dāng)然,鑒別力指數(shù)越大的判別函數(shù)越重要。而那些鑒別力指數(shù)很小的判別函數(shù)則可以被精簡掉。我們已經(jīng)討論的前五個(gè)指標(biāo)都用不著考慮數(shù)據(jù)的抽樣及推斷性質(zhì)。它們對于總體資料和任何類型的樣本都同樣適宜。但殘余鑒別力(residualdiscrimination)有所不同。當(dāng)資料來自于一個(gè)樣本,計(jì)算出判別函數(shù)而又想推斷它在鑒別總體案例時(shí)的情況,就要涉及統(tǒng)計(jì)顯著性的問題了。這里的討論按照案例來自簡單隨機(jī)抽樣的情況進(jìn)行統(tǒng)計(jì)檢驗(yàn),如果是其他抽樣方法,最好在解釋檢驗(yàn)結(jié)果時(shí)要保守一些,并將更大的注意力放在這些結(jié)果的實(shí)際重要性上。殘余鑒別力對判別函數(shù)統(tǒng)計(jì)顯著性的檢驗(yàn)是間接地進(jìn)行的。不是去檢驗(yàn)這個(gè)函數(shù)本身,而是在推導(dǎo)一個(gè)函數(shù)之前檢查在這個(gè)鑒別模型中的殘余鑒別力。殘余鑒別力的含義是,在以前計(jì)算的函數(shù)已經(jīng)提取過原始信息之后,殘余的變量信息對于鑒別分組的能力。如果殘余鑒別力過小,那么即使在數(shù)學(xué)上可行,再推導(dǎo)其他函數(shù)也沒有意義了。殘余鑒別力是用統(tǒng)計(jì)量Wilks’Lambda來測量的。實(shí)際上,在我們得到SPSS關(guān)于推導(dǎo)函數(shù)的輸出統(tǒng)計(jì)以后,首先要檢查的就是殘余鑒別力的檢驗(yàn),以評價(jià)到哪一步推導(dǎo)是有意義的。需要加以注意的是,每一步統(tǒng)計(jì)顯著的結(jié)果實(shí)際上說明下一步推導(dǎo)函數(shù)是有意義的。在出現(xiàn)不顯著的結(jié)果以后,研究人員就用不著進(jìn)一步分析后面給出的判別函數(shù),而應(yīng)將注意力轉(zhuǎn)向標(biāo)準(zhǔn)化判別系數(shù)。結(jié)構(gòu)系數(shù)、鑒別力指數(shù)的分析。有的時(shí)候,即使一個(gè)函數(shù)統(tǒng)計(jì)上顯著,但其他指標(biāo)表明其鑒別作用不大時(shí),也可以略去不用。Fisher判別系數(shù)可以用來直接進(jìn)行一個(gè)案例的鑒別。也就是說,如果有這套系數(shù),再有一個(gè)新的案例的數(shù)據(jù)時(shí),可以直接進(jìn)行手工計(jì)算鑒別。因此有了Fisher判別系數(shù)就能夠非常簡便地在沒有計(jì)算機(jī)的情況下對于新的案例進(jìn)行鑒別。Fisher判別系數(shù)SPSS判別分析應(yīng)用一.

關(guān)于SPSS判別分析中的例題SPSS判別分析的程序SPSS判別分析的輸出格式判別分析的實(shí)例應(yīng)用關(guān)于例題為了使我們在實(shí)際上機(jī)應(yīng)用SPSS操作判別分析時(shí)減少輸入原始數(shù)據(jù)的麻煩,這里我們使用所提供的原始數(shù)據(jù)。該數(shù)據(jù)有全國30個(gè)省、市、自治區(qū)的案例,原有5個(gè)變量,分別為多孩率、綜合節(jié)育率、初中及以上受教育程度的人口比例、人均國民收入、城鎮(zhèn)人口比例。假設(shè)我們將這些變量作為判別變量來對各地區(qū)進(jìn)行鑒別分組,以便更好分類指導(dǎo)工作。那么,現(xiàn)在還必須要有一個(gè)分組變量才能完成判別分析。假設(shè)有理由可以斷定其中的一些地區(qū)歸為一類、二類和三類地區(qū),但是同時(shí)還有一些地區(qū)則很難進(jìn)行類型歸屬,于是我們可以建立一個(gè)分組變量TYPE來反映每個(gè)案例的分組屬性。如果我們已經(jīng)根據(jù)原始數(shù)據(jù)建立了SPSS數(shù)據(jù)文件,那么現(xiàn)在只需要再新加一個(gè)分組變量并按照下列變量TYPE的數(shù)據(jù)輸入即可。在這個(gè)分組變量中,編碼1、2、3分別表示一類、二類和三類,“.”表示缺失值,在輸入數(shù)據(jù)時(shí)將相應(yīng)單元格跳過即可。數(shù)據(jù)輸入工作完成后,可以將該工作數(shù)據(jù)文件另存為一個(gè)文件T9_1.sav。然后我們就可以根據(jù)已知分組類型的案例建立鑒別方程,計(jì)算各種判別分析統(tǒng)計(jì)指標(biāo),并在此基礎(chǔ)上完成未知分組屬性的那些案例的鑒別分組工作。1.SPSS判別分析數(shù)據(jù)格式在SPSS中進(jìn)行判別分析時(shí),所有判別變量的格式與一般情況毫無二致,只是對于分組變量有一定要求。分組變量的案例有兩種情況:第一種是已知所屬分組類型,判別分析根據(jù)它們來建立判別函數(shù);第二種是未知所屬分組類型,需要通過分析進(jìn)行鑒別。已知所屬分組類型的案例在分組變量上的編碼以連貫的整數(shù)表示不同類型,比如本章例題中那樣以1、2、3表示三種分組類型。SPSS在判別分析時(shí)將以這些編碼的案例來建立判別函數(shù)、計(jì)算其他統(tǒng)計(jì)指標(biāo)。未知所屬類型的案例在分組變量上的編碼取值必須是已知分組類型的編碼值域以外的值或者空缺作為缺失值對待。比如本章例題中將這些案例的分組變量值空缺。SPSS在建立判別函數(shù)以后,將重新根據(jù)判別函數(shù)將所有已知和未知分類屬性的案例重新鑒別分類,并提供分組報(bào)告。將已知分組類型與重新鑒別的結(jié)果相比較,也是一種檢查判別函數(shù)鑒別力的一個(gè)途徑。

利用SPSS菜單定義判別模型及各項(xiàng)參數(shù)數(shù)據(jù)準(zhǔn)備工作完成后,便可以開始進(jìn)行判別分析工作了。首先,在SPSS的Analyze的菜單中選擇Classify一項(xiàng),然后再選擇其中的Discriminant一項(xiàng),便進(jìn)入了判別分析窗口。在判別分析窗口中左側(cè)的變量目錄中,用光標(biāo)點(diǎn)擊選擇判別分析的分組變量(使其背景變暗),再點(diǎn)擊上面一個(gè)箭頭鍵將這一變量調(diào)入GroupingVariable一欄。然后,點(diǎn)擊該欄目之下的DefineRange鍵,打開小窗口定義分組變量的值域。本章例題已知分組案例的分組編碼最小值為1,最大值為3,所以將這兩1值分別輸入Minimum和Maximum欄目,然后點(diǎn)擊Continue繼續(xù)下面的步驟。Discriminant對話框在判別分析窗口中的變量目錄中,選擇判別變量,并通過中下部的箭頭鍵將其調(diào)入Independents一欄。于是鑒別模型便定義完畢。但是,還需要定義輸出格式及其他SPSS程序的設(shè)置。點(diǎn)擊判別分析窗口下面的Statistics鍵,打開統(tǒng)計(jì)輸出格式窗口。在左下部的FunctionCoefficients(函數(shù)系數(shù))欄目中,選擇Fisher’s和Unstandardized使相應(yīng)的方格打叉。前者Fisher系數(shù)可以用來直接進(jìn)行案例的鑒別,而后者是要求輸出非標(biāo)準(zhǔn)化判別系數(shù),于是我們可以知道判別函數(shù)式。然后,點(diǎn)擊統(tǒng)計(jì)輸出窗口下部的Continue鍵繼續(xù)下面的工作。點(diǎn)擊判別分析窗口下面的Classify鍵,打開統(tǒng)計(jì)分類窗口。在右下部的Display(顯示)欄目中,選擇Resultsforeachcase和Summarytable,使相應(yīng)的方格打叉。前者是要求輸出每個(gè)案例的鑒別結(jié)果,使我們了解具體案例的鑒別情況,后者是鑒別的概要信息。在這個(gè)窗口還可以要求SPSS輸出鑒別結(jié)果的圖形,比如本章最后所提供的所有分組混合的鑒別圖(Combined-groupsplots)。在這個(gè)窗口還可以設(shè)置先驗(yàn)概率(priorprobabilities)。其中有兩種選擇,即各組相等(allgroupsequal)和按各組案例規(guī)模(computefromgroupsizes)。前者是SPSS判別分析的默認(rèn)狀態(tài);后者在各類已知分組的案例規(guī)模差別很大時(shí)可能采用,這就意味著在鑒別中要考慮各分組類型的規(guī)模分布。比如,已知分組的案例中,某一組規(guī)模數(shù)量很大,是其他組的數(shù)倍。如果有理由認(rèn)為這種分布差異在未知分組的那一部分案例或總體上也存在,那么希望在判別分析中考慮這種分布影響時(shí),便可以選擇后者設(shè)置。在本窗口設(shè)置工作完成以后,點(diǎn)擊統(tǒng)計(jì)輸出窗口右上角的Continue鍵繼續(xù)下面的工作。如果需要將每一個(gè)案例的鑒別結(jié)果存入原來的數(shù)據(jù)文件以備其他分析,這時(shí)可點(diǎn)擊判別分析窗口下面的Save鍵,打開保存窗口。能夠保留案例鑒別結(jié)果中的三種信息,按上下順序列在保留窗口,依次為:預(yù)測的案例分組;鑒別值;分組屬性的概率。如果選擇保存,SPSS可將這些數(shù)據(jù)附加在工作數(shù)據(jù)窗口中相應(yīng)案例的原有數(shù)據(jù)之后。其中,預(yù)測的分組是最終結(jié)果,只有一項(xiàng),變量名為dis_1。鑒別值則根據(jù)判別函數(shù)的數(shù)目而定,第一函數(shù)鑒別值將定名為dis1_1,第二函數(shù)鑒別值將定名為dis2_1,等等。根據(jù)各判別函數(shù)所得到的鑒別概率也依函數(shù)數(shù)目而定,第一函數(shù)鑒別概率將定名為dis1_2,第二函數(shù)鑒別概率將定名為dis2_2,等等。然后,點(diǎn)擊統(tǒng)計(jì)輸出窗口右上角的Continue鍵回到判別分析窗口。所有模型設(shè)置工作完成以后,點(diǎn)擊判別分析窗口右上角OK鍵,SPSS便開始執(zhí)行所有指定的分析工作,輸出統(tǒng)計(jì)結(jié)果和統(tǒng)計(jì)圖,保存數(shù)據(jù)。注意SPSS判別分析的保存數(shù)據(jù)只是將要求的數(shù)據(jù)存放在工作數(shù)據(jù)窗口,如果需要這些附加數(shù)據(jù)永久保存,則需要運(yùn)行SPSS主菜單上File欄中的Save命令。關(guān)于各項(xiàng)主要鑒別指標(biāo)的輸出格式已經(jīng)在討論指標(biāo)時(shí)提供,這里主要討論的是案例鑒別結(jié)果和概要結(jié)果的輸出格式。(1)每個(gè)案例的判別結(jié)果鑒別工作的主要目的是通過已知分組案例信息建立判別函數(shù),再利用判別函數(shù)對所有案例進(jìn)行重新鑒別分組。SPSS判別分析可以輸出所有案例的鑒別結(jié)果,研究人員可從中獲得案例的鑒別分組。SPSS判別分析結(jié)果的輸出格式SPSS判別分析對于案例鑒別結(jié)果的輸出格式如下:其輸出中各欄依順序?yàn)椋喊咐蛱?。案例缺失值情況、選擇情況、實(shí)際分組類型、具有最大鑒別概率的分組類型、其條件概率(conditionalprobability,符號為P(D/G))。其后驗(yàn)概率(posteriorprobability,符號為P(G/D))、具有第二大鑒別概率的分組類型、其后驗(yàn)概率、鑒別值。實(shí)際分組類型一欄提供的是原始數(shù)據(jù)中案例的組別編碼值。如果案例不屬于定義的各組別,即分組編碼在定義組別編碼值域以外或?yàn)槿笔е禃r(shí),將作為未知分組屬性處理。那么,在這一欄中將注明為UNGRPD,表示尚未分組(ungrouped)。最大概率類型可能是研究人員最關(guān)心的鑒別結(jié)果,它是通過判別分析形成的組別。如果已知分組的案例經(jīng)過再鑒別卻得出不同的分組屬性,輸出將在實(shí)際分組編碼的后面標(biāo)注一個(gè)星號加以特別注明。(2)判別分析的概要結(jié)果SPSS判別分析輸出鑒別的概要結(jié)果,提供原始數(shù)據(jù)中各種分組類型與鑒別出的各種分組類型的案例數(shù)交互表,并提供相應(yīng)的所占比例。判別分析的實(shí)例應(yīng)用1.打開數(shù)據(jù)文件T9_1.sav;2.Analize→Classify→Discriminant打開Discriminant對話框;3.確定判別分類變量,將Type變量放入GroupingVariable欄中,并定義分類的組數(shù),(Minmum1,Maxmum3);將5個(gè)變量放入IndependentVariable欄中,選擇Enterindependentstogether選擇項(xiàng);4.打開DiscrimnantAnalysis:Statistics對話框,在左下部的FunctionCoefficients(函數(shù)系數(shù))欄目中,選擇Fisher’s和Unstandardized使相應(yīng)的方格打叉。前者Fisher系數(shù)可以用來直接進(jìn)行案例的鑒別,而后者是要求輸出非標(biāo)準(zhǔn)化判別系數(shù),于是我們可以知道判別函數(shù)式。5.打開DiscrimnantAnalysis:Classify對話框,在右下部的Display(顯示)欄目中,選擇CasewiseResults和Summarytable,使相應(yīng)的方格打叉。前者是要求輸出每個(gè)案例的鑒別結(jié)果,使我們了解具體案例的鑒別情況,后者是鑒別的概要信息。6.如果需要將每一個(gè)案例的鑒別結(jié)果存入原來的數(shù)據(jù)文件以備其他分析,這時(shí)可點(diǎn)擊判別分析窗口下面的Save鍵,打開DiscriminantAnalysis:Save保存窗口。能夠保留案例鑒別結(jié)果中的三種信息,按上下順序列在保留窗口,依次為:預(yù)測的案例分組;鑒別值;分組屬性的概率。如果選擇保存,SPSS可將這些數(shù)據(jù)附加在工作數(shù)據(jù)窗口中相應(yīng)案例的原有數(shù)據(jù)之后。7.在DiscriminantAnalysis各窗口定義完畢,單擊OK,系統(tǒng)執(zhí)行Discriminant程序。輸出結(jié)果分析:該表是判別分析過程的總結(jié)。對于判別變量type有記錄14個(gè),16個(gè)記錄是缺失值。該表反映判別變量type在3組中的分布情況。該表是判別函數(shù)小結(jié),由以下部分組成:函數(shù)代號Function。Eigenvalue兩個(gè)判別函數(shù)的特征值,是組間平方和與組內(nèi)平方和之比。最大特征值與組均值最大的向量對應(yīng)。%ofVariance方差的百分比。Cumulative方差累積百分比,最后累積值是100%。CanonicCorrelation判別相關(guān)系數(shù),是組間平方和與總平方和之比的平方根。被平方的是由組間差異解釋的變異總和的比。該表是Wilks’Lambda統(tǒng)計(jì)量,該組統(tǒng)計(jì)量進(jìn)行的檢驗(yàn)的零假設(shè)是各組各變量均值相等。無論哪種檢驗(yàn)方法,都是對判別函數(shù)的有效性進(jìn)行檢驗(yàn)。判斷該判別函數(shù)能否將兩類很好地區(qū)分開。Wilks’Lambda統(tǒng)計(jì)量的取值范圍在0~1之間,值接近0表示組均值不同,值接近1表示組均值沒有不同(等于1表示所有均值相同)。Chi-Square是對Wilks’Lambda的卡方轉(zhuǎn)換,用以確定其顯著性。Df是獲取顯著性水平的自由度。Sig.是零假設(shè)成立的概率。該表為標(biāo)準(zhǔn)化的判別函數(shù)的系數(shù),由此表可以得到兩個(gè)判別函數(shù):Y1=1.03784x1-0.78122x2-1.47771x3+1.46174x4+0.15392x5Y2=0.20164x1-0.03439x2-0.59251x3-0.11642x4+1.51750x5該表是組內(nèi)結(jié)構(gòu)系數(shù)矩陣表。SPSS在判別分析時(shí)還能自動(dòng)按組內(nèi)結(jié)構(gòu)系數(shù)分組,它選擇最大的一些組內(nèi)結(jié)構(gòu)系數(shù)標(biāo)上星號,并且按組排序列出。上述輸出中可以看出,x2

和x1被放在一組,它們與第一函數(shù)的聯(lián)系更為密切。根據(jù)判別變量的原有定義,這兩個(gè)變量都是測量計(jì)劃生育水平的,因此我們可以稱第一函數(shù)為計(jì)劃生育函數(shù)。而x5

、x3

和x4被放在另一組,它們與第二函數(shù)聯(lián)系密切。這些變量都是描述社會(huì)經(jīng)濟(jì)發(fā)展水平的,所以可以稱第二函數(shù)為社會(huì)經(jīng)濟(jì)函數(shù)。非標(biāo)準(zhǔn)化的判別系數(shù),我們也可以根據(jù)該表推導(dǎo)出兩個(gè)判別函數(shù):Y1=65.6113916+0.2777410x1-0.7069548x2-0.2314016x3+0.0016683x4+0.0145724x5Y2=1.5560233+0.0539604x1-0.0311224x2-0.0927843x3-0.000132867x4+0.1436736x5該表是組(類)均值(重心)處的判別函數(shù)值。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論