農(nóng)村發(fā)展研究方法 第12章 農(nóng)村發(fā)展研究評(píng)價(jià)方法課件_第1頁(yè)
農(nóng)村發(fā)展研究方法 第12章 農(nóng)村發(fā)展研究評(píng)價(jià)方法課件_第2頁(yè)
農(nóng)村發(fā)展研究方法 第12章 農(nóng)村發(fā)展研究評(píng)價(jià)方法課件_第3頁(yè)
農(nóng)村發(fā)展研究方法 第12章 農(nóng)村發(fā)展研究評(píng)價(jià)方法課件_第4頁(yè)
農(nóng)村發(fā)展研究方法 第12章 農(nóng)村發(fā)展研究評(píng)價(jià)方法課件_第5頁(yè)
已閱讀5頁(yè),還剩187頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十二章 農(nóng)村發(fā)展研究評(píng)價(jià)方法主要內(nèi)容第一節(jié) 農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程和分類第二節(jié) 農(nóng)村發(fā)展研究常用的評(píng)價(jià)方法第一節(jié) 農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程和分類一、評(píng)價(jià)概述二、農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程三、評(píng)價(jià)方法分類二、農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程評(píng)價(jià)的目的是通過(guò)對(duì)評(píng)價(jià)對(duì)象屬性的定量化測(cè)定,實(shí)現(xiàn)對(duì)評(píng)價(jià)對(duì)象整體水平或功能的量化描述,從而揭示事物的價(jià)值或發(fā)展規(guī)律。二、農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程完整的評(píng)價(jià)可以分為如下幾個(gè)階段:(1)確定評(píng)價(jià)目的,選取評(píng)價(jià)對(duì)象(2)建立評(píng)價(jià)指標(biāo)體系具體包括評(píng)價(jià)目標(biāo)的細(xì)分與結(jié)構(gòu)化,指標(biāo)體系的初步確定,指標(biāo)體系的整體檢驗(yàn)與初步檢驗(yàn),指標(biāo)體系結(jié)構(gòu)的優(yōu)化,定性變量的數(shù)量化等環(huán)節(jié)。(3

2、)選擇評(píng)價(jià)方法與模型具體包括評(píng)價(jià)方法選擇,權(quán)數(shù)構(gòu)造,評(píng)價(jià)指標(biāo)體系的標(biāo)準(zhǔn)值與評(píng)價(jià)規(guī)則的確定。二、農(nóng)村發(fā)展研究評(píng)價(jià)的一般過(guò)程完整的評(píng)價(jià)可以分為如下幾個(gè)階段:(4)綜合評(píng)價(jià)實(shí)施包括指標(biāo)體系數(shù)據(jù)搜集、數(shù)據(jù)評(píng)估、必要的數(shù)據(jù)推算模型參數(shù)求解等。(5)對(duì)評(píng)價(jià)結(jié)果進(jìn)行評(píng)估與檢驗(yàn),以判別所選評(píng)價(jià)模型、有關(guān)標(biāo)準(zhǔn)、有關(guān)權(quán)值、甚至指標(biāo)體系合理與否。若不符合要求,則需要進(jìn)行一些修改,甚至返回到前述的某一環(huán)節(jié)。(6)評(píng)價(jià)結(jié)果分析與報(bào)告具體包括評(píng)價(jià)結(jié)果的書面分析,撰寫評(píng)價(jià)報(bào)告,提供與發(fā)布評(píng)價(jià)結(jié)果,資料的儲(chǔ)備與后續(xù)開(kāi)發(fā)利用。三、評(píng)價(jià)方法分類評(píng)價(jià)方法可以分為定性評(píng)價(jià)方法和定量評(píng)價(jià)方法兩類。按其評(píng)價(jià)思想不同,可以分為加權(quán)評(píng)價(jià)方法

3、和非加權(quán)評(píng)價(jià)方法兩類。按各評(píng)價(jià)方法的理論基礎(chǔ)不同,可以分為六大類定量評(píng)價(jià)方法。第二節(jié) 農(nóng)村發(fā)展研究常用的評(píng)價(jià)方法一、綜合指數(shù)法二、功效系數(shù)法三、主成分分析四、因子分析五、聚類分析六、判別分析七、層次分析法一、綜合指數(shù)法各項(xiàng)指標(biāo)的權(quán)數(shù)是根據(jù)其重要程度決定的,體現(xiàn)了各項(xiàng)指標(biāo)在經(jīng)濟(jì)效益綜合值中作用的大小。綜合指數(shù)法的基本思路則是利用層次分析法計(jì)算的權(quán)重和模糊評(píng)判法取得的數(shù)值進(jìn)行累乘,然后相加,最后計(jì)算出經(jīng)濟(jì)效益指標(biāo)的綜合評(píng)價(jià)指數(shù)。 應(yīng)用實(shí)例引用甲、乙兩地區(qū)2000年農(nóng)業(yè)經(jīng)濟(jì)效益資料,說(shuō)明綜合指數(shù)法在分析評(píng)價(jià)農(nóng)業(yè)經(jīng)濟(jì)效益方面的具體應(yīng)用。甲乙兩地區(qū)2000年農(nóng)業(yè)經(jīng)濟(jì)效益相關(guān)資料見(jiàn)表1:以農(nóng)業(yè)物耗與產(chǎn)值比

4、表示資金產(chǎn)出率;以畝均產(chǎn)量和畝均收入表示土地生產(chǎn)率;以勞均產(chǎn)值、勞均收入等表示勞動(dòng)生產(chǎn)率。在構(gòu)建指標(biāo)體系的基礎(chǔ)上,通過(guò)德?tīng)柗谱稍?,進(jìn)行層次分析來(lái)確定各指標(biāo)的權(quán)數(shù),以初值化消除量綱,計(jì)算農(nóng)業(yè)經(jīng)濟(jì)效益綜合指數(shù)。其計(jì)算公式為:由計(jì)算結(jié)果可知,2000年兩地區(qū)經(jīng)濟(jì)效益綜合指數(shù)分別為110.28%和115.52%,均大于100%,說(shuō)明兩地區(qū)農(nóng)業(yè)經(jīng)濟(jì)效益較好,且乙地區(qū)農(nóng)業(yè)經(jīng)濟(jì)效益優(yōu)于甲地區(qū)農(nóng)業(yè)經(jīng)濟(jì)效益。二、功效系數(shù)法功效系數(shù)法是根據(jù)多目標(biāo)規(guī)劃原理而建立的一種評(píng)價(jià)方法。其含義是:在評(píng)價(jià)某一整體的綜合效益時(shí),一般有多種指標(biāo),而這些指標(biāo)的性質(zhì)和度量單位往往不同,不能直接相加或綜合,需要通過(guò)一定形式的函數(shù)關(guān)系將其

5、轉(zhuǎn)化為同度量指標(biāo),再將這些同度量指標(biāo)加權(quán)綜合,使之形成一個(gè)綜合指標(biāo),稱之為總功效系數(shù),以此評(píng)價(jià)整體的綜合效益。在以往功效系數(shù)法的應(yīng)用中,最后功效系數(shù)值使用加權(quán)算術(shù)平均的方法確定,為了更準(zhǔn)確地評(píng)價(jià)整體效益狀況,統(tǒng)計(jì)學(xué)家設(shè)計(jì)出改進(jìn)功效系數(shù),對(duì)每一評(píng)價(jià)指標(biāo)分別確定一個(gè)滿意值與不允許值,以滿意值為標(biāo)準(zhǔn)上限,不允許值為標(biāo)準(zhǔn)下限,按線性正相關(guān)的方法將不同的評(píng)價(jià)指標(biāo)無(wú)量綱化轉(zhuǎn)為相應(yīng)的評(píng)價(jià)分?jǐn)?shù),經(jīng)加權(quán)幾何平均得出綜合評(píng)價(jià)分?jǐn)?shù),對(duì)評(píng)價(jià)對(duì)象的綜合狀況作出評(píng)估。綜合功效系數(shù)越大,表明評(píng)價(jià)對(duì)象綜合狀況越佳。應(yīng)用實(shí)例:基于功效系數(shù)法的城市土地利用效益評(píng)價(jià)以武漢市為例城市土地利用可從經(jīng)濟(jì)效益、社會(huì)效益、生態(tài)效益三個(gè)方面對(duì)

6、其進(jìn)行評(píng)價(jià),但其涉及的指標(biāo)繁雜,且性質(zhì)與度量單位也存在較大差異,因此可以使用功效系數(shù)法對(duì)其進(jìn)行評(píng)價(jià)。三、主成分分析主成分分析(Principal Component Analysis,PCA)在實(shí)際課題中,為了全面分析問(wèn)題,往往提出很多與此有關(guān)的變量(或因素),因?yàn)槊總€(gè)變量都在不同程度上反映這個(gè)課題的某些信息。在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們希望變量個(gè)數(shù)較少而得到的信息較多。當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新

7、變量在反映課題的信息方面盡可能保持原有的信息。 主成分分析的具體步驟1、確定指標(biāo)體系在各項(xiàng)具體指標(biāo)的設(shè)置和選擇過(guò)程中,要注意指標(biāo)的全面性、代表性、可得性、簡(jiǎn)潔性和整合性。2、建立原始信息矩陣Xnp3、對(duì)矩陣X中的數(shù)據(jù)實(shí)行標(biāo)準(zhǔn)化處理,統(tǒng)一指標(biāo)之間的量綱,使其具有可比性4、求標(biāo)準(zhǔn)化矩陣Z的相關(guān)矩陣R,利用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算P個(gè)指標(biāo)間的相關(guān)系數(shù)5、求相關(guān)矩陣R的特征值和特征向量6、確定主成分的個(gè)數(shù)k累計(jì)貢獻(xiàn)率大于等于85%的k值7、給出主成分Yi, i=1, 2, p的表達(dá)式。8、計(jì)算綜合評(píng)價(jià)指標(biāo)綜合評(píng)價(jià)指標(biāo)其實(shí)就是前K個(gè)主成分的線性加權(quán)值9、計(jì)算評(píng)價(jià)分值并排序應(yīng)用實(shí)例:主成分分析及其應(yīng)用探討以山西

8、省農(nóng)村居民消費(fèi)結(jié)構(gòu)為例年份消費(fèi)性支出構(gòu)成食品X1衣著X2家庭設(shè)備用品及服務(wù)X3醫(yī)療保險(xiǎn)X4交通和通訊X5娛樂(lè)教育文化服務(wù)X6居住X7雜物商品及服務(wù)X81980100.00 59.89 15.49 3.71 0.44 0.40 1.61 18.12 0.34 1985100.00 54.32 14.62 8.00 2.68 0.51 5.29 13.81 0.77 1990100.00 52.87 12.45 6.85 4.06 0.65 6.73 15.52 0.87 1995100.00 63.15 11.10 4.63 3.35 1.51 6.77 8.37 1.12 1996100.00

9、 58.39 11.15 5.01 3.82 1.88 7.99 9.25 2.51 1997100.00 57.03 10.55 5.13 4.05 3.62 8.18 9.50 1.94 1998100.00 56.06 10.82 5.14 4.49 3.02 9.53 9.12 1.82 1999100.00 51.55 10.34 4.96 5.57 4.42 11.52 9.78 1.86 2000100.00 48.64 9.87 4.25 5.25 4.25 11.78 12.52 3.44 2001100.00 47.55 9.67 4.18 4.84 4.64 11.66

10、14.04 3.42 2002100.00 43.86 10.18 4.77 4.76 7.62 13.04 12.64 3.13 山西省農(nóng)村居民家庭平均每人全年消費(fèi)性支出構(gòu)成(19802002)SPSS操作1、Analyze-Data Reduction-Factor3、把數(shù)據(jù)都選進(jìn)Variables 去4、點(diǎn)擊5、彈出現(xiàn)下面的對(duì)話框6、在對(duì)話框的空白處填0,記得上面的圖中要選中前面的點(diǎn)7、點(diǎn)擊continue 鈕8、返回上個(gè)對(duì)話框9、如需要得到相關(guān)系數(shù)矩陣,點(diǎn)擊在Coefficients 前的方框打上鉤10、然后點(diǎn)擊continue 鈕11、返回上個(gè)對(duì)話框,點(diǎn)擊“OK”分析結(jié)果表格相關(guān)系數(shù)

11、矩陣可以看出變量之間的相關(guān)性,證明變量之間存在信息重疊。分析結(jié)果表格方差分解主成分提取分析表特征值主成分貢獻(xiàn)率累積貢獻(xiàn)率初始因子載荷矩陣每一個(gè)載荷量表示主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)。將前三個(gè)因子載荷矩陣輸入(可用復(fù)制粘貼的方法)到數(shù)據(jù)編輯窗口(為變量B1 、B2 、B3 ) , 然后利用“ Transform compute ” , 在對(duì)話框中輸入“A1=B1/SQR(5.137)”即可得到特征向量A1。注:第二主成分SQR 后的括號(hào)中填1.365,第三主成分SQR 后的括號(hào)中填1.092,同理,可得到A2、A3。然后就可以得出主成分表達(dá)式。Transform -compute得出主成分表達(dá)式主

12、成分表達(dá)式主成分得分表主成分得分表第一主成分代表的意義為消費(fèi)結(jié)構(gòu)針對(duì)發(fā)展、享受需求和生存需求的差異,得分越高,表明人們對(duì)于發(fā)展和享受的需求越大。計(jì)算評(píng)價(jià)分值并排序以每個(gè)主成分所對(duì)應(yīng)的特征值占所提取主成分總的特征值之和的比例作為權(quán)重計(jì)算主成分綜合模型。根據(jù)主成分綜合模型可以計(jì)算綜合主成分值,并對(duì)其按綜合主成分值進(jìn)行排序。四、因子分析因子分析就是將大量的彼此可能存在相關(guān)關(guān)系的變量轉(zhuǎn)換成較少的,彼此不相關(guān)的綜合指標(biāo)的一種多元統(tǒng)計(jì)方法。這樣既可減輕收集信息的工作量,且各綜合指標(biāo)代表的信息比重疊,便于分析。因子分析的步驟第一步:主因子分析是通過(guò)原始變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,導(dǎo)出能控制所有變量的少

13、數(shù)幾個(gè)綜合變量,通過(guò)這少數(shù)幾個(gè)綜合變量去描述原始的多個(gè)變量之間的相關(guān)關(guān)系。第二步:對(duì)因子的解釋和命名從因子分析導(dǎo)出的負(fù)荷矩陣的結(jié)構(gòu)出發(fā),把變量按與公共因子相關(guān)性大小的程度分組,使同組內(nèi)變量間的相關(guān)性較高,不同組的變量的相關(guān)性較低,按公因子包含變量的特點(diǎn)(即公因子內(nèi)涵)對(duì)因子作解釋命名。應(yīng)用實(shí)例農(nóng)民工培訓(xùn)驅(qū)動(dòng)機(jī)理研究以重慶市璧山縣為例在對(duì)2個(gè)街道辦事處3個(gè)鎮(zhèn)150余農(nóng)戶(主要是外出務(wù)工)及150余名外出農(nóng)民工抽樣調(diào)查的基礎(chǔ)上,分析了該縣農(nóng)民工培訓(xùn)的特點(diǎn),并運(yùn)用因子分析法對(duì)影響農(nóng)民工培訓(xùn)的因素(如就業(yè)概率、市場(chǎng)風(fēng)險(xiǎn)率、政府支持度等)做了定量的分析,得出相關(guān)結(jié)論。通過(guò)對(duì)璧山縣2個(gè)街道辦事處3個(gè)鎮(zhèn)的外

14、出農(nóng)民工進(jìn)行抽樣調(diào)查、走訪以及與當(dāng)?shù)匾恍┱块T的座談,從影響農(nóng)民工培訓(xùn)的因素中選取了8個(gè)具體變量進(jìn)行分析,并根據(jù)當(dāng)?shù)剞r(nóng)民工培訓(xùn)的具體情況對(duì)公式進(jìn)行了相關(guān)轉(zhuǎn)換,即:各因子數(shù)據(jù)具體計(jì)算方法為:農(nóng)民工愿意培訓(xùn)度=(愿意培訓(xùn)農(nóng)民工數(shù)/農(nóng)民工總?cè)藬?shù))100%;企業(yè)愿意培訓(xùn)度=(企業(yè)愿意培訓(xùn)數(shù)/企業(yè)總數(shù))100%;就業(yè)概率=(培訓(xùn)后找到工作人數(shù)/培訓(xùn)總?cè)藬?shù))100%;接受知識(shí)限度為培訓(xùn)后進(jìn)行相關(guān)考試,總分為一百分;政府支持度=(政府實(shí)際投入培訓(xùn)資金/政府預(yù)計(jì)投入資金)100%;市場(chǎng)風(fēng)險(xiǎn)率=(1-培訓(xùn)后各企事業(yè)實(shí)際招收人數(shù)/培訓(xùn)前市場(chǎng)預(yù)計(jì)所需相關(guān)專業(yè)人數(shù))100%.應(yīng)用以上相關(guān)方法得出各因子所需數(shù)據(jù),而后

15、運(yùn)用SPSS中的因子分析模型進(jìn)行運(yùn)算,結(jié)果如下:Spss操作1、Analyze-Data Reduction-Factor點(diǎn)擊Descriptives,彈出Factor Analysis:Descriptives對(duì)話框選Univariate descriptives項(xiàng)要求輸出各變量的均數(shù)與標(biāo)準(zhǔn)差,選Coefficients項(xiàng)要求計(jì)算相關(guān)系數(shù)矩陣,并選KMO and Bartletts test of sphericity項(xiàng),要求對(duì)相關(guān)系數(shù)矩陣進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。點(diǎn)擊Continue鈕返回。點(diǎn)擊Extraction,彈出Factor Analysis:Extraction對(duì)話框,系統(tǒng)提供如下因子提取

16、方法: Principal components:主成分分析法; Unweighted least squares:未加權(quán)最小平方法; Generalized least squares:綜合最小平方法; Maximum likelihood:極大似然估計(jì)法; Principal axis factoring:主軸因子法; Alpha factoring:因子法; Image factoring:多元回歸法。點(diǎn)擊Rotation,彈出Factor Analysis:Rotation對(duì)話框,系統(tǒng)有5種因子旋轉(zhuǎn)方法可選:None:不作因子旋轉(zhuǎn);Varimax:正交旋轉(zhuǎn);Equamax:全體旋轉(zhuǎn),對(duì)

17、變量和因子均作旋轉(zhuǎn);Quartimax:四分旋轉(zhuǎn),對(duì)變量作旋轉(zhuǎn);Direct Oblimin:斜交旋轉(zhuǎn)。旋轉(zhuǎn)的目的是為了獲得簡(jiǎn)單結(jié)構(gòu),以幫助我們解釋因子。之后點(diǎn)擊Continue鈕返回。點(diǎn)擊Scores,彈出彈出Factor Analysis:Scores對(duì)話框,系統(tǒng)提供3種估計(jì)因子得分系數(shù)的方法:之后點(diǎn)擊Continue鈕返回再點(diǎn)擊OK鈕即完成分析。 Correlation Matrix初始因子載荷陣初始因子載荷提取因子載荷旋轉(zhuǎn)提取因子載荷Component Matrix主成分分析和因子分析的區(qū)別因子分析是主成分分析的推廣和發(fā)展。在算法上,主成分分析和因子分析很類似 。 (1)因子分析中是把

18、變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變量的線性組合。(2)和主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢(shì)。大致說(shuō)來(lái),當(dāng)需要尋找潛在的因子,并對(duì)這些因子進(jìn)行解釋的時(shí)候,更加傾向于使用因子分析,并且借助旋轉(zhuǎn)技術(shù)幫助更好解釋。而如果想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量(新的變量幾乎帶有原來(lái)所有變量的信息)來(lái)進(jìn)入后續(xù)的分析,則可以使用主成分分析。 五、聚類分析聚類分析又稱群分析、點(diǎn)群分析,指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的多元統(tǒng)計(jì)評(píng)價(jià)過(guò)程。是定量研究分類問(wèn)題的一種多元統(tǒng)計(jì)方法。 聚類分析的概念聚類分析的概念人類認(rèn)識(shí)世界往

19、往首先將被認(rèn)識(shí)的對(duì)象進(jìn)行分類,因此分類學(xué)便成為人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。在社會(huì)生活的眾多領(lǐng)域中都存在著大量的分類問(wèn)題。以前人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí)做定性分類處理,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系,特別是對(duì)于多因素、多指標(biāo)的分類問(wèn)題,定性分類更難以實(shí)現(xiàn)準(zhǔn)確分類。為了克服定性分類存在的不足,于是把數(shù)學(xué)方法引進(jìn)分類學(xué)中,形成了數(shù)值分類學(xué),后來(lái)隨著多元分析的引進(jìn),聚類分析又逐漸從數(shù)值分類學(xué)中分離出來(lái),形成一個(gè)相對(duì)獨(dú)立的分支。在多元統(tǒng)計(jì)分析中,聚類分析在許多領(lǐng)域中都得到了廣泛的應(yīng)用,取得了許多令人滿意的成果。 聚類分析的基本思想 認(rèn)為所研究的樣品或指標(biāo)之間存在著程

20、度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。 聚類分析的內(nèi)容 聚類分析包括很多種方法,系統(tǒng)聚類法是最基本、最常用的一種,此外還有有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、有重疊聚類等,不同的方法適合解決不同類型的問(wèn)題。 聚類分析的對(duì)象類型 Q型聚類采用距離統(tǒng)計(jì)量,是對(duì)樣品進(jìn)行分類處理 。根據(jù)觀測(cè)有關(guān)變量的特征,將特征相似的樣品歸為一類。它是聚類分析中用的最多的一種,具有以下優(yōu)點(diǎn):1、可綜合利用多個(gè)變量的信息對(duì)樣品

21、進(jìn)行分類;2、分類結(jié)果直觀,聚類譜系圖非常清楚地表現(xiàn)分類結(jié)果;3、所得結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。R型聚類采用相似系數(shù)統(tǒng)計(jì)量,是對(duì)變量進(jìn)行分類處理。一般來(lái)說(shuō),可以反映研究對(duì)象特點(diǎn)的變量有許多,由于對(duì)客觀事物的認(rèn)識(shí)有限,往往難以找出彼此獨(dú)立且有代表性的變量,影響對(duì)問(wèn)題進(jìn)一步的認(rèn)識(shí)和研究,因此往往需要先進(jìn)行變量聚類,找出相互獨(dú)立又有代表性的變量,而又不丟失大部分信息。R型聚類分析的主要作用:1、可了解個(gè)別變量之間及變量組合之間的親疏程度;2、根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回歸分析或Q型聚類分析。 事物之間的相似性測(cè)度 聚類分析用于系統(tǒng)類群相似性的研究,其實(shí)質(zhì)上

22、是尋找一種能客觀反映樣品或變量之間親疏關(guān)系的統(tǒng)計(jì)量,然后根據(jù)這種統(tǒng)計(jì)量把樣品或變量分成若干類。常用的統(tǒng)計(jì)量有距離和相似系數(shù)。用相似系數(shù)度量 是兩個(gè)事物離得多近的度量。性質(zhì)越接近的元素其相似系數(shù)的絕對(duì)值越接近于1;彼此無(wú)關(guān)的元素其相似系數(shù)的絕對(duì)值越接近于0。 相似的元素歸為一類,不相似的元素歸為不同的類。 用距離來(lái)度量 是兩個(gè)事物離得多遠(yuǎn)的度量。將一個(gè)樣品看作空間的一個(gè)點(diǎn),在空間定義距離,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。變量類型的劃分 1、間隔尺度: 是用連續(xù)的實(shí)值變量來(lái)表示的,是由測(cè)量或計(jì)數(shù)、統(tǒng)計(jì)所得到的量。如:經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)、身高、體重、年齡、速度、壓力等。 2、有序

23、尺度: 沒(méi)有明確的數(shù)量表示,而是劃分一些等級(jí),等級(jí)之間有次序關(guān)系。如:畢業(yè)論文成績(jī)有:優(yōu)、良、中、及格、不及格之分;體質(zhì)狀況有好、中、差三個(gè)等級(jí);某產(chǎn)品質(zhì)量可分為一等品、二等品、三等品等。 變量類型的劃分 3、名義尺度: 既沒(méi)有數(shù)量表示,也沒(méi)有次序關(guān)系,而是表現(xiàn)為某種狀態(tài),其值通常是非數(shù)值數(shù)據(jù)。如:性別有男、女;顏色有紅、黃、藍(lán)、綠等;醫(yī)療診斷中的陰性、陽(yáng)性等。 變量類型的劃分 不同類型的變量,其距離和相似系數(shù)的定義方法有很大差異。用得較多的是間隔尺度,因此只介紹間隔尺度的距離和相似系數(shù)的定義。 n個(gè)樣品p項(xiàng)指標(biāo)形成的原始數(shù)據(jù)資料矩陣中,每一行表示一個(gè)樣品,每一列表示一個(gè)變量。因此,兩個(gè)樣品的

24、相似性可用矩陣中兩行的相似程度來(lái)刻劃;兩個(gè)變量的相似性可用矩陣中兩列的相似程度來(lái)刻劃。 1、距離定義:將n個(gè)樣品看成p維空間中的n個(gè)點(diǎn),兩個(gè)樣品間相似程度可用p維空間中兩點(diǎn)的距離來(lái)度量。 (1)絕對(duì)距離 (2)歐氏距離 (3)馬氏距離 (4)切比雪夫距離 計(jì)算出任何兩個(gè)樣品之間的距離排成距離陣D,根據(jù)D可對(duì)n個(gè)點(diǎn)進(jìn)行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。 2、相似系數(shù):將n個(gè)樣品看成p維空間中的n個(gè)向量。(1)夾角余弦(2)相關(guān)系數(shù)以上是樣品分類常用的距離和相似系數(shù)定義,它是在p維空間中來(lái)研究n個(gè)樣品間的相似;而對(duì)變量分類是在n維空間中來(lái)研究p列變量間的相似,其相似性也用距離和相似

25、系數(shù)來(lái)度量。 系統(tǒng)聚類分析方法 系統(tǒng)聚類分析也叫分層聚類分析,是目前國(guó)內(nèi)外使用得最多的一種方法,有關(guān)它的研究極為豐富,聚類分析的方法也最多。 系統(tǒng)聚類的步驟(1)計(jì)算n個(gè)樣品兩兩之間的距離記為矩陣D;(2)首先構(gòu)造n個(gè)類,每一類中只包含一個(gè)樣品;(3)合并距離最近的兩類為新類;(4)繼續(xù)合并,直到所有的樣本合并為一類為止;(5)畫譜系圖;(6)決定類的個(gè)數(shù)和類。系統(tǒng)聚類允許一類整個(gè)地包含在另一類內(nèi),但在這兩類間不能有其他類與之重疊。 系統(tǒng)聚類方法 樣品之間可以用不同的方法定義距離,類與類之間的距離也有多種定義。用不同的方法定義類與類之間的距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。 (1)最短距離法:定

26、義類與類之間距離為兩類最近樣品的距離,使空間濃縮,形成鏈狀,分類效果不好; (2)最長(zhǎng)距離法:定義類與類之間距離為兩類最遠(yuǎn)樣品的距離,受奇異值的影響大; (3)重心法:以兩類重心之間的距離作為兩類間的距離。重心即該類樣品的均值。每合并一次類,都要重新計(jì)算新類的重心。不具單調(diào)性,圖形逆轉(zhuǎn),限制了其應(yīng)用,可能引起局部最優(yōu),但在處理異常值方面較穩(wěn)健。 (4)類平均法: 以兩類元素兩兩之間距離平方的平均作為類間距離的平方。(5)離差平方和法:又稱Ward法,其基本思想是認(rèn)為同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和應(yīng)當(dāng)較大。首先n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,

27、選擇使離差平方和增加最小的兩類合并,直到所有樣品歸為一類。它分類效果較好,應(yīng)用較廣泛,對(duì)異常值較敏感。離差平方和是各項(xiàng)與平均項(xiàng)之差的平方的總和 以上幾種聚類方法,只有兩點(diǎn)區(qū)別:(1)類與類之間距離定義不同;(2)計(jì)算新類與其他類的距離所用的公式不同,因而并類距離不同;各種方法并類步驟完全一樣。在一般情況下,用不同的方法聚類的結(jié)果是不會(huì)完全一致的,怎樣比較各種方法的優(yōu)劣呢?至今還沒(méi)有合適的衡量標(biāo)準(zhǔn),因?yàn)椴淮嬖谝环N總是最優(yōu)的聚類方法。類的結(jié)構(gòu)(規(guī)模、形狀、個(gè)數(shù))、奇異值、相似測(cè)度選擇都會(huì)影響結(jié)果。在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:(1)根據(jù)分類問(wèn)題本身的專業(yè)知識(shí)結(jié)合實(shí)際需要來(lái)選擇分類方法,并

28、確定分類個(gè)數(shù);(2)多用幾種分類方法去作,把結(jié)果中的共性提出來(lái),對(duì)有爭(zhēng)議的樣品用判別分析去歸類。應(yīng)注意的問(wèn)題 (1)在聚類分析中,應(yīng)根據(jù)不同的目的選用不同的指標(biāo)。一般來(lái)說(shuō),選擇哪些變量應(yīng)該具有一定的理論支持,但在實(shí)踐中往往缺乏這樣強(qiáng)有力的理論基礎(chǔ),一般根據(jù)實(shí)際工作經(jīng)驗(yàn)和所研究問(wèn)題的特征人為的選擇變量,這些變量應(yīng)該和分析的目標(biāo)密切相關(guān),反映分類對(duì)象的特征,在不同研究對(duì)象上的值具有明顯差異,變量之間不應(yīng)該高度相關(guān)。選變量時(shí)并不是加入的變量越多,得到的結(jié)果越客觀。有時(shí),加入一兩個(gè)不合適的變量就會(huì)使分類結(jié)果大相徑庭。 變量之間高度相關(guān)相當(dāng)于加權(quán),此時(shí),有兩種處理方法:(1)首先進(jìn)行變量聚類,從每類中選

29、一代表性變量,再進(jìn)行樣品聚類;(2)進(jìn)行主成分分析或因子分析,降維,使之成為不相關(guān)的新變量,再進(jìn)行樣品聚類。 (2)標(biāo)準(zhǔn)化問(wèn)題指標(biāo)選用的度量單位將直接影響聚類分析的結(jié)果。為了避免對(duì)變量單位選擇的依賴,數(shù)據(jù)應(yīng)當(dāng)標(biāo)準(zhǔn)化。數(shù)據(jù)量綱不同時(shí),必須進(jìn)行標(biāo)準(zhǔn)化;但如果量綱相同,可數(shù)量級(jí)相差很大,這時(shí)也應(yīng)該進(jìn)行標(biāo)準(zhǔn)化。應(yīng)注意的問(wèn)題 研究問(wèn)題 對(duì)一個(gè)班同學(xué)的數(shù)學(xué)水平進(jìn)行聚類。聚類的依據(jù)是第一次數(shù)學(xué)考試的成績(jī)和入學(xué)考試的成績(jī)。SPSS中實(shí)現(xiàn)過(guò)程表 學(xué)生的數(shù)學(xué)成績(jī)姓 名第一次成績(jī)?nèi)?學(xué) 成 績(jī)hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.00

30、78.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00數(shù)據(jù)如下表所示: 實(shí)現(xiàn)步驟在SPSS中如何選擇標(biāo)準(zhǔn)化方法:Analyze Classify Hierachical Cluster Analysis 然后從對(duì)話框中進(jìn)行如下選擇“Hierarchical Cluster Analysis”對(duì)話框(一) “Hierarchical Cluster Analysis:Method”對(duì)話框(一) 從Transform Values框中點(diǎn)擊向下箭頭,將出現(xiàn)如下可選項(xiàng),從中選一即可:1、數(shù)據(jù)標(biāo)準(zhǔn)化

31、常用標(biāo)準(zhǔn)化方法(選項(xiàng)說(shuō)明):None:不進(jìn)行標(biāo)準(zhǔn)化,這是系統(tǒng)默認(rèn)值為了便于后面的說(shuō)明,作如下假設(shè):均值表示為標(biāo)準(zhǔn)差表示為所有樣本表示為極差表示為Z Scores:標(biāo)準(zhǔn)化變換作用:變換后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1,消去了量綱的影響;當(dāng)抽樣樣本改變時(shí),它仍能保持相對(duì)穩(wěn)定性。Range 1 to 1:極差標(biāo)準(zhǔn)化變換作用:變換后的數(shù)據(jù)均值為0,極差為1,且|xij*|1,消去了量綱的影響;在以后的分析計(jì)算中可以減少誤差的產(chǎn)生。Maximum magnitude of 1作用:變換后的數(shù)據(jù)最大值為1。Range 0 to 1(極差正規(guī)化變換 / 規(guī)格化變換)作用:變換后的數(shù)據(jù)最小為0,最大為1,其余在區(qū)

32、間0,1內(nèi),極差為1,無(wú)量綱。Mean of 1作用:變換后的數(shù)據(jù)均值為1。Standard deviation of 1作用:變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1。在SPSS中如何選擇測(cè)度:Analyze Classify Hierachical Cluster Analysis Method 然后從對(duì)話框中進(jìn)行如下選擇2、構(gòu)造關(guān)系矩陣描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種:相關(guān)系數(shù)距離從Measure框中點(diǎn)擊Interval項(xiàng)的向下箭頭,將出現(xiàn)如左可選項(xiàng),從中選一即可。常用測(cè)度(選項(xiàng)說(shuō)明):Euclidean distance:歐氏距離(二階Minkowski距離)用途:聚類分析中用得最廣泛的距離但與

33、各變量的量綱有關(guān),未考慮指標(biāo)間的相關(guān)性,也未考慮各變量方差的不同Squared Euclidean distance:平方歐氏距離用途:聚類分析中用得最廣泛的距離Cosine:夾角余弦(相似性測(cè)度)用途:計(jì)算兩個(gè)向量在原點(diǎn)處的夾角余弦。當(dāng)兩夾角為0o時(shí),取值為1,說(shuō)明極相似;當(dāng)夾角為90o時(shí),取值為0,說(shuō)明兩者不相關(guān)。取值范圍:01Pearson correlation:皮爾遜相關(guān)系數(shù)用途:計(jì)算兩個(gè)向量的皮爾遜相關(guān)系數(shù)Chebychev:切比雪夫距離用途:計(jì)算兩個(gè)向量的切比雪夫距離Block:絕對(duì)值距離(一階Minkowski度量)(又稱Manhattan度量或網(wǎng)格度量)用途:計(jì)算兩個(gè)向量的絕

34、對(duì)值距離Minkowski:明科夫斯基距離用途:計(jì)算兩個(gè)向量的明科夫斯基距離Customized:自定義距離用途:計(jì)算兩個(gè)向量的自定義距離SPSS中如何選擇系統(tǒng)聚類方法從Cluster Method框中點(diǎn)擊向下箭頭,將出現(xiàn)如左可選項(xiàng),從中選一即可。Between-groups linkage 組間平均距離連接法特點(diǎn):非最大距離,也非最小距離方法簡(jiǎn)述:合并兩類的結(jié)果使所有的兩兩項(xiàng)對(duì)之間的平均距離最小。(項(xiàng)對(duì)的兩成員分屬不同類)Within-groups linkage 組內(nèi)平均連接法方法簡(jiǎn)述:兩類合并為一類后,合并后的類中所有項(xiàng)之間的平均距離最小常用系統(tǒng)聚類方法介紹Nearest neighbo

35、r 最近鄰法(最短距離法)特點(diǎn):樣品有鏈接聚合的趨勢(shì),這是其缺點(diǎn),不適合一般數(shù)據(jù)的分類處理,除去特殊數(shù)據(jù)外,不提倡用這種方法。方法簡(jiǎn)述:首先合并最近或最相似的兩項(xiàng)Furthest neighbor 最遠(yuǎn)鄰法(最長(zhǎng)距離法)方法簡(jiǎn)述:用兩類之間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離,也稱之為完全連接法Centroid clustering 重心聚類法特點(diǎn):該距離隨聚類地進(jìn)行不斷縮小。該法的譜系樹狀圖很難跟蹤,且符號(hào)改變頻繁,計(jì)算較煩。方法簡(jiǎn)述:兩類間的距離定義為兩類重心之間的距離,對(duì)樣品分類而言,每一類中心就是屬于該類樣品的均值Median clustering 中位數(shù)法特點(diǎn):圖形將出現(xiàn)遞轉(zhuǎn),譜系樹狀圖很

36、難跟蹤,因而這個(gè)方法幾乎不被人們采用。方法簡(jiǎn)述:兩類間的距離既不采用兩類間的最近距離,也不采用最遠(yuǎn)距離,而采用介于兩者間的距離Wards method 離差平方和法特點(diǎn):實(shí)際應(yīng)用中分類效果較好,應(yīng)用較廣;要求樣品間的距離必須是歐氏距離。方法簡(jiǎn)述:基于方差分析思想,如果分類合理,則同類樣品間離差平方和應(yīng)當(dāng)較小,類與類間離差平方和應(yīng)當(dāng)較大生成樹形圖生成冰柱圖凝聚狀態(tài)表,顯示聚類過(guò)程各項(xiàng)間的距離矩陣類成員欄“Hierarchical Cluster Analysis:Plots”“Hierarchical Cluster Analysis:Statistics”對(duì)話框(一) 由于本例中選中的選項(xiàng)較多

37、,這里按照各個(gè)結(jié)果分別解釋。 (1)首先是層次聚類分析的概要結(jié)果,該結(jié)果是SPSS輸出結(jié)果文件中的第一個(gè)表格,如下表所示。結(jié)果和討論(2)輸出的結(jié)果文件中第二個(gè)表格如下表所示。歐氏距離(3)輸出的結(jié)果文件中第三個(gè)表格為層次聚類分析的凝聚狀態(tài)表,包括:(4)輸出的結(jié)果文件中第四個(gè)表格如下表所示。(5)輸出的結(jié)果文件中第五個(gè)表格如下表所示。反映樣品聚類的情況圖 (6)輸出的結(jié)果文件中第六部分如圖所示。樹形圖(7)由于對(duì)“Hierarchical Cluster Analysis: Save New Var”對(duì)話框進(jìn)行了設(shè)置,將聚類成三類時(shí),各個(gè)樣本的類歸屬情況保存為一個(gè)變量,因此在SPSS數(shù)據(jù)編輯

38、窗口中就新增了一個(gè)變量的值,如圖所示。 前面講述了不同種聚類分析的方法,不論是哪種方法,聚類分析都是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。六、判 別 分 析判別分析,也是一種比較常用的分類分析方法。 定義:判別分析先根據(jù)已知類別的事物的性質(zhì)(自變量),建立函數(shù)式(自變量的線性組合,即判別函數(shù)),然后對(duì)未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。統(tǒng)計(jì)學(xué)上的定義和計(jì)算公式 研究問(wèn)題 調(diào)查了15個(gè)公司的組織文化、領(lǐng)導(dǎo)角色和員工發(fā)展3個(gè)方面內(nèi)容作為預(yù)測(cè)變量,因變量為公司對(duì)員工的吸引力。為符合研究問(wèn)題,將公司對(duì)員工的吸引力根據(jù)被測(cè)的實(shí)際填答情形,劃分為高吸引力

39、組(group=1)、中吸引力組(group=2)和低吸引力組(group=3)。表 不同類的不同公司特點(diǎn)公 司組 織 文 化領(lǐng) 導(dǎo) 角 色員 工 發(fā) 展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001聯(lián)想99.0078.0080.001NPP88.0089.0090.002北京電子79.0095.0097.003清華紫光89.0081.0082.001北大方正75.0095.0096.001TCLE60.0085.0088.003世紀(jì)成79.0050.0051.

40、002Angel75.0088.0089.001Hussar160.0089.0090.003世紀(jì)飛揚(yáng)100.0085.0084.003Vinda61.0089.0060.003數(shù)據(jù)如表所示。判別分析有如下的假定: 預(yù)測(cè)變量服從正態(tài)分布。 預(yù)測(cè)變量之間沒(méi)有顯著的相關(guān)。 預(yù)測(cè)變量的平均值和方差不相關(guān)。 預(yù)測(cè)變量應(yīng)是連續(xù)變量,因變量(類別或組別)是間斷變量。 兩個(gè)預(yù)測(cè)變量之間的相關(guān)性在不同類中是一樣的。在分析的各個(gè)階段應(yīng)把握如下的原則: 事前組別(類)的分類標(biāo)準(zhǔn)(作為判別分析的因變量)要盡可能準(zhǔn)確和可靠,否則會(huì)影響判別函數(shù)的準(zhǔn)確性,從而影響判別分析的效果。 所分析的自變量應(yīng)是因變量的重要影響因素,

41、應(yīng)該挑選既有重要特性又有區(qū)別能力的變量,達(dá)到以最少變量而有高辨別能力的目標(biāo)。 初始分析的數(shù)目不能太少。這些判別函數(shù)是各個(gè)獨(dú)立預(yù)測(cè)變量的線性組合。程序自動(dòng)選擇第一個(gè)判別函數(shù),以盡可能多地區(qū)別各個(gè)類,然后再選擇和第一個(gè)判別函數(shù)獨(dú)立的第二個(gè)判別函數(shù),盡可能多地提供判別能力。程序?qū)凑者@種方式,提供剩下的判別函數(shù)。判別函數(shù)的個(gè)數(shù)為k。 判別分析的示意圖 研究問(wèn)題 調(diào)查了15個(gè)公司的組織文化、領(lǐng)導(dǎo)角色和員工發(fā)展3個(gè)方面內(nèi)容作為預(yù)測(cè)變量,因變量為公司對(duì)員工的吸引力。為符合研究問(wèn)題,將公司對(duì)員工的吸引力根據(jù)被測(cè)的實(shí)際填答情形,劃分為高吸引力組(group=1)、中吸引力組(group=2)和低吸引力組(gr

42、oup=3)。SPSS中實(shí)現(xiàn)過(guò)程表 不同類的不同公司特點(diǎn)公 司組 織 文 化領(lǐng) 導(dǎo) 角 色員 工 發(fā) 展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001聯(lián)想99.0078.0080.001NPP88.0089.0090.002北京電子79.0095.0097.003清華紫光89.0081.0082.001北大方正75.0095.0096.001TCLE60.0085.0088.003世紀(jì)成79.0050.0051.002Angel75.0088.0089.001H

43、ussar160.0089.0090.003世紀(jì)飛揚(yáng)100.0085.0084.003Vinda61.0089.0060.003數(shù)據(jù)如表所示。 實(shí)現(xiàn)步驟圖 在菜單中選擇“Discriminant”命令指定判別分析的自變量在Minimum:后面的矩形框中輸入該分類變量的最小值;在Maximurn:后面的矩形框中輸入該分類變量的最大值。 選擇分類變量及其范圍 選擇判別分析方法 在主對(duì)話框中,自變量列表框下側(cè)顯示兩個(gè)單選框,用于指定選擇判別分析的方法。選擇判別分析方法 Enter independents together 默認(rèn)選項(xiàng)。 當(dāng)認(rèn)為所有自變量都能對(duì)觀測(cè)特性提供豐富的信息時(shí),使用該選項(xiàng),選擇

44、該項(xiàng)將不加選擇地使用所有自變量進(jìn)行判別分析,建立全模型,且不需要進(jìn)一步選擇。 Use stepwise method 逐步分析方法。 當(dāng)認(rèn)為不是所有自變量都能對(duì)觀測(cè)量特性提供豐的信息時(shí),選擇該項(xiàng),因此需要判別貢獻(xiàn)的大小再進(jìn)行選擇。選中該單選按鈕時(shí),“Method”按鈕被激活,可以進(jìn)一步選擇判別分析方法?!癕ethod”按鈕選擇判別分析方法在Method組的矩形框中進(jìn)行??晒┻x擇的判別分析方法有:Wilkslambda 使Wilk的統(tǒng)計(jì)量最小化法。Unexplained variance。使各類不可解釋的方差和最小化法。Mahalanobisdistance。使最近兩類間的 Mahalanobi

45、s距離最大化法。Smallest F ratio。使任何兩類間的最小的F值最大化法。Raos V。使 RaoV統(tǒng)計(jì)量最大化??梢詫?duì)一個(gè)要加入到模型中的變量的V值指定一個(gè)最小增量。選擇此種方法后,應(yīng)該在該項(xiàng)下面的V-to-enter后的矩形框中輸這個(gè)增量的指定值。選擇逐步判別停止的判據(jù)在criteria組的矩形框中進(jìn)行??晒┻x擇的判據(jù)有:Use F value:使用F值,是系統(tǒng)默認(rèn)的判據(jù),默認(rèn)值是:Entry:3.84;removal:2.71。即當(dāng)被加入的變量F值=3.84時(shí)才把該變量加入到模型中,否則變量不能進(jìn)入模型;或者,當(dāng)要從模型中移出的變量F值=2.71時(shí),該變量才被移出模型,否則模型

46、中的變量不會(huì)被移出。應(yīng)該使Entry值(加入變量的F值)removal值(移出變量的F值)Use probability of F:使用F值的概率。加入變量的F值概率的默認(rèn)值是0.05(5);移出變量的q值概率是0.10(10)。removal值(移出變量的正值概率)Entry值(加入變量的F值概率)。顯示內(nèi)容的選擇對(duì)于逐步選擇變量的過(guò)程和最后結(jié)果的顯示可以通過(guò)Method對(duì)話框最下面的“Display”矩形框中的兩項(xiàng)進(jìn)行選擇: Summary of step要求在逐步選擇變量過(guò)程中的每一步之后顯示每個(gè)變量的統(tǒng)計(jì)量。 F for pairwise distances要求顯示兩兩類之間的兩兩F值

47、矩陣。Statistics選項(xiàng) 在主對(duì)話框中單擊“statistics”按鈕,打開(kāi)“Discriminant Anlysis:statistics”(判別分析:統(tǒng)計(jì)量)對(duì)話框,如圖所示。“Discriminant Anlysis:statistics” 對(duì)話框在“descriptive”(描述性)選項(xiàng)組中選擇對(duì)原始數(shù)據(jù)的描述統(tǒng)計(jì)量的輸出。Means 均值。選擇該項(xiàng),可以輸出各類中各自變量的均值、標(biāo)準(zhǔn)差以及各自變量總樣本的均值和標(biāo)準(zhǔn)差。Univariate ANOVAs 單變量方差分析。選擇該項(xiàng),表示對(duì)每一類同一自變量均值都相等的假設(shè)進(jìn)行檢驗(yàn),輸出單變量的方差分析結(jié)果。Boxs M 選擇該項(xiàng),表

48、示對(duì)各類的協(xié)方差矩陣相等的假設(shè)進(jìn)行檢驗(yàn)。 “Function Coefficients”(判別分析的系數(shù))選項(xiàng)組中給出選擇判別函數(shù)系數(shù)的輸出形式的選項(xiàng),有兩個(gè)復(fù)選項(xiàng):Fishers 選擇該項(xiàng),表示可以用于對(duì)新樣本進(jìn)行判別分類的fisher系數(shù),對(duì)每一類給出一組系數(shù),并給出該組中判別分?jǐn)?shù)最大的觀測(cè)量。Unstandardized 選擇該項(xiàng),表示未經(jīng)標(biāo)準(zhǔn)化處理的判別系數(shù)。在“matrices”(矩陣)選項(xiàng)組中選擇自變量的系數(shù)矩陣,有4個(gè)復(fù)選項(xiàng):Within-group correlation類內(nèi)相關(guān)矩陣。它計(jì)算相關(guān)矩陣之前將各組協(xié)方差矩陣平均后,計(jì)算類內(nèi)相關(guān)矩陣。Within-group cova

49、riance合并類內(nèi)協(xié)方差矩陣,是將各組(類)協(xié)方差矩陣平均后計(jì)算的,區(qū)別與總協(xié)方差矩陣。Separate-groups covariance 協(xié)方差矩陣。Total covariance 總樣本的協(xié)方差矩陣。Classification 選項(xiàng) 在主對(duì)話框中單擊“classify”按鈕,顯示“Discriminant Analysis:Classification”(判別分析:分類)子對(duì)話框,如圖所示?!癉iscriminant Analysis:Classification” 對(duì)話框在“prior probabilities”選項(xiàng)組中選擇先驗(yàn)概率,有兩個(gè)單選項(xiàng)供選擇:All groups e

50、qual 表示各類先驗(yàn)概率相等。Compute from groups sizes 表示由各類的樣本量計(jì)算決定,即各類的先驗(yàn)概率與其樣本量成正比。在“use covariance matrix”(利用協(xié)方差矩陣)選項(xiàng)組中選擇分類使用的協(xié)方差矩陣,有兩個(gè)單選項(xiàng):Within-groups選擇該項(xiàng),表示指定使用合并組內(nèi)協(xié)方差矩陣進(jìn)行分類。Separate-groups選擇該項(xiàng),表示指定使用各組協(xié)方差矩陣進(jìn)行分類,由于分類是根據(jù)判別函數(shù)而不是根據(jù)原始變量,因此該選擇項(xiàng)不是總等價(jià)于二次判別。在“plots”選項(xiàng)組中選擇要求輸入的統(tǒng)計(jì)圖形,給出3個(gè)復(fù)選項(xiàng):Combined-groups選擇該項(xiàng),生成一張

51、包括各類的散點(diǎn)圖,該散點(diǎn)圖是根據(jù)前兩個(gè)判別函數(shù)值做的散點(diǎn)圖;如果只有一個(gè)判別函數(shù),就輸出直方圖。Separate-groups選擇該項(xiàng),根據(jù)前兩個(gè)判別函數(shù)值對(duì)每一類生成一張散點(diǎn)圖,共分為幾類就生成幾張散點(diǎn)圖;如果只有一個(gè)判別函數(shù)就生成一張直方圖。Territorial map選擇該項(xiàng),生成用于根據(jù)函數(shù)值把觀測(cè)量分到各組中去的邊界圖,此種統(tǒng)計(jì)圖把一張圖的平面劃分出與類數(shù)相同的區(qū)域,每一類占據(jù)一個(gè)區(qū),各類的均值在各區(qū)中用*號(hào)標(biāo)出;如果僅有一個(gè)判別函數(shù)則不作此圖。在“display”選項(xiàng)組中選擇生成到輸出窗中的分類結(jié)果,其中包括3個(gè)復(fù)選框:Casewise results 要求輸出每個(gè)管測(cè)量,包括判

52、別分?jǐn)?shù)實(shí)際類預(yù)測(cè)類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗(yàn)概率等,選擇此項(xiàng)還可以選擇其附屬選擇項(xiàng),選擇“Limit cases to”(個(gè)案限制)選項(xiàng),并在后面的文本框中輸入觀測(cè)量數(shù)n,選擇此項(xiàng)則僅對(duì)前n個(gè)觀測(cè)量輸出分類結(jié)果,觀測(cè)數(shù)量大時(shí)可以選擇此項(xiàng)。 Summary table 要求輸出分類的綜述表,給出正確分類觀測(cè)數(shù)(原始類和根據(jù)判別函數(shù)計(jì)算的預(yù)測(cè)類相同)和錯(cuò)分觀測(cè)量數(shù)即錯(cuò)分率。 Leave-one-out classification 輸出對(duì)每個(gè)觀測(cè)量進(jìn)行分類的結(jié)果,所依據(jù)的判別時(shí)由除該觀測(cè)量以外的其他觀測(cè)量導(dǎo)出的,也稱為交互校驗(yàn)結(jié)果。該對(duì)話框給出選擇缺失值的處理方法,即“Replace m

53、issing values with mean”,表示用該變量的均值代替缺失值。Save選項(xiàng)在主對(duì)話框單擊“save”按鈕,打開(kāi)“Discriminant Analysis:Save”(判別分析:保存)對(duì)話框,如圖所示。 該對(duì)話框用于指定生成并保存在數(shù)據(jù)文件中的新變量,其中包括如下選項(xiàng): Predicted groups membership 選擇該項(xiàng),要求建立一個(gè)新變量預(yù)測(cè)觀測(cè)量的分類,是根據(jù)判別分?jǐn)?shù)把觀測(cè)量按后驗(yàn)概率最大指派所屬的類,每運(yùn)行一次“Discriminant”過(guò)程就建立一個(gè),表民使用判別函數(shù)預(yù)測(cè)各觀測(cè)量屬于哪一類的新變量。第一次運(yùn)行建立新變量的變量名為dis_1,如果在工作數(shù)據(jù)

54、文件中不把前一次建立的新變量刪除,第n次運(yùn)行建立的新變量名為dis_n。 Discriminant scores 選擇該項(xiàng),要求建立表明判別分?jǐn)?shù)的新變量,該分?jǐn)?shù)是由未標(biāo)準(zhǔn)化的判別系數(shù)乘自變量的值,將這些乘積求和后加上常數(shù)得來(lái)的。每次運(yùn)行“Discriminant”過(guò)程就給出一組表明判別分?jǐn)?shù)的新變量,建立幾個(gè)判別函數(shù)就有幾個(gè)判別分?jǐn)?shù)變量參與分析的觀測(cè)量,共分為m類,則建立m個(gè)點(diǎn)則判別函數(shù)指定該選擇項(xiàng)就可以生成m-1個(gè)表明判別分?jǐn)?shù)的新變量。 Probabilities of groups membership 選擇該項(xiàng),要求建立新變量表明觀測(cè)量屬于某一類的概率。如果有m類,對(duì)一個(gè)觀測(cè)量就會(huì)給出m個(gè)

55、概率值,因此建立m個(gè)新變量。(1)SPSS輸出結(jié)果文件中的第一部分如下表所示。結(jié)果和討論分析個(gè)案綜合統(tǒng)計(jì)量(2)輸出的結(jié)果文件中第二部分如下表所示。 分組統(tǒng)計(jì)量。表中給出分組變量和合計(jì)的均數(shù)(means)、標(biāo)準(zhǔn)差(standard deviation)和有效個(gè)案的例數(shù)。其中值得關(guān)注的是均值一欄,它是后面計(jì)算的基礎(chǔ) (3)輸出的結(jié)果文件中第三部分如下表所示。各組均值相等檢驗(yàn) 這張表是預(yù)測(cè)變量在各組間均值是否相等的假設(shè)檢驗(yàn)。包含Wilks lambda,F(xiàn) 統(tǒng)計(jì)量和它的自由度和顯著性水平。Wilks lambda是組內(nèi)平方和與總平方和的比,值的范圍在0到1之間。值越小表示組間有很大的差異。值接近1

56、表示沒(méi)有組間差異。 F 統(tǒng)計(jì)量是組間均方與組內(nèi)均方的比。有兩個(gè)自由度,分子為df1分母為df2。分子和分母自由度用來(lái)得到觀測(cè)顯著性水平。如果顯著性水平值很?。ū热缯f(shuō)小于0.10)表示組間差異顯著。如果顯著性水平較大(比如說(shuō)大于0.10)表示組間差異不顯著。 (4)輸出的結(jié)果文件中第四部分如下表所示。聯(lián)合組內(nèi)協(xié)方差陣聯(lián)合組內(nèi)協(xié)方差陣顯示一個(gè)協(xié)方差陣和一個(gè)相關(guān)矩陣。上半部分是聯(lián)合組內(nèi)協(xié)方差矩陣,由3組的組內(nèi)協(xié)方差陣相加構(gòu)成。下半部的聯(lián)合組內(nèi)相關(guān)矩陣是由聯(lián)合組內(nèi)協(xié)方差矩陣變換而來(lái)的。(5)輸出的結(jié)果文件中第五個(gè)部分為組間的協(xié)方差矩陣,如下表所示。組間的協(xié)方差矩陣 判別分析的假設(shè)之一就是各組協(xié)方差陣相

57、同。方差顯示在主對(duì)角線上,協(xié)方差為各組交叉處。使用協(xié)方差陣和組內(nèi)散布圖可以幫助確定檢驗(yàn)協(xié)方差相等的假設(shè)。 (6)輸出的結(jié)果文件中第六個(gè)部分如下兩個(gè)表格所示。Boxs協(xié)方差矩陣相等檢驗(yàn)(7)輸出的結(jié)果文件中第七個(gè)部分如下表所示。典型判別函數(shù)的特征函數(shù)的特征值表。其特征值(Eigenvalues)為組間平方和與組內(nèi)平方和之比,典型相關(guān)系數(shù)(Canonical Correlation)。本表包含特征根,方差百分比,累計(jì)百分比和典型判別函數(shù)。 (8)輸出的結(jié)果文件中第八個(gè)部分如下表所示。典型判別分析的Wilks檢驗(yàn)結(jié)果。檢驗(yàn)判別函數(shù)的顯著性水平 第一欄test of functions 表示每步中判別

58、函數(shù)被移去后的函數(shù)值。 1 through 2表示沒(méi)有函數(shù)被移去。原假設(shè)為各組中所有判別函數(shù)的總體均值相等。如果顯著,表示前兩個(gè)判別函數(shù)的聯(lián)合效果顯著,通常會(huì)視為最大的判別函數(shù)顯著。 2表示前一個(gè)判別函數(shù)被移去后的顯著性檢驗(yàn)。如果顯著,表示第二個(gè)判別函數(shù)也顯著。(9)輸出的結(jié)果文件中第九個(gè)部分如下表所示。典型判別函數(shù)的系數(shù):根據(jù)判別函數(shù)方程的標(biāo)準(zhǔn)化系數(shù),確定各變量對(duì)結(jié)果的作用大小,標(biāo)準(zhǔn)化判別函數(shù)系數(shù)可以看出預(yù)測(cè)變量在組成判別函數(shù)時(shí)的相對(duì)貢獻(xiàn),如本例,第一判別函數(shù)的“領(lǐng)導(dǎo)角色”項(xiàng)比較重要,第二判別函數(shù)在“組織文化”項(xiàng)上比較重要。標(biāo)準(zhǔn)判別函數(shù)系數(shù)的計(jì)算是由非標(biāo)準(zhǔn)化判別函數(shù)系數(shù)乘以聯(lián)合組內(nèi)協(xié)方差矩陣

59、主對(duì)角的平方根得來(lái)。(10)輸出的結(jié)果文件中第十個(gè)部分如下表所示。結(jié)構(gòu)矩陣 結(jié)構(gòu)系數(shù)即預(yù)測(cè)變量與典型判別函數(shù)的聯(lián)合組內(nèi)相關(guān)系數(shù)。(11)輸出的結(jié)果文件中第十一個(gè)部分如下表所示。各組在判別函數(shù)上的重心可以看出三組在第一判別函數(shù)上的重心明顯不同(-0.202,-1.228,0. 814),因此第一判別函數(shù)可以明顯地區(qū)分三組, 而第二判別函數(shù)對(duì)區(qū)分三組并不是十分明顯。組二與組三相差不明顯。 (12)輸出的結(jié)果文件中第十二個(gè)部分包括3個(gè)分類統(tǒng)計(jì)信息表格 分類函數(shù)處理匯總。已處理15個(gè)觀測(cè)量,沒(méi)有缺失值。 各組先驗(yàn)概率 分類函數(shù)系數(shù) 用貝葉斯判別分析法產(chǎn)生的分類函數(shù)系數(shù)。(13)輸出的結(jié)果文件中第十三個(gè)

60、部分為每一個(gè)個(gè)案的實(shí)際分組摘要表。如下表所示。如果此處和第三大欄的預(yù)測(cè)組別不同,會(huì)加上兩個(gè)星號(hào),表示重新分類錯(cuò)誤的觀測(cè)值。 案例編號(hào)實(shí)際組別預(yù)測(cè)組別最高概率組別次最高概率組別判別得分(14)輸出的結(jié)果文件中第十四個(gè)部分如所示。根據(jù)判別得分做出的散點(diǎn)圖(15)輸出的結(jié)果文件中第十五個(gè)部分如下:分類結(jié)果交叉表,上半部分為原始分類的結(jié)果,下半部分為交叉分類的結(jié)果。第一欄為實(shí)際組別,第一行為預(yù)測(cè)組別。 (16)在實(shí)現(xiàn)過(guò)程中曾指定了將判別分析的結(jié)果作為樣本的變量保存到SPSS的數(shù)據(jù)編輯窗口中。SPSS運(yùn)行后,數(shù)據(jù)編輯窗口如圖所示。小 結(jié)聚類分析的實(shí)質(zhì)是建立一種分類方法,將一批樣本數(shù)據(jù)按照他們?cè)谛再|(zhì)上的密

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論