多元分析數(shù)模_第1頁
多元分析數(shù)模_第2頁
多元分析數(shù)模_第3頁
多元分析數(shù)模_第4頁
多元分析數(shù)模_第5頁
已閱讀5頁,還剩128頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1頁,共133頁,2023年,2月20日,星期四1、多元線性回歸模型及實例2、多元線性回歸模型的顯著性檢驗3、多元線性回歸模型的診斷4、非線性回歸一、多元回歸分析第2頁,共133頁,2023年,2月20日,星期四

1、多元線性回歸模型

一個因變量與兩個及兩個以上自變量的回歸。描述因變量y如何依賴于自變量x1,x2,…,xp

和誤差項

的方程,稱為多元回歸模型。涉及k個自變量的多元回歸模型可表示為:

b0

,b1,b2

,,bp是參數(shù);

是被稱為誤差項的隨機(jī)變量;y是x1,,x2

,,xp

的線性函數(shù)加上誤差項;

包含在y里面但不能被p個自變量的線性關(guān)系所解釋的變異性。第3頁,共133頁,2023年,2月20日,星期四多元線性回歸模型

(基本假定)1.解釋變量x1,x2,…,xp是確定性變量.不是隨機(jī)變量,且要求樣本容量的個數(shù)應(yīng)大于解釋變量的個數(shù)。2.誤差項ε是一個期望值為0的隨機(jī)變量,即E()=0。3.對于自變量x1,x2,…,xp的所有值,的方差2都相同。4.誤差項ε是一個服從正態(tài)分布的隨機(jī)變量,即ε~N(0,2),且相互獨(dú)立。第4頁,共133頁,2023年,2月20日,星期四二元線性回歸方程的直觀解釋二元線性回歸模型(觀察到的y)回歸面0ix1yx2(x1,x2)}第5頁,共133頁,2023年,2月20日,星期四

多元線性回歸方程的參數(shù)估計

用樣本統(tǒng)計量估計回歸方程中的參數(shù)

時得到的方程。由最小二乘法求得。一般形式為是的估計值;是y的估計值。第6頁,共133頁,2023年,2月20日,星期四參數(shù)的最小二乘法求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下使因變量的觀察值與估計值之間的離差平方和達(dá)到最小來求得

。即第7頁,共133頁,2023年,2月20日,星期四參數(shù)的最小二乘法

(例題分析)例1生產(chǎn)總值是衡量一個國家地區(qū)經(jīng)濟(jì)發(fā)展的重要指標(biāo),影響一個國家或地區(qū)生產(chǎn)總值的因素包括資本、資源、科技、勞動力、進(jìn)出口、國家基礎(chǔ)設(shè)施建設(shè)等方面的因素。本例研究財政支出對生產(chǎn)總值的影響。《中國統(tǒng)計年鑒》把財政支出劃分為31個組成部分,本例只選取其中的13個重要支出項。第8頁,共133頁,2023年,2月20日,星期四回歸系數(shù)表用spss軟件計算的回歸系數(shù)如下:第9頁,共133頁,2023年,2月20日,星期四

需要注意的是,這一回歸方程并不理想,回歸系數(shù)的經(jīng)濟(jì)意義不好解釋,這里只是作為多元線性回歸參數(shù)估計的一例,后邊我們還要進(jìn)一步完善這一模型的建立。第10頁,共133頁,2023年,2月20日,星期四2、回歸方程顯著性檢驗檢驗因變量與所有自變量之間的線性關(guān)系是否顯著;也被稱為總體的顯著性檢驗。檢驗方法是將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗來分析二者之間的差別是否顯著如果是顯著的,因變量與自變量之間存在線性關(guān)系;如果不顯著,因變量與自變量之間不存在線性關(guān)系。第11頁,共133頁,2023年,2月20日,星期四線性關(guān)系檢驗提出假設(shè)H0:12p=0線性關(guān)系不顯著H1:1,2,p至少有一個不等于02.計算檢驗統(tǒng)計量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F

4.作出決策:若F>F

,拒絕H0第12頁,共133頁,2023年,2月20日,星期四表中的Sig即為顯著性P值,由P值=0.000(近似值)可知回歸方程十分顯著。即可以以99.9%以上的概率斷言自變量所有自變量全體對因變量產(chǎn)生顯著線性影響。對例1回歸方程的檢驗:

第13頁,共133頁,2023年,2月20日,星期四回歸系數(shù)顯著性檢驗線性關(guān)系檢驗通過后,對各個回歸系數(shù)有選擇地進(jìn)行一次或多次檢驗對每一個自變量都要單獨(dú)進(jìn)行檢驗應(yīng)用t檢驗統(tǒng)計量第14頁,共133頁,2023年,2月20日,星期四回歸系數(shù)的檢驗步驟提出假設(shè)H0:bi=0(自變量xi

因變量y沒有線性關(guān)系)H1:bi

0(自變量xi

因變量y有線性關(guān)系)計算檢驗的統(tǒng)計量t確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不拒絕H0第15頁,共133頁,2023年,2月20日,星期四回歸系數(shù)的推斷

(置信區(qū)間)回歸系數(shù)在(1-)%置信水平下的置信區(qū)間為

回歸系數(shù)的抽樣標(biāo)準(zhǔn)差第16頁,共133頁,2023年,2月20日,星期四例4.1spss計算出的t值和P值對回歸系數(shù)的檢驗:第17頁,共133頁,2023年,2月20日,星期四結(jié)果發(fā)現(xiàn):

并不是所有的自變量單獨(dú)對因變量都有顯著性影響,最大的P值為0.926>0.05,在取顯著性水平a=0.05時通不過顯著性檢驗。這個例子說明:盡管回歸方程通過了顯著性檢驗,但也會出現(xiàn)某些單個自變量(甚至每一個)對因變量并不顯著的情況。由于某些自變量不顯著,因而在多元回歸中并不是包含在回歸方程中的自變量越多越好。第18頁,共133頁,2023年,2月20日,星期四在此介紹一種剔除多余自變量的方法剔除x3科技三項費(fèi)后:第19頁,共133頁,2023年,2月20日,星期四剔除x6工交部門事業(yè)費(fèi)后:第20頁,共133頁,2023年,2月20日,星期四依次剔除,最終只保留x1,x2,x4,x8,x10,x11,x12,x13,其回歸系數(shù)見下表:第21頁,共133頁,2023年,2月20日,星期四多元線性回歸分析操作(一)基本操作步驟(1)菜單選項:analyze->regression->linear…(2)選擇一個變量為因變量進(jìn)入dependent框(3)選擇一個或多個變量為自變量進(jìn)入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對樣本進(jìn)行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)第22頁,共133頁,2023年,2月20日,星期四多元線性回歸分析操作(二)statistics選項(1)基本統(tǒng)計量輸出Partandpartialcorrelation:與Y的簡單相關(guān)、偏相關(guān)和部分相關(guān)Rsquarechange:每個自變量進(jìn)入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.第23頁,共133頁,2023年,2月20日,星期四多元線性回歸分析操作例2某醫(yī)生為了探討缺碘地區(qū)母嬰TSH水平的關(guān)系,隨機(jī)抽取10對數(shù)據(jù)如下,試求臍帶血TSH水平y(tǒng)對母血TSH水平x的直線回歸方程。第24頁,共133頁,2023年,2月20日,星期四第25頁,共133頁,2023年,2月20日,星期四Analyze

→Regression→Linear…

檢驗步驟第26頁,共133頁,2023年,2月20日,星期四LinearRegression對話框應(yīng)變量自變量計算統(tǒng)計量第27頁,共133頁,2023年,2月20日,星期四Statistics對話框回歸系數(shù)估計回歸系數(shù)可信區(qū)間模型檢驗統(tǒng)計描述第28頁,共133頁,2023年,2月20日,星期四點(diǎn)擊“OK”,運(yùn)行結(jié)果第29頁,共133頁,2023年,2月20日,星期四結(jié)果輸出第30頁,共133頁,2023年,2月20日,星期四統(tǒng)計描述第31頁,共133頁,2023年,2月20日,星期四相關(guān)系數(shù)及假設(shè)檢驗結(jié)果P值相關(guān)系數(shù)第32頁,共133頁,2023年,2月20日,星期四相關(guān)系數(shù)及決定系數(shù)R值=相關(guān)系數(shù)R的平方修正的R方第33頁,共133頁,2023年,2月20日,星期四回歸方程的方差分析回歸平方和剩余平方和自由度均方F值P值第34頁,共133頁,2023年,2月20日,星期四回歸系數(shù)及其統(tǒng)計推斷結(jié)果標(biāo)準(zhǔn)化系數(shù)是指把原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理之后回歸的結(jié)果。此時回歸方程中常數(shù)項為零。第35頁,共133頁,2023年,2月20日,星期四回歸系數(shù)及其統(tǒng)計推斷結(jié)果常數(shù)項自變量非標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù)a值b值第36頁,共133頁,2023年,2月20日,星期四回歸系數(shù)及其統(tǒng)計推斷結(jié)果t值P值回歸系數(shù)可信區(qū)間第37頁,共133頁,2023年,2月20日,星期四3、多元線性回歸模型的診斷異方差性自相關(guān)性多重共線性第38頁,共133頁,2023年,2月20日,星期四異方差性產(chǎn)生的原因:

,當(dāng)時。例:在研究城鎮(zhèn)居民收入與購買量的關(guān)系時,我們知道居民收入與消費(fèi)水平有著密切的關(guān)系,用表示第i戶的收入量,表示第i戶的消費(fèi)額,則簡單的消費(fèi)模型為

在此問題中,由于各戶的收入不同,消費(fèi)觀念和習(xí)慣的差異,通常存在明顯的差異性。一般情況下,低收入家庭購買差異比較小,而高收入家庭購買差異相對較大。第39頁,共133頁,2023年,2月20日,星期四異方差性當(dāng)存在異方差時,普通最小二乘法存在以下問題★參數(shù)估計值雖是無偏的,但不是最小方差線性無偏估計;★參數(shù)的顯著性檢驗失效;★回歸方程的應(yīng)用效果極不理想。診斷方法:★殘差圖分析法:直觀、方便。以殘差為縱坐標(biāo),其它適宜變量(如擬合值、自變量或觀測時間等)為橫坐標(biāo)畫散點(diǎn)圖。如點(diǎn)的散布是隨機(jī)的,則滿足基本假定;如散布有規(guī)律性,存在異方差?!锏燃壪嚓P(guān)系數(shù)法(Spearman檢驗):廣泛。三步驟:

第40頁,共133頁,2023年,2月20日,星期四異方差性第一步:作y關(guān)于x的普通最小二乘回歸,求出的估計值,即第二步:取的絕對值,把和按遞增或遞減的次序排列分成等級,按下式計算出等級相關(guān)系數(shù)其中n為樣本容量,為等級的差數(shù)。第三步:做等級相關(guān)系數(shù)的顯著性檢驗。在n>8的情況下,檢驗統(tǒng)計量為如果,存在異方差。第41頁,共133頁,2023年,2月20日,星期四異方差性消除異方差的方法:

加權(quán)最小二乘法(最常用)

Box- Cox變換法方差穩(wěn)定性變換法第42頁,共133頁,2023年,2月20日,星期四自相關(guān)性產(chǎn)生的原因:1、遺漏關(guān)鍵變量;2、經(jīng)濟(jì)變量的滯后性;3、采用錯誤的回歸函數(shù)形式;4、蛛網(wǎng)現(xiàn)象;5、對數(shù)據(jù)加工整理。第43頁,共133頁,2023年,2月20日,星期四自相關(guān)性診斷方法:★圖示檢驗法★自相關(guān)系數(shù)法再用DW檢驗。第44頁,共133頁,2023年,2月20日,星期四自相關(guān)性消除自相關(guān)的方法:

迭代法差分法第45頁,共133頁,2023年,2月20日,星期四多重共線性診斷方法:★方差擴(kuò)大因子法

SPSS:在線性回歸對話框的Statitics選項框中點(diǎn)選

CollinearityDiagnostic共線性診斷選項,然后作回歸?!锾卣鞲卸ǚā镏庇^判定法:如增加或剔除一個自變量時,回歸系數(shù)的估計值發(fā)生較大變化;定性分析的重要自變量在回歸方程中沒有通過顯著性檢驗;重要自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大等。消除方法:

1、剔除一些不重要的解釋變量2、增大樣本容量

3、回歸系數(shù)的有偏估計第46頁,共133頁,2023年,2月20日,星期四非線性回歸非線性回歸模型參數(shù)估計:非線性最小二乘估計SPSS操作步驟:

1、散點(diǎn)圖,確定非線性關(guān)系

2、Regression菜單下點(diǎn)選Nonlinear,進(jìn)入非線性回歸對話框。

第47頁,共133頁,2023年,2月20日,星期四本章結(jié)束第48頁,共133頁,2023年,2月20日,星期四2、聚類分析第49頁,共133頁,2023年,2月20日,星期四分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法,可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。

第50頁,共133頁,2023年,2月20日,星期四聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績(或者綜合考慮各科成績)分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。第51頁,共133頁,2023年,2月20日,星期四如何度量遠(yuǎn)近?如果想要對100個學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成100個點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點(diǎn),也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點(diǎn)的問題了。第52頁,共133頁,2023年,2月20日,星期四兩個距離概念按照遠(yuǎn)近程度來聚類需要明確兩個概念:一個是點(diǎn)和點(diǎn)之間的距離,一個是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。由一個點(diǎn)組成的類是最基本的類;如果每一類都由一個點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個點(diǎn),那么就要確定類間距離,類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結(jié)果會不同,但一般不會差太多。第53頁,共133頁,2023年,2月20日,星期四:平方歐氏距離:Block(絕對距離):Si|xi-yi|Minkowski距離:當(dāng)變量的測量值相差懸殊時,要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s.當(dāng)觀測值大于0時,有人采用Lance距離歐氏距離距離公式第54頁,共133頁,2023年,2月20日,星期四最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:類間距離第55頁,共133頁,2023年,2月20日,星期四聚類分析的實質(zhì)就是按照距離的遠(yuǎn)近將數(shù)據(jù)分為若干個類型,以使得類別內(nèi)數(shù)據(jù)的“差異”盡可能小,類別間“差異”盡可能大。如何描述“差異”?通常的做法是通過距離和相似性的方式來描述。聚類分析第56頁,共133頁,2023年,2月20日,星期四1、層次聚類法:根據(jù)定義的距離把距離接近的數(shù)據(jù)一步一步歸為一類直到數(shù)據(jù)完全歸為一類,最后再利用一些相應(yīng)的指標(biāo)來確定聚為幾類是合適的。樹狀圖是層次聚類法結(jié)果解釋的重要工具。Analyze—Classify—HierarchicalCluster

事先不用確定分多少類層次聚類法第57頁,共133頁,2023年,2月20日,星期四2、非層次聚類法:給定類別個數(shù)將案例快速的分為K類,然后使用迭代的方式把數(shù)據(jù)在不同類別之間移動,直到達(dá)到一定的標(biāo)準(zhǔn)為止。K-均值聚類法為主Analyze—Classify—K-MeansCluster

事先要確定分多少類非層次聚類法第58頁,共133頁,2023年,2月20日,星期四層次聚類法的優(yōu)點(diǎn):

1、變量可以是連續(xù)的,也可以是分類變量;

2、提供的距離測量方法也非常豐富;缺點(diǎn):由于每合并一次就要計算一次距離,故運(yùn)算速度較慢。優(yōu)缺點(diǎn)

第59頁,共133頁,2023年,2月20日,星期四一、在SPSS中利用系統(tǒng)聚類法進(jìn)行

聚類分析設(shè)有20個土壤樣品分別對5個變量的觀測數(shù)據(jù)如表5.16所示,試?yán)孟到y(tǒng)聚類法對其進(jìn)行樣品聚類分析。表5.16土壤樣本的觀測數(shù)據(jù)第60頁,共133頁,2023年,2月20日,星期四第61頁,共133頁,2023年,2月20日,星期四

(一)操作步驟 1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進(jìn)行聚類(若選擇Variables,則對變量進(jìn)行聚類)。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。第62頁,共133頁,2023年,2月20日,星期四圖5.9系統(tǒng)聚類法主界面第63頁,共133頁,2023年,2月20日,星期四2.點(diǎn)擊Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。這里我們選擇系統(tǒng)默認(rèn)值,點(diǎn)擊Continue按鈕,返回主界面。3.點(diǎn)擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,即只給出聚類樹形圖,而不給出冰柱圖。單擊Continue按鈕,返回主界面。圖5.10Plots子對話框第64頁,共133頁,2023年,2月20日,星期四4.點(diǎn)擊Method按鈕,設(shè)置系統(tǒng)聚類的方法選項。ClusterMethod下拉列表用于指定聚類的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠(yuǎn)距離法等;Measure欄用于選擇對距離和相似性的測度方法;剩下的TransformValues和TransformMeasures欄用于選擇對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認(rèn)選項。單擊Continue按鈕,返回主界面。第65頁,共133頁,2023年,2月20日,星期四圖5.11Method子對話框第66頁,共133頁,2023年,2月20日,星期四5.點(diǎn)擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。None表示不保存任何新變量;Singlesolution表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇Rangeofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結(jié)果。點(diǎn)擊Continue,返回主界面。第67頁,共133頁,2023年,2月20日,星期四圖5.12Save子對話框6.點(diǎn)擊OK按鈕,運(yùn)行系統(tǒng)聚類過程。第68頁,共133頁,2023年,2月20日,星期四(二)主要運(yùn)行結(jié)果解釋1.在結(jié)果輸出窗口中我們可以看到聚類樹形圖(Dendrogram)。從樹形圖5.12可以清楚地看到,若將20個樣品分為兩類,則樣品2、6、19、7、和樣品1為一類,其余的為另一類;若將樣品分為三類,則樣品8、9、4從第二類中分離出來,自成一類;依此類推。第69頁,共133頁,2023年,2月20日,星期四圖5.13系統(tǒng)聚類法樹形圖第70頁,共133頁,2023年,2月20日,星期四2.由于我們已經(jīng)在Save子對話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個表示分類結(jié)果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個分類變量分別表明了把樣品分成4類、3類和2類的分類情況。圖5.14生成三個新的分類變量第71頁,共133頁,2023年,2月20日,星期四二、在SPSS中利用K均值法進(jìn)行聚類分析我國各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進(jìn)行聚類分析。第72頁,共133頁,2023年,2月20日,星期四當(dāng)要聚成的類數(shù)確定時,使用K均值法可以很快將觀測量分到各類中去,而且該方法處理速度快,占用內(nèi)存少,尤其適用于大樣本的聚類分析。(一)操作步驟1.在SPSS窗口中選擇Analyze→Classify→K-MeansCluster,調(diào)出K均值聚類分析主界面,并將變量—移入Variables框中,將標(biāo)志變量Region移入LabelCaseby框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(若選擇Classifyonly,則根據(jù)初始類中心進(jìn)行聚類,在聚類過程中不改變類中心)。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將31個地區(qū)分為3類。至于Centers按鈕,則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,則系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置。第73頁,共133頁,2023年,2月20日,星期四圖5.15K均值聚類分析主界面第74頁,共133頁,2023年,2月20日,星期四

2.點(diǎn)擊Iterate按鈕,對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),其值應(yīng)該介于0和1之間。例如判據(jù)設(shè)置為0.02,則當(dāng)一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于2時,迭代停止。設(shè)置完這兩個參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue,返回主界面。圖5.16Iterate子對話框第75頁,共133頁,2023年,2月20日,星期四

3.點(diǎn)擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。其中Clustermembership選項用于建立一個代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;Distancefromclustercenter選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。我們將兩個復(fù)選框都選中,單擊Continue按鈕返回。圖5.17Save子對話框第76頁,共133頁,2023年,2月20日,星期四

4.點(diǎn)擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。單擊Continue返回。

5.點(diǎn)擊OK按鈕,運(yùn)行K均值聚類分析程序。圖5.18Options子對話框第77頁,共133頁,2023年,2月20日,星期四 (二)主要運(yùn)行結(jié)果解釋

1.InitialClusterCenters(給出初始類中心)

2.IterationHistory(給出每次迭代結(jié)束后類中心的變動) 從表5.18中可以看到本次聚類過程共經(jīng)歷了三次迭代。由于我們在Iterate子對話框中使用系統(tǒng)默認(rèn)的選項(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止。第78頁,共133頁,2023年,2月20日,星期四

3.ClusterMembership(給出各觀測量所屬的類及與所屬類中心的距離) 表5.19中Cluster列給出了觀測量所屬的類別,Distance列給出了觀測量與所屬類中心的距離。(出于排版要求,此表經(jīng)過加工,因此與原始輸出表形態(tài)有一定差異)。表5.18迭代過程中類中心的變化量第79頁,共133頁,2023年,2月20日,星期四表5.19各觀測量所屬類成員表第80頁,共133頁,2023年,2月20日,星期四

4.FinalClusterCenters(給出聚類結(jié)果形成的類中心的各變量值)表5.20最終的類中心表第81頁,共133頁,2023年,2月20日,星期四結(jié)合表5.19和表5.20,我們可以看出31個地區(qū)被分成3類。第一類包括:江蘇、浙江、山東和廣東4個省。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個產(chǎn)業(yè)都比較發(fā)達(dá)的地區(qū)。第二類包括:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個地區(qū)。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達(dá)地區(qū)。剩下的11個地區(qū)為第三類。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達(dá)地區(qū)。

5.由于我們已經(jīng)在Save子對話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的兩個表示分類結(jié)果的新變量。變量qcl_1和變量qcl_2分別代表分類號和觀測量距所屬類中心的距離。第82頁,共133頁,2023年,2月20日,星期四聚類要注意的問題

聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。

另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機(jī)結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠(yuǎn),而類中點(diǎn)的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。第83頁,共133頁,2023年,2月20日,星期四本章結(jié)束第84頁,共133頁,2023年,2月20日,星期四

3、主成分分析多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。第85頁,共133頁,2023年,2月20日,星期四主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。第86頁,共133頁,2023年,2月20日,星期四

第87頁,共133頁,2023年,2月20日,星期四第五節(jié)實例分析與計算機(jī)實現(xiàn)一主成分分析實例

二利用SPSS進(jìn)行主成分分析

第88頁,共133頁,2023年,2月20日,星期四一、主成分分析實例表6.1是某市工業(yè)部門13個行業(yè)的8項重要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),這8項經(jīng)濟(jì)指標(biāo)分別是:

X1:年末固定資產(chǎn)凈值,單位:萬元;

X2:職工人數(shù)據(jù),單位:人;

X3:工業(yè)總產(chǎn)值,單位:萬元;

X4:全員勞動生產(chǎn)率,單位:元/人年;

X5:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元;

X6:資金利稅率,單位:%;

X7:標(biāo)準(zhǔn)燃料消費(fèi)量,單位:噸;

X8:能源利用效果,單位:萬元/噸。第89頁,共133頁,2023年,2月20日,星期四表6.1某市工業(yè)部門13個行業(yè)8項指標(biāo)第90頁,共133頁,2023年,2月20日,星期四我們要考慮的是:如何從這些經(jīng)濟(jì)指標(biāo)出發(fā),對各工業(yè)部門進(jìn)行綜合評價與排序?我們先計算這些指標(biāo)的主成分,然后通過主成分的大小進(jìn)行排序。表6.2和表6.3分別是特征根(累計貢獻(xiàn)率)和特征向量的信息。利用主成分得分進(jìn)行綜合評價時,從特征向量我們可以寫出所有8個主成分的具體形式:第91頁,共133頁,2023年,2月20日,星期四表6.2特征根和累計貢獻(xiàn)率第92頁,共133頁,2023年,2月20日,星期四表6.3特征向量第93頁,共133頁,2023年,2月20日,星期四表6.4各行業(yè)主成分得分及排序第94頁,共133頁,2023年,2月20日,星期四我們以特征根為權(quán),對8個主成分進(jìn)行加權(quán)綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。綜合得分的計算公式是: 根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。從上表可以看出,機(jī)器行業(yè)在該地區(qū)的綜合評價排在第一,原始數(shù)據(jù)也反映出機(jī)器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。第95頁,共133頁,2023年,2月20日,星期四二、利用SPSS進(jìn)行主成分分析SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結(jié)果,可以很容易地實現(xiàn)主成分分析。具體來講,就是利用因子載荷陣和相關(guān)系數(shù)矩陣的特征根來計算特征向量。即:其中,zij為第j個特征向量的第i個元素;aij為因子載荷陣第i 行第j列的元素;λj為第j個因子對應(yīng)的特征根。然后再利用 計算出的特征向量來計算主成分。以下是我國2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個例子,介紹如何利用SPSS軟件實現(xiàn)主成分分析。第96頁,共133頁,2023年,2月20日,星期四表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況

第97頁,共133頁,2023年,2月20日,星期四表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況

第98頁,共133頁,2023年,2月20日,星期四 (一)利用SPSS進(jìn)行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個變量分別命名為X1~X5。在SPSS窗口中選擇Analyze→DataReduction→Factor菜單項,調(diào)出因子分析主界面,并將變量X1~X5移入Variables框中,其他均保持系統(tǒng)默認(rèn)選項,單擊OK按鈕,執(zhí)行因子分析過程(關(guān)于因子分子在SPSS中實現(xiàn)的詳細(xì)過程,參見第7章實例)。得到如表6.6所示的特征根和方差貢獻(xiàn)率表和表6.7所示的因子載荷陣。表6.6中Total列為各因子對應(yīng)的特征根,本例中共提取兩個公因子;%ofVariance列為各因子的方差貢獻(xiàn)率;Cumulative%列為各因子累積方差貢獻(xiàn)率,由表中可以看出,前兩個因子已經(jīng)可以解釋79.31%的方差第99頁,共133頁,2023年,2月20日,星期四圖6.2因子分析主界面第100頁,共133頁,2023年,2月20日,星期四表6.6特征根和方差貢獻(xiàn)率表第101頁,共133頁,2023年,2月20日,星期四 (二)利用因子分析結(jié)果進(jìn)行主成分分析

1.將表6.7中因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。表6.7因子載荷陣第102頁,共133頁,2023年,2月20日,星期四

2.為了計算第一個特征向量,點(diǎn)擊菜單項中的Transform→Compute,調(diào)出Computevariable對話框,在對話框中輸入等式:

z1=a1/SQRT(2.576)

點(diǎn)擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。 再次調(diào)出Computevariable對話框,在對話框中輸入等式:

z2=a2/SQRT(1.389)

點(diǎn)擊OK按鈕,得到以z2為變量名第二特征向量。這樣,我們得到了如表6.8所示的特征向量矩陣。第103頁,共133頁,2023年,2月20日,星期四圖6.3Computevariable對話框第104頁,共133頁,2023年,2月20日,星期四根據(jù)表6.8可以得到主成分的表達(dá)式:

3.再次使用Compute命令,就可以計算得到兩個主成分。表6.8特征向量矩陣第105頁,共133頁,2023年,2月20日,星期四本章結(jié)束第106頁,共133頁,2023年,2月20日,星期四因子分析一般認(rèn)為因子分析是從CharlesSpearman在1904年發(fā)表的文章《對智力測驗得分進(jìn)行統(tǒng)計分析》開始,他提出這種方法用來解決智力測驗得分的統(tǒng)計方法。目前因子分析在心理學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科中都取得了成功的應(yīng)用,是多元統(tǒng)計分析中典型方法之一。因子分析(factoranalysis)也是一種降維、簡化數(shù)據(jù)的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個“抽象”的變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個抽象的變量被稱作“因子”,能反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而因子一般是不可觀測的潛在變量。第107頁,共133頁,2023年,2月20日,星期四例如,在商業(yè)企業(yè)的形象評價中,消費(fèi)者可以通過一系列指標(biāo)構(gòu)成的一個評價指標(biāo)體系,評價百貨商場的各個方面的優(yōu)劣。但消費(fèi)者真正關(guān)心的只是三個方面:商店的環(huán)境、商店的服務(wù)和商品的價格。這三個方面除了價格外,商店的環(huán)境和服務(wù)質(zhì)量,都是客觀存在的、抽象的影響因素,都不便于直接測量,只能通過其它具體指標(biāo)進(jìn)行間接反映。因子分析就是一種通過顯在變量測評潛在變量,通過具體指標(biāo)測評抽象因子的統(tǒng)計分析方法。又比如,在研究區(qū)域社會經(jīng)濟(jì)發(fā)展中,描述社會與經(jīng)濟(jì)現(xiàn)象的指標(biāo)很多,過多的指標(biāo)容易導(dǎo)致分析過程復(fù)雜化。一個合適的做法就是從這些關(guān)系錯綜復(fù)雜的社會經(jīng)濟(jì)指標(biāo)中提取少數(shù)幾個主要因子,每一個主要因子都能反映相互依賴的社會經(jīng)濟(jì)指標(biāo)間共同作用,抓住這些主要因素就可以幫助我們對復(fù)雜的社會經(jīng)濟(jì)發(fā)展問題進(jìn)行深入分析、合理解釋和正確評價。第108頁,共133頁,2023年,2月20日,星期四因子分析的內(nèi)容非常豐富,常用的因子分析類型是R型因子分析和Q型因子分析。R型的因子分析是對變量作因子分析,Q型因子分析是對樣品作因子分析。本章側(cè)重討論R型因子分析。第109頁,共133頁,2023年,2月20日,星期四第五節(jié)實例分析與計算機(jī)實現(xiàn)一利用SPSS進(jìn)行因子分析二因子分析在市場研究中的應(yīng)用第110頁,共133頁,2023年,2月20日,星期四一、利用SPSS進(jìn)行因子分析

第111頁,共133頁,2023年,2月20日,星期四 (一)操作步驟

1.在SPSS窗口中選擇Analyze→DataReduction→Factor,調(diào)出因子分析主界面圖(7.1),并將變量X1—X13移入Variables框中。圖7.1因子分析主界面第112頁,共133頁,2023年,2月20日,星期四

2.點(diǎn)擊Descriptives按鈕,展開相應(yīng)對話框,見圖7.2。選擇Initialsolution復(fù)選項。這個選項給出各因子的特征值、各因子特征值占總方差的百分比以及累計百分比。單擊Continue按鈕,返回主界面。圖7.2Descriptives子對話框第113頁,共133頁,2023年,2月20日,星期四

3.點(diǎn)擊Extraction按鈕,設(shè)置因子提取的選項,見圖7.3。在Method下拉列表中選擇因子提取的方法,SPSS提供了七種提取方法可供選擇,一般選擇默認(rèn)選項,即“主成分法”。在Analyze欄中指定用于提取因子的分析矩陣,分別為相關(guān)矩陣和協(xié)方差矩陣。在Display欄中指定與因子提取有關(guān)的輸出項,如未旋轉(zhuǎn)的因子載荷陣和因子的碎石圖。在Extract欄中指定因子提取的數(shù)目,有兩種設(shè)置方法:一種是在Eigenvaluesover后的框中設(shè)置提取的因子對應(yīng)的特征值的范圍,系統(tǒng)默認(rèn)值為1,即要求提取那些特征值大于1的因子;第二種設(shè)置方法是直接在Numberoffactors后的矩形框中輸入要求提取的公因子的數(shù)目。這里我們均選擇系統(tǒng)默認(rèn)選項,單擊Continue按鈕,返回主界面。第114頁,共133頁,2023年,2月20日,星期四圖7.3Extraction子對話框第115頁,共133頁,2023年,2月20日,星期四

4.點(diǎn)擊Rotation按鈕,設(shè)置因子旋轉(zhuǎn)的方法。這里選擇Varimax(方差最大旋轉(zhuǎn)),并選擇Display欄中的Rotatedsolution復(fù)選框,在輸出窗口中顯示旋轉(zhuǎn)后的因子載荷陣。單擊Continue按鈕,返回主界面。圖7.4Rotation子對話框第116頁,共133頁,2023年,2月20日,星期四

5.點(diǎn)擊Scores按鈕,設(shè)置因子得分的選項。選中Saveasvariables復(fù)選框,將因子得分作為新變量保存在數(shù)據(jù)文件中。選中Displayfactorscorecoefficientmatrix復(fù)選框,這樣在結(jié)果輸出窗口中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論