應用統(tǒng)計學實驗報告(spss軟件)_第1頁
應用統(tǒng)計學實驗報告(spss軟件)_第2頁
應用統(tǒng)計學實驗報告(spss軟件)_第3頁
應用統(tǒng)計學實驗報告(spss軟件)_第4頁
應用統(tǒng)計學實驗報告(spss軟件)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE2我國31個省市自治區(qū)第三產(chǎn)業(yè)發(fā)展狀況分析(數(shù)據(jù)來源:中宏統(tǒng)計數(shù)據(jù)庫)2010年31個省市第三產(chǎn)業(yè)增加值一、因子分析1.考察原有變量是否適合進行因子分析為研究全國各地區(qū)第三產(chǎn)業(yè)的發(fā)展狀況,現(xiàn)比較其第三產(chǎn)業(yè)增加值的差異性和相似性,收集到2010年全國31個省市自治區(qū)各類第三產(chǎn)業(yè)包括交通運輸、倉儲和郵政業(yè),批發(fā)和零售業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè)及其他產(chǎn)業(yè)的年增產(chǎn)值數(shù)據(jù)。由于涉及的變量較多,直接進行地區(qū)間的比較分析非常繁瑣,因此首先考慮采用因子分析方法減少變量個數(shù),之后再進行比較和綜合評價。表1-1(a)原有變量的相關系數(shù)矩陣由表1-1(a)可以看到,所有的相關系數(shù)都很高,各變量呈較強的線性關系,能夠從中提取公因子,適合做因子分析。表1-1(b)巴特利特球度檢驗和KMO檢驗由表1(b)可知,巴特利特球度檢驗統(tǒng)計量的觀測值為295.349,相應的概率p接近0,。如果顯著性水平a為0.5,由于概率p小于顯著性水平a,應拒絕零假設,認為相關系數(shù)矩陣與單位矩陣有顯著差異。同時,KMO值為0.860,根據(jù)Kaiser給出了KMO度量標準可知原有變量適合進行因子分析。2.提取因子首先進行嘗試性分析。根據(jù)原有變量的相關系數(shù)矩陣,采用主成分分析法提取因子并選取特征根值大于1的特征根。表1-2(a)因子分析的初始解(一)表1-2(a)顯示了所有變量的共同度數(shù)據(jù)。第一列是因子分析初始解下的變量共同度,表明對原有6個變量如果采用主成分分析法提取所有特征根(6個),那么原有變量的所有方差都可被解釋,變量的共同度均為1。第二列是在按指定提取條件提取特征根時的共同度??梢钥吹?,所有變量的絕大部分信息(大于84%)可被因子解釋,這些變量的共同度均較高,變量的信息丟失較少,只有交通運輸這個變量的信息丟失較多(近20%),因此本次因子提取的總體效果不理想。重新指定特征根的標準,指定提取兩個因子,結果如下:表1-2(b)因子分析的初始解(一)表1-2(c)因子解釋變量原有變量總方差的情況表1-2(c)中,第一列是因子編號,第二列到第四列(第一組數(shù)據(jù)項)描述了初始因子解的情況,第五列到第七列(第二組數(shù)據(jù)項)描述了因子解的情況。從第一組數(shù)據(jù)項中可以看到,第一個因子的特征根值為5.389,解釋6個變量總方差的89.825%,累積方差貢獻率也為89.825%。從第二組數(shù)據(jù)項中可以看到,指定提取的一個因子解釋了原有變量總方差的94.999%,原有變量丟失較少,因子分析效果理想。圖1-2(d)因子的碎石圖在圖1-2(d)中,橫坐標為因子數(shù)目,縱坐標為特征根??梢钥吹剑谝粋€因子的特征根值很高,對解釋原有變量的貢獻最大;第三個開始,因子的特征根值都較小,對原有解釋變量的貢獻很小,已經(jīng)成為可被忽略的“高山腳下的碎石”,因此提取兩個因子是合適的。表1-2(e)因子載荷矩陣表1-2(e)顯示了因子載荷矩陣,是因子分析的核心內(nèi)容,根據(jù)此表可以寫出本案例的因子分析模型:批發(fā)和零售業(yè)=0.980a+0.028b房地產(chǎn)業(yè)=0.979a-0.078b其他=0.973a-0.108b住宿和餐飲業(yè)=0.934a+0.140b金融業(yè)=0.919a-0.352b交通運輸、倉儲和郵政業(yè)=0.898a+0.386b由表5可知,6個變量在提取的第一個因子a上的載荷都很高,意味著它們與第一個因子的相關程度高,第一個因子很重要;第二個因子b與原有變量的相關性均很小,它對原有變量的解釋作用不顯著。另外還可以看到,這兩個因子的實際含義比較模糊。3.因子的命名解釋采用方差最大法對因子載荷矩陣實施正交旋轉以使因子具有命名解釋性。指定按第一個因子載荷降序的順序輸出旋轉后的因子載荷以及旋轉后的因子載荷圖,結果如下:表1-3(a)旋轉后的因子載荷矩陣由上表可知,金融業(yè),其他,房地產(chǎn)業(yè)在第一個因子是上有較高的載荷,第一個因子主要解釋了這幾個變量,可解釋為生產(chǎn)和生活服務的產(chǎn)業(yè);交通運輸和郵政業(yè),住宿和餐飲業(yè),批發(fā)和零售業(yè)在第二個因子上有較高的載荷,第二個因子主要解釋了這幾個變量,可解釋為流通服務的產(chǎn)業(yè)。(其中,批發(fā)和零售業(yè)在兩個因子上的載荷大致相同,這里把它歸為在第二個因子上的載荷較高。)與旋轉前相比,因子含義較為清晰。表1-3(b)因子旋轉中的正交表1-3(c)因子協(xié)方差矩陣由表1-3(c)因子的協(xié)方差矩陣,可以看出,兩個因子沒有線性相關性,實現(xiàn)了因子分析的設計目標。圖1-3(d)旋轉后的因子載荷圖由上圖可以清晰的看出,交通運輸和郵政業(yè)、金融業(yè)比較靠近兩個因子坐標軸,表明如果分別用第一個因子刻畫金融業(yè),用第二個因子刻畫交通運輸和郵政業(yè),信息丟失效果較少,效果較好。但如果用一個因子分別刻畫其他變量,則效果不是很理想。4.計算因子得分采用回歸分析法估計因子得分系數(shù),并輸出因子得分系數(shù)。表1-4因子得分系數(shù)矩陣根據(jù)該表,可寫出一下因子得分函數(shù):A=-0.733交通運輸+0.071批發(fā)和零售-0.184住宿和餐飲+0.903金融+0.304房地產(chǎn)+0.369其他B=1.016交通運輸+0.190批發(fā)和零售+0.447住宿和餐飲-0.706金融-0.057房地產(chǎn)-0.128其他可見,計算兩個因子得分變量的變量值時,交通運輸郵政業(yè)和金融業(yè)的權重較高,但方向恰好相反,這與因子的實際含義是相吻合的。5.各省市自治區(qū)第三產(chǎn)業(yè)增值的綜合評價計算因子綜合得分,并按降序排列,如下表1-5:表1-5因子綜合得分觀察上表可見,廣東,江蘇,山東,浙江的綜合得分較高,與其他地區(qū)差異較大,其他地區(qū)較相似。則第三產(chǎn)業(yè)增加值較高的省市有廣東,江蘇,山東,浙江四個省,第三產(chǎn)業(yè)發(fā)展最為迅速,它們多屬于沿海地區(qū),是中國的四個最強??;從北京到福建,因子的綜合得分都還是正數(shù),說明這些地區(qū)的第三產(chǎn)業(yè)的發(fā)展較為迅速,沒有明顯差異;而從內(nèi)蒙古開始,一直到西藏,因子綜合得分為負,其發(fā)展較緩慢,這些地區(qū)的第三產(chǎn)業(yè)增產(chǎn)值比較相似。二、回歸分析對提取的兩個因子做回歸分析,因為有兩個因子,所以是多元回歸分析,步驟如下:1.擬合優(yōu)度檢驗表2-1強制進入策略依據(jù)此表進行擬合優(yōu)度檢驗。由于是此分析多元回歸分析,方程有多個解釋變量,因此參考調(diào)整的判定系數(shù)(AdjustedRSquare),由上表:由于R2(0.998)非常接近于1,因此認為擬合優(yōu)度很高,被解釋變量稅收合計能被模型充分解釋。2.回歸方程的顯著性檢驗(F檢驗)表2-2強制進入策略由此表進行回歸方程的顯著性檢驗。由表可知,被解釋變量的回歸平方和的均方為359431842.0,剩余平方和及其均方分別為1675533和59840.476,對應的概率p值近似為0.。顯著性水平a為0.05,由于概率p小于顯著性水平a,應拒絕回歸方程顯著性檢驗的零假設,認為各回歸系數(shù)與0存在顯著性差異,不同時為0,被解釋變量稅收合計與解釋變量全體的線性關系顯著,可建立線性模型。3.回歸系數(shù)顯著性檢驗(t檢驗)表2-3強制進入策略依據(jù)此表進行回歸系數(shù)顯著性檢驗。由表可知,如果顯著性水平a為0.05,所有變量的回歸系數(shù)顯著性t檢驗的概率p值都小于顯著水平a,因此這些偏回歸系數(shù)與0有顯著差異,它們與被解釋變量稅收合計的線性關系是顯著的,先全部保留在方程中。同時,從容忍度和方差膨脹因子看,兩個因子的容忍度和方差膨脹因子都等于1.000(接近于1),所以構建模型時兩個因子都不必剔除。4.多重共線性檢測表2-4強制進入策略依據(jù)此表進行多重共線性檢測。由表3-4可知,變量的條件指數(shù)均小于10,說明多重共線性較弱;另外由表3-3看出,所有變量的容忍度(Tolerance)都接近于1,方差膨脹因子(VIF)都等于1,表示變量間的共線性很弱。因此不必重新建模。因此,由上述分析可以確定回歸方程為:第三產(chǎn)業(yè)增加值=5691.774+3704.595第1因子+3199.702第2因子5.殘差分析圖2-5(a)第三產(chǎn)業(yè)多元回歸分析的殘差圖由圖2-5(a)可以看出,殘差圖中的點在縱坐標為0的上下隨機散落著,殘差的均值為0。圖2-5(b)第三產(chǎn)業(yè)增加值多元線性回歸分析的殘差累計概率圖由圖2-5(b)可知,所有的觀測值都接近于直線,表明標準化殘差與正態(tài)分布不存在顯著差異,即觀測值符合正態(tài)分布,則殘差滿足了線性模型的前提要求。6.異方差分析表2-6標準化殘差和標準化預測值的Spearman等級相關分析結果由表2-6可見,殘差與預測值的Spearman等級相關系數(shù)為0.129,且因為p(0.490)>a(0.05)檢驗并不顯著,因此認為異方差現(xiàn)象并不明顯。7.異常值和強影響點分析由下圖數(shù)據(jù)編輯窗口中的異常值檢驗結果可知,所有的異常值的絕對值都小于3,所以在所有的觀測值中,不存在異常值和強影響點。圖2-7異常值檢測三、K-Means聚類分析下面仍然利用這組數(shù)據(jù)(2010年全國31個省市自治區(qū)第三產(chǎn)業(yè)增加值),對地區(qū)進行K-Means聚類分析,在本次實驗中,要求將其分成3類,初始類中心點由SPSS自行確定(K-Means聚類分析中類的歸屬是不斷調(diào)整的,而層次聚類分析中樣本所屬類一旦確定就不會再改變,其執(zhí)行效果不理想,所以這里選用K-Means聚類分析)。結果如下:表3-1(a)31個省市自治區(qū)第三產(chǎn)業(yè)增加值的K-Means聚類分析結果(一)表3-1(a)展示了3個類的初始類中心的情況。3個初始類中心點的數(shù)據(jù)分別是表中Cluster中第1、2、3列所示,其中3中的各指數(shù)都是最高的,2最低,1的各指數(shù)都處在2,3的中間,由此可知,第3類各指數(shù)都是最優(yōu)的,第1類次之,第2類各指數(shù)最不理想。表3-231個省市自治區(qū)第三產(chǎn)業(yè)增加值的K-Means聚類分析結果(二)表3-2展示了3個類中心點每次迭代時的偏移情況。從表中可以看出,第一次迭代后,3個類的中心點分別偏移了2993.864,2581.016,2130.739,第1類中心點偏移最大;第二次迭代后,3個類的中心點的偏移分別為672.344,0.000,1760.726,第3類中心點偏移最大第2類以及小于指定的判定標準(0.02);第三次迭代后,3個類的中心點偏移均小于指定的判定標準(0.02),則聚類分析結束。表3-331個省市自治區(qū)第三產(chǎn)業(yè)增加值的K-Means聚類分析結果(三)表3-3展示了3個類的最終類中心的情況,3個最終類中心點的數(shù)據(jù)分別是表中Cluster中第1、2、3列所示,仍然可見,第3類各指數(shù)均是最優(yōu)的,第1類次之,第2類各指數(shù)均最不理想。表3-431個省市自治區(qū)第三產(chǎn)業(yè)增加值的K-Means聚類分析結果(四)表3-4展示了3個類的類成員情況。第1類(中游水平)有10個省市,第2類(下游水平)有18個省市,第3類(上游水平)有3個省市。表3-531個省市自治區(qū)第三產(chǎn)業(yè)增加值的K-Means聚類分析結果(五)表3-5展示了各指數(shù)在不同類的均值比較情況,各數(shù)據(jù)項的含義依次為:組間均方,組間自由度,組內(nèi)均方,組內(nèi)自由度。通過該表可以看出,各指數(shù)的均值在3類中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論