因子分析的過程_第1頁
因子分析的過程_第2頁
因子分析的過程_第3頁
因子分析的過程_第4頁
因子分析的過程_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

好裁縫做上衣,要測量上體長、手臂長、胸圍等14個(gè)指標(biāo)。這14個(gè)指標(biāo)是相關(guān)的,可以找出幾個(gè)反映上衣特征的綜合指標(biāo),加工出的上衣大多數(shù)人都能穿,當(dāng)然特體除外。這兩個(gè)不相關(guān)的指標(biāo)就是上衣的型和號。而他們所采用的方法就是因子分析方法。2023/9/214.3因子分析4.3.1因子分析的數(shù)理統(tǒng)計(jì)背景主要用于數(shù)據(jù)化簡和降維將相關(guān)性較強(qiáng)的幾個(gè)變量歸在同一個(gè)類中,每一類賦予新的名稱,成為一個(gè)因子,反映事物的一個(gè)方面,或者說一個(gè)維度。更可進(jìn)一步推出因子的值,然后用這些因子代替原來變量進(jìn)行其他統(tǒng)計(jì)分析。設(shè)有n個(gè)樣本,每個(gè)樣本觀測p個(gè)變量。為了對變量進(jìn)行比較,并消除由于觀測量綱的差異及數(shù)量級所造成的影響,將樣本觀測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。使標(biāo)準(zhǔn)化后的變量的均值為0,方差為1。2023/9/22X=(x1,x2,…,xp)T,是可觀測的隨機(jī)向量,且向量均值E(X)=0,協(xié)方差陣cov(X)=Σ,且協(xié)方差陣Σ與相關(guān)矩陣R相等;F=(F1,F2,…,Fm)T,m<p,是不可測的向量,其向量均值E(F)=0,協(xié)方差矩陣cov(F)=I,即向量F的各分量是相互獨(dú)立的;ε=(ε1,ε2,…,εp)T與F相互獨(dú)立,且E(ε)=0,ε協(xié)方差陣Σε是對角陣,說明ε各分量之間也是相互獨(dú)立的。則下列模型被稱為因子模型:x1=a11F1+a12F2+…+a1mFm+ε1x2=a21F1+a22F2+…+a2mFm+ε2…xp=ap1F1+ap2F2+…+apmFm+εp2023/9/23F1,F(xiàn)2,…Fm,被稱作公共因子(也稱主因子),在各個(gè)原觀測變量的表達(dá)式中都出現(xiàn),是相互獨(dú)立的不可觀測的理論變量。ε1,ε2,…

εp,被稱作特殊因子,是向量X的分量Xi(i=1,2,…n)所特有的因子。aij稱作因子載荷,aij的絕對值越大,表明Xi與Fj的相依程度越大。2023/9/244.3.2因子分析的過程問題的定義計(jì)算并檢驗(yàn)協(xié)方差(相關(guān))矩陣巴特利特球體檢驗(yàn)

KMO測度選擇因子分析方法(methodoffactoranalysis)主成分分析法是一種值得推薦的方法,同時(shí)也是應(yīng)用比較廣泛的一類方法。確定因子數(shù)目(numberoffactors)除了經(jīng)驗(yàn)判斷外,特征值法是選用較多的判斷方法;因子碎石圖(screeplot)提供了因子數(shù)目和特征值大小的圖形表示。2023/9/25因子旋轉(zhuǎn)(rotationoffactors)因子旋轉(zhuǎn)目的是使某些變量在某個(gè)因子上負(fù)載高,而在其它因子上的負(fù)載則顯著的低。因子解釋(interpretationoffactors)通過在因子上具有較高負(fù)載變量的意義進(jìn)行因子得分(factorscores)模型的適合度(modelfitness)模型是否適合,其判斷常基于殘差矩陣。2023/9/26例子:用因子分析法分析評價(jià)西部地區(qū)的人口素質(zhì),唐萬梅.運(yùn)籌與管理,2005,4:85-89由于我國地區(qū)經(jīng)濟(jì)發(fā)展的不平衡,使各地區(qū)人口素質(zhì)水平存在一定差異,尤其在西部地區(qū)。為了從宏觀上把握西部地區(qū)的人口素質(zhì)水平,使用因子分析法進(jìn)行定量分析??紤]到各指標(biāo)數(shù)據(jù)的差異以及使得分析結(jié)果更加有效,首先將樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理后的數(shù)據(jù)消除了量綱之間的差異。保存在文件“西部地區(qū)人口素質(zhì).sav”中。2023/9/27撫養(yǎng)比X1文盲率X2人均受教育年X3婦女平均存活子女?dāng)?shù)X4平均預(yù)期壽命X5高等學(xué)校數(shù)X6高等學(xué)校畢業(yè)生人數(shù)X7專利申請受理量X8專利申請授權(quán)量X9教育經(jīng)費(fèi)X10Analyze→Datareduction→Factor2023/9/282023/9/29

輸出各個(gè)分析變量的初始共同度,特征值以及解釋方差的百分比2023/9/2102023/9/2112023/9/212KMO測度值大于0.5巴特利特球體檢驗(yàn)值查表也可以通過2023/9/213因子載荷矩陣旋轉(zhuǎn)后的因子載荷矩陣2023/9/214

Component

123撫養(yǎng)比(%)-.489.419.676文盲率(%)-.724.595-.277人均受教育年數(shù)(年).624-.714.243婦女平均存活子女?dāng)?shù)-.410-.147.848平均預(yù)期壽命(歲).782-.436-.115高等學(xué)校數(shù)(所).886.284.316高等學(xué)校畢業(yè)生人數(shù).909.292.136專利申請受理量(件).921.307-.060專利申請授權(quán)量(件).920.326-.069教育經(jīng)費(fèi)(萬元).916.287.143

Component

123撫養(yǎng)比(%)-.042-.423.832文盲率(%)-.323-.923.014人均受教育年數(shù)(年).170.964-.030婦女平均存活子女?dāng)?shù)-.251.130.910平均預(yù)期壽命(歲).381.721-.387高等學(xué)校數(shù)(所).940.279.069高等學(xué)校畢業(yè)生人數(shù).927.239-.108專利申請受理量(件).908.185-.296專利申請授權(quán)量(件).915.165-.303教育經(jīng)費(fèi)(萬元).932.249-.1042023/9/215因子F1F2F3被解釋指標(biāo)X6,X7,X8,X9,X10X2,X3,X5X1,X4因子命名科教因子人力因子負(fù)擔(dān)因子2023/9/216地區(qū)名稱因子得分總因子得分排名F1F2F3內(nèi)蒙古1.54251.592-0.22831.277廣西2.51491.82320.3142.03774重慶2.78151.8454-0.56612.0773四川5.02312.1943-0.75173.58441貴州1.24270.53361.47061.14848云南1.770.48740.97061.40695西藏-0.3788-1.19210.6715-0.361412陜西3.3431.77890.28242.56862甘肅1.22360.74830.66031.04669青海0.02840.11591.09480.214111寧夏0.43011.01331.0790.640610新疆1.53541.41440.48581.346262023/9/217地區(qū)名稱人口綜合素質(zhì)的排名按F1排名按F2排名按F3排名內(nèi)蒙古76510廣西4438重慶33211四川11112貴州8891云南55104西藏1212125陜西2249甘肅9986青海1111112寧夏101073新疆6767分類是各個(gè)學(xué)科領(lǐng)域都普遍存在的問題例如,人口學(xué)中研究人口生育分類模式、人口死亡分類模式;營銷學(xué)中進(jìn)行市場細(xì)分、競爭對手確定等等,都需要對研究對象進(jìn)行分類。隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展,對事物的分類在定量研究方面取得了極大的進(jìn)步。聚類分析(clusteranalysis)根據(jù)事物本身的特性研究個(gè)體分類是多元分析與當(dāng)代分類學(xué)結(jié)合的產(chǎn)物,又稱為群分析、點(diǎn)群分析或簇類分析。2023/9/2184.4聚類分析4.4.1聚類分析的原理比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。聚類分析不必事先知道分類對象的結(jié)構(gòu),從一批樣品的多個(gè)觀測指標(biāo)中,找出能度量樣品之間或指標(biāo)(變量)之間相似程度或親疏關(guān)系的統(tǒng)計(jì)量,構(gòu)成一個(gè)對稱相似性矩陣,并按相似程度的大小,把樣品或變量逐一歸類。2023/9/2194.4.2聚類分析的步驟數(shù)據(jù)標(biāo)準(zhǔn)化為了消除不同變量的單位對聚類結(jié)果的影響,應(yīng)當(dāng)首先對所有的數(shù)據(jù)標(biāo)準(zhǔn)化??梢酝ㄟ^SPSS軟件中Analyze菜單下的Classify選擇HierachicalClusterAnalysis,打開HierachicalClusterAnalysis對話框,并點(diǎn)擊Method按鈕,然后在其中的transformvalues部分來完成數(shù)據(jù)標(biāo)準(zhǔn)化的轉(zhuǎn)換。計(jì)算對象之間的“距離”將個(gè)案看成多維空間的一個(gè)點(diǎn),引用多維空間中點(diǎn)的距離概念,定義不相似測度。距離越小,表示兩者之間的關(guān)系越緊密,相似特征越多,就越有可能分在同一類;相反,距離越大,表示兩者之間差異性越大。通過計(jì)算對象之間的兩兩“距離”,得到“相似關(guān)系”矩陣。在具體的計(jì)算中,“距離”有多種表達(dá)。2023/9/220選擇類與類之間的距離定義可由類的“代表點(diǎn)”間的距離表示。①用兩類之間的距離最近(或最遠(yuǎn))的點(diǎn)代表;②用兩類中所有點(diǎn)之間距離(平方的)的平均值,又稱為組間連接法(between-groupslinkage);③按照某一規(guī)則,選擇類中的某一點(diǎn),代表該類。聚類把每個(gè)點(diǎn)(對象)作為一類(稱為第一層的類);找出距離最小(或最大)的,從而得出距離最近(或最遠(yuǎn))的兩類i與j,把它們合并為層次更高的一類。如果同時(shí)有幾個(gè)距離一樣最?。ɑ蜃畲螅?,則同時(shí)把所涉及的點(diǎn)作為一類;重復(fù),直至所有的點(diǎn)(對象)都并入一個(gè)大類。分類依據(jù)實(shí)際需求,確定以第幾層的類為最終的分類標(biāo)準(zhǔn)。2023/9/2214.4.3聚類分析的主要方法系統(tǒng)聚類法也稱為分層聚類法(HierarchicalCluster),它是聚類分析中應(yīng)用最廣泛的一種方法動(dòng)態(tài)聚類法也稱快速聚類法,或K-均值聚類法(K-meansCluster)二階段聚類是一個(gè)揭示數(shù)據(jù)集自然分組的探索性分析工具2023/9/222系統(tǒng)聚類法基本思想開始將樣品和指標(biāo)各視為一類,根據(jù)類與類之間的距離或相似程度將最相似的類加以合并,再計(jì)算新類與其他類之間的相似程度,并選擇最相似的類加以合并。每合并一次就減少一類,不斷繼續(xù)這一過程,直到所有樣品或指標(biāo)合并為一類為止。數(shù)據(jù)文件cluster1.sav“Analyze”→“Classify”→“HierarchicalCluster”2023/9/223第一列表示聚類分析的第幾步;第二、三列表示本步驟類中哪兩個(gè)個(gè)案或者小類聚成一類;第四列是個(gè)案距離或小類距離;第五、第六列表示本步驟類中參與聚類的是個(gè)案還是小類,0表示個(gè)案,非0表示由第幾步聚類生成的小類參與本步驟類;第七列標(biāo)識本步驟類的結(jié)果將在以下第幾步中用到。習(xí)題數(shù)據(jù)文件cluster3.sav是關(guān)于SPSS公司對所出售的產(chǎn)品的調(diào)查數(shù)據(jù)。SPSS公司的統(tǒng)計(jì)軟件中包括很多不同的模塊,調(diào)查表中要求客戶標(biāo)出自己經(jīng)常使用的模塊,1代表經(jīng)常使用,0代表不經(jīng)常使用?,F(xiàn)要求對這九個(gè)變量進(jìn)行分類,為公司下一步的決策提供依據(jù)。2023/9/228動(dòng)態(tài)聚類基本原理在一開始就按照一定的方法選取一批聚類中心(ClusterCenter),讓樣品向最近的聚心凝聚,形成初始分類,然后按最近距離原則不斷修改不合理分類,直至合理。當(dāng)要聚成的類數(shù)已知時(shí),使用快速聚類可以很快地將觀測量分到各類中去,其特點(diǎn)是處理速度快、占用內(nèi)存少。數(shù)據(jù)文件cluster2.sav是我國16個(gè)地區(qū)農(nóng)民在1982年支出情況的抽樣調(diào)查數(shù)據(jù)的匯總資料,每個(gè)地區(qū)都調(diào)查了反映每人平均生活消費(fèi)支出情況的6個(gè)指標(biāo)。

“Analyze”→“Classify”→“K-MeansCluster”2023/9/229

Iterateandclassify

默認(rèn)選項(xiàng)。表示聚類過程中選擇或指定初始類中心點(diǎn),按照K-means

的迭代算法不斷調(diào)整類中心點(diǎn)。Classifyonly

聚類過程中只使用初始的類中心點(diǎn)而不做調(diào)整,迭代次數(shù)也進(jìn)行一次。ConvergenceCriterion:K-Means

算法的收斂準(zhǔn)則,輸入范圍在0~1之間,且不等于1。默認(rèn)值為0。若輸入數(shù)值為0.01,表示兩次迭代計(jì)算的最小類中心的變化距離小于初始類中心距離的1%時(shí)迭代停止。Userunningmeans:選擇該項(xiàng),表示在每個(gè)個(gè)案被分配到一類后立即計(jì)算新的類中心;反之,則在完成了所有個(gè)案的一次分配后,再計(jì)算各類的類中心。注意,對于大數(shù)據(jù)樣本,選擇該項(xiàng)會大大增加計(jì)算量和計(jì)算時(shí)間。ANOVAtable,該方差分析是以聚類分析產(chǎn)生的類為控制變量的單因素方差分析,并輸出各變量的方差分析表。Excludecaseslistwise

將帶有缺失值的個(gè)案從分析中剔除。Excludecasespairwise

只有當(dāng)個(gè)案的所有聚類變量值全部缺失時(shí),才將其從分析中剔除,否則根據(jù)所有其他非缺失變量值,將其分配至最接近的一類中。二階段聚類基本原理可處理分類變量和連續(xù)型變量。綜合處理多項(xiàng)-正態(tài)分布的數(shù)據(jù)。自動(dòng)確定最優(yōu)聚類數(shù),有效地分析大樣本。step1構(gòu)建聚類特征樹;step2使用聚集聚類法對聚類特征樹的結(jié)點(diǎn)進(jìn)行分組,產(chǎn)生不同聚類數(shù)的指標(biāo),比較Schwarz-Bayesian或Akaike信息準(zhǔn)則確定最優(yōu)類數(shù)。數(shù)據(jù)文件cluster4.sav,保存的是157個(gè)各種不同車型的數(shù)據(jù)。包括汽車生產(chǎn)廠家、汽車型號、各種型號汽車的銷售額、價(jià)格和燃油效率等相關(guān)數(shù)據(jù)。要求對這157個(gè)不同型號的汽車,用二階段聚類分析方法進(jìn)行分類?!癆nalyze”→“Classify”→“TwoStepCluster”2023/9/233選定變量列表中參與運(yùn)算的變量,按數(shù)據(jù)類型分別移動(dòng)到“CategoricalVariables”窗口和“ContinuousVariables”窗口;在“DistanceMeasure”(距離測度)部分確定聚類相似性計(jì)算方式;在“NumberofClusters”(聚類數(shù))部分指定聚類分析中聚類數(shù)的確定方式。既可以選定“Determineautomatically”(系統(tǒng)自動(dòng)確定聚類數(shù)),也可以使用“Specifyfixed”(固定聚類數(shù)),指定一個(gè)正整數(shù)作為聚類數(shù);此外,如果是希望系統(tǒng)確定聚類數(shù)目,還需要在“ClusteringCriterion”(聚類準(zhǔn)則)部分選定確定聚類數(shù)目的算法,使用“Schwarz’sBayesianCriterion(BIC)”

即貝葉斯信息準(zhǔn)則或“Akaike’sInformationCriterion(AIC)”即Akaike信息準(zhǔn)則。2023/9/2342023/9/235對聚類結(jié)果的輸出進(jìn)行設(shè)置

Createclustermembershipvariable

(創(chuàng)建聚類成員變量)表示將在工作數(shù)據(jù)文件中創(chuàng)建名為tsc_n的新變量,以保存每一個(gè)觀測量所屬的分類。同時(shí),也可以在這個(gè)子對話框中指定將聚類模型及聚類特征樹輸出到不同的XML格式文件中。2023/9/236二階聚類分析的結(jié)果主要通過“聚類瀏覽器”來查看聚類瀏覽器包含左右兩個(gè)面板,主視圖位于左側(cè),鏈接或輔助視圖位于右側(cè)。主視圖包括模型摘要和聚類視圖,鏈接/輔助視圖包括預(yù)測變量的重要性、聚類大小、單元格分布和聚類比較四種。聚類視圖。在左側(cè)主面板下方單擊“View”右側(cè)的下拉列表,從中選擇“Clusters”,即可看到聚類視圖,其中包含了每個(gè)聚類的名稱、大小和概要。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論