版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
好裁縫做上衣,要測(cè)量上體長(zhǎng)、手臂長(zhǎng)、胸圍等14個(gè)指標(biāo)。這14個(gè)指標(biāo)是相關(guān)的,可以找出幾個(gè)反映上衣特征的綜合指標(biāo),加工出的上衣大多數(shù)人都能穿,當(dāng)然特體除外。這兩個(gè)不相關(guān)的指標(biāo)就是上衣的型和號(hào)。而他們所采用的方法就是因子分析方法。2023/9/214.3因子分析4.3.1因子分析的數(shù)理統(tǒng)計(jì)背景主要用于數(shù)據(jù)化簡(jiǎn)和降維將相關(guān)性較強(qiáng)的幾個(gè)變量歸在同一個(gè)類(lèi)中,每一類(lèi)賦予新的名稱(chēng),成為一個(gè)因子,反映事物的一個(gè)方面,或者說(shuō)一個(gè)維度。更可進(jìn)一步推出因子的值,然后用這些因子代替原來(lái)變量進(jìn)行其他統(tǒng)計(jì)分析。設(shè)有n個(gè)樣本,每個(gè)樣本觀(guān)測(cè)p個(gè)變量。為了對(duì)變量進(jìn)行比較,并消除由于觀(guān)測(cè)量綱的差異及數(shù)量級(jí)所造成的影響,將樣本觀(guān)測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。使標(biāo)準(zhǔn)化后的變量的均值為0,方差為1。2023/9/22X=(x1,x2,…,xp)T,是可觀(guān)測(cè)的隨機(jī)向量,且向量均值E(X)=0,協(xié)方差陣cov(X)=Σ,且協(xié)方差陣Σ與相關(guān)矩陣R相等;F=(F1,F2,…,Fm)T,m<p,是不可測(cè)的向量,其向量均值E(F)=0,協(xié)方差矩陣cov(F)=I,即向量F的各分量是相互獨(dú)立的;ε=(ε1,ε2,…,εp)T與F相互獨(dú)立,且E(ε)=0,ε協(xié)方差陣Σε是對(duì)角陣,說(shuō)明ε各分量之間也是相互獨(dú)立的。則下列模型被稱(chēng)為因子模型:x1=a11F1+a12F2+…+a1mFm+ε1x2=a21F1+a22F2+…+a2mFm+ε2…xp=ap1F1+ap2F2+…+apmFm+εp2023/9/23F1,F(xiàn)2,…Fm,被稱(chēng)作公共因子(也稱(chēng)主因子),在各個(gè)原觀(guān)測(cè)變量的表達(dá)式中都出現(xiàn),是相互獨(dú)立的不可觀(guān)測(cè)的理論變量。ε1,ε2,…
εp,被稱(chēng)作特殊因子,是向量X的分量Xi(i=1,2,…n)所特有的因子。aij稱(chēng)作因子載荷,aij的絕對(duì)值越大,表明Xi與Fj的相依程度越大。2023/9/244.3.2因子分析的過(guò)程問(wèn)題的定義計(jì)算并檢驗(yàn)協(xié)方差(相關(guān))矩陣巴特利特球體檢驗(yàn)
KMO測(cè)度選擇因子分析方法(methodoffactoranalysis)主成分分析法是一種值得推薦的方法,同時(shí)也是應(yīng)用比較廣泛的一類(lèi)方法。確定因子數(shù)目(numberoffactors)除了經(jīng)驗(yàn)判斷外,特征值法是選用較多的判斷方法;因子碎石圖(screeplot)提供了因子數(shù)目和特征值大小的圖形表示。2023/9/25因子旋轉(zhuǎn)(rotationoffactors)因子旋轉(zhuǎn)目的是使某些變量在某個(gè)因子上負(fù)載高,而在其它因子上的負(fù)載則顯著的低。因子解釋?zhuān)╥nterpretationoffactors)通過(guò)在因子上具有較高負(fù)載變量的意義進(jìn)行因子得分(factorscores)模型的適合度(modelfitness)模型是否適合,其判斷?;跉埐罹仃嚒?023/9/26例子:用因子分析法分析評(píng)價(jià)西部地區(qū)的人口素質(zhì),唐萬(wàn)梅.運(yùn)籌與管理,2005,4:85-89由于我國(guó)地區(qū)經(jīng)濟(jì)發(fā)展的不平衡,使各地區(qū)人口素質(zhì)水平存在一定差異,尤其在西部地區(qū)。為了從宏觀(guān)上把握西部地區(qū)的人口素質(zhì)水平,使用因子分析法進(jìn)行定量分析??紤]到各指標(biāo)數(shù)據(jù)的差異以及使得分析結(jié)果更加有效,首先將樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理后的數(shù)據(jù)消除了量綱之間的差異。保存在文件“西部地區(qū)人口素質(zhì).sav”中。2023/9/27撫養(yǎng)比X1文盲率X2人均受教育年X3婦女平均存活子女?dāng)?shù)X4平均預(yù)期壽命X5高等學(xué)校數(shù)X6高等學(xué)校畢業(yè)生人數(shù)X7專(zhuān)利申請(qǐng)受理量X8專(zhuān)利申請(qǐng)授權(quán)量X9教育經(jīng)費(fèi)X10Analyze→Datareduction→Factor2023/9/282023/9/29
輸出各個(gè)分析變量的初始共同度,特征值以及解釋方差的百分比2023/9/2102023/9/2112023/9/212KMO測(cè)度值大于0.5巴特利特球體檢驗(yàn)值查表也可以通過(guò)2023/9/213因子載荷矩陣旋轉(zhuǎn)后的因子載荷矩陣2023/9/214
Component
123撫養(yǎng)比(%)-.489.419.676文盲率(%)-.724.595-.277人均受教育年數(shù)(年).624-.714.243婦女平均存活子女?dāng)?shù)-.410-.147.848平均預(yù)期壽命(歲).782-.436-.115高等學(xué)校數(shù)(所).886.284.316高等學(xué)校畢業(yè)生人數(shù).909.292.136專(zhuān)利申請(qǐng)受理量(件).921.307-.060專(zhuān)利申請(qǐng)授權(quán)量(件).920.326-.069教育經(jīng)費(fèi)(萬(wàn)元).916.287.143
Component
123撫養(yǎng)比(%)-.042-.423.832文盲率(%)-.323-.923.014人均受教育年數(shù)(年).170.964-.030婦女平均存活子女?dāng)?shù)-.251.130.910平均預(yù)期壽命(歲).381.721-.387高等學(xué)校數(shù)(所).940.279.069高等學(xué)校畢業(yè)生人數(shù).927.239-.108專(zhuān)利申請(qǐng)受理量(件).908.185-.296專(zhuān)利申請(qǐng)授權(quán)量(件).915.165-.303教育經(jīng)費(fèi)(萬(wàn)元).932.249-.1042023/9/215因子F1F2F3被解釋指標(biāo)X6,X7,X8,X9,X10X2,X3,X5X1,X4因子命名科教因子人力因子負(fù)擔(dān)因子2023/9/216地區(qū)名稱(chēng)因子得分總因子得分排名F1F2F3內(nèi)蒙古1.54251.592-0.22831.277廣西2.51491.82320.3142.03774重慶2.78151.8454-0.56612.0773四川5.02312.1943-0.75173.58441貴州1.24270.53361.47061.14848云南1.770.48740.97061.40695西藏-0.3788-1.19210.6715-0.361412陜西3.3431.77890.28242.56862甘肅1.22360.74830.66031.04669青海0.02840.11591.09480.214111寧夏0.43011.01331.0790.640610新疆1.53541.41440.48581.346262023/9/217地區(qū)名稱(chēng)人口綜合素質(zhì)的排名按F1排名按F2排名按F3排名內(nèi)蒙古76510廣西4438重慶33211四川11112貴州8891云南55104西藏1212125陜西2249甘肅9986青海1111112寧夏101073新疆6767分類(lèi)是各個(gè)學(xué)科領(lǐng)域都普遍存在的問(wèn)題例如,人口學(xué)中研究人口生育分類(lèi)模式、人口死亡分類(lèi)模式;營(yíng)銷(xiāo)學(xué)中進(jìn)行市場(chǎng)細(xì)分、競(jìng)爭(zhēng)對(duì)手確定等等,都需要對(duì)研究對(duì)象進(jìn)行分類(lèi)。隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展,對(duì)事物的分類(lèi)在定量研究方面取得了極大的進(jìn)步。聚類(lèi)分析(clusteranalysis)根據(jù)事物本身的特性研究個(gè)體分類(lèi)是多元分析與當(dāng)代分類(lèi)學(xué)結(jié)合的產(chǎn)物,又稱(chēng)為群分析、點(diǎn)群分析或簇類(lèi)分析。2023/9/2184.4聚類(lèi)分析4.4.1聚類(lèi)分析的原理比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類(lèi),將性質(zhì)差別較大的歸入不同的類(lèi)。聚類(lèi)分析不必事先知道分類(lèi)對(duì)象的結(jié)構(gòu),從一批樣品的多個(gè)觀(guān)測(cè)指標(biāo)中,找出能度量樣品之間或指標(biāo)(變量)之間相似程度或親疏關(guān)系的統(tǒng)計(jì)量,構(gòu)成一個(gè)對(duì)稱(chēng)相似性矩陣,并按相似程度的大小,把樣品或變量逐一歸類(lèi)。2023/9/2194.4.2聚類(lèi)分析的步驟數(shù)據(jù)標(biāo)準(zhǔn)化為了消除不同變量的單位對(duì)聚類(lèi)結(jié)果的影響,應(yīng)當(dāng)首先對(duì)所有的數(shù)據(jù)標(biāo)準(zhǔn)化??梢酝ㄟ^(guò)SPSS軟件中Analyze菜單下的Classify選擇HierachicalClusterAnalysis,打開(kāi)HierachicalClusterAnalysis對(duì)話(huà)框,并點(diǎn)擊Method按鈕,然后在其中的transformvalues部分來(lái)完成數(shù)據(jù)標(biāo)準(zhǔn)化的轉(zhuǎn)換。計(jì)算對(duì)象之間的“距離”將個(gè)案看成多維空間的一個(gè)點(diǎn),引用多維空間中點(diǎn)的距離概念,定義不相似測(cè)度。距離越小,表示兩者之間的關(guān)系越緊密,相似特征越多,就越有可能分在同一類(lèi);相反,距離越大,表示兩者之間差異性越大。通過(guò)計(jì)算對(duì)象之間的兩兩“距離”,得到“相似關(guān)系”矩陣。在具體的計(jì)算中,“距離”有多種表達(dá)。2023/9/220選擇類(lèi)與類(lèi)之間的距離定義可由類(lèi)的“代表點(diǎn)”間的距離表示。①用兩類(lèi)之間的距離最近(或最遠(yuǎn))的點(diǎn)代表;②用兩類(lèi)中所有點(diǎn)之間距離(平方的)的平均值,又稱(chēng)為組間連接法(between-groupslinkage);③按照某一規(guī)則,選擇類(lèi)中的某一點(diǎn),代表該類(lèi)。聚類(lèi)把每個(gè)點(diǎn)(對(duì)象)作為一類(lèi)(稱(chēng)為第一層的類(lèi));找出距離最?。ɑ蜃畲螅┑?,從而得出距離最近(或最遠(yuǎn))的兩類(lèi)i與j,把它們合并為層次更高的一類(lèi)。如果同時(shí)有幾個(gè)距離一樣最?。ɑ蜃畲螅瑒t同時(shí)把所涉及的點(diǎn)作為一類(lèi);重復(fù),直至所有的點(diǎn)(對(duì)象)都并入一個(gè)大類(lèi)。分類(lèi)依據(jù)實(shí)際需求,確定以第幾層的類(lèi)為最終的分類(lèi)標(biāo)準(zhǔn)。2023/9/2214.4.3聚類(lèi)分析的主要方法系統(tǒng)聚類(lèi)法也稱(chēng)為分層聚類(lèi)法(HierarchicalCluster),它是聚類(lèi)分析中應(yīng)用最廣泛的一種方法動(dòng)態(tài)聚類(lèi)法也稱(chēng)快速聚類(lèi)法,或K-均值聚類(lèi)法(K-meansCluster)二階段聚類(lèi)是一個(gè)揭示數(shù)據(jù)集自然分組的探索性分析工具2023/9/222系統(tǒng)聚類(lèi)法基本思想開(kāi)始將樣品和指標(biāo)各視為一類(lèi),根據(jù)類(lèi)與類(lèi)之間的距離或相似程度將最相似的類(lèi)加以合并,再計(jì)算新類(lèi)與其他類(lèi)之間的相似程度,并選擇最相似的類(lèi)加以合并。每合并一次就減少一類(lèi),不斷繼續(xù)這一過(guò)程,直到所有樣品或指標(biāo)合并為一類(lèi)為止。數(shù)據(jù)文件cluster1.sav“Analyze”→“Classify”→“HierarchicalCluster”2023/9/223第一列表示聚類(lèi)分析的第幾步;第二、三列表示本步驟類(lèi)中哪兩個(gè)個(gè)案或者小類(lèi)聚成一類(lèi);第四列是個(gè)案距離或小類(lèi)距離;第五、第六列表示本步驟類(lèi)中參與聚類(lèi)的是個(gè)案還是小類(lèi),0表示個(gè)案,非0表示由第幾步聚類(lèi)生成的小類(lèi)參與本步驟類(lèi);第七列標(biāo)識(shí)本步驟類(lèi)的結(jié)果將在以下第幾步中用到。習(xí)題數(shù)據(jù)文件cluster3.sav是關(guān)于SPSS公司對(duì)所出售的產(chǎn)品的調(diào)查數(shù)據(jù)。SPSS公司的統(tǒng)計(jì)軟件中包括很多不同的模塊,調(diào)查表中要求客戶(hù)標(biāo)出自己經(jīng)常使用的模塊,1代表經(jīng)常使用,0代表不經(jīng)常使用?,F(xiàn)要求對(duì)這九個(gè)變量進(jìn)行分類(lèi),為公司下一步的決策提供依據(jù)。2023/9/228動(dòng)態(tài)聚類(lèi)基本原理在一開(kāi)始就按照一定的方法選取一批聚類(lèi)中心(ClusterCenter),讓樣品向最近的聚心凝聚,形成初始分類(lèi),然后按最近距離原則不斷修改不合理分類(lèi),直至合理。當(dāng)要聚成的類(lèi)數(shù)已知時(shí),使用快速聚類(lèi)可以很快地將觀(guān)測(cè)量分到各類(lèi)中去,其特點(diǎn)是處理速度快、占用內(nèi)存少。數(shù)據(jù)文件cluster2.sav是我國(guó)16個(gè)地區(qū)農(nóng)民在1982年支出情況的抽樣調(diào)查數(shù)據(jù)的匯總資料,每個(gè)地區(qū)都調(diào)查了反映每人平均生活消費(fèi)支出情況的6個(gè)指標(biāo)。
“Analyze”→“Classify”→“K-MeansCluster”2023/9/229
Iterateandclassify
默認(rèn)選項(xiàng)。表示聚類(lèi)過(guò)程中選擇或指定初始類(lèi)中心點(diǎn),按照K-means
的迭代算法不斷調(diào)整類(lèi)中心點(diǎn)。Classifyonly
聚類(lèi)過(guò)程中只使用初始的類(lèi)中心點(diǎn)而不做調(diào)整,迭代次數(shù)也進(jìn)行一次。ConvergenceCriterion:K-Means
算法的收斂準(zhǔn)則,輸入范圍在0~1之間,且不等于1。默認(rèn)值為0。若輸入數(shù)值為0.01,表示兩次迭代計(jì)算的最小類(lèi)中心的變化距離小于初始類(lèi)中心距離的1%時(shí)迭代停止。Userunningmeans:選擇該項(xiàng),表示在每個(gè)個(gè)案被分配到一類(lèi)后立即計(jì)算新的類(lèi)中心;反之,則在完成了所有個(gè)案的一次分配后,再計(jì)算各類(lèi)的類(lèi)中心。注意,對(duì)于大數(shù)據(jù)樣本,選擇該項(xiàng)會(huì)大大增加計(jì)算量和計(jì)算時(shí)間。ANOVAtable,該方差分析是以聚類(lèi)分析產(chǎn)生的類(lèi)為控制變量的單因素方差分析,并輸出各變量的方差分析表。Excludecaseslistwise
將帶有缺失值的個(gè)案從分析中剔除。Excludecasespairwise
只有當(dāng)個(gè)案的所有聚類(lèi)變量值全部缺失時(shí),才將其從分析中剔除,否則根據(jù)所有其他非缺失變量值,將其分配至最接近的一類(lèi)中。二階段聚類(lèi)基本原理可處理分類(lèi)變量和連續(xù)型變量。綜合處理多項(xiàng)-正態(tài)分布的數(shù)據(jù)。自動(dòng)確定最優(yōu)聚類(lèi)數(shù),有效地分析大樣本。step1構(gòu)建聚類(lèi)特征樹(shù);step2使用聚集聚類(lèi)法對(duì)聚類(lèi)特征樹(shù)的結(jié)點(diǎn)進(jìn)行分組,產(chǎn)生不同聚類(lèi)數(shù)的指標(biāo),比較Schwarz-Bayesian或Akaike信息準(zhǔn)則確定最優(yōu)類(lèi)數(shù)。數(shù)據(jù)文件cluster4.sav,保存的是157個(gè)各種不同車(chē)型的數(shù)據(jù)。包括汽車(chē)生產(chǎn)廠(chǎng)家、汽車(chē)型號(hào)、各種型號(hào)汽車(chē)的銷(xiāo)售額、價(jià)格和燃油效率等相關(guān)數(shù)據(jù)。要求對(duì)這157個(gè)不同型號(hào)的汽車(chē),用二階段聚類(lèi)分析方法進(jìn)行分類(lèi)?!癆nalyze”→“Classify”→“TwoStepCluster”2023/9/233選定變量列表中參與運(yùn)算的變量,按數(shù)據(jù)類(lèi)型分別移動(dòng)到“CategoricalVariables”窗口和“ContinuousVariables”窗口;在“DistanceMeasure”(距離測(cè)度)部分確定聚類(lèi)相似性計(jì)算方式;在“NumberofClusters”(聚類(lèi)數(shù))部分指定聚類(lèi)分析中聚類(lèi)數(shù)的確定方式。既可以選定“Determineautomatically”(系統(tǒng)自動(dòng)確定聚類(lèi)數(shù)),也可以使用“Specifyfixed”(固定聚類(lèi)數(shù)),指定一個(gè)正整數(shù)作為聚類(lèi)數(shù);此外,如果是希望系統(tǒng)確定聚類(lèi)數(shù)目,還需要在“ClusteringCriterion”(聚類(lèi)準(zhǔn)則)部分選定確定聚類(lèi)數(shù)目的算法,使用“Schwarz’sBayesianCriterion(BIC)”
即貝葉斯信息準(zhǔn)則或“Akaike’sInformationCriterion(AIC)”即Akaike信息準(zhǔn)則。2023/9/2342023/9/235對(duì)聚類(lèi)結(jié)果的輸出進(jìn)行設(shè)置
Createclustermembershipvariable
(創(chuàng)建聚類(lèi)成員變量)表示將在工作數(shù)據(jù)文件中創(chuàng)建名為tsc_n的新變量,以保存每一個(gè)觀(guān)測(cè)量所屬的分類(lèi)。同時(shí),也可以在這個(gè)子對(duì)話(huà)框中指定將聚類(lèi)模型及聚類(lèi)特征樹(shù)輸出到不同的XML格式文件中。2023/9/236二階聚類(lèi)分析的結(jié)果主要通過(guò)“聚類(lèi)瀏覽器”來(lái)查看聚類(lèi)瀏覽器包含左右兩個(gè)面板,主視圖位于左側(cè),鏈接或輔助視圖位于右側(cè)。主視圖包括模型摘要和聚類(lèi)視圖,鏈接/輔助視圖包括預(yù)測(cè)變量的重要性、聚類(lèi)大小、單元格分布和聚類(lèi)比較四種。聚類(lèi)視圖。在左側(cè)主面板下方單擊“View”右側(cè)的下拉列表,從中選擇“Clusters”,即可看到聚類(lèi)視圖,其中包含了每個(gè)聚類(lèi)的名稱(chēng)、大小和概要。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年西寧市城東區(qū)數(shù)學(xué)三年級(jí)第一學(xué)期期末質(zhì)量跟蹤監(jiān)視試題含解析
- 2024-2025學(xué)年烏蘭浩特市數(shù)學(xué)三上期末學(xué)業(yè)水平測(cè)試模擬試題含解析
- 2025年再生橡膠項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告
- 2024年片石供需協(xié)議
- 建筑實(shí)習(xí)報(bào)告范文錦集10篇
- 專(zhuān)業(yè)求職信匯編八篇
- 社會(huì)實(shí)踐心得50字
- 理想演講稿模板錦集5篇
- 個(gè)人簡(jiǎn)歷自我評(píng)價(jià)(15篇)
- 元旦主題晚會(huì)策劃書(shū)匯編15篇
- 《PDCA培訓(xùn)資料》課件
- 2025年護(hù)理部工作計(jì)劃
- 2024年區(qū)域代理經(jīng)營(yíng)協(xié)議
- DB35T 2153-2023 醫(yī)療機(jī)構(gòu)檢查檢驗(yàn)結(jié)果互認(rèn)共享數(shù)據(jù)傳輸及應(yīng)用要求
- 二年級(jí)語(yǔ)文上冊(cè) 課文2 口語(yǔ)交際 做手工教案 新人教版
- 七年級(jí)上冊(cè)語(yǔ)文第三單元知識(shí)速記清單(統(tǒng)編版2024)
- JJF 2143-2024 微波消解儀溫度參數(shù)校準(zhǔn)規(guī)范
- 2023-2024學(xué)年海南省陵水縣九年級(jí)(上)期末物理試卷
- 廣東省惠州市惠城區(qū)尚書(shū)實(shí)驗(yàn)分校2023-2024學(xué)年八年級(jí)上學(xué)期12月練習(xí)數(shù)學(xué)試卷
- 職業(yè)技能大賽電池制造工職業(yè)技能競(jìng)賽理論知識(shí)題及答案
- 2024秋期國(guó)家開(kāi)放大學(xué)專(zhuān)科《高等數(shù)學(xué)基礎(chǔ)》一平臺(tái)在線(xiàn)形考(形考任務(wù)一至四)試題及答案
評(píng)論
0/150
提交評(píng)論