版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
十、聚類分析中系統(tǒng)聚類方法聚類分析的步驟是什么?為什么系統(tǒng)聚類中各種聚類分析方法都有遞推公式。最長(zhǎng)距離、最短距離和類平均法的遞推公式是如何證明的?1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對(duì)稱表。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。(1)聚類分析中系統(tǒng)聚類方法:開(kāi)始各樣品自成一類。3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第K,L行和第K,L列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。4、在D(1)表再選擇最小的非零數(shù),其對(duì)應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。最后所有的樣本被歸于一類。聚類分析的步驟是什么?
§3主要的步驟1、選擇變量(1)變量與聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對(duì)象上的值有明顯的差異(4)變量之間不要高度相關(guān)2、計(jì)算相似性相似性是聚類分析中的基本概念,他反映了研究對(duì)象之間的親疏程度,聚類分析就是根據(jù)對(duì)象之間的相似性來(lái)分類的。有很多刻畫相似性的測(cè)度3、聚類選定了聚類的變量,計(jì)算出樣品或指標(biāo)之間的相似程度后,構(gòu)成了一個(gè)相似程度的矩陣。這時(shí)主要涉及兩個(gè)問(wèn)題:(1)選擇聚類的方法(2)確定形成的類數(shù)4、聚類結(jié)果的解釋和證實(shí)對(duì)聚類結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類產(chǎn)別的原因。
為什么系統(tǒng)聚類中各種聚類分析方法都有遞推公式。因?yàn)橄到y(tǒng)聚類剛開(kāi)始計(jì)算的距離都有一定的規(guī)律性,有著嚴(yán)格的定義,開(kāi)分項(xiàng),每一步都可以由上一步的計(jì)算所得到,如同可以從D(0)表中可以獲得很多知識(shí),最長(zhǎng)距離、最短距離和類平均法的遞推公式是如何證明的?
最短距離法的遞推公式推證
假設(shè)第K類和第L類合并成第M類,第M類與其它各舊類的距離按最短距離法為:
最長(zhǎng)距離法的遞推公式
假設(shè)第K類和第L類合并成第M類,第J類與其它各舊類的距離按最長(zhǎng)距離法為:類平均法定義類間的距離是兩類間樣品距離的平均數(shù)。對(duì)于我們前面討論的問(wèn)題
3、類平均法定義兩類間的距離遞推公式類平均法的遞推公式推導(dǎo)假設(shè)第K類和第L類合并成第類,第J類與其它各舊類的距離按最短距離法為:K類和L類與J類的距離的加權(quán)平均數(shù)十一、在系統(tǒng)聚類分析中,分類的類數(shù)可以通過(guò)R^2和偽F統(tǒng)計(jì)量來(lái)確定,指出R^2和偽F統(tǒng)計(jì)量的構(gòu)造。注:總離差平方和的分解(準(zhǔn)備知識(shí))3.一些統(tǒng)計(jì)量如果著些樣品被分成兩類可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和令W為總離差平方和令PG為分為G類的組內(nèi)離差平方和,則PG=W1+W2+┅+WG。R2比較大,說(shuō)明分G個(gè)類時(shí)類內(nèi)的離差平方和比較小,也就是說(shuō)分G類是合適的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,R2也就越大;所以我們只能取合適的G,使得R2足夠大,而G本生很小,隨著G的增加,R2的增幅不大。比如,假定分4類時(shí),R2=0.8;下一次合并分三類時(shí),下降了許多,R2=0.32,則分4類是合適的。1)統(tǒng)計(jì)量
3)偽F統(tǒng)計(jì)量的定義為
偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為G類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。
十二、有序聚類與系統(tǒng)聚類有何不同?k-均值聚類與系統(tǒng)聚類有何不同。有序聚類與系統(tǒng)聚類有何不同?系統(tǒng)聚類分析直觀,易懂,速度慢;
快速聚類快速,動(dòng)態(tài);
有序聚類*保序;
第二章聚類分析
§5有序樣本聚類法
一、功能范疇與數(shù)據(jù)類型有序樣本聚類法又稱為最優(yōu)分段法。該方法是由費(fèi)歇在1958年提出的。它主要適用于樣本由一個(gè)變量描述的情況。所以多變量問(wèn)題必須要找到一個(gè)刻畫距離的指標(biāo)。有序樣本聚類法常常被用于系統(tǒng)的評(píng)估問(wèn)題,被用來(lái)對(duì)樣本點(diǎn)進(jìn)行分類劃級(jí)。
系統(tǒng)聚類開(kāi)始n個(gè)樣品各自自成一類,然后逐步并類,直至所有的樣品被聚為一類為止。而有序聚類則相反,開(kāi)始所有的樣品為一類,然后分為二類、三類等,直到分成n類。每次分類都要求產(chǎn)生的離差平方和的增量最小。k-均值聚類與系統(tǒng)聚類有何不同。(網(wǎng)上)K均值聚類法和系統(tǒng)聚類法有什么區(qū)別,這兩種聚類方法的適用條件都是什么?k均值聚類法快速高效,特別是大量數(shù)據(jù)時(shí),準(zhǔn)確性高一些,但是需要你自己指定聚類的類別數(shù)量系統(tǒng)聚類法則是系統(tǒng)自己根據(jù)數(shù)據(jù)之間的距離來(lái)自動(dòng)列出類別,所以通過(guò)系統(tǒng)聚類法得出一個(gè)樹狀圖,至于聚類的類別需要自己根據(jù)樹狀圖以及經(jīng)驗(yàn)來(lái)確定(書75)K均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的,但是兩者的不同之處也是明顯的:系統(tǒng)聚類對(duì)不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而k均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開(kāi)實(shí)踐經(jīng)驗(yàn)的積累;有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對(duì)象進(jìn)行聚類,其結(jié)果作為k均值法確定類數(shù)的參考。十四、判別分析與聚類分析在變量有什么不同?聚類分析的選擇變量要求(1)變量與聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對(duì)象上的值有明顯的差異(4)變量之間不要高度相關(guān)變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。不同:判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。
判別分析的變量要求:1.判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測(cè)的;2.每個(gè)解釋變量不能是其它解釋變量的線性組合(比如出現(xiàn)多重共線性情況時(shí),判別權(quán)重會(huì)出現(xiàn)問(wèn)題);3.各解釋變量之間服從多元正態(tài)分布(不符合時(shí),可使用Logistic回歸替代),且各組解釋變量的協(xié)方差矩陣相等(各組協(xié)方方差矩陣有顯著差異時(shí),判別函數(shù)不相同)。4.判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類求出判別函數(shù),根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法,與聚類分析不同,它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。要選擇好可能用于判別的預(yù)測(cè)變量。這是最重要的一步。當(dāng)然,在應(yīng)用中,選擇的余地不見(jiàn)得有多大。要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來(lái)驗(yàn)證。判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果進(jìn)行解釋。判別分析中的因變量或判別準(zhǔn)則是定類變量,而自變量或預(yù)測(cè)變量基本上是定距變量。聚類分析并不是一種純粹的統(tǒng)計(jì)技術(shù),其方法基本上與分布理論和顯著性檢驗(yàn)無(wú)關(guān)。一般不從樣本推斷總體。而判別分析中,對(duì)于分布理論非常關(guān)注,它有一個(gè)基本假設(shè);每一個(gè)類別都應(yīng)取自一個(gè)多元正態(tài)的樣本,而且所有正態(tài)總體的協(xié)方差矩陣或相關(guān)矩陣都假定是相同的。如不滿足正態(tài)總體假定的做正態(tài)變換;如果不滿足協(xié)方差矩陣相同的假定,則可能要采用非線性的判別函數(shù)十五、距離判別分析中,為何不用歐氏距離?而用馬氏距離。首先由于判別分析中,對(duì)于分布理論非常關(guān)注,它有一個(gè)基本假設(shè);每一個(gè)類別都應(yīng)取自一個(gè)多元正態(tài)的樣本,而且所有正態(tài)總體的協(xié)方差矩陣或相關(guān)矩陣都假定是相同的。如不滿足正態(tài)總體假定的做正態(tài)變換。因此我們應(yīng)該選擇馬氏。二、常用距離的算法設(shè)和是第i和j個(gè)樣品的觀測(cè)值,則二者之間的距離為:明氏距離特別,歐氏距離(1)明氏距離測(cè)度
明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):①明氏距離的值與各指標(biāo)的量綱有關(guān);②明氏距離的定義沒(méi)有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合;(4)馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,表示觀測(cè)變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。第二節(jié)
距離判別(一)馬氏距離距離判別的最直觀的想法是計(jì)算樣品到第i類總體的平均數(shù)的距離,哪個(gè)距離最小就將它判歸哪個(gè)總體,所以,我們首先考慮的是是否能夠構(gòu)造一個(gè)恰當(dāng)?shù)木嚯x函數(shù),通過(guò)樣本與某類別之間距離的大小,判別其所屬類別。設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個(gè)觀測(cè)值點(diǎn),則稱
為X與Y之間的Mahalanobis距離。馬氏距離和歐式距離之間的差別馬氏距離歐氏距離馬氏距離有如下的特點(diǎn):
2、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離1、馬氏距離不受計(jì)量單位的影響;
3、若變量之間是相互無(wú)關(guān)的,則協(xié)方差矩陣為對(duì)角矩陣2倍標(biāo)準(zhǔn)差1.5倍標(biāo)準(zhǔn)差判給哪個(gè)總體更合理?十六、給出三個(gè)或以上距離判別法的判別規(guī)則。為什么在距離判別分析中,為何不能計(jì)算出錯(cuò)判概率?隨著計(jì)算機(jī)計(jì)算能力的增強(qiáng)和計(jì)算機(jī)的普及,距離判別法的判別函數(shù)也在逐步改進(jìn),一種等價(jià)的距離判別為:設(shè)有個(gè)K總體,分別有均值向量μj(j=1,2,…,k)和協(xié)方差陣Σj=Σ,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個(gè)待判樣品。則與的距離為(即判別函數(shù))(三)多總體的距離判別法上式中的第一項(xiàng)Y’Σ-1Y與j無(wú)關(guān),則舍去,得一個(gè)等價(jià)的函數(shù)將上式中提-2,得則距離判別法的判別函數(shù)為:判別規(guī)則為注:這與前面所提出的距離判別是等價(jià)的.(四)對(duì)判別效果做出檢驗(yàn)
由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會(huì)發(fā)生誤判。如圖
1.錯(cuò)判問(wèn)題閾值
了解兩個(gè)總體的情形:其判別函數(shù)為2.錯(cuò)判概率的計(jì)算設(shè)1和2是兩個(gè)總體,假設(shè)其服從正態(tài)分布,記p(2/1)來(lái)于第一個(gè)總體,但是判給了第二個(gè)總體的概率;p(1/2)來(lái)于第二個(gè)總體,但是判給了第一個(gè)總體的概率。則
因?yàn)樗?,?dāng)x屬于第一個(gè)總體時(shí)又則則所以同理思考:越大誤判概率是越大還是越小?誤判概率最大是多少?這時(shí)的為幾?假設(shè)兩總體均值間的馬氏距離為16,錯(cuò)判概率為多少?誤判概率一定可以計(jì)算出來(lái)嗎?
十七、給出貝葉斯判別法中后驗(yàn)概率最大的準(zhǔn)則貝葉斯判別法。為何要給出總體的分布形式。什么條件下距離判別和貝葉斯判別方法等價(jià)?(當(dāng)總體會(huì)以相同的概率(先驗(yàn)概率)出現(xiàn)時(shí))(1)給出貝葉斯判別法中后驗(yàn)概率最大的準(zhǔn)則貝葉斯判別法。設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時(shí),求他屬于某類的概率。由貝葉斯公式計(jì)算后驗(yàn)概率,有:判別規(guī)則則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。(2)為何要給出總體的分布形式。距離判別簡(jiǎn)單直觀,很實(shí)用,但是距離判別的方法把總體等同看待,沒(méi)有考慮到總體會(huì)以不同的概率(先驗(yàn)概率)出現(xiàn),也沒(méi)有考慮誤判之后所造成的損失的差異。一個(gè)好的判別方法,既要考慮到各個(gè)總體出現(xiàn)的先驗(yàn)概率,又要考慮到錯(cuò)判造成的損失,Bayes判別就具有這些優(yōu)點(diǎn),其判別效果更加理想,應(yīng)用也更廣泛。十八、在逐步判別中,^統(tǒng)計(jì)量是如何構(gòu)造的。如果該統(tǒng)計(jì)量小,說(shuō)明什么?小說(shuō)明p個(gè)指標(biāo)至少有一個(gè)對(duì)G1,G2,┅,Gk有強(qiáng)的區(qū)別能力,拒絕原假設(shè)。設(shè)有n樣品,分別來(lái)自k個(gè)類G1,G2,┅,Gk其中nj個(gè)來(lái)自Gj,
(一)變量組間差異的顯著檢驗(yàn)樣品分別為:即,p個(gè)指標(biāo)對(duì)G1,G2,┅,Gk均無(wú)區(qū)別能力;p個(gè)指標(biāo)至少有一個(gè)對(duì)G1,G2,┅,Gk有區(qū)別能力。當(dāng)比值很小,類內(nèi)叉積矩陣的行列式在總叉積矩陣的行列式所占比率小,則類間的離差平方和所占比重大。在原假設(shè)為真的條件下,服從維爾克斯分布。當(dāng)接受原假設(shè);當(dāng)p個(gè)指標(biāo)至少有一個(gè)對(duì)G1,G2,┅,Gk有強(qiáng)的區(qū)別能力,拒絕原假設(shè)。
五、如果我們有p個(gè)變量,如果基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析,那么所有主成分方差為p,這是為什么?
因?yàn)橄嚓P(guān)系數(shù)矩陣就是隨機(jī)變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣,通過(guò)隨機(jī)變量的標(biāo)準(zhǔn)化,相關(guān)系數(shù)矩陣剝離了單個(gè)指標(biāo)的方差,僅保留指標(biāo)間的相關(guān)性。用相關(guān)系數(shù)矩陣計(jì)算主成分,其優(yōu)勢(shì)效應(yīng)體現(xiàn)在相關(guān)性大、相關(guān)指標(biāo)多的一類指標(biāo)上?!?主成分的性質(zhì)一、均值二、方差為所有特征根之和說(shuō)明主成分分析把P個(gè)隨機(jī)變量的總方差分解成為P個(gè)不相關(guān)的隨機(jī)變量的方差之和。
協(xié)方差矩陣的對(duì)角線上的元素之和等于特征根之和。而因?yàn)橄嚓P(guān)系數(shù)矩陣的對(duì)角線上的元素只和為p六、在主成分分析中,主成分與原始變量之間的相關(guān)系數(shù)的計(jì)算公式是什么?四、變量與主成分之間的相關(guān)系數(shù)
可見(jiàn),和的相關(guān)的密切程度取決于對(duì)應(yīng)線性組合系數(shù)的大小。F1F2…Fpx1…x2…┇┇┇┇xp…七、基于相關(guān)系數(shù)矩陣的特征根和特征向量如下計(jì)算8個(gè)變量與第一個(gè)主成分之間的相關(guān)性。0.842658992=0.354838*sqrt(5.6395370)/sqrt(1)0.63029747=0.265414*sqrt(5.6395370)/sqrt(1)0.8615764180.8816456080.6722050540.899928970.956807110.913985239四、在因子分析中載荷矩陣有什么統(tǒng)計(jì)意義?我們?cè)谶M(jìn)行因子分析時(shí)載荷矩陣A,要滿足一些什么條件呢?§2因子分析的數(shù)學(xué)模型
(一)數(shù)學(xué)模型1、型因子分析數(shù)學(xué)模型設(shè)個(gè)變量,如果表示為稱為公共因子,是不可觀測(cè)的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿足:,即不相關(guān);即互不相關(guān),方差為1。即互不相關(guān),方差不一定相等,。2、型因子分析數(shù)學(xué)模型設(shè)個(gè)樣品,如果表示為稱為公共因子,是不可觀測(cè)的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿足:即不相關(guān);即互不相關(guān),方差為1。即互不相關(guān),方差不一定相等,。(二)因子分析中的幾個(gè)統(tǒng)計(jì)特征1、因子載荷的統(tǒng)計(jì)意義因子載荷是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù)
模型為
在上式的左右兩邊乘以
,再求數(shù)學(xué)期望
根據(jù)公共因子的模型性質(zhì),有(載荷矩陣中第i行,第j列的元素)反映了第i個(gè)變量與第j個(gè)公共因子的相關(guān)重要性。絕對(duì)值越大,相關(guān)的密切程度越高。八、如果進(jìn)行因子分析時(shí)利用主成分法,那么因子分析的載荷矩陣與主成分分析的載荷矩陣有什么關(guān)系。設(shè)隨機(jī)向量的均值為,協(xié)方差為,為的特征根,為對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量。(一)主成分法
上式給出的表達(dá)式是精確的,然而,它實(shí)際上是毫無(wú)價(jià)值的,因?yàn)槲覀兊哪康氖菍で笥蒙贁?shù)幾個(gè)公共因子解釋,故略去后面的p-m項(xiàng)的貢獻(xiàn)。
如果先假定模型中的特殊因子是不重要的,因而從的分解中忽略了特殊因子的方差。如果認(rèn)為從第m+1到p個(gè)特征根是非常小的,則九、從應(yīng)用的角度討論因子分析旋轉(zhuǎn)的目的。
§4因子旋轉(zhuǎn)(正交變換)建立了因子分析數(shù)學(xué)目的不僅僅要找出公共因子以及對(duì)變量進(jìn)行分組,更重要的要知道每個(gè)公共因子的意義,以便進(jìn)行進(jìn)一步的分析,如果每個(gè)公共因子的含義不清,則不便于進(jìn)行實(shí)際背景的解釋。由于因子載荷陣是不惟一的,所以應(yīng)該對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉(zhuǎn)法。四次方最大法、方差最大法和等量最大法。(一)為什么要旋轉(zhuǎn)因子因素旋轉(zhuǎn)的目的是想通過(guò)改變坐標(biāo)軸的位置,重新分配各個(gè)因素所解釋的變異數(shù)的比例,使因素結(jié)構(gòu)更為簡(jiǎn)單,更易于解釋。因素旋轉(zhuǎn)不會(huì)改變模型對(duì)數(shù)據(jù)的擬合程度,也不會(huì)改變每個(gè)變量的共通性,但卻會(huì)改變因素的變異數(shù)貢獻(xiàn)。所謂「簡(jiǎn)單的因素結(jié)構(gòu)」是指每個(gè)變量在盡可能少的因素上有比較高的負(fù)荷。以因素為軸,因素負(fù)荷為坐標(biāo)而做圖,則每個(gè)變量是該空間中的一個(gè)點(diǎn),該圖稱為因素負(fù)荷圖。如圖1和圖2所示。圖1
因素載荷圖圖2
坐標(biāo)軸旋轉(zhuǎn)載荷圖直角坐標(biāo)系由兩個(gè)因子張成。
十三、利用因子分析進(jìn)行聚類分析的步驟?
應(yīng)用背景:變量過(guò)多,理清其相關(guān)的頭緒。第一步:對(duì)P個(gè)變量做因子分析,留下兩個(gè)因子,做四次方最大旋轉(zhuǎn),然后根據(jù)其載荷的大小,將變量分到與其載荷最大的因子一組,則一分為二。第二步:選中一個(gè)類進(jìn)行再次的分割,分別對(duì)兩個(gè)類里的變量做因子分析,留兩個(gè)公共因子,做四次方最大旋轉(zhuǎn)觀察那個(gè)類有最大的第二個(gè)公共因子可解釋的方差,哪個(gè)最大,則此類被選中進(jìn)行二次分類;第三步:重復(fù)第二步的工作直到不能分為止。補(bǔ)充:變量聚類分析一、簡(jiǎn)介在實(shí)際工作中,變量聚類的應(yīng)用也十分重要。在系統(tǒng)分析或評(píng)估過(guò)程中,為了避免某些重要因素的遺漏,人們往往在一開(kāi)始選取指標(biāo)時(shí),盡可能多地考慮所有的相關(guān)因素。而這樣做的結(jié)果,則是變量過(guò)多,變量相關(guān)度高,給系統(tǒng)分析與建模帶來(lái)很大的不便。因此,人們常常希望能研究變量間的相似關(guān)系,按照變量的相關(guān)關(guān)系把他們聚合為若干類,從而觀察和解釋影響系統(tǒng)的主要原因。SAS/VARCLUS過(guò)程試圖把一組變量分為不重疊的一些類,所以VARCLUS過(guò)程可以用來(lái)壓縮變量,用信息損失很少的類分量來(lái)代替含有很多變量的變量集。例如,一種教育情況的檢查可能包括有50項(xiàng)指標(biāo),VARCLUS分析將這些項(xiàng)分為幾類,比如5個(gè)類,每類做部分檢查,檢查類分量的得分。二、變量聚類的步驟VARCLUS過(guò)程開(kāi)始把所有變量看為一個(gè)類,然后重復(fù)下面的步驟:1.
首先挑選一個(gè)將被分裂的類變量聚類分析的想法是,VARCLUS過(guò)程首先找出該大類的第一和第二公共因子,這兩個(gè)公共因子經(jīng)過(guò)正交坐標(biāo)變換,即因子分析中常用的Quartimax(四次方最大方法)旋轉(zhuǎn),讓原始變量?jī)H僅在一個(gè)公共因子上有高載荷。變量被指定歸入一個(gè)與其相關(guān)系數(shù)的平方較高的公共因子。如此原有的大類被分裂為二。2.變量重新歸類兩個(gè)(或兩個(gè)以上的)之中的一個(gè)類被選中,照第一步的方法再分裂為二。這個(gè)被選中的類通常擁有最大的第二特征根,或者是擁有最小的可被類向量解釋的變異數(shù)百分比。3.第一步和第二步不停的交互進(jìn)行,直至類內(nèi)變量之間的第二特征根或可被類向量解釋的變異數(shù)百分比達(dá)到預(yù)設(shè)定的標(biāo)準(zhǔn)為止。二十一、利用主成分得分進(jìn)行綜合評(píng)價(jià)的步驟。
計(jì)算所選原始變量的相關(guān)系數(shù)矩陣
相關(guān)系數(shù)矩陣描述了原始變量之間的相關(guān)關(guān)系。可以幫助判斷原始變量之間是否存在相關(guān)關(guān)系,這對(duì)因子分析是非常重要的,因?yàn)槿绻x變量之間無(wú)關(guān)系,做因子分析是不恰當(dāng)?shù)?。并且相關(guān)系數(shù)矩陣是估計(jì)因子結(jié)構(gòu)的基礎(chǔ)。選擇分析的變量用定性分析和定量分析的方法選擇變量,因子分析的前提條件是觀測(cè)變量間有較強(qiáng)的相關(guān)性,因?yàn)槿绻兞恐g無(wú)相關(guān)性或相關(guān)性較小的話,他們不會(huì)有共享因子,所以原始變量間應(yīng)該有較強(qiáng)的相關(guān)性。一、因子分析通常包括以下五個(gè)步驟提取公共因子
這一步要確定因子求解的方法和因子的個(gè)數(shù)。需要根據(jù)研究者的設(shè)計(jì)方案或有關(guān)的經(jīng)驗(yàn)或知識(shí)事先確定。因子個(gè)數(shù)的確定可以根據(jù)因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因?yàn)榉讲钚∮?的因子其貢獻(xiàn)可能很??;按照因子的累計(jì)方差貢獻(xiàn)率來(lái)確定,一般認(rèn)為要達(dá)到60%才能符合要求;
因子旋轉(zhuǎn)
通過(guò)坐標(biāo)變換使每個(gè)原始變量在盡可能少的因子之間有密切的關(guān)系,這樣因子解的實(shí)際意義更容易解釋,并為每個(gè)潛在因子賦予有實(shí)際意義的名字。
計(jì)算因子得分求出各樣本的因子得分,有了因子得分值,則可以在許多分析中使用這些因子,例如以因子的得分做聚類分析的變量,做回歸分析中的回歸因子。
二十二、證明因子模型中總體協(xié)方差矩陣的分解公式?!?因子分析的數(shù)學(xué)模型
(一)數(shù)學(xué)模型1、型因子分析數(shù)學(xué)模型設(shè)個(gè)變量,如果表示為稱為公共因子,是不可觀測(cè)的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿足:,即不相關(guān);即互不相關(guān),方差為1。即互不相關(guān),方差不一定相等,。(三)因子分析模型的性質(zhì)1、原始變量X的協(xié)方差矩陣的分解D的主對(duì)角線上的元素值越小,則公共因子共享的成分越多。三、為什么在進(jìn)行綜合評(píng)價(jià)時(shí)需要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無(wú)量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問(wèn)題,對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無(wú)量綱化處理主要解決數(shù)據(jù)的可比性。因?yàn)榻y(tǒng)計(jì)分析更多的是針對(duì)較復(fù)雜的社會(huì)經(jīng)濟(jì)現(xiàn)象,需要用比較廣泛的統(tǒng)計(jì)指標(biāo),即利用由眾多指標(biāo)構(gòu)成的統(tǒng)計(jì)指標(biāo)體系進(jìn)行描述與分析。而利用多指標(biāo)進(jìn)行統(tǒng)計(jì)分析,往往需要借助于各種各樣的統(tǒng)計(jì)綜合合成方法,如多指標(biāo)的綜合評(píng)價(jià)、聚類分析、主成分分析、關(guān)聯(lián)分析,等等。為此,需要指標(biāo)之間具有綜合性。然而,各指標(biāo)由于性質(zhì)不同、計(jì)量單位不同,往往缺乏綜合性。此外,當(dāng)各指標(biāo)間的水平相差很大時(shí),如果直接用原始指標(biāo)值進(jìn)行分析,就會(huì)突出數(shù)值較高的指標(biāo)在綜合分析中的作用,相對(duì)削弱數(shù)值水平較低指標(biāo)的作用,從而使各指標(biāo)以不等權(quán)參加運(yùn)算分析。為避免這一點(diǎn),解決各指標(biāo)數(shù)值可綜合性的問(wèn)題,必要時(shí)需要對(duì)各指標(biāo)數(shù)值進(jìn)行無(wú)量綱化處理。由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數(shù)的實(shí)踐解釋發(fā)生困難。不同變量自身具有相差較大的變異時(shí),會(huì)使在計(jì)算出的關(guān)系系數(shù)中,不同變量所占的比重大不相同。為了消除量綱影響和變量自身變異大小和數(shù)值大小的影響,故將數(shù)據(jù)標(biāo)準(zhǔn)化。
二、假設(shè)有一個(gè)p維正態(tài)總體
。那么數(shù)據(jù)變換
和有什么不同?他們都是馬氏距離的開(kāi)方,而第一種變換假設(shè)p維變量無(wú)關(guān),且他們的方差都相同,而變換二則考慮到更一般的情況也就是p維向量無(wú)關(guān),但是p維向量的方差是不同的。一、假設(shè)是正態(tài)分布的似然函數(shù),x是nxp樣本觀測(cè)矩陣。那么有最大值,這句話對(duì)嗎?為什么?(書p21)
十九、在我國(guó)的城鎮(zhèn)居民消費(fèi)支出中有食品、衣著、居住、家庭設(shè)備用品及服務(wù)、醫(yī)療保健1.這兩年的第一和第二公共因子有何不同。請(qǐng)闡述。2.給兩個(gè)公共因子命名3.計(jì)算共同度,和公共因子的方差解釋。4.用EXCEL計(jì)算殘差矩陣,討論因子分析結(jié)果;1.這兩年的第一和第二公共因子有何不同。請(qǐng)闡述。
2009年各個(gè)因素所解釋的變異數(shù)的比例更加明顯,使因素結(jié)構(gòu)更為簡(jiǎn)單,更易于解釋。2.給兩個(gè)公共因子命名
第一個(gè)因子:為城鎮(zhèn)居民的一般性支出因子(基本消費(fèi)因子)第二個(gè)因子:城鎮(zhèn)居民額外保健審美消費(fèi)因子(附加消費(fèi)因子)3.計(jì)算共同度,和公共因子的方差解釋。共同度:0.904021=0.95*0.95+0.39*0.0390.776450.7024090.80930.8197540.9425160.9379450.822226可見(jiàn)每個(gè)X的共同度都非常大,則因子分析的效果好,從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好。2、變量共同度的統(tǒng)計(jì)意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統(tǒng)計(jì)意義:兩邊求方差
所有的公共因子和特殊因子對(duì)變量的貢獻(xiàn)為1。如果非常靠近1,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鍋爐房造價(jià)課程設(shè)計(jì)
- 協(xié)議離婚與訴訟離婚的利弊2024年
- 市場(chǎng)信息收集合同
- 地產(chǎn)投資合作協(xié)議書
- 餅干烹飪課課程設(shè)計(jì)
- 個(gè)人向公司借款協(xié)議書范文
- 2024個(gè)人信用貸款合同范本
- 衛(wèi)生院聘用合同范本2024年
- 音樂(lè)創(chuàng)作服務(wù)合同
- 精裝修房屋保修合同
- 垃圾滲濾液處理站運(yùn)維及滲濾液處理投標(biāo)方案(技術(shù)標(biāo))
- 3.3《不簡(jiǎn)單的杠桿》課件
- 弗洛伊德生平及精神分析學(xué)說(shuō)的發(fā)展歷程
- 四年級(jí)作文-記一次活動(dòng)之有趣的搶凳子游戲(課堂PPT)
- 國(guó)企領(lǐng)導(dǎo)人員管理暫行規(guī)定
- 高校學(xué)生干部培訓(xùn)會(huì)新聞稿
- 招商引資面試題
- 人教版九年級(jí)物理全一冊(cè)課件【全冊(cè)】
- 顱內(nèi)動(dòng)脈瘤栓塞術(shù)課件
- 《鄉(xiāng)土中國(guó)》非連續(xù)性文本閱讀試題模擬練-2023屆高考語(yǔ)文備考復(fù)習(xí)
- 《國(guó)畫》課程標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論