主成分分析原理_第1頁(yè)
主成分分析原理_第2頁(yè)
主成分分析原理_第3頁(yè)
主成分分析原理_第4頁(yè)
主成分分析原理_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上第七章 主成分分析(一)教學(xué)目的通過(guò)本章的學(xué)習(xí),對(duì)主成分分析從總體上有一個(gè)清晰地認(rèn)識(shí),理解主成分分析的基本思想和數(shù)學(xué)模型,掌握用主成分分析方法解決實(shí)際問(wèn)題的能力。(二)基本要求了解主成分分析的基本思想,幾何解釋?zhuān)斫庵鞒煞址治龅臄?shù)學(xué)模型,掌握主成分分析方法的主要步驟。(三)教學(xué)要點(diǎn)1、主成分分析基本思想,數(shù)學(xué)模型,幾何解釋2、主成分分析的計(jì)算步驟及應(yīng)用(四)教學(xué)時(shí)數(shù)3課時(shí)(五)教學(xué)內(nèi)容1、主成分分析的原理及模型2、主成分的導(dǎo)出及主成分分析步驟 在實(shí)際問(wèn)題中,我們經(jīng)常會(huì)遇到研究多個(gè)變量的問(wèn)題,而且在多數(shù)情況下,多個(gè)變量之間常常存在一定的相關(guān)性。由于變量個(gè)數(shù)較多再加上變量

2、之間的相關(guān)性,勢(shì)必增加了分析問(wèn)題的復(fù)雜性。如何從多個(gè)變量中綜合為少數(shù)幾個(gè)代表性變量,既能夠代表原始變量的絕大多數(shù)信息,又互不相關(guān),并且在新的綜合變量基礎(chǔ)上,可以進(jìn)一步的統(tǒng)計(jì)分析,這時(shí)就需要進(jìn)行主成分分析。第一節(jié) 主成分分析的原理及模型一、主成分分析的基本思想與數(shù)學(xué)模型(一)主成分分析的基本思想主成分分析是采取一種數(shù)學(xué)降維的方法,找出幾個(gè)綜合變量來(lái)代替原來(lái)眾多的變量,使這些綜合變量能盡可能地代表原來(lái)變量的信息量,而且彼此之間互不相關(guān)。這種將把多個(gè)變量化為少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量的統(tǒng)計(jì)分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量,重新組合為一組新

3、的相互無(wú)關(guān)的綜合變量來(lái)代替原來(lái)變量。通常,數(shù)學(xué)上的處理方法就是將原來(lái)的變量做線性組合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應(yīng)該如何選擇呢?如果將選取的第一個(gè)線性組合即第一個(gè)綜合變量記為,自然希望它盡可能多地反映原來(lái)變量的信息,這里“信息”用方差來(lái)測(cè)量,即希望越大,表示包含的信息越多。因此在所有的線性組合中所選取的應(yīng)該是方差最大的,故稱為第一主成分。如果第一主成分不足以代表原來(lái)個(gè)變量的信息,再考慮選取即第二個(gè)線性組合,為了有效地反映原來(lái)信息,已有的信息就不需要再出現(xiàn)在中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求,稱為第二主成分,依此類(lèi)推可以構(gòu)造出第三、四第個(gè)主成分。(二)主成分分析的數(shù)學(xué)模

4、型對(duì)于一個(gè)樣本資料,觀測(cè)個(gè)變量,個(gè)樣品的數(shù)據(jù)資料陣為:其中:主成分分析就是將個(gè)觀測(cè)變量綜合成為個(gè)新的變量(綜合變量),即簡(jiǎn)寫(xiě)為: 要求模型滿足以下條件:互不相關(guān)(,)的方差大于的方差大于的方差,依次類(lèi)推 于是,稱為第一主成分,為第二主成分,依此類(lèi)推,有第個(gè)主成分。主成分又叫主分量。這里我們稱為主成分系數(shù)。上述模型可用矩陣表示為:,其中 稱為主成分系數(shù)矩陣。二、主成分分析的幾何解釋假設(shè)有個(gè)樣品,每個(gè)樣品有二個(gè)變量,即在二維空間中討論主成分的幾何意義。設(shè)個(gè)樣品在二維空間中的分布大致為一個(gè)橢園,如下圖所示:圖7.1 主成分幾何解釋圖將坐標(biāo)系進(jìn)行正交旋轉(zhuǎn)一個(gè)角度,使其橢圓長(zhǎng)軸方向取坐標(biāo),在橢圓短軸方向

5、取坐標(biāo),旋轉(zhuǎn)公式為寫(xiě)成矩陣形式為:其中為坐標(biāo)旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有,即滿足。經(jīng)過(guò)旋轉(zhuǎn)變換后,得到下圖的新坐標(biāo):圖7.2 主成分幾何解釋圖新坐標(biāo)有如下性質(zhì):(1)個(gè)點(diǎn)的坐標(biāo)和的相關(guān)幾乎為零。(2)二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)為軸上,而軸上的方差較小。和稱為原始變量和的綜合變量。由于個(gè)點(diǎn)在軸上的方差最大,因而將二維空間的點(diǎn)用在軸上的一維綜合變量來(lái)代替,所損失的信息量最小,由此稱軸為第一主成分,軸與軸正交,有較小的方差,稱它為第二主成分。三、主成分分析的應(yīng)用主成分概念首先是由Karl parson 在1901年引進(jìn),但當(dāng)時(shí)只對(duì)非隨機(jī)變量來(lái)討論的。1933年Hotelling將這個(gè)概念

6、推廣到隨機(jī)變量。特別是近年來(lái),隨著計(jì)算機(jī)軟件的應(yīng)用,使得主成分分析的應(yīng)用也越來(lái)越廣泛。其中,主成分分析可以用于系統(tǒng)評(píng)估。系統(tǒng)評(píng)估是指對(duì)系統(tǒng)營(yíng)運(yùn)狀態(tài)做出評(píng)估,而評(píng)估一個(gè)系統(tǒng)的營(yíng)運(yùn)狀態(tài)往往需要綜合考察許多營(yíng)運(yùn)變量,例如對(duì)某一類(lèi)企業(yè)的經(jīng)濟(jì)效益作評(píng)估,影響經(jīng)濟(jì)效益的變量很多,很難直接比較其優(yōu)劣,所以解決評(píng)估問(wèn)題的焦點(diǎn)是希望客觀、科學(xué)地將一個(gè)多變量問(wèn)題綜合成一個(gè)單變量形式,也就是說(shuō)只有在一維空間中才能使排序評(píng)估成為可能,這正符合主成分分析的基本思想。在經(jīng)濟(jì)統(tǒng)計(jì)研究中,除了經(jīng)濟(jì)效益的綜合評(píng)價(jià)研究外,對(duì)不同地區(qū)經(jīng)濟(jì)發(fā)展水平的評(píng)價(jià)研究,不同地區(qū)經(jīng)濟(jì)發(fā)展競(jìng)爭(zhēng)力的評(píng)價(jià)研究,人民生活水平、生活質(zhì)量的評(píng)價(jià)研究,等等都

7、可以用主成分分析方法進(jìn)行研究。另外,主成分分析除了用于系統(tǒng)評(píng)估研究領(lǐng)域外,還可以與回歸分析結(jié)合,進(jìn)行主成分回歸分析,以及利用主成分分析進(jìn)行挑選變量,選擇變量子集合的研究。第二節(jié) 主成分的導(dǎo)出及主成分分析的步驟一、主成分的導(dǎo)出 根據(jù)主成分分析的數(shù)學(xué)模型的定義,要進(jìn)行主成分分析,就需要根據(jù)原始數(shù)據(jù),以及模型的三個(gè)條件的要求,如何求出主成分系數(shù),以便得到主成分模型。這就是導(dǎo)出主成分所要解決的問(wèn)題。1、根據(jù)主成分?jǐn)?shù)學(xué)模型的條件要求主成分之間互不相關(guān),為此主成分之間的協(xié)差陣應(yīng)該是一個(gè)對(duì)角陣。即,對(duì)于主成分,其協(xié)差陣應(yīng)為,=2、設(shè)原始數(shù)據(jù)的協(xié)方差陣為,如果原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理后則協(xié)方差陣等于相關(guān)矩陣,

8、即有,3、再由主成分?jǐn)?shù)學(xué)模型條件和正交矩陣的性質(zhì),若能夠滿足條件最好要求為正交矩陣,即滿足于是,將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得展開(kāi)上式得展開(kāi)等式兩邊,根據(jù)矩陣相等的性質(zhì),這里只根據(jù)第一列得出的方程為:為了得到該齊次方程的解,要求其系數(shù)矩陣行列式為0,即顯然,是相關(guān)系數(shù)矩陣的特征值,是相應(yīng)的特征向量。根據(jù)第二列、第三列等可以得到類(lèi)似的方程,于是是方程的個(gè)根,為特征方程的特征根,是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設(shè)相關(guān)系數(shù)矩陣的個(gè)特征根為,相應(yīng)的特征向量為相對(duì)于的方差為同樣有:,即主成分的方差依次遞減。并且協(xié)方差為:綜上所述,根據(jù)證明有,主成分分析中的主成分協(xié)方差

9、應(yīng)該是對(duì)角矩陣,其對(duì)角線上的元素恰好是原始數(shù)據(jù)相關(guān)矩陣的特征值,而主成分系數(shù)矩陣的元素則是原始數(shù)據(jù)相關(guān)矩陣特征值相應(yīng)的特征向量。矩陣是一個(gè)正交矩陣。于是,變量經(jīng)過(guò)變換后得到新的綜合變量新的隨機(jī)變量彼此不相關(guān),且方差依次遞減。二、主成分分析的計(jì)算步驟樣本觀測(cè)數(shù)據(jù)矩陣為:第一步:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 其中 第二步:計(jì)算樣本相關(guān)系數(shù)矩陣。為方便,假定原始數(shù)據(jù)標(biāo)準(zhǔn)化后仍用表示,則經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)的相關(guān)系數(shù)為: 第三步:用雅克比方法求相關(guān)系數(shù)矩陣的特征值()和相應(yīng)的特征向量。第四步:選擇重要的主成分,并寫(xiě)出主成分表達(dá)式。主成分分析可以得到個(gè)主成分,但是,由于各個(gè)主成分的方差是遞減的,包含的信息

10、量也是遞減的,所以實(shí)際分析時(shí),一般不是選取個(gè)主成分,而是根據(jù)各個(gè)主成分累計(jì)貢獻(xiàn)率的大小選取前個(gè)主成分,這里貢獻(xiàn)率就是指某個(gè)主成分的方差占全部方差的比重,實(shí)際也就是某個(gè)特征值占全部特征值合計(jì)的比重。即貢獻(xiàn)率=貢獻(xiàn)率越大,說(shuō)明該主成分所包含的原始變量的信息越強(qiáng)。主成分個(gè)數(shù)的選取,主要根據(jù)主成分的累積貢獻(xiàn)率來(lái)決定,即一般要求累計(jì)貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。另外,在實(shí)際應(yīng)用中,選擇了重要的主成分后,還要注意主成分實(shí)際含義解釋。主成分分析中一個(gè)很關(guān)鍵的問(wèn)題是如何給主成分賦予新的意義,給出合理的解釋。一般而言,這個(gè)解釋是根據(jù)主成分表達(dá)式的系數(shù)結(jié)合定性分析來(lái)進(jìn)行的。主成分是原來(lái)變量的線性組合,在這個(gè)線性組合中個(gè)變量的系數(shù)有大有小,有正有負(fù),有的大小相當(dāng),因而不能簡(jiǎn)單地認(rèn)為這個(gè)主成分是某個(gè)原變量的屬性的作用,線性組合中各變量系數(shù)的絕對(duì)值大者表明該主成分主要綜合了絕對(duì)值大的變量,有幾個(gè)變量系數(shù)大小相當(dāng)時(shí),應(yīng)認(rèn)為這一主成分是這幾個(gè)變量的總和,這幾個(gè)變量綜合在一起應(yīng)賦予怎樣的實(shí)際意義,這要結(jié)合具體實(shí)際問(wèn)題和專(zhuān)業(yè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論