版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十一講主成分分析第1頁,共74頁,2023年,2月20日,星期一研究需求:在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。
第2頁,共74頁,2023年,2月20日,星期一一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。一
基本思想第3頁,共74頁,2023年,2月20日,星期一在進行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:第4頁,共74頁,2023年,2月20日,星期一
F1F2F3iitF11
F201
F3001
i0.995-0.0410.057l
i-0.0560.948-0.124-0.102l
t-0.369-0.282-0.836-0.414-0.1121第5頁,共74頁,2023年,2月20日,星期一概念:
主成分分析是一種通過降維技術(shù)把多個指標約化為少數(shù)幾個綜合指標的綜合統(tǒng)計分析方法,而這些綜合指標能夠反映原始指標的絕大部分信息,它們通常表現(xiàn)為原始幾個指標的線性組合。
第6頁,共74頁,2023年,2月20日,星期一基本思想及意義哲學(xué)理念:抓住問題的主要矛盾。主成分分析將具有一定相關(guān)性的眾多指標重新組合成新的無相互關(guān)系的綜合指標來代替。通常數(shù)學(xué)上的處理就是將這P個指標進行線性組合作為新的綜合指標。問題是:這樣的線性組合會很多,如何選擇?第7頁,共74頁,2023年,2月20日,星期一如果將選取的第一個線性組合即第一個綜合指標記為F1
,希望它能盡可能多地反映原來指標的信息,即var(F1)越大,所包含的原指標信息就越多,F(xiàn)1的方差應(yīng)該最大,稱F1為第一主成分。第8頁,共74頁,2023年,2月20日,星期一如果第一主成分F1不足以代表原來p個指標的信息,再考慮選取F2即選擇第二個線性組合。為了有效地反映原來的信息,F(xiàn)1中已包含的信息,無須出現(xiàn)在F2中,即cov(F1,F2),稱F2為第二主成分。仿此可以得到p個主成分。第9頁,共74頁,2023年,2月20日,星期一我們可以發(fā)現(xiàn)這些主成分之間互不相關(guān)且方差遞減,即數(shù)據(jù)的信息包含在前若干個主成分中,因而只需挑選前幾個主成分就基本上反映了原始指標的信息。這種既減少了變量的數(shù)目又抓住了主要矛盾的做法有利于問題的解決。第10頁,共74頁,2023年,2月20日,星期一二數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉(zhuǎn)變?yōu)橛懻損個指標的線性組合的問題,而這些新的指標F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。第11頁,共74頁,2023年,2月20日,星期一這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。簡記為第12頁,共74頁,2023年,2月20日,星期一滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即第13頁,共74頁,2023年,2月20日,星期一?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸第14頁,共74頁,2023年,2月20日,星期一?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?第15頁,共74頁,2023年,2月20日,星期一????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?第16頁,共74頁,2023年,2月20日,星期一?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸???????????????????????????????????????????????????????????????第17頁,共74頁,2023年,2月20日,星期一為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。
第18頁,共74頁,2023年,2月20日,星期一如果我們將xl
軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。第19頁,共74頁,2023年,2月20日,星期一根據(jù)旋轉(zhuǎn)變換的公式:第20頁,共74頁,2023年,2月20日,星期一旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。第21頁,共74頁,2023年,2月20日,星期一
Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的各點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。第22頁,共74頁,2023年,2月20日,星期一三主成分的推導(dǎo)及性質(zhì)
1、兩個線性代數(shù)的結(jié)論
1)、若A是p階實對稱陣,則一定可以找到正交陣U,使其中是A的特征根。第23頁,共74頁,2023年,2月20日,星期一
2)、若上述矩陣的特征根所對應(yīng)的單位正交特征向量為則實對稱陣屬于不同特征根所對應(yīng)的特征向量是正交的,即有令第24頁,共74頁,2023年,2月20日,星期一
2、主成分的推導(dǎo)
(一)
第一主成分設(shè)X的協(xié)方差陣為由于Σx為非負定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得第25頁,共74頁,2023年,2月20日,星期一其中1,2,…,p為Σx的特征根,不妨假設(shè)12
…p。而U恰好是由特征根相對應(yīng)的單位特征向量所組成的正交陣。下面我們來看,是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。第26頁,共74頁,2023年,2月20日,星期一設(shè)有P維正交向量且第27頁,共74頁,2023年,2月20日,星期一第28頁,共74頁,2023年,2月20日,星期一當且僅當a1=u1時,即時,有最大的方差1。因為Var(F1)=U’1xU1=1。
如果第一主成分的信息不夠,則需要尋找第二主成分。第29頁,共74頁,2023年,2月20日,星期一(二)
第二主成分在約束條件下,尋找第二主成分
因為所以則,對p維向量,有第30頁,共74頁,2023年,2月20日,星期一所以如果取線性變換:
則的方差次大。類推第31頁,共74頁,2023年,2月20日,星期一寫為矩陣形式:第32頁,共74頁,2023年,2月20日,星期一四主成分的性質(zhì)1、均值2、方差為所有特征根之和說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。
協(xié)方差矩陣的對角線上的元素之和等于特征根之和。第33頁,共74頁,2023年,2月20日,星期一3、精度分析1)貢獻率:第i個主成分的方差在全部方差中所占比重,稱為貢獻率,反映了原來P個指標多大的信息,有多大的綜合能力。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻率。第34頁,共74頁,2023年,2月20日,星期一我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來的P個指標。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量85%以上的信息量為依據(jù),即當累積貢獻率≥85%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。第35頁,共74頁,2023年,2月20日,星期一4、原始變量與主成分之間的相關(guān)系數(shù)
第36頁,共74頁,2023年,2月20日,星期一可見,和的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。第37頁,共74頁,2023年,2月20日,星期一第38頁,共74頁,2023年,2月20日,星期一5、原始變量被主成分的提取率
前面我們討論了主成分的貢獻率和累計貢獻率,他度量了F1,F(xiàn)2,……,F(xiàn)m分別從原始變量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分別F1,F(xiàn)2,……,F(xiàn)m被提取了。應(yīng)該用什么指標來度量?我們考慮到當討論F1分別與X1,X2,……XP的關(guān)系時,可以討論F1分別與X1,X2,……XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負,所以只有考慮相關(guān)系數(shù)的平方。第39頁,共74頁,2023年,2月20日,星期一如果我們僅僅提出了m個主成分,則第i原始變量信息的被提取率為:是Fj能說明的第i原始變量的方差是Fj提取的第i原始變量信息的比重第40頁,共74頁,2023年,2月20日,星期一例
設(shè)的協(xié)方差矩陣為解得特征根為,,,,第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。第41頁,共74頁,2023年,2月20日,星期一Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111第42頁,共74頁,2023年,2月20日,星期一定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子)第43頁,共74頁,2023年,2月20日,星期一6、載荷矩陣
第44頁,共74頁,2023年,2月20日,星期一五標準化變量主成分在實際問題中,不同的變量往往有不同的量綱,由于不同的量綱會引起各變量取值的分散程度差異較大,這時,總體方差則主要受方差較大的變量的控制。若用∑求主成分,則優(yōu)先照顧了方差大的變量,有時會造成很不合理的結(jié)果。為了消除由于量綱的不同可能帶來的影響,常采用變量標準化的方法,即令,
第45頁,共74頁,2023年,2月20日,星期一這時,的協(xié)方差矩陣便是的相關(guān)系數(shù)陣,其中利用X的相關(guān)矩陣ρ作主成分分析,平行于前面∑的結(jié)論,可以有如下的定理:第46頁,共74頁,2023年,2月20日,星期一定理:設(shè)為標準化的隨機向量,其協(xié)方差矩陣(即X的相關(guān)矩陣)為ρ,則X*的第i個主成分并且第47頁,共74頁,2023年,2月20日,星期一其中為相關(guān)矩陣ρ的特征值,為相應(yīng)的正交單位化特征向量。這時第i個主成分的貢獻為前m個主成分的累積貢獻為第48頁,共74頁,2023年,2月20日,星期一例題:對比標準化和非標準化數(shù)據(jù)的主成分
設(shè)協(xié)方差矩陣和對應(yīng)的相關(guān)矩陣分別為第49頁,共74頁,2023年,2月20日,星期一如果從∑出發(fā)作主成分分析,易求得其特征值和相應(yīng)的單位正交化特征向量為則X的兩個主成分分別為:第一主成分的貢獻率為:
由于X2的方差很大,完全控制了提取信息量占99.2%的第一主成分(X2在F1中的系數(shù)為0.999),淹沒了變量X1的作用。第50頁,共74頁,2023年,2月20日,星期一如果從ρ出發(fā)作主成分分析,可求得其特征值和相應(yīng)的單位正交化特征向量為則X*的兩個主成分分別為:此時,第一主成分的貢獻率有所下降,為:第51頁,共74頁,2023年,2月20日,星期一由此看到,原變量在第一主成分中的相對重要性由于標準化而有很大的變化。在由∑所求得的第一主成分中,X1和X2和的權(quán)重系數(shù)分別為0.040和0.999,主要由大方差的變量控制。而在由ρ所求得的第一主成分中,X1和X2和的權(quán)重系數(shù)反而成了0.707和0.0707,即X1的相對重要性得到提升。此例也表明,由∑和ρ求得的主成分一般是不相同的,而且,其中第一組主成分也不是第二組主成分的某簡單函數(shù)。在實際應(yīng)用中,當涉及的各變量的變化范圍差異較大時,從ρ出發(fā)求主成分比較合理。第52頁,共74頁,2023年,2月20日,星期一1.85%原則記方差的累積貢獻率為六主成分個數(shù)的選取根據(jù)我國主成分分析的實踐來看,通常可以保證分析結(jié)果的可靠性。該原則是在實踐中總結(jié)出來的,與其它原則相比,通常有選取較多主成分的傾向。第53頁,共74頁,2023年,2月20日,星期一實踐中,該準則通常容易選取較少的主成分。先計算,然后將與之進行比較,選取的前q個變量的主成分。由于由樣本數(shù)據(jù)的相關(guān)矩陣R所求得,所以,故只要選取的前q個變量作為主成分即可。2.的原則第54頁,共74頁,2023年,2月20日,星期一3.斯格理(Screet)原則具體做法:計算特征根的差,如果前q個比較近,即出現(xiàn)了較為穩(wěn)定的差值,則后p-q個變量可以確定為非主成分。這是從相反的方向來確定主成分的一種做法。實踐中,該準則也傾向于選擇較多的主成分,而且一般不單獨使用。第55頁,共74頁,2023年,2月20日,星期一4.巴特萊特檢驗(Bartlet)原則H0:最后p-q個分量均等于或不顯著地大于零。
該檢驗的精確性受到樣本容量n大小的影響,當n較小時,有可能低估突出變量的數(shù)目;當n較大時,有可能高估突出變量的數(shù)目。具體做法:從q=1開始,一直檢驗到最后p-q個變量不顯著為止。其中:檢驗統(tǒng)計量:第56頁,共74頁,2023年,2月20日,星期一1、主成分的解釋
1)、從特征向量Uij的各個分量數(shù)值的大小入手進行分析與概括。
Uij表明了變量xj(xj*)與主成分Fi之間的關(guān)系。主成分Fi在變量xj(xj*)上的系數(shù)Uij越大,說明該主成分主要代表了該變量xj(xj*)的信息;反之,若越接近于0,則表明幾乎沒有該變量什么信息。七主成分的解釋第57頁,共74頁,2023年,2月20日,星期一2)從特征向量的各個分量Uij數(shù)值的符號入手進行分析與概括
主成分系數(shù)Uij的符號表明了變量xj(xj*)與主成分Fi之間的作用關(guān)系,一般地,正號表示變量與主成分的作用同方向;而負號則表示變量與主成分作用是逆向變動關(guān)系。第58頁,共74頁,2023年,2月20日,星期一3).如果變量分組較有規(guī)則,則從特征向量各分量Uij數(shù)值作出組內(nèi)、組間對比分析4).如果主成分中,各變量的系數(shù)都大致相同,則要考慮是否存在一個一般性的影響因素第59頁,共74頁,2023年,2月20日,星期一2、主成分分析適用的場合3.不完全相關(guān)主成分分析效果較好能實施主成分分析高度相關(guān)中度相關(guān)低度相關(guān)1.完全相關(guān)2.完全不相關(guān)不必實施主成分分析第60頁,共74頁,2023年,2月20日,星期一八主成分分析的步驟STEP03:求相關(guān)系數(shù)矩陣R的特征根λ1≥λ2
≥‥‥≥
λp
≥0及相應(yīng)的單位正交特征向量U1,U2,‥‥,Up;STEP02:計算X的相關(guān)系數(shù)矩陣R;STEP01:將原始數(shù)據(jù)X進行標準化,得X*;STEP04:計算方差累積貢獻率,確定主成分的個數(shù)q;STEP05:寫出主成分F=X*U,解釋其實際經(jīng)濟意義并指導(dǎo)實踐。第61頁,共74頁,2023年,2月20日,星期一主成分分析方法應(yīng)用實例
下面,我們根據(jù)表一給出的數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)做主成分分析,
表一某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù)
第62頁,共74頁,2023年,2月20日,星期一第63頁,共74頁,2023年,2月20日,星期一步驟如下:(1)將表一中的數(shù)據(jù)作標準差標準化處理,然后將它們代入公式計算相關(guān)系數(shù)矩陣(見表二)。表二相關(guān)系數(shù)矩陣第64頁,共74頁,2023年,2月20日,星期一(2)由相關(guān)系數(shù)矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(見表三)。由表3.5.2可知,第一,第二,第三主成分的累計貢獻率已高達86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。
第65頁,共74頁,2023年,2月20日,星期一表三特征值及主成分貢獻率
第66頁,共74頁,2023年,2月20日,星期一(3)對于特征值=4.6610,=2.0890,=1.0430分別求出其特征向量e1,e2,e3,再用公式計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版美容院美容院美容院美容院美容院員工激勵合同4篇
- 2025年項目部安全管理責任合同書編制規(guī)范2篇
- 2025年度個人藝術(shù)品鑒定擔保合同大全4篇
- 2025年水土保持監(jiān)測技術(shù)咨詢與技術(shù)培訓(xùn)合同3篇
- 2025年度個人經(jīng)營性借款合同規(guī)范文本4篇
- 2025年食用菌保健品綠色食品認證代理銷售合同3篇
- 專利技術(shù)買賣專項合同(2024年修訂版)版B版
- 2025年度草捆回收與再生利用合同3篇
- 二零二五版供應(yīng)鏈金融服務(wù)-倉儲庫存融資倉單質(zhì)押授信合同3篇
- 2025版化妝品質(zhì)量檢測及售后追蹤服務(wù)合同范本2篇
- 不同茶葉的沖泡方法
- 光伏發(fā)電并網(wǎng)申辦具體流程
- 建筑勞務(wù)專業(yè)分包合同范本(2025年)
- 企業(yè)融資報告特斯拉成功案例分享
- 運動技能學(xué)習(xí)與控制完整
- 食管癌的早期癥狀和手術(shù)治療
- 垃圾分類和回收利用課件
- 北侖區(qū)建筑工程質(zhì)量監(jiān)督站監(jiān)督告知書
- 法考客觀題歷年真題及答案解析卷一(第1套)
- 央國企信創(chuàng)白皮書 -基于信創(chuàng)體系的數(shù)字化轉(zhuǎn)型
- 6第六章 社會契約論.電子教案教學(xué)課件
評論
0/150
提交評論