![應(yīng)用回歸分析(R語言版)(第2版) 課件 第8章 主成分回歸與偏最小二乘_第1頁](http://file4.renrendoc.com/view10/M03/30/2F/wKhkGWXnKlSAXVfKAADZFq5gTcs591.jpg)
![應(yīng)用回歸分析(R語言版)(第2版) 課件 第8章 主成分回歸與偏最小二乘_第2頁](http://file4.renrendoc.com/view10/M03/30/2F/wKhkGWXnKlSAXVfKAADZFq5gTcs5912.jpg)
![應(yīng)用回歸分析(R語言版)(第2版) 課件 第8章 主成分回歸與偏最小二乘_第3頁](http://file4.renrendoc.com/view10/M03/30/2F/wKhkGWXnKlSAXVfKAADZFq5gTcs5913.jpg)
![應(yīng)用回歸分析(R語言版)(第2版) 課件 第8章 主成分回歸與偏最小二乘_第4頁](http://file4.renrendoc.com/view10/M03/30/2F/wKhkGWXnKlSAXVfKAADZFq5gTcs5914.jpg)
![應(yīng)用回歸分析(R語言版)(第2版) 課件 第8章 主成分回歸與偏最小二乘_第5頁](http://file4.renrendoc.com/view10/M03/30/2F/wKhkGWXnKlSAXVfKAADZFq5gTcs5915.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第8章主成分回歸與偏最小二乘8.1主成分回歸8.2偏最小二乘8.3本章小結(jié)與評注2024/3/51中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸2024/3/52中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1.1主成分的基本思想主成分分析(PrincipalComponentsAnalysis,PCA)也稱為主量分析,利用一種降維的思想,在損失信息很少的前提下把多個(gè)指標(biāo)利用正交旋轉(zhuǎn)變換轉(zhuǎn)化為幾個(gè)綜合指標(biāo)。通常把轉(zhuǎn)化成的綜合指標(biāo)稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。8.1主成分回歸設(shè)對某一事物的研究涉及p個(gè)指標(biāo),分別用表示。這p個(gè)指標(biāo)構(gòu)成的p維隨機(jī)向量為設(shè)隨機(jī)向量X的均值為,協(xié)方差矩陣為。對X進(jìn)行線性變換,可以形成新的綜合變量,用Y表示,即滿足下式:2024/3/5中國人民大學(xué)六西格瑪質(zhì)量管理研究中心32024/3/54中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸由于可以任意地對原始變量進(jìn)行上述線性變換,得到的綜合變量Y的統(tǒng)計(jì)特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨(dú)立,由于而對于任意常數(shù)c,有因此,對不加限制時(shí),可使任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:2024/3/55中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸不相關(guān)的一切滿足原則(1)的線性組合中方差最大者;不相關(guān)的所有線性組合中方差最大者;…;不相關(guān)的的所有線性組合中方差最大者。基于以上三條原則決定的綜合變量分別被稱為原始變量的第一、第二、…、第p個(gè)主成分。其中,各綜合變量在總方差中占的比重依次遞減。在實(shí)際研究工作中,通常只挑前幾個(gè)方差最大的主成分,從而達(dá)到簡化系統(tǒng)結(jié)構(gòu),抓住問題實(shí)質(zhì)的目的。2024/3/56中國人民大學(xué)六西格瑪質(zhì)量管理研究中心結(jié)論:設(shè)隨機(jī)向量的協(xié)方差矩陣為為相應(yīng)特征值,為對應(yīng)的特征向量,則第i個(gè)主成分為:8.1.2主成分的基本性質(zhì)引論:設(shè)矩陣,將A的特征值依大小順序排列,不妨設(shè)為矩陣A各特征值對應(yīng)的標(biāo)準(zhǔn)正交向量,則對任意向量x,有:8.1主成分回歸2024/3/57中國人民大學(xué)六西格瑪質(zhì)量管理研究中心由以上結(jié)論,我們把的協(xié)方差陣的非零特征值對應(yīng)的標(biāo)準(zhǔn)化特征向量分別作為系數(shù)向量,分別稱為隨機(jī)向量X的第一主成分、第二主成分、…、第p個(gè)主成分。性質(zhì)1Y的協(xié)方差陣為對角陣,其中對角線上的值為。此時(shí):8.1主成分回歸2024/3/58中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸性質(zhì)2記稱為第k個(gè)主成分的方差貢獻(xiàn)率,稱為前m個(gè)主成分的累積貢獻(xiàn)率。性質(zhì)3
式中,第k個(gè)主成分與原始變量的相關(guān)系數(shù)稱為因子負(fù)荷量,其絕對值大小刻畫了該主成分的主要意義及其成因。
性質(zhì)4
2024/3/59中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸性質(zhì)5
與前m個(gè)主成分的全相關(guān)系數(shù)平方和稱為
對
的方差貢獻(xiàn)率
,(i=1,2,…,p)。這一定義說明前m個(gè)主成分提取了原始變量中的信息,由此可以判斷提取的主成分解釋原始變量的能力。為了避免變量的量綱不同所產(chǎn)生的影響,先將數(shù)據(jù)中心標(biāo)準(zhǔn)化,中心標(biāo)準(zhǔn)化后的自變量樣本觀測數(shù)據(jù)矩陣是n行p列的矩陣,就是相關(guān)陣。2024/3/510中國人民大學(xué)六西格瑪質(zhì)量管理研究中心例8-1下面以例3-3民航客運(yùn)量的數(shù)據(jù)為例介紹主成分回歸方法。首先對5個(gè)自變量計(jì)算主成分,用R軟件進(jìn)行計(jì)算并輸出相應(yīng)的計(jì)算結(jié)果,見輸出結(jié)果8.1和輸出結(jié)果8.2。8.1主成分回歸2024/3/511中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸輸出結(jié)果8.1中Importanceofcomponents部分第一行是5個(gè)主成分的標(biāo)準(zhǔn)差,即主成分所對應(yīng)的特征值的算術(shù)平方根
(k=1,2,…,p);第二行是各主成分方差所占的比例,反映了主成分所能解釋數(shù)據(jù)變異的比例,也就是包含原數(shù)據(jù)的信息比例;第三行是累積比例。第一個(gè)主成分Comp.1的方差百分比為79.826%,含有原始5個(gè)變量近80%的信息量;前兩個(gè)主成分累積百分比為98.468%,幾乎包含了5個(gè)變量的全部信息,因此取兩個(gè)主成分已經(jīng)足夠。8.1主成分回歸2024/3/512中國人民大學(xué)六西格瑪質(zhì)量管理研究中心另外,Loadings部分輸出的矩陣為各主成分表達(dá)式中的系數(shù),其中空白部分為默認(rèn)的未輸出的<0.1的值,這個(gè)系數(shù)矩陣即是由(k,
i=1,2,…,p)構(gòu)成的矩陣,不妨記為U,其中U的第i列即第i個(gè)特征值對應(yīng)的特征向量。由于分析是由標(biāo)準(zhǔn)化的數(shù)據(jù)出發(fā)而使用的相關(guān)陣,故
(i=1,2,…,p),U為自變量相關(guān)陣的特征向量所構(gòu)成的矩陣,所以第k個(gè)主成分對變量的因子負(fù)荷量為(k,i=1,2,…,p)。因此,由矩陣U很容易計(jì)算得到因子載荷陣。8.1主成分回歸2024/3/513中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/514中國人民大學(xué)六西格瑪質(zhì)量管理研究中心為了做主成分回歸,我們需要計(jì)算主成分的得分
(i=1,2,…,n),其中
為標(biāo)準(zhǔn)化后的第i個(gè)樣本值。由于前兩個(gè)主成分的方差累積貢獻(xiàn)率已經(jīng)達(dá)到98.468%,只需保留前兩個(gè)主成分,此處只輸出前兩個(gè)主成分的得分,見右圖。8.1主成分回歸2024/3/515中國人民大學(xué)六西格瑪質(zhì)量管理研究中心現(xiàn)在用y對前兩個(gè)主成分做普通最小二乘回歸,R代碼如下:在R中運(yùn)行該代碼,得到如下結(jié)果:8.1主成分回歸2024/3/516中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.1主成分回歸2024/3/517中國人民大學(xué)六西格瑪質(zhì)量管理研究中心由以上輸出結(jié)果可知,標(biāo)準(zhǔn)化后的y(記為
)對兩個(gè)主成分做普通最小二乘估計(jì),得到主成分的回歸方程為:由于主成分是標(biāo)準(zhǔn)化后自變量的線性組合,如果想要得到關(guān)于標(biāo)準(zhǔn)化后的五個(gè)自變量的回歸方程,只需分別將下面兩個(gè)式子代入上式即可得到此時(shí)回歸方程中每個(gè)回歸系數(shù)的符號也都能夠合理地解釋。8.1主成分回歸8.2偏最小二乘法當(dāng)時(shí),最小二乘法就可以求出,然而當(dāng)k>n,通常的最小二乘法無法進(jìn)行。2024/3/518中國人民大學(xué)六西格瑪質(zhì)量管理研究中心在經(jīng)濟(jì)問題的研究中遇到的回歸問題往往有兩個(gè)特點(diǎn):一是自變量的數(shù)目比較多,常會碰到有幾十個(gè)自變量,而觀察的時(shí)點(diǎn)并不多的情況。二是回歸方程建立后主要的應(yīng)用是預(yù)測。用符號來表示,即對因變量y和自變量觀測n組數(shù)據(jù):(8.1)假定它們之間有關(guān)系式(8.2)式中,為誤差項(xiàng)。用觀測值去估計(jì)式(8.2),得到回歸方程:(8.3)2024/3/519中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.2偏最小二乘法從式(8.2)來看,我們并不需要很多自變量,實(shí)際上只要的一個(gè)線性函數(shù)就行了。通常的最小二乘法,就是尋求
的線性函數(shù)中與y的相關(guān)系數(shù)絕對值達(dá)到最大的一個(gè)。這時(shí)需求
的逆矩陣,其中X是由所有自變量的觀測值組成的矩陣。當(dāng)k>n時(shí),
是一個(gè)奇異矩陣,無法求逆。主成分回歸(PCR)就不求的逆,而直接求的特征根。因此將y
對前幾個(gè)主成分做回歸就可以了,這就是PCR的主要想法。PCR雖然解決了k>n這一矛盾,但它選主成分的方法與因變量y無關(guān),只跟自變量有關(guān)。2024/3/520中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.2偏最小二乘法偏最小二乘(PartialLeastSquares,PLS)在這一點(diǎn)上與PCR不同,它尋找的線性函數(shù)時(shí),考慮與y的相關(guān)性,選擇與y相關(guān)性較強(qiáng)又能方便算出的的線性函數(shù)。它的算法是最小二乘,但是它只考慮偏向與y有關(guān)的一部分,所以稱為偏最小二乘。具體的選法與最小二乘法有關(guān),所以先回憶一下最小二乘法的公式對理解PLS很有好處。2024/3/521中國人民大學(xué)六西格瑪質(zhì)量管理研究中心考慮一元線性回歸情況。共觀測了
組數(shù)據(jù),
,當(dāng)這些數(shù)據(jù)的均值為0時(shí),有:式中,為觀測值向量。PLS就是反復(fù)利用式(8.5)。8.2偏最小二乘法2024/3/522中國人民大學(xué)六西格瑪質(zhì)量管理研究中心首先將數(shù)據(jù)中心化,中心化之后得到的相應(yīng)的各自的均值都是0。將對每個(gè)自變量單獨(dú)做回歸,用式(8.5)可得其中表示資料向量,表示自變量(不是數(shù)據(jù))。8.2偏最小二乘法2024/3/523中國人民大學(xué)六西格瑪質(zhì)量管理研究中心令將作為自變量,y作因變量建立回歸方程,由式(8.5)得將式(8.7)右端的量加權(quán)后,用記相應(yīng)的權(quán),就得到它相應(yīng)的n個(gè)數(shù)據(jù)資料是8.2偏最小二乘法2024/3/524中國人民大學(xué)六西格瑪質(zhì)量管理研究中心于是得殘差??紤]到殘差中不再含
的信息,因此各個(gè)自變量的作用對y而言,含的部分已不具新的信息,都應(yīng)刪去。也就是將每個(gè)自變量對
求回歸,得回歸方程和預(yù)測值利用上式預(yù)測y,得預(yù)測值向量:8.2偏最小二乘法2024/3/525中國人民大學(xué)六西格瑪質(zhì)量管理研究中心相應(yīng)的殘差。于是將作為新的原始資料,重復(fù)上述步驟,逐步求得的秩。最后利用y對用普通最小二乘方法進(jìn)行回歸分析,經(jīng)過變量間的轉(zhuǎn)換,最終可得到y(tǒng)對的回歸方程,這種求回歸方程的方法就稱為PLS法,即偏最小二乘法。8.2偏最小二乘法2024/3/526中國人民大學(xué)六西格瑪質(zhì)量管理研究中心偏最小二乘的算法從上面構(gòu)造
的過程可得如下的算法(X,y資料已中心化,rank(X)=r):8.2偏最小二乘法2024/3/527中國人民大學(xué)六西格瑪質(zhì)量管理研究中心上述算法完全體現(xiàn)了PLS的想法。1988年赫蘭(Helland)導(dǎo)出了一個(gè)更為簡單的算法。引入記號赫蘭證明了對a=1,2,…,r
都成立。于是PLS算法可改為:8.2偏最小二乘法2024/3/528中國人民大學(xué)六西格瑪質(zhì)量管理研究中心上述算法中都存在一個(gè)問題,就是這個(gè)算法何時(shí)結(jié)束,什么是合適的a,是否一定要算到某個(gè)中的一列全是0為止?一般來說,可以自己規(guī)定一個(gè)你認(rèn)為最切合所研究問題的標(biāo)準(zhǔn)。已有的運(yùn)用PLS的情況中,大都使用交叉驗(yàn)證(cross-validation)法。這個(gè)方法是這樣的:從資料X,y中刪去第l組資料,刪去后的X,y用表示。把作為原始資料,用PLS算出預(yù)測方程中的表達(dá)式,然后用表示這個(gè)預(yù)測方程的預(yù)測值,將代入得到預(yù)測值
,殘差
就反映了第a步預(yù)測方程的好壞在第l組資料上的體現(xiàn),于是8.2偏最小二乘法2024/3/529中國人民大學(xué)六西格瑪質(zhì)量管理研究中心就在整體上反映了第a步預(yù)測方程的好壞。把這個(gè)值記為損失L(a),自然應(yīng)該選a使L(a)達(dá)到最小,即應(yīng)該選使正因?yàn)槭褂昧诉@個(gè)交叉驗(yàn)證方法,選出的預(yù)測方程效果往往比較好。R軟件中建立偏最小二乘回歸方程的函數(shù)plsr()中包含了四種PLS算法,使用時(shí)可以根據(jù)實(shí)際情況選擇不同的算法,其默認(rèn)的算法為Kernel。由于Kernel算法的計(jì)算效率較高,建立偏最小二乘回歸通常會選擇使用該算法。8.2偏最小二乘法2024/3/530中國人民大學(xué)六西格瑪質(zhì)量管理研究中心偏最小二乘的應(yīng)用例8-2對發(fā)電量需求和工業(yè)產(chǎn)量的關(guān)系進(jìn)行建模,因變量y為發(fā)電量產(chǎn)量(億千瓦時(shí)),自變量
為原煤產(chǎn)量(億噸),
為原油產(chǎn)量(萬噸),
為天然氣產(chǎn)量(億立方米),
為生鐵產(chǎn)量(萬噸),
為紗產(chǎn)量(萬噸),
為硫酸產(chǎn)量(萬噸),
為燒堿(折100%)產(chǎn)量(萬噸),
為純堿產(chǎn)量(萬噸),
為農(nóng)用化肥產(chǎn)量(萬噸),
為水泥產(chǎn)量(萬噸),
為平板玻璃產(chǎn)量(萬重量箱),
為鋼產(chǎn)量(萬噸),
為成品鋼材產(chǎn)量(萬噸)。數(shù)據(jù)見書上表8-1。13x8.2偏最小二乘法2024/3/531中國人民大學(xué)六西格瑪質(zhì)量管理研究中心在k≥n的情況下,無法使用普通最小二乘估計(jì)方法建立回歸模型,此時(shí)可以運(yùn)用偏最小二乘方法。R中在使用函數(shù)plsr()建立偏最小二乘回歸方程前,首先需要加載pls包,具體的計(jì)算代碼及運(yùn)行結(jié)果如下。8.2偏最小二乘法2024/3/532中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.2偏最小二乘法2024/3/533中國人民大學(xué)六西格瑪質(zhì)量管理研究中心上述為使用了所有主成分進(jìn)行回歸所得到的結(jié)果,從回歸結(jié)果中可以看出,主成分個(gè)數(shù)為3個(gè)時(shí),模型在經(jīng)過留一交叉驗(yàn)證法后求得的RMSEP總和較小,且隨著成分個(gè)數(shù)的增加,RMSEP值未出現(xiàn)明顯減少,同時(shí)3個(gè)主成分對各個(gè)因變量的累積貢獻(xiàn)率均高于99%,因此將回歸的主成分個(gè)數(shù)定為m=3。下面給出主成分為3時(shí)的回歸方程計(jì)算代碼及輸出結(jié)果8.4。8.2偏最小二乘法2024/3/534中國人民大學(xué)六西格瑪質(zhì)量管理研究中心8.2偏最小二乘法2024/3/535中國人民大學(xué)六西格瑪質(zhì)量管理研究中心由以上結(jié)果可知,對于標(biāo)準(zhǔn)化后的數(shù)據(jù)
對所有自變量的回歸方程為:將回歸方程中的變量還原為原始變量:8.2偏最小二乘法8.3本章小結(jié)與評注一、主成分回歸可以用于n小于p的情形可以用于多重共線性情形建模效果有一定改進(jìn)2024/3/536中國人民大學(xué)六西格瑪質(zhì)量管理研究中心關(guān)于主成分回歸的質(zhì)疑1、主成分是自變量的線性組合,能保證它與Y有相關(guān)性嗎?萬一主成分與Y
無關(guān)呢?2、1998年AliS.Hadi
和RobertF.Ling在TheAmericanStatistician上發(fā)文章(SomeCautionaryNotesontheUseofPrincipalComponentsRegression)給了個(gè)例子,前k-1個(gè)主成分與因變量一點(diǎn)關(guān)系都沒有,而最后一個(gè)主成分解釋了因變量所有的變異。3、甚至有人認(rèn)為沒有必要給人們推薦主成分回歸了,過時(shí)了,但是即使在今天的美國的統(tǒng)計(jì)課上,講到多重共線性問題的時(shí)候教授們還在推薦PCR。2024/3/537中國人民大學(xué)六西格瑪質(zhì)量管理研究中心1975年H.wold
在經(jīng)濟(jì)學(xué)研究中引入了PLS進(jìn)行路徑分析,創(chuàng)建了非線性迭代PLS算法(NonlinearIterativePartialLeastSquaresalgorithm),1983年H.wold的兒子Swold和Albano提出PLSR的概念,用來解決計(jì)量化學(xué)中n
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高壓泵項(xiàng)目規(guī)劃申請報(bào)告模板
- 2025年策劃協(xié)議離婚程序與標(biāo)準(zhǔn)
- 2025年土地買賣策劃中介服務(wù)協(xié)議
- 2025年數(shù)字化制造業(yè)轉(zhuǎn)型升級協(xié)議
- 2025年合作伙伴共同規(guī)劃有限公司合同協(xié)議范本
- 2025年產(chǎn)品供應(yīng)條款協(xié)議示例
- 2025年全球技術(shù)轉(zhuǎn)移與創(chuàng)新合作協(xié)議
- 2025年二次結(jié)構(gòu)墻體勞務(wù)承包合同
- 2025年信息技術(shù)外包服務(wù)協(xié)議示范本
- 2025年儀式用服裝租借合同示例
- 電氣工程師生涯人物訪談報(bào)告
- 信用信息平臺建設(shè)方案
- 大地保險(xiǎn)理賠標(biāo)準(zhǔn)
- 車險(xiǎn)經(jīng)營情況分析報(bào)告模板
- 農(nóng)業(yè)一張圖建設(shè)方案
- 安徽藥都銀行2023年員工招聘考試參考題庫含答案詳解
- 心肌梗死的心電圖改變
- 七年級上冊數(shù)學(xué)思維導(dǎo)圖·李樹茂幫你簡單學(xué)數(shù)學(xué)
- 三星SHP-DP728指紋鎖說明書
- 預(yù)應(yīng)力錨索張拉及封錨
- 烤煙生產(chǎn)沿革
評論
0/150
提交評論