(真正的好東西)偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析_第1頁(yè)
(真正的好東西)偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析_第2頁(yè)
(真正的好東西)偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析_第3頁(yè)
(真正的好東西)偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析_第4頁(yè)
(真正的好東西)偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、偏最小二乘回歸是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來(lái),它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。密西根大學(xué)的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。 偏最小二乘回歸方法在統(tǒng)計(jì)應(yīng)用中的重要性主要的有以下幾個(gè)方面:(1)偏最小二乘回歸是一種多因變量對(duì)多自變量的回歸建模方法。(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無(wú)法解決的問(wèn)題。在普通多元線形回歸的應(yīng)用中,我們常受到許多限制。最典型的問(wèn)題就是自變量之間的多重相關(guān)性。如果采用普通的最小二乘方法,這種變量多重相關(guān)性就會(huì)嚴(yán)重危害參數(shù)估計(jì),擴(kuò)大模型誤差,并破壞模型的穩(wěn)定性。變量多重相關(guān)

2、問(wèn)題十分復(fù)雜,長(zhǎng)期以來(lái)在理論和方法上都未給出滿意的答案,這一直困擾著從事實(shí)際系統(tǒng)分析的工作人員。在偏最小二乘回歸中開辟了一種有效的技術(shù)途徑,它利用對(duì)系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選的方式,提取對(duì)因變量的解釋性最強(qiáng)的綜合變量,辨識(shí)系統(tǒng)中的信息與噪聲,從而更好地克服變量多重相關(guān)性在系統(tǒng)建模中的不良作用。(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由于它可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。由于偏最小二乘回歸在建模的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡(jiǎn)化,因此,可以在二維平面圖上對(duì)多維數(shù)據(jù)的特性進(jìn)行觀察,這使得偏最小二乘回歸分析的圖形功能十分強(qiáng)大。在一次偏最小二乘回歸分析計(jì)算后,不但可以得到多因變量對(duì)多自變量的

3、回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關(guān)關(guān)系,以及觀察樣本點(diǎn)間的相似性結(jié)構(gòu)。這種高維數(shù)據(jù)多個(gè)層面的可視見性,可以使數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時(shí)又可以對(duì)所建立的回歸模型給予許多更詳細(xì)深入的實(shí)際解釋。一、 偏最小二乘回歸的建模策略原理方法1.1建模原理設(shè)有 q個(gè)因變量y1,.,yq和p自變量x1,.,xp。為了研究因變量和自變量的統(tǒng)計(jì)關(guān)系,我們觀測(cè)了n個(gè)樣本點(diǎn),由此構(gòu)成了自變量與因變量的數(shù)據(jù)表X=x1,.,xp和.Y=y1,.,yq。偏最小二乘回歸分別在X與Y中提取出成分t1 和u1 (也就是說(shuō), t1是x1,.,xp 的線形組合, u1是y1,.,yq 的線形組合).在提取這兩

4、個(gè)成分時(shí),為了回歸分析的需要,有下列兩個(gè)要求:(1) t1和u1應(yīng)盡可能大地?cái)y帶他們各自數(shù)據(jù)表中的變異信息;(2) t1與u1 的相關(guān)程度能夠達(dá)到最大。這兩個(gè)要求表明,t1和u1 應(yīng)盡可能好的代表數(shù)據(jù)表X和Y,同時(shí)自變量的成分t1對(duì)因變量的成分u1 又有最強(qiáng)的解釋能力。在第一個(gè)成分t1和 u1被提取后,偏最小二乘回歸分別實(shí)施X 對(duì) t1的回歸以及 Y對(duì)u1 的回歸。如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用 X被t1解釋后的殘余信息以及Y 被t1 解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿意的精度為止。若最終對(duì) X共提取了 m個(gè)成分t1,tm,yk偏最小二

5、乘回歸將通過(guò)實(shí)施 yk對(duì)t1,tm, 的回歸,然后再表達(dá)成1.2計(jì)算方法推導(dǎo) 關(guān)于原變量x1 的回歸方程,k=1,2,q 。 ,xm,為了數(shù)學(xué)推導(dǎo)方便起見,首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。X 經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為E0=(E,E)np,Yj經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為010pF0=(F01,F(xiàn)0q)np。00w1是E的第一個(gè)軸,第一步 記t1是E的第一個(gè)成分,它是一個(gè)單位向量,既|w1|=1。記u1是F0的第一個(gè)成分,u1=F0c。c 是F的第一個(gè)軸,并且|c|=1。 11012如果要t1,u1能分別很好的代表X與Y中的數(shù)據(jù)變異信息,根據(jù)主成分分析原理,應(yīng)該有Var(u1)max Var(t1)

6、max另一方面,由于回歸建模的需要,又要求t1對(duì)u1有很大的解釋能力,有典型相關(guān)分析的思路,t1與u1的相關(guān)度應(yīng)達(dá)到最大值,既r(t1,u1)max因此,綜合起來(lái),在偏最小二乘回歸中,我們要求t1與u1的協(xié)方差達(dá)到最大,既Cov(t1,u1)=(t)Var(u)r(t111,u1) max正規(guī)的數(shù)學(xué)表述應(yīng)該是求解下列優(yōu)化問(wèn)題,既因此,將在|w1|2=1和|c1|2=1的約束條件下,去求(w1E'0F值。如果采用拉格朗日算法,記s=w1E'0F0對(duì)s分別求關(guān)于w1,c1,1sw1sc1s1''c)的最大1c (w11'1w11)2 (c1c11)'

7、和2的偏導(dǎo)并令之為零,有=E'0F0c 211w1=0 (1 -2)=F'0E0w1'2c=0 (1-3)21=(w1w11)=0 (1-4)s2=(c1c11)=0 (1-5)'由式(1-2)(1-5),可以推出21=22=w1E0F0c1=<E0w1,F0c1>''記1=21=22=w'1E'0F0c1,所以,1正是優(yōu)化問(wèn)題的目標(biāo)函數(shù)值. 把式(1-2)和式(1-3)寫成E0F0c1=1w1'(1-6) (1-7)F'E0w1=1c1將式(1-7)代入式(1-6),有''2E0F0F

8、0E0w1=1w1 (1-8)同理,可得F0E0E0F0c1=1c1 (1-9)''2可見,w1是矩陣E'0F0F'0E0的特征向量,對(duì)應(yīng)的特征值為12.1是目標(biāo)函數(shù)值,它要求取最大值,所以, w1是對(duì)應(yīng)于E'0F0F'0E0矩陣最大特征值的單位特征向量.而另一方面, c1是對(duì)應(yīng)于矩陣F'0E0E'0F0最大特征值1的單位特征向量. 求得軸w1和c1后,即可得到成分t1=E0w1u1=F0c12然后,分別求E0和F0對(duì)t1,u1的三個(gè)回歸方程式中,回歸系數(shù)向量是E0=t1p'1+E1(1-10) (1-11)F0=u1qF

9、0=t1r''1+F*11+F1(1-12)p1=E0t1|t1|'2'(1-13)q1=F0u1|u1|F0t1|t1|2'2(1-14)r1=(1-15)而E1,F*1,F1分別是三個(gè)回歸方程的殘差矩陣. 第二用殘差矩陣E1和F1取代E0和F0,然后,求第二個(gè)軸w2和c2以及第二個(gè)成分t2,u2,有t2=E1w2 u2=F1c2'2=<t2,u2>=w2E1F1c2'''2w是對(duì)應(yīng)于矩陣E1F1F1E1最大特征值2的特征值, c2是對(duì)應(yīng)于矩陣F1E1E1F1最大特征值的特征向量.計(jì)算回歸系數(shù)'

10、9;p2=E1t2|t2|F1t2|t2|2'2'因此,有回歸方程 如此r2=E1=t2pF1=t2r''2+E2 +F22,如果X的秩是A,則會(huì)有E0=t1pF0=t1r''1+ +tAp+ +tAr''A(1-16)(1-17)1A+F由于,t1, ,tA均可以表示成E01, ,E0p的線性組合,因此,式(1-17)還可以還原成yk*=F0k關(guān)于xj*=E0k的回歸方程形式,即yk*=k1x1+ +kpxFAk*p+FAk k=1,2,q是殘差距陣FA的第k列。1.3交叉有效性下面要討論的問(wèn)題是在現(xiàn)有的數(shù)據(jù)表下,如何確定更好的

11、回歸方程。在許多情形下,偏最小二乘回歸方程并不需要選用全部的成分t1, ,tA進(jìn)行回歸建模,而是可以象在主成分分析一樣,采用截尾的方式選擇前m 個(gè)成分(m<A,A=秩(X),僅用這m 個(gè)后續(xù)的成分t1, ,tm就可以得到一個(gè)預(yù)測(cè)性較好的模型。事實(shí)上,如果后續(xù)的成分已經(jīng)不能為解釋F0提供更有意義的信息時(shí),采用過(guò)多的成分只會(huì)破壞對(duì)統(tǒng)計(jì)趨勢(shì)的認(rèn)識(shí),引導(dǎo)錯(cuò)誤的預(yù)測(cè)結(jié)論。在多元回歸分析一章中,我們?cè)谡{(diào)整復(fù)測(cè)定系數(shù)的內(nèi)容中討論過(guò)這一觀點(diǎn)。 下面的問(wèn)題是怎樣來(lái)確定所應(yīng)提取的成分個(gè)數(shù)。在多元回歸分析中,曾介紹過(guò)用抽樣測(cè)試法來(lái)確定回歸模型是否適于預(yù)測(cè)應(yīng)用。我們把手中的數(shù)據(jù)分成兩部分:第一部分用于建立回歸

12、方程,求出回歸系數(shù)估計(jì)量2BB以及殘差均方和;再用第二部分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)點(diǎn),代入剛才所求bB,擬合值y2T和T2。得的回歸方程,由此求出y一般地,若有T2B,則回歸方程會(huì)有更好的預(yù)2測(cè)效果。若 T2>>B,則回歸方程不宜用于預(yù)測(cè)。在偏最小二乘回歸建模中,究竟應(yīng)該選取多少個(gè)成分為宜,這可通過(guò)考察增加一個(gè)新的成分后,能否對(duì)模型的預(yù)測(cè)功能有明顯的改進(jìn)來(lái)考慮。采用類似于抽樣測(cè)試法的工作方式,把所有n個(gè)樣本點(diǎn)分成兩部分:第一部分除去某個(gè)樣本點(diǎn)i的所有樣本點(diǎn)集合(共含n-1個(gè)樣本點(diǎn)),用這部分樣本點(diǎn)并使用h個(gè)成分?jǐn)M合一個(gè)回歸方程;第二部分是把剛才被排除的樣本點(diǎn)i代入前面擬合的回歸方程,得到y(tǒng)j在

13、hj(-i)。對(duì)于每一個(gè)i=1,2,n,重復(fù)上述測(cè)試,則可以定義yj樣本點(diǎn)i上的擬合值y的預(yù)測(cè)誤差平方和為PRESSPRESShj,有nhj=(yi=1ijhj(-i)2-y(1-18)定義Y 的預(yù)測(cè)誤差平方和為PRESSh,有pPRESSh=PRESSj=1hj(1-19)顯然,如果回歸方程的穩(wěn)健性不好,誤差就很大,它對(duì)樣本點(diǎn)的變動(dòng)就會(huì)十分敏感,這種擾動(dòng)誤差的作用,就會(huì)加大PRESSh的值。另外,再采用所有的樣本點(diǎn),擬合含h 個(gè)成分的回歸方程。這是,記第i個(gè)樣本hji,則可以記yj的誤差平方和為SShj,有 點(diǎn)的預(yù)測(cè)值為ynSShj=(yi=1ijhji)2-y(1-20)定義Y的誤差平方和

14、為SSh,有pSSh=SS (1-21)hjj=1一般說(shuō)來(lái),總是有PRESSh大于SSh,而SSh則總是小于SSh-1。下面比較SSh-1和PRESSPRESSh。SSh-1是用全部樣本點(diǎn)擬合的具有h-1個(gè)成分的方程的擬合誤差; 增加了一個(gè)成分th,但卻含有樣本點(diǎn)的擾動(dòng)誤差。如果h個(gè)成分的回歸方h程的含擾動(dòng)誤差能在一定程度上小于(h-1)個(gè)成分回歸方程的擬合誤差,則認(rèn)為增加一個(gè)成分th,會(huì)使預(yù)測(cè)結(jié)果明顯提高。因此我們希望(PRESS越小越好。在SIMCA-P軟件中,指定(PRESShh/SSh-1)的比值能/SSh-1)0.952即PRESSh0.95SSh-1時(shí),增加成分th就是有益的;或者

15、反過(guò)來(lái)說(shuō),當(dāng)PRESSh>0.95SSh-1時(shí),就認(rèn)為增加新的成分th,對(duì)減少方程的預(yù)測(cè)誤差無(wú)明顯的改善作用.另有一種等價(jià)的定義稱為交叉有效性。對(duì)每一個(gè)變量yk,定義2Qhk=1-PRESShkSS(h-1)k(1-22)對(duì)于全部因變量Y,成分th交叉有效性定義為qQ=1-2hPRESSk=1hk=1-(h-1)kPRESSSS(h-1)h (1-23) SS用交叉有效性測(cè)量成分th對(duì)預(yù)測(cè)模型精度的邊際貢獻(xiàn)有如下兩個(gè)尺度。(1) 當(dāng)Qh2(1-0.952)=0.0975時(shí), th成分的邊際貢獻(xiàn)是顯著的。顯而易見, Qh20.0975與(PRESS(2) h/SSh-1)<0.952

16、是完全等價(jià)的決策原則。 對(duì)于k=1,2,q,至少有一個(gè)k,使得Qh0.09752這時(shí)增加成分th,至少使一個(gè)因變量yk的預(yù)測(cè)模型得到顯著的改善,因此,也可以考慮增加成分th是明顯有益的。明確了偏最小二乘回歸方法的基本原理、方法及算法步驟后,我們將做實(shí)證分析。附 錄function w=maxdet(A)%求矩陣的最大特征值v,d=eig(A);n,p=size(d);d1=d*ones(p,1);d2=max(d1);i=find(d1=d2);w=v(:,i);% function c,m,v=norm1(C)%對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理n,s=size(C);for i=1:nfor j=1:s

17、c(i,j)=(C(i,j)-mean(C(:,j)/sqrt(cov(C(:,j); endendm=mean(C);for j=1:sv(1,j)=sqrt(cov(C(:,j);end%function t,q,w,wh,f0,FF=fun717(px,py,C)% px自變量的輸入個(gè)數(shù)% py輸入因變量的個(gè)數(shù)。% C輸入的自變量和因變量組成的矩陣% t提取的主成分% q為回歸系數(shù)。% w最大特征值所對(duì)應(yīng)的特征向量。% wh處理后的特征向量% f0回歸的標(biāo)準(zhǔn)化的方程系數(shù)% FF原始變量的回歸方程的系數(shù)c=norm1(C); %norm1為標(biāo)準(zhǔn)化函數(shù)y=c(:,px+1:px+py); %

18、截取標(biāo)準(zhǔn)化的因變量E0=c(:,1:px);F0=c(:,px+1:px+py);A=E0'*F0*F0'*E0;w(:,1)=maxdet(A); %求最大特征向量t(:,1)=E0*w(:,1); %提取主成分E(:,1:px)=E0-t(:,1)*(E0'*t(:,1)/(t(:,1)'*t(:,1)'% 獲得回歸系數(shù)p(:,1:px)=(E0'*t(:,1)/(t(:,1)'*t(:,1)'for i=0:px-2B(:,px*i+1:px*i+px)=E(:,px*i+1:px*i+px)'*F0*F0'

19、*E(:,px*i+1:px*i+px);w(:,i+2)=maxdet(B(:,px*i+1:px*i+px);% maxdet為求最大特征值的函數(shù)t(:,i+2)=E(:,px*i+1:px*i+px)*w(:,i+2);p(:,px*i+px+1:px*i+2*px)=(E(:,px*i+1:px*i+px)'*t(:,i+2)/(t(:,i+2)'*t(:,i+2)'E(:,px*i+px+1:px*i+2*px)=E(:,px*i+1:px*i+px)-t(:,i+2)*(E(:,px*i+1:px*i+px)'*t(:,i+2)/(t(:,i+2)&

20、#39;*t(:,i+2)'endfor s=1:pxq(:,s)=p(1,px*(s-1)+1:px*s)'endn,d=size(q);for h=1:pxiw=eye(d);for j=1:h-1iw=iw*(eye(d)-w(:,j)*q(:,j)');endwh(:,h)=iw*w(:,h);endfor j=1:pyzr(j,:)=(regress1(y(:,j),t)' %endfor j=1:pxfori=1:py %生成標(biāo)準(zhǔn)化變量的方程的系數(shù)矩陣w1=wh(:,1:j);zr1=(zr(i,1:j)'f0(i,:,j)=(w1*zr1)

21、'endnormxy,meanxy,covxy=norm1(C); %normxy標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣11 求回歸系數(shù)%meanxy每一列的均值%covxy每一列的方差ccxx=ones(py,1)*meanxy(1,1:px);ccy=(covxy(1,px+1:px+py)'*ones(1,px);ccx=ones(py,1)*(covxy(1,1:px);ff=ccy.*f0(:,:,j)./ccx;FF(:,:,j)=fff,ff; %生成原始變量方程的常數(shù)項(xiàng)和系數(shù)矩陣end% function r,Rdyt,RdYt,RdYtt,Rdytt,VIP=fun8y(px,p

22、y,c)X=c(:,1:px);Y=c(:,px+1:px+py);x=norm1(X);y=norm1(Y);t,q,w=fun717(px,py,X,Y);r1=corrcoef(y,t);r=r1(py+1:px+py,1:py)'Rdyt=r.2;RdYt=mean(Rdyt)for m=1:pxRdYtt(1,m)=sum(RdYt(1,1:m)');endfor j=1:pyfor m=1:pyRdytt(j,m)=sum(Rdyt(j,1:m)');endendfor j=1:pxfor m=1:pxRd(j,m)=RdYt(1,1:m)*(w(j,1:m

23、).2)'); endendfor j=1:pxVIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); end% function r,Rdxt,RdXt,RdXtt,Rdxtt=fun8x(px,py,c) X=c(:,1:px);Y=c(:,px+1:px+py);x=norm1(X);y=norm1(Y);t,q,w=fun717(px,py,X,Y);r1=corrcoef(x,t);r=r1(px+1:px+px,1:px)'Rdxt=r.2;RdXt=mean(Rdxt);for m=1:pxRdXtt(1,m)=sum(RdXt

24、(1,1:m)');endfor j=1:pxfor m=1:pxRdxtt(j,m)=sum(Rdxt(j,1:m)');endend% for j=1:px% for m=1:px% Rd(j,m)=RdXt(1,1:m)*(w(j,1:m).2)'); % end% end% for j=1:px% VIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); % end% function t,u=TU(px,py,C)%t提取的自變量的主成分%u 提取的因變量的主成分c=norm1(C);y=c(:,px+1:px+py);E0=

25、c(:,1:px);F0=c(:,px+1:px+py);A=E0'*F0*F0'*E0;w(:,1)=maxdet(A);t(:,1)=E0*w(:,1);B=F0'*E0*E0'*F0;cc(:,1)=maxdet(B);u(:,1)=F0*cc(:,1);% function drew(px,py,c)X=c(:,1:px);Y=c(:,px+1:px+py);line,l=size(Y);t,q,w,wh,f0,FF=fun717(px,py,c);YY=X*FF(:,2:px+1,3)'+ones(line,1)*FF(:,1,3)' 14subplot(1,1,1,1)bar(f0(:,:,3)title(' 直方圖')legend('SG','TZBFB','FHL','JK',

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論