(真正的好東西)偏最小二乘回歸=多元線性回歸分析典型相關(guān)分析主成分分析報告_第1頁
(真正的好東西)偏最小二乘回歸=多元線性回歸分析典型相關(guān)分析主成分分析報告_第2頁
(真正的好東西)偏最小二乘回歸=多元線性回歸分析典型相關(guān)分析主成分分析報告_第3頁
(真正的好東西)偏最小二乘回歸=多元線性回歸分析典型相關(guān)分析主成分分析報告_第4頁
(真正的好東西)偏最小二乘回歸=多元線性回歸分析典型相關(guān)分析主成分分析報告_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、 偏最小二乘回歸是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論、方法和應用方面都得到了迅速的發(fā)展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統(tǒng)計應用中的重要性主要的有以下幾個方面:(1)偏最小二乘回歸是一種多因變量對多自變量的回歸建模方法。(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無法解決的問題。在普通多元線形回歸的應用中,我們常受到許多限制。最典型的問題就是自變量之間的多重相關(guān)性。如果采用普通的最小二乘方法,這種變量多重相關(guān)性就會嚴重危害參數(shù)估計,擴大模型誤差,并破壞模型的穩(wěn)定性。變量多重相關(guān)

2、問題十分復雜,長期以來在理論和方法上都未給出滿意的答案,這一直困擾著從事實際系統(tǒng)分析的工作人員。在偏最小二乘回歸中開辟了一種有效的技術(shù)途徑,它利用對系統(tǒng)中的數(shù)據(jù)信息進行分解和篩選的方式,提取對因變量的解釋性最強的綜合變量,辨識系統(tǒng)中的信息與噪聲,從而更好地克服變量多重相關(guān)性在系統(tǒng)建模中的不良作用。(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應用。偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析由于偏最小二乘回歸在建模的同時實現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡化,因此,可以在二維平面圖上對多維數(shù)據(jù)的特性進行觀察,這使得偏最小二乘回歸分析的圖形功能十分強大。在一次

3、偏最小二乘回歸分析計算后,不但可以得到多因變量對多自變量的回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關(guān)關(guān)系,以與觀察樣本點間的相似性結(jié)構(gòu)。這種高維數(shù)據(jù)多個層面的可視見性,可以使數(shù)據(jù)系統(tǒng)的分析容更加豐富,同時又可以對所建立的回歸模型給予許多更詳細深入的實際解釋。一、 偏最小二乘回歸的建模策略原理方法1.1建模原理設有 q個因變量和p自變量。為了研究因變量和自變量的統(tǒng)計關(guān)系,我們觀測了n個樣本點,由此構(gòu)成了自變量與因變量的數(shù)據(jù)表X=和.Y=。偏最小二乘回歸分別在X與Y中提取出成分 和 (也就是說, 是 的線形組合, 是 的線形組合).在提取這兩個成分時,為了回歸分析的需要,有下列兩個要求

4、:(1) 和應盡可能攜帶他們各自數(shù)據(jù)表中的變異信息;(2) 與 的相關(guān)程度能夠達到最大。這兩個要求表明,和 應盡可能好的代表數(shù)據(jù)表X和Y,同時自變量的成分 對因變量的成分 又有最強的解釋能力。在第一個成分和 被提取后,偏最小二乘回歸分別實施X 對 的回歸以與 Y對 的回歸。如果回歸方程已經(jīng)達到滿意的精度,則算法終止;否則,將利用 X被解釋后的殘余信息以與Y 被 解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對 X共提取了 m個成分,偏最小二乘回歸將通過實施 對, 的回歸,然后再表達成關(guān)于原變量, 的回歸方程,k=1,2,q 。1.2計算方法推導為了數(shù)學推

5、導方便起見,首先將數(shù)據(jù)做標準化處理。X 經(jīng)標準化處理后的數(shù)據(jù)矩陣記為=(,),經(jīng)標準化處理后的數(shù)據(jù)矩陣記為=(,)。第一步 記是的第一個成分,是的第一個軸,它是一個單位向量,既|=1。記是的第一個成分,=。 是的第一個軸,并且|=1。如果要,能分別很好的代表X與Y中的數(shù)據(jù)變異信息,根據(jù)主成分分析原理,應該有Var()maxVar()max另一方面,由于回歸建模的需要,又要求對有很大的解釋能力,有典型相關(guān)分析的思路,與的相關(guān)度應達到最大值,既r(,)max因此,綜合起來,在偏最小二乘回歸中,我們要求與的協(xié)方差達到最大,既Cov(,)=r(,)max正規(guī)的數(shù)學表述應該是求解下列優(yōu)化問題,既 s.t

6、 因此,將在|=1和|=1的約束條件下,去求()的最大值。如果采用拉格朗日算法,記s= (1) (1)對s分別求關(guān)于,和的偏導并令之為零,有= =0 (1 -2)= =0 (1-3)=(1)=0 (1-4)=(1)=0 (1-5)由式(1-2)(1-5),可以推出記,所以,正是優(yōu)化問題的目標函數(shù)值.把式(1-2)和式(1-3)寫成 (1-6) (1-7)將式(1-7)代入式(1-6),有 (1-8) 同理,可得 (1-9)可見,是矩陣的特征向量,對應的特征值為.是目標函數(shù)值,它要求取最大值,所以,是對應于矩陣最大特征值的單位特征向量.而另一方面,是對應于矩陣最大特征值的單位特征向量.求得軸和后

7、,即可得到成分然后,分別求和對,的三個回歸方程 (1-10) (1-11) (1-12)式中,回歸系數(shù)向量是 (1-13) (1-14) (1-15)而,分別是三個回歸方程的殘差矩陣.第二步 用殘差矩陣和取代和,然后,求第二個軸和以與第二個成分,有=是對應于矩陣最大特征值的特征值,是對應于矩陣最大特征值的特征向量.計算回歸系數(shù)因此,有回歸方程如此計算下去,如果的秩是,則會有 (1-16) (1-17)由于,均可以表示成的線性組合,因此,式(1-17)還可以還原成關(guān)于的回歸方程形式,即 k=1,2,q是殘差距陣的第k列。1.3交叉有效性下面要討論的問題是在現(xiàn)有的數(shù)據(jù)表下,如何確定更好的回歸方程。

8、在許多情形下,偏最小二乘回歸方程并不需要選用全部的成分進行回歸建模,而是可以象在主成分分析一樣,采用截尾的方式選擇前m 個成分,僅用這m 個后續(xù)的成分就可以得到一個預測性較好的模型。事實上,如果后續(xù)的成分已經(jīng)不能為解釋提供更有意義的信息時,采用過多的成分只會破壞對統(tǒng)計趨勢的認識,引導錯誤的預測結(jié)論。在多元回歸分析一章中,我們曾在調(diào)整復測定系數(shù)的容中討論過這一觀點。下面的問題是怎樣來確定所應提取的成分個數(shù)。在多元回歸分析中,曾介紹過用抽樣測試法來確定回歸模型是否適于預測應用。我們把手中的數(shù)據(jù)分成兩部分:第一部分用于建立回歸方程,求出回歸系數(shù)估計量,擬合值以與殘差均方和;再用第二部分數(shù)據(jù)作為實驗點

9、,代入剛才所求得的回歸方程,由此求出。一般地,若有,則回歸方程會有更好的預測效果。若 ,則回歸方程不宜用于預測。在偏最小二乘回歸建模中,究竟應該選取多少個成分為宜,這可通過考察增加一個新的成分后,能否對模型的預測功能有明顯的改進來考慮。采用類似于抽樣測試法的工作方式,把所有n個樣本點分成兩部分:第一部分除去某個樣本點的所有樣本點集合(共含n-1個樣本點),用這部分樣本點并使用h個成分擬合一個回歸方程;第二部分是把剛才被排除的樣本點代入前面擬合的回歸方程,得到在樣本點上的擬合值。對于每一個=1,2,n,重復上述測試,則可以定義的預測誤差平方和為,有 (1-18)定義Y的預測誤差平方和為,有 (1

10、-19)顯然,如果回歸方程的穩(wěn)健性不好,誤差就很大,它對樣本點的變動就會十分敏感,這種擾動誤差的作用,就會加大的值。另外,再采用所有的樣本點,擬合含h 個成分的回歸方程。這是,記第個樣本點的預測值為,則可以記的誤差平方和為,有 (1-20)定義Y的誤差平方和為,有 (1-21)一般說來,總是有大于,而則總是小于。下面比較和。是用全部樣本點擬合的具有h-1個成分的方程的擬合誤差;增加了一個成分,但卻含有樣本點的擾動誤差。如果h個成分的回歸方程的含擾動誤差能在一定程度上小于(h-1)個成分回歸方程的擬合誤差,則認為增加一個成分,會使預測結(jié)果明顯提高。因此我們希望的比值能越小越好。在SIMCA-P軟

11、件中,指定即時,增加成分就是有益的;或者反過來說,當時,就認為增加新的成分,對減少方程的預測誤差無明顯的改善作用.另有一種等價的定義稱為交叉有效性。對每一個變量,定義 (1-22)對于全部因變量Y,成分交叉有效性定義為 (1-23)用交叉有效性測量成分對預測模型精度的邊際貢獻有如下兩個尺度。(1) 當時,成分的邊際貢獻是顯著的。顯而易見,與是完全等價的決策原則。(2) 對于k=1,2,q,至少有一個k,使得這時增加成分,至少使一個因變量的預測模型得到顯著的改善,因此,也可以考慮增加成分是明顯有益的。明確了偏最小二乘回歸方法的基本原理、方法與算法步驟后,我們將做實證分析。附 錄function

12、w=maxdet(A)%求矩陣的最大特征值v,d=eig(A);n,p=size(d);d1=d*ones(p,1);d2=max(d1);i=find(d1=d2);w=v(:,i);%function c,m,v=norm1(C)%對數(shù)據(jù)進行標準化處理n,s=size(C);for i=1:nfor j=1:s c(i,j)=(C(i,j)-mean(C(:,j)/sqrt(cov(C(:,j); endendm=mean(C);for j=1:s v(1,j)=sqrt(cov(C(:,j);end%function t,q,w,wh,f0,FF=fun717(px,py,C) % px

13、自變量的輸入個數(shù) % py輸入因變量的個數(shù)。 % C輸入的自變量和因變量組成的矩陣 % t提取的主成分 % q為回歸系數(shù)。 % w最大特征值所對應的特征向量。 % wh處理后的特征向量 % f0回歸的標準化的方程系數(shù) % FF原始變量的回歸方程的系數(shù)c=norm1(C); %norm1為標準化函數(shù)y=c(:,px+1:px+py); %截取標準化的因變量E0=c(:,1:px);F0=c(:,px+1:px+py);A=E0*F0*F0*E0;w(:,1)=maxdet(A); %求最大特征向量t(:,1)=E0*w(:,1); %提取主成分 E(:,1:px)=E0-t(:,1)*(E0*t

14、(:,1)/(t(:,1)*t(:,1); % 獲得回歸系數(shù) p(:,1:px)=(E0*t(:,1)/(t(:,1)*t(:,1);for i=0:px-2B(:,px*i+1:px*i+px)=E(:,px*i+1:px*i+px)*F0*F0*E(:,px*i+1:px*i+px); w(:,i+2)=maxdet(B(:,px*i+1:px*i+px); % maxdet為求最大特征值的函數(shù) t(:,i+2)=E(:,px*i+1:px*i+px)*w(:,i+2); p(:,px*i+px+1:px*i+2*px)=(E(:,px*i+1:px*i+px)*t(:,i+2)/(t(:

15、,i+2)*t(:,i+2); E(:,px*i+px+1:px*i+2*px)=E(:,px*i+1:px*i+px)-t(:,i+2)*(E(:,px*i+1:px*i+px)*t(:,i+2)/(t(:,i+2)*t(:,i+2); end for s=1:px q(:,s)=p(1,px*(s-1)+1:px*s); endn,d=size(q); for h=1:px iw=eye(d); for j=1:h-1 iw=iw*(eye(d)-w(:,j)*q(:,j); end wh(:,h)=iw*w(:,h); endfor j=1:py zr(j,:)=(regress1(y(

16、:,j),t); %求回歸系數(shù)endfor j=1:px fori=1:py %生成標準化變量的方程的系數(shù)矩陣 w1=wh(:,1:j); zr1=(zr(i,1:j); f0(i,:,j)=(w1*zr1); end normxy,meanxy,covxy=norm1(C); %normxy標準化后的數(shù)據(jù)矩陣 %meanxy每一列的均值 %covxy每一列的方差 ccxx=ones(py,1)*meanxy(1,1:px); ccy=(covxy(1,px+1:px+py)*ones(1,px); ccx=ones(py,1)*(covxy(1,1:px); ff=ccy.*f0(:,:,j

17、)./ccx; fff=-(sum(ccy.*ccxx.*f0(:,:,j)./ccx)-meanxy(1,px+1:px+py); FF(:,:,j)=fff,ff; %生成原始變量方程的常數(shù)項和系數(shù)矩陣 end%function r,Rdyt,RdYt,RdYtt,Rdytt,VIP=fun8y(px,py,c) X=c(:,1:px); Y=c(:,px+1:px+py); x=norm1(X); y=norm1(Y); t,q,w=fun717(px,py,X,Y); r1=corrcoef(y,t); r=r1(py+1:px+py,1:py); Rdyt=r.2; RdYt=mea

18、n(Rdyt) for m=1:px RdYtt(1,m)=sum(RdYt(1,1:m); end for j=1:py for m=1:py Rdytt(j,m)=sum(Rdyt(j,1:m); end end for j=1:px for m=1:px Rd(j,m)=RdYt(1,1:m)*(w(j,1:m).2); end end for j=1:px VIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); end%function r,Rdxt,RdXt,RdXtt,Rdxtt=fun8x(px,py,c) X=c(:,1:px); Y=c(:

19、,px+1:px+py); x=norm1(X); y=norm1(Y); t,q,w=fun717(px,py,X,Y); r1=corrcoef(x,t); r=r1(px+1:px+px,1:px); Rdxt=r.2; RdXt=mean(Rdxt); for m=1:px RdXtt(1,m)=sum(RdXt(1,1:m); end for j=1:px for m=1:px Rdxtt(j,m)=sum(Rdxt(j,1:m); end end % for j=1:px % for m=1:px % Rd(j,m)=RdXt(1,1:m)*(w(j,1:m).2); % end

20、% end % for j=1:px % VIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); % end%function t,u=TU(px,py,C) %t提取的自變量的主成分 %u 提取的因變量的主成分c=norm1(C);y=c(:,px+1:px+py);E0=c(:,1:px);F0=c(:,px+1:px+py);A=E0*F0*F0*E0;w(:,1)=maxdet(A);t(:,1)=E0*w(:,1);B=F0*E0*E0*F0;cc(:,1)=maxdet(B);u(:,1)=F0*cc(:,1);%function drew(px,py,c) X=c(:,1:px); Y=c(:,px+1:px+py); line,l=size(Y); t,q,w,wh,f0,FF=fun717(px,py,c); YY=X*FF(:,2:px+1,3)+ones(line,1)*FF(:,1,3); subplot(1,1,1,1) bar(f0(:,:,3) title( 直方圖) legend(SG,TZBFB,FHL,JK,HPZD,JPZD,TZ,ZG,GPK) grid on plot(YY(:,4),Y(:,4),+); lsline for i=1:py v=mod(i,4); d=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論