




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、偏最小二乘回歸是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。 密西根大學(xué)的弗 耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統(tǒng)計應(yīng)用中的重要性主要的有以下幾個方面:(1)偏最小二乘回歸是一種多因變量對多自變量的回歸建模方法。(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無法解決的問題。在普通多元線形回歸的應(yīng)用中, 我們常受到許多限制。 最典型的問題就是自變量之間的多重相關(guān) 性。如果采用普通的最小二乘方法,這種變量多重相關(guān)性就會嚴(yán)重危害參數(shù)估計,擴大模型誤差,并破壞模型的穩(wěn)定性。 變
2、量多重相關(guān)問題十分復(fù)雜,長期以來在理論和方法上都未給出滿意的答案,這一直困擾著從事實際系統(tǒng)分析的工作人員。在偏最小二乘回歸中開辟了一種有效的技術(shù)途徑,它利用對系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選的方式,提取對因變量的解釋性最強的綜合變量, 辨識系統(tǒng)中的信息與噪聲, 從而更好地克服變量多重相關(guān)性在系統(tǒng)建 模中的不良作用。 IS恁潤屬彩瘞歌板尻賴。IS恁潤屬彩瘞歌板尻賴(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析 方法的綜合應(yīng)用。偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析由于偏最小二乘回歸在建模的同時實現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡化,因此,可以在二維平面圖上對多維數(shù)據(jù)
3、的特性進(jìn)行觀察,這使得偏最小二乘回歸分析的圖形功能十分強大。在一次偏最小二乘回歸分析計算后, 不但可以得到多因變量對多自變量的回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關(guān)關(guān)系,以及觀察樣本點間的相似性結(jié)構(gòu)。這種高維數(shù)據(jù)多個層面的可視見性,可以使數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時又可以對所建立的回歸模型給予許多更詳細(xì)深入的實際解釋。溝燧金富愛建譴凈。溝燧金富愛建譴凈禍。一、偏最小二乘回歸的建模策略原理方法1.1建模原理設(shè)有q個因變量 y1,.,yq和p自變量 x1,., Xp 。為了研究因變量和自變量的統(tǒng)計關(guān)系,我們觀 測了 n個樣本 點,由此 構(gòu)成了自變量與因變量的數(shù)據(jù)表X= x1,.
4、,xp和.丫=,,,yq。偏最小二乘回歸分別在x與丫中提取出成分ti和ui (也就是說,L是Xi,.,Xp的線形組合,Ui是yi,.,yq的線形組合).在提取這兩個成分時,為了回歸分析的 需要,有下列兩個要求:殘鴦樓靜鑄源湃淑®。殘鴦樓靜鑄源湃淑«B典(1) ti和Ui應(yīng)盡可能大地攜帶他們各自數(shù)據(jù)表中的變異信息;(2) ti與Ui的相關(guān)程度能夠達(dá)到最大。這兩個要求表明,ti和Ui應(yīng)盡可能好的代表數(shù)據(jù)表X和Y,同時自變量的成分ti對因變量的成分ui又有最強的解釋能力。r鋼極額鎮(zhèn)檜豬錐。r鋼極額鎮(zhèn)檜豬錐1g。在第一個成分t1和u1被提取后,偏最小二乘回D3分別實施X對t1的回歸
5、以及 Y對ui的回歸。如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用*被3解釋后的殘余信息以及Y被ti解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個較滿意的精度為止。若最終對X共提取了 m個成分ti ,,tm ,偏最小二乘回歸將通過實施y k對ti ,,t m ,的回歸,然后再表達(dá)成y k關(guān)于原變量 x 1 , x m ,的回歸方程,k=1,2,q。彈貿(mào)攝爾霽斃攬磚鹵尻。彈貿(mào)攝爾霽斃攬磚鹵尻詒。1.2計算方法推導(dǎo)為了數(shù)學(xué)推導(dǎo)方便起見,首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。X經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為 Eo=(Eoi,,EoP)nxp,Yj經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為Fo=(Foi
6、,,F(xiàn)°q)nMp。1S養(yǎng)拾篋飆鱗戀類蔣薔。1S養(yǎng)拾篋飆鱗戀類蔣薔黑占。第一步 記ti是Eo的第一個成分,Wi是Eo的第一個軸,它是一個單位向量,既II wi |=1。記u1是Fo的第一個成分,ui= Fo © ° ° 是Fo的第一個軸,并且11c11|=1。如果要ti , ui能分別很好的代表 X與Y中的數(shù)據(jù)變異信息,根據(jù)主成分分析原理,應(yīng) 該有Var( u1)- maxVar( ti) max另一方面,由于回歸建模的需要,又要求t1對U1有很大的解釋能力,有典型相關(guān)分析的思路,ti與Ui的相關(guān)度應(yīng)達(dá)到最大值,既 廈礴懇蹣駢日寺翥繼騷。廈礴懇蹣駢畤翥繼
7、騷嗇。r ( t1 , U1) t max因此,綜合起來,在偏最小二乘回歸中,我們要求ti與Ui的協(xié)方差達(dá)到最大,既Cov(ti, Ui)= «Var(t1)Var (u 1) r(ti , Ui) -> max正規(guī)的數(shù)學(xué)表述應(yīng)該是求解下列優(yōu)化問題,既震(EoWi,F(xiàn)oCis.t w i w i =1CiCi = i因此,將在llwi|2 =i和11cll/=i的約束條件下,去求(W Eo Fo。)的最大值。如果采用拉格朗日算法,記s=W E o Fo 0 一九 i (Wi Wi _1)_ 九 2 (Ci ° T)對s分別求關(guān)于wi? c,九和九。的偏導(dǎo)并令之為零,有
8、 1I 2淪 '就=曰。-2-wi=。(i -2).:S '二-二F o E。wi _2 九 2。=。(i-3)Ci,S ,7 = 一 ( Wi Wi i)=o(i-4)二'i:S,7r -(cici-i)=o(i-5)由式(i-2卜(i-5),可以推出''2 1 i =2 '2 = wiEoF0clEowi, Foci記d =2% =2% =wiE oFoCi,所以,生正是優(yōu)化問題的目標(biāo)函數(shù)值把式(i-2)和式(i-3)寫成(1-6)F oE0w1 - ic(1-7)將式(1-7)代入式(1-6),有(1-8),2E o F0F o E0w1
9、-w1同理,可得''2F 0E0E 0 F0cl- ti1c1(1-9)可見,w1是矩陣E 0F0F20E0的特征向量,對應(yīng)的特征值為 斗.&是目標(biāo)函數(shù)值,它要求取最大值,所以,w1是對應(yīng)于E 0F0F 0E0矩陣最大特征值的單位特征向量.而另一方面,Ci是對 , _ _ , _ 2應(yīng)于矩陣F 0E0E 0F0最大特征值 d2的單位特征向量.煢楨廣鯽獻(xiàn)選塊網(wǎng)踴淚。煢楨廣鯽獻(xiàn)選塊網(wǎng)踴淚鍍。求得軸w1和C1后,即可得到成分t = E°w1U1 = F0C1然后分別求E0和F0 X3,5的三個回歸方程E0 =Lp1 E1(1-10)0 =uq'1 F 1(1
10、-11)'0 - t1r 1F1(1-12)FF式中,回歸系數(shù)向量是P1 =一'E 0tlI|t1 |(1-13)F 0U1|U1 |(1-14)F 0tl11t1|(1-15)而Ei,F *i, Fi分別是三個回歸方程的殘差矩陣第二步用殘差矩陣E1和F1取代Eo和Fo,然后,求第二個軸 W 和C2以及第二個成分t2,U2,有t.2 = E i W22 =:二 t2, u 2= w 2 E 1F1C2,C2是對應(yīng)于矩陣F 1E1E1F12W2是對應(yīng)于矩陣 E1F1F 1E1最大特征值02的特征值最大特征值的特征向量.計算回歸系數(shù)E1t2p2211t21F 1t2因此有回歸方程E
11、1 =t2P2 E2F1 =t2r 2F2如此計算下去,如果X的秩是A,則會有Eo fP1 tAP A(1-16)Fo=t" 1 . . tAr A Fa(1-17)由于t,,tA均可以表示成E01,Eop的線性組合,因此,式(1-17)還可以還原成* . yk = F0k關(guān)于Xj* = Eok的回歸方程形式,即.*k=1,2,,qy=;,k1X1 二 kpX p - FAkFAk是殘差距陣Fa的第k列。1.3交叉有效性卜面要討論的問題是在現(xiàn)有的數(shù)據(jù)表下,如何確定更好的回歸方程。在許多情形下,偏最小二乘回歸方程并不需要選用全部的成分ti,,tA進(jìn)行回D3建模,而是可以象在主成分分析一
12、樣,采用截尾的方式選擇前m個成分(m A, A = 秩(X),僅用這 m個后續(xù)的成分ti,,tm就可以得到一個預(yù)測性較好的模型。事實上,如果后續(xù)的成分已經(jīng)不能為解釋F0提供更有意義的信息時,采用過多的成分只會破壞對統(tǒng)計趨勢的認(rèn)識,引導(dǎo)錯誤的預(yù)測結(jié)論。在多元回歸分析一章中,我們曾在調(diào)整復(fù)測定系數(shù)的內(nèi)容中討論過這一觀點。鵝婭盡揖鶴慘屣宓Bo鵝婭盡揖偶慘屣蘢下面的問題是怎樣來確定所應(yīng)提取的成分個數(shù)。在多元回歸分析中,曾介紹過用抽樣測試法來確定回歸模型是否適于預(yù)測應(yīng)用。我們把手中的數(shù)據(jù)分成兩部分:第一部分用于建立回歸方程 ,求出回歸系數(shù)估計量 bB,擬合值?B以及 殘差均方和 wB;再用第二部分?jǐn)?shù)據(jù)作
13、為實驗點,代入剛才所求得的回歸方程,由此求出22222%和可。一般地,若有 苗之?B,則回歸方程會有更好的預(yù)測效果。若 叫 » 叫,則回歸 方程不宜用于預(yù)測。 麓叢媽息為瞻債蛭練浮。麓叢媽息為瞻債蛭練浮桶。在偏最小二乘回歸建模中,究竟應(yīng)該選取多少個成分為宜,這可通過考察增加一個新的 成分后,能否對模型的預(yù)測功能有明顯的改進(jìn)來考慮。采用類似于抽樣測試法的工作方式,把所有n個樣本點分成兩部分:第一部分除去某個樣本點i的所有樣本點集合(共含n-1個樣本 點),用這部分樣本點并使用 h個成分?jǐn)M合一個回歸方程;第二部分是把剛才被排除的樣本點i代入前面擬合的回歸方程 得到y(tǒng)j在樣本點i上的擬合值
14、 (3。對于每一個i =1,2,n重復(fù) 上述測試,則可以定義 yj的預(yù)測誤差平方和為 PRESS,有501圣物齦訝驊汆。51m圣的齦訝 驊汆翼nPRESShj(yj -?hj(4)2(1-18)i 1定義丫的預(yù)測誤差平方和為 PRESShjpPRESS =,PRESShj(1-19)j 1顯然,如果回歸方程的穩(wěn)健性不好,誤差就很大,它對樣本點的變動就會十分敏感,這種擾動誤 差的作用,就會力大PRESSh的值。滲彩嗆儼勻謂鱉調(diào)硯金帛。滲彩嗆儼勻謂鱉調(diào)硯金帛金山另外,再采用所有的樣本點,擬合含h個成分的回歸方程。這是,記第i個樣本點的預(yù)測值為?hji ,則可以記 yj的誤差平方和為 sshj,有錢
15、臥瀉嵯圣騁睨圓1。錢臥瀉嵯圣騁睨圓1縫。n(1-20)(1-21)2SShj= " ( yij- ?hji )i 1定義Y的誤差平方和為 SSh,有pSSh SShjj 1般說來,總是有 PRESSh大于SSh,而SSh則總是小于 SSh。下面比較 SSh和PRESSh o S&是用全部樣本點擬合的具有h-1個成分的方程的擬合誤差;PRES&增加了一個成分th,但卻含有樣本點的擾動誤差。如果 h個成分的回歸方程的含擾動誤差能在一定程度上小于(h-1)個成分回歸方程的擬合誤差,則認(rèn)為增加一個成分th,會使預(yù)測結(jié)果明顯提 高。因此我們希望(PRESSh/S&)的比
16、值能越小越好。在 SIMCA-P軟件中,指定施鳳襪備 音養(yǎng)11輪爛薔。拂舞I鳳襪備音孔罌(輪爛薔幸艮。(PRESSh / SSh)M0.952即JPRESS <0.95vSShT時,增加成分th就是有益的;或者反過來說,當(dāng) JpRESS > 0.95<SSh_1時,就認(rèn)為增加新的成分 th,對減少方程的預(yù)測誤差無明顯的改善 作用.嬲熟俁畫蕨圜閶鄴錢原蚤。嬲熟俁畫蕨圜閶鄴錢原翻瓦另有一種等價的定義稱為交叉有效性。對每一個變量yk,定義2hk1 PRESSk一 一 SSh)k(1-22)對于全部因變量 Y,成分th交叉有效性定義為q“ PRESShk,km, PRESSh(1-23)二 1 二 1 V QQSS(hfSS(h4)k用交叉有效性測量成分 th對預(yù)測模型精度的邊際貢獻(xiàn)有如下兩個尺度。22(1) 當(dāng)Q2至(1 0.952) = 0.0975時,th成分的邊際貢獻(xiàn)是顯著的。顯而易見Qh之0.0975與(PRESSh/SSh)< 0.952是完全等價的決策原則。(2) 對于k=1,2,南少有一個k,使得Qh -0.0975這時增加成分th,至少使一個因變量 yk的預(yù)測模型得到顯著的改善,因此,也可以考慮增加成分th是明顯有益的。明確了偏最小二乘回歸方法的基本原理、方法及算法步驟后,我們將做
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年山東省菏澤市單縣八校聯(lián)考中考語文一模試卷
- 2《祖父的園子》教學(xué)設(shè)計-2024-2025學(xué)年統(tǒng)編版語文五年級下冊
- 2024年八年級物理上冊 1.2 測量 實驗探究的重要環(huán)節(jié)教學(xué)實錄 (新版)教科版
- 農(nóng)村社會救助對象認(rèn)定與幫扶方案
- 2024-2025學(xué)年高中歷史 第1單元 古代中國的政治制度 第1課 夏、商、西周的政治制度教學(xué)實錄 新人教版必修1
- 8 科技發(fā)展 造福人類 第3課時 教學(xué)設(shè)計-2023-2024學(xué)年道德與法治六年級下冊統(tǒng)編版
- 2《丁香結(jié)》(教學(xué)設(shè)計)-2024-2025學(xué)年統(tǒng)編版語文六年級上冊
- 2024-2025學(xué)年新教材高中生物 第二章 組成細(xì)胞的分子 第2節(jié) 細(xì)胞中的無機物教學(xué)實錄 新人教版必修1
- 本科畢業(yè)論文完整范文(滿足查重要求)“人肉搜索”的潛在危害及刑法規(guī)制問題研究
- 2024年四年級英語下冊 Unit 10 He has two feet第3課時教學(xué)實錄 湘少版
- 感冒(2023年遼寧本溪中考語文試卷非連續(xù)性文本閱讀題及答案)
- 2024新版英語英語3500個單詞分類大全
- 2024年新高考英語最后一卷(新高考專用)(含答案解析)
- 《新模式英語3(第三版)》 課件 Unit 3 Campus Life
- 領(lǐng)域特定代碼優(yōu)化與生成技術(shù)
- 上海市社區(qū)工作者管理辦法
- 信息技術(shù)咨詢服務(wù)合同協(xié)議2024年
- 小學(xué)語文閱讀素養(yǎng)大賽檢測卷
- 《網(wǎng)絡(luò)營銷實務(wù)》 課程標(biāo)準(zhǔn)
- 《鐵路職業(yè)道德》課件-7.1《鐵路法》、《勞動法》和《勞動合同法》
- 2024年徐州生物工程職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫各版本
評論
0/150
提交評論