版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第六章 偏最小二乘方法,偏最小二乘方法(pls-partial least squares)是近年來發(fā)展起來的一種新的多元統(tǒng)計(jì)分析法, 現(xiàn)已成功地應(yīng)用于分析化學(xué), 如紫外光譜、氣相色譜和電分析化學(xué)等等。該種方法,在化合物結(jié)構(gòu)-活性/性質(zhì)相關(guān)性研究中是一種非常有用的手段。如美國(guó)triposcomfa (comparative molecular field analysis)方法, 其中,數(shù)據(jù)統(tǒng)計(jì)處理部分主要是pls。在pls方法中用的是替潛變量,其數(shù)學(xué)基礎(chǔ)是主成分分析。替潛變量的個(gè)數(shù)一般少于原自變量的個(gè)數(shù),所以pls特別適用于自變量的個(gè)數(shù)多于試樣個(gè)數(shù)的情況。在此種情況下,亦可運(yùn)用主成分回歸方法
2、,但不能夠運(yùn)用一般的多元回歸分析,因?yàn)橐话愣嘣貧w分析要求試樣的個(gè)數(shù)必須多于自變量的個(gè)數(shù),6.1 多元線性回歸(mlr,若自變量為m個(gè),xj (j=1,2,m),因變量為y,在y與xj間,我們可以建立一線性模型,即,6.1a,6.1b,6.1c,在式中,bj為回歸系數(shù),在式(6.1)中僅有一個(gè)試樣,若有n個(gè)試樣,即為yi (i=1,2,n),它的列向量形式為y ,b與原來相同,矢量xj為矩陣x的行,則,y = xb + e,若用圖形表示,則為,y = x b + e,1,m,1,1,n,n,n,m,在此情況下,n為試樣數(shù),m為自變量數(shù)。有如下三種情況,1) mn,即變量數(shù)多于試樣數(shù),對(duì)于b來說
3、,則有無窮多個(gè)解,2) m=n,變量數(shù)與試樣數(shù)相等,若矩陣x滿秩時(shí),則矢量b有唯一解。但是,在實(shí)際工作中,這種情況是極少能碰到的。此時(shí)我們有,e = y xb =0,3)mn,變量數(shù)小于試樣數(shù),盡管我們得不到準(zhǔn)確解b,但是可以使殘差矢量e盡可能小而得到解,e = y xb,這就是我們所熟知的最小二乘法。其解為,6.2,在上邊的敘述中,因變量為1個(gè),而事實(shí)上可以有多個(gè)因變量。如有兩個(gè)因變量y1和y2,我們可以簡(jiǎn)單地寫成兩個(gè)線性方程,y1=xb1+ e ; y2=xb2+ e,若用矩陣標(biāo)表示,則,由此得到,y = xb + e,對(duì)于2-p 個(gè)因變量的圖形表示為,y = x b + e,2-p,2-
4、p,2-p,n,m,n,m,n,最小二乘的解為,6.3,多元線性回歸應(yīng)用很廣泛,因?yàn)樵谠S多情況下該種方法具有良好的性能。但是,此種方法也有固有的缺點(diǎn)。假若體系的響應(yīng)(即因變量)呈現(xiàn)線性,無干擾,無溶液間的相互作用,低噪聲無共線性,則多元線性回歸是一種非常好的方法,事實(shí)上,完全滿足上述條件比較困難。當(dāng)噪聲較強(qiáng),或干擾較嚴(yán)重時(shí),有可能導(dǎo)致所得數(shù)學(xué)模型失真,如下例,運(yùn)用式(6.3)則可得b矩陣,所用數(shù)學(xué)模型有效性的量度可用err,式中,yik 為矩陣y中第i行第k列的矩陣元,為由矩陣b所得的計(jì)算值,ik為前面所介紹的矩陣e的矩陣元。此例中,err = 0.49,若由于噪音使得x增廣一列(注意:對(duì)于試
5、樣濃度的測(cè)定,它并不包含有用信息),即,由此得到的b矩陣為,對(duì)于此模型,err=0.07。它比前者為小,這就意味著對(duì)于矩陣y,第二個(gè)數(shù)學(xué)模型比第個(gè)要更有效,這是一種假象。由于x中引入最后一列,使得b2中上部3*3部分與前邊所提b不相等(b為真實(shí)模型)。由b2計(jì)算所得y盡管誤差要小,但其數(shù)學(xué)模型所描述的自變量與因變量間的關(guān)系并不真實(shí)。其原因主要為多元線性回歸方法是采用整個(gè)x矩陣來建立數(shù)學(xué)模型,而并不顧及在x中的信息與真實(shí)模型相關(guān)與否。很顯然,若所得結(jié)果偏離了其實(shí)際數(shù)學(xué)模型,則對(duì)于未知試樣的預(yù)測(cè)也是錯(cuò)誤的,為了克服多元線性回歸的不足,在數(shù)學(xué)方法上引進(jìn)了主成分回歸方法(pcr,6.2 主成分回歸,主
6、成分回歸可分為兩步: 測(cè)定主成分?jǐn)?shù),并由主成分分析將x矩陣降維; 對(duì)于降維的x矩陣再進(jìn)行線性回歸分析,主成分分析的概念在前一章已經(jīng)作了介紹。所謂主成分,它為一新的變量,而該新變量是原變量xij的線性組合。第一個(gè)主成分所能解釋原變量的方差量最大,第二個(gè)次之,第三個(gè)再次之,等等。也就是說,主成分是一種線性組合,用它來表征原來變量時(shí)所產(chǎn)生的平方誤差最小。運(yùn)用主成分分析,原變量矩陣x可以表達(dá)為得分(即主成分)矩陣t,而t由x在本征矢量p上的投影所得。主成分與矩陣x的本征矢量一一對(duì)應(yīng),即t = xp,設(shè)矩陣x的階為i*j,若t的階與j相等,則主成分回歸與多元線性回歸所得結(jié)果相同,并不能顯示出主成分回歸的
7、優(yōu)越之處。選取的主成分?jǐn)?shù)一般應(yīng)該比j 小,而刪去那些不重要的主成分,因?yàn)檫@些主成分所包含的信息主要是噪聲,由此所得的回歸方程穩(wěn)定性較好,另外,由x所定義的空間可以進(jìn)一步來說明主成分回歸與多元線性回歸的區(qū)別。多元線性回歸應(yīng)用了由x的列所定義的全部空間,而主成分回歸所占用的是一子空間。當(dāng)x的j列中,有一列可為其它j 1列的線性組合時(shí),則x可用j -1列的矩陣t來描述,而并不丟失信息。新的矩陣t定義了x的一個(gè)子空間,綜合上述,x可由它的得分矩陣t來描述(由于刪去與小的本征值相應(yīng)的維,所以t的維小于x的維,t=xp,若用圖形表示,則為,t = x p,a,m,a,n,n,m,由此可得多線性方程,y=t
8、b+e,其解為,其圖形表示為,y = t b + e,p,p,p,a,n,n,n,a,主成分分析可以解決共線問題,同時(shí)由于去掉了不太重要的主成分,因而可以削弱噪聲(隨機(jī)誤差)所產(chǎn)生的影響。但是,由于主成分回歸為二步法,若在第一步中消去的是有用的主成分,而保留的是噪聲,則在第二步多元線性回歸所得結(jié)果就將偏離真實(shí)的數(shù)學(xué)模型,6.3 偏最小二乘(pls,6.3.1 基本原理,為了敘述上的方便,我們首先引進(jìn)“因子”的概念。一個(gè)因子為原來變量的線性組合,所以矩陣的某一主成分即為一因子,而某矩陣的諸主成分是彼此相互正交的,但因子不一定,因?yàn)橐灰蜃涌捎赡骋怀煞纸?jīng)坐標(biāo)旋轉(zhuǎn)而得,在主成分回歸中,第一步,在矩陣x
9、的本征矢量或因子數(shù)測(cè)試中,所處理的僅為x矩陣,而對(duì)于矩陣y 中信息并未考慮。事實(shí)上,y中亦可能包含非有用的信息。所以很自然的一種想法是,在矩陣x因子的測(cè)試中應(yīng)同時(shí)考慮矩陣y的作用。偏最小二乘正是基于這種思想的一種回歸方法,偏最小二乘和主成分分析很相似,其差別在于用于描述變量y中因子的同時(shí)也用于描述變量x。為了實(shí)現(xiàn)這一點(diǎn),在數(shù)學(xué)上是以矩陣y的列去計(jì)算矩陣x的因子,與此同時(shí),矩陣y的因子則由矩陣x的列去預(yù)測(cè)。其數(shù)學(xué)模型為,6.4,及,6.5,此處,t和u的矩陣元分別為x和y的得分,而p和q的矩陣元分別為x和y的裝載,e和f分別為運(yùn)用偏最小二乘模型法去擬合x和y所引進(jìn)的誤差,t = xp(主成分分析
10、) tp = xpp pp = i x = tp(因子分析,在理想的情況下,x中誤差的來源和y中的誤差的來源完全相同,即影響x與y的因素相同。但實(shí)際上,x中誤差與y中誤差并不相關(guān),因而tu,但當(dāng)兩個(gè)矩陣同時(shí)用于確定因子時(shí),則x和y的因子具有如下關(guān)系,u = bt + e,6.6,式中b所表征的即為u和t間的內(nèi)在關(guān)系,為了使因子t既可描述x矩陣,同時(shí)又可描述y矩陣,則需采取折衷方案,即將t進(jìn)行坐標(biāo)旋轉(zhuǎn)。顯然,坐標(biāo)旋轉(zhuǎn)后的t因子對(duì)于x矩陣的表達(dá)已不再是最優(yōu)的狀況,如假設(shè)x矩陣和y矩陣均為6*3,即行為6,列為3。在列空間,x和y矩陣的行分別示于圖6.1(上部)。pls第一個(gè)因子(t和u)方向在各自
11、的空間均可解釋試樣的最大偏差。若pls模型是正確的,將t對(duì)u作圖則可得一線性關(guān)系。事實(shí)上,pls要將各自空間中的因子進(jìn)行折衷以增加t對(duì)u的相關(guān)性(圖6.1下部)。由于這種折衷才可使所得數(shù)學(xué)模型較好地同時(shí)描述x和y。在行空間,情況與列空間類同,圖6.1 pls處理的圖形表示,如有矩陣(見 6.2,數(shù)據(jù)的預(yù)處理為:每列減去相應(yīng)列的平均值(mean-centered),pls所得結(jié)果為,將t 對(duì)u作圖(圖6.2)可顯示出二者的線性關(guān)系,其斜率b = 0.53,圖6.2 矩陣x的因子 t對(duì)矩陣y的因子u作圖,對(duì)于未知試樣的預(yù)測(cè),要應(yīng)用x和y的得分模型及相關(guān)性bi。 若有l(wèi)個(gè)因子,則bl為表達(dá)第l個(gè)因子
12、相關(guān)性的系數(shù),其步驟為:由未知試樣的測(cè)定值x末通過校正模型(式(6.4)計(jì)算出t末,進(jìn)而由(式6.6)及bl可計(jì)算未知試樣的得分矢量u末,最后由校正模型(式6.5)得未知試樣含量,u = bt + e,6.4,6.5,6.6,6.3.2 偏最小二乘算法,1.校正模型的建立,首先我們從一最簡(jiǎn)單的模型開始,然后給出偏最小二乘的完整算法,若僅有二矩陣塊(block),即x塊和y塊,對(duì)于x,1) 將某xj賦值給tstart,即 tstart= xj,5) 比較步(2)和步(4)中的t ,若二者相等,則停,否則轉(zhuǎn)到(2,對(duì)于y,1)將某yj賦值給ustart即ustart=yi,5)比較步(2)和步(4
13、)中的u,若二者相等,則停,否則到步(2,在上述的算法中,x和y是分別獨(dú)立進(jìn)行的,為了建立二者內(nèi)在的相關(guān)性,則將得分t 和u在步(2)中的位置相交換(上述算法中的括號(hào)內(nèi)部分,1)令,8)將步(4)中t與前一次迭代所得t相比較,若二者相等(有一定的舍入誤差),則停,否則轉(zhuǎn)入步(2)若y為一維,即僅一個(gè)變量,則跳過步(5)(8),并置q = 1,此算法一般收斂很快。所得到的為x和y的經(jīng)過旋轉(zhuǎn)的主成分,即t不互相正交,其原因是在主成分計(jì)算中,運(yùn)算的順序發(fā)生了變化。因此,將權(quán)重w(見上述運(yùn)算中括號(hào)內(nèi)等式)替代p,并在收斂之后,再加入,以得到正交的t 值。由 ,則可計(jì)算新的 t , t = x p/ p
14、 ,其實(shí)此即為,t 的相互正交并非絕對(duì)必要,但當(dāng)與主成分回歸比較時(shí),t 正交的條件還是需要滿足的。當(dāng)預(yù)測(cè)時(shí),需將作同樣的標(biāo)準(zhǔn)化處理: ,否則,將引入誤差。然后,t可用于內(nèi)部的相關(guān): (下腳意為對(duì)于h因子,大小為n*1),此處,其殘差的計(jì)算分別為,將uh代入第二式,則得混合方程,由此混合方程可使模型參數(shù)用于測(cè)試集的預(yù)測(cè),2.偏最小二乘算法,下面給出完整的一種偏最小二乘算法,若x 和y 均已經(jīng)過標(biāo)準(zhǔn)化處理。對(duì)于每一主成分,對(duì)于x 塊,對(duì)于y,收斂測(cè)試,8) 將步(4)中t 與前一次迭代所得t 相比較,若二者相等(包括一定的舍入誤差),到步(9),否則到步(2) 若y僅有一個(gè)變量,則跳過步(5)(8
15、),并置q = 1。計(jì)算x的裝載,并重新標(biāo)準(zhǔn)化得分及權(quán)重,p, q和用于預(yù)測(cè);t 和u 用于,分類或診斷,計(jì)算回歸系數(shù)b以用于內(nèi)部關(guān)聯(lián),對(duì)于主成分h 計(jì)算殘差,之后,回到步(1),去進(jìn)行下一主成分的運(yùn)算,(注:當(dāng)?shù)谝粋€(gè)主成分運(yùn)算之后,x在步(2),(4) 和步 (9) 及y 在步 (5) 和步 (7) 將分別由它們的殘差eh和fh代替,3.未知樣本預(yù)測(cè),數(shù)學(xué)模型的求取,目的是用于未知樣本的預(yù)測(cè)。其步驟為,1) 如校正部分,將x及y標(biāo)準(zhǔn)化(此時(shí)試樣數(shù)為n1,而不是n,2) h = 0, y = (均值,3) h = h + 1,4) h (主成分?jǐn)?shù))到步(5),否則到步(3,5) 得到的y為已經(jīng)
16、標(biāo)準(zhǔn)化,因此需按照標(biāo)準(zhǔn)化步驟的相反操作,將之恢復(fù)到原始坐標(biāo),4.關(guān)于主成分?jǐn)?shù),若x和y間關(guān)系符合線性模型,則描述模型的主成分?jǐn)?shù)應(yīng)與模型的維數(shù)相等。主成分?jǐn)?shù)是偏最小二乘模型的重要性質(zhì),由于測(cè)試數(shù)據(jù)一般隱含噪聲,故主成分?jǐn)?shù)通常與x的秩不相等。如前已述及,在實(shí)際問題的處理中,總是要消去一些因子(成分), 因?yàn)檫@些因子所表征的主要是測(cè)試誤差、噪聲及由于變量間相關(guān)所引起的共線問題等,確定主成分?jǐn)?shù)的一種方法是以式(6.8)中fh的模數(shù)為判據(jù)。圖6.3為模數(shù) 對(duì)主成分?jǐn)?shù)所得關(guān)系曲線,可以選定某值作為門限,當(dāng) 小于此值時(shí),則停止迭代,圖6.3 與偏最小二乘中因子書的關(guān)系,另一種方法是運(yùn)用f 檢驗(yàn)來測(cè)試內(nèi)在相關(guān)
17、性(inner relation)以確證所建立的模型,再一種方法為交叉驗(yàn)證法。在這種方法中計(jì)算一統(tǒng)計(jì)量press(prediction residual sum of squares),即預(yù)測(cè)殘差之平方和。如圖6.4所示,顯然,人們總是希望采用某一主成分?jǐn)?shù)時(shí)所產(chǎn)生的press為最小。但最小的位置常難以準(zhǔn)確確定。用這種方法確定主成數(shù)非常類似于測(cè)定下限的概念。所謂測(cè)定下限即在噪聲存在下最小可以檢出的信號(hào)。在圖6.4的情況下,因子數(shù)可取48,圖6.4 press與因子數(shù)的關(guān)系,5. 應(yīng)用實(shí)例腐植酸和木質(zhì)磺酸鹽的熒光分光光度分析5,磺酸木質(zhì)素(ligninsulfonate)是水中的一種污染物,可用熒
18、光分光光度法測(cè)定.盡管此種方法具有高靈敏度和高選擇性,但在磺酸木質(zhì)素的測(cè)試中腐植酸和去污劑中的光白劑(optical whitener)對(duì)其嚴(yán)重干擾。這三種化合物的發(fā)射光譜重疊非常嚴(yán)重(見圖6.5).由圖可見,沒有一個(gè)區(qū)域僅為一種化合物所具有的發(fā)射光譜,圖6.5 腐植酸( ),磺酸木質(zhì)素(- - - -)和去污劑()的發(fā)射光譜(均由純物質(zhì)測(cè)試所得,這三種化合物不僅發(fā)射光譜嚴(yán)重重疊,同時(shí)在溶液中相互間有影響,如圖6.6所示,三種純物質(zhì)的發(fā)射光譜加和()與其混合溶液的發(fā)射光譜()并不一樣,這就進(jìn)一步增加了問題的復(fù)雜性.但是借助于偏最小二乘法,可以進(jìn)行單一成分的測(cè)試,所得結(jié)果尚較滿意,圖6.6 腐植
19、酸,磺酸木質(zhì)素和去污劑純?nèi)芤喊l(fā)射光譜加 和()及三物質(zhì)混合溶液的發(fā)射光譜(- - -,首先,看一下二組分的情況,表6.1所示為腐植酸和磺酸木質(zhì)素混合樣品的濃度測(cè)定結(jié)果,表6.1 腐植酸與磺酸木質(zhì)素混合物溶液測(cè)試結(jié)果(g/ml,其中,預(yù)測(cè)誤差為預(yù)測(cè)濃度與實(shí)際濃度之差.如對(duì)于小組分磺酸木質(zhì)素,平均誤差為-0.024(g/ml),相應(yīng)的標(biāo)準(zhǔn)偏差為0.085(g/ml)。標(biāo)準(zhǔn)偏差所用公式為,而非相似度因子(dissimilarity factor)的表達(dá)式為,式中, sa2( ex ) 為x陣的主成分模型所引進(jìn)的殘余標(biāo)準(zhǔn)方差。而s2為,s2= /(m a,其中,m為x 的維,a為主成分?jǐn)?shù),e為,運(yùn)用f
20、顯著性檢驗(yàn),其自由度為( m - a )/2 和( m - a )( n a 1 )/2 ,顯著性水平為,若s2 sa2 ( ex )f ,則計(jì)算值可信,若試樣增加一組分,即去污劑(含光白劑),其結(jié)果示于表6.2。由此表可見,對(duì)于腐植酸和磺酸木質(zhì)素來說,三組分與二組分濃度預(yù)測(cè)準(zhǔn)確性大體上相當(dāng)。對(duì)于去污劑來說,也得到了較好的結(jié)果。在表6.2的情況下,由于為三組分混合物,所以構(gòu)造主成分模型時(shí),也相應(yīng)增加一因子,表6.2 腐植酸,磺酸木質(zhì)素和去污劑混合溶液測(cè)試結(jié)果(gml,若試樣仍如表6.2,即混合物為三組分,但預(yù)測(cè)為兩個(gè)組分,也就是說構(gòu)造的預(yù)測(cè)模型為二因子,其結(jié)果示于表6.3。由此表可見,預(yù)測(cè)誤差
21、反而比表6.2為小。原因?yàn)椋耗P椭猩僖灰蜃?,所以可使結(jié)果更穩(wěn)定,表6.3 三組分混合物,但僅測(cè)試腐植酸和磺酸木質(zhì)素二組分(g/ml,6.4 非線性偏最小二乘,非線性偏最小二乘與線性偏最小二乘的區(qū)別僅僅在于x與y的內(nèi)在相關(guān)性,即后者為一直線,而前者為一曲線,如一拋物線,曲線的表示有多種數(shù)學(xué)模型,如二次多項(xiàng)式,三次多項(xiàng)式,指數(shù)函數(shù)和對(duì)數(shù)函數(shù)等。其中,最簡(jiǎn)單的為二次多項(xiàng)式,式中,t,u分別為x,y的得分矩陣,p, q分別為x,y的裝載矩陣,a為某一主成分,這種最簡(jiǎn)單的二次項(xiàng)擴(kuò)展的偏最小二乘可簡(jiǎn)記為qpls,qpls的基本思想是:將x和y分別投影于t 和u:(1) 將x和y分別以tp和uq近似;(2) 同時(shí)滿足u和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版保健食品電商平臺(tái)數(shù)據(jù)分析與用戶畫像合同2篇
- 二零二五版電影后期特效制作贊助合同3篇
- 二零二五年度建筑節(jié)能玻璃檢測(cè)與綠色建筑認(rèn)證合同3篇
- 二零二五年技術(shù)服務(wù)合同服務(wù)內(nèi)容和技術(shù)要求2篇
- 二零二五版存量房買賣合同家庭定制版2篇
- 二零二五版智能公廁建設(shè)與運(yùn)營(yíng)管理合同3篇
- 二零二五版體育用品促銷員賽事贊助合同3篇
- 二零二五版鐘點(diǎn)工家政服務(wù)合同-含家政員行為規(guī)范3篇
- 二零二五版國(guó)際汽車運(yùn)輸與品牌合作推廣合同3篇
- 二零二五版能源節(jié)約型產(chǎn)品采購合同規(guī)范范本2篇
- 銷售禮盒營(yíng)銷方案
- 領(lǐng)導(dǎo)溝通的藝術(shù)
- 發(fā)生用藥錯(cuò)誤應(yīng)急預(yù)案
- 南潯至臨安公路(南潯至練市段)公路工程環(huán)境影響報(bào)告
- 綠色貸款培訓(xùn)課件
- 大學(xué)生預(yù)征對(duì)象登記表(樣表)
- 主管部門審核意見三篇
- 初中數(shù)學(xué)校本教材(完整版)
- 父母教育方式對(duì)幼兒社會(huì)性發(fā)展影響的研究
- 新課標(biāo)人教版數(shù)學(xué)三年級(jí)上冊(cè)第八單元《分?jǐn)?shù)的初步認(rèn)識(shí)》教材解讀
- (人教版2019)數(shù)學(xué)必修第一冊(cè) 第三章 函數(shù)的概念與性質(zhì) 復(fù)習(xí)課件
評(píng)論
0/150
提交評(píng)論