互信息誘導(dǎo)子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第1頁(yè)
互信息誘導(dǎo)子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第2頁(yè)
互信息誘導(dǎo)子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第3頁(yè)
互信息誘導(dǎo)子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、互信息誘導(dǎo)子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用         11-04-22 15:34:00     作者:譚超 覃鑫 李夢(mèng)龍    編輯:studa20【摘要】  在集成框架下,提出了一種聯(lián)合自助采樣和基于互信息變量選擇的子空間回歸集成偏最小二乘算法MISEPLS。此算法的核心是通過(guò)訓(xùn)練集自助采樣和隨后計(jì)算互信息的方式來(lái)引入成員模型的差異性。由于互信息量小于一個(gè)特定閾值的變量被淘汰,每個(gè)成員模型在原始變量的

2、一個(gè)子空間得到訓(xùn)練。模型融合考慮了簡(jiǎn)單平均和加權(quán)平均兩種方式。通過(guò)兩個(gè)近紅外光譜定量校正實(shí)驗(yàn),與建立單模型的全譜偏最小二乘算法(PLS)和基于互信息變量選擇的偏最小二乘算法(MIPLS)進(jìn)行了比較。結(jié)果表明,在不增加模型復(fù)雜度的情況下,MISEPLS能建立起更精確、更穩(wěn)健的校正模型。 【關(guān)鍵詞】  互信息,子空間,集成,校正,近紅外光譜1  引言    近年來(lái), 近紅外光譜(NIR)技術(shù)以其簡(jiǎn)便、快捷、低成本、無(wú)污染以及不破壞樣品等優(yōu)點(diǎn),被越來(lái)越多地應(yīng)用于石油、化工、醫(yī)藥、食品等領(lǐng)域1。近紅外光譜對(duì)應(yīng)分子中含氫基團(tuán)的振動(dòng)倍頻與合頻,加之各種干擾

3、存在和物理因素影響,具有背景復(fù)雜、譜峰重疊、變動(dòng)、信號(hào)弱的特點(diǎn),其中的有效信息率非常低。因此,從復(fù)雜、重疊、變動(dòng)的光譜信號(hào)中提取微弱的有用信息,并建立校正模型是應(yīng)用近紅外光譜技術(shù)的難點(diǎn)和關(guān)鍵,直接決定了其可用性?;瘜W(xué)計(jì)量學(xué)算法已成為近紅外光譜技術(shù)的核心技術(shù)之一。具有代表性的化學(xué)計(jì)量學(xué)算法包括偏最小二乘(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN),、支持向量機(jī)(SVM)1等。    傳統(tǒng)的校正技術(shù)一般基于建立單一模型,在很多情況下,特別是當(dāng)訓(xùn)練集較小時(shí),單一模型的預(yù)測(cè)能力與穩(wěn)健性難于達(dá)到要求1。起源于機(jī)器學(xué)習(xí)的集成或共識(shí)(Ensemble or consensus)策略為解決

4、該類(lèi)任務(wù)提供了新思路1。所謂集成就是利用多個(gè)模型來(lái)解決同一個(gè)問(wèn)題。對(duì)于模型設(shè)計(jì)者,不必試圖采用復(fù)雜算法建立單個(gè)復(fù)雜模型,而是利用多個(gè)簡(jiǎn)單模型某種互補(bǔ),可達(dá)到同樣的目標(biāo)。通常,在集成框架下,需要通過(guò)某種擾動(dòng)(如對(duì)樣本或變量重采樣)產(chǎn)生分散的訓(xùn)練子集,并建立相應(yīng)的成員模型,再通過(guò)簡(jiǎn)單平均或加權(quán)平均等方式將多個(gè)成員模型整個(gè)合起來(lái),最終產(chǎn)生一個(gè)所謂的集成模型。集成最早應(yīng)用于模式識(shí)別,由于其呈現(xiàn)出的眾多優(yōu)勢(shì),在化學(xué)計(jì)量學(xué)領(lǐng)域也已受到廣泛關(guān)注。文獻(xiàn)中報(bào)道了一些有效的集成算法,如BaggingPLS 1, Boosting KPLS 1, Subagging PLS 1, Consensus PLS1等。與

5、單模型算法相比,集成類(lèi)算法能更充分地利用訓(xùn)練樣本信息,因而能產(chǎn)生更精確和更穩(wěn)健的校正模型。    在集成框架下,本研究提出了一種聯(lián)合自助采樣和基于互信息變量選擇的子空間回歸集成算法MISEPLS。其主要特點(diǎn)是綜合訓(xùn)練集自助采樣(Bootstrap) 1和互信息(Mutual information) 1變量選擇來(lái)引入成員模型的差異性。由于互信息量小于一個(gè)特定閾值的變量被淘汰,每個(gè)成員模型在原變量集的一個(gè)子空間訓(xùn)練,因此可避免多元共線性帶來(lái)的諸多問(wèn)題。同時(shí),也比較了簡(jiǎn)單平均和加權(quán)平均兩種模型整合(融合)方式。通過(guò)兩個(gè)近紅外光譜定量分析實(shí)例及與建立單模型的全譜偏最小二

6、乘算法(PLS)、基于互信息變量選擇的偏最小二乘算法(MIPLS)比較,驗(yàn)證了其綜合性能:該算法能在不增加模型復(fù)雜度的前提下,顯著提升校正模型的預(yù)測(cè)精度和穩(wěn)健性。2  原理與算法    近紅外光譜定量分析需借助校正模型。構(gòu)建模型的過(guò)程即是校正,需根據(jù)校正集樣本求回歸系數(shù)b。不同的回歸系數(shù)代表了不同的模型,具有不同的性能。在集成框架下,設(shè)計(jì)一個(gè)算法需考慮3個(gè)基本問(wèn)題19:(1)成員模型類(lèi)型  “成員模型”即用于集成的單個(gè)模型,是與集成模型相比較而命名的。成員模型類(lèi)型由基算法決定(基算法是訓(xùn)練成員模型的算法),所以成員模型也被稱(chēng)為基模型。本研究采用

7、偏最小二乘(PLS)為基算法; (2)生成多個(gè)不同的成員模型  本研究用自助(Bootstrap)重采樣結(jié)合基于互信息計(jì)算的變量篩選方法?;バ畔⑹切畔⒄撝械闹匾拍睿勺鳛閮蓚€(gè)變量間相關(guān)性的量度,或一個(gè)變量包含另一個(gè)變量的信息量的量度。設(shè)有隨機(jī)變量x和y,它們的邊緣概率分布和聯(lián)合概率分布分別為Px(x), Py(x)和Pxy(x,y),這兩個(gè)變量間的互信息定義為:(x,y)=Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可見(jiàn),計(jì)算MI需先估計(jì)概率密度。一般先將x和y的取值范圍細(xì)分為一定數(shù)量的小區(qū)間,并將XY平面劃分為若干個(gè)方塊,再通過(guò)統(tǒng)計(jì)直方圖來(lái)近似概率

8、分布。若x和y分別表示光譜某波長(zhǎng)(波數(shù))處響應(yīng)和濃度,則MI(x,y)表示在獲知樣本在該波長(zhǎng)變量的響應(yīng)后,濃度值的不確定性減少的量。與相關(guān)系數(shù)相比,互信息能兼顧變量間的線性和非線性,而光譜響應(yīng)與物質(zhì)濃度間的非線性是普遍存在的;自助采樣又使變量間的互信息有所變化,這恰是集成建模所需的分散性,因此將互信息用在光譜集成校正中是可行的; (3)多個(gè)成員模型的融合  本研究采用簡(jiǎn)單平均與加權(quán)平均兩種方式。    提出的MISEPLS算法主要包括以下步驟:(1)在訓(xùn)練樣集上采用交叉驗(yàn)證的方式確定出最優(yōu)全譜PLS模型的潛變量數(shù)Lvs(所有成員模型的潛變量數(shù)將設(shè)為這個(gè)數(shù)

9、),并確定集成規(guī)模成員模型數(shù)(M)和候選成員模型總數(shù)。根據(jù)文獻(xiàn)2,集成超過(guò)25個(gè)成員模型并無(wú)必要。因此,本研究固定這兩個(gè)參數(shù)分別為30和100 ,即僅30%候選成員模型用于最后集成。 (2)用自法助對(duì)原訓(xùn)練集重采樣(隨機(jī)有放回采樣),產(chǎn)生一個(gè)同樣大小的當(dāng)前訓(xùn)練集。 (3)在當(dāng)前訓(xùn)練集上,計(jì)算光譜變量和因變量(濃度)的互信息,產(chǎn)生互信息譜,并計(jì)算該譜的平均值(mean)和標(biāo)準(zhǔn)偏差(std.)。然后,定義閾值為:mean+1.5std.(根據(jù)前期實(shí)驗(yàn)研究)。通過(guò)僅保留互信息大于該閾值的變量,原光譜空間被削減為一個(gè)子空間,訓(xùn)練集光譜矩陣變?yōu)橐恍〉淖泳仃嚒?(4)在子空間內(nèi),建立一個(gè)成員PLS模型fm

10、(x),并用其預(yù)測(cè)原始訓(xùn)練集樣本,得RMSEC值;(5)重復(fù)步驟(2)(4),直至候選成員模型數(shù)達(dá)到指定要求(100)。 (6)根據(jù)RMSEC值從小到大對(duì)候選成員PLS模型排序,并保留前30個(gè)PLS模型用于集成。 (7)用兩種方法融合PLS模型為集成模型:(A)簡(jiǎn)單平均融合(SAF); (B)加權(quán)平均融合(WAF)。 對(duì)于后者,還需求加權(quán)系數(shù)m。若用F(x)表示集成模型,則這兩種融合方法可統(tǒng)一表示為:(x)=Mm=1mfm(x)(2)   假設(shè)有N個(gè)訓(xùn)練樣本,并用fm(xi)表示第m個(gè)成員PLS模型對(duì)第i個(gè)樣本的預(yù)測(cè)值, yi 表示濃度的參考值,則通過(guò)求解線性方程

11、組:f1(x1)f2(x1)fM(x1)f1(x2)f2(x2)fM(x2)  f1(x)f2(x)fM(x)·  yy  yN(3)可得加權(quán)系數(shù)m。當(dāng)m=1(m=1,2,M)時(shí),即為簡(jiǎn)單平均??梢?jiàn),簡(jiǎn)單平均是加權(quán)平均的特例。一旦獲得集成模型(系數(shù)向量),通過(guò)光譜與系數(shù)向量間的點(diǎn)積運(yùn)算即可對(duì)未知樣品的濃度進(jìn)行預(yù)測(cè)。兩種融合策略SAF、WAF產(chǎn)生了MISEPLS算法的兩個(gè)版本,分別用MISEPLS1和MISEPLS2表示。此外,基于互信息變量選擇的建立單個(gè)PLS模型的算法用MIPLS表示。3  實(shí)驗(yàn)部分3.1  數(shù)據(jù)集 

12、60;  本研究使用兩個(gè)近紅外光譜定量分析數(shù)據(jù)集:(1)煙草數(shù)據(jù)Cigarette:包含148個(gè)某卷煙廠的煙絲樣本,掃描光譜范圍為8302500 nm(德國(guó)BRUKER公司MarixE儀器),每個(gè)光譜由691個(gè)數(shù)據(jù)點(diǎn)組成。每個(gè)樣品的總糖(TS)和尼古丁(NIC)由連續(xù)流動(dòng)分析儀(荷蘭SKALAR公司San+儀器)給出,以質(zhì)量百分?jǐn)?shù)表示。所有樣本均有TS參考值,僅81個(gè)樣本有NIC參考值。TS濃度范圍為20.93%26.98%,標(biāo)準(zhǔn)偏差為1.46%;NIC濃度范圍為1.59%2.76%,標(biāo)準(zhǔn)偏差為0.30%。對(duì)每一光譜均實(shí)施了變量標(biāo)準(zhǔn)化處理(SNV),以去除微粒尺寸和附加散射等物理效應(yīng)

13、的影響;(2)酒類(lèi)數(shù)據(jù)Wine:該數(shù)據(jù)集來(lái)至文獻(xiàn)2,包含124個(gè)酒類(lèi)樣本,掃描光譜范圍為4004000 cm1,每個(gè)光譜由256個(gè)數(shù)據(jù)點(diǎn)組成,并提供樣本酒精(Alcohol)含量。3.2  樣本分割    為構(gòu)建校正模型并對(duì)其進(jìn)行有效評(píng)價(jià),需實(shí)施訓(xùn)練集和測(cè)試集分割。本研究采用樣本排序與交替重采樣相結(jié)合的方法來(lái)實(shí)現(xiàn)。排序采用Galvo等提出的SPXY算法22。該算法是在樣本距離定義中引入了化學(xué)值(濃度),是對(duì)經(jīng)典KS算法的擴(kuò)展,特別適合于定量任務(wù)。在該分割方案中,先計(jì)算所有樣本間的歐氏(Euclidean)距離,并挑選出相距最遠(yuǎn)的兩個(gè)樣本,再依次挑選出與已挑出樣本具有“最大最小距離”的樣本,直到所有的樣本被挑出。按被挑出的次序,樣本排列成一個(gè)序列;再用間隔采樣,以21的比例產(chǎn)生訓(xùn)練集和測(cè)試集,結(jié)果如表1第3列所示。4  結(jié)果與討論4.1  算法性能比較    采用兩個(gè)基于均方誤差(RMSE)的指標(biāo)評(píng)價(jià)和比較不同算法的性能,對(duì)訓(xùn)練集和測(cè)試集,RMSE分別表示為RMSEC與RMSEP。表1總結(jié)了4種算法所產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論