模型驗證相關(guān)材料_第1頁
模型驗證相關(guān)材料_第2頁
模型驗證相關(guān)材料_第3頁
模型驗證相關(guān)材料_第4頁
模型驗證相關(guān)材料_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

WORD格式可編輯4.6.1模型擬合能評價模型擬合能評價主要用于表明模型解釋訓(xùn)練集變化的能。本文主要采用以下幾個統(tǒng)計評價指標(biāo)對模型擬合能專評價:1)相關(guān)系4(R)相關(guān)系數(shù)表示預(yù)測值與目標(biāo)值之間線性關(guān)系的密程, 其取值范圍在0到1之間。其值越接近于1,表示線性關(guān)系越強(qiáng);越接近于0表示線性關(guān)系越差。2)決定系數(shù)^2)決定系數(shù)又稱為復(fù)相關(guān)系數(shù),它是判定線性回歸擬臺優(yōu)的重要指標(biāo),其定義為ExplainedVariation_£(y.一y)2TotalVariation £(yExplainedVariation_£(y.一y)2TotalVariation £(y-y)2i= i-1 £(Y-Y)2ii=1(4-1)從上面的公式可以看出,決定系數(shù)等于回歸平方和在總平方和中所占的比,因此它體現(xiàn)回歸模型所能解釋的應(yīng)變變異的百分比。如, R2=0.825說明應(yīng)變的變異82.5%是由自變引起的;R2=1則表明所有的觀測點在回歸方程」;R2=0則說明自變與應(yīng)變間存在線性關(guān)系。3)均方根誤差(RMSE)、平均絕對誤差(AAE)、平均相對誤差(APE)和標(biāo)準(zhǔn)誤差(SE)均方根誤差表示隨機(jī)誤差的分散程,其定義為1(y-y)2i,pred i,obsRMS=?4=1 專業(yè)知識分享

WORD格式可編輯(4-2)平均絕對誤差表示擬合值與目標(biāo)值之差,其定義為f、, ,Vi,pred i,obsAAE二 n(4-3)平均相對誤差的定義為2nXpred-'obs,JAPE=-i^1 i*obs n(4-4)標(biāo)準(zhǔn)誤差布擬合值的標(biāo)準(zhǔn)誤差,其定義為SE=\:2(J-J)2SE=\:pred i,obsi=1 n一1(4-5)上述各式中,n為實驗《樣本數(shù),y.d和y 分別為樣本預(yù)測值及目標(biāo)值。這些參數(shù)是衡模型確的一些常用參數(shù), 它們依賴于應(yīng)變數(shù)據(jù)的范圍和分布,并受“離域點的影響[133]。4)F檢驗F檢驗是一種檢驗自變和應(yīng)變之間的線性關(guān)系是否顯著的方法,適用于基于]^上法建的模型[133]。它將回歸離差平方和與剩余離差平方和進(jìn)比較,分析二者之間的差別是否顯著如果是顯著的,說明兩個變之間存在線性關(guān)系,如果顯著,則說明兩個變之間存在線性關(guān)系。上述評價指標(biāo)能夠?qū)δP偷臄M合能進(jìn)較好的評價。 然而,對于QSPR研究專業(yè)知識分享

WORD格式可編輯中經(jīng)常出現(xiàn)的兩類問題——“欠擬合和''過擬合問題,它們對無法進(jìn)有效的鑒別。所謂“欠擬合,是指模型沒有充分揭示出樣本集所包含的變信息,從而導(dǎo)致模型的預(yù)測能低, 這類問題常出現(xiàn)于采用線性建模方法所得到的模型;所謂“過擬合則是由于擬合誤差信息描述符結(jié)合的變化性,這類問題常出現(xiàn)于由于這兩類問題與模型的穩(wěn)定性緊密相連需要通過模型的穩(wěn)定性分析加以解決。4.6.2型;所謂“過擬合則是由于擬合誤差信息描述符結(jié)合的變化性,這類問題常出現(xiàn)于由于這兩類問題與模型的穩(wěn)定性緊密相連需要通過模型的穩(wěn)定性分析加以解決。4.6.2棹型穩(wěn)定性分析,導(dǎo)致模型擬合高于性質(zhì)數(shù)據(jù)和采用非線性建模方法所得到的模型[134]。[133,135],因此對于此類問題的鑒別,常所謂模型穩(wěn)定性分析實際上是對模型的“穩(wěn)定性進(jìn)分析。模型“穩(wěn)定性的含義是模型受訓(xùn)練集中某些個別化合物或化合物子集的影響比較大,如果化合物的預(yù)測值超出模型的直信區(qū)間,就會導(dǎo)致模型穩(wěn)定[133]。目前文獻(xiàn)上直接對模型的穩(wěn)定性進(jìn)定分析的研究較少。 對模型穩(wěn)定性的研究常用的方法是通過內(nèi)部驗證的方式進(jìn)。因為任何內(nèi)部驗證技術(shù)能在一定程上評價模型的穩(wěn)定性。因此,本文采用以下幾種內(nèi)部驗證技術(shù)對模型穩(wěn)定性進(jìn)研究:“多法交互驗證[136]“多法(Leave-many-out,LMO)交互驗證是一種較為常用的內(nèi)部驗證技術(shù)。該方法將初始訓(xùn)練集中的n個樣本平均劃分為大小為m的G(=n/m)個子集,然后每次去除m個數(shù)據(jù)點,采用剩下的n-m個樣本作為訓(xùn)練集重新建模并驗證由m個樣本構(gòu)成的驗證集。經(jīng)G次計算,得到交互驗證系數(shù)Q2來表征模型的穩(wěn)定性和內(nèi)部預(yù)測能[%。一般認(rèn)為,如果Q2大于0.5,則模型比較穩(wěn)定;如果大于0.9,則專業(yè)知識分享

WORD格式可編輯模型的穩(wěn)定性非常優(yōu)秀[137]。Q2的計算公式如下:training 八、乙(y—y)2iiCV=1 1 CVtraining_乙(y—y)2i=1(4-6)其中,y,y和y分別代表訓(xùn)練樣本的自燃點實驗值、預(yù)測值及實驗值平均1i位?!耙环ń换ヲ炞C[136]“一法(Leave-one-out,LOO)交互驗證是一種特法的“多法交互驗證方法,其具體過程與“多法相似,區(qū)別僅在于m=1。由于“一法用全部的樣本數(shù)據(jù), 因而也是一種最經(jīng)濟(jì)的方法。盡管有研究者指出,“一法交互驗證所得結(jié)果常會過高的估計模型的預(yù)測能[138],但它在QSPR建模過程中仍是必可少的,尤其是對于小樣本的研究體系。Y-隨機(jī)性檢驗[136]Y-隨機(jī)性檢如是一種廣泛用于表征模型穩(wěn)定性的統(tǒng)計方法。它將原樣本集因變Y隨機(jī)打亂,與原有自變組合成新的樣本集,建模型。重復(fù)上述過程50?100次,將結(jié)果與原樣本集結(jié)果對比,原樣本集預(yù)測模型性能參數(shù)明顯優(yōu)于新樣本集的性能參數(shù),則認(rèn)為原樣本數(shù)據(jù)中存在真正的QSPR關(guān)系,所建模型穩(wěn)定性較好,存在“偶然相關(guān)現(xiàn)象;反之,則表明原所建模型能被接受。殘差圖分析法殘差圖分析法指在直角坐標(biāo)系中以預(yù)測值為橫軸,以殘差為縱軸繪制殘差的散點圖。如果散點呈現(xiàn)明顯的規(guī)性, 則認(rèn)為所建模型存在自相關(guān)性或者存在非線性、非常數(shù)方差的問題;如果散點呈現(xiàn)隨機(jī)分布,則認(rèn)為所建模型是合適的,專業(yè)知識分享WORD格式可編輯在建過程中大產(chǎn)生系統(tǒng)誤差。內(nèi)部驗證在QSPR建模過程中是必可少的一步,但是內(nèi)部驗證結(jié)果好只能說明模型穩(wěn)定性較高或具有較強(qiáng)的內(nèi)部預(yù)測能,并能保證模型對外部樣本的真實的預(yù)測能也好。因此,還必須對模型的外部預(yù)測能即外推性進(jìn)評價。4.6.3棹型預(yù)測£”求價QSPR模型的預(yù)測能以模型的擬合優(yōu)、 穩(wěn)定性為基礎(chǔ)。評價模型預(yù)測能最有效的方法是進(jìn)外部驗證,即采用未參與建模的獨的樣本集作為驗證集,以評價模型對未知化合物的預(yù)測能。 其具體方式如下:將原始樣本集按照一定的比隨機(jī)劃分為訓(xùn)練集和測試集兩個子集,其中訓(xùn)練集用于變選擇和建模,測試集則用于對模型的外部驗證[136]。外部驗證的結(jié)果既能夠體現(xiàn)所建模型的泛化能,又能夠反映模型對未參與建模的外部樣本的真實預(yù)測能。對于樣本劃分時訓(xùn)練集和測試集中樣本的比,目前還沒有明確的定論,大多數(shù)研究中測試集的樣本個數(shù)遠(yuǎn)遠(yuǎn)小于訓(xùn)練集的樣本個數(shù)。6^1^^。@[138]最近的研究指出r寸某一QSPR模型預(yù)測能的驗證能僅僅通過少化合物(W5個)進(jìn),市必須建在足夠大的外部測試集的基礎(chǔ)之上( 三樣本集的20%),以避免''偶然相關(guān)現(xiàn)象的發(fā)生。因此,本文在各燃煤特性的預(yù)測研究中均隨機(jī)選擇樣本集中20%的樣本作為測試集,其余80%樣本作為訓(xùn)練集,以保證模型驗證的有效性。模型的外部預(yù)測能可以用測試集樣本預(yù)測值與目標(biāo)值之間的交互驗證系數(shù)Q2,來衡:ext/專業(yè)知識分享WORD格式可編輯prediction人乙(y—y)2iiQ2 =1一i=1ext prediction _乙(y一y)2itri=1(4-7)其中,y和y分別表示測試樣本燃煤特性的實驗值和預(yù)測值,y表示訓(xùn)練

ii tr樣本燃煤特性實驗值的平均值。此外,前面評價模型擬合能所用的統(tǒng)計評價指標(biāo),如 R2,RMSE,AAE,APE和SE等,均同樣可以用來對模型的預(yù)測能進(jìn)衡。一軌來說,針對測試集的指標(biāo)要比訓(xùn)練集的差一些,但如果前者遠(yuǎn)遠(yuǎn)差于后者,那么模型很有可能發(fā)生“過擬合。此外,Q2ext與測試集的擬合系數(shù)R2之間沒有相關(guān)性,較高的Q2ext值僅僅是模型具有較高預(yù)測能的必要條件,而非充分條件[139,140]。專業(yè)知識分享WORD格式可編輯5.3結(jié)果與討論模型1結(jié)臬針對訓(xùn)練集樣本,采用GA-MLR方法在廣泛的分子描述符空間進(jìn)行搜索,通過比較所得各模型適應(yīng)度函數(shù)的大小,確定了本研究中與有機(jī)物閃點最為密切相關(guān)的5個分子描述符,其類型與定義列尸表5-1;最佳描述符所對應(yīng)的最優(yōu)MLR模型見下式:FP=81.321-28.669*CIC0+80.491*RDCHI+54.497*ESpm02d+34,098*nHDon-5,651*nCOOR(5-1)回歸范圍:169.15KWFPW716KR2=0.967,Q2loo=0.967,SE=12.59,F(xiàn)=4832.180,n=824式中,F(xiàn)P為閃點,R2為復(fù)相關(guān)系數(shù),Q2loou“留一法”交互驗證的復(fù)相關(guān)系數(shù),SE為模型標(biāo)準(zhǔn)誤差,F(xiàn)%F檢驗值,n為模型中樣本數(shù)。模型的其它統(tǒng)計學(xué)參數(shù)見表5-1。表5-1模型I所選擇的分子描述符及其統(tǒng)計學(xué)參數(shù)Table5-1DescriptorsselectedformodelIandtheirstatisticsparameters系數(shù)平均描述符類型定義系數(shù)標(biāo)準(zhǔn)誤差t-值影響值常數(shù)81.321CIC0拓?fù)涿枋龇a(bǔ)充信息量(0階鄰域?qū)ΨQ性)-28.6690.881-32.536-95.760RDCHI拓?fù)涿枋龇淳嚯xRandic類型指數(shù)80.4911.48954.068175.897ESpm02d邊緣鄰接指數(shù)邊緣鄰接矩陣中的02譜矩(按偶極能加權(quán))54.4971.34040.680175.243nHDon官能團(tuán)與N原子和O原子相連的H原子數(shù)34.0980.61355.65012.952nCOOR官能團(tuán)脂肪酯數(shù)目-5.6511.1255.021-0.679在模型I所選擇的5個分子描述符中,CIC0和RDCHI均為拓?fù)涿枋龇煞肿訉I(yè)知識分享WORD格式可編輯圖論獲得。其中,CIC0主要衡分子中元素的差異程;而RDCHI主要表征分子的大小和形狀。ESpm02d%邊緣鄰接指數(shù),它主要表征分子中鍵的數(shù)目和強(qiáng)。nHDon和nCOOR均為官能團(tuán)描述符。其中,nHDon表示分子中與所有的O原子和N原子相連的H原子的總和,它與分子中氫鍵形成的可能性密相關(guān);而nCOOR表示分子中脂肪酯的數(shù)目,它能夠?qū)ο鄳?yīng)化合物的結(jié)構(gòu)特征進(jìn)好的表征[67]隨后,應(yīng)用模型1(式5-1)對訓(xùn)練集中824個樣本的閃點進(jìn)校泡,以評價模型的擬合能;同時,對測試集中 206個樣本的閃點進(jìn)預(yù)測,以驗證模型的外部預(yù)測能。經(jīng)過計算,所得閃點校準(zhǔn)值與預(yù)測值見附表1,模型I的主要性能參數(shù)見表5-2,模型校準(zhǔn)值和預(yù)測值與實驗值的比較見圖5-1。表5-2模型I,II,III的主要性能參數(shù)Table5-2Themainstatisticalparametersoftheobtainedmodels(I,II,III)性能參數(shù)訓(xùn)練集模型I測試集樣本集訓(xùn)練集模型II測試集樣本集訓(xùn)練集模型III測試集樣本集R20.9670.9700.9680.9750.9730.9750.9750.9740.976Q2LOO0.9670.9730.974Q2弋ext0.9700.9720.973AAE10.229.6710.118.658.958.718.628.938.68RMSE12.5812.2312.5110.9311.6411.0710.8911.4311.00n824206103082420610308242061030圖5-1模型I所得閃點預(yù)測值(校準(zhǔn)值)與實蹌值的比較Fig.5-1Correlationbetweenthepredicted(calibrated)andexperimentalFPvalues

formodelI專業(yè)知識分享WORD格式可編輯從表5-2可以看出,模型I對測試集樣本的預(yù)測平均絕對誤差為9.67K,在±10K[145,146]的閃點實驗誤差允許范圍之內(nèi),過說明模型I具有較強(qiáng)的預(yù)測能。同時,通過比較訓(xùn)練集和測試集的預(yù)測結(jié)果發(fā)現(xiàn),兩個子集的預(yù)測誤差(AAE和RMSE)但較低,而且均比較接近。這說明模型I但具備較強(qiáng)的預(yù)測能,而且具有較強(qiáng)的泛化性能[138]。隨后,對樣本集中所有1030個化合物的預(yù)測相對誤差進(jìn)計算。通過計算,得到模型I的預(yù)測平均相對誤差為2.90%,最大相對誤差為10.6%。具體計算結(jié)果見圖5-2。從圖中可以看出,共有859個化合物的預(yù)測相對誤差小于5%,超出模型中所有樣本數(shù)的80%。數(shù)個物合化間區(qū)各數(shù)個物合化間區(qū)各圖5-2模型I所得預(yù)測相對誤差及各誤差范圍中的化合物個數(shù)Fig.5-2ThepercenterrorsobtainedbymodelIandthenumberofcompoundsineach

range然而,從圖5-1和圖5-2中也可以看出,個別化合物的預(yù)測誤差較大,如1,4-Benzenedicarboxylicacid,bis(2,3-Dihydroxypropyl)ester和Diisodecylphthalate,其預(yù)測誤差均大于40K,過說明模型中可能有“異常值存在,這些“異常值對整個模型的預(yù)測性能產(chǎn)生一定的影響。因此,本文對模型中可能存在的“異常值進(jìn)研究,以預(yù)測絕對誤差大于模型標(biāo)準(zhǔn)誤差 SE專業(yè)知識分享

WORD格式可編輯的3倍為標(biāo)準(zhǔn),對模型I中可能存在的“異常值進(jìn)篩選,篩選結(jié)果于表5-3。表5-3各模型中的“異常值及其閃點實驗值與預(yù)測值Table5-3Theoutliersineachmodelandtheirexperimentalandpredictedflashpoints化合物閃點實驗值(K)閃點預(yù)測值(K)模型I模型II模型III1,4-Benzenedicarboxylicacid,bis(2,3-dihydroxypropyl)estera575616.90583.65584.22Diisodecylphthalatea505.37546.48520.56523.78Hexamethylphosphoramide…378.71339.35335.83331.95Diisononylphthalatea489529.14511.77509.44Diethylphthalateb390.15418.39425.42411.79l-Glutamicacidb'c478505.20512.45520.46Sebacicacidb496469.77461.45466.472'6-Toluenediisocyanateb388415.75424.65417.39Isophoronediisocyanateb383.15413.21421.13397.80Tartaricacidb483.15502.87516.67512.96gamma-Valerolactonec354327.30324.26320.39a模型I中的“異常值;b模型II中的“異常?但;c模型III中的“異常值關(guān)于''異常值產(chǎn)生的原因,可能主要有兩個方面:一是其閃點實驗數(shù)據(jù)本身存在問題;二是其與閃點密相關(guān)的部分結(jié)構(gòu)特征沒有得到很好的表征。具體原因?qū)⒃谙挛闹欣^續(xù)予以討論。專業(yè)知識分享WORD格式可編輯模型U結(jié)果模型n是以模型I所選擇的分子描述符作為輸入變,以相應(yīng)的閃點作為輸出交,應(yīng)用非線性的支持向機(jī)方法所建的混合性 QSPR模型。為與模型I具有可比性,模型n中選取的訓(xùn)練集和測試集與模型I完全相同。模擬開始前首先對所有樣本數(shù)據(jù)進(jìn)“歸一化處,確保所有數(shù)據(jù)點均在[-1-1]范圍之內(nèi);隨后針對訓(xùn)練集樣本,采用基于“1/5法交互驗證的格點搜方法確定SVM模型的最優(yōu)參數(shù)如下:C=512,£=0.03125,Y=0.125,相應(yīng)的支持向數(shù)為348;然后以上述參數(shù)作為SVM的輸入?yún)?shù)法相應(yīng)的QSPR預(yù)測模型,即溶型n。模型建以后,應(yīng)用該模型分別對訓(xùn)練集和預(yù)測集樣本的閃點進(jìn)預(yù)測,所得1030個樣本的預(yù)測值見附表1,模型n的主要性能參數(shù)見表5-2,模型預(yù)測值與實驗值的比較見圖5-3。從表5-2可以看出,模型n對測試集樣本的預(yù)測平均絕對誤差為8.95K,在閃點實驗誤差允許范圍(±10K)之內(nèi),說明模型n同樣具有較強(qiáng)的預(yù)測能。同時,對訓(xùn)練集和測試集的預(yù)測結(jié)臬進(jìn)比較,發(fā)現(xiàn)兩個子集的預(yù)測誤差但較低,而且比較接近,說明模型n同時具備較強(qiáng)的預(yù)測能和泛化性能。圖5-3圖5-3模型n所得閃點預(yù)測值與實蹌值的比較k值測預(yù)點閃n型模專業(yè)知識分享WORD格式可編輯Fig.5-3CorrelationbetweenthepredictedandexperimentalFPvaluesformodelII通常,由于SVM方法具有強(qiáng)大的數(shù)據(jù)擬合能力,在輸入變量相同的情況下,模型I的預(yù)測性能一般要優(yōu)于模型I。通過對兩個模型進(jìn)行比較,發(fā)現(xiàn)模型1相對于訓(xùn)練集和測試集的預(yù)測誤差RMSE分別比模型I下降了13.1%和4.8%。隨后,對樣本集中所有1030個化合物的預(yù)測相對誤差進(jìn)行計算,得到模型I的預(yù)測平均相對誤差為2.52%,最大相對誤差為23.29%。具體計算結(jié)果見圖5-4。從圖中可以看出,共有909個化合物的預(yù)測相對誤差小于5%,接近模型中所有樣人數(shù)的90%。說明與模型1相比,模型I中具有較大預(yù)測誤差的樣本數(shù)明顯減少。數(shù)個物合化間區(qū)各數(shù)個物合化間區(qū)各誤差區(qū)間圖5-4模型I所得預(yù)測相對誤差及各誤差范圍中的化合物個數(shù)Fig.5-4ThepercenterrorsobtainedbymodelIandthenumberofcompoundsineachrange同樣,從圖5-3和圖5-4中也可以看出,模型I中可能有“異常值”存在。本文以模型標(biāo)準(zhǔn)誤差SE的3倍為標(biāo)準(zhǔn),對模型I中可能存在的“異常值”進(jìn)行篩選,篩選結(jié)果列尸表5-3。模型iii轉(zhuǎn)臬為了進(jìn)一步對閃點與其分子結(jié)構(gòu)間可能存在的非線性關(guān)系進(jìn)行研究,本文采用新建立的GA-SVMT)法建立相應(yīng)的最優(yōu)純非線性模型。模型II中通過搜索所獲得專業(yè)知識分享WORD格式可編輯的SVM最優(yōu)參數(shù)在GA-SVM參數(shù)設(shè)置中被保。同時,為與前面兩個模型具有可比性,在進(jìn)GA-SVM篩選時,模型III中所選取的分子描述符個數(shù)以大于 5個為標(biāo)準(zhǔn)。隨后,針對同樣的訓(xùn)練集樣本,采用GA-SVM方法在廣泛的分子描述符空間進(jìn)搜,當(dāng)算法滿足終止條件以后,得到與有機(jī)物閃點非線性關(guān)系最為密的5個結(jié)構(gòu)描述符,其類型與定義于表5-4。在這5個分子描述符之中,有3個描述符(RDCHI,ESpm02d,nHDon)同樣出現(xiàn)在模型I之中,其所表征的分子結(jié)構(gòu)特征見模型I°SIC0為撲指數(shù),主要衡分子中元素的差異和分子形狀;RCON為GETAWAY描述符,與分子的3D結(jié)構(gòu)有關(guān),主要表征分子的大小、構(gòu)象變化以及周期性。表5-4模型III所選擇的分子描述符Table5-4DescriptorsselectedformodelIII描述符類型定義RDCHI撲描述符反距離Randic類型指數(shù)SIC0撲描述符結(jié)構(gòu)信息(0階鄰域?qū)ΨQ性)ESpm02d邊緣鄰接指數(shù)邊緣鄰接矩陣中的02譜矩(按偶極能加權(quán))RCONGETAWAY描述符Randic類型R矩陣連接性nHDon官能團(tuán)與N原子和O原子相連的H原子數(shù)隨后,應(yīng)用所選擇的這5個結(jié)構(gòu)參數(shù)法相應(yīng)的SVM模型,模型的輸入?yún)?shù)通過“1/5法交互驗證確定如下:C=32,£=0.03125,Y=0.25,相應(yīng)的支持向數(shù)為333。模型建以后,應(yīng)用該模型分別對訓(xùn)練集和測試集樣本的閃點進(jìn)預(yù)測,所得1030個樣本的預(yù)測值見附表1,模型III的主要性能參數(shù)見表5-2,模型預(yù)測值與實驗值的比較凡圖5-5。專業(yè)知識分享WORD格式可編輯kk值測預(yù)點閃楠土模圖5-5模型III所得閃點預(yù)測值與實驗值的比較Fig.5-5CorrelationbetweenthepredictedandexperimentalFPvaluesformodelIII從表5-2可以看出,模型III對測試集樣本的預(yù)測平均絕對誤差為8.93K,在閃點實驗誤差允許范圍(±10K)之內(nèi),這說明模型III同樣具有較強(qiáng)的預(yù)測能力。同時,通過對模型III訓(xùn)練集和測試集的預(yù)測結(jié)果進(jìn)行比較發(fā)現(xiàn),兩個子集的預(yù)測誤差不但較低,而且比較接近,說明模型III同樣具備較強(qiáng)的泛化性能。同時,對模型III和模型I的預(yù)測性能進(jìn)行比較,發(fā)現(xiàn)模型【【【相對于訓(xùn)練集和測試集的預(yù)測誤差RMSE分別比模型I下降了13.4%和6.5%。與模型0相比,模型III的預(yù)測性能得到進(jìn)一步提升。隨后對樣本集中所有1030個化合物的預(yù)測相對誤差進(jìn)行計算,得到模型III的預(yù)測平均相對誤差為2.50%,最大相對誤差為12.35%。具體計算結(jié)果見圖5-6。從圖中可以看出,共有929個化合物的預(yù)測相對誤差小于5%,接近于模型中所有樣本數(shù)的90%。同樣,模型III中具有較大預(yù)測誤差的樣本數(shù)比模型I明顯減少。專業(yè)知識分享WORD格式可編輯數(shù)個物合化間區(qū)各數(shù)個物合化間區(qū)各誤差區(qū)間圖5-6模型III所得預(yù)測相對誤差及各誤差范圍中的化合物個數(shù)Fig.5-6ThepercenterrorsobtainedbymodelIIIandthenumberofcompoundsineachrange關(guān)于模型III中存在的“異常值,以同樣的標(biāo)準(zhǔn)進(jìn)篩選,篩選結(jié)果于表5-3。從表5-3可以看出,Hexamethylphosphoramide在3個模型中均作為“異常值出現(xiàn),即無論是在線性模型、混合模型還是非線性模型之中,該物質(zhì)均被認(rèn)為是“異常值。結(jié)合前文關(guān)于“異常值產(chǎn)生原因的討論,可以推斷該物質(zhì)成為模型“異常值的主要原因是其閃點實驗數(shù)據(jù)本身存在問題。關(guān)于模型中出現(xiàn)的其它“異常值,由于 3個模型中至少有一個模型能夠?qū)ζ溥M(jìn)較好的預(yù)測, 因此可以推斷這些物質(zhì)在某些模型中成為“異常值的主要原因,可能是由于其與閃點密相關(guān)的有關(guān)分子結(jié)構(gòu)特征在相應(yīng)模型中沒有得到很好的表征。模型穩(wěn)定性分析為進(jìn)一步對所建模型的穩(wěn)定性進(jìn)分析, 排除建模過程中“偶然相關(guān)現(xiàn)象的發(fā)生,本文采用“Y-隨機(jī)性檢驗方法分別對三個模型進(jìn)驗證。“Y-隨機(jī)性檢驗是一種評估QSPR模型對“偶然相關(guān)現(xiàn)象依賴程的方法。該方法首先將訓(xùn)練集樣本中的自變x保持交,將對應(yīng)的應(yīng)變y順序隨機(jī)打亂,使應(yīng)變專業(yè)知識分享

WORD格式可編輯和自變量不再 對應(yīng),從而消除兩者之間可能存在的內(nèi)在相關(guān)性;隨后,針對上述改變序列的新樣本集建立新的QSPR模型,并計算其相關(guān)性能參數(shù)如此等;將上述過程重復(fù)運行50?100次,獲得某一相對“最優(yōu)”的預(yù)測模型,將其與基于原始樣本建立的實際預(yù)測模型進(jìn)行比較,若實際預(yù)測模型的性能參數(shù)明顯優(yōu)于相對“最優(yōu)”模型,則認(rèn)為原始樣本數(shù)據(jù)中存在真正的QSPR關(guān)系,所建立的模型穩(wěn)定性較好,不存在“偶然相關(guān)”現(xiàn)象;反之,則表明原所建模型不能被接受。本文將“Y-隨機(jī)性檢驗”方法針對三個模型分別運行50次。對于模型1所得最大R2為0.020,模型n最大R2為0.022,模型III最大R2為0,025,三者均分別不足原始模型R2的1/10。由此可見,只有在使用正確的應(yīng)變量數(shù)據(jù)時樣本數(shù)據(jù)才能產(chǎn)生合理的QSPR模型。因而本文所建立的預(yù)測模型不存在“偶然相關(guān)"現(xiàn)象,具備較強(qiáng)的穩(wěn)定性。隨后,本文還對模型的預(yù)測殘差進(jìn)行分析,討論模型在建立過程中是否有系統(tǒng)誤差產(chǎn)生。三個模型的預(yù)測殘差圖分別見圖5-7,5-8及5-9。由圖可以看出,三個預(yù)測模型的計算殘差均隨機(jī)分布于基準(zhǔn)線的兩側(cè),不存在明顯的機(jī)隹性。由此可以推斷,三個預(yù)測模型在建立過程中入產(chǎn)生系統(tǒng)誤差。50403020100-10-20-30-40100 200 300 400 500 600 700-50100 200 300 400 500 600 700閃點實驗僮K)圖5-7模型I閃點預(yù)測殘差圖Fig.5-7PlotoftheresidualsversustheexperimentalFPvaluesformodell專業(yè)知識分享WORD格式可編輯II型模1差殘)型模(II型模1差殘)型模(差殘50:40:30:20:10:-10:-20:-30:-40-50-100 200 300 400 500 600 700閃點實驗值(K)504030201001020304050100 200 300 400 500 600 700閃點實驗值(K)圖5-8模型nF點預(yù)測殘差圖Fig.5-8PlotoftheresidualsversustheexperimentalFPvaluesformodeln圖5-9模型III閃點預(yù)測殘差圖Fig.5-9PlotoftheresidualsversustheexperimentalFPvaluesformodelIII專業(yè)知識分享WORD格式可編輯5.3.6模型的比較三個模型的比較從表5-2結(jié)果可以看出,在本文所建的3個閃點預(yù)測模型中,模型III的性能最為優(yōu)越,同時具有最佳的數(shù)據(jù)擬合能和最優(yōu)的外部預(yù)測能。此外,通過模型穩(wěn)定性分析可以看出,模型III還具有最優(yōu)的穩(wěn)定性和可靠性。由此可見,與線性模型I和混合模型II相比,共線性模型III在模型穩(wěn)健性和預(yù)測能等方面具有明顯的優(yōu)越性。這一結(jié)果也表明,本文所建的GA-SVM組合算法是一種高效的QSPR算法,比傳統(tǒng)的GA-MLR算法和混合建模方法適合于對有機(jī)物閃點的QSPR預(yù)測研究。從表5-2也可以看出,與線性模型I相比,混合模型II的各項性能均較優(yōu)。由于兩模型所使用的分子描述符相同性能上的差異主要是由于前者使用線性方法MLR建模,而后者使用非線性方法SVM建模所致。由此可見,與傳統(tǒng)線性方法相比,SVM方法具有強(qiáng)的預(yù)測能和泛化性能,特別適用于這種非線性的QSPR研究體系。同樣,與混合模型0相比,共線性模型III的各項性能均較優(yōu)。由于兩模型均采用SVM方法進(jìn)建模,性能上的差異主要是由于兩模型所使用的分子描述符同所致:前者使用線性交選擇方法GA-MLR篩選出的結(jié)構(gòu)參數(shù)作為分子描述符,而后者使用非線性變選擇方法GA-SVM篩選出的結(jié)構(gòu)參數(shù)作為分子描述符。這一結(jié)果表明,通過線性變選擇方法篩選出的最佳描述符一定是非線性擬合的最佳選擇,有機(jī)物閃點與其分子結(jié)構(gòu)間的非線性關(guān)系只有采用通過非線性方法篩選出的描述符才能進(jìn)為有效的表征。專業(yè)知識分享WORD格式可編輯然而,需要注意的是,盡管與混合模型II和非線性模型111相比,線性模型I的各項性能相對較差,但是,無論是混合模型II還是非線性模型III均使用非第性的SVMT)^建模,市SVMT)法建的是一種“黑箱模型,能給出直觀的數(shù)學(xué)表達(dá)式,因而就無法根據(jù)模型直接準(zhǔn)確地解和掌握各分子描述符對閃點的影響程和機(jī),也就無法有效地對模型機(jī)作出解釋,而這些正是MLR模型的優(yōu)勢。此外,與模型II、0相比,線性模型I還具有建模簡單、使用簡等優(yōu)點。因此,這三種模型各有弊,并存在一定的互補(bǔ)性,在實際應(yīng)用過程中,可根據(jù)實際需要加以選擇。與已有模型的人較為進(jìn)一步對本文所建模型的可靠性和優(yōu)越性進(jìn)驗證,將其與文獻(xiàn)上已有的閃點預(yù)測模型進(jìn)全面的比較。首先,將本文模型的預(yù)測性能與已有模型進(jìn)比較,結(jié)果于表5-7。從表5-7可以看出,本文采用GA-SVM算法建的非線性模型III具有較強(qiáng)的預(yù)測性能,在所有已有的閃點預(yù)測模型中僅次于文獻(xiàn)[50]所建的基團(tuán)貢獻(xiàn)模型(以平均絕對誤差A(yù)AE為標(biāo)準(zhǔn))。這說明模型III對有機(jī)物閃點與其分子結(jié)構(gòu)存在的非第性關(guān)系進(jìn)較好的表征,同時再次表明本文所建的GA-SVM組合算法是一種高效的QSPR算法,比傳統(tǒng)的GA-MLR算法和混合建模方法適用于有機(jī)物閃點的QSPR預(yù)測研究。表5-7大文模型與已有模型預(yù)測性能的比較Table5-7Performancecomparisonsbetweenthepresentedmodelsandpreviousmodels模型R2AAERMSEnSuzuki等[36]0.935110.313.52400Tetteh等[37]0.932610.213.1400Katritzky等[54]0.90216.1271Zhokhova等畫0.95914.6398專業(yè)知識分享WORD格式可編輯Katritzky等[55]0.87813.9758Gharagheizi和Alamdari[56]0.966910.212.71030Gharagheizi等[39]0.97578.10111.2061378Pan等[50]0.9746.89411.3671282人文模型I0.96810.1112.511030人文模型II0.9758.7111.071030人文模型III0.9768.6811.001030然而,必須指出的是,上述各預(yù)測模型均建在同的樣本集基礎(chǔ)之上,因市預(yù)測結(jié)果間存在一致性;同時,各模型的建使用同的研究方法,因而每個模型均有其自身的優(yōu)缺點。因此,僅僅對模型的預(yù)測性能進(jìn)比較是合的,必須從模型其它的一些重要特征,如模型應(yīng)用效、應(yīng)用范圍、可解釋性等方面著手對各預(yù)測模型進(jìn)為全面的比較分析。 本研究以文獻(xiàn)[56]和文獻(xiàn)[50]所建模型為,將本文模型與其進(jìn)較為全面的比較。文獻(xiàn)[56

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論