

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、PAGE PAGE - 14 -基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測pVT數(shù)據(jù),且計算流程復(fù)雜,適用于密度數(shù)據(jù)較為豐富的物質(zhì)。定量結(jié)構(gòu)-性質(zhì)關(guān)系法(QSPR)根據(jù)分子結(jié)構(gòu)-物質(zhì)性質(zhì)之間的構(gòu)效關(guān)系,對物質(zhì)相關(guān)性質(zhì)進行建模和預(yù)測。基團貢獻法是QSPR中最常用的一種方法,包括經(jīng)典的Lydersen法11、Joback法12等。這些方法假設(shè)分子性質(zhì)為各基團貢獻的線性加和,而基團貢獻度在不同分子中保持不變。這種線性加和的方法使用較方便,但沒有考慮不同基團的位置信息,導(dǎo)致該方法不能有效區(qū)分同分異構(gòu)體。盡管后續(xù)的一些方法如Constantinou-Gani法13、Marrero-Pardillo法1
2、4等,通過引入多級基團和鍵貢獻在一定程度上緩解了上述缺陷,但適用范圍依然有限。綜合分析以上方法可知,現(xiàn)有模型無法對常見工質(zhì)進行準確估算,須采用新的思路,以實現(xiàn)對包括同分異構(gòu)體工質(zhì)在內(nèi)的常見工質(zhì)臨界溫度的精準預(yù)測。分子結(jié)構(gòu)描述符如分子指紋(molecularfingerprints,MF)15、拓撲指數(shù)(topologicalindex,TI)16等作為一種將分子結(jié)構(gòu)編碼為結(jié)構(gòu)化數(shù)據(jù)的方法,可以將一種物質(zhì)與其他物質(zhì)進行明確區(qū)分。將分子描述符的概念引入QSPR模型,有望解決工質(zhì)同分異構(gòu)體的區(qū)分問題。在實際使用中,分子描述符通常與機器學(xué)習(xí)方法(machinelearning,ML)相結(jié)合,以構(gòu)建物質(zhì)
3、特性預(yù)測模型17-19。近年來,隨著計算機性能的不斷提高,有學(xué)者將分子描述符和機器學(xué)習(xí)應(yīng)用于工質(zhì)物性20-24的預(yù)測,預(yù)測效果良好。本研究受上述分子描述符工作的啟發(fā),首先以分子指紋表征分子結(jié)構(gòu),并借助機器學(xué)習(xí)算法建立16種臨界溫度的QSPR預(yù)測模型。此外,為了進一步提升本文模型的預(yù)測精度,本研究還將分子指紋與拓撲指數(shù)相結(jié)合,得到新的MF+TI-ML模型(以分子指紋和拓撲指數(shù)表達分子結(jié)構(gòu),結(jié)合機器學(xué)習(xí)算法建立模型),以期取得良好的預(yù)測效果。1方法1.1數(shù)據(jù)庫的搭建本研究中工質(zhì)的臨界溫度實驗數(shù)據(jù)取自物理性質(zhì)設(shè)計研究所(DIPPR801)25及相關(guān)文獻26。根據(jù)實驗數(shù)據(jù)不確定度對其進行篩選后,獲得了
4、155種工質(zhì)的Tc(本文所涉及工質(zhì)的詳細信息,參見文末附錄)。搭建的數(shù)據(jù)庫中,臨界溫度的范圍分布在190.56583.00K。數(shù)據(jù)庫中工質(zhì)可分為五種:烷烴、烯烴、鹵代烷烴、鹵代烯烴、醚類。為提升模型泛化能力,從每種類型工質(zhì)中選取其中70%的數(shù)據(jù)點進入訓(xùn)練集,剩下的30%作為測試集。訓(xùn)練集用于建立工質(zhì)臨界溫度的模型,測試集用于評估模型的預(yù)測性能。1.2分子指紋的生成通過ChemDraw程序獲得工質(zhì)分子的線性輸入規(guī)范(simplifiedmolecularinputlineentrysystem,SMILES),隨后利用在線轉(zhuǎn)換工具ChemDes27將SMILES字符串轉(zhuǎn)換為相同長度的二進制位串(
5、即分子指紋)。為了研究不同長度/類型的指紋對QSPR模型性能的影響,本文選擇了計算四種分子指紋,包括兩種Key型指紋:MACCS(166位)和Pubchem(881位),一種Path型指紋:Extended(1024位)和一種Circular型指紋:Morgan(2048位)。1.3回歸算法的選擇本文使用了四種機器學(xué)習(xí)算法,包括支持向量回歸(supportvectorregression,SVR)、回歸樹(regressiontree,RT)、隨機森林(randomforest,RF)以及多層感知機(multi-layerperceptron,MLP)。支持向量回歸通過核技巧將非線性數(shù)據(jù)映射到
6、高維空間中,將非線性關(guān)系轉(zhuǎn)換為線性的形式,其精度取決于參數(shù)的選擇,例如核函數(shù)、寬度系數(shù)、不敏感損失系數(shù)、懲罰系數(shù)C等28。在本文中,將采用5折交叉驗證和網(wǎng)格搜索確定參數(shù)的最佳組合。決策樹(decisiontree,DT)利用多節(jié)點的樹結(jié)構(gòu)來描述各變量與目標(biāo)之間的非線性關(guān)系,回歸樹是決策樹的回歸版本。由于樹模型具有較高的方差,可能導(dǎo)致結(jié)果不穩(wěn)定,基于樹模型的集成學(xué)習(xí)算法隨機森林相對樹模型有較大的改進29,在物性預(yù)測中應(yīng)用較多。人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)模擬神經(jīng)系統(tǒng)的結(jié)構(gòu),通過不斷調(diào)整神經(jīng)元間的權(quán)重和偏差,使整個網(wǎng)絡(luò)能更好地擬合數(shù)據(jù)30-34。多層感知機
7、(MLP)是一種前饋神經(jīng)網(wǎng)絡(luò),通過相互連接的人工神經(jīng)元和復(fù)雜的拓撲結(jié)構(gòu)來模擬非線性關(guān)系35。本文利用深度學(xué)習(xí)庫Keras搭建了具有雙隱層的MLP,并通過試錯法確定了神經(jīng)元數(shù)、激活函數(shù)、學(xué)習(xí)率的最優(yōu)組合。1.4評估指標(biāo)的選擇本文選用均方根偏差(RMSE)、絕對平均偏差(AAD)、決定系數(shù)(R2)評估模型的預(yù)測性能,相關(guān)定義式如下。AAD=1mi=1m(100yiyiyi)AAD=1mi=1m100yi-yiyi(1)RMSE=i=1m(yiyi)2mRMSE=i=1m(yi-yi)2m(2)R2=1i=1m(yiyi)2i=1m(yiy)2R2=1-i=1m(yi-yi)2i=1m(yi-y)2
8、(3)式中,m表示樣本個數(shù);yiyi和yyi分別表示工質(zhì)i臨界溫度的實驗值和預(yù)測值;yy表示臨界溫度實驗數(shù)據(jù)平均值。將評估指標(biāo)應(yīng)用于測試集時,RMSE、AAD越低,R2越高,模型的表現(xiàn)越好。2實驗結(jié)果與討論2.1模型的建立與評估將四種分子指紋(MACCS、Pubchem、Extended、Morgan)分別用作四種機器學(xué)習(xí)算法(SVR、RT、RF、MLP)的輸入特征,得到16種臨界溫度的QSPR模型。各模型在測試集中的預(yù)測性能(以絕對平均偏差A(yù)AD為評價指標(biāo))如圖1所示。圖1圖1以不同指紋為輸入的各QSPR模型的預(yù)測精度Fig.1PredictionaccuracyofQSPRmodelswi
9、thdifferentfingerprintsasinputs從圖1可以看出,以MACCS指紋為輸入特征的模型預(yù)測性能較差,其中表現(xiàn)最好的MACCS-SVR(以MACCS指紋為輸入,結(jié)合SVR建立的模型)在測試集中的絕對平均偏差(AAD)也僅達到了7.49%。其原因是MACCS指紋長度過短,包含的結(jié)構(gòu)信息有限,導(dǎo)致工質(zhì)某些結(jié)構(gòu)片段并不包含于MACCS指紋中。因此,以短位數(shù)的MACCS為輸入,模型預(yù)測精度并不高。Extended指紋結(jié)合SVR算法建立的模型在測試集的AAD為7.36%。這是因為在ChemDes中,Extended指紋最大路徑長度默認設(shè)置為5(即結(jié)構(gòu)片段包含的最大鍵數(shù)為5),導(dǎo)致許
10、多線性路徑大于5的分子具有相同的Extended指紋。由于缺乏碳鏈長于5的工質(zhì)Tc的實驗數(shù)據(jù),如果提高路徑最大長度,特征維度會急劇增加,從而造成模型過擬合。因此目前來看Path型指紋不是建立工質(zhì)QSPR模型的最優(yōu)選擇。Circular型指紋Morgan作為一種立體型指紋長度最長,包含的結(jié)構(gòu)信息也最多,因此可以有效地表征分子結(jié)構(gòu),進而有效區(qū)分工質(zhì)同分異構(gòu)體。綜合來看,雖然以Morgan指紋為輸入特征的模型預(yù)測性能要比上述兩種類型的指紋好,但仍不理想。其原因可能是位數(shù)過長導(dǎo)致了模型過擬合,因而Morgan指紋也不適用于搭建樣本數(shù)較少的QSPR模型。Pubchem-MLP模型(Pubchem指紋結(jié)合
11、MLP算法建立的模型)在訓(xùn)練集、測試集的AAD分別為1.12%、4.76%。相比其他分子指紋而言,基于Pubchem指紋的QSPR模型預(yù)測表現(xiàn)最好。這說明Pubchem指紋可以合理表征工質(zhì)的結(jié)構(gòu)信息,從而在有限的訓(xùn)練樣本中有效建立分子結(jié)構(gòu)與臨界溫度之間的構(gòu)效關(guān)系,準確預(yù)測工質(zhì)臨界溫度。針對本文所研究的155種工質(zhì),Pubchem-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較如圖2所示。圖2圖2Pubchem-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.2ComparisonbetweenexperimentalandcaculatedvaluesofPubchem-MLPmodel從結(jié)
12、果來看,四種ML算法建立的模型對工質(zhì)臨界溫度的綜合預(yù)測效果排序如下:SVRMLPRFRT。SVR模型預(yù)測精度最高且表現(xiàn)穩(wěn)定?;诩伤惴≧F的模型相比RT,在預(yù)測精度上有了明顯的提高,但和SVR仍有較大差距。2.2模型的優(yōu)化Pubchem指紋可以很好地表達工質(zhì)結(jié)構(gòu)。但由于該類型指紋需要預(yù)先指定子結(jié)構(gòu),可能會造成工質(zhì)中極少數(shù)同分異構(gòu)體(如順反異構(gòu)體)無法區(qū)分的問題。因此本文考慮在分子指紋的基礎(chǔ)上添加拓撲指數(shù),以“分子指紋+拓撲指數(shù)”(MF+TI)作為新型分子結(jié)構(gòu)描述符,采用效果較好的SVR和MLP算法,以期完全解決區(qū)分工質(zhì)中同分異構(gòu)體的問題。拓撲指數(shù)是一種量化分子結(jié)構(gòu)的指標(biāo),通過對表征分子圖的矩
13、陣執(zhí)行數(shù)值運算獲得。這里引入拓撲指數(shù)(moleculartopologicalindex,MTI),在MTI的基礎(chǔ)上添加幾何校正數(shù)(geometricmodification,GM)區(qū)分工質(zhì)中的同分異構(gòu)體,拓撲指數(shù)S的計算公式16如下:DvVw=DvDVDwDvVw=DvDVDw(4)MTI=i=1N(vDvVw)iMTI=i=1NvDvVwi(5)GM=i=1NMGF(DvVw+DTvVw)iGM=i=1NMGFDvVw+DvVwTi(6)S=MTI+GMS=MTI+GM(7)式中,Dv、DV、Dw分別表示工質(zhì)結(jié)構(gòu)的價矩陣、頂點權(quán)重矩陣、鄰接矩陣;N表示分子的原子總數(shù);v表示價向量;MGF是
14、用以區(qū)分異構(gòu)體的對角矩陣。文末附錄給出了拓撲指數(shù)的具體計算流程和案例。采用新型描述符后兩種模型的回歸和預(yù)測性能如圖3、圖4所示。可以看出引入拓撲指數(shù)S后,模型的預(yù)測精度明顯提升。Pubchem+TI-SVR模型(新型描述符輸入SVR算法建立的模型)在測試集的決定系數(shù)R2提高到0.8426,而Pubchem+TI-MLP模型(新型描述符輸入MLP算法建立的模型)在測試集的AAD降低至3.99%,R2提高到0.9143。對比圖2、圖4可以發(fā)現(xiàn),相比Pubchem-MLP模型,Pubchem+TI-MLP模型預(yù)測性能明顯提高。這表明引入拓撲指數(shù)得到的新型描述符可以很好地解決區(qū)分工質(zhì)中同分異構(gòu)體的問題
15、,提升模型的預(yù)測性能。圖3圖3Pubchem+TI-SVR模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.3ComparisonbetweenexperimentalandcaculatedvaluesofPubchem+TI-SVRmodel圖4圖4Pubchem+TI-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.4ComparisonbetweenexperimentalandcaculatedvaluesofPubchem+TI-MLPmodel表1給出了本文搭建的Pubchem+TI-MLP模型在工質(zhì)各數(shù)據(jù)集、各物質(zhì)體系預(yù)測值和實驗值的AAD。從表中可以看出,新提出模型對烷烴類工
16、質(zhì)臨界溫度的回歸和預(yù)測都具有很高的精度,分別達到了0.90%和1.65%。模型對烯烴類工質(zhì)的擬合回歸效果很好,但預(yù)測效果較差。醚類、鹵代烷烴類、鹵代烯烴類工質(zhì)的計算精度相比上述兩類更低。從整個數(shù)據(jù)集來看,五種類型工質(zhì)的絕對平均偏差均低于3%,取得了很好的計算效果。表1本文模型在各數(shù)據(jù)集、各物質(zhì)體系的AADTable1AADforeachdatasetandcategoryofworkingfluids集合AAD/%烷烴類烯烴類鹵代烷烴類鹵代烯烴類醚類訓(xùn)練集0.900.401.961.871.77測試集1.654.374.814.794.75總數(shù)據(jù)集1.141.452.782.852.76圖5給
17、出了155種工質(zhì)的相對偏差(ARD)分布情況,相對偏差的定義如式(8)所示:ARD=yiyiyi100%ARD=yi-yiyi100%(8)其中ARD3%的工質(zhì)有113種,占比72.9%,ARD9%的工質(zhì)僅7種,最大偏差為15.98%。圖5圖5工質(zhì)臨界溫度ARD分布情況Fig.5DistributionofARDforTcofworkingfluids2.3模型的對比將新提出模型的計算結(jié)果與現(xiàn)有其他方法進行對比,用于對比的經(jīng)典方法列在表2中,模型的比較結(jié)果如表3所示。從表3中可以看出,本文模型的計算精度最高,Lydersen法和Joback法次之,C-G法精度最低?;诜悬c實驗值的Joback
18、法計算工質(zhì)Tc精度很高。但必須注意的是,并非所有工質(zhì)都具有準確的沸點數(shù)據(jù)。當(dāng)使用估算的沸點值(TestbTbest)計算時,Joback法的計算效果明顯降低。C-G法不需要使用沸點值,但該方法對工質(zhì)臨界溫度的預(yù)測精度較低。K-R法將臨界溫度與分子量(Mw)、沸點關(guān)聯(lián),并給出了一個簡單的線性方程,估算效果較好。然而,這種關(guān)聯(lián)缺乏理論基礎(chǔ),普適性較差。綜合來看,本文提出的Pubchem+TI-MLP模型基于分子結(jié)構(gòu)計算工質(zhì)的臨界溫度,不僅無須沸點值,還獲得了最高的計算精度。表2現(xiàn)有預(yù)測臨界溫度的方法Table2Existingmethodforestimationofcriticaltempera
19、ture模型表達式Klincewicz等36Tc=50.20.16Mw+1.41TbTc=50.2-0.16Mw+1.41TbLydersen11Tc=Tb0.567+NiTc(NiTc)21Tc=Tb0.567+NiTc-NiTc2-1Joback等12Tc=Tb0.584+0.965NiTc(NiTc)21Tc=Tb0.584+0.965NiTc-NiTc2-1Constantinou等13Tc=181.128ln(NiTc1+WMjTc2)Tc=181.128lnNiTc1+WMjTc2表3提出模型與以往方法計算效果的對比Table3Thecomparisonsbetweenpropos
20、edmodelandpreviousmethods方法AAD/%RMSEErr5%Err10%Lydersen1.168.841161Joback(TexpbTbexp)1.229.111142Joback(TestbTbest)7.6346.636924C-G(1st)5.9939.058423C-G(2nd)5.7338.158121Klincewicz-Reid2.8517.881025本文模型1.127.361190為了進一步驗證本文新提出模型和C-G法在區(qū)分同分異構(gòu)體性能上的差異,表4給出了C-G二級基團貢獻法和本文模型在區(qū)分各類同分異構(gòu)體(包括順反異構(gòu)、位置異構(gòu)和碳架異構(gòu))上的案例
21、,其中T1calTcal1表示本文模型計算值,T2calTcal2表示二級C-G法計算值。表4C-G法和本文模型對同分異構(gòu)體的區(qū)分案例Table4SamplesofisomersforthecomparisonofC-Gmethodandtheproposedmodel異構(gòu)現(xiàn)象工質(zhì)Texp/KT1calTcal1/KT2calTcal2/K順反異構(gòu)體(Z)-1,2-二氯乙烯507.25518.97558.45(E)-1,2-二氯乙烯535.80533.20558.45(Z)-1,2,3,3,3-五氟丙烯379.25376.13435.30(E)-1,2,3,3,3-五氟丙烯386.75376.
22、21435.30(Z)-2-丁烯435.50437.40430.03(E)-2-丁烯428.60426.33430.03位置異構(gòu)體1-氯丙烷503.50502.02504.952-氯丙烷482.40484.07480.821,1,1,2,2,3-六氟丙烷403.35411.48404.061,1,1,2,3,3-六氟丙烷412.45411.01494.521,1,1,3,3,3-六氟丙烷398.10410.77386.51碳架異構(gòu)體2,2,3-三甲基戊烷563.50573.40566.242,2,4-三甲基戊烷543.80545.11545.162,3,3-三甲基戊烷573.50573.06594.422,3,4-三甲基戊烷566.40567.14588.60從表4中可以看出,本文模型對于各類同分異構(gòu)體的臨界溫度都取得了良好的預(yù)測精度。而C-G法對于所有順反異構(gòu)體的臨界溫度預(yù)測結(jié)果完全一致,這表明C-G法無法區(qū)分順反異構(gòu)體。表5給出了本文模型和C-G二級基團貢獻法對155種工質(zhì)中三類同分異構(gòu)體計算結(jié)果的統(tǒng)計結(jié)果。從表5中可以看出,C-G法在碳架異構(gòu)體的計算表現(xiàn)良好,37種碳架異構(gòu)體臨界溫度的AAD為1.87%,但是由于不能辨別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社工服務(wù)項目合同
- 工程承包和項目咨詢合同
- 工業(yè)廠房買賣合同協(xié)議書
- 民間借貸擔(dān)保人合同
- 0 的認識與加減法(教學(xué)設(shè)計)2024-2025學(xué)年一年級上冊數(shù)學(xué)人教版
- 《12 晝與夜》作業(yè)設(shè)計方案-2024-2025學(xué)年二年級上冊科學(xué)教學(xué)設(shè)計 粵教粵科版
- 綏化學(xué)院《外科學(xué)總論》2023-2024學(xué)年第二學(xué)期期末試卷
- 大連海洋大學(xué)《工程力學(xué)及機械設(shè)計基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 銅陵學(xué)院《國際貿(mào)易綜合實訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 寧夏工業(yè)職業(yè)學(xué)院《計算機網(wǎng)絡(luò)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 【女性勞動力就業(yè)歧視問題探究11000字(論文)】
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫含答案
- 小學(xué)二年級語文下冊《古詩二首》課件
- 綠色供應(yīng)鏈管理培訓(xùn)
- 針刺傷的預(yù)防和處理
- 《常見的地貌類型》課件
- 幼兒園小班春季傳染病預(yù)防
- 人教鄂教版小學(xué)科學(xué)六年級下冊全冊教案
- 2024年國家公務(wù)員考試行政職業(yè)能力測驗真題
- 銷售人員工作匯報模板
- 醫(yī)學(xué)檢驗、醫(yī)學(xué)影像檢查結(jié)果互認制度測試題
評論
0/150
提交評論