基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測

上傳人：笑*** IP屬地：廣東上傳時間：2022-09-15 格式：DOCX 頁數(shù)：14 大?。?2.24KB 積分：12 舉報 版權(quán)申訴

基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測_第2頁

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、PAGE PAGE - 14 -基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測pVT數(shù)據(jù)，且計算流程復(fù)雜，適用于密度數(shù)據(jù)較為豐富的物質(zhì)。定量結(jié)構(gòu)-性質(zhì)關(guān)系法(QSPR)根據(jù)分子結(jié)構(gòu)-物質(zhì)性質(zhì)之間的構(gòu)效關(guān)系，對物質(zhì)相關(guān)性質(zhì)進行建模和預(yù)測。基團貢獻法是QSPR中最常用的一種方法，包括經(jīng)典的Lydersen法11、Joback法12等。這些方法假設(shè)分子性質(zhì)為各基團貢獻的線性加和，而基團貢獻度在不同分子中保持不變。這種線性加和的方法使用較方便，但沒有考慮不同基團的位置信息，導(dǎo)致該方法不能有效區(qū)分同分異構(gòu)體。盡管后續(xù)的一些方法如Constantinou-Gani法13、Marrero-Pardillo法1

2、4等，通過引入多級基團和鍵貢獻在一定程度上緩解了上述缺陷，但適用范圍依然有限。綜合分析以上方法可知，現(xiàn)有模型無法對常見工質(zhì)進行準確估算，須采用新的思路，以實現(xiàn)對包括同分異構(gòu)體工質(zhì)在內(nèi)的常見工質(zhì)臨界溫度的精準預(yù)測。分子結(jié)構(gòu)描述符如分子指紋(molecularfingerprints,MF)15、拓撲指數(shù)(topologicalindex,TI)16等作為一種將分子結(jié)構(gòu)編碼為結(jié)構(gòu)化數(shù)據(jù)的方法，可以將一種物質(zhì)與其他物質(zhì)進行明確區(qū)分。將分子描述符的概念引入QSPR模型，有望解決工質(zhì)同分異構(gòu)體的區(qū)分問題。在實際使用中，分子描述符通常與機器學(xué)習(xí)方法(machinelearning,ML)相結(jié)合，以構(gòu)建物質(zhì)

3、特性預(yù)測模型17-19。近年來，隨著計算機性能的不斷提高，有學(xué)者將分子描述符和機器學(xué)習(xí)應(yīng)用于工質(zhì)物性20-24的預(yù)測，預(yù)測效果良好。本研究受上述分子描述符工作的啟發(fā)，首先以分子指紋表征分子結(jié)構(gòu)，并借助機器學(xué)習(xí)算法建立16種臨界溫度的QSPR預(yù)測模型。此外，為了進一步提升本文模型的預(yù)測精度，本研究還將分子指紋與拓撲指數(shù)相結(jié)合，得到新的MF+TI-ML模型(以分子指紋和拓撲指數(shù)表達分子結(jié)構(gòu)，結(jié)合機器學(xué)習(xí)算法建立模型)，以期取得良好的預(yù)測效果。1方法1.1數(shù)據(jù)庫的搭建本研究中工質(zhì)的臨界溫度實驗數(shù)據(jù)取自物理性質(zhì)設(shè)計研究所(DIPPR801)25及相關(guān)文獻26。根據(jù)實驗數(shù)據(jù)不確定度對其進行篩選后，獲得了

4、155種工質(zhì)的Tc(本文所涉及工質(zhì)的詳細信息，參見文末附錄)。搭建的數(shù)據(jù)庫中，臨界溫度的范圍分布在190.56583.00K。數(shù)據(jù)庫中工質(zhì)可分為五種：烷烴、烯烴、鹵代烷烴、鹵代烯烴、醚類。為提升模型泛化能力，從每種類型工質(zhì)中選取其中70%的數(shù)據(jù)點進入訓(xùn)練集，剩下的30%作為測試集。訓(xùn)練集用于建立工質(zhì)臨界溫度的模型，測試集用于評估模型的預(yù)測性能。1.2分子指紋的生成通過ChemDraw程序獲得工質(zhì)分子的線性輸入規(guī)范(simplifiedmolecularinputlineentrysystem,SMILES)，隨后利用在線轉(zhuǎn)換工具ChemDes27將SMILES字符串轉(zhuǎn)換為相同長度的二進制位串(

5、即分子指紋)。為了研究不同長度/類型的指紋對QSPR模型性能的影響，本文選擇了計算四種分子指紋，包括兩種Key型指紋：MACCS(166位)和Pubchem(881位)，一種Path型指紋：Extended(1024位)和一種Circular型指紋：Morgan(2048位)。1.3回歸算法的選擇本文使用了四種機器學(xué)習(xí)算法，包括支持向量回歸(supportvectorregression,SVR)、回歸樹(regressiontree,RT)、隨機森林(randomforest,RF)以及多層感知機(multi-layerperceptron,MLP)。支持向量回歸通過核技巧將非線性數(shù)據(jù)映射到

6、高維空間中，將非線性關(guān)系轉(zhuǎn)換為線性的形式，其精度取決于參數(shù)的選擇，例如核函數(shù)、寬度系數(shù)、不敏感損失系數(shù)、懲罰系數(shù)C等28。在本文中，將采用5折交叉驗證和網(wǎng)格搜索確定參數(shù)的最佳組合。決策樹(decisiontree,DT)利用多節(jié)點的樹結(jié)構(gòu)來描述各變量與目標(biāo)之間的非線性關(guān)系，回歸樹是決策樹的回歸版本。由于樹模型具有較高的方差，可能導(dǎo)致結(jié)果不穩(wěn)定，基于樹模型的集成學(xué)習(xí)算法隨機森林相對樹模型有較大的改進29，在物性預(yù)測中應(yīng)用較多。人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)模擬神經(jīng)系統(tǒng)的結(jié)構(gòu)，通過不斷調(diào)整神經(jīng)元間的權(quán)重和偏差，使整個網(wǎng)絡(luò)能更好地擬合數(shù)據(jù)30-34。多層感知機

7、(MLP)是一種前饋神經(jīng)網(wǎng)絡(luò)，通過相互連接的人工神經(jīng)元和復(fù)雜的拓撲結(jié)構(gòu)來模擬非線性關(guān)系35。本文利用深度學(xué)習(xí)庫Keras搭建了具有雙隱層的MLP，并通過試錯法確定了神經(jīng)元數(shù)、激活函數(shù)、學(xué)習(xí)率的最優(yōu)組合。1.4評估指標(biāo)的選擇本文選用均方根偏差(RMSE)、絕對平均偏差(AAD)、決定系數(shù)(R2)評估模型的預(yù)測性能，相關(guān)定義式如下。AAD=1mi=1m(100yiyiyi)AAD=1mi=1m100yi-yiyi(1)RMSE=i=1m(yiyi)2mRMSE=i=1m(yi-yi)2m(2)R2=1i=1m(yiyi)2i=1m(yiy)2R2=1-i=1m(yi-yi)2i=1m(yi-y)2

8、(3)式中，m表示樣本個數(shù)；yiyi和yyi分別表示工質(zhì)i臨界溫度的實驗值和預(yù)測值；yy表示臨界溫度實驗數(shù)據(jù)平均值。將評估指標(biāo)應(yīng)用于測試集時，RMSE、AAD越低，R2越高，模型的表現(xiàn)越好。2實驗結(jié)果與討論2.1模型的建立與評估將四種分子指紋(MACCS、Pubchem、Extended、Morgan)分別用作四種機器學(xué)習(xí)算法(SVR、RT、RF、MLP)的輸入特征，得到16種臨界溫度的QSPR模型。各模型在測試集中的預(yù)測性能(以絕對平均偏差A(yù)AD為評價指標(biāo))如圖1所示。圖1圖1以不同指紋為輸入的各QSPR模型的預(yù)測精度Fig.1PredictionaccuracyofQSPRmodelswi

9、thdifferentfingerprintsasinputs從圖1可以看出，以MACCS指紋為輸入特征的模型預(yù)測性能較差，其中表現(xiàn)最好的MACCS-SVR(以MACCS指紋為輸入，結(jié)合SVR建立的模型)在測試集中的絕對平均偏差(AAD)也僅達到了7.49%。其原因是MACCS指紋長度過短，包含的結(jié)構(gòu)信息有限，導(dǎo)致工質(zhì)某些結(jié)構(gòu)片段并不包含于MACCS指紋中。因此，以短位數(shù)的MACCS為輸入，模型預(yù)測精度并不高。Extended指紋結(jié)合SVR算法建立的模型在測試集的AAD為7.36%。這是因為在ChemDes中，Extended指紋最大路徑長度默認設(shè)置為5(即結(jié)構(gòu)片段包含的最大鍵數(shù)為5)，導(dǎo)致許

10、多線性路徑大于5的分子具有相同的Extended指紋。由于缺乏碳鏈長于5的工質(zhì)Tc的實驗數(shù)據(jù)，如果提高路徑最大長度，特征維度會急劇增加，從而造成模型過擬合。因此目前來看Path型指紋不是建立工質(zhì)QSPR模型的最優(yōu)選擇。Circular型指紋Morgan作為一種立體型指紋長度最長，包含的結(jié)構(gòu)信息也最多，因此可以有效地表征分子結(jié)構(gòu)，進而有效區(qū)分工質(zhì)同分異構(gòu)體。綜合來看，雖然以Morgan指紋為輸入特征的模型預(yù)測性能要比上述兩種類型的指紋好，但仍不理想。其原因可能是位數(shù)過長導(dǎo)致了模型過擬合，因而Morgan指紋也不適用于搭建樣本數(shù)較少的QSPR模型。Pubchem-MLP模型(Pubchem指紋結(jié)合

11、MLP算法建立的模型)在訓(xùn)練集、測試集的AAD分別為1.12%、4.76%。相比其他分子指紋而言，基于Pubchem指紋的QSPR模型預(yù)測表現(xiàn)最好。這說明Pubchem指紋可以合理表征工質(zhì)的結(jié)構(gòu)信息，從而在有限的訓(xùn)練樣本中有效建立分子結(jié)構(gòu)與臨界溫度之間的構(gòu)效關(guān)系，準確預(yù)測工質(zhì)臨界溫度。針對本文所研究的155種工質(zhì)，Pubchem-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較如圖2所示。圖2圖2Pubchem-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.2ComparisonbetweenexperimentalandcaculatedvaluesofPubchem-MLPmodel從結(jié)

12、果來看，四種ML算法建立的模型對工質(zhì)臨界溫度的綜合預(yù)測效果排序如下：SVRMLPRFRT。SVR模型預(yù)測精度最高且表現(xiàn)穩(wěn)定?；诩伤惴≧F的模型相比RT，在預(yù)測精度上有了明顯的提高，但和SVR仍有較大差距。2.2模型的優(yōu)化Pubchem指紋可以很好地表達工質(zhì)結(jié)構(gòu)。但由于該類型指紋需要預(yù)先指定子結(jié)構(gòu)，可能會造成工質(zhì)中極少數(shù)同分異構(gòu)體(如順反異構(gòu)體)無法區(qū)分的問題。因此本文考慮在分子指紋的基礎(chǔ)上添加拓撲指數(shù)，以“分子指紋+拓撲指數(shù)”(MF+TI)作為新型分子結(jié)構(gòu)描述符，采用效果較好的SVR和MLP算法，以期完全解決區(qū)分工質(zhì)中同分異構(gòu)體的問題。拓撲指數(shù)是一種量化分子結(jié)構(gòu)的指標(biāo)，通過對表征分子圖的矩

13、陣執(zhí)行數(shù)值運算獲得。這里引入拓撲指數(shù)(moleculartopologicalindex,MTI)，在MTI的基礎(chǔ)上添加幾何校正數(shù)(geometricmodification,GM)區(qū)分工質(zhì)中的同分異構(gòu)體，拓撲指數(shù)S的計算公式16如下：DvVw=DvDVDwDvVw=DvDVDw(4)MTI=i=1N(vDvVw)iMTI=i=1NvDvVwi(5)GM=i=1NMGF(DvVw+DTvVw)iGM=i=1NMGFDvVw+DvVwTi(6)S=MTI+GMS=MTI+GM(7)式中，Dv、DV、Dw分別表示工質(zhì)結(jié)構(gòu)的價矩陣、頂點權(quán)重矩陣、鄰接矩陣；N表示分子的原子總數(shù)；v表示價向量；MGF是

14、用以區(qū)分異構(gòu)體的對角矩陣。文末附錄給出了拓撲指數(shù)的具體計算流程和案例。采用新型描述符后兩種模型的回歸和預(yù)測性能如圖3、圖4所示。可以看出引入拓撲指數(shù)S后，模型的預(yù)測精度明顯提升。Pubchem+TI-SVR模型(新型描述符輸入SVR算法建立的模型)在測試集的決定系數(shù)R2提高到0.8426，而Pubchem+TI-MLP模型(新型描述符輸入MLP算法建立的模型)在測試集的AAD降低至3.99%，R2提高到0.9143。對比圖2、圖4可以發(fā)現(xiàn)，相比Pubchem-MLP模型，Pubchem+TI-MLP模型預(yù)測性能明顯提高。這表明引入拓撲指數(shù)得到的新型描述符可以很好地解決區(qū)分工質(zhì)中同分異構(gòu)體的問題

15、，提升模型的預(yù)測性能。圖3圖3Pubchem+TI-SVR模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.3ComparisonbetweenexperimentalandcaculatedvaluesofPubchem+TI-SVRmodel圖4圖4Pubchem+TI-MLP模型在工質(zhì)臨界溫度實驗值和計算值的比較Fig.4ComparisonbetweenexperimentalandcaculatedvaluesofPubchem+TI-MLPmodel表1給出了本文搭建的Pubchem+TI-MLP模型在工質(zhì)各數(shù)據(jù)集、各物質(zhì)體系預(yù)測值和實驗值的AAD。從表中可以看出，新提出模型對烷烴類工

16、質(zhì)臨界溫度的回歸和預(yù)測都具有很高的精度，分別達到了0.90%和1.65%。模型對烯烴類工質(zhì)的擬合回歸效果很好，但預(yù)測效果較差。醚類、鹵代烷烴類、鹵代烯烴類工質(zhì)的計算精度相比上述兩類更低。從整個數(shù)據(jù)集來看，五種類型工質(zhì)的絕對平均偏差均低于3%，取得了很好的計算效果。表1本文模型在各數(shù)據(jù)集、各物質(zhì)體系的AADTable1AADforeachdatasetandcategoryofworkingfluids集合AAD/%烷烴類烯烴類鹵代烷烴類鹵代烯烴類醚類訓(xùn)練集0.900.401.961.871.77測試集1.654.374.814.794.75總數(shù)據(jù)集1.141.452.782.852.76圖5給

17、出了155種工質(zhì)的相對偏差(ARD)分布情況，相對偏差的定義如式(8)所示：ARD=yiyiyi100%ARD=yi-yiyi100%(8)其中ARD3%的工質(zhì)有113種，占比72.9%，ARD9%的工質(zhì)僅7種，最大偏差為15.98%。圖5圖5工質(zhì)臨界溫度ARD分布情況Fig.5DistributionofARDforTcofworkingfluids2.3模型的對比將新提出模型的計算結(jié)果與現(xiàn)有其他方法進行對比，用于對比的經(jīng)典方法列在表2中，模型的比較結(jié)果如表3所示。從表3中可以看出，本文模型的計算精度最高，Lydersen法和Joback法次之，C-G法精度最低?；诜悬c實驗值的Joback

18、法計算工質(zhì)Tc精度很高。但必須注意的是，并非所有工質(zhì)都具有準確的沸點數(shù)據(jù)。當(dāng)使用估算的沸點值(TestbTbest)計算時，Joback法的計算效果明顯降低。C-G法不需要使用沸點值，但該方法對工質(zhì)臨界溫度的預(yù)測精度較低。K-R法將臨界溫度與分子量(Mw)、沸點關(guān)聯(lián)，并給出了一個簡單的線性方程，估算效果較好。然而，這種關(guān)聯(lián)缺乏理論基礎(chǔ)，普適性較差。綜合來看，本文提出的Pubchem+TI-MLP模型基于分子結(jié)構(gòu)計算工質(zhì)的臨界溫度，不僅無須沸點值，還獲得了最高的計算精度。表2現(xiàn)有預(yù)測臨界溫度的方法Table2Existingmethodforestimationofcriticaltempera

19、ture模型表達式Klincewicz等36Tc=50.20.16Mw+1.41TbTc=50.2-0.16Mw+1.41TbLydersen11Tc=Tb0.567+NiTc(NiTc)21Tc=Tb0.567+NiTc-NiTc2-1Joback等12Tc=Tb0.584+0.965NiTc(NiTc)21Tc=Tb0.584+0.965NiTc-NiTc2-1Constantinou等13Tc=181.128ln(NiTc1+WMjTc2)Tc=181.128lnNiTc1+WMjTc2表3提出模型與以往方法計算效果的對比Table3Thecomparisonsbetweenpropos

20、edmodelandpreviousmethods方法AAD/%RMSEErr5%Err10%Lydersen1.168.841161Joback(TexpbTbexp)1.229.111142Joback(TestbTbest)7.6346.636924C-G(1st)5.9939.058423C-G(2nd)5.7338.158121Klincewicz-Reid2.8517.881025本文模型1.127.361190為了進一步驗證本文新提出模型和C-G法在區(qū)分同分異構(gòu)體性能上的差異，表4給出了C-G二級基團貢獻法和本文模型在區(qū)分各類同分異構(gòu)體(包括順反異構(gòu)、位置異構(gòu)和碳架異構(gòu))上的案例

21、，其中T1calTcal1表示本文模型計算值，T2calTcal2表示二級C-G法計算值。表4C-G法和本文模型對同分異構(gòu)體的區(qū)分案例Table4SamplesofisomersforthecomparisonofC-Gmethodandtheproposedmodel異構(gòu)現(xiàn)象工質(zhì)Texp/KT1calTcal1/KT2calTcal2/K順反異構(gòu)體(Z)-1,2-二氯乙烯507.25518.97558.45(E)-1,2-二氯乙烯535.80533.20558.45(Z)-1,2,3,3,3-五氟丙烯379.25376.13435.30(E)-1,2,3,3,3-五氟丙烯386.75376.

22、21435.30(Z)-2-丁烯435.50437.40430.03(E)-2-丁烯428.60426.33430.03位置異構(gòu)體1-氯丙烷503.50502.02504.952-氯丙烷482.40484.07480.821,1,1,2,2,3-六氟丙烷403.35411.48404.061,1,1,2,3,3-六氟丙烷412.45411.01494.521,1,1,3,3,3-六氟丙烷398.10410.77386.51碳架異構(gòu)體2,2,3-三甲基戊烷563.50573.40566.242,2,4-三甲基戊烷543.80545.11545.162,3,3-三甲基戊烷573.50573.06594.422,3,4-三甲基戊烷566.40567.14588.60從表4中可以看出，本文模型對于各類同分異構(gòu)體的臨界溫度都取得了良好的預(yù)測精度。而C-G法對于所有順反異構(gòu)體的臨界溫度預(yù)測結(jié)果完全一致，這表明C-G法無法區(qū)分順反異構(gòu)體。表5給出了本文模型和C-G二級基團貢獻法對155種工質(zhì)中三類同分異構(gòu)體計算結(jié)果的統(tǒng)計結(jié)果。從表5中可以看出，C-G法在碳架異構(gòu)體的計算表現(xiàn)良好，37種碳架異構(gòu)體臨界溫度的AAD為1.87%，但是由于不能辨別

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測

文檔簡介

溫馨提示

最新文檔

評論

基于分子指紋和拓撲指數(shù)的工質(zhì)臨界溫度理論預(yù)測

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔