版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
面向生態(tài)風(fēng)險評價的qsar技術(shù)研究進展
1不確定性美國環(huán)境管理局(uspea)將era劃分為三個主要階段:問題表現(xiàn)(評估、確定評估指標(biāo)、制定分析方案)、分析(暴露評價、影響評價及其相關(guān)性)、風(fēng)險綜合征(風(fēng)險評估、評估和報告)。顯然,有機化合物的物理和化學(xué)性質(zhì)、環(huán)境行為和生態(tài)廉正是進行生態(tài)風(fēng)險評估的基礎(chǔ)。然而,這些數(shù)據(jù)存在三個問題。(1)數(shù)據(jù)缺失.例如,對于80%以上的日用合成有機化學(xué)品,人類尚缺乏其環(huán)境行為和生態(tài)毒理方面的信息.通過實驗方法來測定這些數(shù)據(jù),在時間上是滯后的,不能滿足有毒有害化學(xué)品污染管理的“預(yù)先防范原則”.(2)測試費用昂貴.例如,據(jù)歐盟于2007年6月開始全面實施的化學(xué)品管理新法規(guī)“化學(xué)品注冊、評估、授權(quán)和限制法規(guī)(簡稱REACH法規(guī))”估算,每一種化學(xué)物質(zhì)的基本檢測費用約需8.5萬歐元(不含長期環(huán)境影響的評估費用),每一新物質(zhì)全面檢測費用約需57萬歐元,這意味著如果對每種化學(xué)品都開展實驗測定,需要巨額的費用.進行全面的實驗測試,也不符合化學(xué)品管理中的減少實驗(尤其是動物實驗)的原則和趨勢.(3)數(shù)據(jù)存在不確定性.例如,美國地質(zhì)調(diào)查所的科學(xué)家發(fā)現(xiàn),被全世界科學(xué)家廣泛研究的農(nóng)藥DDT及其代謝產(chǎn)物DDE的辛醇/水分配系數(shù)(KOW)的實驗測定值,不同實驗室的測定結(jié)果,竟有幾個數(shù)量級大小的誤差.如此大的不確定性,很顯然會導(dǎo)致生態(tài)風(fēng)險評價結(jié)果更大的不確定性.分子結(jié)構(gòu)是決定有機物的物理化學(xué)性質(zhì)在環(huán)境中遷移轉(zhuǎn)化行為和生態(tài)毒理學(xué)效應(yīng)的內(nèi)因.具有類似分子結(jié)構(gòu)的物質(zhì),也可能具有類似的物理化學(xué)性質(zhì)、環(huán)境歸趨和生態(tài)毒理學(xué)效應(yīng),即:有機物的物理化學(xué)性質(zhì)、環(huán)境行為和生態(tài)毒理學(xué)參數(shù),與其分子結(jié)構(gòu)之間存在內(nèi)在聯(lián)系;這種聯(lián)系是可以被認識、表征和應(yīng)用的.這種內(nèi)在的聯(lián)系,以模型的方式表征出來,就是結(jié)構(gòu)-活性關(guān)系(SAR)和定量結(jié)構(gòu)-活性關(guān)系(QSAR),統(tǒng)稱為(Q)SAR.因此,(Q)SAR可以彌補有機物環(huán)境行為與生態(tài)毒理數(shù)據(jù)的缺失,大幅度降低實驗費用,有助于減少和替代實驗(尤其動物實驗).此外,由于這種內(nèi)在的可表征的關(guān)系,有機物尤其是系列化合物的物理化學(xué)性質(zhì)、環(huán)境行為和生態(tài)毒理學(xué)參數(shù)的大小及其變化趨勢,必然與其分子結(jié)構(gòu)的變化相一致,所以(Q)SAR有助于評價實驗數(shù)據(jù)的不確定性,這也是(Q)SAR技術(shù)在ERA中所發(fā)揮的重要作用之一.例如,多氯聯(lián)苯(PCB)系列物的物理化學(xué)性質(zhì)一致性,可以依據(jù)QSAR原理,采用分子量和鄰位氯取代基的數(shù)量進行闡明.綜上所述,(Q)SAR技術(shù)對于有機污染物的生態(tài)風(fēng)險性評價具有重要意義.2qsar的基本原則和發(fā)展過程2.1以模型方法表征人類很早就認識到有機物的分子結(jié)構(gòu)與其物理化學(xué)性質(zhì)和生物活性之間存在內(nèi)在的聯(lián)系.20世紀(jì)30年代Hammett等人所建立的線性自由能關(guān)系(LFER)理論,為(Q)SAR奠定了熱力學(xué)理論基礎(chǔ).Hammett等人創(chuàng)造性地提出了表示取代基電子效應(yīng)的參數(shù)σ,Taft提出了表示取代基立體效應(yīng)的參數(shù)Es.LFER屬于超熱力學(xué)關(guān)系,即:盡管熱力學(xué)參數(shù)(分子結(jié)構(gòu)參數(shù))與活性之間的關(guān)系是客觀存在的,但熱力學(xué)理論并不能推導(dǎo)出這種關(guān)系.LFER在表征有機污染物在多介質(zhì)環(huán)境中的平衡分配系數(shù)和反應(yīng)速率常數(shù)中發(fā)揮了重要作用.如圖1所示,獲取和選取表征分子結(jié)構(gòu)的參數(shù)(亦稱為分子結(jié)構(gòu)描述符),是(Q)SAR模型構(gòu)建的基礎(chǔ)性工作.主要有兩種方法來選取分子結(jié)構(gòu)參數(shù),第一種是借助于經(jīng)驗、分子的結(jié)構(gòu)特征和物理-化學(xué)過程的機理來選取.例如,光致水解是鹵代芳烴光解的主要途徑之一,因此建立鹵代芳烴光解量子產(chǎn)率的QSARs時,選用了各種表征碳-鹵鍵性質(zhì)的量子化學(xué)描述符.第二種方法是借助于模型來選取,即所謂的模型方法.QSAR研究中經(jīng)常使用的模型主要包括Hansch模型、線性溶解能相關(guān)模型、Free-Wilson模型以及三維QSAR分析方法(例如CoMFA)等.(1)Hansch模型:在LFER基礎(chǔ)上,Hansch把QSAR的研究范圍擴大到了生物活性領(lǐng)域,提出取代基對化合物生物活性(1/C)的影響主要是電性效應(yīng)(σ)、立體效應(yīng)(Es)以及疏水效應(yīng)(π),并且這些效應(yīng)可以彼此獨立加和[22~24].Hansch方程存在線性和非線性形式,在QSAR領(lǐng)域應(yīng)用廣泛.(2)線性溶解能相關(guān)(LSER)模型:Kamlet等人[28~31]發(fā)展的線性溶解能關(guān)系(LSER)是LFER的擴展,LSER模型包含空穴項、偶極項和氫鍵項,并采用分子體積和溶劑化變色參數(shù)來表征溶質(zhì)-溶劑相互作用.Abraham進一步發(fā)展了新的LSER參數(shù).Wilson和Famini通過以理論計算的參數(shù)替代LSER模型中的經(jīng)驗性參數(shù),衍生出了理論線性溶解能關(guān)系(TLSER)模型.LSER和TLSER模型在有機污染物的水溶解度(Sw),正辛醇/水分配系數(shù)(Kow)、高效液相色譜保留因子以及非反應(yīng)性毒性的QSAR構(gòu)建方面取得了很大成功.(3)Free-Wilson模型:由Free和Wilson于1964年提出,認為系列化合物活性的變化取決于特定取代基在母體結(jié)構(gòu)上數(shù)量和位置變化.該方法計算簡單,但只適合存在多取代的情況.(4)三維QSAR分析方法:最常見的是比較分子力場分析(CoMFA),其核心是作用于同一受體的一系列生物活性分子,與受體之間的各種作用力場應(yīng)該有一定的相似性.因此,在不了解受體三維結(jié)構(gòu)的情況下,研究生物活性分子周圍作用力場的分布,并與化合物分子的生物活性定量聯(lián)系起來,既可以推測受體的某些性質(zhì),又可以設(shè)計新的化合物,并定量預(yù)測化合物活性.該方法在定量藥物設(shè)計中應(yīng)用廣泛;在生態(tài)毒理學(xué)中亦得到應(yīng)用,例如內(nèi)分泌干擾物的雌激素活性.2.2環(huán)境科學(xué)中qsar的研究及應(yīng)用早期(Q)SAR主要應(yīng)用于藥物設(shè)計領(lǐng)域.20世紀(jì)70年代以來,出于對環(huán)境中大量的、不斷增長的合成有機化學(xué)品的生態(tài)風(fēng)險評價的需要,(Q)SAR在環(huán)境科學(xué)中得到廣泛應(yīng)用,并持續(xù)穩(wěn)定發(fā)展.縱觀(Q)SAR在過去幾十年的發(fā)展歷程,可以發(fā)現(xiàn)其呈現(xiàn)如下3個趨勢和特點:(1)目標(biāo)導(dǎo)向性和應(yīng)用性.在環(huán)境科學(xué)技術(shù)領(lǐng)域,(Q)SAR研究一直主要圍繞有機污染物生態(tài)風(fēng)險評價中的暴露評價(污染物在多介質(zhì)環(huán)境中的遷移和轉(zhuǎn)化)與效應(yīng)評價(污染物的生態(tài)毒理學(xué)效應(yīng))的目標(biāo)而展開,具有顯著的目標(biāo)導(dǎo)向性和應(yīng)用性特點.從所模擬的對象來看,早期多針對有機污染物環(huán)境分配方面的參數(shù)(例如SW、KOW、生物富集因子(BCF)、辛醇-空氣分配系數(shù)(KOA)、土壤(沉積物)吸附系數(shù)(KOC)等)和對水生生物的急性毒性(半數(shù)致死濃度(LC50)或效應(yīng)濃度(EC50)).近期QSARs發(fā)展為模擬有機物污染物的環(huán)境內(nèi)分泌干擾效應(yīng)[50~52]以及反應(yīng)速率常數(shù)(例如生物降解能力、光解速率常數(shù)與量子產(chǎn)率、零價鐵催化反應(yīng)速率常數(shù)、羥基自由基氧化反應(yīng)速率常數(shù))等.1993年,期刊SARandQSARinEnvironmentalResearch在法國創(chuàng)刊.自1988年起,國際上每兩年召開一次環(huán)境科學(xué)中QSAR學(xué)術(shù)討論會.2003年,國際知名期刊EnvironmentalToxicologyandChemistry的22卷第8期,集中刊出了23篇QSAR的綜述性文章,涵蓋有機化合物的物理化學(xué)性質(zhì)、環(huán)境歸趨、生物活性及生態(tài)效應(yīng)等方面的內(nèi)容,集中而詳細地介紹了QSAR在環(huán)境領(lǐng)域的發(fā)展和應(yīng)用.這些都標(biāo)志著環(huán)境科學(xué)中(Q)SAR的研究和應(yīng)用方興未艾.(2)多學(xué)科集成性.(Q)SAR是多學(xué)科交叉的研究領(lǐng)域,匯集化學(xué)信息學(xué)(化學(xué)計量學(xué)、計算化學(xué))、物理化學(xué)、生物化學(xué)、毒理學(xué)、計算機科學(xué)、數(shù)學(xué)等多個學(xué)科的研究成果,日益體現(xiàn)多學(xué)科集成性的特點.從分子結(jié)構(gòu)表征的角度看,從早期通過實驗測得的疏水性常數(shù)(π)、電子效應(yīng)常數(shù)(σ)、立體效應(yīng)常數(shù)(ES)及溶劑化參數(shù)等經(jīng)驗分子結(jié)構(gòu)描述符,發(fā)展到目前廣泛使用的拓樸學(xué)參數(shù)、量子化學(xué)參數(shù)等理論分子結(jié)構(gòu)描述符.例如,Dragon軟件可以計算出1000余種分子結(jié)構(gòu)描述符,代表0~3維分子空間結(jié)構(gòu)并且涵蓋原子、化學(xué)鍵類型、連接性、電荷分布、原子空間坐標(biāo)等信息.數(shù)學(xué)、分子拓撲學(xué)、量子化學(xué)、計算機數(shù)值計算等學(xué)科的融合發(fā)展,使得對分子結(jié)構(gòu)的表征更加細致全面,為成功建立(Q)SAR模型奠定了良好基礎(chǔ).從模型建立的角度看,從最初的各種線性回歸分析技術(shù)[68~70],發(fā)展到綜合應(yīng)用各種多變量分析方法,如:因子分析與主成分分析(PCA)、判別分析、聚類分析、偏最小二乘(PLS)回歸分析.近年來還發(fā)展使用了一些非線性的建模技術(shù),如人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)等.遺傳算法(GA)等優(yōu)選方法亦用于變量的篩選之中.同時,產(chǎn)生了一系列的組合算法,例如GA-PLS,GA-SVM,GA-BP,SVM-PLS等.這些方法的應(yīng)用,促進了模型建立技術(shù)的不斷完善.同時,生物化學(xué)、毒理學(xué)等學(xué)科的發(fā)展,使得對毒性作用機制的認識不斷深入,亦推動了(Q)SAR技術(shù)的不斷發(fā)展.(3)智能性.近年來,由于計算機技術(shù)的發(fā)展,一些政府部門、公司和研究機構(gòu)開發(fā)了智能性較強、界面友好、面向不同用戶、各具特色的(Q)SAR應(yīng)用軟件.經(jīng)濟合作與發(fā)展組織(OECD)統(tǒng)計了以有機化學(xué)品管理為宗旨的(Q)SAR軟件,其中美國具有著作權(quán)的有40個,英國有3個,法國有6個,加拿大有8個,保加利亞1個.如果包括各種(Q)SAR軟件,保守估計有200個以上.(Q)SAR未來的發(fā)展方向之一是建立決策支持系統(tǒng).該系統(tǒng)應(yīng)該包含符合標(biāo)準(zhǔn)的模型,實驗測定和模型預(yù)測值數(shù)據(jù)庫,具有靈活的搜索引擎,界面友好,有合適的工具幫助進行模型選擇,并且可以通過互聯(lián)網(wǎng)絡(luò)獲得.通過這樣體系的構(gòu)建,實現(xiàn)資源共享,幫助非(Q)SAR研究人員正確使用這些模型,在管理和決策領(lǐng)域發(fā)揮作用.3歐盟的研究項目由于(Q)SAR技術(shù)有助于實現(xiàn)有機化學(xué)品管理的“預(yù)先防范原則”,能夠替代相關(guān)的試驗并可大幅降低測試費用,因此,世界各國紛紛開發(fā)和應(yīng)用面向毒害有機物生態(tài)風(fēng)險評價與管理的(Q)SAR技術(shù).截至2002年,美國、加拿大、澳大利亞、德國、丹麥、日本和荷蘭等國家,均不同程度地應(yīng)用(Q)SAR技術(shù)來預(yù)測有機化學(xué)品的物理化學(xué)性質(zhì)、環(huán)境歸趨和對水生生物的毒性,所涉及參數(shù)包括:KOW、KOC、SW、沸點(Bp)、熔點(Mp)、蒸氣壓(P)、亨利定律常數(shù)(KH)、在空氣中的氧化速率、水解速率常數(shù)、BCF、生物降解性等.REACH法規(guī)提出了化學(xué)品監(jiān)管的3條原則:①“無安全信息便無市場”原則,即:在產(chǎn)品投放市場之前,化學(xué)品公司必須提供產(chǎn)品安全信息;②減少實驗尤其是動物實驗的原則.一方面為了降低實驗的費用,另一方面為了滿足西方國家所倡導(dǎo)的動物保護理念;③應(yīng)用(Q)SAR技術(shù)的原則.REACH法規(guī)規(guī)定,如果(Q)SAR技術(shù)滿足如下4方面的條件,則(Q)SAR的預(yù)測結(jié)果就可以替代試驗測試:1)(Q)SAR模型的科學(xué)有效性已經(jīng)得到證實;2)所預(yù)測的物質(zhì)在(Q)SAR模型的應(yīng)用域之內(nèi);3)所預(yù)測的結(jié)果足夠用于化學(xué)品分類、標(biāo)記和風(fēng)險評價的目的;4)提供了足夠和可靠的記錄來描述所使用的方法.歐盟的QSAR技術(shù)導(dǎo)則(TGD)中,給出了(Q)SAR在化學(xué)物質(zhì)生態(tài)效應(yīng)和環(huán)境歸趨預(yù)測方面的4個作用:評估實驗數(shù)據(jù)、決定是否進行進一步的測試實驗、估計特定參數(shù)、確定潛在的數(shù)據(jù)需求.歐洲化學(xué)品署(ECB)(http://ecb.jrc.it/)是歐盟負責(zé)有害化學(xué)品風(fēng)險評價的核心官方機構(gòu),負責(zé)實施REACH法規(guī)的技術(shù)支持.近年來,ECB圍繞(Q)SAR技術(shù)的開發(fā)和應(yīng)用,開展了大量的研究工作.主要涉及3方面:1)(Q)SAR模型的報告格式、驗證與評估方法;2)化學(xué)品分類技術(shù);3)理化性質(zhì)、環(huán)境行為或毒理參數(shù)的類比(Analogue或Read-Across)技術(shù),涉及(Q)SAR技術(shù)在不同目標(biāo)層面上的應(yīng)用.OECD也圍繞化學(xué)品的安全性問題,開展了(Q)SAR技術(shù)的應(yīng)用研究.2004年11月,OECD提出了驗證(Q)SARs模型的一些原則.2007年2月,OECD發(fā)布了關(guān)于確認和驗證(Q)SAR模型的指導(dǎo)文件.OECD圍繞(Q)SARs在現(xiàn)有和新化學(xué)品管理中的應(yīng)用,組織開展了案例研究.涉及的國家包括澳大利亞、加拿大、捷克共和國、丹麥、德國、意大利、日本、荷蘭、美國、英國和歐盟委員會.2006年8月,OECD發(fā)布了該案例研究的報告.美國有多個政府部門研發(fā)和應(yīng)用(Q)SAR技術(shù),包括:USEPA、空軍(theU.S.AirForce)、有毒物質(zhì)和疾病注冊管理局(theAgencyforToxicSubstancesandDiseaseRegistry,ATSDR)、有毒物質(zhì)控制法案內(nèi)部測試委員會(theToxicSubstanceControlActInteragencyTestingCommittee)、國家海洋大氣管理局(theNationalOceanicAtmosphericAdministration,NOAA)、消費品安全委員會(ConsumerProductSafetyCommission,CPSC)、食品與藥品管理局(FoodandDrugAdministration,FDA)、國立癌癥研究所(NationalCancerInstitue,NCI)、國家毒理學(xué)計劃(NationalToxicologyProgram)等.USEPA開發(fā)了EPISuiteTMOW、KOC、H、SW、Bp、Mp、P、BCF、生物降解性、空氣中的氧化速率、水解速率、污水處理廠去除效率等的子程序.USEPA還應(yīng)用QSAR技術(shù)預(yù)測大批量生產(chǎn)的化學(xué)品(HPV)和需要生產(chǎn)前告知(PMN)化學(xué)品的生物效應(yīng),包括吸收、分配、代謝、排泄、急性效應(yīng)、刺激性、致敏性、慢性或亞慢性效應(yīng)、生殖效應(yīng)、發(fā)育毒性、致癌性、致突變性等.此外,USEPA還應(yīng)用QSAR預(yù)測化學(xué)品的雌激素效應(yīng).關(guān)于其他國家應(yīng)用QSAR技術(shù)的詳情,可以參閱文獻[86,88].(Q)SAR的相關(guān)研究成果,以論文形式發(fā)表的多于專利.2006年底,以“QSAR”為關(guān)鍵詞在標(biāo)題和摘要中檢索,歐洲專利局(EPO)的WorldwideDatabase中檢索到22個公開專利;世界知識產(chǎn)權(quán)組織(WIPO)的專利數(shù)據(jù)庫中檢索得到11個公開專利;美國專利商標(biāo)局(USPTO)的數(shù)據(jù)庫中,檢索到8個專利.綜上所述,發(fā)達國家(Q)SAR技術(shù)的發(fā)展趨勢可以概括為:已經(jīng)得到高度重視,并在有機物生態(tài)風(fēng)險評價與管理中日益得到應(yīng)用.針對其應(yīng)用中的技術(shù)問題,開展了大量的研究工作.在環(huán)境科學(xué)技術(shù)領(lǐng)域,在國家自然科學(xué)基金的資助下,我國也開展了(Q)SAR方面的一些基礎(chǔ)研究工作.代表性的研究單位有南京大學(xué)、大連理工大學(xué)、湖南大學(xué)、蘭州大學(xué)、長春應(yīng)用化學(xué)研究所、東北師范大學(xué)等,但總的來說,開展的不系統(tǒng),也不深入,在(Q)SAR技術(shù)的應(yīng)用層面尚未開展實質(zhì)性研究工作,需要迎頭趕上.4面向era的qsar的環(huán)境分析(Q)SAR技術(shù)的應(yīng)用涉及多方面因素.2002年在Setubal召開的(Q)SAR研討會對其應(yīng)用和發(fā)展提出了初步指導(dǎo)意見,即:面向ERA的(Q)SAR應(yīng)該符合如下標(biāo)準(zhǔn):1)具有明確定義的環(huán)境指標(biāo);2)具有明確的算法;3)定義了模型的應(yīng)用域;4)有適當(dāng)?shù)臄M合度,穩(wěn)定性和預(yù)測能力;5)最好能夠進行機理解釋.2004年,OECD正式確定上述準(zhǔn)則為(Q)SAR模型發(fā)展和使用的導(dǎo)則,符合這些條件的模型,可以應(yīng)用于化合物的ERA、化學(xué)品篩選以及優(yōu)先控制等管理工作.下面主要圍繞上述問題,對相關(guān)工作進行總結(jié).4.1預(yù)測值的確定(Q)SAR的環(huán)境指標(biāo)(變量)是指任何能被測量和預(yù)測的物理化學(xué)、環(huán)境行為與生態(tài)毒理學(xué)參數(shù).這些指標(biāo)可以在標(biāo)準(zhǔn)條件下,采用規(guī)范的方法,通過實驗方法測定.明確(Q)SAR模型的環(huán)境指標(biāo),可以判斷模型的預(yù)測值是否適合于特定的ERA.研究表明,高質(zhì)量的實驗數(shù)據(jù)是建立優(yōu)秀(Q)SAR模型的重要基礎(chǔ).最標(biāo)準(zhǔn)的數(shù)據(jù)應(yīng)該是相同實驗室相同工作人員采用統(tǒng)一的標(biāo)準(zhǔn)方法測定的,不同來源的實驗數(shù)據(jù)間的系統(tǒng)差異,會對(Q)SAR模型質(zhì)量產(chǎn)生不可預(yù)知的影響.同時,應(yīng)盡可能確保建立模型的訓(xùn)練集化合物有較大的結(jié)構(gòu)差異性,擴大訓(xùn)練集的物理化學(xué)空間,增強模型的穩(wěn)健性.然而由于實驗數(shù)據(jù)的限制,實際工作中經(jīng)常采用來自于不同文獻的環(huán)境指標(biāo)數(shù)據(jù),這樣雖然會擴大數(shù)據(jù)范圍,提高結(jié)構(gòu)差異,但容易導(dǎo)致不精確的預(yù)測結(jié)果.因此,模型的擬合結(jié)果必須考慮實驗數(shù)據(jù)誤差,保證擬合度要在環(huán)境指標(biāo)數(shù)據(jù)的變化范圍之內(nèi);否則會不恰當(dāng)?shù)啬M誤差信息,造成模型過擬合.4.2數(shù)據(jù)分析方法應(yīng)用于有機化學(xué)品管理和生態(tài)風(fēng)險評價的QSAR模型,最好具有簡單、透明、容易解釋、易于移植的數(shù)學(xué)算法.所謂透明,是指模型應(yīng)基于基本的物理化學(xué)性質(zhì),并具有清晰明確的表達形式.一個透明的模型才有利于進行機理解釋,便于不同研究和管理人員之間的交互使用,并且允許使用者查看和理解環(huán)境指標(biāo)被預(yù)測的全過程.這樣的模型品質(zhì)主要通過適當(dāng)?shù)慕y(tǒng)計數(shù)學(xué)方法來實現(xiàn).模型所使用的統(tǒng)計分析方法應(yīng)該具備一定的透明性,即通過該方法的實施,獲得相關(guān)的處理過程信息.研究表明[105~107],不同方法的透明性依次為:多元回歸分析(MLR)>主成份和偏最小二乘分析(PCA&PLS)>人工神經(jīng)網(wǎng)絡(luò)(ANN)>遺傳算法(GA).然而,模型的透明性又是與模型的穩(wěn)健性相關(guān)聯(lián)的,后者是指模型應(yīng)用范圍和條件的相對自由程度,且其順序剛好與透明性相反.所以,統(tǒng)計分析方法的選擇,應(yīng)該綜合模型的用途、考慮環(huán)境指標(biāo)的需求、模型透明性和穩(wěn)健性等相關(guān)指標(biāo).4.3模型的機理解釋性(Q)SAR模型的建立,應(yīng)該基于對機理的正確分析和解釋;反過來,所建立的(Q)SAR模型,應(yīng)該進一步有助于機理的解釋.機理解釋可以明確影響化合物生態(tài)風(fēng)險指標(biāo)的分子結(jié)構(gòu)因素,進而判斷是否可以用于新物質(zhì)的ERA.模型的機理解釋性,主要通過如下兩方面實現(xiàn):(1)建立模型所使用的分子結(jié)構(gòu)描述符,應(yīng)有利于模型的機理解釋.所以要盡可能選擇具有明確物理化學(xué)意義的分子結(jié)構(gòu)描述符.比較而言,一些基礎(chǔ)性質(zhì)描述符(如分子量)和量子化學(xué)描述符較以原子和碎片為基礎(chǔ)的結(jié)構(gòu)和拓樸指數(shù)更易于解釋.(2)與不斷發(fā)展的生物化學(xué)、毒理學(xué)相結(jié)合,深入對化合物毒性作用機理的認識,提高模型的機理解釋性.4.4模型應(yīng)用域和代謝作用(1)(Q)SAR模型應(yīng)用域的表征在ERA中應(yīng)用(Q)SAR技術(shù)需要克服的難點之一,就是表征模型的應(yīng)用域(AD).經(jīng)驗的(Q)SAR模型僅在驗證的域內(nèi)是有效的,應(yīng)用于域外的物質(zhì)會導(dǎo)致嚴(yán)重的預(yù)測錯誤.模型的AD與模型的確認和驗證密切相關(guān).所謂模型的確認與驗證,就是針對模型的某個預(yù)測功能,證明在其AD內(nèi)具有令人滿意的預(yù)測準(zhǔn)確度.因此,AD可以定義為:經(jīng)確認和驗證,某模型所適用的化合物集合.在實踐中,需要一個可操作的、可用計算機程序執(zhí)行的方法來具體定義模型的應(yīng)用域.對應(yīng)用域的研究,首先可以從建立模型所使用描述符的角度來展開,即訓(xùn)練集化合物所覆蓋的描述符空間的組合,也稱之為描述符域.訓(xùn)練集的選擇會直接影響模型描述符的空間范圍.其次,考慮訓(xùn)練集和預(yù)測集化合物之間的結(jié)構(gòu)相似性,得到結(jié)構(gòu)域.結(jié)構(gòu)域是基于分子相似性概念的,對于預(yù)測來講,與訓(xùn)練集化合物分子相似性高的化合物會比相似性低的化合物得到更準(zhǔn)確的預(yù)測結(jié)果.有些情況下,模型的結(jié)構(gòu)相似性是基于經(jīng)驗知識或假定的作用模式的.所以,基于不同的定義結(jié)構(gòu)相似性的方法,可能得到不同的結(jié)構(gòu)域.分子結(jié)構(gòu)描述符包含在模型的描述符空間中,并且結(jié)構(gòu)與訓(xùn)練集化合物的結(jié)構(gòu)相似,這兩個條件是判斷化合物是否處于模型應(yīng)用域之中的必要條件.然而滿足這兩個條件并不能確保預(yù)測的可靠性和正確性,還需要引入機理域的概念,即測試集化合物的化學(xué)反應(yīng)或毒性作用機理應(yīng)該與訓(xùn)練集化合物相一致.機理域的定義通常需要描述分子的亞結(jié)構(gòu),并認為分子結(jié)構(gòu)類似的物質(zhì)具有類似的反應(yīng)或毒性機理.機理域是保證模型預(yù)測準(zhǔn)確度和精確度的最嚴(yán)格標(biāo)準(zhǔn).此外,如果在毒性作用過程中發(fā)生了新陳代謝,那么還應(yīng)該從模擬代謝的角度定義代謝域.忽略代謝作用會給毒理作用指標(biāo)的判斷帶來困難,這也是傳統(tǒng)的(Q)SAR模型中經(jīng)常出現(xiàn)的問題.綜上,可從4方面來表征模型的應(yīng)用域:1)描述符變化范圍;2)結(jié)構(gòu)相似性;3)機理相似性;4)新陳代謝.這4方面的交集,構(gòu)成了(Q)SAR模型最保守的應(yīng)用域.在實際應(yīng)用中,可根據(jù)(Q)SAR模型的實驗數(shù)據(jù)的質(zhì)量、所模擬的環(huán)境指標(biāo)與實際應(yīng)用目標(biāo),確定(Q)SAR應(yīng)用域的最佳表征方式.(2)(Q)SAR模型離群值的診斷模型離群值(離域點)的診斷是十分重要的,因為離域點的存在會給模型帶來很多問題.從模型的角度來講,典型離域點表現(xiàn)為:化合物對于數(shù)據(jù)集是非穩(wěn)定性的,或表現(xiàn)在生物學(xué)上的不同作用機制,或者表現(xiàn)為化學(xué)上的相異性,偶爾可能表現(xiàn)為錯誤的數(shù)據(jù).從統(tǒng)計學(xué)角度講,離域點分為3類:1)X離域點:物質(zhì)的分子結(jié)構(gòu)描述符不在其他物質(zhì)的描述符空間之內(nèi);2)Y離域點,即實驗數(shù)據(jù)的異常值;3)X/Y關(guān)系離域:描述符X與環(huán)境性質(zhì)Y的關(guān)系方面,與訓(xùn)練集中其他物質(zhì)不同,即呈現(xiàn)不同的作用機制.判斷模型的離域點,對精確確定模型的應(yīng)用域具有重要意義.但三類離域點中,Y離域點只能根據(jù)經(jīng)驗判斷,X/Y離域點也不能直接檢測,所以研究重點是判斷X離域點,主要有以下兩種方法:1)Hotelling’sT2:是Student’st-test的多變量形式.2)DModX:表示化合物在X方向上到模型超平面的距離.如果該距離大于模型設(shè)定的極限值,則認為所代表的化合物為X離域點.這兩種診斷方法經(jīng)常聯(lián)合使用.其主要區(qū)別在于:Hotelling’sT2方法來自于可解釋的變量信息,判斷結(jié)果為強烈離群的數(shù)據(jù)點,而DModX方法來自于未解釋的變量信息,所判斷的離域點屬于中等程度離域.另外基于回歸分析的模型,也常采用標(biāo)準(zhǔn)殘差做為離域點的判斷標(biāo)準(zhǔn).值得注意的是,離域點廣泛存在于所有的環(huán)境指標(biāo)中,并對這些指標(biāo)模型的發(fā)展起到了重要的推動作用.分析離域點會加強對模型的深入理解,促進作用機理的認識.因此必須基于合理的原則和明確的算法來判斷離域點.可以通過去除離域點前后模型性能的變化進一步判斷其性質(zhì).如果離域點僅僅是由統(tǒng)計分析方法引起的,那么去除后,模型性能不會有顯著提高.4.5擬合不足及過度擬合問題關(guān)于QSAR模型的表征,需要從三方面評價模型的性能.首先是擬合效果的統(tǒng)計分析,以表明模型解釋訓(xùn)練集變化的能力;然后通過交叉驗證,評估模型穩(wěn)定性以及內(nèi)部預(yù)測能力;最后采用建立模型時未使用的數(shù)據(jù),進行外部預(yù)測能力的評價.(1)(Q)SAR模型擬合效果評價傳統(tǒng)使用的統(tǒng)計評價指標(biāo)主要有以下幾個:1)決定系數(shù)(R2)/自由度調(diào)整后的決定系數(shù)(R2adj):R2是判定擬合優(yōu)度的重要指標(biāo).然而,如果引入多余的預(yù)測變量會導(dǎo)致較低的自由度,雖然R2較高,但是模型的預(yù)測能力較差.所以常采用經(jīng)自由度校正的決定系數(shù)R2adj.該值越大,擬合優(yōu)度越好.2)誤差平方和(SSE):反映了實測值與預(yù)測值之間的偏離,該值依賴于數(shù)據(jù)點個數(shù).3)表示隨機誤差分散程度的均方根誤差(RMSE)、表示實測值與擬合值之差的平均絕對殘差(MAR)以及擬合值的標(biāo)準(zhǔn)誤差(SE)/標(biāo)準(zhǔn)偏差(SD),是衡量模型精確度的常用參數(shù).這些參數(shù)依賴于環(huán)境指標(biāo)數(shù)據(jù)的范圍和分布,并受離域點的影響.4)F檢驗:是對回歸模型顯著性水平的方差檢驗方法,適用于基于MLR方法建立的模型.上述擬合優(yōu)度參數(shù)常用于模型擬合效果的初步評價,但不能鑒別模型的擬合不足或過度擬合問題.所謂擬合不足,是指模型沒有充分揭示出訓(xùn)練集所包含的變量信息,這樣的問題會導(dǎo)致模型的預(yù)測能力降低;過度擬合則是由于擬合了誤差信息,導(dǎo)致模型的擬合度高于環(huán)境指標(biāo)數(shù)據(jù)和描述符結(jié)合的變化性.后者是QSAR模型建立過程中經(jīng)常出現(xiàn)的問題,尤其對于采用非線性建模方法所得到的模型.對于此類問題的判斷,需要通過模型的穩(wěn)定性分析來解決.(2)QSAR模型的穩(wěn)定性分析及內(nèi)部驗證模型的穩(wěn)定性分析是與模型擬合不足或過度擬合問題緊密相連的.按照習(xí)慣,常使用“不穩(wěn)定性”這個概念,其含義是模型受訓(xùn)練集中某些個別化合物或化合物子集的影響比較大.如果化合物的預(yù)測值超出模型的置信區(qū)間,就會導(dǎo)致模型不穩(wěn)定.直接對模型的不穩(wěn)定性進行定量分析的研究比較少.Kolossov和Stanforth從預(yù)測變量和預(yù)測值兩個角度,提出了模型不穩(wěn)定性系數(shù)(MIC)和模型預(yù)測值不穩(wěn)定性系數(shù)(MVIC).如果MIC和MVIC值小于100%,表明模型穩(wěn)定,反之則模型不穩(wěn)定.對于模型的不穩(wěn)定性分析,更常用的方法是通過內(nèi)部驗證來進行,因為任何內(nèi)部驗證技術(shù)都能一定程度上評價模型的不穩(wěn)定性.內(nèi)部驗證技術(shù)主要包括以下幾類:1)去多法(Leave-many-out):將初始訓(xùn)練集中的n個數(shù)據(jù)點平均分成大小為m(=n/G)的G個子集.然后每次去除m個數(shù)據(jù)點,采用剩下的n-m個數(shù)據(jù)點作為訓(xùn)練集重新建模并驗證由m個數(shù)據(jù)點構(gòu)成的驗證集.經(jīng)G次計算,得到交叉驗證系數(shù)Q2來表征模型的穩(wěn)定性和預(yù)測能力.一般認為如果Q2大于0.5,模型比較穩(wěn)定;大于0.9,模型的穩(wěn)定性非常優(yōu)秀.2)去一法(Leave-one-out):具體過程與去多法相似,區(qū)別僅在于m=1.統(tǒng)計學(xué)理論證明,在變量選擇方面,去多法比去一法效果要好,主要是因為去一法以及m值較小的去多法比m值較大的去多法容易包含更多的(潛在)變量信息,導(dǎo)致模型過擬合,對驗證集的預(yù)測能力下降.3)Bootstrapping法:從原始數(shù)據(jù)中隨機選擇m個數(shù)據(jù)點,建模,并預(yù)測其他未被選擇的化合物.重復(fù)G次,得到平均Q2.同樣,較高的Q2值也表明模型的穩(wěn)定性.4)Y的隨機性檢驗:這也是一種廣泛用于表征模型穩(wěn)健性的統(tǒng)計方法.隨機調(diào)整因變量Y形成新矩陣,然后采用原來的自變量矩陣建立模型,重復(fù)50~100次,得到基于隨機數(shù)據(jù)模型的R2adj和交叉驗證系數(shù)Q2值.如果這些值都比較低,則證明原模型的穩(wěn)定性比較好,反之,表明依目前的建模方法得到的模型不能被接受.此外,需要注意的是:表示模型擬合能力的R2adj比表示模型穩(wěn)定性的交叉驗證系數(shù)Q2值要高,R2adj-Q2的差值一般為0.2~0.3,如果超過0.3,表明模型可能存在如下問題:模型過擬合、存在不相關(guān)的X變量或數(shù)據(jù)中存在離域點.(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖北省安全員-A證考試題庫及答案
- 2025年山東建筑安全員C證考試題庫
- 2025年云南省安全員-B證(項目經(jīng)理)考試題庫
- 【課件】搜索引擎營銷的部分問題探討
- DB14T-紅地球葡萄主要病蟲害綜合防控技術(shù)規(guī)程編制說明
- 單位人力資源管理制度集合大全十篇
- 單位管理制度展示大全人員管理十篇
- 2024年土地登記代理人題庫附參考答案(鞏固)
- 2025年社會服務(wù)行業(yè)尋找彈性與韌性中的結(jié)構(gòu)機會
- 單位管理制度展示大合集人員管理十篇
- 實習(xí)終止及解除協(xié)議書
- 中國冠心病康復(fù)循證實踐指南(2024版)解讀
- 2024-2030年中國再生水行業(yè)發(fā)展前景預(yù)測規(guī)劃分析報告
- 城市公益性公墓建設(shè)項目施工組織設(shè)計
- 2022-2024年江蘇中考語文試題匯編:名著閱讀(教師版)
- 2024年秋季新人教版七年級上冊數(shù)學(xué)全冊教案
- 安全員年終總結(jié)報告
- 《客房服務(wù)與管理》課程標(biāo)準(zhǔn)課程內(nèi)容與要求
- GB/T 44823-2024綠色礦山評價通則
- 營銷中心建設(shè)實施方案
- 工程竣工驗收(消防查驗)報告
評論
0/150
提交評論