支持向量回歸用于氨基酸描述符_第1頁
支持向量回歸用于氨基酸描述符_第2頁
支持向量回歸用于氨基酸描述符_第3頁
支持向量回歸用于氨基酸描述符_第4頁
支持向量回歸用于氨基酸描述符_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

支持向量回歸用于氨基酸描述符在肽QSAR建模中的性能評價(黑體三號、居中)應(yīng)用化學(xué)2008級學(xué)號2008123張明康(宋體小四號、居中)任課教師印家健副教授(宋體小四號、居中)摘要:(宋體小四號、加粗、頂格)采用支持向量回歸方法用3個數(shù)據(jù)集來評價z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5個氨基酸描述符在肽QSAR支持向量回歸模型構(gòu)建中的性能并對核函數(shù)進(jìn)行選擇,采用留一法交叉檢驗(yàn)的結(jié)果顯示徑向基核函數(shù)要好于多項(xiàng)式核函數(shù)和線性核函數(shù);在以徑向基核函數(shù)的支持向量回歸模型中表明z-scales的預(yù)測準(zhǔn)確度要略優(yōu)于其它描述符,且在同一描述符的情況下SVR的預(yù)測效果要好于其它線性方法,說明SVR在肽QSAR模型構(gòu)建中是一個可行的方法。(中文用楷體小四號、英文用TimesNewRoman小四號、兩端對齊)關(guān)鍵詞:(宋體小四號、加粗、頂格)肽,定量構(gòu)效關(guān)系,核函數(shù),支持向量回歸,性能評價(楷體小四號、兩端對齊)(關(guān)鍵詞間,用逗號隔開)多肽具有高活性、高選擇性及副作用小的特點(diǎn),是維持生命過程中必不可少的物質(zhì),目前已成為藥物研究的熱點(diǎn)之一。在多肽類似物的研究和開發(fā)中,定量構(gòu)效關(guān)系(Quantitativestructure-activityrelationships,QSAR)是一個重要的理論計(jì)算方法和常用手段。所謂多肽QSAR,就是用數(shù)學(xué)模式來表達(dá)多肽類似物的化學(xué)結(jié)構(gòu)信息與特定的生物活性強(qiáng)度間的相互關(guān)系[1,2]。多肽的化學(xué)結(jié)構(gòu)描述符普遍采用氨基酸的結(jié)構(gòu)描述參數(shù)去定量描述多肽的化學(xué)結(jié)構(gòu)和性質(zhì),其基本思路是以多肽的最基本的結(jié)構(gòu)信息——氨基酸序列為基礎(chǔ),對一系列多肽類似物中變化的氨基酸殘基進(jìn)行定量描述,并把氨基酸序列轉(zhuǎn)換成結(jié)構(gòu)描述符矩陣的一個向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有:基于實(shí)驗(yàn)的z-scales[1]、基于理論計(jì)算的t-scales[3]、ISA(isotropicsurfacearea)-ECI(electronicchargeindex)[4]、MS-WHIMscores[5]、PRIN[6]、c-scales[7]以及基于分子拓?fù)鋵W(xué)的MHDV(molecularholographicdistancevector)及其衍變的拓?fù)涿枋龇鸞8-10]。在多肽QSAR數(shù)學(xué)模型方面,文獻(xiàn)中常用的有多元線性回歸(multiplelinearregression,MLR)[10]、主成分回歸(principalcomponentregression,PCR)[8]、偏最小二乘(partialleastsquares,PLS)[1,4,5]和遺傳算法與偏最小二乘法相結(jié)合(geneticalgorithm-partialleastsquares,G/PLS)等方法[7],但這些方法都是線性方法,且對高維、非線性、小樣本問題的解析能力有限。目前,支持向量機(jī)[12](supportvectormachine,SVM)已廣泛的用于各學(xué)科領(lǐng)域[13-15],故我們嘗試采用支持向量回歸(supportvectorregression,SVR)[16]方法研究多肽QSAR數(shù)學(xué)建模,分別用48個苦味二肽、58個ACE(angiotensinconvertingenzyme)抑制劑二肽和30個緩激肽增效劑五肽等作為數(shù)據(jù)集,采用留一法交叉檢驗(yàn)來評價z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5個氨基酸描述符在肽QSAR支持向量回歸模型構(gòu)建中的性能并對核函數(shù)進(jìn)行選擇,結(jié)果顯示徑向基核函數(shù)要好于多項(xiàng)式核函數(shù)和線性核函數(shù);在以徑向基核函數(shù)的支持向量回歸模型中表明z-scales的預(yù)測準(zhǔn)確度要略優(yōu)于其它描述符,且在同一描述符的情況下SVR的預(yù)測效果要好于G/PLS和PLS等方法,說明SVR在肽QSAR模型構(gòu)建中是一種可行的方法。(中文用宋體小四號、英文用TimesNewRoman小四號、段前縮進(jìn)2個漢字,兩端對齊)1支持向量回歸算法[12,15,17]及其實(shí)現(xiàn)(中文用宋體四號、英文用TimesNewRoman四號、加粗,頂格、兩端對齊,序號后空1格,不用標(biāo)點(diǎn)符號)近年來,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟,形成了一個較完善的理論體系—--統(tǒng)計(jì)學(xué)習(xí)理論[17]。支持向量機(jī)是Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的模式識別方法,它是建立在統(tǒng)計(jì)學(xué)理論VC維(Vapnik-Chervonenksdimension)理論和結(jié)構(gòu)風(fēng)險最小原理(structuralriskminimizationinductiveprinciple)基礎(chǔ)上的,能較好地解決小樣本、非線性、高維數(shù)等實(shí)際問題,并成功地解決了過擬合的控制問題,提高了算法的預(yù)報能力,并成功的應(yīng)用于分類、函數(shù)逼近和時間序列預(yù)測等方面。而肽生物活性值的預(yù)測問題也可以看作是一種對活性值與其影響因子之間復(fù)雜的非線性函數(shù)關(guān)系的逼近問題,因此我們嘗試將支持向量回歸應(yīng)用于肽活性值的預(yù)測建模并利用SVR方法來評價各氨基酸描述符在肽QSAR模型中的建模能力,以及分析多肽中各氨基酸性質(zhì)對其活性值的影響。利用MATLAB語言及所帶的優(yōu)化工具箱可以很容易的實(shí)現(xiàn)上述算法。2數(shù)據(jù)來源及處理2.15個重要的氨基酸描述符(中文用宋體小四號、英文用TimesNewRoman小四號、加粗,頂格、兩端對齊,序號間用圓點(diǎn)隔開,最后空1格,不再用標(biāo)點(diǎn)符號)利用SVR模型對氨基酸描述符作肽QSAR預(yù)測性能的評價,選用的5個氨基酸描述符見表1,其中code為20個天然氨基酸的單字母符。(表格采用三線表)(表題:中文用宋體五號、英文用TimesNewRoman五號、加粗,居中,表序后空1格,不用標(biāo)點(diǎn)符號)(英文表題:TimesNewRoman五號、加粗,居中,表序后空2格,不用標(biāo)點(diǎn)符號)表15個氨基酸描述符的數(shù)值Table1numericalvalueoffiveaminoaciddescriptorsCODEz-scalesc-scalesISA-ECIMS-WHIMPRINZ1Z2Z3C1C2C312123123A0.07-1.730.09-10.86-4.42-0.9262.930.05-0.730.2-0.62-1.02-7.990.77R2.882.52-3.4412.339.68-7.5552.981.69-0.220.271.00-8.4310.180.78N3.221.450.84-2.496.572.4317.871.310.140.2-0.66-8.000.33-2.46D3.641.132.36-3.188.315.4618.461.250.11-1.00-0.96-10.27-0.38-2.71C0.71-0.974.13-7.061.252.6378.510.15-0.660.26-0.275.73-3.30-8.14Q2.180.53-1.141.846.980.3519.531.360.31.00-0.3-7.402.52-0.92E3.080.39-0.070.928.884.4430.191.310.24-0.39-0.04-8.821.43-1.35G2.23-5.360.3-14.99-2.541.9719.930.02-0.31-0.28-0.75-4.64-10.721.75H2.411.741.114.98-4.484.287.380.560.840.67-0.78-0.933.33-2.24I-4.44-1.68-1.030.32-4.02-6.38149.770.09-0.910.83-0.2511.12-1.951.82L-4.19-1.03-0.980.41-4.54-6.56154.350.1-0.740.72-0.169.40-1.561.89K2.841.41-1-6.12102.780.53-0.510.080.6-8.507.273.87M-2.49-0.27-0.411.560.45-3.22132.220.34-0.71.00-0.327.880.31-2.56F-4.921.30.456.62-6.972.68189.420.140.760.85-0.3411.512.66-0.48P-1.220.882.23-5.04-4.65-1.52122.350.16-0.430.73-0.6-1.36-3.449.00S1.96-1.630.57-8.471.642.3519.750.56-0.80.61-1.00-6.60-5.25-1.13T0.92-2.09-1.4-5.2-0.82-0.159.440.65-0.580.85-0.89-4.09-3.390.17W-4.753.650.8516.56-8.236.03179.161.081.000.98-0.4711.927.921.25Y-1.392.320.0110.36-2.084.51132.160.720.970.66-0.164.806.330.05V-2.69-2.53-1.29-3.73-5.14-4.72120.910.07-1.000.79-0.587.70-4.270.63………………………………………………………….3結(jié)果與討論在SVR模型中,通過依次去掉肽鏈中的每個氨基酸的z-scales中的一個值,根據(jù)模型LOO-CV法的PRESS值的大小可以判斷每個氨基酸對此類肽類似物生物活性的影響。為此,以每去掉一個z-scales的模型(5個參數(shù))的PRESS與原模型(6個參數(shù))的PRESS的差值為縱坐標(biāo),以依次去掉z-scales中的一個值的順序?yàn)闄M坐標(biāo)作圖(圖2、圖4、圖6)。由于z1主要和氨基酸的親水性有關(guān)、z2同氨基酸的立體大小有關(guān)和z3主要氨基酸的電性參數(shù)有關(guān)[5]。所以,由圖2可知,PRESS在依次分別去掉第一、二位氨基酸的z1時升高很多,說明苦味二肽的活性主要與兩個位置的疏水性性質(zhì)有關(guān),這與文獻(xiàn)相一致[4];PRESS在依次分別去掉第一、二位氨基酸的z2時略有升高,苦味二肽的活性主要與兩個位置的立體大小性質(zhì)弱相關(guān);去掉z3時幾乎沒有變化,表明與其電性性質(zhì)無關(guān)。圖248個苦味二肽PRESS差值與去掉氨基酸性質(zhì)位置Figure1Plotof圖248個苦味二肽PRESS差值與去掉氨基酸性質(zhì)位置Figure1Plotof△PRESSandremovedaminoacidpropertypositionofaset48bittertastingdipeptideswithz-scales(圖題:中文用宋體五號、英文用TimesNewRoman五號、加粗,居中,序序后空1格,不用標(biāo)點(diǎn)符號)(英文圖題:TimesNewRoman五號、加粗,居中,圖序后空2格,不用標(biāo)點(diǎn)符號)(圖注:中文用宋體五號、英文用TimesNewRoman五號,居中)…………………………..…….……….參考文獻(xiàn)(中文用宋體四號加粗,頂格、左端對齊,不用序號)[1](TimesNewRoman五號、后空1格,不用標(biāo)點(diǎn)符號)HellbergS,SjostroemM,SkagerbergB,etal.Peptidequantitativestructure-activityrelationships,amultivariateapproach[J].J.MedChem,1987,30:1126-1135.[2]丁俊杰,丁曉琴,趙立峰,等.多肽定量構(gòu)效關(guān)系與分子設(shè)計(jì)[J].化學(xué)進(jìn)展,2005,17:130-136.[3]CocchiM,JohanssonE.AminoacidscharacterizationbyGRIDandmultivariatedataanalysis[J].QuantStruct-Act.Relat.,1993,12:1-8.[4]CollantesER,DunnWJIII.Aminoacidssidechaindescriptorsforquantitativestructure-activityrelationshipstudiesofpeptideanalogues[J].J.Med.Chem.,1995,3:2705-2713.[5]ZalianiA,GanciaE.MS-WHIMscoresforaminoacids:anew3D-descriptorforpeptideQSARandQSPRstudies[J],J.Chem.Inf.Comput.Sci,1999,39:525-533.[6]SpyridonV,BoojalaVBR,andYiannisK.Predictionofdistantresiduecontactswiththeuseofevolutionaryinformation[J].Proteins:structure,function,andbioinformatics,2005,58:935-949.[7]丁俊杰,丁曉琴,趙立峰,等.新型三維氨基酸結(jié)構(gòu)描述符的研究及其在多肽QSAR中的應(yīng)用[J].藥學(xué)學(xué)報,2005,40(4):340-346.[8]ShushenLiu,ChunshengYin,Shaoxi,etal,ANovelMHDVDescriptorforDipeptideQSARStudies[J].JournaloftheChineseChemicalSociety,2001,48:253-260.[9]ShengshiZhiliangLi,BianhongFua,YuanqiangWang,etal.OnStructuralParameterizationandMolecularModelingofPeptideAnaloguesbyMolecularElectronegativityedgeVector(VMEE):EstimationandPredictionforBiologicalActivityofDipeptides[J],JournaloftheChineseChemicalSociety,2001,48:937-944.[10]LiuShu-Shen,YinChun-sheng,WangLian-Sheng.CombinedMEDV-GA-MLRMethodforQSARofThreePanelsofSteroid,Dipeptides,andCOX-2Inhibitors[J].J.chem.Ipu.sci,2002,42:749-756.[11]LinZhihua,WuYuzhang,QuanXuejun,etal.Useofanovelelectrotopologicaldescriptorforthepredictionofbiologicalactivityofpeptideanalogues[J].LettersinPeptideScience,2002,9:273-281.[12]NelloCristianini,JohnShawe-Taylor著.李國正,王猛,曾華軍譯.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2004,98-106.[13]MANOJBHASIN,GPSRAGHAVA.AnalysisandpredictionofaffinityofTAPbindingpeptidesusingcascadeSVM[J].ProteinScience,2004,13:596–607.[14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論