支持向量回歸用于氨基酸描述符

上傳人：百*** IP屬地：天津上傳時間：2023-03-13 格式：DOC 頁數(shù)：6 大?。?3.50KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

支持向量回歸用于氨基酸描述符在肽QSAR建模中的性能評價（黑體三號、居中）應(yīng)用化學(xué)2008級學(xué)號2008123張明康（宋體小四號、居中）任課教師印家健副教授（宋體小四號、居中）摘要：（宋體小四號、加粗、頂格）采用支持向量回歸方法用3個數(shù)據(jù)集來評價z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5個氨基酸描述符在肽QSAR支持向量回歸模型構(gòu)建中的性能并對核函數(shù)進(jìn)行選擇，采用留一法交叉檢驗(yàn)的結(jié)果顯示徑向基核函數(shù)要好于多項(xiàng)式核函數(shù)和線性核函數(shù)；在以徑向基核函數(shù)的支持向量回歸模型中表明z-scales的預(yù)測準(zhǔn)確度要略優(yōu)于其它描述符，且在同一描述符的情況下SVR的預(yù)測效果要好于其它線性方法，說明SVR在肽QSAR模型構(gòu)建中是一個可行的方法。（中文用楷體小四號、英文用TimesNewRoman小四號、兩端對齊）關(guān)鍵詞：（宋體小四號、加粗、頂格）肽，定量構(gòu)效關(guān)系，核函數(shù)，支持向量回歸，性能評價（楷體小四號、兩端對齊）（關(guān)鍵詞間，用逗號隔開）多肽具有高活性、高選擇性及副作用小的特點(diǎn),是維持生命過程中必不可少的物質(zhì),目前已成為藥物研究的熱點(diǎn)之一。在多肽類似物的研究和開發(fā)中,定量構(gòu)效關(guān)系(Quantitativestructure-activityrelationships，QSAR)是一個重要的理論計(jì)算方法和常用手段。所謂多肽QSAR,就是用數(shù)學(xué)模式來表達(dá)多肽類似物的化學(xué)結(jié)構(gòu)信息與特定的生物活性強(qiáng)度間的相互關(guān)系[1,2]。多肽的化學(xué)結(jié)構(gòu)描述符普遍采用氨基酸的結(jié)構(gòu)描述參數(shù)去定量描述多肽的化學(xué)結(jié)構(gòu)和性質(zhì)，其基本思路是以多肽的最基本的結(jié)構(gòu)信息——氨基酸序列為基礎(chǔ),對一系列多肽類似物中變化的氨基酸殘基進(jìn)行定量描述,并把氨基酸序列轉(zhuǎn)換成結(jié)構(gòu)描述符矩陣的一個向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有：基于實(shí)驗(yàn)的z-scales[1]、基于理論計(jì)算的ｔ-scales[3]、ISA(isotropicsurfacearea)－ECI(electronicchargeindex)[4]、MS-WHIMscores[5]、PRIN[6]、c-scales[7]以及基于分子拓?fù)鋵W(xué)的MHDV(molecularholographicdistancevector)及其衍變的拓?fù)涿枋龇鸞8-10]。在多肽QSAR數(shù)學(xué)模型方面，文獻(xiàn)中常用的有多元線性回歸（multiplelinearregression,MLR）[10]、主成分回歸（principalcomponentregression,PCR）[8]、偏最小二乘（partialleastsquares，PLS）[1,4,5]和遺傳算法與偏最小二乘法相結(jié)合（geneticalgorithm-partialleastsquares，G/PLS）等方法[7]，但這些方法都是線性方法，且對高維、非線性、小樣本問題的解析能力有限。目前，支持向量機(jī)[12]（supportvectormachine,SVM）已廣泛的用于各學(xué)科領(lǐng)域[13-15],故我們嘗試采用支持向量回歸（supportvectorregression,SVR）[16]方法研究多肽QSAR數(shù)學(xué)建模，分別用48個苦味二肽、58個ACE(angiotensinconvertingenzyme)抑制劑二肽和30個緩激肽增效劑五肽等作為數(shù)據(jù)集，采用留一法交叉檢驗(yàn)來評價z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5個氨基酸描述符在肽QSAR支持向量回歸模型構(gòu)建中的性能并對核函數(shù)進(jìn)行選擇，結(jié)果顯示徑向基核函數(shù)要好于多項(xiàng)式核函數(shù)和線性核函數(shù)；在以徑向基核函數(shù)的支持向量回歸模型中表明z-scales的預(yù)測準(zhǔn)確度要略優(yōu)于其它描述符，且在同一描述符的情況下SVR的預(yù)測效果要好于G/PLS和PLS等方法，說明SVR在肽QSAR模型構(gòu)建中是一種可行的方法。（中文用宋體小四號、英文用TimesNewRoman小四號、段前縮進(jìn)2個漢字，兩端對齊）1支持向量回歸算法[12,15,17]及其實(shí)現(xiàn)（中文用宋體四號、英文用TimesNewRoman四號、加粗，頂格、兩端對齊，序號后空1格，不用標(biāo)點(diǎn)符號）近年來，有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟，形成了一個較完善的理論體系—--統(tǒng)計(jì)學(xué)習(xí)理論[17]。支持向量機(jī)是Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的模式識別方法，它是建立在統(tǒng)計(jì)學(xué)理論VC維（Vapnik-Chervonenksdimension）理論和結(jié)構(gòu)風(fēng)險最小原理（structuralriskminimizationinductiveprinciple）基礎(chǔ)上的，能較好地解決小樣本、非線性、高維數(shù)等實(shí)際問題，并成功地解決了過擬合的控制問題，提高了算法的預(yù)報能力，并成功的應(yīng)用于分類、函數(shù)逼近和時間序列預(yù)測等方面。而肽生物活性值的預(yù)測問題也可以看作是一種對活性值與其影響因子之間復(fù)雜的非線性函數(shù)關(guān)系的逼近問題，因此我們嘗試將支持向量回歸應(yīng)用于肽活性值的預(yù)測建模并利用SVR方法來評價各氨基酸描述符在肽QSAR模型中的建模能力，以及分析多肽中各氨基酸性質(zhì)對其活性值的影響。利用MATLAB語言及所帶的優(yōu)化工具箱可以很容易的實(shí)現(xiàn)上述算法。2數(shù)據(jù)來源及處理2.15個重要的氨基酸描述符（中文用宋體小四號、英文用TimesNewRoman小四號、加粗，頂格、兩端對齊，序號間用圓點(diǎn)隔開，最后空1格，不再用標(biāo)點(diǎn)符號）利用SVR模型對氨基酸描述符作肽QSAR預(yù)測性能的評價，選用的5個氨基酸描述符見表1，其中code為20個天然氨基酸的單字母符。（表格采用三線表）（表題：中文用宋體五號、英文用TimesNewRoman五號、加粗，居中，表序后空1格，不用標(biāo)點(diǎn)符號）（英文表題：TimesNewRoman五號、加粗，居中，表序后空2格，不用標(biāo)點(diǎn)符號）表15個氨基酸描述符的數(shù)值Table1numericalvalueoffiveaminoaciddescriptorsCODEz-scalesc-scalesISA-ECIMS-WHIMPRINZ1Z2Z3C1C2C312123123A0.07-1.730.09-10.86-4.42-0.9262.930.05-0.730.2-0.62-1.02-7.990.77R2.882.52-3.4412.339.68-7.5552.981.69-0.220.271.00-8.4310.180.78N3.221.450.84-2.496.572.4317.871.310.140.2-0.66-8.000.33-2.46D3.641.132.36-3.188.315.4618.461.250.11-1.00-0.96-10.27-0.38-2.71C0.71-0.974.13-7.061.252.6378.510.15-0.660.26-0.275.73-3.30-8.14Q2.180.53-1.141.846.980.3519.531.360.31.00-0.3-7.402.52-0.92E3.080.39-0.070.928.884.4430.191.310.24-0.39-0.04-8.821.43-1.35G2.23-5.360.3-14.99-2.541.9719.930.02-0.31-0.28-0.75-4.64-10.721.75H2.411.741.114.98-4.484.287.380.560.840.67-0.78-0.933.33-2.24I-4.44-1.68-1.030.32-4.02-6.38149.770.09-0.910.83-0.2511.12-1.951.82L-4.19-1.03-0.980.41-4.54-6.56154.350.1-0.740.72-0.169.40-1.561.89K2.841.41-1-6.12102.780.53-0.510.080.6-8.507.273.87M-2.49-0.27-0.411.560.45-3.22132.220.34-0.71.00-0.327.880.31-2.56F-4.921.30.456.62-6.972.68189.420.140.760.85-0.3411.512.66-0.48P-1.220.882.23-5.04-4.65-1.52122.350.16-0.430.73-0.6-1.36-3.449.00S1.96-1.630.57-8.471.642.3519.750.56-0.80.61-1.00-6.60-5.25-1.13T0.92-2.09-1.4-5.2-0.82-0.159.440.65-0.580.85-0.89-4.09-3.390.17W-4.753.650.8516.56-8.236.03179.161.081.000.98-0.4711.927.921.25Y-1.392.320.0110.36-2.084.51132.160.720.970.66-0.164.806.330.05V-2.69-2.53-1.29-3.73-5.14-4.72120.910.07-1.000.79-0.587.70-4.270.63………………………………………………………….3結(jié)果與討論在SVR模型中，通過依次去掉肽鏈中的每個氨基酸的z-scales中的一個值，根據(jù)模型LOO-CV法的PRESS值的大小可以判斷每個氨基酸對此類肽類似物生物活性的影響。為此，以每去掉一個z-scales的模型（5個參數(shù)）的PRESS與原模型（6個參數(shù)）的PRESS的差值為縱坐標(biāo)，以依次去掉z-scales中的一個值的順序?yàn)闄M坐標(biāo)作圖（圖2、圖4、圖6）。由于z1主要和氨基酸的親水性有關(guān)、z2同氨基酸的立體大小有關(guān)和z3主要氨基酸的電性參數(shù)有關(guān)[5]。所以，由圖2可知，PRESS在依次分別去掉第一、二位氨基酸的z1時升高很多，說明苦味二肽的活性主要與兩個位置的疏水性性質(zhì)有關(guān)，這與文獻(xiàn)相一致[4]；PRESS在依次分別去掉第一、二位氨基酸的z2時略有升高，苦味二肽的活性主要與兩個位置的立體大小性質(zhì)弱相關(guān)；去掉z3時幾乎沒有變化，表明與其電性性質(zhì)無關(guān)。圖248個苦味二肽PRESS差值與去掉氨基酸性質(zhì)位置Figure1Plotof圖248個苦味二肽PRESS差值與去掉氨基酸性質(zhì)位置Figure1Plotof△PRESSandremovedaminoacidpropertypositionofaset48bittertastingdipeptideswithz-scales（圖題：中文用宋體五號、英文用TimesNewRoman五號、加粗，居中，序序后空1格，不用標(biāo)點(diǎn)符號）（英文圖題：TimesNewRoman五號、加粗，居中，圖序后空2格，不用標(biāo)點(diǎn)符號）（圖注：中文用宋體五號、英文用TimesNewRoman五號，居中）…………………………..…….……….參考文獻(xiàn)（中文用宋體四號加粗，頂格、左端對齊，不用序號）[1]（TimesNewRoman五號、后空1格，不用標(biāo)點(diǎn)符號）HellbergS，SjostroemM，SkagerbergB，etal.Peptidequantitativestructure-activityrelationships,amultivariateapproach[J].J.MedChem，1987,30：1126－1135.[2]丁俊杰，丁曉琴，趙立峰，等.多肽定量構(gòu)效關(guān)系與分子設(shè)計(jì)[J].化學(xué)進(jìn)展，2005，17：130－136.[3]CocchiM，JohanssonE.AminoacidscharacterizationbyGRIDandmultivariatedataanalysis[J].QuantStruct-Act.Relat.，1993,12：1－8.[4]CollantesER，DunnWJIII.Aminoacidssidechaindescriptorsforquantitativestructure-activityrelationshipstudiesofpeptideanalogues[J].J.Med.Chem.，1995,3：2705-2713.[5]ZalianiA，GanciaE.MS-WHIMscoresforaminoacids：anew3D-descriptorforpeptideQSARandQSPRstudies[J]，J.Chem.Inf.Comput.Sci，1999,39：525－533.[6]SpyridonV，BoojalaVBR，andYiannisK.Predictionofdistantresiduecontactswiththeuseofevolutionaryinformation[J].Proteins：structure，function，andbioinformatics，2005，58：935－949.[7]丁俊杰，丁曉琴，趙立峰，等.新型三維氨基酸結(jié)構(gòu)描述符的研究及其在多肽QSAR中的應(yīng)用[J].藥學(xué)學(xué)報，2005，40(4)：340－346.[8]ShushenLiu，ChunshengYin，Shaoxi，etal，ANovelMHDVDescriptorforDipeptideQSARStudies[J].JournaloftheChineseChemicalSociety，2001，48：253－260.[9]ShengshiZhiliangLi，BianhongFua，YuanqiangWang，etal.OnStructuralParameterizationandMolecularModelingofPeptideAnaloguesbyMolecularElectronegativityedgeVector(VMEE)：EstimationandPredictionforBiologicalActivityofDipeptides[J],JournaloftheChineseChemicalSociety，2001，48：937－944.[10]LiuShu-Shen，YinChun-sheng，WangLian-Sheng.CombinedMEDV-GA-MLRMethodforQSARofThreePanelsofSteroid,Dipeptides,andCOX-2Inhibitors[J].J.chem.Ipu.sci，2002，42：749－756.[11]LinZhihua，WuYuzhang，QuanXuejun，etal.Useofanovelelectrotopologicaldescriptorforthepredictionofbiologicalactivityofpeptideanalogues[J].LettersinPeptideScience，2002，9：273－281.[12]NelloCristianini，JohnShawe-Taylor著.李國正，王猛，曾華軍譯.支持向量機(jī)導(dǎo)論[M].北京：電子工業(yè)出版社，2004，98－106.[13]MANOJBHASIN，GPSRAGHAVA.AnalysisandpredictionofaffinityofTAPbindingpeptidesusingcascadeSVM[J].ProteinScience，2004，13：596–607.[14

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

支持向量回歸用于氨基酸描述符

文檔簡介

溫馨提示

最新文檔

評論

支持向量回歸用于氨基酸描述符

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔