版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 HYPERLINK 支持向量量回歸用用于氨基基酸描述述符在肽肽QSAAR建模中中的性能能評(píng)價(jià)(黑體三三號(hào)、居居中)應(yīng)用化學(xué)學(xué)20008級(jí)學(xué)號(hào)200081223張明康(宋體小小四號(hào)、居中)任課教師師印家健健副教授授(宋體小小四號(hào)、居中)摘要:(宋體小小四號(hào)、加粗、頂格)采用支支持向量量回歸方方法用3個(gè)數(shù)據(jù)據(jù)集來評(píng)評(píng)價(jià)z-sscalles、c-sscalles、ISAA-ECCI、MS-WHIIM、PRIIN等5個(gè)氨基基酸描述述符在肽肽QSAAR支持向向量回歸歸模型構(gòu)構(gòu)建中的的性能并并對(duì)核函函數(shù)進(jìn)行行選擇,采采用留一一法交叉叉檢驗(yàn)的的結(jié)果顯顯示徑向向基核函函數(shù)要好好于多項(xiàng)項(xiàng)式核函函數(shù)和線線性核函
2、函數(shù);在在以徑向向基核函函數(shù)的支支持向量量回歸模模型中表表明z-sscalles的預(yù)測測準(zhǔn)確度度要略優(yōu)優(yōu)于其它它描述符符,且在在同一描描述符的的情況下下SVR的預(yù)測測效果要要好于其其它線性性方法,說說明SVR在肽QSAAR模型構(gòu)構(gòu)建中是是一個(gè)可可行的方方法。(中文用用楷體小小四號(hào)、英文用用Timmes Neww Roomann小四號(hào)、兩端對(duì)對(duì)齊)關(guān)鍵詞:(宋體小小四號(hào)、加粗、頂格)肽,定定量構(gòu)效效關(guān)系,核核函數(shù),支支持向量量回歸,性性能評(píng)價(jià)價(jià)(楷體小小四號(hào)、兩端對(duì)對(duì)齊)(關(guān)鍵詞詞間,用逗號(hào)號(hào)隔開)多肽具有有高活性性、高選選擇性及及副作用用小的特特點(diǎn),是維持持生命過過程中必必不可少少的物質(zhì)質(zhì),目
3、前已已成為藥藥物研究究的熱點(diǎn)點(diǎn)之一。在多肽肽類似物物的研究究和開發(fā)發(fā)中,定量構(gòu)構(gòu)效關(guān)系系(Quaantiitattivee sttruccturre-aactiivitty rrelaatioonshhipss,QSAAR)是一個(gè)個(gè)重要的的理論計(jì)計(jì)算方法法和常用用手段。所謂多多肽QSAAR,就是用用數(shù)學(xué)模模式來表表達(dá)多肽肽類似物物的化學(xué)學(xué)結(jié)構(gòu)信信息與特特定的生生物活性性強(qiáng)度間間的相互互關(guān)系1,22。多肽的化化學(xué)結(jié)構(gòu)構(gòu)描述符符普遍采采用氨基基酸的結(jié)結(jié)構(gòu)描述述參數(shù)去去定量描描述多肽肽的化學(xué)學(xué)結(jié)構(gòu)和和性質(zhì),其其基本思思路是以以多肽的的最基本本的結(jié)構(gòu)構(gòu)信息氨基基酸序列列為基礎(chǔ)礎(chǔ),對(duì)一系系列多肽肽類似物
4、物中變化化的氨基基酸殘基基進(jìn)行定定量描述述,并把氨氨基酸序序列轉(zhuǎn)換換成結(jié)構(gòu)構(gòu)描述符符矩陣的的一個(gè)向向量11,2。目前前在肽QSAAR模型中中常用的的氨基酸酸描述符符主要有有:基于于實(shí)驗(yàn)的的z-sscalles1、基于理理論計(jì)算算的-sccalees33、ISAA(issotrropiic ssurffacee arrea)ECII(ellecttronnic chaargee inndexx)44、MS-WHIIM sscorres5、PRIIN66、c-sscalles7以以及基于于分子拓拓?fù)鋵W(xué)的的MHDDV(mmoleecullar hollogrraphhic disstannce ve
5、cctorr)及其衍衍變的拓拓?fù)涿枋鍪龇?8-100。在多肽QQSARR數(shù)學(xué)模模型方面面,文獻(xiàn)獻(xiàn)中常用用的有多多元線性性回歸(mulltipple linnearr reegreessiion, MLLR)100、主主成分回回歸(priinciipall coompoonennt rregrresssionn, PPCR)8、偏最最小二乘乘(parrtiaal lleasst ssquaaress,PLSS)1,4,55和遺遺傳算法法與偏最最小二乘乘法相結(jié)結(jié)合(gennetiic aalgooritthm-parrtiaal lleasst ssquaaress,G/PPLS)等方方法77,但
6、但這些方方法都是是線性方方法,且且對(duì)高維維、非線線性、小小樣本問問題的解解析能力力有限。目前,支支持向量量機(jī)112(suppporrt vvecttor macchinne, SVMM)已廣廣泛的用用于各學(xué)學(xué)科領(lǐng)域域133-15,故我們們嘗試采采用支持持向量回回歸(suppporrt vvecttor reggresssioon, SVRR)166方法法研究多多肽QSAAR數(shù)學(xué)建建模,分分別用48個(gè)苦味味二肽、58個(gè)ACEE(anngiootennsinn coonveertiing enzzymee)抑制劑二二肽和30個(gè)緩激激肽增效效劑五肽肽等作為為數(shù)據(jù)集集,采用用留一法法交叉檢檢驗(yàn)來評(píng)評(píng)價(jià)
7、z-sscalles、c-sscalles、ISAA-ECCI、MS-WHIIM、PRIIN等5個(gè)氨基基酸描述述符在肽肽QSAAR支持向向量回歸歸模型構(gòu)構(gòu)建中的的性能并并對(duì)核函函數(shù)進(jìn)行行選擇,結(jié)結(jié)果顯示示徑向基基核函數(shù)數(shù)要好于于多項(xiàng)式式核函數(shù)數(shù)和線性性核函數(shù)數(shù);在以以徑向基基核函數(shù)數(shù)的支持持向量回回歸模型型中表明明z-sscalles的預(yù)測測準(zhǔn)確度度要略優(yōu)優(yōu)于其它它描述符符,且在在同一描描述符的的情況下下SVR的預(yù)測測效果要要好于G/PPLS和PLS等方法,說明SVR在肽QSAAR模型構(gòu)構(gòu)建中是是一種可可行的方方法。(中文用用宋體小小四號(hào)、英文用用Timmes Neww Roomann小四號(hào)、
8、段前前縮進(jìn)2個(gè)漢字字,兩端端對(duì)齊)1支持向向量回歸歸算法12,15,17及其實(shí)實(shí)現(xiàn)(中文用用宋體四四號(hào)、英文文用Timmes Neww Roomann四號(hào)、加粗,頂頂格、兩端對(duì)對(duì)齊,序序號(hào)后空空1格,不不用標(biāo)點(diǎn)點(diǎn)符號(hào))近年來,有有限樣本本情況下下的機(jī)器器學(xué)習(xí)理理論研究究逐漸成成熟,形形成了一一個(gè)較完完善的理理論體系系-統(tǒng)計(jì)學(xué)學(xué)習(xí)理論論177。支支持向量量機(jī)是Vappnikk等人根根據(jù)統(tǒng)計(jì)計(jì)學(xué)習(xí)理理論提出出的一種種新的模模式識(shí)別別方法,它它是建立立在統(tǒng)計(jì)計(jì)學(xué)理論論VC維(Vappnikk-Chhervvoneenkss diimennsioon)理論論和結(jié)構(gòu)構(gòu)風(fēng)險(xiǎn)最最小原理理(strructtu
9、raal rriskk miinimmizaatioon iinduuctiive priinciiplee)基礎(chǔ)上上的,能能較好地地解決小小樣本、非線性性、高維維數(shù)等實(shí)實(shí)際問題題,并成成功地解解決了過過擬合的的控制問問題,提提高了算算法的預(yù)預(yù)報(bào)能力力,并成成功的應(yīng)應(yīng)用于分分類、函函數(shù)逼近近和時(shí)間間序列預(yù)預(yù)測等方方面。而而肽生物物活性值值的預(yù)測測問題也也可以看看作是一一種對(duì)活活性值與與其影響響因子之之間復(fù)雜雜的非線線性函數(shù)數(shù)關(guān)系的的逼近問問題,因因此我們們嘗試將將支持向向量回歸歸應(yīng)用于于肽活性性值的預(yù)預(yù)測建模模并利用用SVR方法來來評(píng)價(jià)各各氨基酸酸描述符符在肽QSAAR模型中中的建模模能力,以
10、以及分析析多肽中中各氨基基酸性質(zhì)質(zhì)對(duì)其活活性值的的影響。利用MATTLABB語言及及所帶的的優(yōu)化工工具箱可可以很容容易的實(shí)實(shí)現(xiàn)上述述算法。2數(shù)據(jù)據(jù)來源及及處理2.155個(gè)重要要的氨基基酸描述述符(中文用用宋體小小四號(hào)、英文用用Timmes Neww Roomann小四號(hào)、加粗粗,頂格格、兩端端對(duì)齊,序序號(hào)間用用圓點(diǎn)隔隔開,最最后空1格,不不再用標(biāo)標(biāo)點(diǎn)符號(hào)號(hào))利用SVVR模型對(duì)對(duì)氨基酸酸描述符符作肽QSAAR預(yù)測性性能的評(píng)評(píng)價(jià),選選用的5個(gè)氨基基酸描述述符見表表1,其中codde為20個(gè)天然然氨基酸酸的單字字母符。(表格采采用三線線表)(表題:中文用用宋體五五號(hào)、英文文用Tiimess Neew
11、 RRomaan五號(hào)、加粗粗,居中中,表序序后空1格,不不用標(biāo)點(diǎn)點(diǎn)符號(hào))(英文文表題: Tiimess Neew RRomaan五號(hào)、加粗粗,居中中,表序序后空2格,不不用標(biāo)點(diǎn)點(diǎn)符號(hào))表15個(gè)個(gè)氨基酸酸描述符符的數(shù)值值Tablle1 numeericcal vallue of fivve aaminno aacidd deescrripttorssCODEEz-sccaleesc-sccaleesISA-ECIIMS-WWHIMMPRINNZ1Z2Z3C1C2C312123123A0.077-1.7730.099-10.86-4.442-0.99262.9930.055-0.7730.2-0.
12、662-1.002-7.9990.777R2.8882.522-3.44412.3339.688-7.55552.9981.699-0.2220.2771.000-8.44310.1180.788N3.2221.4550.844-2.4496.5772.43317.8871.3110.1440.2-0.666-8.0000.333-2.446D3.6441.1332.366-3.1188.3115.46618.4461.2550.111-1.000-0.996-10.27-0.338-2.771C0.711-0.9974.133-7.0061.2552.63378.5510.155-0.666
13、0.266-0.2275.733-3.330-8.114Q2.1880.533-1.1141.8446.9880.35519.5531.3660.31.000-0.33-7.4402.522-0.992E3.0880.399-0.0070.9228.8884.44430.1191.3110.244-0.339-0.004-8.8821.433-1.335G2.233-5.3360.3-14.99-2.5541.97719.9930.022-0.331-0.228-0.775-4.664-10.721.755H2.4111.7441.1114.988-4.4484.287.3380.5660.8
14、440.677-0.778-0.9933.333-2.224I-4.444-1.668-1.0030.322-4.002-6.338149.770.099-0.9910.833-0.22511.112-1.9951.822L-4.119-1.003-0.9980.411-4.554-6.556154.350.1-0.7740.722-0.1169.400-1.5561.899K2.8441.411-3.1145.1444.111-6.112102.780.533-0.5510.0880.6-8.5507.2773.877M-2.449-0.227-0.4411.5660.455-3.22213
15、2.220.344-0.771.000-0.3327.8880.311-2.556F-4.9921.30.4556.622-6.9972.688189.420.1440.7660.855-0.33411.5512.666-0.448P-1.2220.8882.233-5.004-4.665-1.552122.350.166-0.4430.733-0.66-1.336-3.4449.000S1.966-1.6630.577-8.4471.6442.35519.7750.566-0.880.611-1.000-6.660-5.225-1.113T0.922-2.009-1.44-5.22-0.88
16、2-0.1159.4440.655-0.5580.855-0.889-4.009-3.3390.177W-4.7753.6550.85516.556-8.2236.033179.161.0881.0000.988-0.44711.9927.9221.255Y-1.3392.3220.01110.336-2.0084.511132.160.7220.9770.666-0.1164.8006.3330.055V-2.669-2.553-1.229-3.773-5.114-4.772120.910.077-1.0000.799-0.5587.700-4.2270.633.3結(jié)果果與討論論在SVRR模
17、型中中,通過過依次去去掉肽鏈鏈中的每每個(gè)氨基基酸的z-sscalles中的一一個(gè)值,根根據(jù)模型型LOOO-CV法的PREESS值的大大小可以以判斷每每個(gè)氨基基酸對(duì)此此類肽類類似物生生物活性性的影響響。為此此,以每每去掉一一個(gè)z-sscalles的模型型(5個(gè)參數(shù)數(shù))的PREESS與原模模型(6個(gè)參數(shù)數(shù))的PREESS的差值值為縱坐坐標(biāo),以以依次去去掉z-sscalles中的一一個(gè)值的的順序?yàn)闉闄M坐標(biāo)標(biāo)作圖(圖2、圖4、圖6)。由于z1主要和氨基酸的親水性有關(guān)、z2同氨基酸的立體大小有關(guān)和z3主要氨基酸的電性參數(shù)有關(guān)5。所以,由圖2可知,PRESS在依次分別去掉第一、二位氨基酸的z1時(shí)升高很多,
18、說明苦味二肽的活性主要與兩個(gè)位置的疏水性性質(zhì)有關(guān),這與文獻(xiàn)相一致4;PRESS在依次分別去掉第一、二位氨基酸的z2時(shí)略有升高,苦味二肽的活性主要與兩個(gè)位置的立體大小性質(zhì)弱相關(guān);去掉z3時(shí)幾乎沒有變化,表明與其電性性質(zhì)無關(guān)。圖248個(gè)苦味二肽PRESS差值與去掉氨基酸性質(zhì)位置Figure 1 Plot of PRESS and removed amino acid property position of a set 48 bitter tasting dipeptides with z-scales(圖題:中文用用宋體五五號(hào)、英文文用Tiimess Neew RRomaan五號(hào)、加粗,居居中,
19、序序序后空空1格,不不用標(biāo)點(diǎn)點(diǎn)符號(hào))(英文圖圖題: Timmes Neww Roomann五號(hào)、加粗粗,居中中,圖序序后空2格,不用用標(biāo)點(diǎn)符符號(hào))(圖注:中文用用宋體五五號(hào)、英文文用Tiimess Neew RRomaan五號(hào),居中中).參考文獻(xiàn)獻(xiàn)(中文用用宋體四四號(hào)加粗,頂頂格、左左端對(duì)齊齊,不用用序號(hào))1(Timmes Neww Roomann五號(hào)、后空1格,不不用標(biāo)點(diǎn)點(diǎn)符號(hào))HelllbeergSS,SjoostrroemmM,SkaagerrberrgB,et al. Peeptidde qquanntittatiive strructturee-acctivvityy ree laa
20、tioonshhipss,a mmulttivaariaate appproaach J.J.Medd Chhem,19887,330:1122611335.2丁丁俊杰,丁丁曉琴,趙趙立峰,等.多肽定量構(gòu)效關(guān)系與分子設(shè)計(jì)J.化學(xué)進(jìn)展,2005,17:130136.3 CoccchiiM,JohhansssonnE.Amiino aciids chaaraccterrizaatioon bby GGRIDD annd mmulttivaariaate datta aanallysiisJJ. QuaantSStruuct-Actt.Reelatt.,19993,112:18.4 Colllann
21、tessER,DunnnWJIIII. Amminoo accidss siide chaain desscriiptoors forr quuanttitaativve sstruuc tturee-acctivvityy reelattionnshiip sstuddiess off peeptiide anaalogguessJ.J.Medd.Chhem.,19995,33:27005-227133.5 Zallianni AA,GannciaaE. MSS-WHHIM scooress foor aaminno aac iids: a neww 3DD-deescrripttor fo
22、rr peeptiide QSAAR aand QSPPR sstuddiessJ,J.CChemm.Innf.CCompput.Scii,19999,339:52555333.6 Spyyriddon V,Booojalla VV B R,andd Yiiannnis K.PPreddicttionn off diistaant ressiduue cconttactts wwithh thhe uuse of evooluttionnaryy innforrmattionnJ.Protteinns:strructturee,funnctiion,andd biioinnforrmattic
23、ss,20005,58:9359499.7丁丁俊杰,丁丁曉琴,趙趙立峰,等.新型三維氨基酸結(jié)構(gòu)描述符的研究及其在多肽QSAR中的應(yīng)用J.藥學(xué)學(xué)報(bào),2005,40(4):340346.8 Shuusheen LLiu,Chuunshhengg Yiin,Shaaoxii,et al,A NNoveel MMHDVV Deescrripttor forr Diipepptidde QQSARR SttudiiesJ.Jouurnaaloffthee Chhineese Cheemiccal Soccietyy,20001,48:25332600.9 Sheengsshi Zhiiliaang Li
24、,Biaanhoong Fuaa,Yuaanqiiangg Waang,et al.On Strructturaal PParaametteriizattionn annd MMoleecullar Moddeliing of PepptiddeAnnalooguees bby MMoleecullar Eleectrroneegattiviity edgee Veectoor (VMEEE):Esttimaatioon aand Preedicctioon ffor Bioologgicaal AActiivitty oof DDipeeptiidessJ,Joournnal of thee
25、 Chhinesse CChemmicaal SSocietyy,20001,48:93779444.10 Liiu SShu-Sheen,Yinn Chhun-sheeng,Wanng LLiann-Shhengg.Coombiinedd MEEDV-GA-MLRR Meethood ffor QSAAR oof TThreee PPaneels of Steeroiid,DDipeeptiidess,annd CCOX-2 IInhiibittorssJ.J.cheem.IImpu.scii,20002,42:7497566.11 Liin ZZhihhua,Wu Yuzzhanng,Qu
26、aan XXuejjun,et al.Usee off a novvel eleectrrotoopollogiicall deescrripttor forr thhe ppreddicttionn off biioloogiccalaactiivitty oof ppepttidee annaloogueesJJ. Lettterrs iin PPepttidee Scciennce, 20002,9:27332811.12Nelllo Criistiianiini,Johhn SShawwe-TTayllor著.李國正正,王猛,曾華軍軍譯.支持向向量機(jī)導(dǎo)導(dǎo)論MM.北京:電子工工業(yè)出版版社,20004,981066.13 MAANOJJ BHHASIIN,GPSRAGGHAVVA.Anaalyssis andd prrediictiion of afffiniity ofTTAP binndinng ppepttidees uusinng ccasccadee SVVMJJ.PProtteinn Scciennce,20004,13:59
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024配音藝術(shù)交流合作合同模板及活動(dòng)安排3篇
- 2024信息化項(xiàng)目保密與數(shù)據(jù)保護(hù)合作協(xié)議3篇
- 2024版地板安裝服務(wù)購銷合同模板3篇
- 2024年04月中信銀行招考消費(fèi)者權(quán)益保護(hù)崗(008324)筆試歷年參考題庫附帶答案詳解
- 2024美食城檔口租賃合同(含節(jié)假日特色活動(dòng)策劃)3篇
- 專項(xiàng)隔墻板采購協(xié)議示范文本版B版
- 2024年03月交通銀行2024年春季招考海內(nèi)外博士后筆試歷年參考題庫附帶答案詳解
- 2025年度新能源電池產(chǎn)品承包合同范本4篇
- 2024版合伙企業(yè)退股協(xié)議書
- 2024男女合租房屋合同范本
- 替格瑞洛藥物作用機(jī)制、不良反應(yīng)機(jī)制、與氯吡格雷區(qū)別和合理使用
- 河北省大學(xué)生調(diào)研河北社會(huì)調(diào)查活動(dòng)項(xiàng)目申請書
- GB/T 20920-2007電子水平儀
- 如何提高教師的課程領(lǐng)導(dǎo)力
- 企業(yè)人員組織結(jié)構(gòu)圖
- 日本疾病診斷分組(DPC)定額支付方式課件
- 兩段焙燒除砷技術(shù)簡介 - 文字版(1)(2)課件
- 實(shí)習(xí)證明模板免費(fèi)下載【8篇】
- 復(fù)旦大學(xué)用經(jīng)濟(jì)學(xué)智慧解讀中國課件03用大歷史觀看中國社會(huì)轉(zhuǎn)型
- 案件受理登記表模版
- 最新焊接工藝評(píng)定表格
評(píng)論
0/150
提交評(píng)論