生物信息學(xué)講義_蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)_第1頁
生物信息學(xué)講義_蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)_第2頁
生物信息學(xué)講義_蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)_第3頁
生物信息學(xué)講義_蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)_第4頁
生物信息學(xué)講義_蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.第九章蛋白質(zhì)序列分析與結(jié)構(gòu)預(yù)測(cè)*;一種生物體的基因組規(guī)定了所有構(gòu)成該生物體的蛋白質(zhì),基因規(guī)定了組成蛋白質(zhì)的氨基酸序列。雖然蛋白質(zhì)由氨基酸的線性序列組成,但是,它們只有折疊成特定的空間構(gòu)象才能具有相應(yīng)的活性和相應(yīng)的生物學(xué)功能。了解蛋白質(zhì)的空間結(jié)構(gòu)不僅有利于認(rèn)識(shí)蛋白質(zhì)的功能,也有利于認(rèn)識(shí)蛋白質(zhì)是如何執(zhí)行其功能的。確定蛋白質(zhì)的結(jié)構(gòu)對(duì)于生物學(xué)研究是非常重要的。目前,蛋白質(zhì)序列數(shù)據(jù)庫的數(shù)據(jù)積累的速度非???,但是,已知結(jié)構(gòu)的蛋白質(zhì)相對(duì)比較少。盡管蛋白質(zhì)結(jié)構(gòu)測(cè)定技術(shù)有了較為顯著的進(jìn)展,但是,通過實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)的過程仍然非常復(fù)雜,代價(jià)較高。因此,實(shí)驗(yàn)測(cè)定的蛋白質(zhì)結(jié)構(gòu)比已知的蛋白質(zhì)序列要少得多。另一方

2、面,隨著 DNA 測(cè)序技術(shù)的發(fā)展,人類基因組及更多的模式生物基因組已經(jīng)或?qū)⒁煌耆珳y(cè)序,DNA 序列數(shù)量將會(huì)急增,而由于 DNA 序列分析技術(shù)和基因識(shí)別方法的進(jìn)步,我們可以從 DNA 推導(dǎo)出大量的蛋白質(zhì)序列。這意味著已知序列的蛋白質(zhì)數(shù)量和已測(cè)定結(jié)構(gòu)的蛋白質(zhì)數(shù)量(如蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 PDB 中的數(shù)據(jù))的差距將會(huì)越來越大。人們希望產(chǎn)生蛋白質(zhì)結(jié)構(gòu)的速度能夠跟上產(chǎn)生蛋白質(zhì)序列的速度,或者減小兩者的差距。那么如何縮小這種差距呢?我們不能完全依賴現(xiàn)有的結(jié)構(gòu)測(cè)定技術(shù),需要發(fā)展理論分析方法,這對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提出了極大的挑戰(zhàn)。20 世紀(jì) 60 年代后期,Anfinsen 首先發(fā)現(xiàn)去折疊蛋白或者說變性(dena

3、tured)蛋白質(zhì)在允許重新折疊的實(shí)驗(yàn)條件下可以重新折疊到原來的結(jié)構(gòu),這種天然結(jié)構(gòu)(native structure)對(duì)于蛋白質(zhì)行使生物功能具有重要作用,大多數(shù)蛋白質(zhì)只有在折疊成其天然結(jié)構(gòu)的時(shí)候才能具有完全的生物活性。自從 Anfinsen 提出蛋白質(zhì)折疊的信息隱含在蛋白質(zhì)的一級(jí)結(jié)構(gòu)中,科學(xué)家們對(duì)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)進(jìn)行了大量的研究,分子生物學(xué)家將有可能直接運(yùn)用適當(dāng)?shù)乃惴?,從氨基酸序列出發(fā),預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。本章主要著重介紹蛋白質(zhì)二級(jí)結(jié)構(gòu)及空間結(jié)構(gòu)預(yù)測(cè)的方法。9.1 引言基因是生命的藍(lán)圖,蛋白質(zhì)是生命的機(jī)器。來自于四種字符字母表(A,T(U),C,G)的核酸序列中蘊(yùn)藏著生命的信息,而蛋白質(zhì)則執(zhí)行著

4、生物體內(nèi)各種重要的工作,如生物化學(xué)反應(yīng)的催化、營養(yǎng)物質(zhì)的輸運(yùn)、生長和分化控制、生物信號(hào)的識(shí)別和傳遞等。蛋白質(zhì)序列由相應(yīng)的核酸序列所決定,通過對(duì)基因的轉(zhuǎn)錄和翻譯,將原來四字符的 DNA 序列,根據(jù)三聯(lián)密碼規(guī)則翻譯成 20 字符的蛋白質(zhì)氨基酸序列。蛋白質(zhì)具有不同的長度、不同的氨基酸排列和不同的空間結(jié)構(gòu),實(shí)驗(yàn)分析表明蛋白質(zhì)能夠形成特定的結(jié)構(gòu)。蛋白質(zhì)中相鄰的氨基酸通過肽鍵形成一條伸展的鏈,肽鏈上的氨基酸殘基形成局部的二級(jí)結(jié)構(gòu),各種二級(jí)結(jié)構(gòu)組合形成完整的折疊結(jié)構(gòu)。蛋白質(zhì)分子很大,其折疊的空間結(jié)構(gòu)會(huì)將一些區(qū)域包裹在內(nèi)部,而將其它的區(qū)域暴露在外。在蛋白質(zhì)的空間結(jié)構(gòu)中,序列上相距比較遠(yuǎn)的氨基酸可能彼此接近。在

5、水溶液中,肽鏈折疊成為特定的三維結(jié)構(gòu)。主要的驅(qū)動(dòng)力來自于氨基酸殘基的疏水性,氨基酸殘基的疏水性要求將氨基酸疏水片段放置于分子的內(nèi)部。圖 7.1(a)是酪氨酸磷酸酶的蛋白質(zhì)序列,圖 7.1(b)是對(duì)應(yīng)的二級(jí)結(jié)構(gòu),其中 H 代表螺旋,E 代表折疊,B 表示 橋,G 表示 310 螺旋,I 表示 螺旋,T 表示氫鍵轉(zhuǎn)角,S 代表轉(zhuǎn)向,圖 7.1(c)顯示的是該蛋白質(zhì)的折疊結(jié)構(gòu)。研究蛋白質(zhì)的結(jié)構(gòu)意義重大,分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計(jì)劃中的一個(gè)重要組成部分。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對(duì)于生物學(xué)

6、還是對(duì)于醫(yī)學(xué)和藥學(xué),都是非常重要的。對(duì)于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,可以進(jìn)行功能注釋,指導(dǎo)設(shè)計(jì)進(jìn)行功能確認(rèn)的生物學(xué)實(shí)驗(yàn)。通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。生物信息學(xué)的一個(gè)基本觀點(diǎn)是:分子的結(jié)構(gòu)決定分子的性質(zhì)和分子的功能。因此,生物大分子蛋白質(zhì)的空間結(jié)構(gòu)決定蛋白質(zhì)的生物學(xué)功能。但是,蛋白質(zhì)的空間結(jié)構(gòu)又是由什么決定的呢?當(dāng)一個(gè)蛋白質(zhì)的空間結(jié)構(gòu)被破壞以后,或者蛋白質(zhì)解折疊后,可以恢復(fù)其自然的折疊結(jié)構(gòu)。大量的實(shí)驗(yàn)結(jié)果證明:蛋白質(zhì)的結(jié)構(gòu)由蛋白質(zhì)序列所決定。雖然

7、影響蛋白質(zhì)空間結(jié)構(gòu)的另一個(gè)因素是蛋白質(zhì)分子所處的溶液環(huán)境,但是,決定蛋白質(zhì)結(jié)構(gòu)的信息則是被編碼于氨基酸序列之中。然而,這種編碼是否能被破譯呢?或者說是否能夠直接從氨基酸序列預(yù)測(cè)出蛋白質(zhì)的空間結(jié)構(gòu)呢?從數(shù)學(xué)上講,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問題是尋找一種從蛋白質(zhì)的氨基酸線性序列到蛋白質(zhì)所有原子三維坐標(biāo)的映射。典型的蛋白質(zhì)含有幾百個(gè)氨基酸、上千個(gè)原子,而大蛋白質(zhì)(如載脂蛋白)的氨基酸個(gè)數(shù)超過 4500。所有可能的序列到結(jié)構(gòu)的映射數(shù)隨蛋白質(zhì)氨基酸殘基個(gè)數(shù)呈指數(shù)增長,是天文數(shù)字。然而幸運(yùn)的是,自然界實(shí)際存在的蛋白質(zhì)是有限的,并且存在著大量的同源序列,可能的結(jié)構(gòu)類型也不多,序列到結(jié)構(gòu)的關(guān)系有一定的規(guī)律可循。因此,蛋

8、白質(zhì)結(jié)構(gòu)預(yù)測(cè)是可能的。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要有兩大類方法。一類是理論分析方法或從頭算方法(Ab initio),通過理論計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)計(jì)算)進(jìn)行結(jié)構(gòu)預(yù)測(cè)。該類方法假設(shè)折疊后的蛋白質(zhì)取能量最低的構(gòu)象。從原則上來說,我們可以根據(jù)物理、化學(xué)原理,通過計(jì)算來進(jìn)行結(jié)構(gòu)預(yù)測(cè)。但是在實(shí)際中,這種方法往往不合適。主要有幾個(gè)原因,一是自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu),兩者之間的能量差非常?。?kcal/mol 數(shù)量級(jí)),二是蛋白質(zhì)可能的構(gòu)象空間龐大,針對(duì)蛋白質(zhì)折疊的計(jì)算量非常大。另外,計(jì)算模型中力場(chǎng)參數(shù)的不準(zhǔn)確性也是一個(gè)問題。另一類蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的方法是統(tǒng)計(jì)方法,該類方法對(duì)已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)

9、分析,建立序列到結(jié)構(gòu)的映射模型,進(jìn)而根據(jù)映射模型對(duì)未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸序列預(yù)測(cè)結(jié)構(gòu)。映射模型可以是定性的,也可以是定量的。這是進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)較為成功的一類方法。這一類方法包括經(jīng)驗(yàn)性方法、結(jié)構(gòu)規(guī)律提取方法、同源模型化方法等。所謂經(jīng)驗(yàn)性方法就是根據(jù)一定序列形成一定結(jié)構(gòu)的傾向進(jìn)行結(jié)構(gòu)預(yù)測(cè),例如,根據(jù)不同氨基酸形成特定二級(jí)結(jié)構(gòu)的傾向進(jìn)行結(jié)構(gòu)預(yù)測(cè)。通過對(duì)已知結(jié)構(gòu)的蛋白質(zhì)(如蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 PDB、蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫 DSSP 中的蛋白質(zhì))進(jìn)行統(tǒng)計(jì)分析,可以發(fā)現(xiàn)各種氨基酸形成不同二級(jí)結(jié)構(gòu)的傾向,從而形成一系列關(guān)于二級(jí)結(jié)構(gòu)預(yù)測(cè)的規(guī)則。與經(jīng)驗(yàn)性方法相似的另一種辦法是結(jié)構(gòu)規(guī)律提取方法,這是更一般

10、的方法。該方法從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中提取關(guān)于蛋白質(zhì)結(jié)構(gòu)形成的一般性規(guī)則,指導(dǎo)建立未知結(jié)構(gòu)的蛋白質(zhì)的模型。有許多提取結(jié)構(gòu)規(guī)律的方法,如通過視覺觀察的方法,基于統(tǒng)計(jì)分析和序列多重比對(duì)的方法,利用人工神經(jīng)網(wǎng)絡(luò)提取規(guī)律的方法。同源模型化方法通過同源序列分析或者模式匹配預(yù)測(cè)蛋白質(zhì)的空間結(jié)構(gòu)或者結(jié)構(gòu)單元(如鋅指結(jié)構(gòu)、螺旋-轉(zhuǎn)角-螺旋結(jié)構(gòu)、DNA 結(jié)合區(qū)域等)。其原理基于下述事實(shí):每一個(gè)自然蛋白質(zhì)具有一個(gè)特定的結(jié)構(gòu),但許多不同的序列會(huì)采用同一個(gè)基本的折疊,也就是說,具有相似序列的蛋白質(zhì)傾向于折疊成相似的空間結(jié)構(gòu)。一對(duì)自然進(jìn)化的蛋白質(zhì),如果它們的序列具有 2530%的等同部分或者更多,則可以假設(shè)這兩個(gè)蛋白質(zhì)折疊

11、成相似的空間結(jié)構(gòu)。這樣,如果一個(gè)未知結(jié)構(gòu)的蛋白質(zhì)與一個(gè)已知結(jié)構(gòu)的蛋白質(zhì)具有足夠的序列相似性,那么可以根據(jù)相似性原理給未知結(jié)構(gòu)的蛋白質(zhì)構(gòu)造一個(gè)近似的三維模型。如果目標(biāo)蛋白質(zhì)序列的某一部分與已知結(jié)構(gòu)的蛋白質(zhì)的某一結(jié)構(gòu)域區(qū)域相似,則可以認(rèn)為目標(biāo)蛋白質(zhì)具有相同的結(jié)構(gòu)域或者功能區(qū)域。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面,預(yù)測(cè)結(jié)果最可靠的方法是同源模型化方法。蛋白質(zhì)的同源性比較往往是借助于序列比對(duì)而進(jìn)行的,通過序列比對(duì)可以發(fā)現(xiàn)蛋白質(zhì)之間進(jìn)化的關(guān)系。在蛋白質(zhì)結(jié)構(gòu)分析方面,通過序列比對(duì)可以發(fā)現(xiàn)序列保守模式或突變模式,這些序列模式中包含著非常有用的三維結(jié)構(gòu)信息。利用同源模型化方法可以預(yù)測(cè) 1030%蛋白質(zhì)的結(jié)構(gòu)。然而,許多具有

12、相似結(jié)構(gòu)的蛋白質(zhì)是遠(yuǎn)程同源的,它們的等同序列不到 25%。也就是說,具有相似空間結(jié)構(gòu)的蛋白質(zhì)序列等同程度可能小于 25%。這些蛋白質(zhì)的同源性不能被傳統(tǒng)的序列比對(duì)方法所識(shí)別。如果通過一個(gè)未知序列搜索一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫,并且搜索條件為序列等同程度小于 25%的話,那么將會(huì)得到大量不相關(guān)的蛋白質(zhì)。因此,搜索遠(yuǎn)程同源蛋白質(zhì)就像在干草堆里尋找一根針。尋找遠(yuǎn)程同源蛋白質(zhì)是一項(xiàng)困難的任務(wù),處理這項(xiàng)任務(wù)的技術(shù)稱為“線索(THREADING)技術(shù)”。對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì),僅當(dāng)我們找不到等同序列大于 25%的已知結(jié)構(gòu)的同源蛋白質(zhì)時(shí),才通過線索技術(shù)尋找已知結(jié)構(gòu)的遠(yuǎn)程同源蛋白質(zhì),進(jìn)而預(yù)測(cè)其結(jié)構(gòu)。找到一個(gè)遠(yuǎn)程同源

13、蛋白質(zhì)后,就可以利用遠(yuǎn)程同源建模方法來建立蛋白質(zhì)的結(jié)構(gòu)模型。如果既沒有找到一般的同源蛋白質(zhì),又沒有找到遠(yuǎn)程同源蛋白質(zhì),那么如何進(jìn)行結(jié)構(gòu)預(yù)測(cè)呢?一種可行的辦法就是充分利用現(xiàn)有數(shù)據(jù)庫中的信息,包括二級(jí)結(jié)構(gòu)和空間結(jié)構(gòu)的信息,首先從蛋白質(zhì)序列預(yù)測(cè)其二級(jí)結(jié)構(gòu),然后再從二級(jí)結(jié)構(gòu)出發(fā),預(yù)測(cè)蛋白質(zhì)的空間結(jié)構(gòu);或者采用從頭算方法進(jìn)行結(jié)構(gòu)預(yù)測(cè)。9.2 蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本依據(jù)是:每一段相鄰的氨基酸殘基具有形成一定二級(jí)結(jié)構(gòu)的傾向。因此,進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)需要通過統(tǒng)計(jì)和分析發(fā)現(xiàn)這些傾向或者規(guī)律,二級(jí)結(jié)構(gòu)預(yù)測(cè)問題自然就成為模式分類和識(shí)別問題。蛋白質(zhì)二級(jí)結(jié)構(gòu)的組成規(guī)律性比較強(qiáng),所有蛋白質(zhì)中約 85%

14、的氨基酸殘基處于三種基本二級(jí)結(jié)構(gòu)狀態(tài)( 螺旋、 折疊和轉(zhuǎn)角),并且各種二級(jí)結(jié)構(gòu)非均勻地分布在蛋白質(zhì)中。有些蛋白質(zhì)中含有大量的 螺旋,如血紅蛋白和肌紅蛋白;而另外一些蛋白質(zhì)中則不含或者僅含很少的 螺旋,如鐵氧蛋白;有些蛋白質(zhì)的二級(jí)結(jié)構(gòu)以 折疊為主,如免疫球蛋白。二級(jí)結(jié)構(gòu)預(yù)測(cè)的目標(biāo)是判斷每一個(gè)氨基酸殘基是否處于 螺旋、 折疊、轉(zhuǎn)角(或其它狀態(tài))之一的二級(jí)結(jié)構(gòu)態(tài),即三態(tài)。至今人們已經(jīng)發(fā)展了幾十種預(yù)測(cè)方法。9.2.1 利用的信息及預(yù)測(cè)準(zhǔn)確性蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)開始于 20 世紀(jì) 60 年代中期。二級(jí)結(jié)構(gòu)預(yù)測(cè)的方法大體分為三代,第一代是基于單個(gè)氨基酸殘基統(tǒng)計(jì)分析,從有限的數(shù)據(jù)集中提取各種殘基形成特定二級(jí)

15、結(jié)構(gòu)的傾向,以此作為二級(jí)結(jié)構(gòu)預(yù)測(cè)的依據(jù)。第二代預(yù)測(cè)方法是基于氨基酸片段的統(tǒng)計(jì)分析,使用大量的數(shù)據(jù)作為統(tǒng)計(jì)基礎(chǔ),統(tǒng)計(jì)的對(duì)象不再是單個(gè)氨基酸殘基,而是氨基酸片段,片段的長度通常為 11-21。片段體現(xiàn)了中心殘基所處的環(huán)境。在預(yù)測(cè)中心殘基的二級(jí)結(jié)構(gòu)時(shí),以殘基在特定環(huán)境中形成特定二級(jí)結(jié)構(gòu)的傾向作為預(yù)測(cè)依據(jù)。這些算法可以歸為幾類:(1)基于統(tǒng)計(jì)信息;(2)基于物理化學(xué)性質(zhì);(3)基于序列模式;(4)基于多層神經(jīng)網(wǎng)絡(luò);(5)基于圖論;(5)基于多元統(tǒng)計(jì);(6)基于機(jī)器學(xué)習(xí)的專家規(guī)則;(7)最鄰近算法。第一代和第二代預(yù)測(cè)方法有共同的缺陷,它們對(duì)三態(tài)預(yù)測(cè)的準(zhǔn)確率都低于 70%,而對(duì) 折疊預(yù)測(cè)的準(zhǔn)確率僅為 28

16、48%,其主要原因是這些方法在進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)時(shí)只利用局部信息,最多只用局部的 20 個(gè)殘基的信息進(jìn)行預(yù)測(cè)。二級(jí)結(jié)構(gòu)預(yù)測(cè)的實(shí)驗(yàn)結(jié)果和晶體結(jié)構(gòu)統(tǒng)計(jì)分析都表明,二級(jí)結(jié)構(gòu)的形成并非完全由局域的序列片段決定,長程相互作用不容忽視。蛋白質(zhì)的二級(jí)結(jié)構(gòu)在一定程度上受遠(yuǎn)程殘基的影響,尤其是 折疊。從理論上來說,局部信息僅包含二級(jí)結(jié)構(gòu)信息的 65%左右,因此,可以想象,只用局部信息的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其準(zhǔn)確率不會(huì)有太大的提高。二級(jí)結(jié)構(gòu)預(yù)測(cè)的第三代方法運(yùn)用蛋白質(zhì)序列的長程信息和蛋白質(zhì)序列的進(jìn)化信息,使二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確程度有了比較大的提高,特別是對(duì) 折疊的預(yù)測(cè)準(zhǔn)確率有較大的提高,預(yù)測(cè)結(jié)果與實(shí)驗(yàn)觀察趨于一致。一般

17、75%的氨基酸殘基可以被置換而不改變蛋白質(zhì)的結(jié)構(gòu),然而,有時(shí)改變幾個(gè)關(guān)鍵的殘基則可能導(dǎo)致破壞蛋白質(zhì)的結(jié)構(gòu)。這好像是兩個(gè)矛盾的結(jié)論,但解釋又非常簡單。一個(gè)蛋白質(zhì)在其進(jìn)化過程中探查了每個(gè)位置上氨基酸可能的與不可能的變化,不可能變化的部分是進(jìn)化保守區(qū)域??勺儾糠值淖兓桓淖兘Y(jié)構(gòu),而不可變部分的變化則改變蛋白質(zhì)的結(jié)構(gòu),由此失去蛋白質(zhì)原有的功能,因而也就難以延續(xù)下去。這些不可變部分體現(xiàn)了蛋白質(zhì)功能對(duì)結(jié)構(gòu)的特定要求。這樣,從一個(gè)蛋白質(zhì)家族中提取的殘基替換模式高度反映了該家族特異的結(jié)構(gòu)。通過序列的比對(duì)可以得到蛋白質(zhì)序列的進(jìn)化信息,得到蛋白質(zhì)家族中的特定殘基替換模式,此外,通過序列的比對(duì)也可以得到長程信息。目

18、前,許多二級(jí)結(jié)構(gòu)預(yù)測(cè)的算法是基于序列比對(duì)的,通過序列比對(duì)可以計(jì)算出目標(biāo)序列(待預(yù)測(cè)其二級(jí)結(jié)構(gòu)的序列)中每個(gè)氨基酸的保守程度。對(duì)于二級(jí)結(jié)構(gòu)三態(tài)(,none)預(yù)測(cè)準(zhǔn)確率首先達(dá)到 70%的方法是基于統(tǒng)計(jì)的神經(jīng)網(wǎng)絡(luò)方法 PHDsec。PHDsec 利用通過多重序列比對(duì)得到的進(jìn)化信息作為神經(jīng)網(wǎng)絡(luò)的輸入,另外采用了一個(gè)全局的描述子,即所有氨基酸組成(20 種氨基酸中每個(gè)所占的比例)作為蛋白質(zhì)序列的全局信息。這類算法預(yù)測(cè)的準(zhǔn)確率能達(dá)到 70至 75。各種方法預(yù)測(cè)的準(zhǔn)確率隨蛋白質(zhì)類型的不同而變化。例如,一種預(yù)測(cè)方法在某些情況下預(yù)測(cè)的準(zhǔn)確率能夠達(dá)到 90%,而在最差的情況下僅達(dá)到 50%,甚至更低。在實(shí)際應(yīng)用中

19、究竟使用哪一種方法,還需根據(jù)具體的情況。雖然二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性有待提高,其預(yù)測(cè)結(jié)果仍然能提供許多結(jié)構(gòu)信息,尤其是當(dāng)一個(gè)蛋白質(zhì)的真實(shí)結(jié)構(gòu)尚未解出時(shí)更是如此。通過對(duì)多種方法預(yù)測(cè)結(jié)果的綜合分析,再結(jié)合實(shí)驗(yàn)數(shù)據(jù),往往可以提高預(yù)測(cè)的準(zhǔn)確度。二級(jí)結(jié)構(gòu)預(yù)測(cè)通常作為蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)的第一步。例如,二級(jí)結(jié)構(gòu)預(yù)測(cè)是內(nèi)部折疊、內(nèi)部殘基距離預(yù)測(cè)的基礎(chǔ)。更進(jìn)一步,二級(jí)結(jié)構(gòu)預(yù)測(cè)可以作為其它工作的基礎(chǔ)。例如,用于推測(cè)蛋白質(zhì)的功能,預(yù)測(cè)蛋白質(zhì)的結(jié)合位點(diǎn)等。9.2.2 Chou-Fasman 方法Chou-Fasman 方法是一種基于單個(gè)氨基酸殘基統(tǒng)計(jì)的經(jīng)驗(yàn)參數(shù)方法,由 Chou 和 Fasman在 20 世紀(jì) 70 年代

20、提出來。通過統(tǒng)計(jì)分析,獲得每個(gè)殘基出現(xiàn)于特定二級(jí)結(jié)構(gòu)構(gòu)象的傾向性因子,進(jìn)而利用這些傾向性因子預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。每種氨基酸殘基出現(xiàn)在各種二級(jí)結(jié)構(gòu)中傾向或者頻率是不同的,例如 Glu 主要出現(xiàn)在 螺旋中,Asp 和 Gly 主要分布在轉(zhuǎn)角中,Pro 也常出現(xiàn)在轉(zhuǎn)角中,但是絕不會(huì)出現(xiàn)在 螺旋中。因此,可以根據(jù)每種氨基酸殘基形成二級(jí)結(jié)構(gòu)的傾向性或者統(tǒng)計(jì)規(guī)律進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。另外,不同的多肽片段有形成不同二級(jí)結(jié)構(gòu)的傾向。例如:肽鏈 Ala(A)-Glu(E)-Leu(L)-Met(M)傾向于形成 螺旋,而肽鏈 Pro(P)-Gly(G)-Tyr(Y)-Ser(S)則不會(huì)形成 螺旋。一個(gè)氨基酸殘基的二

21、級(jí)結(jié)構(gòu)傾向性因子定義為式中下標(biāo)i表示二級(jí)結(jié)構(gòu)態(tài),如螺旋、折疊、轉(zhuǎn)角、無規(guī)卷曲等;Ti是所有被統(tǒng)計(jì)殘基處于二級(jí)結(jié)構(gòu)態(tài)i的比例;Ai是第A種殘基處于結(jié)構(gòu)態(tài)i 的比例;Pi大于 1.0 表示該殘基傾向于形成二級(jí)結(jié)構(gòu)i,小于 1.0 則表示傾向于形成其它二級(jí)結(jié)構(gòu)。通過對(duì)大量已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì),為每個(gè)氨基酸殘基確定其二級(jí)結(jié)構(gòu)傾向性因子。在Chou-Fasman方法中,這幾個(gè)因子是P、P 和Pt ,它們分別表示相應(yīng)的殘基形成螺旋、折疊和轉(zhuǎn)角的傾向性。另外,每個(gè)氨基酸殘基同時(shí)也有四個(gè)轉(zhuǎn)角參數(shù),f(i)、f(i+1)、f(i+2)和f(i+3)。這四個(gè)參數(shù)分別對(duì)應(yīng)于每種殘基出現(xiàn)在轉(zhuǎn)角第一、第二、第三和第

22、四位的頻率,例如,脯氨酸約有 30%出現(xiàn)在轉(zhuǎn)角的第二位,然而出現(xiàn)在第三位的幾率不足 4%。表 7.1 中顯示了Chou-Fasman預(yù)測(cè)方法中所用到的各種參數(shù),其中參數(shù)值P、P和Pt是分別在原有相應(yīng)傾向性因子的基礎(chǔ)上乘以 100 而得到的。根據(jù)P 和P 的大小,可將 20 種氨基酸殘基分類,如谷氨酸、丙氨酸是最強(qiáng)的螺旋形成殘基,而纈氨酸、異亮氨酸則是最強(qiáng)的折疊形成殘基。除各個(gè)參數(shù)之外,還有一些其它的統(tǒng)計(jì)經(jīng)驗(yàn),如,脯氨酸和甘氨酸最傾向于中斷螺旋,而谷氨酸則通常傾向中斷折疊。表 7.120 種常見氨基酸的 Chou-Fasman 參數(shù)。氨基酸丙氨酸(A)精氨酸(R)天冬酰胺(N)天冬氨酸(D)半胱

23、氨酸(C)谷氨酸(E)谷氨酰胺(Q)甘氨酸(G)組氨酸(H)異亮氨酸(I)亮氨酸(L)賴氨酸(K)甲硫氨酸(M)苯丙氨酸(F)脯氨酸(P)絲氨酸(S)蘇氨酸(T)色氨酸(W)酪氨酸(Y)纈氨酸(V)P1429867101701511115710010812111414511357778310869106P83938954119371107587160130741051385575119137147170Pt669515614611974981569547591016060152143969611450f(i)0.060.0700.1610.1470.1490.0560.0740.1020.14

24、00.0430.0610.0550.0680.0590.1020.1200.0860.0770.0820.062f(i+1)0.0760.1060.0830.1100.0500.0600.0980.0850.0470.0340.0250.1150.0820.0410.3010.1390.1080.0130.0650.048f(i+2)0.0350.0990.1910.1790.1170.0770.0370.1900.0930.0130.0360.0720.0140.0650.0340.1250.0650.0640.1140.028f(i+3)0.0580.0850.0910.0810.1280

25、.0640.0980.1520.0540.0560.0700.0950.0550.0650.0680.1060.0790.1670.1250.053在統(tǒng)計(jì)得出氨基酸殘基傾向性因子的基礎(chǔ)上,Chou 和 Fasman 提出了二級(jí)結(jié)構(gòu)的經(jīng)驗(yàn)規(guī)則,其基本思想是在序列中尋找規(guī)則二級(jí)結(jié)構(gòu)的成核位點(diǎn)和終止位點(diǎn)。在具體預(yù)測(cè)二級(jí)結(jié)構(gòu)的過程中,首先掃描待預(yù)測(cè)的氨基酸序列,利用一組規(guī)則發(fā)現(xiàn)可能成為特定二級(jí)結(jié)構(gòu)成核區(qū)域的短序列片段,然后對(duì)于成核區(qū)域進(jìn)行擴(kuò)展,不斷擴(kuò)大成核區(qū)域,直到二級(jí)結(jié)構(gòu)類型可能發(fā)生變化為止,最后得到的就是一段具有特定二級(jí)結(jié)構(gòu)的連續(xù)區(qū)域。下面是 4 個(gè)簡要的規(guī)則。1. 螺旋規(guī)則沿著蛋白質(zhì)序列尋找螺旋

26、核,相鄰的 6 個(gè)殘基中如果有至少 4 個(gè)殘基傾向于形成螺旋,即有 4 個(gè)殘基對(duì)應(yīng)的P 100,則認(rèn)為是螺旋核。然后從螺旋核向兩端延伸,直至四肽片段P 的平均值小于 100 為止。按上述方式找到的片段長度大于 5,并且P 的平均值大于P 的平均值,那么這個(gè)片段的二級(jí)結(jié)構(gòu)就被預(yù)測(cè)為螺旋。此外,不容許Pro在螺旋內(nèi)部出現(xiàn),但可出現(xiàn)在C末端以及N端的前三位,這也用于終止螺旋的延伸。2. 折疊規(guī)則如果相鄰 6 個(gè)殘基中若有 4 個(gè)傾向于形成折疊,即有 4 個(gè)殘基對(duì)應(yīng)的P 100,則認(rèn)為是折疊核。折疊核向兩端延伸直至 4 個(gè)殘基P 的平均值小于 100 為止。若延伸后片段的P 的平均值大于 105,并且

27、P 的平均值大于P 的平均值,則該片段被預(yù)測(cè)為折疊。3. 轉(zhuǎn)角規(guī)則轉(zhuǎn)角的模型為四肽組合模型,要考慮每個(gè)位置上殘基的組合概率,即特定殘基在四肽模型中各個(gè)位置的概率。在計(jì)算過程中,對(duì)于從第i個(gè)殘基開始的連續(xù) 4 個(gè)殘基的片段,將上述概率相乘,根據(jù)計(jì)算結(jié)果判斷是否是轉(zhuǎn)角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于 7.5×10-5,四肽片段Pt的平均值大于 100,并且Pt 的均值同時(shí)大于P 的均值以及P 的均值,則可以預(yù)測(cè)這樣連續(xù)的 4 個(gè)殘基形成轉(zhuǎn)角。4. 重疊規(guī)則假如預(yù)測(cè)出的螺旋區(qū)域和折疊區(qū)域存在重疊,則按照重疊區(qū)域P 均值和P 均值的相

28、對(duì)大小進(jìn)行預(yù)測(cè),若P 的均值大于P 的均值,則預(yù)測(cè)為螺旋;反之,預(yù)測(cè)為折疊。Chou-Fasman 預(yù)測(cè)方法原理簡單明了,二級(jí)結(jié)構(gòu)參數(shù)的物理意義明確,該方法中二級(jí)結(jié)構(gòu)的成核、延伸和終止規(guī)則基本上反映了真實(shí)蛋白質(zhì)中二級(jí)結(jié)構(gòu)形成的過程。該方法的預(yù)測(cè)準(zhǔn)確率在 50%左右。9.2.3 GOR 方法GOR 是一種基于信息論和貝葉斯統(tǒng)計(jì)學(xué)的方法,方法的名稱以三個(gè)發(fā)明人姓名的第一個(gè)字母組合而成(Garnier, Osguthorpe, Robson)。信息論是于 1950-1960 期間發(fā)展起來的,其基本理論由 Shannon 首先提出,主要針對(duì)解決信息傳遞和處理問題。GOR 方法將蛋白質(zhì)序列當(dāng)作一連串的信

29、息值來處理,該方法不僅考慮了被預(yù)測(cè)位置本身氨基酸殘基種類的影響,而且考慮了相鄰殘基種類對(duì)該位置構(gòu)象的影響。GOR 針對(duì)長度為 17 的殘基窗進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。對(duì)序列中的每一個(gè)殘基,GOR 方法將與它 N 端緊鄰的 8個(gè)殘基和 C 端緊鄰的 8 個(gè)殘基與它放在一起進(jìn)行考慮。與 Chou-Fasman 方法一樣,GOR 方法也是通過對(duì)已知二級(jí)結(jié)構(gòu)的蛋白樣本集進(jìn)行分析,計(jì)算出中心殘基的二級(jí)結(jié)構(gòu)分別為螺旋、折疊和轉(zhuǎn)角時(shí)每種氨基酸出現(xiàn)在窗口中各個(gè)位置的頻率,從而產(chǎn)生一個(gè) 17×20 的得分矩陣。然后利用矩陣中的值來計(jì)算待預(yù)測(cè)的序列中每個(gè)殘基形成螺旋、折疊或者轉(zhuǎn)角的概率。GOR 方法是基于信息論

30、來計(jì)算這些參數(shù)的,下面介紹 GOR 方法的數(shù)學(xué)基礎(chǔ)。首先考慮兩個(gè)事件 S 和 R 的條件概率 P(S|R),即在 R 發(fā)生的條件下,S 發(fā)生的概率。定義信息為:若 S 和 R 無關(guān),即,則;若 R 的發(fā)生有利于 S 的發(fā)生,即, 則。;如果 R 的發(fā)生不利于 S 的發(fā)生,則有使用對(duì)數(shù)的優(yōu)點(diǎn)在于可將概率的乘積變?yōu)樾畔⒅档募雍汀T诙?jí)結(jié)構(gòu)預(yù)測(cè)過程中,S 表示特殊的二級(jí)結(jié)構(gòu)類型,R 代表氨基酸殘基,就是殘基 R 處于二級(jí)結(jié)構(gòu)類型 S 的概率。P(S)是在統(tǒng)計(jì)過程中觀察到二級(jí)結(jié)構(gòu)類型 S 的概率。根據(jù)條件概率的定義:P(S,R)是同時(shí)觀察到S和R的聯(lián)合概率,而P(R)是R的出現(xiàn)概率。對(duì)現(xiàn)有蛋白質(zhì)序列數(shù)

31、據(jù)庫和二級(jí)結(jié)構(gòu)數(shù)據(jù)庫進(jìn)行數(shù)學(xué)統(tǒng)計(jì)分析,很容易得到I(S;R)。如果令N為數(shù)據(jù)庫中總的氨基酸殘基的個(gè)數(shù),fR為殘基R的總個(gè)數(shù),fS為處于二級(jí)結(jié)構(gòu)類型S的殘基總數(shù),fS,R為殘基R處于二級(jí)結(jié)構(gòu)類型S的總數(shù),則:R 處于二級(jí)結(jié)構(gòu)類型 S 的信息值按下式計(jì)算:Robson 提出一種信息差的計(jì)算公式:這里,S 表示除 S 之外的其它所有二級(jí)結(jié)構(gòu)類型。例如,如果 S 代表 螺旋,則在三態(tài)情況下,S代表 折疊或者轉(zhuǎn)角。公式(7-6)從正反兩個(gè)方面給出關(guān)于氨基酸殘基 R 與二級(jí)結(jié)構(gòu) S 關(guān)系的信息值。若R可分為兩個(gè)較簡單的事件R1和R2,則有:式中第一項(xiàng)表示在R1發(fā)生的條件下,R2對(duì)事件S的影響,第二項(xiàng)則表示

32、R1對(duì)S的影響。上式可改寫為同理,若R可分解為一系列的簡單事件R1,R2,Rn,則有這里,R1,R2,Rn代表蛋白質(zhì)序列中一組連續(xù)的殘基,預(yù)測(cè)的對(duì)象是中心殘基,判斷它處于什么樣的構(gòu)象態(tài),其它殘基作為環(huán)境。GOR方法只考慮待預(yù)測(cè)殘基及其兩側(cè)各 8 個(gè)殘基。最早期的 GOR 方法采用了獨(dú)立事件近似,即后來的改進(jìn)GOR方法則考慮了中心殘基R1的影響,信息計(jì)算公式如下:通過統(tǒng)計(jì),可以得出各種殘基 R 處于中心殘基周圍各位置 i 時(shí)的信息值或,它們反映了周邊殘基對(duì)中心殘基形成特定二級(jí)結(jié)構(gòu)的影響。再通過近似公式(7-10)或(7-11),就可計(jì)算出。對(duì)于一條肽鏈中任一位置殘基 r 的構(gòu)象預(yù)測(cè)過程包括三個(gè)步

33、驟:(1)以 r 為中心,取其左右兩側(cè)共 17 個(gè)殘基作為計(jì)算的窗口(記為 R);(2)取窗口內(nèi)每個(gè)殘基的信息值,并按照公式(7-10)或者公式(7-11)加和,得到;(3)中心殘基 r 的二級(jí)結(jié)構(gòu)預(yù)測(cè)為最大的二級(jí)結(jié)構(gòu)類型 S。假定數(shù)據(jù)庫中有 1830 個(gè)殘基,780 個(gè)處于螺旋態(tài),1050 個(gè)處于非螺旋態(tài)。庫中共有 390個(gè)丙氨酸(A),有 240 個(gè) A 處于螺旋態(tài),其余 150 個(gè) A 處于非螺旋態(tài)。可得:根據(jù)公式(7-6),有:這里 H 代表二級(jí)結(jié)構(gòu)螺旋態(tài),而 H代表除 H 以外的其它類型二級(jí)結(jié)構(gòu), I(H;A)就是丙氨酸 A 處于中心位置時(shí)的螺旋信息值。早期 GOR 方法假設(shè)窗口內(nèi)

34、17 個(gè)殘基(包括中心殘基及左右兩側(cè)各 8 個(gè)殘基)是相互獨(dú)立的,每個(gè)殘基獨(dú)立地影響中心殘基的二級(jí)結(jié)構(gòu)。在此基礎(chǔ)上統(tǒng)計(jì)了 75 個(gè)蛋白質(zhì)的結(jié)構(gòu),總共有 12757 個(gè)殘基,所作統(tǒng)計(jì)結(jié)果為:螺旋 29.7%,折疊 19.7%,轉(zhuǎn)角 12.2%,無規(guī)卷曲38.3% 。根據(jù)所得到的信息值,發(fā)現(xiàn)有些殘基的信息值中心對(duì)稱,在窗口中心處其值取最大或者最小。例如,A 的螺旋信息值、I 的折疊信息值在窗口中心處取最大,這類殘基越靠近窗口中心,中心殘基就越容易形成特定二級(jí)結(jié)構(gòu);又如,G 螺旋信息值、L 的轉(zhuǎn)角信息值在窗口中心處取最小,這類殘基離窗口中心越近,中心殘基形成特定構(gòu)象的機(jī)會(huì)越小。有些殘基的信息值是不對(duì)

35、稱的,在一端為正,而在另一端為負(fù)。有的殘基在 N 端為正,C 端為負(fù),這類殘基位于 N 端時(shí)有利于中心殘基形成特定構(gòu)象,例如,E 對(duì)于螺旋支持程度屬于這種情況;有的殘基在 N 端為負(fù),C 端為正,當(dāng)這類殘基位于 C 端時(shí)有利于中心殘基形成特定構(gòu)象,比如,K 對(duì)于螺旋的支持程度屬于這種情況。GOR 方法中的信息值構(gòu)成了 20 種氨基酸出現(xiàn)在不同位置時(shí)的直接信息量表,根據(jù)該表和相關(guān)計(jì)算公式,就可以對(duì)一條肽鏈中任一位置殘基的構(gòu)象進(jìn)行預(yù)測(cè)。GOR 方法的物理意義明確,數(shù)學(xué)上比較嚴(yán)格,但計(jì)算過程較為復(fù)雜。應(yīng)用 GOR 方法預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)為螺旋、折疊或者轉(zhuǎn)角的準(zhǔn)確率大約為 65。9.2.4 基于氨基

36、酸疏水性的預(yù)測(cè)方法這種方法是一種用物理化學(xué)方法進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)的方法,或稱為立體化學(xué)方法。在蛋白質(zhì)中,氨基酸的理化性質(zhì)對(duì)蛋白質(zhì)的二級(jí)結(jié)構(gòu)影響較大,因此在進(jìn)行結(jié)構(gòu)預(yù)測(cè)時(shí)需要考慮氨基酸殘基的物理化學(xué)性質(zhì),如疏水性、極性、側(cè)鏈基團(tuán)的大小等,根據(jù)氨基酸殘基各方面的性質(zhì)及殘基之間的組合預(yù)測(cè)可能形成的二級(jí)結(jié)構(gòu)?!笆杷浴笔前被岬囊环N重要性質(zhì),疏水性的氨基酸傾向于遠(yuǎn)離周圍水分子,將自己包埋進(jìn)蛋白質(zhì)的內(nèi)部。這一趨勢(shì)加上空間立體條件和其它一些因素決定了一個(gè)蛋白質(zhì)最終折疊成的三維空間構(gòu)象。20 種氨基酸的疏水參數(shù)見表 7.2,其中,高正值的氨基酸具有更大的疏水性,而低負(fù)值的氨基酸則更加親水。表 7.220 種常

37、見氨基酸的疏水參數(shù)。隨著蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的積累,人們開始注意到一些較簡單的序列與結(jié)構(gòu)關(guān)系??梢岳酶鞣N氨基酸的疏水值定位蛋白質(zhì)的疏水區(qū)域,通過疏水氨基酸出現(xiàn)的周期性預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。Lim 等人很早就對(duì) 螺旋和 折疊歸納出了一套預(yù)測(cè)模式。例如 螺旋的輪狀結(jié)構(gòu)特征,輪的一側(cè)通常處于蛋白質(zhì)的疏水核心,另一側(cè)則常處于親水表面,如圖 7.2 所示。因此, 螺旋中親疏水氨基酸殘基的出現(xiàn)位置也就有一定的規(guī)律性,親水殘基多出現(xiàn)在親水側(cè)面,而疏水殘基則多出現(xiàn)在疏水側(cè)面,反映在序列上就是一些特征的親疏水殘基間隔模式。序號(hào)氨基酸疏水值1Ala(A)1.82Arg(R)-4.53Asn(N)-3.54Asp(D)

38、-3.55Cys(C)2.56Gln(Q)-3.57Glu(E)-3.58Gly(G)-0.49His(H)-3.210Ile(I)4.511Leu(L)3.812Lys(K)-3.913Met(M)1.914Phe(F)2.815Pro(P)-1.616Ser(S)-0.817Thr(T)-0.718Trp(W)-0.919Tyr(Y)-1.320Val(V)4.2疏水性氨基酸的位置有助于推斷蛋白質(zhì)中二級(jí)結(jié)構(gòu)的定位,通過顯示疏水氨基酸的分布分析二級(jí)結(jié)構(gòu)。例如,圖 7.2 是利用HELICALWHEEL程序畫出的蛋白質(zhì)蜂毒素旋輪圖。圖中各個(gè)氨基酸沿螺旋排布,相鄰氨基酸之間的旋轉(zhuǎn)角度為 100o

39、。疏水性氨基酸L、I和V位于螺旋的一側(cè),而親水性氨基酸則分布在另外一側(cè),顯示這個(gè)螺旋的兩親特性。根據(jù)蛋白質(zhì)序列中疏水性氨基酸出現(xiàn)模式,可以預(yù)測(cè)局部的二級(jí)結(jié)構(gòu)。例如,當(dāng)我們?cè)谝欢涡蛄兄邪l(fā)現(xiàn)第 i、i+3、i+4 位是疏水氨基酸時(shí),這一片段就被可以預(yù)測(cè)為 螺旋;當(dāng)我們發(fā)現(xiàn)第 i、i+1、i+4 位為疏水氨基酸時(shí),這一片段也可以被預(yù)測(cè)為 螺旋。同樣,對(duì)于 折疊,也存在著一些特征的親疏水殘基間隔模式,埋藏的 折疊通常由連續(xù)的疏水殘基組成,一側(cè)暴露的 折疊則通常具有親水-疏水的兩殘基重復(fù)模式。不過,由于 折疊受結(jié)構(gòu)環(huán)境的影響較大,序列的親疏水模式不及 螺旋有規(guī)則。原則上,通過在序列中搜尋特殊的親疏水殘基

40、間隔模式,就可以預(yù)測(cè) 螺旋和 折疊。在 Biou 等人提出的點(diǎn)模式方法中,將 20 種氨基酸殘基分為親水和疏水殘基,用八殘基片段表征親疏水間隔模式。以一個(gè)二進(jìn)制位代表一個(gè)殘基,疏水為 1,親水為 0,共八位。這樣,八殘基片段的親疏水模式就可用 1 個(gè) 0255 的數(shù)值來表示。 螺旋的特征模式對(duì)應(yīng)的值為 9,12,13,17,201,205,217,219,237; 折疊的特征模式則由連續(xù)的 1或交替的 01 構(gòu)成。在進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)時(shí),根據(jù)氨基酸片段計(jì)算點(diǎn)模式,如果點(diǎn)模式的值為 螺旋的特征數(shù),則片段預(yù)測(cè)為 螺旋;若為 折疊的特征數(shù),則片段預(yù)測(cè)為 折疊。其余的預(yù)測(cè)為無規(guī)則卷曲。這種方法的三態(tài)預(yù)測(cè)

41、準(zhǔn)確率為 55%左右,其中對(duì)無規(guī)則卷曲預(yù)測(cè)過多,而對(duì) 折疊則預(yù)測(cè)不足。當(dāng)序列長度小于 50 時(shí),準(zhǔn)確率較高。上述方法定性描述序列片段的親、疏水特征,通過特征模式識(shí)別來預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。另一種方法是直接計(jì)算序列片段的疏水性和疏水矩,并根據(jù)定量計(jì)算結(jié)果預(yù)測(cè)該片段對(duì)應(yīng)的二級(jí)結(jié)構(gòu)。序列片段疏水性計(jì)算的方法依賴于各個(gè)氨基酸殘基疏水值。對(duì)于一條蛋白質(zhì)序列,用一個(gè)滑動(dòng)窗口掃描該序列,計(jì)算滑動(dòng)窗口下各個(gè)氨基酸的平均疏水值和疏水矩。窗口的寬度是可以調(diào)整的,一般取 915 殘基的窗口寬度,以獲得較多的信息和較小的噪聲干擾。平均疏水值的計(jì)算公式如下:其中Hi是片段第i殘基的疏水值。疏水矩的計(jì)算公式如下:其中Si

42、是碳原子到側(cè)鏈中心的單位矢量。按照公式(7-12)的計(jì)算結(jié)果,畫出整個(gè)蛋白質(zhì)的疏水曲線,形成疏水性圖。圖 7.3 是人類視紫質(zhì)蛋白的疏水圖。與蛋白質(zhì)疏水圖相對(duì)應(yīng)的是蛋白質(zhì)的疏水矩圖。通過分析這些圖譜,可以幫助預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。9.2.5 最鄰近方法早期,由于缺乏數(shù)據(jù),預(yù)測(cè)方法大多是基于單條序列的。隨著序列和結(jié)構(gòu)數(shù)據(jù)的增加,人們的研究轉(zhuǎn)向同源序列分析,充分利用隱藏在同源序列中的結(jié)構(gòu)信息,使得結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率得到了較大的提高。同源分析的基礎(chǔ)是序列比較,通過序列比較發(fā)現(xiàn)相似的序列,根據(jù)相似序列具有相似結(jié)構(gòu)的原理,將相似序列(或者序列片段)所對(duì)應(yīng)的二級(jí)結(jié)構(gòu)作為預(yù)測(cè)的結(jié)果。在Levitt等人建立的方

43、法中,將待預(yù)測(cè)的片段與數(shù)據(jù)庫中已知二級(jí)結(jié)構(gòu)的片段進(jìn)行相似性比較,利用打分矩陣計(jì)算出相似性得分,根據(jù)相似性得分以及數(shù)據(jù)庫中的構(gòu)象態(tài),構(gòu)建出待預(yù)測(cè)片段的二級(jí)結(jié)構(gòu)。這一方法對(duì)數(shù)據(jù)庫中同源序列的存在非常敏感,若數(shù)據(jù)庫中有相似性大于 30%的序列,則預(yù)測(cè)準(zhǔn)確率可大大上升。另一種更為合理的方法是將待預(yù)測(cè)二級(jí)結(jié)構(gòu)的蛋白質(zhì)U與多個(gè)已知結(jié)構(gòu)的同源序列Ti進(jìn)行多重比對(duì),對(duì)于U的每個(gè)殘基位置,其構(gòu)象態(tài)由多個(gè)同源序列對(duì)應(yīng)位置的構(gòu)象態(tài)決定,或取出現(xiàn)次數(shù)最多的構(gòu)象態(tài),或?qū)Ω鞣N可能的構(gòu)象態(tài)給出得分值。基于上述的策略,最鄰近方法(Nearest Neighboring methods)在預(yù)測(cè)二級(jí)結(jié)構(gòu)方面包括兩個(gè)過程,一是學(xué)習(xí)

44、過程,二是預(yù)測(cè)過程。在學(xué)習(xí)階段,用一個(gè)滑動(dòng)窗口(例如長度為 15)掃描已知結(jié)構(gòu)的訓(xùn)練序列,序列個(gè)數(shù)為幾百個(gè),并且這些序列彼此之間的相似性很小。通過窗口掃描形成大量的短片段(稱為訓(xùn)練片段),記錄這些片段中心氨基酸殘基的二級(jí)結(jié)構(gòu)。在預(yù)測(cè)階段,利用同樣大小的窗口掃描給定的序列U,將在每一個(gè)窗口位置下的序列片段U與上述訓(xùn)練片段相比較,找出 50 個(gè)最相似的訓(xùn)練片段。假設(shè)這些相似片段中心殘基各種二級(jí)結(jié)構(gòu)的出現(xiàn)頻率分別為f、f 和fc ,用它們預(yù)測(cè)片段U中心殘基的二級(jí)結(jié)構(gòu),可以取頻率最高的構(gòu)象態(tài)作為U中心殘基的二級(jí)結(jié)構(gòu),或者直接以f、f 和fc 反映U中心殘基各種構(gòu)象態(tài)可能的分布。根據(jù)處理過程的特點(diǎn),最鄰

45、近方法又稱為相似片段法。9.2.6 人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)是一種復(fù)雜的信息處理模型。隨著神經(jīng)網(wǎng)絡(luò)研究的興起,科學(xué)家們也將神經(jīng)網(wǎng)絡(luò)用于生物信息學(xué),其中包括二級(jí)結(jié)構(gòu)的預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)的分類、折疊方式的預(yù)測(cè)以及基因序列的分析等等。將神經(jīng)網(wǎng)絡(luò)用于二級(jí)結(jié)構(gòu)預(yù)測(cè)最早是由 Qian 和 Sejnowskit 提出的,他們受到神經(jīng)網(wǎng)絡(luò)在文字語言處理方面應(yīng)用的啟發(fā),將蛋白質(zhì)序列看作是由各種氨基酸字符組成的字符序列,將氨基酸殘基片段作為輸入的一串語言字符,二級(jí)結(jié)構(gòu)即為對(duì)應(yīng)的輸出。神經(jīng)網(wǎng)絡(luò)可以有效地學(xué)習(xí)蛋白質(zhì)二級(jí)結(jié)構(gòu)形成的復(fù)雜規(guī)律或模式,提取更多的信息,并利用所掌握的信息進(jìn)行預(yù)測(cè)。利用神經(jīng)網(wǎng)絡(luò)方法可以提高二級(jí)

46、結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率。早期的神經(jīng)網(wǎng)絡(luò)方法能夠得到 63-65% 的二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率,利用多序列比對(duì)的信息對(duì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率能夠達(dá)到 70%。用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò),包括輸入層、隱含層以及輸出層。每一層由若干神經(jīng)元組成,輸入層神經(jīng)元與隱含層的神經(jīng)元是完全連接的,即任何一個(gè)輸入層神經(jīng)元都與任何一個(gè)隱含層的神經(jīng)元連接,在圖 7.4 中用一個(gè)大箭頭表示。同樣,隱含層神經(jīng)元與輸出層的神經(jīng)元也是完全連接的。輸入層用于接收蛋白質(zhì)窗口序列數(shù)據(jù)。沿蛋白質(zhì)的氨基酸序列依次取一定大小的窗口,將窗口內(nèi)的序列片段進(jìn)行編碼,窗口包括中心氨基酸殘基及左右 m 個(gè)(共 2m+1 個(gè))殘基,每

47、一個(gè)殘基用 21 個(gè)神經(jīng)元編碼,因此,輸入層共有 21*(2m+1)個(gè)神經(jīng)元。在圖 7.4 中,對(duì)于每個(gè)殘基,僅畫出個(gè)神經(jīng)元。輸出層有 3 個(gè)神經(jīng)元,分別對(duì)應(yīng)于窗口中心殘基的 H、E、C 三態(tài)。輸入層中編碼一個(gè)殘基的 21個(gè)神經(jīng)元只有一個(gè)處于激發(fā)狀態(tài),即設(shè)置為 1,其余為 0,對(duì)應(yīng)于一種氨基酸殘基。類似地,代表中心殘基二級(jí)結(jié)構(gòu)狀態(tài)的輸出單元的期望輸出為 1,其它兩個(gè)單元為 0。在這樣一種神經(jīng)網(wǎng)絡(luò)模型中,隱含層的神經(jīng)元是完成從氨基酸序列到蛋白質(zhì)二級(jí)結(jié)構(gòu)映射的關(guān)鍵,這種映射是非線性的。通過隱含層的信息處理,可以檢測(cè)殘基及所處環(huán)境與二級(jí)結(jié)構(gòu)的復(fù)雜關(guān)系。隱含層的神經(jīng)元個(gè)數(shù)一般從 2 個(gè)變化到幾十個(gè),隱

48、含層的神經(jīng)元越多,則神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練實(shí)例的記憶能力越強(qiáng),但是神經(jīng)網(wǎng)絡(luò)的推廣能力將越弱,對(duì)新蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率越低。因此,在實(shí)際應(yīng)用中需要通過大量實(shí)驗(yàn),選擇合適的隱含層神經(jīng)元個(gè)數(shù)。神經(jīng)網(wǎng)絡(luò)通過神經(jīng)元之間的連接存貯信息或知識(shí),因此,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程實(shí)際上是調(diào)整網(wǎng)絡(luò)中各連接權(quán)值的過程。神經(jīng)網(wǎng)絡(luò)中各層之間的連接權(quán)值調(diào)整采用反向傳播 BP 算法(相應(yīng)的網(wǎng)絡(luò)稱為 BP 網(wǎng))。在訓(xùn)練或?qū)W習(xí)過程中,將結(jié)構(gòu)已知的蛋白質(zhì)序列由輸入層輸入,不斷調(diào)整神經(jīng)網(wǎng)絡(luò)神經(jīng)元之間的連接權(quán)重及網(wǎng)絡(luò)節(jié)點(diǎn)的偏置,直至實(shí)際輸出與期望值差別最小為止。在訓(xùn)練過程的每一步,取一個(gè)窗口中的序列及窗口中心氨基酸所對(duì)應(yīng)的二級(jí)結(jié)構(gòu)作為已知的映射結(jié)果,調(diào)整網(wǎng)絡(luò)映射行為,使之與已知映射關(guān)系相一致。訓(xùn)練完畢后,得到一個(gè)已確定參數(shù)并且可以進(jìn)行結(jié)構(gòu)預(yù)測(cè)的實(shí)際

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論