




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多序列比對(duì)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)第1頁(yè),共48頁(yè),2023年,2月20日,星期四
雙序列比對(duì)是序列分析的基礎(chǔ)。然而,對(duì)于構(gòu)成基因家族的成組的序列來(lái)說(shuō),我們要建立多個(gè)序列之間的關(guān)系,這樣才能揭示整個(gè)基因家族的特征。多序列比對(duì)在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著相當(dāng)重要的作用。第2頁(yè),共48頁(yè),2023年,2月20日,星期四
多序列比對(duì)有時(shí)用來(lái)區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對(duì)一個(gè)基因家族的特征有一個(gè)簡(jiǎn)明扼要的了解。與雙序列比對(duì)一樣,多序列比對(duì)的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上。因此,正如我們不能對(duì)雙序列比對(duì)的結(jié)果得出“正確或錯(cuò)誤”的簡(jiǎn)單結(jié)論一樣,多序列比對(duì)的結(jié)果也沒(méi)有絕對(duì)正確和絕對(duì)錯(cuò)誤之分,而只能認(rèn)為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征。第3頁(yè),共48頁(yè),2023年,2月20日,星期四
目前,構(gòu)建多序列比對(duì)模型的方法大體可以分為兩大類。第一類是基于氨基酸殘基的相似性,如物化性質(zhì)、殘基之間的可突變性等。另一類方法則主要利用蛋白質(zhì)分子的二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)信息,也就是說(shuō)根據(jù)序列的高級(jí)結(jié)構(gòu)特征確定比對(duì)結(jié)果。這兩種方法所得結(jié)果可能有很大差別。一般說(shuō)來(lái),很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說(shuō),它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息。第4頁(yè),共48頁(yè),2023年,2月20日,星期四
基于序列信息和基于結(jié)構(gòu)信息的比對(duì)都是非常重要的比對(duì)模型,但它們都有不可避免的局限性,因?yàn)檫@兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息。蛋白質(zhì)序列是經(jīng)過(guò)DNA序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與DNA分子所攜帶的信息更為“接近”。而蛋白質(zhì)結(jié)構(gòu)除了序列本身帶來(lái)的信息外,還包括經(jīng)過(guò)翻譯后加工修飾所增加的結(jié)構(gòu)信息,包括殘基的修飾,分子間的相互作用等,最終形成穩(wěn)定的天然蛋白質(zhì)結(jié)構(gòu)。因此,這也是對(duì)完全基于序列數(shù)據(jù)比對(duì)方法批評(píng)的主要原因。
第5頁(yè),共48頁(yè),2023年,2月20日,星期四
如果能夠利用結(jié)構(gòu)數(shù)據(jù),對(duì)于序列比對(duì)無(wú)疑有很大幫助。不幸的是,與大量的序列數(shù)據(jù)相比,實(shí)驗(yàn)測(cè)得的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)實(shí)在少得可憐。在大多數(shù)情況下,并沒(méi)有結(jié)構(gòu)數(shù)據(jù)可以利用,我們只能依靠序列的相似性和一些生物化學(xué)特性建立一個(gè)比較滿意的多序列比對(duì)模型。第6頁(yè),共48頁(yè),2023年,2月20日,星期四多序列比對(duì)的定義
為了便于描述,對(duì)多序列比對(duì)過(guò)程給出下面的定義。把多序列比對(duì)看作一張二維表,表中每一行代表一個(gè)序列,每一列代表一個(gè)殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個(gè)序列所有殘基的相對(duì)位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對(duì)齊(表1)。
第7頁(yè),共48頁(yè),2023年,2月20日,星期四1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比對(duì)的定義表示五個(gè)短序列(I-V)的比對(duì)結(jié)果。通過(guò)插入空位,使5個(gè)序列中大多數(shù)相同或相似殘基放入同一列,并保持每個(gè)序列殘基順序不變第8頁(yè),共48頁(yè),2023年,2月20日,星期四
我們稱比對(duì)前序列中殘基的位置為絕對(duì)位置。如序列Ⅰ的第3位的殘基是甘氨酸G,則絕對(duì)位置Ⅰ3就是甘氨酸,而不能變成任何其它氨基酸。相應(yīng)地,我們稱比對(duì)后序列中殘基的位置為相對(duì)位置。顯然,同一列中所有殘基的相對(duì)位置相同,而每個(gè)殘基的絕對(duì)位置不同,因?yàn)樗鼈儊?lái)自不同的序列。絕對(duì)位置是序列本身固有的屬性,或者說(shuō)是比對(duì)前的位置,而相對(duì)位置則是經(jīng)過(guò)比對(duì)后的位置,也就比對(duì)過(guò)程賦予它的屬性。第9頁(yè),共48頁(yè),2023年,2月20日,星期四算法復(fù)雜性
多序列比對(duì)的計(jì)算量相當(dāng)可觀,因此有必要分析以下技術(shù)的復(fù)雜性。雙序列比對(duì)所需要的計(jì)算時(shí)間和內(nèi)存空間與這兩個(gè)序列的長(zhǎng)度有關(guān),或者說(shuō)正比于這兩個(gè)序列長(zhǎng)度的乘積,用O(m1m2)表示。其中m1、m2是指兩條序列的長(zhǎng)度。三序列比對(duì)則可以理解為將雙序列比對(duì)的兩維空間擴(kuò)展到三維,即在原有二維平面上增加一條坐標(biāo)軸。這樣算法復(fù)雜性就變成了O(m1m2m3),其中m3表示第三條序列的長(zhǎng)度。第10頁(yè),共48頁(yè),2023年,2月20日,星期四
隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。我們用O(m1m2m3…mn)表示對(duì)n個(gè)序列進(jìn)行比對(duì)時(shí)的算法復(fù)雜性,其中mn是最后一條序列的長(zhǎng)度。若序列長(zhǎng)度相差不大,則可簡(jiǎn)化成O(mn),其中n表示序列的數(shù)目,m表示序列的長(zhǎng)度。顯然,隨著序列數(shù)量的增加,序列比對(duì)的算法復(fù)雜性按指數(shù)規(guī)律增長(zhǎng)。第11頁(yè),共48頁(yè),2023年,2月20日,星期四
降低算法復(fù)雜性,是研究多序列比對(duì)的一個(gè)重要方面。為此,產(chǎn)生了不少很有實(shí)用意義的多序列比對(duì)算法。這些方法的特點(diǎn)是利用啟發(fā)式(heuristics)算法降低算法復(fù)雜性,以獲得一個(gè)較為滿意但并不一定是最優(yōu)的比對(duì)結(jié)果,用來(lái)找出子序列、構(gòu)建進(jìn)化樹(shù)、查找保守序列或序列模板,以及進(jìn)行聚類(clustering)分析等。有的算法將動(dòng)態(tài)規(guī)劃和啟發(fā)性算法結(jié)合起來(lái)。例如,對(duì)所有的序列進(jìn)行兩兩比對(duì),將所有的序列與某個(gè)特定的序列進(jìn)行比對(duì),根據(jù)某種給定的親源樹(shù)進(jìn)行分組比對(duì),等等。必須指出,上述方法求得的結(jié)果通常不是最優(yōu)解,至少需要經(jīng)過(guò)n-1次雙序列比對(duì),其中n為參與比對(duì)的序列個(gè)數(shù)。第12頁(yè),共48頁(yè),2023年,2月20日,星期四比對(duì)方法1.手工比對(duì)方法
手工比對(duì)方法在文獻(xiàn)中經(jīng)??吹健R?yàn)殡y免加入一些主觀因素,手工比對(duì)通常被認(rèn)為有很大的隨意性。其實(shí),即使用計(jì)算機(jī)程序進(jìn)行自動(dòng)比對(duì),所得結(jié)果中的片面性也不能予以忽視。在運(yùn)行經(jīng)過(guò)測(cè)試并具有比較高的可信度的計(jì)算機(jī)程序基礎(chǔ)上,結(jié)合實(shí)驗(yàn)結(jié)果或文獻(xiàn)資料,對(duì)多序列比對(duì)結(jié)果進(jìn)行手工修飾,應(yīng)該說(shuō)是非常必要的第13頁(yè),共48頁(yè),2023年,2月20日,星期四多序列比對(duì)的軟件已經(jīng)有許多,其中一些帶有編輯程序。最好的辦法是將自動(dòng)比對(duì)程序和編輯器整合在一起。為了便于進(jìn)行交互式手工比對(duì),通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。顏色的選擇十分重要,如果使用不當(dāng),看起來(lái)不很直觀,就會(huì)使比對(duì)結(jié)果中一些有用的信息丟失。相反,如果選擇得當(dāng),就能從序列比對(duì)結(jié)果中迅速找到某些重要的結(jié)構(gòu)模式和功能位點(diǎn)。第14頁(yè),共48頁(yè),2023年,2月20日,星期四
例如,如果用某種顏色表示一組高度保守的殘基,則某個(gè)序列的某一位點(diǎn)發(fā)生突變時(shí),則由于顏色不同,就可以很快找出。顏色的選擇可以根據(jù)主觀愿望和喜好,但最好和常規(guī)方法一致。用來(lái)構(gòu)筑三維模型的按時(shí)氨基酸殘基組件和三維分子圖形軟件所用的顏色分類方法,比較容易為大家接受(表2)。第15頁(yè),共48頁(yè),2023年,2月20日,星期四表2氨基酸分組方法和代表性顏色殘基種類殘基特性顏色Asp(D),Glu(E)酸性紅色His(H),Arg(R),Lys(K)堿性蘭色Ser(S),Thr(T),Asn(N),Gln(Q)極性綠色Ala(A),Val(V),Leu(L),Ile(I),Met(M)疏水性,帶支鏈白色Phe(F),Tyr(Y),Trp(W)疏水性,帶苯環(huán)紫色Pro(P),Gly(G)側(cè)鏈結(jié)構(gòu)特殊棕色Cys(C)能形成二硫鍵黃色*表中采用的分組方法和用來(lái)區(qū)分不同組別的顏色與模型構(gòu)件和三維圖形軟件中所用方法一致第16頁(yè),共48頁(yè),2023年,2月20日,星期四
多序列比對(duì)程序的另一個(gè)重要用途是定量估計(jì)序列間的關(guān)系,并由此推斷它們?cè)谶M(jìn)化中的親緣關(guān)系??梢酝ㄟ^(guò)計(jì)算完全匹配的殘基數(shù)目或計(jì)算完全匹配殘基和相似殘基的數(shù)目得到這種定量關(guān)系。這一方法除了可以大略了解序列間的親緣關(guān)系外,也可用來(lái)評(píng)估比對(duì)質(zhì)量。如果序列的相似性值低于預(yù)料值,那么有可能是序列間親緣關(guān)系較遠(yuǎn),也可能是比對(duì)中有錯(cuò)誤之處第17頁(yè),共48頁(yè),2023年,2月20日,星期四2.同步法
同步法實(shí)質(zhì)是把給定的所有序列同時(shí)進(jìn)行比對(duì),而不是兩兩比對(duì)或分組進(jìn)行比對(duì)。其基本思想是將一個(gè)二維的動(dòng)態(tài)規(guī)劃矩陣擴(kuò)展到三維或多維。矩陣的維數(shù)反映了參與比對(duì)的序列數(shù)。這類方法對(duì)于計(jì)算機(jī)的系統(tǒng)資源要求較高,通常是進(jìn)行少量的較短的序列的比對(duì)第18頁(yè),共48頁(yè),2023年,2月20日,星期四
這類方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,1987)。由于對(duì)于實(shí)際的數(shù)據(jù)利用多維的動(dòng)態(tài)規(guī)劃矩陣來(lái)進(jìn)行序列的比對(duì)不太現(xiàn)實(shí),因此大多數(shù)實(shí)用的多序列比對(duì)程序采用啟發(fā)式算法,以降低運(yùn)算復(fù)雜度。
Clustal的基本思想是基于相似序列通常具有進(jìn)化相關(guān)性這一假設(shè)。比對(duì)過(guò)程中,先對(duì)所有的序列進(jìn)行兩兩比對(duì)并計(jì)算它們的相似性分?jǐn)?shù)值,然后根據(jù)相似性分?jǐn)?shù)值將它們分成若干組,并在每組之間進(jìn)行比對(duì),計(jì)算相似性分?jǐn)?shù)值。根據(jù)相似性分?jǐn)?shù)值繼續(xù)分組比對(duì),直到得到最終比對(duì)結(jié)果。比對(duì)過(guò)程中,相似性程度較高的序列先進(jìn)行比對(duì),而距離較遠(yuǎn)的序列添加在后面。作為程序的一部分,Clusal可以輸出用于構(gòu)建進(jìn)化樹(shù)的數(shù)據(jù)。3.步進(jìn)法第19頁(yè),共48頁(yè),2023年,2月20日,星期四Clustal程序有許多版本,ClustalW(Thompson等,1994),根據(jù)對(duì)親緣關(guān)系較近的序列間空位情況,確定如何在親緣關(guān)系較遠(yuǎn)的序列之間插入空位。同樣,相似性較高的序列比對(duì)結(jié)果中的殘基突變信息,可用于改變某個(gè)特殊位置空位罰分值的大小,推測(cè)該位點(diǎn)的序列變異性。
Clustal是免費(fèi)軟件,很容易從互聯(lián)網(wǎng)上下載,和其它軟件一起,廣泛用于序列分析。Clustal所支持的數(shù)據(jù)格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定義的格式。它的輸出格式可以是Clustal格式,也可以是可用于GDE、Phylip、GCG等軟件的格式第20頁(yè),共48頁(yè),2023年,2月20日,星期四多序列比對(duì)的數(shù)據(jù)庫(kù)第21頁(yè),共48頁(yè),2023年,2月20日,星期四
多序列比對(duì)的意義在于它能夠把不同種屬的相關(guān)序列的比對(duì)結(jié)果按照特定的格式輸出,并且在一定程度上反映它們之間的相似性。多序列比對(duì)結(jié)果所提供的信息對(duì)于提高數(shù)據(jù)庫(kù)搜索靈敏度也具有很大幫助。因此,方便實(shí)用的多序列比對(duì)數(shù)據(jù)庫(kù)也就應(yīng)運(yùn)而生。目前,互聯(lián)網(wǎng)上可用的多序列比對(duì)數(shù)據(jù)庫(kù)已經(jīng)不少。其中一些利用計(jì)算機(jī)程序?qū)⒁淮螖?shù)據(jù)庫(kù)按家族分類;另外一些則是通過(guò)手工或自動(dòng)方法根據(jù)基因家族構(gòu)建二次數(shù)據(jù)庫(kù)。第22頁(yè),共48頁(yè),2023年,2月20日,星期四
例如,Pfam是將一次庫(kù)通過(guò)自動(dòng)比對(duì)來(lái)構(gòu)建的數(shù)據(jù)庫(kù),它將大量具有結(jié)構(gòu)相似性的序列歸為一類,比如各種不同種類動(dòng)物的轉(zhuǎn)鐵蛋白的基因序列具有一定的相似性,Pfam將這些序列歸為一類命名為T(mén)RANSFERRIN,我們可以在Pfam查找TRANSFERRIN來(lái)得到原始序列比對(duì)信息,開(kāi)頭是一些注釋信息,然后給出了比對(duì)序列的名字,再下是比對(duì)結(jié)果,以“//”開(kāi)始,并以“//”結(jié)束。對(duì)于一個(gè)未知的蛋白質(zhì)序列在該序列庫(kù)中查詢,該序列庫(kù)會(huì)給出匹配的類及得分供你參考。第23頁(yè),共48頁(yè),2023年,2月20日,星期四
可以看看PRINTS數(shù)據(jù)庫(kù)關(guān)于TRANSFERRIN的比對(duì)信息,PRINTS數(shù)據(jù)庫(kù)在自動(dòng)比對(duì)的基礎(chǔ)上進(jìn)行了手工編輯,查尋PRINTS數(shù)據(jù)庫(kù)中關(guān)于TRANSFERRIN這一類的比對(duì)信息,結(jié)果可以用模體(motif)形式顯示也可以用點(diǎn)擊鏈接調(diào)用JAVAAPPLET進(jìn)行圖形顯示,下圖是關(guān)于TRANSFERRIN序列比對(duì)的局部圖形,可見(jiàn)PRINTS數(shù)據(jù)庫(kù)中TRANSFERRIN一類由更多的序列比對(duì)形成。第24頁(yè),共48頁(yè),2023年,2月20日,星期四第25頁(yè),共48頁(yè),2023年,2月20日,星期四
一般來(lái)說(shuō),對(duì)于具有較高相似性的一組序列之間的比對(duì),自動(dòng)比對(duì)方法是很有效的。一旦序列的親緣關(guān)系變得較遠(yuǎn),所得結(jié)果就不那么可信。若要得到比較可靠而又具有明確生物學(xué)意義的比對(duì)結(jié)果,比較有效的方法是對(duì)比對(duì)結(jié)果進(jìn)行手工編輯和調(diào)整。這對(duì)于構(gòu)建二次數(shù)據(jù)庫(kù)是非常重要的信息。在選擇現(xiàn)有的序列模式或序列模體公開(kāi)數(shù)據(jù)庫(kù)構(gòu)建自己的數(shù)據(jù)庫(kù)系統(tǒng)時(shí),對(duì)這些現(xiàn)有數(shù)據(jù)庫(kù)的可靠性必須采取謹(jǐn)慎的態(tài)度第26頁(yè),共48頁(yè),2023年,2月20日,星期四蛋白質(zhì)的結(jié)構(gòu)與功能預(yù)測(cè)第27頁(yè),共48頁(yè),2023年,2月20日,星期四
蛋白質(zhì)結(jié)構(gòu)與功能的研究已有相當(dāng)長(zhǎng)的歷史,由于其復(fù)雜性,對(duì)其結(jié)構(gòu)與功能的預(yù)測(cè)不論是方法論還是基礎(chǔ)理論方面均較復(fù)雜。統(tǒng)計(jì)學(xué)方法曾被成功地應(yīng)用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)中,如Chou和Fasman提出的經(jīng)驗(yàn)參數(shù)法便是最突出的例子。該方法統(tǒng)計(jì)分析了各種氨基酸的二級(jí)結(jié)構(gòu)分布特征,得出相應(yīng)參數(shù)(Pа,Pβ和Pt)并用于預(yù)測(cè)。下面簡(jiǎn)要介紹蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)的生物信息學(xué)途徑第28頁(yè),共48頁(yè),2023年,2月20日,星期四蛋白質(zhì)功能預(yù)測(cè)一、根據(jù)序列預(yù)測(cè)功能的一般過(guò)程
如果序列重疊群(contig)包含有蛋白質(zhì)編碼區(qū),則接下來(lái)的分析任務(wù)是確定表達(dá)產(chǎn)物——蛋白質(zhì)的功能。蛋白質(zhì)的許多特性可直接從序列上分析獲得,如疏水性,它可以用于預(yù)測(cè)序列是否跨膜螺旋(transmenbranehelix)或是前導(dǎo)序列(leadersequence)。但是,總的來(lái)說(shuō),我們根據(jù)序列預(yù)測(cè)蛋白質(zhì)功能的唯一方法是通過(guò)數(shù)據(jù)庫(kù)搜尋,比較該蛋白是否與已知功能的蛋白質(zhì)相似。有2條主要途徑可以進(jìn)行上述的比較分析:第29頁(yè),共48頁(yè),2023年,2月20日,星期四①比較未知蛋白序列與已知蛋白質(zhì)序列的相似性;②查找未知蛋白中是否包含與特定蛋白質(zhì)家族或功能域有關(guān)的亞序列或保守區(qū)段。第30頁(yè),共48頁(yè),2023年,2月20日,星期四圖1根據(jù)序列預(yù)測(cè)蛋白質(zhì)功能的技術(shù)路線第31頁(yè),共48頁(yè),2023年,2月20日,星期四二、通過(guò)比對(duì)數(shù)據(jù)庫(kù)相似序列確定功能
具有相似序列的蛋白質(zhì)具有相似的功能。因此,最可靠的確定蛋白質(zhì)功能的方法是進(jìn)行數(shù)據(jù)庫(kù)的相似性搜索。一個(gè)顯著的匹配應(yīng)至少有25%的相同序列和超過(guò)80個(gè)氨基酸的區(qū)段。第32頁(yè),共48頁(yè),2023年,2月20日,星期四
已有不少種類的數(shù)據(jù)庫(kù)搜索工具,它們或者搜索速度慢,但靈敏;或者快速,但不靈敏??焖偎阉鞴ぞ?如BLASTP)很容易發(fā)現(xiàn)匹配良好的序列,所以沒(méi)有必要再運(yùn)行更花時(shí)的工具(如FASTA、BLITZ);只有在諸如BLASTP不能發(fā)現(xiàn)顯著的匹配序列時(shí),這些工具才被使用。所以,一般的策略是首先進(jìn)行BLAST檢索,如果不能提供相關(guān)結(jié)果,運(yùn)行FASTA;如果FASTA也不能得到有關(guān)蛋白質(zhì)功能的線索,最后可選用完全根據(jù)Smith-Waterman算法設(shè)計(jì)的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。
BLITZ不做近似估計(jì)(BLAST和FASTA根據(jù)Smith-Waterman算法做近似估計(jì)),所以很花時(shí),但非常靈敏。通常諸如BLITZ的程序能夠發(fā)現(xiàn)超過(guò)幾百個(gè)殘基但序列相同比率低于20~25%的匹配,這些匹配可能達(dá)到顯著,但會(huì)被那些應(yīng)用近似估計(jì)的程序錯(cuò)過(guò)第33頁(yè),共48頁(yè),2023年,2月20日,星期四
還應(yīng)注意計(jì)分矩陣(scoringmatrix)的重要性。選用不同的計(jì)分矩陣有不少重要原因:首先,選用的矩陣必須與匹配水平相一致,例如,PAM250應(yīng)用于遠(yuǎn)距離匹配(<25%相同比率),PAM40應(yīng)用于不很相近的蛋白質(zhì)序列,而B(niǎo)LOSUM62是一個(gè)通用矩陣;第二,使用不同矩陣,可以發(fā)現(xiàn)始終出現(xiàn)的匹配序列,這是一條減少誤差的辦法。除了選用不同的計(jì)分矩陣,同樣可以考慮選用不同的數(shù)據(jù)庫(kù)。通??梢允褂玫臄?shù)據(jù)庫(kù)是無(wú)冗余蛋白序列數(shù)據(jù)庫(kù)SWISS-PROT和PDB。其它一些數(shù)據(jù)庫(kù)也可以試試,如可用BLASTP搜索復(fù)合蛋白質(zhì)序列庫(kù)OWL(www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html)第34頁(yè),共48頁(yè),2023年,2月20日,星期四三、序列特性:疏水性、跨膜螺旋等
許多功能可直接從蛋白質(zhì)序列預(yù)測(cè)出來(lái)。例如,疏水性信息可被用于跨膜螺旋的預(yù)測(cè)。還有不少小的模序(motif)是細(xì)胞用于特定細(xì)胞區(qū)室(cellcompartment)蛋白質(zhì)的定向。網(wǎng)上有大量數(shù)據(jù)資源幫助我們利用這些特性預(yù)測(cè)蛋白質(zhì)功能。第35頁(yè),共48頁(yè),2023年,2月20日,星期四疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序創(chuàng)建并演示。這是一個(gè)很有用的工具,它能計(jì)算超過(guò)50種蛋白質(zhì)的特性。程序的輸入即可通過(guò)輸入框?qū)⑿蛄姓迟N進(jìn)去,也可輸入SWISS-PROT的記錄號(hào)。僅一項(xiàng)需要額外設(shè)定的參數(shù)是輸入框的寬度,該參數(shù)將指示系統(tǒng)每次運(yùn)行計(jì)算和顯示的殘基數(shù),其缺省值為9。如果想考慮跨膜螺旋特性,該參數(shù)設(shè)置應(yīng)為20,因?yàn)橐粋€(gè)跨膜螺旋通常有20個(gè)氨基酸長(zhǎng)度第36頁(yè),共48頁(yè),2023年,2月20日,星期四
有多種方法可以預(yù)測(cè)序列的跨膜螺旋。最簡(jiǎn)單的方法是通過(guò)查找包含有20個(gè)疏水殘基的區(qū)段,一些更復(fù)雜、更準(zhǔn)確的算法不僅可以預(yù)測(cè)跨膜螺旋的位置,還能確定其在膜上的方向。這些方法都依賴于一系列已知跨膜螺旋特性的研究結(jié)果。TMbase是一個(gè)自然發(fā)生的跨膜螺旋數(shù)據(jù)庫(kù)(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相關(guān)的一些程序:TMPRED(http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm(www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP(http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT(ftp.biochem.ucl.ac.uk)。
這些程序?qū)⑹褂昧瞬煌慕y(tǒng)計(jì)模型,總體上,預(yù)測(cè)準(zhǔn)確率在80~95%左右??缒ぢ菪强梢愿鶕?jù)序列數(shù)據(jù)比較準(zhǔn)確預(yù)測(cè)的蛋白質(zhì)特性之一第37頁(yè),共48頁(yè),2023年,2月20日,星期四
預(yù)測(cè)前導(dǎo)序列或特殊區(qū)室靶蛋白信號(hào)的程序:SignalP(http://www.cbs.dtu.dk/services/SignalP)和PSORT(http://psort.nibbac.jp/form.html)。另一個(gè)可從序列中確定的功能模序是卷曲(coil)螺旋。在這一結(jié)構(gòu)中,二個(gè)螺旋由于疏水作用而纏繞在一起形成非常穩(wěn)定的結(jié)構(gòu)。相關(guān)的2個(gè)程序:COILS(http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil(/cgi-bin/score)第38頁(yè),共48頁(yè),2023年,2月20日,星期四四、通過(guò)比對(duì)模序數(shù)據(jù)庫(kù)等確定功能第39頁(yè),共48頁(yè),2023年,2月20日,星期四蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)一般情況下,蛋白質(zhì)的結(jié)構(gòu)分為4個(gè)層次:初級(jí)結(jié)構(gòu)——蛋白質(zhì)序列;二級(jí)結(jié)構(gòu)——а-螺旋和β-折疊片(β-sheets)模式;三級(jí)結(jié)構(gòu)——?dú)埢诳臻g的布局;四級(jí)結(jié)構(gòu)——蛋白質(zhì)之間的互作。一、蛋白質(zhì)結(jié)構(gòu)及其數(shù)據(jù)庫(kù)第40頁(yè),共48頁(yè),2023年,2月20日,星期四
近年來(lái),另一個(gè)介于二級(jí)和三級(jí)結(jié)構(gòu)之間的蛋白質(zhì)結(jié)構(gòu)層次——所謂蛋白質(zhì)折疊(fold)已被證明非常有用。“fold”描述的是二級(jí)結(jié)構(gòu)元素的混合組合方式。根據(jù)序列或多序列列線預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的技術(shù)已相對(duì)比較成熟,但三級(jí)結(jié)構(gòu)的預(yù)測(cè)則相當(dāng)困難。往往對(duì)于三級(jí)結(jié)構(gòu)預(yù)測(cè),只能通過(guò)與已知結(jié)構(gòu)蛋白序列同源性比對(duì)來(lái)完成。已有不少相關(guān)數(shù)據(jù)庫(kù)被建立起來(lái)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。這一方法已是目前進(jìn)行三級(jí)結(jié)構(gòu)預(yù)測(cè)的最準(zhǔn)確方法。但是這一方法并不總是奏效,因?yàn)榇蠹s有80%的已知蛋白質(zhì)序列找不到與之相似的已知結(jié)構(gòu)的蛋白質(zhì)序列。近年來(lái),一些新方法被提出,這些方法可以不通過(guò)相似性比對(duì)來(lái)預(yù)測(cè)序列結(jié)構(gòu)。
第41頁(yè),共48頁(yè),2023年,2月20日,星期四二、二級(jí)結(jié)構(gòu)預(yù)測(cè)
已有大量有關(guān)根據(jù)序列預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的文獻(xiàn)資料,這些資料可大致分為二類:一是有關(guān)根據(jù)單一序列預(yù)測(cè)二級(jí)結(jié)構(gòu);二是有關(guān)根據(jù)多序列列線預(yù)測(cè)二級(jí)結(jié)構(gòu)。第42頁(yè),共48頁(yè),2023年,2月20日,星期四
直到最近為止,二級(jí)結(jié)構(gòu)預(yù)測(cè)才不被認(rèn)為具有很高的隨機(jī)性。大多數(shù)預(yù)測(cè)算法均是依據(jù)單一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有約60%的預(yù)測(cè)準(zhǔn)確率,而對(duì)于一些特定的結(jié)構(gòu),如那些富含β-折疊片的結(jié)構(gòu),這些算法難以預(yù)測(cè)成功。預(yù)測(cè)失敗的原因主要是單一序列所提供的信息只是殘基的順序而沒(méi)有其空間分布的信息。兩個(gè)方面的研究進(jìn)展改變了這一狀況:一是認(rèn)識(shí)到多序列列線可被用于改進(jìn)預(yù)測(cè)能力。多序列列線可被視為誘變遺傳學(xué)試驗(yàn)中的自然突變狀況,其對(duì)序列上單一位點(diǎn)變異的分析的確提供了該位點(diǎn)在蛋白質(zhì)三級(jí)結(jié)構(gòu)中的信息;二是神經(jīng)網(wǎng)絡(luò)已開(kāi)始被用于根據(jù)序列預(yù)測(cè)結(jié)構(gòu)。目前已有這樣一個(gè)共識(shí),即在有大量、高質(zhì)量的多序列列線結(jié)果的情況下,蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)將非常準(zhǔn)確——通常準(zhǔn)確率比以單一序列預(yù)測(cè)提高10%。第43頁(yè),共48頁(yè),2023年,2月20日,星期四
一些文獻(xiàn)表明,一些程序(諸如PHD)預(yù)測(cè)的準(zhǔn)確率達(dá)到了目前最高水平。PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)提供了從二級(jí)結(jié)構(gòu)預(yù)測(cè)到折疊(fold)識(shí)別等一系列功能。第44頁(yè),共48頁(yè),2023年,2月20日,星期四三、三級(jí)結(jié)構(gòu)預(yù)測(cè)
比對(duì)數(shù)據(jù)庫(kù)中已知結(jié)構(gòu)的序列是預(yù)測(cè)未知序列三級(jí)結(jié)構(gòu)的主要方法。多種途徑可進(jìn)行以上這種比對(duì)。最容易是使用BLASTP程序比對(duì)NRL-3D或SCOP數(shù)據(jù)庫(kù)中的序列。如果發(fā)現(xiàn)超過(guò)100個(gè)堿基長(zhǎng)度且有遠(yuǎn)高于40%序
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 6 飛向藍(lán)天的恐龍 教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)下冊(cè)
- 《我愛(ài)動(dòng)畫(huà)片》(教學(xué)設(shè)計(jì))-2023-2024學(xué)年三年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)長(zhǎng)春版
- 版權(quán)鏈版權(quán)保護(hù)策略-深度研究
- 中學(xué)聯(lián)盟浙江省瑞安市塘下鎮(zhèn)新華中學(xué)八年級(jí)《歷史與社會(huì)》(人教舊版)上冊(cè)教學(xué)設(shè)計(jì):第四單元第二課 漢唐盛世(6份)
- 高端人才引進(jìn)路徑-深度研究
- 廣東省揭陽(yáng)市產(chǎn)業(yè)轉(zhuǎn)移工業(yè)園區(qū)2025屆五下數(shù)學(xué)期末綜合測(cè)試試題含答案
- 山東省兗州市第一中學(xué)2024-2025學(xué)年高三第一次調(diào)研聯(lián)考英語(yǔ)試題含解析
- 陜西電子信息職業(yè)技術(shù)學(xué)院《民族民間體育》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東亞視演藝職業(yè)學(xué)院《中國(guó)現(xiàn)代文學(xué)作品選》2023-2024學(xué)年第二學(xué)期期末試卷
- 安徽外國(guó)語(yǔ)學(xué)院《數(shù)字供應(yīng)鏈》2023-2024學(xué)年第二學(xué)期期末試卷
- 降低陰式分娩產(chǎn)后出血發(fā)生率-PDCA
- 云南省地圖含市縣地圖矢量分層地圖行政區(qū)劃市縣概況ppt模板
- 光伏發(fā)電工程達(dá)標(biāo)投產(chǎn)創(chuàng)優(yōu)工程檢查記錄
- 領(lǐng)導(dǎo)干部要樹(shù)立正確的價(jià)值觀、權(quán)力觀、事業(yè)觀課件
- 體育社會(huì)學(xué)(第一章)盧元鎮(zhèn)第四版課件
- 數(shù)電課件康華光電子技術(shù)基礎(chǔ)-數(shù)字部分第五版完全
- DB21-T 2041-2022寒區(qū)溫拌瀝青路面工程技術(shù)規(guī)程
- 語(yǔ)文主題學(xué)習(xí)整本書(shū)閱讀指導(dǎo)課件
- 職業(yè)教育課堂教學(xué)設(shè)計(jì)(全)課件
- 工程項(xiàng)目造價(jià)控制措施
- 心電監(jiān)護(hù)操作評(píng)分標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論