第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學

上傳人：2*** IP屬地：湖北上傳時間：2023-02-02 格式：PPT 頁數(shù)：98 大小：447KB 積分：28 舉報 版權申訴

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學_第2頁

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學_第3頁

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學_第4頁

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學_第5頁

已閱讀5頁，還剩93頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

第七章：蛋白質(zhì)結(jié)構(gòu)預測的原理與方法

第一節(jié)：引言第二節(jié)：影響蛋白質(zhì)折疊的因素第三節(jié)：蛋白質(zhì)結(jié)構(gòu)分析與蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫第四節(jié)二級結(jié)構(gòu)預測第五節(jié)三級結(jié)構(gòu)預測第六節(jié)蛋白質(zhì)結(jié)構(gòu)預測發(fā)展趨勢2/1/20231第一節(jié)：引言所謂的蛋白質(zhì)結(jié)構(gòu)預測是指從蛋白質(zhì)的氨基酸序列預測其三維結(jié)構(gòu)。2/1/20232蛋白質(zhì)的4級結(jié)構(gòu)一級結(jié)構(gòu)（Primary）-氨基酸序列二級結(jié)構(gòu)（Secondary）-螺旋（alphahelix）-片層（betasheet）-盤繞（旋轉(zhuǎn)）三級結(jié)構(gòu)（Tertiary）-3D構(gòu)象四級結(jié)構(gòu)（Quaternary）-多肽鏈組合2/1/20233對蛋白質(zhì)進行結(jié)構(gòu)預測研究主要是基于兩種需要發(fā)展起來的：首先是蛋白質(zhì)的氨基酸序列與其三維空間結(jié)構(gòu)的關系可以看作是分子生物學中心法則的延伸；其次，蛋白質(zhì)結(jié)構(gòu)的信息對于生物學研究的各個相關方面都有重要的作用。從數(shù)學上講，蛋白質(zhì)結(jié)構(gòu)預測的問題是尋找一種從蛋白質(zhì)氨基酸線性序列到蛋白質(zhì)所有原子三維坐標的映射。蛋白質(zhì)結(jié)構(gòu)預測的一般流程如下：P1492/1/20234蛋白質(zhì)結(jié)構(gòu)預測主要有兩大類方法：一類是理論分析方法或從頭預測方法是指通過理論計算（分子力學、分子動力學）進行結(jié)構(gòu)預測，該方法假設折疊后的蛋白質(zhì)取能量最低的構(gòu)象。從原則上講，此種方法可行，但在實際應用中此法不合適。原因：（1）自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu)兩者之間能量差異非常??；（2）蛋白質(zhì)可能的構(gòu)象空間龐大，針對蛋白質(zhì)折疊的計算量非常大；（3）計算模型中力場參數(shù)的不確定性。2/1/20235另一類蛋白質(zhì)結(jié)構(gòu)預測的方法就是統(tǒng)計法。對已知結(jié)構(gòu)的蛋白質(zhì)進行統(tǒng)計分析，建立序列到結(jié)構(gòu)的映射模型，進而根據(jù)映射模型對未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸序列預測結(jié)構(gòu)。映射模型可以是定性的，也可以是定量的。此種方法包括：經(jīng)驗性方法、結(jié)構(gòu)規(guī)律提取法和同源模型化方法等。經(jīng)驗法：根據(jù)一定序列形成一定結(jié)構(gòu)的傾向性進行結(jié)構(gòu)預測。結(jié)構(gòu)規(guī)律提取法：從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中提取關于蛋白質(zhì)結(jié)構(gòu)形成的一般性原則，指導建立未知結(jié)構(gòu)的蛋白質(zhì)模型。有許多提取結(jié)構(gòu)規(guī)律的方法，如通過視察觀察方法、基于統(tǒng)計分析和序列多重比對的方法、利用人工神經(jīng)網(wǎng)絡提取規(guī)律的方法。2/1/20236同源模型化方法：通過同源序列分析或者模式匹配預測蛋白質(zhì)的空間結(jié)構(gòu)或者結(jié)構(gòu)單元（螺旋、轉(zhuǎn)角、DNA結(jié)合域）。原理：每一個自然的蛋白質(zhì)具有一個特定的結(jié)構(gòu)，但許多不同的序列會采用同一個基本的折疊。即具有相似序列的蛋白質(zhì)傾向于折疊成相似的空間結(jié)構(gòu)。在蛋白質(zhì)結(jié)構(gòu)預測方面，同源模型化方法預測結(jié)果最可靠。蛋白質(zhì)的同源性比較往往借助于序列比對進行，通過序列比對可以發(fā)現(xiàn)蛋白質(zhì)之間的進化關系。利用同源模型化方法可以預測10-30%的蛋白結(jié)構(gòu)，然而，許多具有相似結(jié)構(gòu)的蛋白質(zhì)是遠程同源的，其等同序列不到25%，這些蛋白質(zhì)的同源性不能被傳統(tǒng)的序列比對所識別。2/1/20237搜索遠程同源蛋白質(zhì)是一項非常困難的，處理這個過程要通過“線索”技術。找到遠程同源蛋白質(zhì)后，可以通過遠程同源建模方法建立蛋白質(zhì)的結(jié)構(gòu)模型。如果既沒找到一般的同源蛋白質(zhì)，又沒找到遠程同源蛋白質(zhì)，如何預測？可行的是充分利用現(xiàn)有數(shù)據(jù)庫中的信息，包括二級結(jié)構(gòu)和空間結(jié)構(gòu)的信息，首先從蛋白質(zhì)序列預測其二級結(jié)構(gòu)，然后從二級結(jié)構(gòu)出發(fā)，預測蛋白質(zhì)的空間結(jié)構(gòu)，或采用從頭預測法進行預測。2/1/20238第二節(jié)：影響蛋白質(zhì)折疊的主要因素除了原子間的共價連接以外，蛋白質(zhì)結(jié)構(gòu)的形成及穩(wěn)定性在很大程度上依賴于非鍵相互作用。對于水溶性蛋白質(zhì)來說：多肽鏈的折疊主要受氨基酸側(cè)鏈的疏水性所驅(qū)動，在蛋白質(zhì)內(nèi)部形成緊密的堆積。影響蛋白質(zhì)結(jié)構(gòu)穩(wěn)定性的非共價鍵有：1、范德華力2/1/202392、氫鍵多肽主鏈上羥基氧和酰胺氫之間所形成的，此外，還可在側(cè)鏈與側(cè)鏈、側(cè)鏈與介質(zhì)水、主鏈肽基與側(cè)鏈或主鏈肽基與水之間。3、鹽健離子鍵，在近中性環(huán)境中，蛋白質(zhì)分子中酸性氨基酸殘基側(cè)鏈電離后帶負電荷，堿性氨基酸殘基側(cè)鏈電離后帶正電荷，二者之間形成離子鍵。4、二硫鍵在多肽鏈的轉(zhuǎn)角附近形成。5、疏水鍵介質(zhì)中球狀蛋白質(zhì)的折疊總是傾向與把疏水殘基埋藏在分子的內(nèi)部，這一現(xiàn)象稱為疏水作用。2/1/202310第三節(jié)：蛋白質(zhì)結(jié)構(gòu)分析及蛋白質(zhì)結(jié)構(gòu)預測目前，多數(shù)蛋白質(zhì)結(jié)構(gòu)預測方法都是基于知識的預測，即總結(jié)各種蛋白質(zhì)相關的規(guī)律性知識。蛋白質(zhì)結(jié)構(gòu)根據(jù)不同的層次可分為：一級結(jié)構(gòu)、二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)。2/1/202311蛋白質(zhì)的一級結(jié)構(gòu)（primarystructure）蛋白質(zhì)的一級結(jié)構(gòu)是指多肽鏈中氨基酸的序列。

2/1/202312蛋白質(zhì)的二級結(jié)構(gòu)二級結(jié)構(gòu)主要有以下幾種形式：（i）螺旋（ii）折疊

–平行折疊反平行折疊（iii）—轉(zhuǎn)角–連接作用（iv）無規(guī)卷曲-沒有確定規(guī)律性的肽鏈構(gòu)象，但仍然是緊密有序的穩(wěn)定結(jié)構(gòu)（v）無序結(jié)構(gòu)2/1/202313蛋白質(zhì)的超二級結(jié)構(gòu)

（i）—環(huán)—花樣（ii）發(fā)夾花樣（—環(huán)—花樣）（iii）希臘圖案花樣由四條反平行片組成（iv）——花樣 -環(huán)--環(huán)-2/1/202314三級結(jié)構(gòu)（tertiarystructure）在二級結(jié)構(gòu)基礎上的肽鏈再折疊形成的構(gòu)象。2/1/202315蛋白質(zhì)的四級結(jié)構(gòu)

組成蛋白質(zhì)的多條肽鏈在天然構(gòu)象空間上的排列方式，多以弱鍵互相連接。疏水力、氫鍵、鹽鍵每條肽鏈本身具有一定的三級結(jié)構(gòu)，就是蛋白質(zhì)分子的亞基。2/1/2023161、有關氨基酸殘基的信息從一級結(jié)構(gòu)的角度講了各個氨基酸殘基所能提供的信息。如脯氨酸能以較大的概率采取順勢肽鍵構(gòu)象。2、周期性的二級結(jié)構(gòu)螺旋和折疊的結(jié)構(gòu)3、非周期性的二級結(jié)構(gòu)連接規(guī)則二級結(jié)構(gòu)間的區(qū)域統(tǒng)稱為環(huán)區(qū)，環(huán)區(qū)也遵循一定的規(guī)律。2/1/2023174、殘基間的相互作用及埋藏5、超二級結(jié)構(gòu)6、蛋白質(zhì)數(shù)據(jù)庫PDB數(shù)據(jù)庫http:///7、蛋白質(zhì)結(jié)構(gòu)域的折疊模式與蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(1)蛋白質(zhì)結(jié)構(gòu)域的折疊模式(2)蛋白質(zhì)折疊模式的有限性2/1/202318(3)蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫最著名的蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫就是SCOP和CATH數(shù)據(jù)庫。8、蛋白質(zhì)的進化同源性的蛋白質(zhì)是從一個共同的祖先進化而來，往往具有相關的功能并采取相似的三維結(jié)構(gòu)。類似的蛋白質(zhì)可以采取相似的三維結(jié)構(gòu)，這種不同源的蛋白質(zhì)采取類似三維結(jié)構(gòu)的現(xiàn)象可能是收斂進化造成的。2/1/202319蛋白質(zhì)序列的基本性質(zhì)分析蛋白質(zhì)的基本序列性質(zhì)分析是蛋白質(zhì)序列分析的基本方面，包括蛋白質(zhì)的理化性質(zhì)、親水性/疏水性、跨膜區(qū)、信號肽、Coil區(qū)分析及結(jié)構(gòu)功能域等方面的分析。蛋白質(zhì)的理化性質(zhì)包括分子質(zhì)量、分子式、理論等電點、氨基酸組成、消光系數(shù)、穩(wěn)定性等。2/1/2023201、利用ProtParam工具分析水稻瘤矮病毒P8（RicegalldwarfvirusP8）蛋白質(zhì)的理化性質(zhì)2/1/2023212、蛋白質(zhì)的疏水性分析有兩種方法：一是利用BioEdit軟件進行；二是通過protscale在線分析，以RGDVP8蛋白質(zhì)為例研究其疏水性。2/1/2023223、蛋白質(zhì)的跨膜區(qū)分析膜蛋白是一類結(jié)構(gòu)獨特的蛋白質(zhì)，執(zhí)行著重要的細胞生物學功能。常見的跨膜區(qū)分析的在線網(wǎng)絡工具有：名稱網(wǎng)址說明TMHMMhttp://www.cbs.dtu.dk/services/TMHMM/判定蛋白質(zhì)是否為膜蛋白TMpredhttp:///software/TMPRED_form.html

準確預測跨膜蛋白的跨膜片段TMPhttp://www.mbb.ki.se/tmap/采用多序列比對方式預測跨膜區(qū)2/1/202323TMHMM是一個基于隱馬爾科夫模型（HMM）預測跨膜螺旋的程序，它綜和了跨膜區(qū)疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質(zhì)，可對跨膜區(qū)及膜內(nèi)外區(qū)進行整體預測。由于其在區(qū)分可溶性蛋白和膜蛋白方面尤為見長，故常用于判定一個蛋白是否為膜蛋白。例：使用TMHMMServerv.2.0對RGDVP8蛋白進行跨膜區(qū)分析。背景：在研究RGDVP8蛋白的疏水性使用的K-DTGREASE算法能有效的檢測出RGDVP8蛋白高疏水性的區(qū)域，但不能據(jù)此說明P8蛋白含有跨膜區(qū)，因為水溶性球狀蛋白的內(nèi)埋區(qū)也是基本為疏水性的。故可以使用TMHMM軟件分析P8蛋白以確定其是否為跨膜蛋白。2/1/2023244、信號肽預測信號肽的概念：分泌蛋白新生肽鏈N端的一段20～30氨基酸殘基組成的肽段。將分泌蛋白引導進入內(nèi)質(zhì)網(wǎng)，同時這個肽段被切除?，F(xiàn)這一概念已擴大到?jīng)Q定新生肽鏈在細胞中的定位或決定某些氨基酸殘基修飾的一些肽段。根據(jù)信號肽組成及其位置特征，可將信號肽劃分為四大類：（1）分泌信號肽（含RR-motif信號肽）；（2）脂蛋白信號肽；（3）細菌素和信息素信號肽；（4）Pilin-like信號肽。

2/1/2023255、Coil區(qū)分析卷曲螺旋(Coiledcoil)是蛋白質(zhì)中由2-7條α-螺旋鏈互相纏繞形成類似麻花狀結(jié)構(gòu)的總稱。卷曲螺旋是控制蛋白質(zhì)寡聚化的元件，含有卷曲螺旋結(jié)構(gòu)的蛋白質(zhì)主要是一些轉(zhuǎn)錄因子、骨架蛋白、動力蛋白、膜蛋白、酶等，在機體內(nèi)執(zhí)行著分子識別、代謝調(diào)控、細胞分化、肌肉收縮、膜通道等生物學功能。七肽重復區(qū)(HR)是典型的卷曲螺旋結(jié)構(gòu)類型之一，HR是由多個七肽單元連接而成的重復序列。2/1/202326預測蛋白質(zhì)中是否含有卷曲螺旋結(jié)構(gòu)，可以聯(lián)機訪問COILS服務器，該服務器提供簡單的Web提交界面，原理是將輸入序列提交到已知包含卷曲螺旋蛋白結(jié)構(gòu)的數(shù)據(jù)庫中進行搜索，同時與包含球狀蛋白序列的PDB次級庫進行比較，根據(jù)兩個數(shù)據(jù)庫分析的情況算出目的序列形成卷曲的概率。實例：使用COILSServer對RGDVP2蛋白卷曲螺旋預測分析。2/1/202327蛋白質(zhì)的結(jié)構(gòu)域分析一、結(jié)構(gòu)域分析結(jié)構(gòu)域(structuredomain)是在蛋白質(zhì)三級結(jié)構(gòu)中介于二級和三級結(jié)構(gòu)之間的可明顯區(qū)分但又相對獨立的折疊單元，每個結(jié)構(gòu)域自身形成緊實的三維結(jié)構(gòu)，可以獨立存在或折疊，但結(jié)構(gòu)域與結(jié)構(gòu)域之間關系較為松散。結(jié)構(gòu)功能域通常由25-300個氨基酸殘基組成，不同蛋白質(zhì)分子中結(jié)構(gòu)域的數(shù)目不同，同一蛋白質(zhì)分子中的幾個結(jié)構(gòu)域彼此相似或不盡相同。常見的結(jié)構(gòu)功能域主要有：全平行結(jié)構(gòu)域、反平行結(jié)構(gòu)域、α+β結(jié)構(gòu)域、α/β結(jié)構(gòu)域及其他折疊類型。常見的結(jié)構(gòu)功能域分析在線工具及數(shù)據(jù)庫2/1/202328第四節(jié) 蛋白質(zhì)二級結(jié)構(gòu)預測

蛋白質(zhì)序列：↓二級結(jié)構(gòu)：2/1/202329二級結(jié)構(gòu)預測

蛋白質(zhì)序列：二級結(jié)構(gòu)：QLMGERIRARRKKLK→STHHHHHHHHHHHHT

2/1/2023301、二級結(jié)構(gòu)預測概述蛋白質(zhì)的二級結(jié)構(gòu)預測的基本依據(jù)是：每一段相鄰的氨基酸殘基具有形成一定二級結(jié)構(gòu)的傾向。二級結(jié)構(gòu)預測問題是模式分類問題二級結(jié)構(gòu)預測的目標：判斷每一段中心的殘基是否處于螺旋、折疊、轉(zhuǎn)角（或其它狀態(tài)）之一的二級結(jié)構(gòu)態(tài)，即三態(tài)。

2/1/202331基本策略（1）

相似序列→相似結(jié)構(gòu)QLMGERIRARRKKLKQLMGAERIRARRKKLK結(jié)構(gòu)？2/1/202332基本策略（2）

分類分析α螺旋提取樣本聚類分析學習分類規(guī)則預測….-Gly-Ala-Glu-Phe-….2/1/202333二級結(jié)構(gòu)預測的方法大體分為三代：第一代是基于單個氨基酸殘基統(tǒng)計分析從有限的數(shù)據(jù)集中提取各種殘基形成特定二級結(jié)構(gòu)的傾向，以此作為二級結(jié)構(gòu)預測的依據(jù)。第二代預測方法是基于氨基酸片段的統(tǒng)計分析統(tǒng)計的對象是氨基酸片段片段的長度通常為11-21片段體現(xiàn)了中心殘基所處的環(huán)境在預測中心殘基的二級結(jié)構(gòu)時，以殘基在特定環(huán)境形成特定二級結(jié)構(gòu)的傾向作為預測依據(jù)2/1/202334這些算法可以歸為幾類：（1）基于統(tǒng)計信息（2）基于物理化學性質(zhì)（3）基于序列模式（4）基于多層神經(jīng)網(wǎng)絡（5）基于多元統(tǒng)計（6）基于機器學習的專家規(guī)則（7）最鄰近算法2/1/202335第一代和第二代預測方法對三態(tài)預測的準確率都小于70%，而對折疊預測的準確率僅為2848%其主要原因是只利用局部信息第三代方法（考慮多條序列）運用長程信息和蛋白質(zhì)序列的進化信息準確度有了比較大的提高2/1/2023362、蛋白質(zhì)二級結(jié)構(gòu)預測方法經(jīng)驗參數(shù)法蛋白質(zhì)二級結(jié)構(gòu)的組成規(guī)律性比較強；三種基本二級結(jié)構(gòu)平均占氨基酸殘基的85%；各種二級結(jié)構(gòu)非均勻地分布在蛋白質(zhì)中。2/1/202337有些蛋白質(zhì)中含有大量的螺旋如血紅蛋白和肌紅蛋白而一些蛋白質(zhì)中則不含或者僅含很少的螺旋如鐵氧蛋白有些蛋白質(zhì)的二級結(jié)構(gòu)以折疊為主如免疫球蛋白例：肽鏈Ala(A)-Glu(E)-Leu(L)-Met(M)傾向于形成螺旋肽鏈Pro(P)-Gly(G)-Tyr(Y)-Ser(S)則不會形成螺旋2/1/202338每種氨基酸出現(xiàn)在各種二級結(jié)構(gòu)中傾向或者頻率是不同的例如：Glu（谷氨酸）主要出現(xiàn)在螺旋中

Asp（天冬氨酸）和Gly（甘氨酸）主要分布在轉(zhuǎn)角中

Pro（脯氨酸）也常出現(xiàn)在轉(zhuǎn)角中，但是絕不會出現(xiàn)在螺旋中可以根據(jù)每種氨基酸殘基形成二級結(jié)構(gòu)的傾向性或者統(tǒng)計規(guī)律進行二級結(jié)構(gòu)預測2/1/202339經(jīng)驗參數(shù)法由Chou和Fasman在70年代提出來是一種基于單個氨基酸殘基統(tǒng)計的經(jīng)驗預測方法。通過統(tǒng)計分析，獲得的每個殘基出現(xiàn)于特定二級結(jié)構(gòu)構(gòu)象的傾向性因子，進而利用這些傾向性因子預測蛋白質(zhì)的二級結(jié)構(gòu)。2/1/202340一個氨基酸殘基的構(gòu)象傾向性因子定義為

Pi=Ai/Ti (i=,β,c,t) 式中下標i表示構(gòu)象態(tài) 如螺旋、β折疊、轉(zhuǎn)角、無規(guī)卷曲等；Ti是所有被統(tǒng)計殘基處于構(gòu)象態(tài)i的比例；Ai是第A種殘基處于構(gòu)象態(tài)i的比例；Pi大于1.0表示該殘基傾向于形成二級結(jié)構(gòu)構(gòu)象i，小于1.0則表示傾向于形成其它構(gòu)象。

2/1/202341

發(fā)現(xiàn)關于二級結(jié)構(gòu)的經(jīng)驗規(guī)則基本思想是在序列中尋找規(guī)則二級結(jié)構(gòu)的成核位點和終止位點。

掃描輸入的氨基酸序列，利用一組規(guī)則發(fā)現(xiàn)可能成為特定二級結(jié)構(gòu)成核區(qū)域的短序列，然后對于成核區(qū)域進行擴展，不斷擴大成核區(qū)域，直到傾向性因子小于1.0為止。規(guī)則：（i）α螺旋規(guī)則

（ii）β折疊規(guī)則

（iii）轉(zhuǎn)角規(guī)則

(iv)重疊規(guī)則

延伸成核區(qū)延伸2/1/202342

（i）α螺旋規(guī)則沿蛋白質(zhì)序列尋找α螺旋核相鄰的6個殘基中如果有至少4個殘基傾向于形成α螺旋，則認為是螺旋核。從螺旋核向兩端延伸直至四肽片段的α螺旋傾向性因子的平均值{P}<1.0為止。將螺旋兩端各去掉3個殘基剩余部分若長于6個殘基，而且{P}>1.03，則預測為螺旋。

延伸螺旋核延伸2/1/202343（ii）β折疊規(guī)則相鄰6個殘基中若有4個傾向于形成β折疊，則認為是折疊核。折疊核向兩端延伸直至4個殘基的平均折疊傾向性因子{P}<1.0。若延伸后的片段的{P}>1.05，則預測為β折疊。2/1/202344（iii）轉(zhuǎn)角規(guī)則轉(zhuǎn)角的模型為四肽四肽片段Pt的平均值大于100，并且Pt的均值同時大于P

的均值以及P

的均值，則可以預測這樣連續(xù)的4個殘基形成轉(zhuǎn)角。

則可以預測這樣連續(xù)的4個氨基酸形成轉(zhuǎn)角。2/1/202345(iv)重疊規(guī)則

對于螺旋和折疊的重疊區(qū)域，按{Pa}和{P}的相對大小進行預測若{Pa}大于{P}，則預測為螺旋；反之，預測為折疊。2/1/202346(2)GOR方法是一種基于信息論和貝葉斯統(tǒng)計學的方法GOR將蛋白質(zhì)序列當作一連串的信息值來處理GOR方法不僅考慮被預測位置本身氨基酸殘基種類的影響，而且考慮相鄰殘基種類對該位置構(gòu)象的影響2/1/202347序列窗口中心殘基窗口中各個殘基對中心殘基二級結(jié)構(gòu)的支持程度2/1/202348兩個事件S和R的條件概率P(S|R)

即在R發(fā)生的條件下，S發(fā)生的概率定義信息為：

若S和R無關，則I(S;R)=0若R的發(fā)生有利于S的發(fā)生，則I(S;R)>0若R的發(fā)生不利于S的發(fā)生，則I(S;R)<02/1/202349I(S;R)在二級結(jié)構(gòu)預測中的含義R代表中心氨基酸及其所處環(huán)境S代表二級結(jié)構(gòu)類型I(S;R)代表中心氨基酸處于S的信息值2/1/202350

例如：假定數(shù)據(jù)庫中有1830個殘基，

780個處于螺旋態(tài)，1050個處于非螺旋態(tài)庫中共有390個丙氨酸（A），有240個A處于螺旋態(tài)，其余150個A處于非螺旋態(tài)。

H：代表二級結(jié)構(gòu)螺旋態(tài)；

H·：除H外的其它類型二級結(jié)構(gòu)。

I(△H；Ａ)就是丙氨酸A處于中心位置時的螺旋信息值2/1/202351(3)基于氨基酸疏水性的預測方法——立體化學方法氨基酸的理化性質(zhì)對二級結(jié)構(gòu)影響較大在進行結(jié)構(gòu)預測時考慮氨基酸殘基的物理化學性質(zhì)如疏水性、極性、側(cè)鏈基團的大小等，根據(jù)殘基各方面的性質(zhì)及殘基之間的組合預測可能形成的二級結(jié)構(gòu)。“疏水性”是氨基酸的一種重要性質(zhì)，疏水性的氨基酸傾向于遠離周圍水分子，將自己包埋進蛋白質(zhì)的內(nèi)部。2/1/2023522/1/2023532/1/202354

α螺旋的形成規(guī)律：在一段序列中發(fā)現(xiàn)第i、i+3、i+4位（如1、4、5）是疏水殘基時，這一片段就被預測為α螺旋；當發(fā)現(xiàn)第i、i+1、i+4位（如7，8，11）為疏水殘基時，這一片段也被預測為α螺旋。2/1/202355對于β折疊的形成規(guī)律：對于β折疊，也存在著一些特征的親疏水殘基間隔模式，埋藏的β折疊通常由連續(xù)的疏水殘基組成，一側(cè)暴露的β折疊則通常具有親水-疏水的兩殘基重復模式。原則上，通過在序列中搜尋特殊的親疏水殘基間隔模式，就可以預測α螺旋和β折疊。點模式方法（Biou等人提出）：將20種氨基酸殘基分為親水、疏水以及兩性殘基三類，用八殘基片段表征親疏水間隔模式。

2/1/202356疏水性定量計算2/1/202357以一個二進制位代表一個殘基，疏水為1，親水為0，共八位。這樣，八殘基片段的親疏水模式可用0255的數(shù)值來表示。α螺旋的特征模式對應的值為：9，12，13，17，……，201，205，217，219，237。

β折疊的特征模式：由連續(xù)的1或交替的01構(gòu)成。2/1/202358(4)同源分析法（最近鄰居法）將待預測的片段與數(shù)據(jù)庫中已知二級結(jié)構(gòu)的片段進行相似性比較，利用打分矩陣計算出相似性得分，根據(jù)相似性得分以及數(shù)據(jù)庫中的構(gòu)象態(tài)，構(gòu)建出待預測片段的二級結(jié)構(gòu)。該方法對數(shù)據(jù)庫中同源序列的存在非常敏感，若數(shù)據(jù)庫中有相似性大于30%的序列，則預測準確率可大大上升。2/1/202359更為合理的方法：是將待預測二級結(jié)構(gòu)的蛋白質(zhì)U與多個同源序列進行多重比對，對于U的每個殘基位置，其構(gòu)象態(tài)由多個同源序列對應位置的構(gòu)象態(tài)決定，或取出現(xiàn)次數(shù)最多的構(gòu)象態(tài)，或?qū)Ω鞣N可能的構(gòu)象態(tài)給出得分值。2/1/202360(5)人工神經(jīng)網(wǎng)絡方法2/1/202361(6)綜合方法綜合方法不僅包括各種預測方法的綜合，而且也包括結(jié)構(gòu)實驗結(jié)果、序列對比結(jié)果、蛋白質(zhì)結(jié)構(gòu)分類預測結(jié)果等信息的綜合。多個程序同時預測，綜合評判一致結(jié)果序列比對與二級結(jié)構(gòu)預測雙重預測首先預測蛋白質(zhì)的結(jié)構(gòu)類型然后再預測二級結(jié)構(gòu)2/1/2023623、利用進化信息預測蛋白質(zhì)的二級結(jié)構(gòu)蛋白質(zhì)序列家族中氨基酸的替換模式是高度特異的，如何利用這樣的進化信息是二級結(jié)構(gòu)預測的關鍵。蛋白質(zhì)二級結(jié)構(gòu)預測軟件系統(tǒng)PHD第一步工作是形成同源序列的多重對比排列第二步工作是將得到的多重比對的統(tǒng)計結(jié)果送到一個神經(jīng)網(wǎng)絡中計算。2/1/2023634、RNA二級結(jié)構(gòu)的預測RNA的結(jié)構(gòu)可以分為三個層次一級結(jié)構(gòu)二級結(jié)構(gòu)空間結(jié)構(gòu)2/1/2023642/1/202365RNA二級結(jié)構(gòu)的預測方法基于序列比較的方法：通過多序列比對，根據(jù)相似序列具有相似結(jié)構(gòu)的原理進行二級結(jié)構(gòu)預測。能量最小化方法：通過各種能量最優(yōu)化方法或者分子動力學計算評價所有可能配對的能量，進而發(fā)現(xiàn)具有最小能量的結(jié)構(gòu)RNA是一種重要的生物大分子，是DNA和蛋白質(zhì)之間的一個中間語言，因此RNA二級結(jié)構(gòu)的準確預測對于了解基因調(diào)控和蛋白質(zhì)產(chǎn)物表達有重要作用。2/1/202366RNA二級結(jié)構(gòu)預測軟件有：RNAdraw1.1bRNA二級結(jié)構(gòu)分析軟件；RNAstructure4.5UNIX平臺軟件mfold的windows版本；Circles0.1.0使用比較的分析方法RNA二級結(jié)構(gòu)軟件，并以標準格式輸出預測的二級結(jié)構(gòu)；非編碼RNA數(shù)據(jù)庫：2/1/2023675、二級結(jié)構(gòu)在線預測許多蛋白質(zhì)二級結(jié)構(gòu)預測程序包含在標準的分子生物學軟件或商業(yè)化軟件中，其中，絕大部分可從網(wǎng)上免費下載。（1）PHD算法（2）GOR算法2/1/202368第五節(jié)蛋白質(zhì)三維結(jié)構(gòu)預測

1、同源模型化方法主要思想：對于一個未知結(jié)構(gòu)的蛋白質(zhì)，找到一個已知結(jié)構(gòu)的同源蛋白質(zhì)，以該蛋白質(zhì)的結(jié)構(gòu)為模板，為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。依據(jù)：任何一對蛋白質(zhì)，如果兩者的序列等同部分超過30%，則它們具有相似的三維結(jié)構(gòu)，即兩個蛋白質(zhì)的基本折疊相同，只是在非螺旋和非折疊區(qū)域的一些細節(jié)部分有所不同。

2/1/202369假設待預測三維結(jié)構(gòu)的目標蛋白質(zhì)為U（Unknown），利用同源模型化方法建立結(jié)構(gòu)模型的過程包括下述6個步驟：（1）搜索結(jié)構(gòu)模型的模板(T)

（2）序列比對（3）建立骨架（4）構(gòu)建目標蛋白質(zhì)的側(cè)鏈（5）構(gòu)建目標蛋白質(zhì)的環(huán)區(qū)（6）優(yōu)化模型UT2/1/202370構(gòu)建目標蛋白質(zhì)的側(cè)鏈2/1/202371預測結(jié)果準確率：對于具有60%等同的序列，用上述方法所建立的三維模型非常準確。若序列的等同部分超過60%，則預測結(jié)果將接近于實驗得到的測試結(jié)果。一般如果序列的等同部分大于30%，則可以期望得到比較好的預測結(jié)果。2/1/202372通過SWISS-MODEL同源模建RGDVP8蛋白的三維結(jié)構(gòu)常見的蛋白質(zhì)三級結(jié)構(gòu)預測網(wǎng)站如上圖所示，SWISS-MODEL是SIB提供的目前最著名的蛋白質(zhì)三級結(jié)構(gòu)預測服務器，建立在已知大分子結(jié)構(gòu)基礎上，利用同源模建的方法對位置序列的蛋白質(zhì)三級結(jié)構(gòu)進行預測。該服務器創(chuàng)建于1993年，面向全世界的生物化學與分子生物學研究工作者，提供免費的自動模建服務。提供的同源模建主要有兩種方式：首選模式和項目模式。2/1/202373以RGDVP8蛋白為研究對象采用首選模式進行同源模建。2/1/202374例：通過CPHmodels同源模建RGDVP8蛋白的三維結(jié)構(gòu)。CPHmodels是丹麥理工大學生物序列分析中心提供的蛋白質(zhì)三維結(jié)構(gòu)預測服務器，也是利用神經(jīng)網(wǎng)絡進行同源模建預測蛋白質(zhì)結(jié)構(gòu)的方法。與SWISS-MODEL相比較，CPHmodels更為簡單易學，期預測的結(jié)果會將目的序列與模板序列比對的空位以斷裂的方式表示在三維結(jié)構(gòu)中。2/1/202375

2、線索化方法（折疊識別方法）有很多蛋白質(zhì)具有相似的空間結(jié)構(gòu)，但它們的序列等同部分小于25%，即遠程同源。對于這類蛋白質(zhì)，很難通過序列比對找出它們之間的關系，必須設計新的分析方法。對于一個未知結(jié)構(gòu)的蛋白質(zhì)（U），如果找到一個已知結(jié)構(gòu)的遠程同源蛋白質(zhì)（T），那么可以根據(jù)T的結(jié)構(gòu)模板通過遠程同源模型化方法建立U的三維結(jié)構(gòu)模型。UT（遠程同源）2/1/202376

一個遠程同源模型化方法要解決三個問題：（1）檢測遠程同源蛋白質(zhì)（T）；（2）U和T的序列必須被正確地對比排列；（3）修改一般的同源模型化過程，以應用于相似度非常低的情況，即處理更多的環(huán)區(qū)，建立合理的三維結(jié)構(gòu)模型。如何解決第一個和第二個問題？基本思想是建立一個從U到已知結(jié)構(gòu)T的線索，并通過一些基于環(huán)境或基于知識的勢，評價序列與結(jié)構(gòu)的適應性。至于最后建立三維結(jié)構(gòu)模型則是非常困難的序列→結(jié)構(gòu)比對2/1/202377線索化的主要思想：利用氨基酸的結(jié)構(gòu)傾向（如形成二級結(jié)構(gòu)的傾向、疏水性、極性等），評價一個序列所對應的結(jié)構(gòu)是否能夠適配到一個給定的結(jié)構(gòu)環(huán)境中。2/1/202378建立序列到結(jié)構(gòu)的線索的過程稱為線索化，線索技術又稱折疊識別技術。線索化或者折疊識別的目標是為目標蛋白質(zhì)U尋找合適的蛋白質(zhì)模板，這些模板蛋白質(zhì)與U沒有顯著的序列相似性，但卻是遠程同源的。線索化方法一般有5個基本組成部分：（1）已知三維折疊結(jié)構(gòu)的數(shù)據(jù)庫；（2）一種適合于進行序列-結(jié)構(gòu)比對的三維折疊信息的表示方法；（3）一個序列-結(jié)構(gòu)匹配函數(shù)，該函數(shù)對匹配程度進行打分；2/1/202379（4）建立最優(yōu)線索的策略，或者是進行序列-結(jié)構(gòu)比對的策略；（5）一種評價序列-結(jié)構(gòu)比對顯著性的方法。假設存在有限數(shù)目的核心折疊（corefolds）核心折疊實際上是構(gòu)成蛋白質(zhì)空間形狀的基本模式。建立核心折疊數(shù)據(jù)庫預測----建立線索

U序列與數(shù)據(jù)庫核心折疊比對取最佳核心折疊U結(jié)構(gòu)模型2/1/202380

一種基于序列與結(jié)構(gòu)比對的最優(yōu)線索化算法令:s1,s2,…,sn為蛋白質(zhì)序列S的n個元素

C1,C2,…,Cm為數(shù)據(jù)庫中核心折疊C的m個核心區(qū)域

Cij為第i個核心區(qū)域第j個氨基酸位置每一個核心區(qū)域由若干個氨基酸殘基構(gòu)成

2/1/202381設t是一個從序列到核心折疊的線索，那么t說明了序列S的哪些元素si,sj,sk,…代表核心區(qū)域C1,C2,C3,…的起始位置。這實際上是一種從序列S到核心折疊C的比對令代表核心折疊C中的環(huán)到序列S中空位的映射，顯然是通過線索化而確定的。令f(t)是進行比對的得分函數(shù)，其定義如下：

f(t)=g1(v,t)+g2(u,v,t)+g3(,t)

2/1/202382

g1(v,t)評價氨基酸殘基v所處的位置g2(u,v,t)評價殘基u和v的相對位置，如果u和v鍵合，則得分高；g3(,t)評價環(huán)區(qū)，根據(jù)環(huán)區(qū)的大小進行打分。線索化問題：對于給定的序列S和核心折疊C，選擇一個線索t，使得f(t)的值最小，即尋找一個從S到C的最佳映射。2/1/202383使用PHYRE系統(tǒng)進行RGDVP2蛋白的折疊式別預測。PHYRE是英國倫敦大學帝國理工學院生物信息學小組維護的蛋白質(zhì)折疊識別預測的網(wǎng)上服務器，該服務器提供了分別針對免費的學術用戶和收費的商業(yè)用戶兩種版本。本例使用的P2蛋白是水稻瘤矮病毒的次要外層衣殼蛋白，由于ExPDB晶體圖像數(shù)據(jù)搜索不到同源蛋白，故采用折疊識別法預測P2蛋白的三級結(jié)構(gòu)。2/1/202384

3、從頭預測方法在既沒有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒有已知結(jié)構(gòu)的遠程同源蛋白質(zhì)的情況下，上述兩種蛋白質(zhì)結(jié)構(gòu)預測的方法都不能用，這時只能采用從頭預測方法，即（直接）僅僅根據(jù)序列本身來預測其結(jié)構(gòu)。從頭預測方法一般由下列3個部分組成：（1）一種蛋白質(zhì)幾何的表示方法

由于表示和處理所有原子和溶劑環(huán)境的計算開銷非常大，因此需要對蛋白質(zhì)和溶劑的表示形式作近似處理。2/1/202385（2）一種勢函數(shù)及其參數(shù)

通過對已知結(jié)構(gòu)的蛋白質(zhì)進行統(tǒng)計分析確定勢函數(shù)中的各個參數(shù)（3）一種構(gòu)象空間搜索技術

構(gòu)象空間搜索和勢函數(shù)的建立是從頭預測方法的關鍵2/1/202386N端的氨基酸位于坐標系統(tǒng)的原點第二個氨基酸位于坐標的（1,0）或（1，0，0）處。H-P模型-[疏水(hydrophobic)-極性(polar)]

2/1/202387基于疏水殘基之間的接觸進行打分每一個H和H的接觸（非相鄰殘基）對能量的貢獻都為－1最優(yōu)的構(gòu)象就是所有可能的構(gòu)象中具有最多H和H接觸的那個構(gòu)象圖中的二維和三維構(gòu)象的得分都是－32/1/202388絕對方向表示法:每一個位置上可選擇的方向:

上、右、左和下（U、R、L、D）；而對于三維模型:

上、右、左、下、后和前（U、R、L、D、B、F）。構(gòu)象空間搜索（R，R，D，L，D，L，U，L，U，U，R）（R，B，U，F(xiàn)，L，U，R，B，L，L，F(xiàn)）2/1/202389相對方向表示法：利用每個氨基酸殘基主鏈的轉(zhuǎn)動方向來表示每個位置上的殘基的方向二維網(wǎng)格模型：每個殘基位置上可選擇的方向有三個左、右和前（L、R和F）三維網(wǎng)格模型：左、右、前、上和下

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學

文檔簡介

溫馨提示

最新文檔

評論

第七章蛋白質(zhì)結(jié)構(gòu)預測的原理與方法-中北大學

文檔簡介

溫馨提示

最新文檔

評論

相關文檔