蛋白質(zhì)結(jié)構(gòu)預(yù)測_第1頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第2頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第3頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第4頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

蛋白質(zhì)結(jié)構(gòu)預(yù)測第一頁,共五十三頁,2022年,8月28日內(nèi)容概述蛋白質(zhì)的序列分析蛋白質(zhì)二級結(jié)構(gòu)預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測主要生物信息學(xué)資源(蛋白質(zhì)數(shù)據(jù)庫)生物信息學(xué)方法的應(yīng)用(簡單介紹) 預(yù)測蛋白性質(zhì)和結(jié)構(gòu)第二頁,共五十三頁,2022年,8月28日一、概述蛋白質(zhì)結(jié)構(gòu)研究的重要性基因序列→蛋白質(zhì)序列→蛋白質(zhì)空間構(gòu)象→生物功能解析蛋白質(zhì)的空間結(jié)構(gòu)——有利于認識蛋白質(zhì)的功能?認識蛋白質(zhì)是如何執(zhí)行功能的?認識結(jié)構(gòu)與功能的關(guān)系?基礎(chǔ)——設(shè)計和創(chuàng)造新蛋白第三頁,共五十三頁,2022年,8月28日現(xiàn)代結(jié)構(gòu)測定技術(shù)雖然發(fā)展迅速,但是非常復(fù)雜,費用很高。 特別是已知結(jié)構(gòu)的蛋白質(zhì),反復(fù)測定,費用高昂基因組序列分析→導(dǎo)出大量的蛋白序列→但蛋白的空間結(jié)構(gòu)未知?結(jié)構(gòu)測定面臨的巨大挑戰(zhàn)——蛋白質(zhì)種類數(shù)量龐大,依靠結(jié)構(gòu)測定方法獲得空間結(jié)構(gòu)信息面臨巨大挑戰(zhàn)?假如研究中對cDNA翻譯的序列高級結(jié)構(gòu)一無所知,

——首先通過結(jié)構(gòu)預(yù)測,提供實驗設(shè)計思路?需要發(fā)展理論分析方法→預(yù)測蛋白質(zhì)的結(jié)構(gòu)2.為什么要進行蛋白質(zhì)結(jié)構(gòu)的預(yù)測?第四頁,共五十三頁,2022年,8月28日3.蛋白質(zhì)結(jié)構(gòu)預(yù)測的可行性分析Anfinsen原理:蛋白去折疊→重新折疊→生物學(xué)活性能夠完全恢復(fù),說明高級結(jié)構(gòu)的信息蘊含在一級結(jié)構(gòu)中。因此,設(shè)法以一級結(jié)構(gòu)來推測高級結(jié)構(gòu)具有理論上的可行性。結(jié)構(gòu)分析表明:有些蛋白之間具有很高的同源性,根據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的高同源性關(guān)系預(yù)測未知蛋白質(zhì)結(jié)構(gòu),在理論和實踐上是可行的。蛋白質(zhì)結(jié)構(gòu)預(yù)測——已有大量研究和成功實例,提供了實踐上的可行性。分子生物學(xué)和生物信息學(xué)等技術(shù)的發(fā)展,有可能直接從一級序列出發(fā),預(yù)測蛋白質(zhì)的高級結(jié)構(gòu),為高級結(jié)構(gòu)的預(yù)測提供了保障。因此,蛋白質(zhì)高級結(jié)構(gòu)的預(yù)測是可行的,而且成本相對低廉。第五頁,共五十三頁,2022年,8月28日4.蛋白質(zhì)結(jié)構(gòu)預(yù)測的目的已知蛋白一級結(jié)構(gòu)序列

↓預(yù)測或測定構(gòu)建立體結(jié)構(gòu)模型

↓預(yù)測或測定結(jié)構(gòu)與功能研究

↓設(shè)計蛋白質(zhì)新分子

↓蛋白質(zhì)結(jié)構(gòu)改造或創(chuàng)造新分子(生產(chǎn)實踐中應(yīng)用)第六頁,共五十三頁,2022年,8月28日獲得一級序列↓尋找同源蛋白↓依據(jù)同源蛋白晶體結(jié)構(gòu)↓構(gòu)建結(jié)構(gòu)模型5.結(jié)構(gòu)預(yù)測的主要思路同源建模(HolologyModeling)折疊識別(FoldRecognition)從頭計算(AbInitio)獲得一級序列↓沒有同源蛋白↓二級結(jié)構(gòu)預(yù)測超二級結(jié)構(gòu)結(jié)構(gòu)預(yù)測三級結(jié)構(gòu)結(jié)構(gòu)預(yù)測↓構(gòu)建結(jié)構(gòu)模型第七頁,共五十三頁,2022年,8月28日第一節(jié)蛋白質(zhì)序列分析序列同源性分析雙重序列比對多重序列比對第八頁,共五十三頁,2022年,8月28日序列同源性分析?概念:與已知的序列進行比對,找出同源性序列,從中獲取未知該序列蛋白的性質(zhì)和結(jié)構(gòu)信息的過程。方法:目標序列→數(shù)據(jù)庫序列比對→尋找同源得分高的序列→獲得如下信息未知蛋白質(zhì)aa組成、pI、MW、疏水區(qū)等性質(zhì)保守位點、活性位點等建立蛋白質(zhì)之間的進化關(guān)系二級和三級結(jié)構(gòu)預(yù)測信息預(yù)測蛋白質(zhì)的折疊塊模式(二級結(jié)構(gòu)與氨基酸關(guān)系,一級結(jié)構(gòu)與三級結(jié)構(gòu)關(guān)系)意義:獲取未知高級結(jié)構(gòu)蛋白的性質(zhì)和結(jié)構(gòu)信息,對蛋白質(zhì)的性質(zhì)和結(jié)構(gòu)進一步實驗研究具有指導(dǎo)作用。第九頁,共五十三頁,2022年,8月28日第十頁,共五十三頁,2022年,8月28日2.雙重序列比對:概念:兩個序列之間比較序列,通過aa殘基數(shù)匹配,反映序列間同源性高低的程度和序列相似的程度。(1)原理序列最小比較單位是aa殘基,即是每個aa殘基代表一個結(jié)構(gòu)單元通過二維矩陣的方法,尋找兩個序列的最大匹配路徑;允許兩個序列上插入或刪除一些aa殘基(gap)—獲得殘基最大匹配數(shù)量。(2)打分矩陣類型:由計算機軟件完成→依據(jù)aa所對應(yīng)的核苷酸變異的分析方法——GCGCMGDM:→依據(jù)aa所對應(yīng)的物化性質(zhì)的分析方法——Rao:→依據(jù)aa側(cè)鏈的疏水性質(zhì)的分析方法——HYDOR:→aa在一組相關(guān)蛋白質(zhì)中相互間的替代關(guān)系——MDPAM:→結(jié)構(gòu)打分矩陣.蛋白拓撲結(jié)構(gòu)相應(yīng)區(qū)域氨基酸殘基的取代關(guān)系——RIS:→依據(jù)aa殘基的主鏈二面角(φ—ψ)分布——SCM:→氨基酸殘基的空間傾向因子——SCMm,SCFs:第十一頁,共五十三頁,2022年,8月28日(3)打分矩陣的gap值gap:序列中的aa殘基的插入和刪除。序列比對中允許有“gap”存在,扣除gap值,打分仍最高。(4)矩陣打分——來自統(tǒng)計的結(jié)果反映蛋白質(zhì)家族的共性。如免疫球蛋白家族、白蛋白家族序列比對:僅在一定程度上反映結(jié)構(gòu)的相似性。結(jié)構(gòu)打分矩陣序列比較——是一種類結(jié)構(gòu)比較法,提高結(jié)構(gòu)相似性(5)雙重比對的實例:同種蛋白不同亞基,人血紅蛋白——兩個鏈同源性73%(P62)不同來源同功蛋白,人和軟體動物肌紅蛋白同源性22%(P63)同源性高,不同打分矩陣給出結(jié)果相一致。同源性低,不同打分矩陣給出結(jié)果有不同。原因:主要由于序列不保守區(qū)匹配不一致導(dǎo)致。第十二頁,共五十三頁,2022年,8月28日多重序列比對(Multiplesequencealignment;MSA)(1)多重序列比對三個以上的序列(蛋白、DNA等)相互間的序列比對。推導(dǎo)出序列之間的同源性程度序列之間的種系發(fā)生關(guān)系蛋白質(zhì)結(jié)構(gòu)域的三維結(jié)構(gòu)與二級結(jié)構(gòu)等。圖3基于細胞質(zhì)砷還原蛋白氨基酸序列的系統(tǒng)發(fā)育分析第十三頁,共五十三頁,2022年,8月28日(2)多重序列比對方法多重序列比較以雙重序列比較為基礎(chǔ)序列比對給出顯著性得分的方法假設(shè)6個序列,要得到顯著性得分,將序列重排100次,分別求出每兩對序列的顯著性得分,需要進行C62×101=1515(次)歸一化比對得分“NAS值”與“顯著性得分”成正比NAS:兩個序列的(最大顯著性得分)與(序列長度)的比值(歸一化處理)NAS值高的一對序列,即是同源性最高的序列多重序列比對:最先考慮兩個同源性高的序列,再挑選NAS值較高的第三個序列進行比對,依次類推,獲得全部序列的同源性高低排列。如:feng-Doolite法和Barton-Sternberg法等。第十四頁,共五十三頁,2022年,8月28日雙重序列比對與多重序列比對關(guān)系雙重比對:目標序列與其它系列的同源性和結(jié)構(gòu)相似性比較。

一條系列與其它多條序列的比對。多重比對:包括目標系列在內(nèi)的多條系列之間相互關(guān)系的比較。 多條序列之間每兩條序列之間均進行相互比較。雙重序列比較是多重比對的基礎(chǔ),相互之間進行多重比對,找出它們之間相互的種系發(fā)生關(guān)系和高級結(jié)構(gòu)的關(guān)系。首先進行雙重比對,選擇出同源性較高的序列,然后進行多重比較,獲得目標序列更多的信息。第十五頁,共五十三頁,2022年,8月28日第二節(jié)蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測

二級結(jié)構(gòu)預(yù)測是研究蛋白質(zhì)折疊問題的主要內(nèi)容之一,也是獲得新氨基酸序列結(jié)構(gòu)信息的一般方法。蛋白質(zhì)分子中二級結(jié)構(gòu)具有較強的規(guī)律性,每一段相鄰的氨基酸具有形成二級結(jié)構(gòu)的傾向,

二級結(jié)構(gòu)預(yù)測常作為局部結(jié)構(gòu)預(yù)測和三維空間結(jié)構(gòu)預(yù)測的基礎(chǔ)。第十六頁,共五十三頁,2022年,8月28日1、預(yù)測方法:有幾十種,歸納為3大類統(tǒng)計法、基于已有知識的預(yù)測方法、混合方法2、預(yù)測的原則以aa殘基為預(yù)測單位假定蛋白二級結(jié)構(gòu)主要由臨近殘基間的相互作用決定。對已知結(jié)構(gòu)蛋白分析、歸納,制定預(yù)測規(guī)則。3、以Chou&Fasman(20th70’)的方法為例進行討論—思路基于單個aa殘基統(tǒng)計的經(jīng)驗參數(shù)法——預(yù)測二級結(jié)構(gòu)通過于對大量已知蛋白結(jié)構(gòu)進行統(tǒng)計歸納出每種aa殘基的二級結(jié)構(gòu)傾向因子第十七頁,共五十三頁,2022年,8月28日(1)Chou&Fasman預(yù)測二級結(jié)構(gòu)參數(shù)定義 每個aa殘基具有7個參數(shù),依據(jù)7個參數(shù),預(yù)測二級結(jié)構(gòu)——氨基酸殘基的參數(shù)的定義Pα、Pβ、和Pt:分別為形成螺旋、折疊和轉(zhuǎn)角的傾向性。f(i)、f(i+1)、

f(i+2)、

f(i+3):相鄰四個殘基的轉(zhuǎn)角參數(shù)。f:每個aa殘基在第一、第二、第三和第四位的頻度如:Pro:30%在第二位,第三位<4%依據(jù)Pα和Pβ大?。簩?0種aa分類如:Glu、Ala是最強螺旋aa殘基;Val、Ile:最強折疊aa殘基Asp、Gly、Pro常分布于轉(zhuǎn)角的aa殘基如:Pro中斷螺旋,Glu:中斷折疊第十八頁,共五十三頁,2022年,8月28日(2)Chou&Fasman預(yù)測經(jīng)驗規(guī)則基本思路利用一組規(guī)則,掃描氨基酸序列,尋找二級結(jié)構(gòu)成核位點和終止位點,擴展成核區(qū)域,直到二級結(jié)構(gòu)類型可能發(fā)生終止為止。四個簡要規(guī)則(掌握)

-1、α-螺旋規(guī)則

-2、β-折疊規(guī)則

-3、轉(zhuǎn)角規(guī)則

-4、重疊規(guī)則第十九頁,共五十三頁,2022年,8月28日-1、α-螺旋規(guī)則α-螺旋核:相鄰的6個殘基,至少4個殘基傾向形成α-螺旋,(4個殘基的Pα>100),即為螺旋核。α-螺旋的定義沿序列尋找α-螺旋核,向兩端延伸,直至4個殘基Pα

<100為止。若aa片段長度>5,Pα

均值>Pβ均值,則該片段為螺旋螺旋內(nèi)部不允許Pro出現(xiàn),Pro終止螺旋的延伸。第二十頁,共五十三頁,2022年,8月28日-2、β-折疊規(guī)則和定義β-折疊核,相鄰的6個殘基,至少4個殘基傾向形成β-折疊,(4個殘基的Pβ>100),即為折疊核。沿序列尋找β-折疊核,向兩端延伸,直至4個殘基Pβ

<100為止。若片段Pβ>105

,且Pβ

均值>Pα均值定義該片段為β-折疊Glu:中斷折疊第二十一頁,共五十三頁,2022年,8月28日-3、轉(zhuǎn)角規(guī)則和定義轉(zhuǎn)角模型為4肽組合模型,要考慮每個位置上殘基組合的概率,(特定氨基酸在每個位置上的概率)從第i個殘基開始,連續(xù)4個殘基的片段,其概率相乘,根據(jù)計算結(jié)果判定是否轉(zhuǎn)角若:f(i)×f(i+1)×

f(i+2)×

f(i+3)>7.5×10.5若:四肽Pt>100,且Pt>Pβ

,Pt>Pα判定為轉(zhuǎn)角結(jié)構(gòu)第二十二頁,共五十三頁,2022年,8月28日-4、重疊規(guī)則若預(yù)測的肽段——螺旋區(qū)和折疊區(qū)重疊,按照重疊區(qū)域Pα

均值和Pβ均值相對大小進行預(yù)測Pα

均值>Pβ均值,預(yù)測為螺旋Pβ

均值>Pα均值,預(yù)測為折疊第二十三頁,共五十三頁,2022年,8月28日本節(jié)小結(jié)重點講述了Chou&Fasman預(yù)測方法和規(guī)則α-螺旋規(guī)則β-折疊規(guī)則轉(zhuǎn)角規(guī)則重疊規(guī)則二級結(jié)構(gòu)預(yù)測方法和原理——簡單明了,二級結(jié)構(gòu)參數(shù)的物理意義明確,二級結(jié)構(gòu)成核、延伸、終止規(guī)則,反映了蛋白質(zhì)二級結(jié)構(gòu)形成過程。該方法的預(yù)測準確率在50%左右。第二十四頁,共五十三頁,2022年,8月28日第三節(jié)蛋白質(zhì)三維結(jié)構(gòu)預(yù)測一、蛋白質(zhì)三維結(jié)構(gòu)的理論預(yù)測:利用計算機,根據(jù)已有理論和已知aa序列等信息來預(yù)測蛋白質(zhì)的三級結(jié)構(gòu)。二、三維結(jié)構(gòu)預(yù)測的復(fù)雜性——是目前最復(fù)雜、最困難的技術(shù)?蛋白質(zhì)序列與結(jié)構(gòu)之間的關(guān)系非常復(fù)雜,已經(jīng)掌握了一些序列與二級結(jié)構(gòu)之間的關(guān)系關(guān)于aa序列與三維結(jié)構(gòu)之間的關(guān)系了解較少。序列相似的蛋白可能折疊成相似的三維結(jié)構(gòu),序列差異較大的蛋白質(zhì)也可能折疊成相似的結(jié)構(gòu),分子伴侶存在下,蛋白的折疊問題更加復(fù)雜。第二十五頁,共五十三頁,2022年,8月28日三、蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的理論三維結(jié)構(gòu)分析表明:三維結(jié)構(gòu)堆積的次級作用力和二硫鍵等——在維系三維結(jié)構(gòu)具有重要的作用,對蛋白質(zhì)三維結(jié)構(gòu)預(yù)測具有重要作用。二級結(jié)構(gòu)與三級結(jié)構(gòu)之間的序列模體(motif)、結(jié)構(gòu)域(domain)和折疊單元(fold)對蛋白質(zhì)三維結(jié)構(gòu)預(yù)測具有重要作用。四、預(yù)測的方法(3類)1、同源建模(HolologyModeling)2、折疊識別(FoldRecognition)3、從頭計算(AbInitio)第二十六頁,共五十三頁,2022年,8月28日1、同源建模(1)概念: 又稱比較性模擬,利用已知結(jié)構(gòu)的同源蛋白和蛋白質(zhì)家族中的蛋白質(zhì)作為模板,模擬目標蛋白質(zhì)結(jié)構(gòu)的方法(建立目標蛋白的分子模型)。(2)預(yù)測思路:未知結(jié)構(gòu)蛋白尋找已知結(jié)構(gòu)的同源蛋白以同源蛋白為模板建立同源蛋白結(jié)構(gòu)模型移植模型蛋白的結(jié)構(gòu)數(shù)據(jù)構(gòu)建未知蛋白的模型(3)特點:預(yù)測速度快精度較高局限性大:已知結(jié)構(gòu)蛋白數(shù)量較少,許多蛋白沒有同源序列使用模型不同,預(yù)測結(jié)構(gòu)并不唯一。第二十七頁,共五十三頁,2022年,8月28日(4)預(yù)測步驟(6個)搜索結(jié)構(gòu)模型的模板序列比對建立骨架構(gòu)建目標蛋白側(cè)鏈建立目標蛋白的環(huán)區(qū)優(yōu)化模型預(yù)測結(jié)果若序列的等同部分超過60%,非常接近測定結(jié)果若序列的等同部分超過30%,期望得到較好的預(yù)測結(jié)果搜索結(jié)構(gòu)模型的模板:假定兩個同源蛋白具有相同骨架,按同源蛋白模型建立模板序列比對:目標蛋白與模板蛋白殘基匹配建立骨架:模板結(jié)構(gòu)的原子坐標移植到目標蛋白,建立目標蛋白的骨架構(gòu)建目標蛋白側(cè)鏈:移植相同殘基的坐標,不完全匹配的殘基,側(cè)鏈構(gòu)象采用經(jīng)驗數(shù)據(jù)預(yù)測,建立目標蛋白的環(huán)區(qū):經(jīng)驗方法,從已知蛋白質(zhì)中,尋找最優(yōu)的環(huán)區(qū),拷貝結(jié)構(gòu)數(shù)據(jù)優(yōu)化模型:建立初步模型,對不相容的空間坐標進行改進優(yōu)化如:采用分子力學(xué)、分子動力學(xué)、模擬退火等方法進行結(jié)構(gòu)優(yōu)化第二十八頁,共五十三頁,2022年,8月28日2、折疊識別(FoldRecognition)又稱穿針引線法(threading):根據(jù)結(jié)構(gòu)類型進行預(yù)測在沒有同源蛋白模板情況下,將目標蛋白序列“穿”入蛋白質(zhì)數(shù)據(jù)庫中,與已知的各種蛋白質(zhì)折疊模板的骨架比對,由計算機來識別目標蛋白序列與數(shù)據(jù)庫中蛋白質(zhì)折疊模板是否“匹配”。設(shè)計一個評分標準,計算目標蛋白序列折疊成各種已知模板的可能性,根據(jù)得法高低判斷“匹配程度”。適用于大多數(shù)蛋白進行結(jié)構(gòu)預(yù)測,評分系統(tǒng)設(shè)計是決定折疊識別方法預(yù)測準確度的關(guān)鍵。第二十九頁,共五十三頁,2022年,8月28日3、從頭計算(AbInitio)也稱分子動力學(xué)模擬預(yù)測方法。源于安分森的“最低自由能構(gòu)象假說”。與同源建模和折疊識別兩種方法相比,從頭計算方法不需要模板,而是以自由能作為預(yù)測蛋白質(zhì)折疊類型的基礎(chǔ)。能量函數(shù)設(shè)計和最低自由能的確定是決定從頭計算方法預(yù)測準確度高低的關(guān)鍵主要是求解體系中每個原子相關(guān)的牛頓運動方程和薛定諤方程。方法:利用有限的實驗數(shù)據(jù),構(gòu)建分子結(jié)構(gòu)模型,研究分子的能量與結(jié)構(gòu)動態(tài)變化的關(guān)系。主要應(yīng)用于前兩種方法的補充手段和應(yīng)用于結(jié)構(gòu)優(yōu)化。第三十頁,共五十三頁,2022年,8月28日第四節(jié)蛋白質(zhì)結(jié)構(gòu)預(yù)測中的主要生物信息資源一、常用蛋白質(zhì)序列數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)2、SWISS-PROT數(shù)據(jù)庫

3、TrEMBL數(shù)據(jù)庫4、UniProt蛋白質(zhì)數(shù)據(jù)倉庫二、常見蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)第三十一頁,共五十三頁,2022年,8月28日蛋白序列數(shù)據(jù)庫種類繁多,各有特色。根據(jù)實際情況,通常結(jié)合幾個不同數(shù)據(jù)庫對結(jié)果進行比較以下介紹3種數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)網(wǎng)址:./pir/1984年美國國家生物醫(yī)學(xué)研究基金會(NBRF)創(chuàng)建, 源于1960(Dayhoff)《蛋白質(zhì)結(jié)構(gòu)與結(jié)構(gòu)圖冊)1988年成立國家蛋白質(zhì)信息中心(PIR-Interantional)共同收集和維護PIR國際蛋白序列數(shù)據(jù)庫(PIR-PSD)是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,提供一個蛋白序列數(shù)據(jù)庫、相關(guān)數(shù)據(jù)庫和輔助工具集成系統(tǒng)一、常用蛋白質(zhì)序列數(shù)據(jù)庫第三十二頁,共五十三頁,2022年,8月28日PIR提供3種類型的檢索服務(wù)基于文本的交互式查詢,用戶通過關(guān)鍵詞進行數(shù)據(jù)查詢標準序列搜索和比對:BLAST、FASTA等工具高級搜索:結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等PIR包括3個子數(shù)據(jù)庫,蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)蛋白質(zhì)分類數(shù)據(jù)庫(iProClass)非冗余蛋白質(zhì)參考資料數(shù)據(jù)庫(PIR-NREF)第三十三頁,共五十三頁,2022年,8月28日2.SWISS-PROT數(shù)據(jù)庫

1986年創(chuàng)建:瑞士Geneva大學(xué)和歐洲生物信息研究所(EBI)瑞士生物信息研究所(SIB)和(EBI)共同維護管理第三十四頁,共五十三頁,2022年,8月28日SWISS-PROT數(shù)據(jù)庫數(shù)據(jù)介紹——包括核心數(shù)據(jù)和和注釋兩大類核心數(shù)據(jù):由蛋白質(zhì)序列(條目)構(gòu)成,包含4大類基本信息:蛋白質(zhì)序列數(shù)據(jù)、引用文獻信息、分類學(xué)信息、注釋信息等注釋:蛋白質(zhì)功能、轉(zhuǎn)錄后修飾、特殊位點和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。檢索:利用序列提取系統(tǒng)(SRS),方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。

序列提交:SWISS-PROT只接受直接測序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。第三十五頁,共五十三頁,2022年,8月28日SWISS-PROT數(shù)據(jù)庫特點所有序列條目都經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計算機供給并查閱有關(guān)文獻資料仔細核實。每個條目包含——條目基本信息、分類信息(描述蛋白質(zhì)的生物來源)、引用文獻信息、注釋、蛋白質(zhì)序列等。冗余最?。簩?shù)據(jù)進行歸并處理,降低了數(shù)據(jù)庫的冗余度。與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。第三十六頁,共五十三頁,2022年,8月28日3、TrEMBL(歐洲分子生物學(xué)實驗室)數(shù)據(jù)庫 網(wǎng)址:是一個計算機注釋的蛋白數(shù)據(jù)庫,是SWISS-PROT數(shù)據(jù)庫的補充。數(shù)據(jù)庫蛋白序列不是直接實驗得到,由DNA序列映射獲得

主要包含EMBL/Genbank/DDBJ核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯獲得蛋白序列TrEMBL由2部分組成SP-TrEMBL(SWISS-PROTTrEMBL)序列被賦予SWISS-PROT登錄號,最終要收集到SWISS-PROTREM-TrEMBL(RemainingTrEMBL)序列沒有被賦予SWISS-PROT登錄號,不準備放入SWISS-PROT

如:人工合成蛋白序列、申請專利的序列、偽基因?qū)?yīng)的序列等第三十七頁,共五十三頁,2022年,8月28日4、蛋白質(zhì)數(shù)據(jù)倉庫(UniveralProteinResourceUniProt)網(wǎng)址:歐洲生物信息研究所(EBI)將3個蛋白數(shù)據(jù)庫(PIR—Swiss-Prot—TrEMBL)統(tǒng)一起來,稱為UniProtUniProt包括3部分UniProtKnowledgebase(UniProt)數(shù)據(jù)庫

蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心UniProtNon-redundantReference(UniFef)數(shù)據(jù)庫(非冗余)

密切相關(guān)蛋白序列組合到一條記錄中,提高檢索速度,根據(jù)序列相似程度分成3個數(shù)據(jù)庫UniRef100,UniRef90,UniRef50;UniProtArchive(UniParc)資源庫

檔案數(shù)據(jù)庫:記錄所有蛋白序列歷史第三十八頁,共五十三頁,2022年,8月28日二、常見蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫隨著X射線晶體衍射分子結(jié)構(gòu)測定而出現(xiàn)的數(shù)據(jù)庫蛋白質(zhì)分子空間結(jié)構(gòu)原子坐標包括蛋白質(zhì)家族、折疊模式、結(jié)構(gòu)域、回環(huán)等數(shù)據(jù)庫主要介紹2類數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(PDB)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)第三十九頁,共五十三頁,2022年,8月28日1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)20th70S’問世1998年美國國家科學(xué)基金委、能源部和衛(wèi)生研究院資助,成立結(jié)構(gòu)生物學(xué)合作研究協(xié)會,管理PDB數(shù)據(jù)庫,至今已存放上萬套分子的原子坐標。蛋白結(jié)構(gòu)來自—X射線衍射、核磁共振和理論計算。和核酸序列庫一樣,通過網(wǎng)絡(luò)直接向PDB提交數(shù)據(jù)。大部分為蛋白質(zhì)(多肽、病毒),此外,蛋白核酸復(fù)合物和多糖。數(shù)據(jù)以文本文件存放,每個分子有一套獨立的文件。數(shù)據(jù)包括原子坐標、物種來源、化合物名稱、結(jié)構(gòu)遞交者、文獻等信息。還有分辨率、結(jié)構(gòu)基因、溫度系數(shù)、蛋白主鏈數(shù)、分子式、金屬離子、二級結(jié)構(gòu)信息、二硫鍵位置等數(shù)據(jù)。第四十頁,共五十三頁,2022年,8月28日2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)結(jié)構(gòu)分類依據(jù):折疊類型、拓撲結(jié)構(gòu)、家族和超家族結(jié)構(gòu)、二級結(jié)構(gòu)、超二級結(jié)構(gòu)等分類信息簡單介紹2個主要的蛋白分類數(shù)據(jù)庫(1)SCOP:(Structuralclassificationofprotein)英國研究委員會分子生物學(xué)實驗室和蛋白質(zhì)工程中心開發(fā)的,具有分類、檢索和分析系統(tǒng)的數(shù)據(jù)庫。網(wǎng)址:將蛋白分為7大類:α、β、α/β、α+β、多結(jié)構(gòu)域蛋白、膜蛋白和細胞表面蛋白、小蛋白在大類基礎(chǔ)上,進一步按折疊類型、超家族、家族3個層次分類第四十一頁,共五十三頁,2022年,8月28日(2)CATH:

英國倫敦大學(xué)開發(fā)與維護網(wǎng)址:分類依據(jù): 類型(Class,C-Level),構(gòu)架(Architecture,A-Level),拓撲結(jié)構(gòu)(Topology,T--Level),同源性(Homology,H-Level),序列(Sequencefamilylevels)等層次。數(shù)據(jù)庫的結(jié)構(gòu)層次:(4個)第一分類層次:α、β、α-β(α/β、α+β)、低二級結(jié)構(gòu)類等4個類型第二分類層次:螺旋和折疊形成超二級結(jié)構(gòu)的排列方式(分子框架—如同建筑物的——立柱和橫梁一樣)第三分類層次:拓撲結(jié)構(gòu),二級結(jié)構(gòu)的性狀和二級結(jié)構(gòu)之間的聯(lián)系。第四分類層次:結(jié)構(gòu)同源性(同源性比對后,再用結(jié)構(gòu)比較)第四十二頁,共五十三頁,2022年,8月28日本節(jié)小結(jié):3種——蛋白質(zhì)序列數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)2、SWISS-PROT數(shù)據(jù)庫

3、TrEMBL數(shù)據(jù)庫4、UniProt蛋白質(zhì)數(shù)據(jù)倉庫2類——蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)

第四十三頁,共五十三頁,2022年,8月28日第五節(jié)應(yīng)用生物信息學(xué)預(yù)測蛋白質(zhì)結(jié)構(gòu)(略)若cDNA編碼一個完整的蛋白質(zhì),編碼蛋白質(zhì)結(jié)構(gòu)功能域怎樣?通過生物信息學(xué)方法獲得結(jié)構(gòu)功能域的信息,對研究計劃的制定提供重要的指導(dǎo)信息。預(yù)測蛋白質(zhì)結(jié)構(gòu)包括以下5個方面一、蛋白質(zhì)序列檢索二、蛋白質(zhì)基本性質(zhì)分析三、二級結(jié)構(gòu)預(yù)測四、局部結(jié)構(gòu)域預(yù)測五、三維結(jié)構(gòu)預(yù)測1、跨膜區(qū)預(yù)測2、信號肽及其剪切位點預(yù)測3、卷曲螺旋預(yù)測包括氨基酸組成、分子量、等電點、親水性和疏水性、信號肽、跨膜結(jié)構(gòu)和結(jié)構(gòu)功能域等。第四十四頁,共五十三頁,2022年,8月28日以鼠傷寒沙門氏菌H-1鞭毛蛋白(FlicSalty)的結(jié)構(gòu)預(yù)測為例:一、序列搜索 從SWISS-PROT數(shù)據(jù)庫獲取鞭毛蛋白的序列1、進入SWISS-PROT主頁:2、選擇“searchSwiss-prot/TrEMBL”搜索”Flagellin”,在結(jié)果中選擇“FlicSalty”,檢索到S.typhimuriumFlagellin(鞭毛蛋白),AC:P06179

sp|P06179|FLIC_SALTYFlagellin

3、點擊FlicSalty序列右下方“P09179inFASTAformat”,將“FlicSalty”的序列格式“P09179.fas”格式另存為“P09179.txt”格式搜索序列(2種方式),簡單地進行基于網(wǎng)絡(luò)的序列檢索通過E-mail進行序列檢索

網(wǎng)絡(luò)不是很暢通或不急于得到檢索序列時,可采用E-mail方式搜索同源序列第四十五頁,共五十三頁,2022年,8月28日二、蛋白質(zhì)基本性質(zhì)分析1、等電點(PI)、相對分子量(MW)計算 利用ComputePI/MW計算“P06179.txt”PI和MW(1)進入SWISS-PROT主頁:,選擇Proteomicstools(2)點擊“Primarystructureanalysis”,選擇“ComputePI/MW”,輸入序列,“P06179.txt”,可得結(jié)果。2、蛋白質(zhì)多種參數(shù)預(yù)測 利用expasy工具中的ProtParam軟件,可更全面預(yù)測各種參數(shù)。(1)進入SWISS-PROT主頁,選擇Proteomicstools(2)點擊“Primarystructureanalysis”,選擇“ProtParam”,輸入序列“P09179.txt”,可得結(jié)果。(3)可預(yù)測氨基酸數(shù)目、組成、PI、MW第四十六頁,共五十三頁,2022年,8月28日3、氨基酸組成、電荷分布、疏水區(qū)域、跨膜區(qū)域預(yù)測 利用SAPS軟件預(yù)測(1)進入SWISS-PROT主頁:,選擇Proteomicstools(2)點擊“Primarystructureanalysis”,選擇“SAPS”,輸入序列,輸入序列“P09179.txt”,可得結(jié)果。4、酶切位點預(yù)測 利用PeptideMass分析,以Themolysin蛋白酶酶切(1)進入SWISS-PROT主頁:,選擇Proteomicstools(2)點擊“Proteinidentificationandcharacterization”,選擇“PeptideMass”,輸入序列“P09179.txt”,選擇“Themolysin”,可得結(jié)果。第四十七頁,共五十三頁,2022年,8月28日三、二級結(jié)構(gòu)預(yù)測利用PredictProtein軟件預(yù)測前,首先在PredictProtein主頁,http://www.P/免費注冊,提供接受預(yù)測結(jié)果的E-mail地址。(1)進入SWISS-PROT主頁:,選擇Proteomicstools(2)點擊“Secondarystructureprediction”,選擇“PredictProtein”,或直接進入“PredictProtein”網(wǎng)站:PredictP/.

/sprot/“P09179.txt”,按要求輸入E-mail地址,設(shè)定輸出格式并提交,選擇所需結(jié)果即可獲得結(jié)果。第四十八頁,共五十三頁,2022年,8月28日四、局部結(jié)構(gòu)域預(yù)測1、跨膜區(qū)預(yù)測—利用TMpred軟件(1)進入SWISS-PROT主頁:,選擇Proteomicstools(2)點擊“Topologyprediction”,選擇“TMpre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論