生物信息學 第六章 蛋白質結構預測及分子設計_第1頁
生物信息學 第六章 蛋白質結構預測及分子設計_第2頁
生物信息學 第六章 蛋白質結構預測及分子設計_第3頁
生物信息學 第六章 蛋白質結構預測及分子設計_第4頁
生物信息學 第六章 蛋白質結構預測及分子設計_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息學生物信息學第六章第六章 蛋白質結構預測蛋白質結構預測及分子設計及分子設計.引子引子單個蛋白n 涉及的問題結構預測(2D, 3D)物理化學性質功能空間位置n 研究方法提取純化制作晶體,決定結構理解機制,功能多個蛋白n 涉及的問題表達過程(DNARNA蛋白,調控網(wǎng)絡)相互作用(yeast two-hybrid,親和層析)蛋白家族(family)檢測(2D-PAGE,質譜儀,蛋白質芯片)n 研究方法基因組測序蛋白預言計算機分析結構理解機制,功能. 一級結構(primary):氨基酸序列 二級結構(secondary):螺旋、片層、. 三級(維)結構(tertiary):亞基,結構域 四級結

2、構(quaternary):亞基之間特定的空間關系蛋白質的結構蛋白質的結構.n 一些單氨基酸(aa)突變可引起蛋白結構的重大變化n CFTR的F508突變改變螺旋結構,從而改變其功能n 另一些變化則不明顯n 一些蛋白引起的疾病n 囊腫性纖維化(cystic fibrosis): CFTRn 鐮刀性貧血: 血紅蛋白n 瘋牛病: 朊蛋白n 阿爾茲海默氏征: 淀粉樣前體蛋白蛋白結構與人類疾病蛋白結構與人類疾病 (重要性重要性).蛋白結構的主要倉庫蛋白結構的主要倉庫 PDB PDB 始建于1971 32000個結構數(shù)據(jù)(其中約3萬是蛋白)讀取讀取PDB文件的門戶網(wǎng)站文件的門戶網(wǎng)站解釋解釋PDB文件的數(shù)

3、據(jù)庫文件的數(shù)據(jù)庫.用用”PubMed”PubMed”搜蛋白結構搜蛋白結構(NCBI)(NCBI)1、進入”PubMed”2、選擇”Structure”3、輸入要找的蛋白名稱或ID號等(如RecBCD, E. coli DNA repair)4、點擊”Go”5、點擊感興趣的結果(1W36,進入MMDB)n 結果列表中包含相關蛋白(powered by BLAST)、文獻、結構域(domain)、配體(ligand)、3D縮略圖、三維查看器.在在MMDBMMDB看搜到蛋白的結構看搜到蛋白的結構(NCBI)(NCBI) MMDB (Molecular Modeling Database): NCBI

4、的大分子三維結構數(shù)據(jù)庫,數(shù)據(jù)來自PDB 打開的單個蛋白的頁面中包括 文獻、簡單描述、入庫日期、物種(taxonomy) 該蛋白的PDB, VAST鏈接(entire chain/View 3D Alignment) 三維查看器(Cn3D) 分子成分(圖): chain, 3D domain, classification/family, ligand.點擊其中的點擊其中的PDB (RCSB)PDB (RCSB)鏈接,顯示鏈接,顯示 三維結構實驗數(shù)據(jù) 蛋白分類pSCOP鏈接: 結構域(家族,超家族)pCATH鏈接: 域, Class, Architecture, Topology, Homolo

5、gypGO鏈接: 功能,過程,細胞組成 更多信息p生化性質,配體,SNPp(Sequence Details)圖形顯示各域的分布,類別,DSSP二級結構,PDP域p更多外部鏈接(對于RecBCD多達26個).更多有用的鏈接更多有用的鏈接 PDB的外部鏈接中Compute pI Mw點擊Chain B (可計算各鏈分子量) 在打開的Compute pI/Mw頁面中點擊EX5B_ECOLI (ExPASy,大量信息,鏈接) 在打開的UniProtKB/Swiss-Prot頁面中點擊EcoCyc:EG10824-MONOMER (biocyc,參與的反應/路徑圖).蛋白質結構分析蛋白質結構分析蛋白質

6、一級結構蛋白質一級結構蛋白質基本理化性質分析蛋白質基本理化性質分析蛋白質親疏水性分析蛋白質親疏水性分析蛋白質跨膜區(qū)結構預測蛋白質跨膜區(qū)結構預測蛋白質二級結構蛋白質二級結構蛋白質二級結構預測蛋白質二級結構預測(螺旋,螺旋,折疊等)折疊等)蛋白質超二級結構蛋白質超二級結構蛋白質結構域分析蛋白質結構域分析蛋白質三級結構蛋白質三級結構蛋白質三維結構模擬蛋白質三維結構模擬.蛋白質結構預測過程蛋白質結構預測過程ORF翻譯翻譯實驗數(shù)據(jù)實驗數(shù)據(jù)蛋白質理化性質蛋白質理化性質和一級結構和一級結構數(shù)據(jù)庫搜索數(shù)據(jù)庫搜索結構域匹配結構域匹配已知結構的已知結構的同源蛋白?同源蛋白?三維結構模型三維結構模型可用的折可用的折

7、疊模型?疊模型?同源同源建模建模有有二級二級結構預測結構預測無無串線法串線法有有從頭從頭預測預測無無.蛋白質的基本性質:蛋白質的基本性質:相對分子質量 氨基酸組成 等電點(pI) 消光系數(shù)半衰期 不穩(wěn)定系數(shù) 總平均親水性 .AACompldent利用未知蛋白質的氨基酸組成確認具有相同組成的已知蛋白Compute pI/Mw計算蛋白質序列的等電點和分子量ProtParam對氨基酸序列多個物理和化學參數(shù)(分子量、等電點、吸光系數(shù)等)進行計算PeptideMass計算相應肽段的pI和分子量SAPS利用蛋白質序列統(tǒng)計分析方法給出待測蛋白的物理化學信息蛋白質理化性質分析工具蛋白質理化性質分析工具.Pro

8、tParam 工具簡介工具簡介基于蛋白質序列的組分分析基于蛋白質序列的組分分析氨基酸親疏水性等分析為高級結構預測提供參考氨基酸親疏水性等分析為高級結構預測提供參考Expasy 開發(fā)的針對蛋白質基本理化性質的分析:開發(fā)的針對蛋白質基本理化性質的分析: ProtParam 工具工具 計算以下物理化學性質:計算以下物理化學性質:相對分子質量 氨基酸組成等電點(pI) 消光系數(shù)半衰期 不穩(wěn)定系數(shù)總平均親水性 . 如果分析如果分析Swiss-ProtSwiss-Prot和和TrEMBLTrEMBL數(shù)據(jù)庫中序列數(shù)據(jù)庫中序列 直接填寫直接填寫Swiss-Prot/TrEMBL ACSwiss-Prot/Tr

9、EMBL AC號號(accession number)(accession number) 如果分析新序列:如果分析新序列: 直接在搜索框中粘貼氨基酸序列直接在搜索框中粘貼氨基酸序列.proteins in water measured at 280 nm: Ext(Tyr) = 1490, Ext(Trp) = 5500, Ext(Cystine) = 125.注意:注意:ProtParamProtParam沒有考慮蛋白質翻譯后修飾、蛋白質多聚體等情況,故用沒有考慮蛋白質翻譯后修飾、蛋白質多聚體等情況,故用戶在預測和分析此類特定蛋白質的基本理化性質時需要仔細審視反饋結果。戶在預測和分析此類特

10、定蛋白質的基本理化性質時需要仔細審視反饋結果。蛋白質結構預測蛋白質結構預測.跨膜區(qū)預測:跨膜區(qū)預測:膜蛋白是一類結構獨特的蛋白質,在各種細胞中普遍存在,同時發(fā)膜蛋白是一類結構獨特的蛋白質,在各種細胞中普遍存在,同時發(fā)揮著重要的生理功能。揮著重要的生理功能。一、跨膜區(qū)分析一、跨膜區(qū)分析(a)-Type I membrane protein(b)-Type II membrane protein(c)-Multipass transmembrane proteins(d)-Lipid chain-anchored membrane proteins(e)-GPI-anchored membrane

11、 proteins.蛋白質跨膜區(qū)特性蛋白質跨膜區(qū)特性 典型的跨膜螺旋區(qū)主要是由2030個疏水性疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)組成; 親水殘基往往出現(xiàn)在疏水殘基之間,對功能有重要的作用; 基于親/疏水量和蛋白質跨膜區(qū)每個氨基酸的統(tǒng)計學分布偏好性??缒さ鞍仔蛄锌缒さ鞍仔蛄小斑吔邕吔纭痹瓌t原則 胞外末端胞外末端:Asp(天冬氨酸)、Ser(絲氨酸)和Pro(脯氨酸) 胞外胞外- -內分界區(qū)內分界區(qū):Trp(色氨酸) 跨膜區(qū)跨膜區(qū):Leu(亮氨酸)、Ile(異亮氨酸)、Val(纈氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Al

12、a(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸) 胞內胞內- -外分界區(qū)外分界區(qū):Tyr(絡氨酸)、 Trp(色氨酸)和Phe(苯丙氨酸) 胞內末端胞內末端:Lys(賴氨酸)和Arg(精氨酸).DAS用Dense Alignment Surface(DAS)算法來預測無同源家族的蛋白跨膜區(qū)HMMTOP由Enzymology研究所開發(fā)的蛋白質跨膜區(qū)和拓撲結構預測程序SOSUI由Nagoya大學開發(fā)一個具有圖形顯示跨膜區(qū)的程序TMAP基于多序列比對來預測跨膜區(qū)的程序TMHMM基于HMM方法的蛋白質跨膜區(qū)預測工具TMpred基于對TMbase數(shù)據(jù)庫的統(tǒng)計分析來預測蛋白質跨膜區(qū)和跨膜方向TopPred

13、是一個位于法國的蛋白質拓撲結構預測程序.TMpred 工具簡介工具簡介 依靠跨膜蛋白數(shù)據(jù)庫依靠跨膜蛋白數(shù)據(jù)庫TMbaseTMbase 預測跨膜區(qū)和跨膜方向預測跨膜區(qū)和跨膜方向.主要參數(shù)主要參數(shù)/ /選項選項序列在線提交形式:序列在線提交形式:直接貼入蛋白序列直接貼入蛋白序列填寫填寫SwissProt/TrEMBL/EMBL/EST的的ID或或AC.輸出結果輸出結果可能的跨膜螺旋區(qū)可能的跨膜螺旋區(qū)相關性列表相關性列表.26.二、信號肽分析二、信號肽分析信號肽:信號肽:指分泌蛋白表達時氨基端(指分泌蛋白表達時氨基端(N-N-,有時不在,有時不在N N端)的端)的2020余個氨基酸,將引余個氨基酸,

14、將引導該蛋白質最終分泌到細胞外,但這段信號肽會被信號肽酶切掉,所以成熟的分導該蛋白質最終分泌到細胞外,但這段信號肽會被信號肽酶切掉,所以成熟的分泌蛋白是不含這段信號肽的。信號肽可以指導蛋白質的跨膜轉移。泌蛋白是不含這段信號肽的。信號肽可以指導蛋白質的跨膜轉移。信號肽預測工具:信號肽預測工具:SignalP server SignalP server ( ).三、蛋白質二級結構分析(三、蛋白質二級結構分析(螺旋、螺旋、折疊折疊)蛋白質二級結構及類型蛋白質二級結構及類型.BCM SearchLauncher 包括了常見的蛋白質結構分析程序入口,一般分析可以以此服務器作為起點Prof基于多重序列比對

15、預測工具PSIpred提供跨膜蛋白拓撲結構預測和蛋白profile折疊結構識別工具nnPredict預測蛋白質序列中潛在的亮氨酸拉鏈結構和卷曲螺旋PredictProtein提供多項蛋白質性質分析,并有較好準確性PREDATOR預測時考慮了氨基酸殘基間的氫鍵.PredictProtein PredictProtein ( () 可以獲得功能預測、二級結構、基序、二硫鍵結構、結構域等許多蛋白質序列的結構信息。 該方法的平均準確率超過72%,最佳殘基預測準確率達90%以上。因此,被視為。 用戶需要注冊注冊IDID、驗證驗證E-mailE-mail后,才能使用PredictProtein工具。.重要

16、的算法:重要的算法:PROFsecPROFsec( 螺旋,螺旋, 折疊等折疊等基本二級結構預測)基本二級結構預測)PHDhtmPHDhtm(典型跨膜螺旋區(qū)預(典型跨膜螺旋區(qū)預測)測)ProSiteProSite(特征(特征MotifMotif識別方法)識別方法).結果名稱結果名稱說明說明Secondary Structure蛋白質二級結構預測蛋白質二級結構預測Transmembrane典型跨膜螺旋區(qū)預測典型跨膜螺旋區(qū)預測Coiled Coils卷曲螺旋預測Low complexity segments低復雜區(qū)域識別Non-Ordinary Secondary Structure非典型二級結構預

17、測Localization蛋白質定位預測Disulphide Bonds二硫鍵位置預測二硫鍵位置預測Trans-Membrane Beta-Barrel-桶狀跨膜區(qū)預測(細菌)Protein Disorder蛋白質結果無序性分析Ambivalent Switches識別構象變化的氨基酸Protein-Protein binding蛋白質-蛋白質結合位點識別Protein-DNA binding蛋白質-DNA結合位點識別Globular球狀蛋白預測結果Prosite基序(基序(Motif)識別和分類)識別和分類.四、蛋白質結構域預測四、蛋白質結構域預測結構域結構域(Structural Doma

18、inStructural Domain)是蛋白序列的)是蛋白序列的功能功能、結構結構和和進化單元。進化單元。結構域通常結構域通常都是幾個超二級結構單元的組合,即蛋白質多肽鏈在二級結構的基礎上進一步卷都是幾個超二級結構單元的組合,即蛋白質多肽鏈在二級結構的基礎上進一步卷曲折疊成幾個相對獨立的近似球形的組裝體。曲折疊成幾個相對獨立的近似球形的組裝體。結構域是介于二級和三級結構之間結構域是介于二級和三級結構之間的另一種結構層次。的另一種結構層次。結構域的實質是二級結構的組合體,充當三級結構的元件。結構域的實質是二級結構的組合體,充當三級結構的元件。. .工具工具網(wǎng)站網(wǎng)站備注備注CDD通過比較目標序列

19、和一組位置特異性打分矩陣進行RPS-BLAST來確定目標序列中的保守結構域HAMAP通過專家預測系統(tǒng)產生的微生物家族同源蛋白數(shù)據(jù)InterPro蛋白質家族、結構域和功能位點的聯(lián)合資蛋白質家族、結構域和功能位點的聯(lián)合資源數(shù)據(jù)庫,整合了多個數(shù)據(jù)庫和工具的結源數(shù)據(jù)庫,整合了多個數(shù)據(jù)庫和工具的結果,并提供相應的鏈接果,并提供相應的鏈接Pfam每個蛋白家族包含了多序列比對、pro和注釋文件ProDom從SWISS-PROT/TrEMBL數(shù)據(jù)庫中的非片段蛋白序列數(shù)據(jù)構成,每條記錄包含一個同源結構域多重比對和家族保守一致性序列SMART由EMBL建立,集成了大部分已知蛋白功能域數(shù)據(jù),注釋包括了功能類型、三維

20、結構、分類信息.InterPro: InterPro數(shù)據(jù)庫由EBI開發(fā),整合蛋白質家族家族、結構域結構域和功能位點功能位點等資源。整合UniProt、PROSITE、Pfam等12個成員數(shù)據(jù)庫,檢索結果準確。目前最新的InterPro 34.0版本包含22245個條目,涵蓋63096309個結構域個結構域、14854個蛋白質家族(截至2011年11月底)。.InterProScan: InterProScan: http:/http:/提供在線提交和本地分析工具(提供在線提交和本地分析工具(LinuxLinux系統(tǒng))系統(tǒng)).Gene Ontology(基因本體論)】,用于蛋白的功能分類。包含基

21、因產物的相關分子功能、生物學途徑和細胞學組件,根據(jù)這三個方面的內容對基因進行分類。.保守區(qū)位置保守區(qū)位置.AC號,家族名稱號,家族名稱蛋白家族信息蛋白家族信息其他數(shù)據(jù)庫中的收錄情況其他數(shù)據(jù)庫中的收錄情況相關的其他家族相關的其他家族條目類型條目類型GO術語注釋術語注釋說明說明結構鏈接結構鏈接數(shù)據(jù)庫鏈接數(shù)據(jù)庫鏈接.該家族蛋白在不該家族蛋白在不同種類生物體中同種類生物體中出現(xiàn)情況出現(xiàn)情況其他家族與該其他家族與該家族的重疊情家族的重疊情況況.五、蛋白三級結構研究方法五、蛋白三級結構研究方法實驗方法1、X光晶體衍射2、核磁共振(NMR)計算方法1、從頭算方法(ab initio/de novo)/理論分

22、析法p 分子動力學p 能量最低假設2、比較建模(comparative modeling)p 基于同源性.1 1、從頭算方法、從頭算方法(ab initio/de novo)/(ab initio/de novo)/理論分析法理論分析法 根據(jù)物理化學原理(如原子之間作用力),建立模型,預測結構 一些問題p 自然的蛋白質結構和未折疊的蛋白質結構,兩者之間的能量差非常小(1kcal/mol數(shù)量級)p 蛋白質可能的構象空間龐大,針對蛋白質折疊的計算量非常大p 計算模型中力場參數(shù)的不準確性 待測蛋白沒有同源性時可用此法.2 2、比較建模比較建模/ /同源模型化方法同源模型化方法( (統(tǒng)計方法統(tǒng)計方法)

23、 )通過同源序列分析或者模式匹配預測蛋白質的空間結構或者結構單元,如: 鋅指結構、螺旋-轉角-螺旋結構、DNA結合區(qū)域等(motif)原理:許多不同的序列會采用同一個基本的折疊,具有相似序列的蛋白傾向于有相似結構,一對自然進化的蛋白,如果它們的序列具有2530%的等同部分,可以假設它們結構相似。步驟Step 1、識別結構保守域Step 2、將待測蛋白與模板比對,保留30%同源性的結果Step 3、建模Step 4、評價模型,一般而言,同源性越高,結構預言越精確,50%同源性,精確度可達1埃.比較建模比較建模網(wǎng)站網(wǎng)站基于序列同源比對,對于序列的序列模擬比較有效,最常用的方法 CPHmodels

24、“穿”入已知的各種蛋白質折疊骨架內,適于對蛋白質核心結構進行預測,計算量大THREADER3D-PSSM基于分子動力學,尋找能量最低的構象,計算量大,只能做小分子預測HMMSTRROSSETA.同源建模法分析步驟:同源建模法分析步驟:1 1、多、多序列比對序列比對與已有晶體結構的蛋白質序列比對2 2、確定、確定是否有可以使用的模板是否有可以使用的模板p序列相似度30%p序列相似度30%,結合功能,蛋白質一級序列、二級結構或結構域信息3 3、構建、構建三維模型三維模型4 4、三維、三維模型準確性檢驗模型準確性檢驗pWhatcheck 程序pRamachandran plot計算檢驗5 5、手工、手工調整多序列比對,重新擬調整多序列比對,重新擬合,構建新的模型合,構建新的模型. SWISS-MODELSWISS-MODEL工具工具 () 同源建模方法同源建模方法 與與PDBPDB數(shù)據(jù)庫已知結構的蛋白質序列比對進行預測數(shù)據(jù)庫已知結構的蛋白質序列比對進行預測.Anolea(Atomic Non-Local Environment Assessment):):is a server that performs energy calculations

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論