蛋白質(zhì)生物信息學(xué)_第1頁
蛋白質(zhì)生物信息學(xué)_第2頁
蛋白質(zhì)生物信息學(xué)_第3頁
蛋白質(zhì)生物信息學(xué)_第4頁
蛋白質(zhì)生物信息學(xué)_第5頁
已閱讀5頁,還剩100頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、蛋白質(zhì)生物信息學(xué)蛋白質(zhì)生物信息學(xué) 蛋白質(zhì)序列分析 蛋白質(zhì)結(jié)構(gòu)基礎(chǔ) 三級結(jié)構(gòu)測定 蛋白質(zhì)生物信息學(xué)的概念及內(nèi)容生物信息學(xué)(bioinformatics):生物學(xué)和信息科學(xué)的交叉融合形成了廣義的生物信息學(xué)。它包含了生物信息的獲取、處理、存儲、發(fā)布、分析和解釋等在內(nèi)的各個方面,它綜合運用數(shù)學(xué)、生物學(xué)、物理學(xué)、信息科學(xué)、計算機科學(xué)等諸多學(xué)科的理論方法及國際互聯(lián)網(wǎng),闡明和解釋大量數(shù)據(jù)所包含的生物學(xué)意義。 具體來說,生物信息學(xué)是把基因組DNA序列信息作為源頭,確定基因組序列中代表蛋白質(zhì)和RNA的基因編碼區(qū)。同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳規(guī)律。在此基礎(chǔ)上,歸納和

2、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而揭示生命體的生長、發(fā)育、代謝和進化的規(guī)律。 后基因組時代/功能基因組和蛋白質(zhì)組時代 蛋白質(zhì)的生物信息學(xué)作為其中的一個部分,成為生物信息學(xué)的重點發(fā)展方向。1. 基因功能表達譜的研究,即探討基因在特定時空中的表達。2. 確定核酸序列中編碼蛋白質(zhì)的基因,了解蛋白質(zhì)的功能及其分子基礎(chǔ),運用蛋白質(zhì)結(jié)構(gòu)模擬與分子設(shè)計進行功能預(yù)測。3. 對已知的各種代謝途徑和相關(guān)的生物分子的結(jié)構(gòu)、功能及它們之間的相互作用進行整理,用以研究細胞發(fā)育、分化途徑和疾病的發(fā)生與發(fā)展的途徑。4. 將這些信息與生命體和生命過程的生理生化信息相結(jié)合,闡明其分子機制,最終進

3、行蛋白質(zhì)及核酸的分子設(shè)計、藥物設(shè)計和個體化的醫(yī)療保健設(shè)計。5. 其他。例如,序列對比、結(jié)構(gòu)對比、計算機輔助基因識別、非編碼區(qū)分析和DNA語言研究、分子進化和比較基因組學(xué)、序列重疊群裝配、生物信息處理并行算法的研究、代謝網(wǎng)絡(luò)分析、基因芯片設(shè)計、蛋白質(zhì)組學(xué)數(shù)據(jù)分析等。蛋白質(zhì)生物信息學(xué)研究的主要內(nèi)容第二節(jié) Internet 網(wǎng)上的生物信息學(xué)資源一、生物信息學(xué)網(wǎng)站(一)常用重要網(wǎng)站(二)其他生物信息學(xué)網(wǎng)站二、網(wǎng)絡(luò)搜索引擎及數(shù)據(jù)庫資源(一)部分相關(guān)網(wǎng)絡(luò)搜索引擎(二)部分數(shù)據(jù)庫資料(一)常用重要機構(gòu)1. 美國國家生物技術(shù)信息中心2. 歐洲分子生物學(xué)實驗室3. 歐洲生物信息學(xué)研究所4. 蛋白質(zhì)分析專家系統(tǒng)5

4、. 結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實驗室6. 日本國立遺傳學(xué)研究所1. 美國國家生物技術(shù)信息中心 National Center for Biotechnology Information,NCBI / GenBank等公共數(shù)據(jù)庫 工具: PubMed BLAST OMIM:孟德爾人類遺傳 TaxBrowser:分類瀏覽器 StructureNCBI支持與推廣多種醫(yī)學(xué)及科技方面的數(shù)據(jù)庫,包括:(1)三維蛋白質(zhì)結(jié)構(gòu)的分子模型數(shù)據(jù)庫(MMDB)(2) 孟德爾人類遺傳(OMIM)(3)特殊人類基因序列集(UniGene)(4)人類基因組基因圖(Gene M

5、ap of the human Genome)(5) 生物分類瀏覽器(Taxonomy Browser)(6)癌癥基因組解剖學(xué)項目(CGAP)NCBI HomePage2. 歐洲分子生物學(xué)實驗室 European Molecular Biology Laboratory,EMBL / 1974年由幾乎全部西歐國家及以色列等16國資助在德國海得堡建立的國際研究學(xué)院網(wǎng)絡(luò),致力于分子生物學(xué)研究,在德國、法國、意大利和英國設(shè)有5個分支機構(gòu)。1980年建立了世界上第一個核酸序列數(shù)據(jù)庫,即EMBL核酸序列數(shù)據(jù)庫。EMBL HomePage3. 歐洲生物信息學(xué)研究所 Eu

6、ropean Bioinformatics Institute,EBI http:/www.ebi.ac.uk/ 它是EMBL的一部分。1992年由歐盟資助建立在英國的一個非盈利性學(xué)術(shù)機構(gòu),也是生物信息學(xué)研究與服務(wù)的歐洲中心。開發(fā)多種生物學(xué)數(shù)據(jù)庫,包括:(1)核酸序列數(shù)據(jù)庫(EMBL核酸序列數(shù)據(jù)庫、Ensembl、ENEST、MitBase Server、EDGP、Parasites等);(2)蛋白質(zhì)序列數(shù)據(jù)庫(SWISS-PROT、TrEMBL、InterPro等);(3)基因組數(shù)據(jù)庫;(4)序列結(jié)構(gòu)分類數(shù)據(jù)庫(DSSP、HSSP、DALI等);(5)大分子結(jié)構(gòu)數(shù)據(jù)庫(EBI-MSD等);(

7、6)人類蛋白質(zhì)數(shù)據(jù)庫(HPI等);(7)序列圖譜數(shù)據(jù)庫(RHdb Server、GenomeMaps98等)4. 蛋白質(zhì)分析專家系統(tǒng) Expert Protein Analysis System,ExPASy / 1994年由瑞士生物信息學(xué)院(Swiss Institute of Bioinformatics,SIB)創(chuàng)建的世界上第一個分子生物學(xué)網(wǎng)站,專門從事蛋白質(zhì)序列、結(jié)構(gòu)、功能和蛋白質(zhì)2D-PAGE圖譜等的分析。 通過該網(wǎng)站可以鏈接到國際上包括ENZYME、PROSITE、TrEMBL、SWISS-PROT、SWISS-2DPAGE、 SWISS-3

8、DIMAGE等數(shù)據(jù)庫的相關(guān)站點,以及SWISS-MODEL等軟件工具。ExPASy HomePage5. 結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實驗室 The Research Collaboratory for Structural Bioinformatics,RCSB /index.html 主要通過對生物大分子三維結(jié)構(gòu)的研究來探索生物系統(tǒng)的功能。提供有PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫(/pdb/)和NDB核酸數(shù)據(jù)庫(/)等數(shù)據(jù)庫,并提供其開發(fā)的結(jié)構(gòu)分析工具、標準和教學(xué)服務(wù)信息

9、等。6. 日本國立遺傳學(xué)研究所 National Institute of Genetics,NIG http:/www.nig.ac.jg/ 是日本遺傳學(xué)各方面研究的中心研究機構(gòu)及生命科學(xué)所有領(lǐng)域的研究基地。 NIG建立的日本DNA數(shù)據(jù)庫(DDBJ)、歐洲EBI維護的EMBL核酸序列數(shù)據(jù)庫,以及美國NCBI的GenBank數(shù)據(jù)庫,并列為國際上最著名的三大DNA數(shù)據(jù)庫。(二)其他生物信息學(xué)網(wǎng)站 1. 國際網(wǎng)站 歐洲分子生物學(xué)網(wǎng)絡(luò)組織 麻省理工學(xué)院基因組研究中心 哈佛生物實驗室 新加坡國立大學(xué)生物信息中心 生物世界 生物空間 生物在線 2. 中國網(wǎng)站軍事醫(yī)學(xué)科學(xué)院生物工程研究所生物信息網(wǎng)中華醫(yī)學(xué)

10、生物信息網(wǎng)中山大學(xué)生物信息中心天津大學(xué)生物信息中心中國生物信息網(wǎng)北京大學(xué)生物信息中心中華基因網(wǎng)生物通中國科學(xué)院基因組信息學(xué)中心/華大基因研究中心(二)部分數(shù)據(jù)庫資料1. 核酸數(shù)據(jù)庫國家生物技術(shù)信息中心(NCBI)GenBank歐洲分子生物學(xué)實驗室(EMBL)核酸序列數(shù)據(jù)庫日本核酸序列數(shù)據(jù)庫(DDBJ)真核啟動子數(shù)據(jù)庫HIV序列數(shù)據(jù)庫2. 基因組數(shù)據(jù)庫人類基因組數(shù)據(jù)庫(GDB)大腸桿菌K12基因數(shù)據(jù)庫果蠅基因組數(shù)據(jù)庫酵母菌基因組數(shù)據(jù)庫鼠基因組數(shù)據(jù)庫3. 蛋白質(zhì)數(shù)據(jù)庫SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫TrEMBL蛋白質(zhì)序列數(shù)據(jù)庫EBI蛋白質(zhì)數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)信息數(shù)據(jù)庫限制酶數(shù)據(jù)庫氨基酸索引數(shù)據(jù)庫蛋

11、白質(zhì)組分析數(shù)據(jù)庫SWISS-2DPAGE酵母蛋白定位數(shù)據(jù)庫保守蛋白結(jié)構(gòu)域數(shù)據(jù)庫InterPro蛋白質(zhì)數(shù)據(jù)庫PfamPROSITE4. 蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫PDBMMDB序列對比和數(shù)據(jù)庫搜索序列對比的概念n 在生物信息學(xué)研究中,最常用和最經(jīng)典的一個研究手段,就是通過比較分析獲得有用的信息和知識。將研究對象進行相互比較來尋找研究對象可能具備的某些特性。從核酸及蛋白質(zhì)的一級結(jié)構(gòu)方面來分析序列的相同點和不同點,從而能夠推測它們的結(jié)構(gòu)、功能及進化上的聯(lián)系。n 序列對比的理論基礎(chǔ)是進化學(xué)說。如果兩個基因和蛋白質(zhì)序列之間具有足夠的相似性,就推測兩者可能有共同的進化祖先,經(jīng)過序列內(nèi)殘基的替換、缺失以及序列重組

12、等遺傳變異過程分別演化而來。相似性和同源性 序列的相似性(similarity):在序列對比中描述兩條序列之間相同堿基或氨基酸殘基所占比例。 序列的同源性(homology):從大量數(shù)據(jù)中推斷出的兩個基因在進化上具有共同祖先的結(jié)論。序列兩兩對比 描述序列兩兩對比通常用打分矩陣的方法。即兩條序列分別作為矩陣的兩維,矩陣點是兩維上對應(yīng)兩個序列的相似性分數(shù),分數(shù)越高則說明兩個序列越相似。 序列對比問題即是在矩陣中尋找最佳的對比路徑。 方法:Needleman-Wunsch動態(tài)規(guī)劃算法;Smith-Waterman算法;SIM算法。 工具:LALIGN;Align、B12Seq等。多序列對比 多序列對

13、比是把兩條以上可能有系統(tǒng)進化關(guān)系的序列進行對比的方法。 目前,使用最廣泛的多序列對比程序是CLUSTALX。它先將多個序列進行兩兩對比構(gòu)建距離矩陣,確立序列間的兩兩關(guān)系。然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導(dǎo)樹,對關(guān)系密切的序列進行加權(quán)。再從相似程度最高的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建對比,直到所有序列都被加入為止。 將多個蛋白質(zhì)或核酸同時進行比較,尋找這些有進化關(guān)系的序列之間共同的保守區(qū)域、位點和序列譜,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。 對比也是數(shù)據(jù)庫搜索算法的基礎(chǔ)。把所需查詢的序列與整個數(shù)據(jù)庫的全部序列進行對比,從數(shù)據(jù)庫中獲得與之最相似序列的各種數(shù)據(jù),就能夠最快速地獲

14、得有關(guān)查詢序列的大量有價值的參考信息,這樣對于進一步分析該序列的結(jié)構(gòu)和功能都會有非常大的幫助。-這種對比的方法可以有效地分析和預(yù)測一些新發(fā)現(xiàn)的基因的功能。多序列對比數(shù)據(jù)庫搜索的概念 數(shù)據(jù)庫搜索:通過序列相似性對比的算法,在核酸序列數(shù)據(jù)庫和蛋白質(zhì)序列數(shù)據(jù)庫中檢索出與被檢序列具有一定相似性的序列。 數(shù)據(jù)庫搜索的基礎(chǔ)是序列的相似性對比。 被檢測的序列與一個已知基因家族之間的進化關(guān)系被確定之后,通過數(shù)據(jù)庫搜索可以得到一些相似序列,但它們之間的相似性程度具有差別,因此,還需要判斷其序列相似性程度。(其他的研究方法和/或?qū)嶒炇侄蝸眚炞C)數(shù)據(jù)庫搜索的工具 雖然各種搜索程序和算法各不相同,但數(shù)據(jù)庫搜索檢出的結(jié)

15、果基本相似,均采用統(tǒng)計學(xué)評分,并按照相似程度排序。 目前,應(yīng)用較廣泛的序列相似性搜索工具:FASTA、BLAST和BLITZ等。 對于DNA序列相似性檢索,F(xiàn)ASTA的敏感度較高,但BLAST檢索速度較快。 BLITZ的運算速度較慢,但其特異性較高。 BLAST數(shù)據(jù)庫搜索工具 BLAST是目前應(yīng)用最廣泛的序列相似性搜索工具,比FASTA改進更多,搜索速度更快,并建立在嚴格的統(tǒng)計學(xué)基礎(chǔ)之上。BLAST程序程序程序數(shù)據(jù)庫數(shù)據(jù)庫簡述簡述Blastp蛋白質(zhì)蛋白質(zhì)可能找到具有遠源進化關(guān)系的匹配序列可能找到具有遠源進化關(guān)系的匹配序列Blastn核苷酸核苷酸適合尋找分值較高的匹配,不適合遠源適合尋找分值較高

16、的匹配,不適合遠源關(guān)系關(guān)系Blastx蛋白質(zhì)蛋白質(zhì)適合新適合新DNA序列和序列和EST序列的分析,能序列的分析,能夠發(fā)現(xiàn)未知核酸序列潛在的翻譯產(chǎn)物夠發(fā)現(xiàn)未知核酸序列潛在的翻譯產(chǎn)物Tblastn所有閱讀框動態(tài)翻所有閱讀框動態(tài)翻譯的核苷酸序列譯的核苷酸序列適合尋找數(shù)據(jù)庫中尚未標注的編碼區(qū)適合尋找數(shù)據(jù)庫中尚未標注的編碼區(qū)Tblastx核苷酸序列核苷酸序列6個閱個閱讀框的翻譯產(chǎn)物讀框的翻譯產(chǎn)物適合表達序列標簽(適合表達序列標簽(EST)分析)分析NCBI HomePageEXPASY 資源介紹EXPASY- Expert Protein Analysis System EXPASY是由瑞士生物信息研究

17、所(SIB)維護的蛋白組學(xué)分析平臺,側(cè)重于蛋白序列,結(jié)構(gòu)及2-D 電泳數(shù)據(jù)的分析。 特點: 整合了很多蛋白質(zhì)數(shù)據(jù)資源和分析工具 由實驗生物學(xué)家參與數(shù)據(jù)庫的構(gòu)建,數(shù)據(jù)注釋質(zhì)量高,冗余少。Our wishes 基本性質(zhì) pI, Mw 氨基酸組成 親疏水性 hydrophobicity /hydrophilicity 酶切位點 enzymatic cleavage site 消光系數(shù) Wishes continued 高級結(jié)構(gòu) 二級結(jié)構(gòu) 三級結(jié)構(gòu) 保守結(jié)構(gòu)域 家族分析 家族公共模式 同源搜索More exciting 潛在功能 活性位點 修飾情況 細胞定位(分泌,核內(nèi),細胞器?) 參與代謝途徑 相互

18、作用蛋白/疾病相關(guān)? EXPASY is a good start to solve all the above questions.一 、數(shù)據(jù)庫介紹Swiss-Prot 公認注釋信息最佳的蛋白數(shù)據(jù)庫,包含幾乎所有已知蛋白。由專家參與每條蛋白序列的篩選和校正,并進行詳細注釋。注釋信息包括蛋白質(zhì)功能、結(jié)構(gòu)域信息、翻譯后修飾、變異情況等等。 Swiss-Prot 序列格式每條序列注釋包括九部分:Entry info序列簡單信息如名稱、登記號Name and origin編碼蛋白的基因信息References相關(guān)參考文獻comments蛋白功能性質(zhì)概述Cross-references其它數(shù)據(jù)庫中關(guān)于

19、該記錄的信息keywords蛋白關(guān)鍵詞描述Features蛋白性質(zhì)如突變點,結(jié)構(gòu)域等sequence蛋白序列tools一些整合的分析工具主要的交叉索引 基因注釋數(shù)據(jù)庫 GeneCards 收集大量基因相關(guān)資源,注釋非常詳盡 GenAtlas GenLynx 基因表達數(shù)據(jù)庫 SOURCEGeneCards 中給出的基因表達情況交叉索引(續(xù)) 結(jié)構(gòu)域數(shù)據(jù)庫 InterPro Pfam PROSITE 同源蛋白家族數(shù)據(jù)庫 HOVERGEN 脊椎動物同源基因家族數(shù)據(jù)庫交叉索引(續(xù)) 蛋白相互作用數(shù)據(jù)庫 DIP 三維結(jié)構(gòu)數(shù)據(jù)庫 ModBase SMR 2-D 電泳數(shù)據(jù)庫ModBase 鏈接的同源序列三維

20、結(jié)構(gòu)人核糖體蛋白(ribosome biogenesis protein)的同源序列E.coli Elongation Factor Tu structure蛋白相互作用數(shù)據(jù)庫DIP 鏈接Caveolin 1 蛋白的相互作用蛋白,框中為提交的caveolin 1Swiss-Prot 查詢 通過EXPASY中附帶的網(wǎng)絡(luò)搜索界面SRS(sequence retrieval system)進行。SRS是一個通用的查詢系統(tǒng),與NCBI 提供的Entrez 提供類似功能。 用戶可以輸入名稱,編號,物種,組織等多種條件進行查詢。SRS 查詢界面數(shù)據(jù)庫介紹 (2) - TrEMBL對三大核酸數(shù)據(jù)庫(GENB

21、ANK, EMBL, DDBJ)之一的EMBL通過計算機預(yù)測得到的蛋白質(zhì)數(shù)據(jù)庫,雖然不可避免地存在某些錯誤,數(shù)據(jù)質(zhì)量比不上Swiss-Prot。但可以作為Swiss-Prot 的補充,而且其中存在一些功能未知的新基因編碼的產(chǎn)物,可以作為開展功能研究的靶點。 數(shù)據(jù)庫介紹 (3) - ENZYME 收集了很多常用酶的信息,包括功能描述,酶切位點,以及一些相關(guān)鏈接。每條紀錄都按照國際生物化學(xué)與 分 子 生 物 學(xué) 命 名 委 員 會 ( N o m e n c l a t u re C o m m i t te e of t h e I n te r n a t i o n a l U n i o

22、n of Biochemistry and Molecular Biology ,IUBMB)命名規(guī)則進行命名。Enzyme 查詢界面用戶可以根據(jù)酶的描述信息,與化合物的結(jié)合情況,共作用分子等等進行查詢數(shù)據(jù)庫介紹 (4) - PROSITE 蛋白質(zhì)模體及結(jié)構(gòu)域數(shù)據(jù)庫 什么是結(jié)構(gòu)域/模體? 結(jié)構(gòu)域可以理解為蛋白家族共有的保守區(qū)域,是對蛋白家族序列進行多序列比對后,對保守區(qū)域進行抽提歸納得到的結(jié)果。 這種方法得到的保守區(qū)域為在一級序列上保守,與高級結(jié)構(gòu)一般有相關(guān)性,但有時也有例外。 一次多序列比對結(jié)果Clustal 是多序列比對常用的工具,用戶可以提交到http:/www.ebi.ac.uk/cl

23、ustalw/) 比對,許多軟件包如DNAMAN, BIOEDIT中也整合了該軟件 PROSITE 內(nèi)容 PROSITE 主要保存兩類信息:模式(pattern)和譜(profile,權(quán)重矩陣)。 模式可以理解為保守的氨基酸排列方式,通常以氨基酸單字母方式排列. Profile 為對保守區(qū)域每一位置氨基酸保守情況進行打分構(gòu)建的權(quán)重矩陣。PROSITE- pattern 示例 例如酪氨酸激酶磷酸化位點模式 RK-x(2)-DE-x(3)-Y 或 RK-x(3)-DE-x(2)-Y 中擴號表示擴號中的各種氨基酸均可,X表示任意氨基酸,小擴號中的數(shù)字表示氨基酸個數(shù)。 PROSITE- profile

24、 示例第一行為該區(qū)域出現(xiàn)的氨基酸,每一行為蛋白序列中一個位置,在該位置對各種氨基酸的保守情況都給出一個分值,分值越高表示出現(xiàn)概率越大PROSITE 使用注意事項 Pattern主要可以用來預(yù)測某些生物活性位點,如磷酸化位點、甲基化位點。profile預(yù)測可靠性高,可以用來對新蛋白進行分類和提供功能提示。 蛋白的功能位點是與其三維結(jié)構(gòu)緊密相關(guān)的,局部區(qū)域符合某種pattern不能保證一定會具有對應(yīng)的性質(zhì),要根據(jù)實際情況,謹慎對待pattern 預(yù)測結(jié)果。 PROSITE 工具 ScanProsite 搜索蛋白序列是否含PROSITE數(shù)據(jù)庫中存有的模式或是功能位點。另外還可以提供模式來搜索Swis

25、s-Prot中符合某種模式的蛋白以及蛋白三維結(jié)構(gòu)數(shù)據(jù)庫PDB中含有該模式的蛋白,可察看其對應(yīng)的三維結(jié)構(gòu)。 MotifScan 使用PROSITE 以及pfam (另外一個蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫)中的profile 對蛋白進行搜索。 PROSITE 工具 PRATT 一個用于找出一系列序列中保守模式的程序,用戶可以提交自己的一組序列,生成共有的pattern。 PROSITE還提供一些可以下載到本地運行的程序,如ps_scan,但需要安裝perl 運行環(huán)境。Pftools 同樣是可以本地運行的工具,可以搜索PROSITE中的profile,也可以構(gòu)建用戶自己的profile.補充:蛋白結(jié)構(gòu)域數(shù)據(jù)庫

26、除了PROSITE 之外,還有很多結(jié)構(gòu)域數(shù)據(jù)庫, 比較著名的有: Pfam http:/www.sanger.ac.uk/Software/Pfam/search.shtml SMART http:/smart.embl-heidelberg.de/ BLOCKS PRINTS http:/www.bioinf.man.ac.uk/fingerPRINTScan/ 結(jié)構(gòu)域數(shù)據(jù)庫的整合 不同數(shù)據(jù)庫由于構(gòu)建結(jié)構(gòu)域方法不同,結(jié)果有重疊也有差別。目前已經(jīng)有一些整合這些主要結(jié)構(gòu)域數(shù)據(jù)庫的嘗試: EBI 的InterPro http:/www.ebi.

27、ac.uk/interpro/ NCBI的CD-search,整合了smart, pfam, cog 三個主要數(shù)據(jù)庫 /Structure/cdd/wrpsb.cgi 北京大學(xué)的PAK系統(tǒng) http:/ 結(jié)構(gòu)域預(yù)測的建議 盡量多采用一些預(yù)測程序或是到一些整合多個結(jié)構(gòu)域數(shù)據(jù)庫的站點,綜合預(yù)測結(jié)果。 所有預(yù)測還需要用戶自己判斷,一般比對區(qū)域較長,且E value 值越低的結(jié)果可信度越高。數(shù)據(jù)庫介紹 (5) SWISS-2DPAGE 雙向聚丙烯酰胺凝膠電泳數(shù)據(jù)庫。保存了很多組織來源的雙向電泳圖譜,用戶可以提交自己的蛋白序列,根據(jù)等電點及分子量顯示在

28、電泳圖上的位置。該數(shù)據(jù)庫還提供了2-D 電泳的protocol, 以及構(gòu)建2-D 電泳數(shù)據(jù)庫的軟件包/ch2d/make2ddb.html,對有興趣作2-D 電泳的用戶來說是一個很不錯的入門網(wǎng)站。數(shù)據(jù)庫介紹 (6) SWISS-MODEL Repository 基于序列相似性的蛋白三維結(jié)構(gòu)建模系統(tǒng),用 戶提交自己的蛋白序列,服務(wù)器端首先搜索與提 交序列相似的三維結(jié)構(gòu)已知的蛋白,根據(jù)已知序 列結(jié)構(gòu)模擬出用戶提交蛋白的三維結(jié)構(gòu)模型。 二、蛋白質(zhì)分析工具 EXPASY 提供了11個類別的分析軟件,基本覆蓋了蛋白分析的基本需求1. 蛋白質(zhì)鑒定和定性軟件 主要面向

29、質(zhì)譜結(jié)果分析,通過等電點、分子量,氨基酸組成、質(zhì)譜印跡(fingerprinting)來預(yù)測對應(yīng)的蛋白。 蛋白質(zhì)鑒定和定性軟件 AACompIdent 通過氨基酸組成預(yù)測可能蛋白 MultiIdent 通過pI, Mw,序列標簽,質(zhì)譜肽 段印跡預(yù)測對應(yīng)蛋白。 FindMod 通過質(zhì)譜數(shù)據(jù)預(yù)測蛋白可能的 翻譯后修飾和氨基酸替換。 GlycoMod 通過質(zhì)譜數(shù)據(jù)預(yù)測蛋白的糖基 化修飾 GlycanMass 計算寡聚糖鏈的質(zhì)量(mass) PeptideMass 計算蛋白酶切后肽段的質(zhì)量和 等電點蛋白質(zhì)鑒定和定性軟件 PeptideCutter 預(yù)測蛋白切點(蛋白酶切和化合物切割) PROWL Ro

30、ckefeller and NY Universities 蛋白質(zhì)化學(xué)和質(zhì)譜數(shù)據(jù)分析工具 ProteinProspector UCSF 的質(zhì)譜分析工具集2. 從DNA到蛋白質(zhì)工具 DNA與蛋白質(zhì)互相轉(zhuǎn)換的工具: Translate、transeq 把DNA 翻譯為蛋白質(zhì) Backtranslation 從蛋白反向變?yōu)閷?yīng)的核酸序列 Genewise 將蛋白質(zhì)序列與基因組序列比較 FSED 輸入可能的ORF序列判定是否存 在讀碼框漂移錯誤。 從DNA到蛋白質(zhì)工具 基因預(yù)測軟件 GENSCAN /GENSCAN.html HMMGENE http:/www.c

31、bs.dtu.dk/services/HMMgene/ GeneID http:/www1.imim.es/geneid.html GRAIL (原核常用) http:/www2.state.id.us/itd/planning/reports/grail/grail.html3. 相似性搜索軟件 用于從數(shù)據(jù)庫中搜索相似序列 BLAST /blast FASTA 與blast并列的一種比對程序,敏感度比blast高, 但比較耗時。http:/www.ebi.ac.uk/fasta/ MPsrch 基于smith-waterman 算法,比BL

32、AST/FASTA 敏感度均高的搜索程序,但運行需要更多時間http:/www.ebi.ac.uk/MPsrch/ 。 4. Pattern 及 Profile search 前邊在PROSITE 部分已有介紹 5.蛋白翻譯后修飾預(yù)測軟件 ChloroP 葉綠體蛋白定位預(yù)測 MITOPROT 線粒體蛋白定位預(yù)測 NetOGlyc 哺乳動物蛋白O-GalNAc(粘液素型) 糖基化位點預(yù)測 NetNGlyc 人蛋白N-糖基化位點預(yù)測 YinOYang 真核蛋白o-beta-GlcNAc 聯(lián)結(jié)位點預(yù)測 SignalP 信號肽預(yù)測,可用于分泌蛋白預(yù)測6.蛋白定位預(yù)測 PSORT 蛋白細胞定位預(yù)測 Ta

33、rgetP 蛋白細胞定位預(yù)測 蛋白穿模區(qū)預(yù)測軟件: DAS ,PredictProtein,HMMTOP,PredictProtein,TMpred,TMHMM. 其中TMHMM 比較常用。7. 蛋白一級結(jié)構(gòu)分析軟件 ProtParam 計算蛋白的理化性質(zhì)(氨基酸及原子組成、等電點、消光系數(shù)等等) Compute pI/Mw 計算等電點/分子量 REP,REPRO ,Radar 查找蛋白質(zhì)中的重復(fù)序列 預(yù)測COIL結(jié)構(gòu)的程序 : Coils,Paircoil,Multicoil蛋白一級結(jié)構(gòu)分析軟件 ProtScale 考察蛋白質(zhì)氨基酸等級變化。氨基酸等級是對每個氨基酸賦予一個分值,常用的氨基酸

34、等級性質(zhì)如疏水性/親水性,電荷性質(zhì),二級結(jié)構(gòu)構(gòu)相參數(shù)等級(根據(jù)氨基酸在不同二級結(jié)構(gòu)出現(xiàn)的頻率高低而定)。如輸入序列可以看各部分親疏水性質(zhì)的變化。8 高級結(jié)構(gòu)預(yù)測 Jpred 綜合的二級結(jié)構(gòu)預(yù)測方法 Swiss-Model 基于序列同源的三維結(jié)構(gòu)預(yù)測方法。 PredictProtein 為結(jié)構(gòu)預(yù)測提交服務(wù)器,在該網(wǎng)站可以同時向多個預(yù)測服務(wù)器提交序列,可以進行二級及三級結(jié)構(gòu)預(yù)測。 高級結(jié)構(gòu)預(yù)測 目前結(jié)構(gòu)預(yù)測程序的準確度,二級結(jié)構(gòu)預(yù)測可以達到60-70%左右,三級結(jié)構(gòu)預(yù)測在有已知結(jié)構(gòu)的同源序列情況下準確率可以較高,沒有任何相關(guān)信息的情況下,從頭預(yù)測的準確率很難保證。9. 序列比對 多序列比對 CLU

35、STALW 應(yīng)用最廣的多序列比對軟件,用來對多條序列進行比對找出保守位點,蛋白家族模式/結(jié)構(gòu)域的都是建立在多序列比對的基礎(chǔ)之上的。 T-coffee 在序列之間相似度較低(identity 30% ) 時,比對效果優(yōu)于clustalw。 Weblogo 可以根據(jù)多序列比對的結(jié)果文件生成圖形顯示,下圖為示例,在某一位點上某種氨基酸若遠比其他氨基酸保守,則突出放大顯示。Weblogo 結(jié)果10.生物學(xué)文本分析軟件 AcroMed Medline 文摘中提取出的縮寫與對應(yīng)全稱的數(shù)據(jù)庫 Medminer 自動文本處理器,從文獻中自動提取基因與基因相互關(guān)系 Protein Annotators Assi

36、stant 輔助進行蛋白功能注釋 XplorMed 處理medline 的文摘三、網(wǎng)絡(luò)資源鏈接 EXPASY 提供的一些網(wǎng)絡(luò)資源鏈接 Amos WWW links 分子生物學(xué)站點集合 CMS-SDSC 分子生物學(xué)網(wǎng)絡(luò)資源綜合 Biology links from Harvard University BioHunt 生物資源搜索引擎四、其它有意思的資源 Swiss-Shop 數(shù)據(jù)庫更新通知。當數(shù)據(jù)庫中有與與你感興趣的領(lǐng)域相關(guān)的新蛋白序列被提交時,你可以自動獲得通知。 Protein Spotlight 由Swiss-Prot內(nèi)部專家對某些感興趣的蛋白作的定期的綜述,可作參考。 Swiss-Quiz 生物學(xué)知識測試Summary 回到我們開始提出的問題: 對蛋白質(zhì)我們都需要分析什么性質(zhì),如何分析?看看別人干了什么?(已知蛋白) Swiss-Prot TrEMBL 交叉索引 GeneCards, SOURCE,DIP, ModBase, 基本性質(zhì) (pI,Mw) ProtParam tool 酶切位點 PeptideCutter,Enzyme 數(shù)據(jù)庫 疏水性 ProtScale質(zhì)譜數(shù)據(jù)分析 AACompIdent Mult

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論