蛋白質(zhì)序列分析

上傳人：s*** IP屬地：上海上傳時(shí)間：2022-02-18 格式：DOCX 頁(yè)數(shù)：48 大?。?35.50KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩43頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、7.1 引言17.2 功能描述27.2.1 基因本體37.2.2 利用GO術(shù)語(yǔ)的功能注釋77.3 基于序列相似性的功能預(yù)測(cè)87.3.1 基本預(yù)測(cè)方法107.3.2 分析與討論147.3.3 蛋白質(zhì)家族與序列的相似性聚類157.4 基于蛋白質(zhì)信號(hào)的功能預(yù)測(cè)177.4.1 蛋白質(zhì)信號(hào)177.4.2 信號(hào)的描述227.4.3 蛋白質(zhì)模體、結(jié)構(gòu)域和家族數(shù)據(jù)庫(kù)287.4.4 分析與討論347.5 基于蛋白質(zhì)序列特征的功能預(yù)測(cè)357.5.1 序列的理化性質(zhì)357.5.2 跨膜與卷曲螺旋分析377.5.3 蛋白質(zhì)翻譯后修飾分析407.5.4 亞細(xì)胞定位預(yù)測(cè)427.5.5 基于序列特征的蛋白質(zhì)分子功能預(yù)測(cè)44

2、7.6 功能預(yù)測(cè)的其他思路45參考書目477蛋白質(zhì)序列分析與功能預(yù)測(cè)DNA經(jīng)常被比喻為構(gòu)筑生命的藍(lán)圖，相應(yīng)地，蛋白質(zhì)就是構(gòu)筑生命體最主要的材料。蛋白質(zhì)在生命過(guò)程中發(fā)揮著巨大的作用，它們執(zhí)行著大部分生物功能。這些功能包括結(jié)構(gòu)功能（如細(xì)胞骨架中的肌動(dòng)蛋白）、酶功能（很多蛋白質(zhì)可以催化生物反應(yīng)，常見(jiàn)的蛋白質(zhì)催化功能是使生物反應(yīng)加速一定數(shù)量級(jí)），以及在細(xì)胞內(nèi)或細(xì)胞間轉(zhuǎn)運(yùn)物質(zhì)的功能。大量序列被測(cè)定帶給了生物信息學(xué)家一個(gè)挑戰(zhàn)，那就是如何從這些序列中找到基因，然后給基因加上注釋，即給這些基因提供關(guān)于它們性質(zhì)或功能的簡(jiǎn)單描述。7.1 引言繼基因組結(jié)構(gòu)注釋（genome structural annotatio

3、n）完成后，闡明基因組所表達(dá)的全部蛋白質(zhì)的表達(dá)規(guī)律和生物功能，稱為功能注釋（functional annotation），成為研究的熱點(diǎn)，是基因組注釋（genome annotation）的重要組成部分。據(jù)FriedbergI稱，2006年時(shí)，GeneBack中約有40%的序列被標(biāo)注為“unknown function”。由于蛋白質(zhì)是生命活動(dòng)的最終執(zhí)行者，并且蛋白質(zhì)功能的闡明將有助于疾病機(jī)理的研究并最終幫助人類進(jìn)行藥物設(shè)計(jì)與疾病治療。因此，對(duì)基因產(chǎn)物蛋白質(zhì)的功能預(yù)測(cè)（protein functional prediction）是后基因組時(shí)代的一項(xiàng)重要任務(wù)。盡管新的實(shí)驗(yàn)技術(shù)例如DNA芯片、酵母雙

4、雜交系統(tǒng)、RNA干擾以及大范圍地、系統(tǒng)地缺失突變（knock-out）取得了巨大的進(jìn)展，但這些方法都需要各種特定的設(shè)備，且價(jià)格昂貴、操作繁瑣，成本高、周期長(zhǎng)。由于實(shí)驗(yàn)同時(shí)會(huì)受到一些不可預(yù)知的環(huán)境以及人為因素的影響，其所得結(jié)果的可信度也需加以考慮。種種這些因素制約了蛋白質(zhì)大規(guī)模分析的開展。目前，實(shí)驗(yàn)方法闡明蛋白質(zhì)功能尚遠(yuǎn)遠(yuǎn)落后于序列的測(cè)定。面對(duì)呈指數(shù)增長(zhǎng)的蛋白質(zhì)序列數(shù)據(jù)，采用生物信息學(xué)的方法和手段來(lái)闡明大批量蛋白質(zhì)序列的生物學(xué)功能具有非常重大的意義?？刹捎蒙镄畔W(xué)方法對(duì)蛋白質(zhì)序列的功能進(jìn)行預(yù)測(cè)的本質(zhì)在于，承擔(dān)核心生物功能的相當(dāng)一部分基因被所有生物物種共享，從而可以利用某些特定物種中基因所編碼的

5、少量蛋白質(zhì)序列（目前占已知蛋白質(zhì)序列總數(shù)的5%）的已知生物功能信息（知識(shí)）對(duì)其他物種的大量蛋白質(zhì)序列進(jìn)行功能注釋。Hawkins T于2006年在“Protein Science”上發(fā)表文章，將蛋白質(zhì)序列分析和功能預(yù)測(cè)方法大致分為四類：(1)基于序列或結(jié)構(gòu)的分析方法（sequence and structure based methods），又稱進(jìn)化方法（evolutionary methods），這類方法基于全局或局部序列的保守性，或者結(jié)構(gòu)上的保守性來(lái)預(yù)測(cè)蛋白質(zhì)功能；(2)基于基因組上下文的方法（genomic context methods），又稱比較基因組方法（comparative g

6、enomics methods），分別基于結(jié)構(gòu)域融合事件（domain fusion events）、系統(tǒng)進(jìn)化特征譜（phylogenetic profiling）、保守的基因順序（conserved gene order），表達(dá)譜（expression profiling）以及共調(diào)控（common regulatory）等預(yù)測(cè)蛋白質(zhì)功能；(3)基于相互作用的方法（interaction-based methods），又稱細(xì)胞方法（cellular methods），使用蛋白質(zhì)相互作用數(shù)據(jù)預(yù)測(cè)功能；(4)基于過(guò)程的方法（process based methods），又稱代謝方法（metabol

7、ic methods），利用生物化學(xué)路徑（biochemical pathways）的結(jié)構(gòu)化網(wǎng)絡(luò)（structured networks）來(lái)匹配蛋白質(zhì)的非典型反應(yīng)（uncharacterized reaction）。其中方法(1)最為成熟，本章主要圍繞該方法講述。功能描述理論上，蛋白質(zhì)功能指“所有在蛋白質(zhì)上或是經(jīng)由蛋白質(zhì)發(fā)生的事情”，是一個(gè)非常復(fù)雜的概念。完全理解蛋白質(zhì)的功能需要回答一系列的問(wèn)題，如產(chǎn)生了什么樣的蛋白質(zhì)？其三維結(jié)構(gòu)如何？會(huì)出現(xiàn)在生物體的什么組織中？會(huì)參與哪些細(xì)胞功能？會(huì)和哪些蛋白質(zhì)發(fā)生相互作用？在細(xì)胞的后翻譯（post- translationally）過(guò)程中會(huì)得到修飾產(chǎn)生變化

8、嗎？會(huì)與哪些蛋白質(zhì)綁定？會(huì)催化哪些反應(yīng)？會(huì)參與哪些代謝路徑？等等。完整的蛋白質(zhì)功能注釋需要從生化、細(xì)胞、組織、發(fā)育進(jìn)化、生理等各方面進(jìn)行描述。為支持基于生物信息學(xué)方法的功能分析，各數(shù)據(jù)庫(kù)與注釋系統(tǒng)普遍采用了功能術(shù)語(yǔ)集的方法。比如，SwissProt蛋白質(zhì)序列數(shù)據(jù)庫(kù)定義了10類八百多個(gè)功能描述關(guān)鍵字（SwissProt KeyWords），不同的蛋白質(zhì)選用不同（個(gè)數(shù)）的KeyWords來(lái)概要定義其功能。這類方法存在的主要問(wèn)題是容易產(chǎn)生術(shù)語(yǔ)不一致或術(shù)語(yǔ)描述模糊等現(xiàn)象。有時(shí)，功能根據(jù)生物化學(xué)的機(jī)制來(lái)定義（例如“腺苷酸激酶”）；有時(shí)則根據(jù)所處的代謝通路或在細(xì)胞中的總體作用來(lái)定義（例如“糖酵解”或者“細(xì)

9、胞代謝”）；有時(shí)會(huì)根據(jù)生物體的表型來(lái)定義（例如“引起癌癥”）。各數(shù)據(jù)庫(kù)都有自己的功能術(shù)語(yǔ)集。比如，除SwissProt KeyWords外，GeneQuiz使用14類功能術(shù)語(yǔ)，PEDANT使用FunCat的15類功能術(shù)語(yǔ)等。這些給基于生物信息學(xué)方法的功能注釋帶來(lái)困難，更阻礙進(jìn)一步的數(shù)據(jù)分析理解。有學(xué)者提出可以分不同的層次和級(jí)別（multilevel and hierarchical）對(duì)蛋白質(zhì)功能進(jìn)行描述。例如，Brok P于1998年給出可以從如圖7.1所示的三個(gè)層次來(lái)描述蛋白質(zhì)功能：最細(xì)致的一層給出蛋白質(zhì)的特殊綁定位點(diǎn)、催化活性和構(gòu)象變化等分子功能（molecular function）；進(jìn)

10、而給出描述一定細(xì)胞環(huán)境下代謝途徑、信號(hào)級(jí)聯(lián)的參與情況等的細(xì)胞功能（cellular function）；最上層給出其在生物體內(nèi)的表型（phonotype）情況，如是否患有某種疾病及其疾病病理等。此時(shí)，功能預(yù)測(cè)的根本目標(biāo)是建立基因型（genotype）與表型（phenotype）以及與環(huán)境間的相互作用與聯(lián)系。這類復(fù)雜關(guān)系的建立將為致病基因篩選、藥物靶標(biāo)篩選、基因表達(dá)譜數(shù)據(jù)分析、建立調(diào)控網(wǎng)絡(luò)等提供關(guān)鍵信息。比如，通過(guò)建立基因型與表型間的關(guān)系可以找出特定疾病表型的致病基因，找出可成為最佳藥物靶標(biāo)的重要代謝途徑上的某些蛋白質(zhì)，以及通過(guò)改變哪些基因可實(shí)現(xiàn)特定的表型等。然而，目前掌握的信息與知識(shí)還不足以大

11、規(guī)模地解決生物體表型的功能預(yù)測(cè)問(wèn)題，對(duì)蛋白質(zhì)分子功能和細(xì)胞功能也還只能做到部分定性的描述。在此背景下，Gene Ontology Consortium于1998年提出用一整套標(biāo)準(zhǔn)的結(jié)構(gòu)化控制詞匯（controlledvocabulary），來(lái)描述真核生物的基因或蛋白質(zhì)在細(xì)胞內(nèi)所扮演的角色及生物醫(yī)學(xué)方面的知識(shí)。目前，基因本體得到了廣泛的認(rèn)可，成為事實(shí)上的標(biāo)準(zhǔn)功能術(shù)語(yǔ)集，為基于生物信息學(xué)的蛋白質(zhì)功能預(yù)測(cè)帶來(lái)便利?；虮倔w基因本體是一套具有動(dòng)態(tài)（dynamic）形式的結(jié)構(gòu)化控制詞匯?？梢詮倪@樣幾個(gè)方面來(lái)理解基因本體的概念。首先，從“詞匯性”方面理解。每個(gè)本體具有統(tǒng)一的標(biāo)準(zhǔn)名稱（GO術(shù)語(yǔ)，GO ter

12、m）和編號(hào)（GO id）。其次，從“結(jié)構(gòu)化”方面理解，一組本體可通過(guò)“is a”或“part of”的關(guān)系關(guān)聯(lián)起來(lái)形成一個(gè)具有層次結(jié)構(gòu)的有向無(wú)環(huán)圖（DirectedAcyclic Graphs，DAG）。比如，“核膜”（nuclear membrane）本體與“核”（nucleus）本體可以通過(guò)“part of”的關(guān)系關(guān)聯(lián)起來(lái)。DAG圖可以展現(xiàn)為樹狀層次結(jié)構(gòu)，如其原網(wǎng)站上給出的圖（）所示。DAG圖與標(biāo)準(zhǔn)的樹狀層次結(jié)構(gòu)圖的區(qū)別在于允許每一個(gè)本體有一個(gè)或多個(gè)父親。在DAG中，本體的結(jié)構(gòu)層次越淺，功能描述越籠統(tǒng)；層次越深，功能描述越特異。再次，從“控制性”方面理解，最上層的本體名稱可代指整個(gè)DAG圖

13、及其包含的所有本體。比如，通常說(shuō)GO有三大獨(dú)立的基因本體：生物過(guò)程（biological process，BP）、分子功能（molecular function，MF）和細(xì)胞組分（cellular component，CC），如圖7.2所示，分別用于描述蛋白質(zhì)的分子和細(xì)胞功能。最后，從“動(dòng)態(tài)性”方面理解，隨著生命科學(xué)的發(fā)展，GO本體的術(shù)語(yǔ)及其相互間的關(guān)系由專家一直在不斷地手工累積與更新。截至到2009-3-12日為止已經(jīng)積累了26933個(gè)GO術(shù)語(yǔ)。圖7.1 從分子功能、細(xì)胞功能、表型等三個(gè)層次來(lái)描述蛋白質(zhì)功能圖7.2 GO的三大獨(dú)立本體及DAG圖示意GO已經(jīng)成為生物信息領(lǐng)域中一個(gè)極為重要的工具

14、，并逐步改變著對(duì)生物學(xué)數(shù)據(jù)的組織和理解方式，它的存在已經(jīng)大大加快了對(duì)所擁有的生物學(xué)數(shù)據(jù)的整合和利用。比如，在采用GO術(shù)語(yǔ)對(duì)基因或蛋白質(zhì)的功能進(jìn)行標(biāo)注后，依據(jù)GO提供的層次性組織結(jié)構(gòu)就可以從生物學(xué)功能上將基因或蛋白質(zhì)分成不同的層次結(jié)構(gòu)組。為更進(jìn)一步說(shuō)明GO本體及其間的層次結(jié)構(gòu)關(guān)系，下面引用Gene Ontology Consortium于2000年在Nature Genetic上發(fā)表的論文“Gene ontology: tool for the unification of biology.”中給出的三個(gè)例子，分別從生物過(guò)程BP、分子功能MF和細(xì)胞組分CC三個(gè)方面來(lái)說(shuō)明GO本體。生物過(guò)程指基因或

15、基因產(chǎn)物促成的生物學(xué)目的（biological objective）。一個(gè)過(guò)程通常經(jīng)由一個(gè)或多個(gè)按順序整合的分子功能完成。寬泛或稱高層的生物過(guò)程術(shù)語(yǔ)的例子是“細(xì)胞生長(zhǎng)和維持”（cell growth and maintenance）或者“信號(hào)轉(zhuǎn)導(dǎo)”（signaltransduction）。較為特異或稱底層的過(guò)程術(shù)語(yǔ)是“翻譯”（translation）、“嘧啶代謝”（pyrimidine metabolism）或“cAMP生物學(xué)合成”（cAMP biosynthesis）。圖7.3給出了“DNA代謝”術(shù)語(yǔ)（本體）及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。圖7.3 “DNA代謝”本體及其利用DAG圖

16、關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)的被注釋的基因產(chǎn)物分子功能被定義為單個(gè)基因產(chǎn)物分子的生物化學(xué)活性（包括針對(duì)配體或結(jié)構(gòu)的特殊綁定）。注意，這個(gè)定義同樣可用于描述潛在的基因產(chǎn)物或基因產(chǎn)物聯(lián)合體（gene product complex）的功能。不過(guò)它僅用來(lái)描述發(fā)生了什么而不特指在哪里或何時(shí)該事件實(shí)際發(fā)生。寬泛的分子功能術(shù)語(yǔ)是“酶”（enzyme）、“運(yùn)輸”（transporter）或“配體”（ligand）。較為特異的功能術(shù)語(yǔ)是“將轉(zhuǎn)換成腺苷酸的環(huán)化酶”（adenylate cyclase）或“Toll受體配體”（Toll receptor ligand）。圖7.4給出了分子功能中核酸綁定以及酶等術(shù)

17、語(yǔ)（本體）及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。細(xì)胞組分指的是基因產(chǎn)物能具活性的細(xì)胞位置。注意，術(shù)語(yǔ)集包含了所有的術(shù)語(yǔ)，然而并非所有的術(shù)語(yǔ)都被應(yīng)用于所有的物種。細(xì)胞組分包含了“核糖體”（ribosome）、“蛋白酶體”（proteasome）等包含了多個(gè)基因產(chǎn)物的特定細(xì)胞組分術(shù)語(yǔ)。同時(shí)也包含了“核膜”（nuclear membrane）、“高爾基體”（Golgi apparatus）等術(shù)語(yǔ)。圖7.5給出了細(xì)胞、細(xì)胞質(zhì)和核子等細(xì)胞組分本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。圖7.4 分子功能中核酸綁定以及酶等本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)被注釋的基因產(chǎn)物圖7.5 細(xì)胞、

18、細(xì)胞質(zhì)和核子等細(xì)胞組分本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)被注釋的基因產(chǎn)物利用GO術(shù)語(yǔ)的功能注釋Gene Ontology使用結(jié)構(gòu)化的控制詞匯規(guī)范化地定義了蛋白質(zhì)（基因產(chǎn)物）的功能以及功能間的關(guān)系，在功能預(yù)測(cè)（注釋）中得到了廣泛地使用。2001年，UniProt組織成為GO Consortium的成員，并發(fā)起了GOA工程，基于文獻(xiàn)以及多個(gè)數(shù)據(jù)庫(kù)資源信息，利用GO術(shù)語(yǔ)對(duì)蛋白質(zhì)（基因產(chǎn)物）進(jìn)行功能注釋。特別地，目前對(duì)人類基因組上的蛋白質(zhì)序列也采用了GO術(shù)語(yǔ)進(jìn)行功能注釋，這體現(xiàn)在了Ensembl、UCSC和NCBI等提供的基因組注釋系統(tǒng)中。GO術(shù)語(yǔ)注釋涵蓋了一條默認(rèn)規(guī)則：如果一個(gè)基因產(chǎn)

19、物被注釋為一個(gè)較為底層的本體，那么同時(shí)也被該本體的祖先注釋。從圖7.3中給出的被注釋的基因產(chǎn)物及其相關(guān)本體和本體間關(guān)系的示意圖中可以明顯地看到這條規(guī)則，比如Pcna被注釋為“DNA鏈伸長(zhǎng)率”（DNA strand elongation），那么同時(shí)也默認(rèn)地被注釋為“DNA獨(dú)立”（DNA-dependent）、“DNA復(fù)制”（DNA replication）、“DNA代謝”（DNA metabolism）等一系列“祖先”本體。類似的注釋情況可以從圖7.4、7.5中觀察到。利用GO術(shù)語(yǔ)，一個(gè)基因或蛋白質(zhì)可從三個(gè)層面來(lái)注解，首先是構(gòu)成在細(xì)胞內(nèi)的特定組分（cellularcomponent），其次是此組

20、分在分子功能上所扮演的角色（molecularfunction），最后生物學(xué)家一定想知道這個(gè)基因或蛋白質(zhì)到底參與哪些生物過(guò)程（biological processKCNQ1（KcsAK+）為例，從細(xì)胞組分的角度看，該基因產(chǎn)物可以被本體“GO:0008076Voltage-gated potassium channel complex”“GO:0005251 delayed rectifier potassium channel activity”；從參與的生物過(guò)程看，該基因產(chǎn)物可被注釋為多條本體，包含“GO:0006936 muscle contraction”、“GO:0006813pota

21、ssium ion transport”、“GO:0008016regulation of heart contraction”和“GO:0007605sensory perception of sound”等?！皌raceable author statement”（通常簡(jiǎn)寫為TAS）是GO提供的對(duì)注釋可信度的提示，稱為證據(jù)碼（evidence code）。除了TAS證據(jù)碼外，GO網(wǎng)站還給出了多個(gè)證據(jù)碼及其注釋可信度說(shuō)明（）。對(duì)于人類RBP4基因，編碼的蛋白質(zhì)為RET4_HUMAN（P02753），其GO的注釋是“retinol binding”（分子功能）和“GO0005615extrac

22、ellular space”、“GO0005634 nucleus”、“GO0005730 nucleolus”、“GO0005576 extracellular region”（細(xì)胞組分），與生物過(guò)程相關(guān)的注釋較多，有“GO0050896 response to stimulus”、“GO0006810 transport”、“GO0006810 transport”、“GO0007601 visual perception”、“GO0006094 gluconeogenesis”等。7.3 基于序列相似性的功能預(yù)測(cè)利用序列相似性預(yù)測(cè)蛋白質(zhì)功能幾乎是最早也是最直接的功能預(yù)測(cè)方法。其理論依據(jù)是

23、當(dāng)若干生物大分子由共同的祖先分子進(jìn)化而來(lái)時(shí)，它們往往在序列、結(jié)構(gòu)和生物學(xué)功能上具有相似性。預(yù)測(cè)的基本步驟是，將未知功能的蛋白質(zhì)序列作為查詢序列，利用序列比對(duì)算法，例如BLAST、PSI-BLAST、FASTA等，搜索已注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)（如UniProt/SwissProt等），找出與查詢序列相似的序列，進(jìn)而從相似序列的功能特性分析外推查詢序列的功能信息等。(a) 三維結(jié)構(gòu)圖（從PDB中獲?。?b) 鉀離子通道功能示意圖圖7.6 鉀離子通道蛋白質(zhì)KcsAK+的三維結(jié)構(gòu)與功能示意圖圖7.7UniProtKB/SwissProt給出的KCNQ1（P51787）的GO注釋情況基本預(yù)測(cè)方法序列的相

24、似性搜索涉及兩類資源，一是相似性搜索和比對(duì)軟件工具，二是序列數(shù)據(jù)庫(kù)資源。依據(jù)序列長(zhǎng)度和類型的不同，可以選擇不同的序列比對(duì)工具，比如，MPsrch、BLAST/ PSI-BLAST以及FASTA等。而已注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)有很多，如SwissProt、TrEMBL、NRDB(nr)、GenPept、PIR-PSD、PIR-NREF、NRL-3D和EXProt等等。國(guó)際著名雜志“核酸研究”（Nucleic Acids Research，NAR）的網(wǎng)站上專門有“general sequence database”的報(bào)道，較為全面地列出了目前國(guó)際上重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，其中大多提供相應(yīng)的序列比對(duì)搜

25、索工具。由于EBI（歐洲生物信息學(xué)研究所，European bioinformatics institute）、SIB（瑞士生物信息學(xué)研究所，Swiss Institute of Bioinformatics）和PIR（蛋白質(zhì)信息中心，Protein Information Resource）的努力，目前UniProt（Universal Protein Resource）蛋白質(zhì)序列數(shù)據(jù)庫(kù)得到了廣泛的認(rèn)可。針對(duì)不同的用戶，UniProt分三個(gè)層次構(gòu)成，一是UniProt Knowledgebase（UniProtKB），包含UniProtKB/SwissProt和UniProtKB/TrEMB

26、L，它涵蓋大量人工注釋的蛋白質(zhì)信息，包括功能、分類以及數(shù)據(jù)庫(kù)的交叉索引等；二是UniProt Archive（UniParc），力圖收集最完整、最全面的蛋白質(zhì)序列數(shù)據(jù)；三是UniProt Reference Clusters（UniRef），其涵蓋的數(shù)據(jù)庫(kù)是將UniParc中的序列數(shù)據(jù)依據(jù)不同的參數(shù)條件去除冗余后得到的結(jié)果。后兩者對(duì)蛋白質(zhì)序列都沒(méi)有加以注釋，只給出了序列數(shù)據(jù)的來(lái)源和相關(guān)鏈接。UniProtKB/SwissProt，由于其注釋信息的全面性和可靠性，被稱為是注釋的蛋白質(zhì)序列數(shù)據(jù)的“黃金標(biāo)準(zhǔn)”（golden standard）。而UniProtKB/TrEMBL是為了在不降低Swis

27、sProt高水平注釋質(zhì)量的同時(shí)，又能使經(jīng)由測(cè)序獲取的蛋白質(zhì)序列數(shù)據(jù)得以盡快地發(fā)布，作為SwissProt數(shù)據(jù)庫(kù)的補(bǔ)充，而于1996年數(shù)據(jù)庫(kù)得以誕生的。盡管其注釋信息的質(zhì)量難以與SwissProt相比，TrEMBL仍然采用多種措施盡可能地豐富注釋內(nèi)容、提高數(shù)據(jù)質(zhì)量。NCBI提供的RefSeq由于整合了基因組DNA序列、轉(zhuǎn)錄本以及基因產(chǎn)物（蛋白質(zhì)）等，為基因結(jié)構(gòu)辨識(shí)（gene identification and characterization）、突變分析（mutation analysis）、表達(dá)研究（expression studies）、多態(tài)性發(fā)現(xiàn)（polymorphism discove

28、ry）和比對(duì)分析（comparative analyses）等提供了從基因組序列到蛋白質(zhì)序列的全面的序列信息，因而也被廣泛使用。相關(guān)內(nèi)容在第2章中已有介紹，此處不再贅述。下面分別以三個(gè)例子說(shuō)明針對(duì)UniProtKB/SwissProt進(jìn)行相似性搜索提供蛋白質(zhì)功能預(yù)測(cè)的情況。例7-1利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的成功案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中，利用基因結(jié)構(gòu)預(yù)測(cè)工具（比如GenScan）得到了一條序列Protein_GenScan_HUMAN，序列內(nèi)容如表7.1所示，利用蛋白質(zhì)專家分析系統(tǒng)Expasy提供的blast工具進(jìn)行序列相似性搜索，搜索數(shù)據(jù)庫(kù)限定為SwissProt，其他參數(shù)選用默認(rèn)值

29、，得到相似性比對(duì)結(jié)果（部分結(jié)果內(nèi)容如表7.2所示）。從結(jié)果中可以得知該蛋白質(zhì)與視黃醇結(jié)合蛋白（retinol-binding protein, RET4）有很高的相似性，基本可以判定序列屬于lipocalin家族。此時(shí)可以根據(jù)與提交序列具有非常高的相似性的蛋白質(zhì)序列（比如RET4_PANTR、RET4_HUMAN、RET4_HORSE、RET4_PIG等）以及l(fā)ipocalin家族成員所共有的功能注釋情況對(duì)本序列進(jìn)行功能預(yù)測(cè)。表7.1 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_HUMAN>Protein_GenScan_HUMANMNYSKIPAQVDLRRQ

30、TERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL表7.2利用Expasy的blast工具針對(duì)Protein_GenScan_HUMAN進(jìn)行序列相似性搜索得到的部分結(jié)果Db AC Description Score E-valuesp P61641 RET4_PANTR Retin

31、ol-binding protein 4 precursor (Plasma. 385 e-107sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 385 e-107sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma. 370 e-102sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 367 e-101sp P18902 RET4_BOVIN Retin

32、ol-binding protein 4 (Plasma retinol-b. 363 e-100sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 362 e-100sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 341 2e-93sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 341 2e-93sp P41263 RET4_CHICK Retin

33、ol-binding protein 4 precursor (Plasma. 333 5e-91sp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 258 2e-68sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 256 5e-68sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 256 6e-68圖7.8利用Expasy的blast工具針對(duì)Prot

34、ein_GenScan_HUMAN進(jìn)行序列相似性搜索得到的部分圖示結(jié)果例7-1是相似性比對(duì)得到的非常好的結(jié)果的情形之一。實(shí)際上，利用相似性比對(duì)有時(shí)無(wú)法得到可以進(jìn)行分析推理的結(jié)果，比如例7-2給出的情形。有時(shí)，給出了相關(guān)結(jié)果，但是也仍然無(wú)法進(jìn)行較為準(zhǔn)確的判斷，比如例7-3給出的情形。例7-2利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的不成功案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中，利用基因結(jié)構(gòu)預(yù)測(cè)工具（比如GenScan）得到了一條序列Protein_GenScan_PICST，如表7.3所示，同樣利用Expasy提供的blast工具進(jìn)行序列相似性搜索，搜索數(shù)據(jù)庫(kù)也限定為SwissProt，得到相似性比對(duì)結(jié)果，如表7.

35、4所示。比對(duì)結(jié)果的e-value值太高，不具備統(tǒng)計(jì)顯著性，因而可以說(shuō)不能由本相似性比對(duì)方法獲取有價(jià)值的功能注釋線索。表7.3 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_PICST>Protein_GenScan_PICSTMAAPHGESRPGLASIPNLQHPSSTNNSDLISITNSNINSTSITSNSNDGSTSKKVRASWYNSRDNNKGKDQDNNDSSSDEDDEDHHNKTPSPKRRFDLDLVGASTPLHVLQGRAANDSISFLSPMNKLNNLHLESDVIEESFQLPEATKDYYTEDEEDEHEDDFSLGDKTIT

36、NDTDSDIEFHEIDGIDNDHPGLESSSFASPKFISHRKRLHIDSPSDMVITPNHSDSMRASSFRNSHTHDSNDMSICTNSSLKLGFSSSDSTPCPTQPKRKKLKFKRSSGENAPSVTKTLRNKPMLNLSHSVKTTVSDIAANAVQPPVSSLDESDEFSSSPPRVVFTSSAPGQNNNSTPISQSTPSNSRASTPPCLYQEFGESVNGYKFVKPVGKPQQFSYETPVNNNRTTTVNKLRESYNRREFTPMEVQVEQGTYEIIGEFPMASAGVMDESEPEIHIGDKRINDPYLTTPSATGSDSV

37、KDYRPKRDYRSEYFNQLRLPLPPPNFDNQESLAKEQLQVLVNDKEKVLEFLNLISLEGEDIKELVKNERIRWHPDRWASRFKNNHERVFFDRDIVGNVCQVMNSIIEELFS表7.4利用Expasy的blast工具針對(duì)Protein_GenScan_PICST進(jìn)行序列相似性搜索得到的結(jié)果Db AC Description Score E-valuesp Q9JKV9 IL20_MOUSE Interleukin-20 precursor (IL-20) (Four alph. sp Q59QL0 ERFB_CANAL Palmitoyltrans

38、ferase ERF2 (EC sp P53882 YNR6_YEAST Uncharacterized protein YNL176C YNL176Csp Q95Q95 TOR_CAEEL Target of rapamycin homolog (EC 例7-3利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的不確定案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中，利用基因結(jié)構(gòu)預(yù)測(cè)工具（比如GenScan）得到了一條序列Protein_GenScan_DANRE，如表7.5所示，同樣利用Expasy提供的blast工具進(jìn)行序列相似性搜索，搜索數(shù)據(jù)庫(kù)也限定為SwissProt，得到相似性比對(duì)結(jié)果，部分結(jié)果如表7.6和圖7.9所示。

39、從結(jié)果中盡管基本可以判定序列屬于lipocalin家族，但究竟屬于RETB1、RETB2、RET4、RETBP的哪一個(gè)子家族中的成員還是無(wú)法確定，因此可以得到的注釋信息有限。表7.5 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_DANRE>Protein_GenScan_DANREMLRLCIAVCVLATCWAQDCQVSNFAVQQDFNRTRYQGTWYAVAKKDPVGLFLLDNIVANFKVEEDGTMTATAIGRVIILNNWEMCANMFGTFEDTEDPAKFKMKYWGAAAYLQTGYDDHWIIDTDYDNYAIHYSCRELDEDGT

40、CLDGYSFIFSRHPDGLRPEDQAIVTQKKQDICFLGKYRRVAHTGFCEAA表7.6利用Expasy的blast工具針對(duì)Protein_GenScan_DANRE進(jìn)行序列相似性搜索得到的部分結(jié)果Db AC Description Score E-valuesp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 318 9e-87sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 315 1e-85sp P41263 R

41、ET4_CHICK Retinol-binding protein 4 precursor (Plasma. 261 2e-69sp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp Q28369 R

42、ET4_HORSE Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 247 3e-65sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b. 246 5e-65sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 243 5e-64sp Q00724 R

43、ET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 243 5e-64sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 234 3e-61sp P08938 PURP_CHICK Purpurin precursor Gallus gallus (Chicken) 200 4e-51圖7.9 利用Expasy的blast工具針對(duì)Protein_GenScan_DANRE進(jìn)行序列相似性搜索得到的部分圖示結(jié)果基于序列相似性比對(duì)的GO功能預(yù)測(cè)方法不僅在人工注釋過(guò)

44、程中得到廣泛應(yīng)用，該方法同時(shí)也被用于搭建蛋白質(zhì)GO功能自動(dòng)注釋平臺(tái)。比如，在GO本體術(shù)語(yǔ)集公開發(fā)布不久，在國(guó)際著名雜志“核酸研究”和“生物信息學(xué)（Bioinformatics）”上就相繼發(fā)表了多個(gè)基于序列相似性搜索的蛋白質(zhì)GO功能預(yù)測(cè)工具GoFigure，GOblet，OntoBlast，Blast2GO等。它們通過(guò)檢索蛋白質(zhì)序列數(shù)據(jù)庫(kù)中的相似蛋白質(zhì)，然后利用相似蛋白質(zhì)的GO功能推測(cè)未知蛋白的功能。分析與討論序列相似性搜索普遍地用于預(yù)測(cè)基因或蛋白質(zhì)功能。然而，利用序列相似性進(jìn)行蛋白質(zhì)功能預(yù)測(cè)仍然存在困難。首先，基于序列相似性搜索的蛋白質(zhì)功能預(yù)測(cè)受限于數(shù)據(jù)庫(kù)內(nèi)容。比如，當(dāng)數(shù)據(jù)庫(kù)對(duì)未注釋序列有偏好

45、（biased towards unannotated sequences）時(shí)，對(duì)新序列進(jìn)行相似性搜索往往不能獲得相應(yīng)的功能注釋信息。其次，受到比對(duì)工具的探測(cè)遠(yuǎn)緣同源性（distant homologs）能力的影響。目前還無(wú)法明確序列相似性判斷的“閾值”，即對(duì)于序列究竟相似到何種程度才能夠進(jìn)行GO功能預(yù)測(cè)這一問(wèn)題，無(wú)法給出量化的評(píng)價(jià)指標(biāo)，只能依據(jù)專家的經(jīng)驗(yàn)來(lái)區(qū)分序列的相似程度是強(qiáng)還是弱。其根本原因在于，生物學(xué)上，通常，由一個(gè)共同祖先進(jìn)化來(lái)的直系同源物會(huì)執(zhí)行相同或相似的功能，而通過(guò)基因復(fù)制產(chǎn)生的旁系同源物將自由地進(jìn)化出新的功能。而直系同源、旁系同源，甚至一些根本無(wú)關(guān)的蛋白質(zhì)，在序列上都有可能表現(xiàn)

46、出一定的相似性。常用的相似性比對(duì)搜索軟件只能找出相似序列，并不能判斷它們是直系還是旁系同源。特別是當(dāng)相似性比對(duì)的一致性分值低于20%時(shí)，就難以確定或者根本無(wú)法確定這種相似性究竟是直系還是旁系同源結(jié)果。這大概也是序列數(shù)據(jù)庫(kù)中存在眾多不正確的基于生物信息學(xué)注釋的原因?？梢杂袔追N解決問(wèn)題的思路，一是在選擇搜索數(shù)據(jù)庫(kù)時(shí)，應(yīng)盡可能地選取具有可靠注釋信息的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。二是仔細(xì)檢查獲取的相似序列。仔細(xì)檢查獲取的候選蛋白質(zhì)序列是一個(gè)非常耗時(shí)的過(guò)程，然而它有助于盡可能地確保每條序列的完整性和正確性，增加結(jié)果的正確度。三是盡可能地排除干擾。比如由于非特異性序列相似會(huì)降低比對(duì)搜索結(jié)果的質(zhì)量。通常在執(zhí)行比對(duì)搜索

47、前要去除查詢序列中與非特異性有關(guān)的片段。有幾種程序，如SEG和COILS可以執(zhí)行此功能。SEG可以找到低復(fù)雜度區(qū)，COILS可以預(yù)測(cè)蛋白質(zhì)中潛在的卷曲螺旋結(jié)構(gòu)。最后一個(gè)較好的想法是檢查相似序列的同一家族中的所有成員，再由多序列比對(duì)工具，比如ClustalW、T-Coffee和MUSCLE等，對(duì)所有序列進(jìn)行比對(duì)分析，找出序列間的相同或相異之處及其發(fā)生的原因。如果一個(gè)殘基或一段短肽在一個(gè)家族所有序列中都是保守的而在其它蛋白質(zhì)序列中完全不同，則意味著這些區(qū)域通常會(huì)對(duì)應(yīng)蛋白質(zhì)分子中重要的結(jié)構(gòu)或功能區(qū)域。此時(shí)，引入蛋白質(zhì)家族（protein family）的概念。蛋白質(zhì)家族與序列的相似性聚類一個(gè)蛋白質(zhì)家

48、族由一組進(jìn)化相關(guān)的蛋白質(zhì)序列（evolutionarily related proteins）所定義。通常基于序列相似性劃分蛋白質(zhì)家族。依據(jù)序列相似性程度的不同，還可以得到蛋白質(zhì)的超家族（superfamily）、家族（family）和子家族（sub-family）。一條蛋白質(zhì)可能在子家族層（sub-family level）與另一個(gè)特定的蛋白質(zhì)相關(guān)，也可能在家族層與一些具有較多相異特性的蛋白質(zhì)相關(guān)，還可能在超家族層與一些更為相異的蛋白質(zhì)相關(guān)。各個(gè)不同層次蛋白質(zhì)集合所具備的共有功能特性（common functional properties）是隨著超家族到子家族逐層遞增的。建立了蛋白質(zhì)家族的

49、概念后，對(duì)蛋白質(zhì)進(jìn)行功能預(yù)測(cè)在某種程度上就意味著將蛋白質(zhì)歸類到某家族?？梢圆捎没谛蛄邢嗨菩运阉鞯男蛄芯垲悾╯equence clustering）方法來(lái)進(jìn)行蛋白質(zhì)家族的歸類。序列聚類方法通常是全自動(dòng)的（即非手工），并假定蛋白質(zhì)家族的成員都將基于序列的相似性聚集在一起。采用序列聚類方法歸類蛋白質(zhì)家族成員的典型實(shí)例是ProDom數(shù)據(jù)庫(kù)系統(tǒng)。ProDom的基本假設(shè)是蛋白質(zhì)家族可以通過(guò)采用序列比較的方法對(duì)現(xiàn)有的序列進(jìn)行洗牌式操作來(lái)識(shí)別。具體方法從UniProtKB蛋白質(zhì)序列數(shù)據(jù)庫(kù)開始，在去除片斷（segment）數(shù)據(jù)后，確定數(shù)據(jù)庫(kù)中最短的序列，然后針對(duì)該序列利用PSI-BLAST工具搜索數(shù)據(jù)庫(kù)中的剩

50、余部分。所有匹配序列被移出并用來(lái)生成一個(gè)新的ProDom家族。剩下的序列又再次依據(jù)其長(zhǎng)短排序以確定最短序列，重復(fù)該過(guò)程直至所有的UniProtKB序列被歸類到它們所屬的家族?；谒捎玫姆椒?，ProDom對(duì)蛋白質(zhì)序列空間具有最高的覆蓋性，不過(guò)在其150,000個(gè)家族中仍然存在一些少量的、潛在的、無(wú)生物學(xué)意義的聚類（clusters）。利用ProDom進(jìn)行蛋白質(zhì)家族成員歸類檢索時(shí)，與blast的使用類似，用戶以提交未知蛋白質(zhì)序列的方式對(duì)ProDom數(shù)據(jù)庫(kù)進(jìn)行搜索，返回結(jié)果給出了未知蛋白序列中與已知蛋白質(zhì)家族保守區(qū)域（稱為結(jié)構(gòu)域）的匹配情形。通過(guò)這些保守區(qū)域，可以將未知蛋白質(zhì)序列與已知蛋白質(zhì)家族成

51、員的相關(guān)功能注釋信息關(guān)聯(lián)起來(lái)，進(jìn)行功能預(yù)測(cè)。例7-4Protein_GenScan_HUMAN提交給ProDom（），搜索得到結(jié)構(gòu)域PDA1G9Z3、PD093265、PD912633、PDA24519，進(jìn)而可以得到由結(jié)構(gòu)域關(guān)聯(lián)起來(lái)的蛋白質(zhì)家族各成員與提交蛋白質(zhì)序列的多序列比對(duì)情況，如圖7.10所示。從中也可以分析得到，與前面blast預(yù)測(cè)得到的結(jié)果雷同，該序列屬于lipocalin家族。圖7.10 利用ProDom的搜索工具針對(duì)Protein_GenScan_HUMAN進(jìn)行功能預(yù)測(cè)得到的由PD093265關(guān)聯(lián)的蛋白質(zhì)序列與提交序列的多序列比對(duì)圖示結(jié)果Protein_GenScan_PICST

52、提交給ProDomProtein_GenScan_DANRE提交給ProDom得到的結(jié)果與采用前述方法得到的結(jié)果雷同，無(wú)法明確子家族的歸屬。其根本原因仍然在于序列聚類還是基于序列的相似性進(jìn)行搜索，因而探測(cè)蛋白質(zhì)家族中遠(yuǎn)緣成員的能力有限。另一種重要缺陷是自動(dòng)分析方法無(wú)法將生物學(xué)知識(shí)考慮進(jìn)來(lái)。7.4基于蛋白質(zhì)信號(hào)的功能預(yù)測(cè)如前所述，同一蛋白質(zhì)家族的多序列比對(duì)結(jié)果可以用來(lái)推斷結(jié)構(gòu)、功能和家族中關(guān)鍵的氨基酸殘基等重要信息。一些研究提出可以利用多序列比對(duì)結(jié)果來(lái)預(yù)測(cè)蛋白質(zhì)功能?；痉椒ㄊ?，通過(guò)比對(duì)同一家族的多條蛋白質(zhì)序列獲取相應(yīng)的比對(duì)結(jié)果并予以保存。在對(duì)未知蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)時(shí)，利用相應(yīng)的工具搜索該未

53、知序列中是否與保存的多序列比對(duì)結(jié)果匹配，據(jù)此可以把未知序列歸類到某蛋白質(zhì)家族，從而推斷其功能。將蛋白質(zhì)歸類到某家族有兩類方法：序列聚類方法和基于蛋白質(zhì)信號(hào)（protein signatures）的方法。前者即是中介紹的基于序列相似性聚類的方法。后一種方法基于蛋白質(zhì)信號(hào)將蛋白質(zhì)歸類到某家族，這類方法首先挖掘家族成員間的已知相似性，采用一定的數(shù)學(xué)模式來(lái)描述，并將這種描述方式用于識(shí)別新的家族成員。通常，描述方式有多種，各有其優(yōu)勢(shì)和弱點(diǎn)，可以整合在一起使用以補(bǔ)充各自的不足。蛋白質(zhì)信號(hào)Jacob在1977年曾經(jīng)指出，不管具體過(guò)程如何，“自然”像一個(gè)高明的裁縫，他把各式各樣的補(bǔ)丁搜集起來(lái)，縫制成一件百衲

54、衣（“Nature is a tinkerer and not an inventor”）。實(shí)際也正是如此，進(jìn)化過(guò)程并不都是從頭開始，而是利用現(xiàn)有材料，通過(guò)改造，使其產(chǎn)生新的功能，或者是把幾種不同的系統(tǒng)整合到一起，形成更好的新系統(tǒng)。而這些現(xiàn)有材料，就是蛋白質(zhì)序列中的“信號(hào)”。大量證據(jù)表明，蛋白質(zhì)序列中包含一些相對(duì)獨(dú)立的單元，包括功能位點(diǎn)（functional sites）、保守殘基（conserved residues）、殘基模式（residue patterns）、模體（motifs）、指紋（fingerprints）、結(jié)構(gòu)域（domians）等（具體描述見(jiàn)下文），這里統(tǒng)稱為蛋白質(zhì)信號(hào)（pr

55、otein signature）。它們往往在一個(gè)蛋白質(zhì)家族的所有成員中都是保守的而在其它蛋白質(zhì)序列中完全不同，這意味著該信號(hào)可能對(duì)該蛋白質(zhì)家族來(lái)說(shuō)，起著維持其結(jié)構(gòu)的關(guān)鍵或承擔(dān)著實(shí)現(xiàn)重要生物功能的作用，可以用來(lái)推斷結(jié)構(gòu)、功能和家族中關(guān)鍵的氨基酸殘基等重要信息。下面以結(jié)構(gòu)域和模體為例進(jìn)行蛋白質(zhì)信號(hào)的簡(jiǎn)單介紹。1. 蛋白質(zhì)結(jié)構(gòu)域強(qiáng)調(diào)蛋白質(zhì)的模塊化結(jié)構(gòu)需要強(qiáng)調(diào)一個(gè)概念就是蛋白質(zhì)的結(jié)構(gòu)域。結(jié)構(gòu)域?qū)τ谠S多蛋白質(zhì)家族來(lái)說(shuō)很為常見(jiàn)。比如，Src-同源體（SH2和SH3）結(jié)構(gòu)域會(huì)出現(xiàn)在許多與信號(hào)有關(guān)的蛋白質(zhì)中，pleckstrin同源體（PH）結(jié)構(gòu)域會(huì)出現(xiàn)在許多結(jié)合磷脂的蛋白質(zhì)中。這些模塊化結(jié)構(gòu)很可能反映了蛋白

56、質(zhì)的進(jìn)化方式。遺傳事件可以導(dǎo)致結(jié)構(gòu)域互換、結(jié)構(gòu)域復(fù)制、結(jié)構(gòu)域丟失和獲得等。得到有特定功能的新結(jié)構(gòu)域可以使蛋白質(zhì)非常迅速地獲得更加復(fù)雜的新功能。例如，酶可能得到與調(diào)節(jié)它的活動(dòng)相關(guān)的新結(jié)構(gòu)域，產(chǎn)生一種特定性更強(qiáng)的情況下有活性的蛋白質(zhì)。許多蛋白質(zhì)由不止一個(gè)結(jié)構(gòu)域構(gòu)成。這里并沒(méi)有嚴(yán)格定義什么是蛋白質(zhì)結(jié)構(gòu)域，這是因?yàn)楹茈y確立這樣一個(gè)定義。結(jié)構(gòu)域可以被定義為具有單一明確功能（例如結(jié)合一種特定的配體）的部分蛋白質(zhì)序列，它們也可以是獨(dú)立于序列其他部分之外，能夠獨(dú)立折疊成三維結(jié)構(gòu)的部分序列。它們還可以被定義為蛋白質(zhì)三級(jí)結(jié)構(gòu)中幾何結(jié)構(gòu)不同的部分?？梢悦鞔_結(jié)構(gòu)域的一個(gè)重要特性，那就是結(jié)構(gòu)域必須是一個(gè)獨(dú)立的單元，它能

57、存在于許多不相關(guān)的蛋白質(zhì)序列中。2. 蛋白質(zhì)共享結(jié)構(gòu)域的方式蛋白質(zhì)之間共享一個(gè)結(jié)構(gòu)域的方式可以有多種。在Pevsner J的“生物信息學(xué)與功能基因組學(xué)”一書中圖示（圖7.11）了其中主要的三種方式1(a)），如lipocalin結(jié)構(gòu)域。還有很多其他小的球蛋白也是由單個(gè)結(jié)構(gòu)域構(gòu)成的。圖7.11 蛋白質(zhì)共享結(jié)構(gòu)域的三種主要方式另一種更為常見(jiàn)的情況是，蛋白質(zhì)由多個(gè)結(jié)構(gòu)域構(gòu)成，1(b)所示。一個(gè)例子就是甲基結(jié)合結(jié)構(gòu)域（methy-binding domain2中的7個(gè)蛋白質(zhì)都具有結(jié)合甲基化的DNA的能力，但這7個(gè)蛋白質(zhì)中的同一個(gè)結(jié)構(gòu)域分別位于序列的不同區(qū)域上。甲基-CpG-結(jié)合蛋白2（Mecp2）就是

58、這7個(gè)蛋白質(zhì)中的一個(gè)。它是一個(gè)轉(zhuǎn)錄抑制因子，可以結(jié)合在很多基因的上游調(diào)控區(qū)（MECP2基因的突變會(huì)導(dǎo)致Rett綜合癥或女孩的神經(jīng)邏輯錯(cuò)亂，它還是女性智力障礙的幾個(gè)常見(jiàn)原因之一）。可以用blastp軟件搜索與Mecp2蛋白有顯著相似性的序列（部分搜索結(jié)果如圖7.13所示）3(a)顯示了MeCP2這個(gè)蛋白質(zhì)包含的結(jié)構(gòu)域MBD是一個(gè)保守結(jié)構(gòu)域，并據(jù)此構(gòu)成了一個(gè)蛋白質(zhì)超家族（MBD superfamily）。BLAST的搜索結(jié)果顯示Mecp2蛋白只有一部分與其它4個(gè)MBD3(b)）。進(jìn)一步分析MeCP/MBD家族的這5個(gè)蛋白，會(huì)發(fā)現(xiàn)這5個(gè)蛋白大小相差很大，只有MBD結(jié)構(gòu)域相互匹配，其他部分并不匹配。也就是

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

蛋白質(zhì)序列分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

蛋白質(zhì)序列分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔